X



Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0002名無しさん@お腹いっぱい。
垢版 |
2016/09/30(金) 23:54:00.45
 
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
 
0006名無しさん@お腹いっぱい。
垢版 |
2016/10/01(土) 15:05:09.01
0007名無しさん@お腹いっぱい。
垢版 |
2016/10/04(火) 06:16:20.88
浮上
0008名無しさん@お腹いっぱい。
垢版 |
2016/10/04(火) 15:20:50.65
スレ保全
0009名無しさん@お腹いっぱい。
垢版 |
2016/10/08(土) 19:41:25.44
これでインフォシークの消えたページ見る方法ないの?
0010名無しさん@お腹いっぱい。
垢版 |
2016/10/09(日) 06:07:06.45
Internet archiveでYoutubeの動画をダウンロードするのに簡単な方法は何かありますか?
0011名無しさん@お腹いっぱい。
垢版 |
2016/10/09(日) 06:45:07.16
>>9
インフォシーク自身はロボット除けの robots.txt を置いたり
コンテンツを Internet Archive からごっそり削除させたりということは
やっていないので、アーカイブさえ残っていれば問題なく見られます。
0014名無しさん@お腹いっぱい。
垢版 |
2016/10/17(月) 12:49:50.07
Youtubeとかrobots.txtで保存できないサイトは、
Archive.is→ウェブ魚拓と経由させると保存できるよ
これ結構やってる豆知識
0015名無しさん@お腹いっぱい。
垢版 |
2016/11/30(水) 18:35:43.93
robots.txtで

Disallow: /
Allow: /nullpo/

とかアロウ指定されてても効いてなくて一括ではじかれるやつが痛い
0017名無しさん@お腹いっぱい。
垢版 |
2016/12/01(木) 19:00:58.64
サービス終了したniftyの保存し忘れてたサイトをInternet archiveで
サルベージしようと思ったのに出来るサイトとできないサイトがあるんだな
homepage2.nifty.comはThis URL has been excluded from the Wayback Machine.が出て全くダメで
homepage3.nifty.comはいけた これ2の方はアーカイブされてないってことか
データベース系サイトの消失が勿体無い
0021名無しさん@お腹いっぱい。
垢版 |
2016/12/13(火) 17:26:17.11
前は500billionページ超えてた気がするけど保存ページへってない?
自分が以前保存させたのも今見てみたら保存できてないし
0023名無しさん@お腹いっぱい。
垢版 |
2016/12/17(土) 04:17:40.90
>>21
ttp://web.archive.org/web/20161015012725/archive.org/web/web.php
510 billion web pages saved over time.

これが最高値かな。10 日後には半減してる。
0029名無しさん@お腹いっぱい。
垢版 |
2016/12/26(月) 23:21:17.03
今Chromeでアクセスして過去ページ見るとどこを見てもファビコンが「あたまにきた」になるんだけど俺だけ?
0035名無しさん@お腹いっぱい。
垢版 |
2017/01/12(木) 22:29:14.71
単語で検索できたら最高なのにな
URLが分からなきゃせっかく保存されてる過去の遺産も永遠に見れないままとか糞
0041名無しさん@お腹いっぱい。
垢版 |
2017/02/11(土) 23:37:08.87
あちらの時間で9日に取得してアーカイブ成功したときの表示になった62ページのうち
20ちょっとが失敗してることを今確認してて気付いた
使ってた端末とかの環境も取得対象にしたドメインも分散してるからあちらの問題ぽい
そのあたりに取った人は成功してるかチェックしたほうがいいかも
0043名無しさん@お腹いっぱい。
垢版 |
2017/02/12(日) 22:39:45.19
http://page.freett.com/brave_heart/atm_inspire/
こっちのサイトのFlashを見ようと思って、最近の日時のやつだと表示されないから古い日時のやつ見ようと思ったら勝手にinfoseekのトップに飛ばされてしまう…
飛ばされないようにすることとか出来ぬのか
(ブラウザはedge、chrome、Firefox)
0044名無しさん@お腹いっぱい。
垢版 |
2017/02/12(日) 23:27:33.37
見てみたけどInfoseekトップじゃなくてhttp://binyudaisuki.hp.infoseek.co.jp/に飛ばそうとしてる(そしてinfoseek側がトップにリダイレクトしてる)。
Flashのことは知らないけど、他サイト(この場合web.archive.org)からの再生を検出してそこに飛ばす、みたいなのが組み込まれてるんじゃないの?
0045名無しさん@お腹いっぱい。
垢版 |
2017/02/17(金) 00:42:15.71
バイナリエディッタって復元したい画像があるんですが、やってくれる神様いますか?
潰れた撮影会系サイトのアーカイブデータなんですが、一連の画像のうち、ほぼ半分が割れて開けません
(わいせつ性もジポ性も皆無のピチピチという言葉にハマらないクソつまらない画像だというのは一連の画像なのでわかります。)
0047名無しさん@お腹いっぱい。
垢版 |
2017/04/02(日) 01:20:23.71
最近robot.txtで弾かれるの増えたな
ついったの動画とかみんなどうやって補完するんだろう

>>29
ここのファビコンはしょっちゅう化ける 原因は不明だが
最近自分が見たサイトのものと入れ替わることが多い
archive自体のファビコンはちゃんとあるのにな
0056名無しさん@お腹いっぱい。
垢版 |
2017/04/17(月) 14:46:28.12
自分のサイトが中途半端にアーカイブされていて恥ずかしかったから
なんちゃらtxt入れたら過去の分もアクセスできなくなったがそれじゃないのか
0058名無しさん@お腹いっぱい。
垢版 |
2017/04/18(火) 22:12:00.90
なんか数日前から突然ツイッターとか他のサイトも色々robot.txtが云々で保存できなくなってて絶望してたんだけど、みんなもそうだったのか
色々なサイトが仕様変更したんじゃなくてInternetArchiveの方が何か改悪したのか?
0064名無しさん@お腹いっぱい。
垢版 |
2017/04/19(水) 11:06:54.58
firefox10で表示できなくなった。
それとは別に、robots.txtのせいで表示できないサイトがあるのって全体的にそうなの?
0066名無しさん@お腹いっぱい。
垢版 |
2017/04/21(金) 00:53:19.35
フレームの件はサイト名がタブに出るから直る可能性があるけど
biglobe系のサイトが全滅?してしまったのが痛すぎる
0071名無しさん@お腹いっぱい。
垢版 |
2017/04/25(火) 09:40:01.45
いわゆる機種依存文字だけが化けるという問題なら
2014 年 7 月にすでに始まっているはず。

自称 Shift_JIS の Windows-31J な文書も、あくまで厳密に Shift_JIS として
UTF-8 への変換を掛けてしまってるんだよね。
0075名無しさん@お腹いっぱい。
垢版 |
2017/04/25(火) 21:37:43.40
フレームのページは見れるようになったが、通常は上に表示される棒グラフが出ないな。
フレームじゃないページでも棒グラフのところが真っ白になるのもある。
0077名無しさん@お腹いっぱい。
垢版 |
2017/04/26(水) 22:19:13.11
>>73
ハーメルンも
0078名無しさん@お腹いっぱい。
垢版 |
2017/04/27(木) 04:07:25.92
>>74
推測だけど、レンタルサーバーに自分のページを作って削除報告→ドメインごと見れなくなるだと思われ
0080名無しさん@お腹いっぱい。
垢版 |
2017/04/27(木) 13:31:04.19
古いサイトの魚拓をとる場合はGoogleキャッシュ→archive_isが文字化けしないから確実だと思う
0082名無しさん@お腹いっぱい。
垢版 |
2017/04/27(木) 13:57:40.78
IAも誰かが削除依頼すればドメインごと見れなくなるという欠点あるからなぁ
ドメイン(サブ含む)保有者ならrobot.txtを設置するだけで見れなくすることができるし
0085名無しさん@お腹いっぱい。
垢版 |
2017/04/28(金) 22:16:54.34
最近旧operaだとうまく機能しなくなったからおかしいと思ったら他のブラウザもそうなのか
アドレスが文字化けしたりカレンダー画面出せなくなったり
JS切ると1つだけ検索出てくる(たくさん登録されてても)
システム戻してほしい
0087名無しさん@お腹いっぱい。
垢版 |
2017/04/30(日) 22:51:56.31
本当に前と比べてかなりのサイトが魚拓できなくなってるし表示もおかしいし今までの魚拓も大部分見れなくなってるしでイライラする
0088名無しさん@お腹いっぱい。
垢版 |
2017/05/05(金) 10:09:28.44
もうダメだこのサイト使い物にならん…
0089名無しさん@お腹いっぱい。
垢版 |
2017/05/05(金) 10:23:10.93
Bummer
Hrm
robot.txt
こればっかりで今ネットの9割以上のサイトがこれで全く保存も閲覧もできなくなってる感じなんだけど?
InternetArchiveはネットの保存収集あきらめたの?バカなの?
0091名無しさん@お腹いっぱい。
垢版 |
2017/05/07(日) 19:41:05.12
あるサイト(ジオ)で10あるサイト内リンクのうち6つが「7d6 0」としか表示されないんだけど、
これって何でか分かりますか?
他4つは正常に表示されるんですが……
0092名無しさん@お腹いっぱい。
垢版 |
2017/05/10(水) 16:29:22.43
「HTML はアーカイブされているけど、そこで使われている画像はアーカイブ無し」
という状況のとき、その画像について以前は /save/ の URL にリダイレクトして
オリジナルサーバへ読みに行かせていたのが、ただ 404 を返すだけに変わった。
0093名無しさん@お腹いっぱい。
垢版 |
2017/05/10(水) 16:47:46.15
>>89
Sorry. This URL has been excluded from the Wayback Machine.
これが抜けてる
009694
垢版 |
2017/05/18(木) 08:40:15.31
え?
もしかしてfirefox10が悪いの?
つい先日まで使えてたのに。
0097名無しさん@お腹いっぱい。
垢版 |
2017/05/18(木) 19:48:20.59
収得ページの上に表示されるグラフやら時間移動の左右矢印やら消えてるのはIA側の不具合ですか?
一番新しい登録から移動できないのは不便。ブラウザ変えてもダメ
0099名無しさん@お腹いっぱい。
垢版 |
2017/05/19(金) 05:37:34.37
古いブラウザでは動作しなくなっていますね。
Firefox 13.0.1 ttp://i.imgur.com/D8ugVF8.png
Firefox 14.0.1 ttp://i.imgur.com/3VhIJse.png
Firefox 21.0 ttp://i.imgur.com/OqutIJD.png
Firefox 22.0 ttp://i.imgur.com/GFL3Imq.png

14.0.1 〜 21.0 ではカレンダーは一応表示されるのですが、
日付が縦に並び、下の月の数字と重なってしまうので使い物になりません。
0100名無しさん@お腹いっぱい。
垢版 |
2017/05/19(金) 08:08:36.19
>>82
そのうち全サイトがrobots.txtかexcludedで見れなくなりそう
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況