X



Internet Archive総合 (web.archive.org) #5
0001名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 06:58:53.37
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
http://archive.org/

インターネット・アーカイブ - Wikipedia
http://ja.wikipedia.org/wiki/InternetArchive
 ------------------
Twitter
https://twitter.com/internetarchive/

関連スレ
【保存・記録】ウェブアーカイブ総合 Page.01
https://mevius.5ch.net/test/read.cgi/internet/1554553882/


前スレッド
Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/
https://twitter.com/5chan_nel (5ch newer account)
0309名無しさん@お腹いっぱい。
垢版 |
2024/02/12(月) 13:36:03.14
Wayback Machineってdoc形式のファイルやdocx形式のファイルも保存できるんだね
ホント便利だな
0310名無しさん@お腹いっぱい。
垢版 |
2024/02/12(月) 16:04:03.39
一日一回のみとか10回のみのエラーってAPIドキュメントには無いよね?
特別に指定されてるんだろうか
0311名無しさん@お腹いっぱい。
垢版 |
2024/02/14(水) 16:25:56.42
X(twitter)はnitter.czにリンクを変えて、archive.todayにぶち込んで保存してる。
他にも方法あるかもしれんけど
0312名無しさん@お腹いっぱい。
垢版 |
2024/02/15(木) 18:30:11.00
そういやnitterの開発終了したんだってな
今のところ動いてるインスタンスはあるけど、これからどうなんだろ
0313名無しさん@お腹いっぱい。
垢版 |
2024/02/15(木) 23:04:23.48
これからどうやってtwitter保存すればいいんだろう
0314名無しさん@お腹いっぱい。
垢版 |
2024/02/17(土) 01:09:16.83
youtubeの動画保存って無くなったのか?
youtubecrawlのコレクションは増え続けてるから動いてるはずなんだが、未だに保存されん・・・
国内メディアのニュース動画だからブロックされてる訳でも無いと思うんだがなぁ
0316名無しさん@お腹いっぱい。
垢版 |
2024/02/17(土) 18:37:04.84
>>315
ホンマや
0317名無しさん@お腹いっぱい。
垢版 |
2024/02/21(水) 03:43:18.85
>>281 が PC でも見られる、ってことは保存し直しの必要は無しか。
しかしアーカイブの表示内容が変化するってのは、別の意味で気持ち悪い。
0318名無しさん@お腹いっぱい。
垢版 |
2024/02/21(水) 16:29:14.97
ページ数、なかなか9000億超えないな
0321名無しさん@お腹いっぱい。
垢版 |
2024/02/24(土) 02:00:32.15
ヘッダー部分の下からが表示されないんだねど自分だけかな。キャッシュ消したり再起動しても直らん
0323名無しさん@お腹いっぱい。
垢版 |
2024/03/03(日) 13:23:54.98
ブルースカイは、アカウントの設定(ログアウトしたユーザーからの可視性)よっては取得できないから注意
0326名無しさん@お腹いっぱい。
垢版 |
2024/03/04(月) 06:55:51.29
ページを保存させて完了画面も確認したのに、そのページが表示されないな
カレンダー形式の一覧に反映されるまでにはこれまでも時間がかかっていたけど
保存ページ自体が数十分待っても出てこないのは初めて
0327名無しさん@お腹いっぱい。
垢版 |
2024/03/04(月) 07:06:56.05
今もう一度見てみたら、既にカレンダー形式の日付には青丸が付いているのに
さっき保存した保存時刻(UTC)をクリックしてもその内容が表示されないという現象が起きてる
0329名無しさん@お腹いっぱい。
垢版 |
2024/03/05(火) 17:33:40.00
i.imgur.comのページは一瞬で保存できるのなんでなんだろ
0330名無しさん@お腹いっぱい。
垢版 |
2024/03/05(火) 19:50:05.76
>>329
1. 対象 URL に HEAD リクエストを投げる。

2. レスポンスヘッダから単一の画像ファイルであることを検知。
(Content-Type: image/jpeg 等)

3. ヘッドレスブラウザは不要と判断、後回しにせず即アーカイブ作業に移る。

対象が HTML の場合は後回しにされることが多いが、おそらく
ヘッドレスブラウザで HTML をパースして追加の画像等を拾ってきたり、
JavaScript を実行させる必要があるなど負荷が重いから。
HEAD リクエストが送られる件については >>3 のドキュメントの force_get の項を参照。
0331名無しさん@お腹いっぱい。
垢版 |
2024/03/06(水) 01:49:37.87
ニコニコ動画のフォロワー欄が途中までしか保存されない問題ってどうすれば解決できますか?

www.nicovideo.jp/user/23396749/follow/follower

https://archive.is/4Efzj

上記のユーザーならフォロワーは僅か40なので情報量が大きすぎるという訳でもないはずなのですが
0333名無しさん@お腹いっぱい。
垢版 |
2024/03/10(日) 15:18:40.98
今日調子悪い?
0334名無しさん@お腹いっぱい。
垢版 |
2024/03/10(日) 15:18:44.98
今日調子悪い?
0338名無しさん@お腹いっぱい。
垢版 |
2024/03/11(月) 21:15:52.76
>>331
じゅんじゅ@\( ・ω・)/ www.nicovideo.jp/user/41124243
元グリーンベレー user/13675361 ・ lalala user/2765923
蘭‐Ran‐ user/18878661 ・ めざすくん user/27507212
わるよい user/3953893 ・ ゆ〜の user/2915294
sou user/11352489 ・ モッチチ user/6511183 ・ 海鼠 user/4114082
0342名無しさん@お腹いっぱい。
垢版 |
2024/03/15(金) 16:03:39.90
imgur 画像のリファラ検査が始まり、直リンが禁止されてアーカイヴできなくなった。
https://i.imgur.com/8oRShxz.jpeg

https://imgur.com/8oRShxz
ページ内の埋め込み画像はリファラが送られるが、この URL では駄目。

https://imgur.com/8oRShxz/embed
この URL のアーカイヴを保存させればよい。

結果
https://web.archive.org/web/20240315065808im_/i.imgur.com/8oRShxzl.jpg
0343名無しさん@お腹いっぱい。
垢版 |
2024/03/16(土) 14:31:32.48
>>342
その方法を今試してみたけど保存できてないよ。
保存したファイルと元のファイル比較してみれば分かるけど解像度もファイルサイズも違うしURL末尾辺りに謎の小文字lが付加されてる。
0344342
垢版 |
2024/03/16(土) 15:04:21.21
>>343
あーほんとだ、気付かんかった

8oRShxz
8oRShxzl

何か良い方法は無いかな
0348名無しさん@お腹いっぱい。
垢版 |
2024/03/22(金) 05:15:15.83
NHKが運営するネット上の特設ページ、続々と運営終了。放送法改正を見据えた動きか

https://internet.watch.impress.co.jp/docs/yajiuma/1577805.html

2024年4月1日10:00をもちまして、以下特設ページの掲載を終了(番組ストリーミングを含む)いたします。(NHKゴガク)
https://www.nhk.or.jp/gogaku/
NHK、「政治マガジン」など6サイト更新停止へ 新サービスを検討(朝日新聞デジタル)
https://www.asahi.com/articles/ASS375VHPS36UCVL04P.html
NHKやばいな。どんどんデジタルサービス終了させている。声調確認くんとか、凄く良かったのに。デジタル頑張っていた中の人たちが気の毒。(Togetter)
https://togetter.com/li/2334548
0349名無しさん@お腹いっぱい。
垢版 |
2024/03/23(土) 15:57:54.15
特許や意匠権の参考文献にURLが記載されてる事って多いんだけどさ
昔のホームページだと404かつ何処にもアーカイブされてないとかざら何だよな
せめてその辺は国がアーカイブしないと将来的に困ったことにならんのか?と思う
0359名無しさん@お腹いっぱい。
垢版 |
2024/03/28(木) 15:36:57.20
Queue-Itの待合室経由みたいに、いったんリダイレクトされてJavascript動作してから本サイトにリダイレクトされるようなサイトはどうやってアーカイブするの?
save page nowではなくて、自PCでアクセスして表示したページをそのままアーカイブできる機能とかあればしりたい。
0368名無しさん@お腹いっぱい。
垢版 |
2024/04/02(火) 19:17:02.33
どうも postpagebeta=0 のクッキーだけ送っておけば、
リファラ無しの画像直リンでも OK っぽいな。

>>367
スクリプト使うのも Save Page Now のページを使うのも、やってる事は全く同じなんだけど
後者では入力できないパラメータを送る必要があるんだよね。
https://web.archive.org/save/ を表示させて、次のブックマークレットで入力欄を追加してから
上の欄に imgur の画像 URL、下の欄に postpagebeta=0 を入力してボタンを押せば
たぶん保存できる。
https://pastebin.com/uEZ1Dbqi
0372名無しさん@お腹いっぱい。
垢版 |
2024/04/04(木) 13:26:28.62
imgur の画像直リンが、クッキーを付けてあってもリダイレクトされるようになってしまったかも。
それでも拡張子の無い https://imgur.com/xxxxxxx 形式の URL を
クッキー付きでアーカイブさせれば、画像にはリファラが送られるので保存はできている。
0373名無しさん@お腹いっぱい。
垢版 |
2024/04/06(土) 22:10:26.61
Resources (ページ内画像等) としてアーカイブされた URL がカレンダ表示に登場するまでに
時間が掛かってる
0374名無しさん@お腹いっぱい。
垢版 |
2024/04/07(日) 12:36:44.17
APIでリファラも送れるようにしてくれないかな
cookieやUAは送れるのにリファラは対応してないの何で?
0378名無しさん@お腹いっぱい。
垢版 |
2024/04/09(火) 18:51:29.66
>>377
自分も、ここ最近X(旧Twitter)のアーカイブが取得できなくて困ってる。
0380名無しさん@お腹いっぱい。
垢版 |
2024/04/14(日) 14:05:36.49
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
0381アーカイブ
垢版 |
2024/04/15(月) 06:08:58.29
またイモグラ保存できなくなったんじゃないだろうな
もうイモグラは使わないでくれ
0383アーカイブ
垢版 |
2024/04/15(月) 14:34:30.98
OutLinksを使うと保存できてる時もあるっぽいな。
これが原因か?
0384アーカイブ
垢版 |
2024/04/15(月) 16:54:08.33
いや関係無いっぽいな。
試しにスクリプトが上げてるグ□画像を保存してみたらOutLinksなんて無くても一発で取れた。
取れる画像と取れない画像があるのか?
0387アーカイブ
垢版 |
2024/04/16(火) 08:03:08.50
保存回数上限がホスト毎に決められているけど、回数はURL毎に数えているってことか。
0389名無しさん@お腹いっぱい。
垢版 |
2024/04/19(金) 22:35:13.33
そろそろやばいやばいっていわれてるけど、Archive.liがなくなる事ってあるのかね。
そもそもあいつの資金源どうなってんだ?
0390名無しさん@お腹いっぱい。
垢版 |
2024/04/19(金) 22:39:26.28
運営費がかさむかさむって言ってたし、ロシアでの運営じゃ厳しいだろ。
国を出ないなら、このまま吹き飛びそうだな。
0391名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:11:21.35
【質問】Wayback machineで既に誰かがウェブサイトをアーカイブしていたときサイトのアーカイブは更新されるのか

拡張機能web archivesでwayback machineを選択する→既にアーカイブされている1年前のものが表示される

画像などが保存されていないので現在の最新の状態で完全なものをアーカイブしたいんですが可能なんですかね?やり方がわかりません
gyazo.com/2dea0146024edc6952878c8d25b9b572
0392名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:57:11.01
Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
0393名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:57:11.53
Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
0395名無しさん@お腹いっぱい。
垢版 |
2024/04/23(火) 19:37:25.85
アーカイブチーム、いや、いつもアーカイブしている人たちは全員本当にやる気を感じない
YouTubeの動画のページが公開された時、すぐに保存されないケースが多いし。
0398名無しさん@お腹いっぱい。
垢版 |
2024/04/29(月) 19:58:05.90
ttps://www.courts.go.jp/app/files/hanrei_jp/995/088995_hanrei.pdf
グリーの弁護士、Wayback MachineのURL日付部分を日本時間基準だと勘違いして日付が一致しないとか言ってて草
検証の部分でUTC時間だから問題ないとちゃんと反論されていてよかった、ついでに裁判も負けてる
0399アーカイヴ
垢版 |
2024/04/30(火) 22:20:03.49
さっきまでめっちゃ調子よかったのに503
0400名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:42:01.31
てかメンテの表示出てるじゃん。今夜はもう無理かな。

>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
0401名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:42:04.16
てかメンテの表示出てるじゃん。今夜はもう無理かな。

>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
0402名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:49:38.87
>>387
そういえば、ちょっと前にyoutube.comの1日の保存上限で8万回?ってエラー出てた。2年ぐらい前にエラー出た時はもっと数字が大きかった気がするけど。
確実に保存したいなら上限がリセットされるはずの日本時間午前9時から早い者勝ちで保存するしかないみたいだが。
0406名無しさん@お腹いっぱい。
垢版 |
2024/05/04(土) 15:36:31.33
>>403
今見てみたら、動画ファイルの保存まではできてないみたい。

確認用コード
curl -I "https://web.archive.org/web/2oe_/http://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。
レスを投稿する


ニューススポーツなんでも実況