X



Internet Archive総合 (web.archive.org) #5
0001名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 06:58:53.37
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
http://archive.org/

インターネット・アーカイブ - Wikipedia
http://ja.wikipedia.org/wiki/InternetArchive
 ------------------
Twitter
https://twitter.com/internetarchive/

関連スレ
【保存・記録】ウェブアーカイブ総合 Page.01
https://mevius.5ch.net/test/read.cgi/internet/1554553882/


前スレッド
Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/
https://twitter.com/5chan_nel (5ch newer account)
0002名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:00:04.50
【QA】

Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

Q.寄付したいんだけど?
こちらから金額,一度きりか毎月か,送金方法を選んで寄付してください
https://archive.org/donate

Q.すぐに保存したい場合は?
Save Page NowにURLを入力して「SAVE PAGE」ボタンを押す
https://web.archive.org/save/

Q.アカウント作ったらなんかいいことあるの?
A.ページのスクリーンショットを保存したり、ページの全てのリンク先を保存できる「Save outlinks」という機能が使える

Q.spn@archive.orgにメールでURLを送ったら保存されるの?
A.1週間後に保存完了のメールが届いたり、何も戻ってこない失敗した場合があるので、確実に保存したいなら辞めたほうがいい
0003名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:00:23.53
Q.インスタのURLが保存できないんだけど
A.ログインしないとコンテンツが表示されない仕様になったので保存自体が無理になってます

Q.robots.txtでia_archiverをDisallowしても無視されるの?
A.中古ドメインでサイト見れなくするやつのせいでrobots.txtを見ない仕様になったので無視されることも従うこともある。保存できることもあるので確認してみたほうが早い

Q.鯖落ちしてる?
A.ここで鯖状態を見れる
https://analytics0.archive.org/stats/wb.php
https://archive.org/stats/

Q.Temporarily Offline The Internet Archive's sites are temporarily offline. We apologize for the inconvenience. って何?
A.たまにメンテやってサイト見れなくなることがあるので、待ちましょう。ツイッター(@InternetArchive)でメンテ予告は発表しています

Q.Save Page Nowの制限などの仕様は?
A.ここを参照
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit

Q.Save Page Nowで保存完了しても保存されたページが表示されないんだけど
A.完全にページが見れるようになるのと、/*/のページ一覧やカレンダーに反映されるまで時間かかるので最大数日待ってください
ほとんどは数分後には見えるようになってるはず、もしくはウェブブラウザのキャッシュを削除するといいかも
0004名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:01:15.35
Q.「The capture is estimated to start in XX minutes.」って何?
A.Save Page Nowの保存サーバーの空きがなくて保存処理に時間がかかってる状態、急いでなければあとでやるのも手

Q.The same snapshot had been made XX minutes and XX seconds ago. We only allow new captures of the same URL every XX minutes.
A.同じURLを短期間の間に何度も保存できない仕様になっています、誰かが数分前に保存したか、自分で保存したときに一部の画像がかけて保存されている状態でも表示されることがあります
気になるなら1時間後ぐらいにもう一度保存してください

Q.The server didn't respond in time for https://(保存しようとしたURL)
A.極端にページの返答が遅いサイトを保存しようとするとこの表示が出ます、何度かやれば保存できることもあります

Q.「You have already reached the limit of active sessions」が出た
A.同じIPアドレスからの同時保存制限に引っかかってる状態。2021年5月24日以降はログインしていないユーザーは同時保存は3個まで。1分ほど待てば制限解除される

Q.「This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.」が出た
A.1日に同じURLは10回まで保存できる制限に達したので、また明日(UTC)
0005名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:01:22.75
Q.「This URL has been excluded from the Wayback Machine. 」って何?
A. robots.txtのブロックや、サイトの運営者や著作権者がドメインやこのディレクトリごと非表示化の申請をした可能性があります、
ただしURLの保存はできますし、将来的にブロックが解除されて見れるようになる可能性もあります

Q.「Cannot get status of spn2-乱数」のエラーは何?
A.Save Page Nowで保存中にサーバーの状態が取得できなかったときのエラーで、/*/で保存されているか確認して、されてなければもう一度保存してください

Q.「404 Not Found」のエラーは何?
A.サイトが存在していてもこのエラーが出ることがあります。その場合は時間あけて一度保存してみましょう

Q.「Sorry Job failed」が出た
A.このエラーが出たとしても一部画像やスクリプトファイルが欠けた状態でページ保存できていることがありますので、/*/で確認してみてください
保存できてない場合はやり直してください
0007名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:01:55.63
拒否URL関係まとめ

This URL has been excluded from the Wayback Machine.
https://note.com/
https://gigazine.net/
https://boards.4channel.org/
https://bokete.jp/
https://yoshidakenkou.net/
https://tanteifile.com/
https://motherless.com/
https://www.lancers.jp/

This URL is in our block list
https://finance.yahoo.co.jp/brokers-hikaku/ 以下全て
https://movie.eroterest.net/
https://anime.eroterest.net/

サイトの仕様で取れないもの
https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる

ArchiveTeamのexcludedまとめ
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine
0008名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 07:02:57.18
アーカイブ済のURL一覧を出力する方法
1. http://web.archive.org/cdx/search/cdx?url=example.com*&;output=txt にアクセス
2. example.comのところをアーカイブしたページのトップページURLに変える。*を誤って消さないようにすること
3. 大量のテキストが出るので全選択してコピー
4. Excel立ち上げてCtrl+Aで全選択して貼り付け
5. 「テキストから列へ」を選んでスペースを基準にセルを区切る
6. セル列のアルファベット文字をクリックしたらその列が全選択になるからURLの列をコピーしてテキストエディタに貼り付けるなりする

同じURLでも保存した時間分の数書いてあるから置換ツールで重複した行を消すこと
IAのURLsでは10000個までしか表示できないがこの方法使ってアーカイブされたURLの正確な総数がわかるはず
WEB版のExcelだと貼り付け時に容量オーバーで受け付けてくれないことがあるからその場合はLibreOffice Calcでも使えばいい
LibreOfficeの場合貼り付け後、表全体の全選択を解除し、1回セルAをクリックしてセルAを全選択した後、データ→テキストから列へ を選ぶことでセル分け可能


引用元: https://exposureninja.com/blog/extract-urls-archive-org/
https://mevius.5ch.net/test/read.cgi/esite/1628793497/332
0010名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 16:21:28.75
おつでありんす
0011名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 19:06:10.70
todayだとヤフーニュースが保存できなくなってる
だからInternet Archiveで保存することが増えた

慶応vs横浜だけじゃない…甲子園目指す球児とファンを悩ます高校野球「パイア問題」とは?
news.yahoo.co.jp/profile/comments/55eb7cbd-6f69-41ed-ab91-6d7a3ebd5d16
0012名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 19:09:18.35
私も19年前鹿児島県大会の夏、三塁塁審の誤審により三点本塁打となり高校野球を終えました。
主将を務めていた私は何度も三塁塁審へ抗議にいきましたが、塁審は「私が間違う訳がない」の一点張り。
その日に放送されたニュースでもしっかりファウルである映像が映し出されましたが判定が覆ったわけでもなく、
むしろその誤審をした審判は今や鹿児島県高野連の審判長まで登り詰めております。
ただ試合後主審の方が私を呼び出し、「審判も人間だから間違うときもあるからね」と声を掛けられました。
誰が見てもわかる誤審であっても審判長にまで登りつめるためには誤審を認めるわけにはいかない、
審判の方々も会社と一緒でそういったなかでされていて大変なのかもしれないとこの歳になって少しわかってきました。

todayでも↑のコメントを保存したかったなあ…
0014名無しさん@お腹いっぱい。
垢版 |
2023/07/29(土) 14:34:01.29
twitterのプロフィールはwaybackmachineで保存できなくなった
個別のツイートは保存できるけど、コメント欄は保存できないし、いろいろ改悪されたなあ
0015名無しさん@お腹いっぱい。
垢版 |
2023/07/31(月) 10:26:16.62
tubeupでひたすらサムネイルだけ上げてる奴って何が目的なんだ?
他の人がアップロード出来なくなるから普通に迷惑なんだが
0016名無しさん@お腹いっぱい。
垢版 |
2023/08/01(火) 12:14:52.09
ニコニコとかYouTubeってarchiveで保存しても動画再生出来ないの?
0017名無しさん@お腹いっぱい。
垢版 |
2023/08/01(火) 14:26:51.27
>>16
自分は魚拓サイト初心者だから専門的な知識とかは余り持ってないけど
IAやtodayでは動画サイトの動画は恐らく保存されないと思う
0019名無しさん@お腹いっぱい。
垢版 |
2023/08/02(水) 11:49:36.01
>>14
今はプロフィールも保存できるね(ログインしなくても閲覧出来る)

方針コロコロ変えすぎでわけが分からないよイーロン
0022名無しさん@お腹いっぱい。
垢版 |
2023/08/05(土) 21:26:33.08
あれ?また取れるようになってるな
非ログイン状態でも見れるプロフィールと見れないやつがある?
条件が分からん
0023名無しさん@お腹いっぱい。
垢版 |
2023/08/06(日) 01:13:10.24
なんかtwitterのプロフィール保存すると、過去ツイがランダムに表示されるだけで、最新のツイートが保存されてない。

もう訳わからんわw
0026名無しさん@お腹いっぱい。
垢版 |
2023/08/08(火) 07:22:55.57
>>24
Have you ever wanted to archive all the web pages linked from an email message?

Well, you are in luck because now you can forward that email to savepagenow@archive.org”
and after a few minutes you will get an email back filled with Wayback Machine playback URLs.
0029名無しさん@お腹いっぱい。
垢版 |
2023/08/10(木) 00:08:00.56
dclogもサービス終了
0032名無しさん@お腹いっぱい。
垢版 |
2023/08/13(日) 18:25:16.62
Sheetsのbatch処理ここ数日ずっとqueuedのままや
そんなに使ってる人おるんか
0036名無しさん@お腹いっぱい。
垢版 |
2023/08/14(月) 19:47:23.54
>>33
internet archiveの規約を見た感じ特にルールは設けられてなさそうだけど、
archive teamによるとコンテンツが削除されたり、アカウントが凍結されたりする可能性はあるらしい

余談だけど、archive teamは元々ポルノはネット上で最も分散保存されているコンテンツだからアーカイブしないという方針だったんだけど
wikiの編集履歴確認したら、今年8月からは通常のコンテンツと同様の扱いにするという方針に切り替えたっぽいな
https://wiki.archiveteam.org/index.php/Porn
0037名無しさん@お腹いっぱい。
垢版 |
2023/08/16(水) 07:35:06.43
最近フラッシュのページのアーカイブ見るとruffleっていうSWFエミュレータが起動してフラッシュを再生してくれるようになったな
0039名無しさん@お腹いっぱい。
垢版 |
2023/08/21(月) 07:41:35.73
SPN2のAPIのドキュメントに、「anonymous user」って表記があるんだけど、anonymous でAPI叩くには何を指定すれば良いの?
authorizationヘッダを付けずにAPI呼ぶと、
"You need to be logged in to use Save Page Now."
ってエラーになっちゃう。
anonymousの制約で十分だから、APIキー無しで使いたいんだけどな
0040名無しさん@お腹いっぱい。
垢版 |
2023/08/21(月) 17:51:35.50
>>39
それ、応答を HTML でも返せるところを
Accept ヘッダでわざわざ JSON 形式を要求すること自体が要アカウントっぽいんだよね。
どーしてまたそんな所に匿名ユーザ制限が入ってるのかは解らんけど。
0041名無しさん@お腹いっぱい。
垢版 |
2023/08/21(月) 22:43:21.39
現状のSPN2APIはよく分からん仕様が多くて「痒い所に手が届かない」感じなので
あまり深く考えない方がいい
0043名無しさん@お腹いっぱい。
垢版 |
2023/08/23(水) 22:13:20.02
ここ最近自動でアーカイブされてないこと多いよな。
御叱りでも受けたか?
0044名無しさん@お腹いっぱい。
垢版 |
2023/08/23(水) 22:15:20.98
>>14 イーロンの仕業か。
0045名無しさん@お腹いっぱい。
垢版 |
2023/08/24(木) 09:10:55.59
ここ数日やけに接続エラーが起きてると思ったらこれなんだよね。
スクリプトは当面 HTTP へ切り替えるかぁ。
0047名無しさん@お腹いっぱい。
垢版 |
2023/08/26(土) 03:04:26.70
久々に SPN2 API のドキュメントを見返していたら、
/save/ に新設のパラメータがあることに気づいたぁ。

use_user_agent=<XXX>
Use custom HTTP User-Agent value when capturing the target page.

2022-07-28 日付けの版で追加されてたのね。
0048名無しさん@お腹いっぱい。
垢版 |
2023/08/26(土) 11:12:00.83
Sorry Job failed
と表示されるarchive.orgのページが保存される謎バグに遭遇して笑った
ただの表示バグだと思いたい
0049名無しさん@お腹いっぱい。
垢版 |
2023/08/28(月) 17:44:50.52
Atwikiってspn で取れなくなってる?
エラー吐いてる
0051名無しさん@お腹いっぱい。
垢版 |
2023/08/28(月) 18:12:11.36
おま環じゃなかったか
アニオタwiki消えそうだから保存しようとしたんだけどなー
Archiveboxで自分でwarc取るしかないか
センキュー
0055名無しさん@お腹いっぱい。
垢版 |
2023/08/29(火) 17:46:42.89
Googleだとなぜかhttpの方がインデックスされてるせいで繋がらないな
というかいい加減httpからhttpsに転送するようにして欲しい
0056名無しさん@お腹いっぱい。
垢版 |
2023/08/31(木) 09:07:02.89
Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/975

975 名前:名無しさん@お腹いっぱい。[] 投稿日:2023/07/24(月) 07:55:27.47
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう

↑エアプ野郎w
0057名無しさん@お腹いっぱい。
垢版 |
2023/08/31(木) 11:07:06.36
http://homepage2.nifty.com/J-R/enjoy%20pich.htm
↑のアーカイブを見ようと思ったら「This URL has been excluded from the Wayback Machine.」となってて、つまり除外設定されてるんだけど
これの理由(誰が、いつ申請したか)を知る事って出来る?

禁止しているドメインの一覧は多分↓なんだろうけど、このページ自体は2019年くらいから作られるし、リストに追記される理由とか何も書いてないから詳しくがわからん
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine


個人が作るHPスペースをまるごと除外設定するのが通るのは、インターネットアーカイブの目的としてもちょっと勘弁して欲しいなあ
個人HPこそ後世に残したい
0061名無しさん@お腹いっぱい。
垢版 |
2023/09/01(金) 13:11:43.12
>>57
理由は公開されないけど基本的にサイトの管理者が除外申請した場合だね
確かにアーカイブの目的には反してるが、ここをしっかりしないと著作権侵害で突かれる可能性があるので
あとexcludedであってdeletedではないのでIAには残ってるはず、オンラインでアクセス不可になるだけ
0062名無しさん@お腹いっぱい。
垢版 |
2023/09/02(土) 07:00:06.31
YouTUbeの再生ページがアーカイブされるの遅過ぎだろ。
何やってんだよインターネットアーカイブに保存する人は!全然チェックされてないじゃん!
やる気あんのか?寝てたのか?
どうして誰も保存しないんだ?自動アーカイブはどうした?

https://www.youtube.com/watch?v=jjZEQ9Nocp4

https://www.youtube.com/watch?v=lnlyZlIRO1U
0063名無しさん@お腹いっぱい。
垢版 |
2023/09/02(土) 07:42:50.72
YouTubeの再生ページがアーカイブされるのがかなり遅いケースがもう10か月以上も続いている。
公開から10時間後とか。
自動アーカイブはどうしたのか?
0065名無しさん@お腹いっぱい。
垢版 |
2023/09/03(日) 18:03:57.56
一番上に書いてあるvideoとかmusicってなんですか?
いろいろありますけど保存してもいいんですかね?
0068名無しさん@お腹いっぱい。
垢版 |
2023/09/04(月) 17:39:35.18
>>64
同感

たとえば「【文春砲】令和の米騒動、現場写真がリークされる」というスレッドも
8月31日の11:32:22は保存できているのに、それ以降はエラーが起きて保存されていない

web.archive.org/web/20230000000000*/https://nova.5ch.net/test/read.cgi/livegalileo/1693474206
0071名無しさん@お腹いっぱい。
垢版 |
2023/09/05(火) 20:42:01.45
もう「なんでも実況(ガリレオ)」板のスレは過去ログの魚拓とれないのかもな

【悲報】安倍晋三語録、「同意」を表すものが存在しない
nova.5ch.net/test/read.cgi/livegalileo/1693837620

IAではserver errorとなるしアーカイブトゥデイでも「Not Found (yet?)」となる → archive.is/I6WEN
0074名無しさん@お腹いっぱい。
垢版 |
2023/09/06(水) 15:40:13.70
>>73
なるほど
確かにエラーが起こるのはnovaが多かったな
永久に解除されない、なんてことにならなきゃいいが・・・
0075名無しさん@お腹いっぱい。
垢版 |
2023/09/07(木) 17:59:45.87
【悲報】17歳の上玉白人美少女ちゃん、交通事故の罪で終身刑を言い渡される
nova.5ch.net/test/read.cgi/livegalileo/1693978274

このスレもサーバーエラーで魚拓とれなかったからグーグルのキャッシュ経由で魚拓とった
archive.li/pGUd4
0076名無しさん@お腹いっぱい。
垢版 |
2023/09/09(土) 08:46:02.23
家のWi-FiでCONNECTION REFUSEDしか出ないから試しに携帯回線につなぎ替えたら普通に繋がった。
手動で取ってただけでアク禁にされたのか
0077名無しさん@お腹いっぱい。
垢版 |
2023/09/09(土) 09:07:31.51
>>76
それ、一週間前にうちもやられた。
仕方なく筑波 VPN 挿して、同じようにガンガン回したけどそっちは止められることが無かった。
何が引っ掛かったのか、全くもって判らん。
0083名無しさん@お腹いっぱい。
垢版 |
2023/09/14(木) 16:24:12.75
twitter、じゃなくてX取れなくなってるな
個別のポストはtodayの方で辛うじて取れるが
0086archive.is/tTrQN
垢版 |
2023/09/15(金) 20:45:51.70
前スレ955への返信だがグーグルキャッシュなどを経由すれば
好き嫌いドットコムのコメント欄も魚拓とれる場合がある

webcache.googleusercontent.com/search?q=cache:syMmr8fOqbkJ:https://suki-kira.com/people
/result/%25E3%2582%2586%25E3%2581%259F%25E3%2581%25BC%25E3%2582%2593
0087名無しさん@お腹いっぱい。
垢版 |
2023/09/18(月) 12:38:04.07
>>76
アク禁にされたっぽい
保存はやってなかった、心当たりがあるのは多数の保存済みアーカイブを一斉に開いただけ
0088名無しさん@お腹いっぱい。
垢版 |
2023/09/19(火) 01:23:34.92
ツイートと付随する動画像をCSVでまとめて落とせる国産ツールない?
イーロンになってからアーカイブサイトにいれるだけじゃ不安だから、自前で持っておいて必要に応じてアップできるようにしたい
009089
垢版 |
2023/09/20(水) 16:18:49.76
やっと止まったわ、遅すぎ
0091名無しさん@お腹いっぱい。
垢版 |
2023/09/21(木) 10:05:32.27
5ちゃんも有料化云々でヤバそうだし
スレアーカイブしといた方が良さそうだな…
そろそろ消えそうな予感
0094名無しさん@お腹いっぱい。
垢版 |
2023/09/24(日) 13:01:59.07
savepagenowを実行したあとにgoogleのサポートページ?に飛ばされるのはどういう仕様?
0095名無しさん@お腹いっぱい。
垢版 |
2023/09/24(日) 14:22:50.44
twitterの記録取れなくなるのは将来に禍根を残すと思うわ。
数百年後に歴史を振り返った時にSNSは史料的な価値があると思う。
0099名無しさん@お腹いっぱい。
垢版 |
2023/10/03(火) 16:40:59.85
もう5chの過去ログ課金しないと見れないっぽいね
0104名無しさん@お腹いっぱい。
垢版 |
2023/10/07(土) 18:44:36.46
今繋がらないんだけど、私だけですか?
0105104
垢版 |
2023/10/07(土) 18:57:20.21
Wi-Fiに切り替えたら繋がった。
どうやらアク禁らしい。
普通に閲覧してただけだし、何も心当たりないんだけど…
010687
垢版 |
2023/10/07(土) 20:45:50.36
>>105
その「閲覧」もヤバい
0107104
垢版 |
2023/10/07(土) 23:17:39.68
>>106
えっ、そうなの?
とりあえず今はアク禁解除されたっぽいけど、
アク禁になる条件って、短時間にたくさん見るとか?
0110名無しさん@お腹いっぱい。
垢版 |
2023/10/08(日) 13:14:20.29
>>109
> 画像が大量にあるページでそのほとんど取れてなかったり

その取れてない画像、全て/save/にリダイレクトされてるから
結果として大量にアーカイブ要求を発行することになるんだよね

んで、その時にアーカイブされるのは3つ程度であとは全て429エラー
運が悪いとそのままアク禁
0113名無しさん@お腹いっぱい。
垢版 |
2023/10/12(木) 23:58:45.47
scはクロールされてるなと思って後で確認すると途中でクロールが止まってそのままというのがかなりある
こういう状態になるとクロール再開しないケースが多く5ch側が飛んだ時に頭のほうしか控えが取れてなかったりする
0116名無しさん@お腹いっぱい。
垢版 |
2023/10/20(金) 22:59:55.77
>>112
一応なんG板とか、2014年春以降に新設された板でもSC側のbbsmenu一覧ページに追加されてないだけで、

[ http://tomcat.2ch.(えすしー)/livegalileo/ ]

…の鯖名から開けばアーカイブされてたりするけど、PINKともども最近の過去ログについては本鯖のモノが未だ活きてる。
0117名無しさん@お腹いっぱい。
垢版 |
2023/10/23(月) 17:58:57.35
X保存できるようになってる
0118名無しさん@お腹いっぱい。
垢版 |
2023/10/23(月) 17:58:58.33
X保存できるようになってる
0119名無しさん@お腹いっぱい。
垢版 |
2023/10/23(月) 17:59:05.79
X保存できるようになってる
0120名無しさん@お腹いっぱい。
垢版 |
2023/10/23(月) 18:00:35.82
連投すまん
ミスった
0125名無しさん@お腹いっぱい。
垢版 |
2023/11/02(木) 00:20:55.25
こんなのがいつのまに
2022年11月18日 23時00分レビュー
無料&広告なしで個人サイトを作成できるGeocities風サービス「Neocities」を使ってみたよレビュー
https://gigazine.net/news/20221118-neocities-free-website/
0126名無しさん@お腹いっぱい。
垢版 |
2023/11/05(日) 02:15:27.98
利用者の多いコンテンツの生殺与奪を特定小数人が握ってるのは危なっかしいよな
ttps://hayabusa9.5ch.net/test/read.cgi/mnewsplus/1698901347/
まあつべはバックアップを隠し持ってそうだけど こんな金になりそうなもん手放さねえだろうし 一般人が直に利用できないだけで
0127名無しさん@お腹いっぱい。
垢版 |
2023/11/05(日) 17:54:34.46
日本の書籍が著作権ありのもたまにいいのがアップされてたのが、騒動以後いっこもアップされなくなったなあ
結構暇つぶしにいいのに
0128名無しさん@お腹いっぱい。
垢版 |
2023/11/08(水) 01:45:12.70
質問です
・今開いているサイトの魚拓をワンクリックで取る方法はありますか?
(いちいちInternet Archiveのサイトを開いてコピーしたURLをペーストして決定を押すのがちょっと面倒です

・サイト全体(orサイトの複数ページ)を自動で保存してくれる機能はありますか?
0130名無しさん@お腹いっぱい。
垢版 |
2023/11/08(水) 12:48:50.05
アクティブチーム何やってんだよ。
なんで下記のURLは誰もアーカイブしてないんだ?

https://www.youtube.com/watch?v=XGeNeLWnYdc
0132名無しさん@お腹いっぱい。
垢版 |
2023/11/09(木) 20:53:09.04
どうしてもすぐにアーカイブしたい動画があるならtubeupを使って自分でうpするか
Yt-dlpを使ってメタデータを含めてローカルに落とすのが理想や!
0133名無しさん@お腹いっぱい。
垢版 |
2023/11/10(金) 23:40:24.43
ArchiveTeamは特定の動画(削除の危機がある, ニュース, 政治etc)に限定して保存してるから、保存したい動画は手動保存する必要がある
リソースは有限だからね
↓詳細
https://wiki.archiveteam.org/index.php/YouTube#Scope
0134名無しさん@お腹いっぱい。
垢版 |
2023/11/11(土) 13:29:16.82
Wayback Machineに保存されてるそこそこ古めのページを表示すると、一部の画像が表示されない事ってよくあるよね。
あれって何でああなってるの?たとえば以下のページなど。
https://web.archive.org/web/20021017173116/http://www.namco.co.jp/home/cs/lineup/mrdriller/page01.html

このページは2002年保存だけど、比較的新しい2010年とかに保存されたページでも同現象になってたりする。
当時保存した人も、ちゃんと保存できてるか確認して、当時は問題なく表示されてたんだと思う。
今俺たちが保存してるサイトも、10年後には画像がところどころ抜け落ちて不完全な状態になるのかと不安。
0136名無しさん@お腹いっぱい。
垢版 |
2023/11/11(土) 15:59:18.06
>>134
そもそも Internet Archive でヘッドレスブラウザを実装したのがほんの数年前のことで、
それまでは指示された単一のファイルをアーカイブするだけだったから。

アーカイブされた HTML をクライアント側のブラウザで表示したときに
個々の画像等の保存リクエストが Internet Archive へ発行されるような実装が
なされたこともあったが、それ自体も 2010 年代中盤だったはず。
0137名無しさん@お腹いっぱい。
垢版 |
2023/11/11(土) 19:27:03.13
そうかなぁ?
俺はInternet Archive側にある画像ファイルが何らかの理由で勝手に消滅したと思ってる。
以下のサイトとかもそう。画像が1つも保存されてないのはおかしいだろ。
https://web.archive.org/web/20131007222449/http://www.spike-chunsoft.co.jp/fr/index.html
0141名無しさん@お腹いっぱい。
垢版 |
2023/11/13(月) 01:18:15.56
IAのアーカイブって色んな団体のアーカイブがまとまったものだからな、SPNなんてごく一部だよ
画像も収集してる団体もあれば、HTMLだけを取得してる団体もあるのでアーカイブ次第
例えばウェイバックマシンを使ってるとよく目にするCommon Crawlはほぼ画像が取得されてない
0142名無しさん@お腹いっぱい。
垢版 |
2023/11/13(月) 11:01:00.35
確実に保存したい時は
InternetArchiveとArchive.todayどっちもアーカイブしてるわ
それで大体残ると思うけどどうだろ
0144名無しさん@お腹いっぱい。
垢版 |
2023/11/14(火) 22:23:03.18
ここ最近自動アーカイブがされてないようだけど一体どうしたんだ?
0147名無しさん@お腹いっぱい。
垢版 |
2023/11/15(水) 16:29:16.84
えっ?年齢認証のページも保存できたの?初めて知った。
以前、以下のページを保存したかったけど諦めたんだ。
https://www.konami.com/games/pcemini/jp/ja/
もしこのページ保存できるなら、上部メニューの8ページほど保存しといてほしい。もしくはそのAPIの使い方を具体的に教えてほしい。
まだ誰も上手く保存できてないみたいだし。
0150名無しさん@お腹いっぱい。
垢版 |
2023/11/15(水) 17:04:47.72
>>149
確認できたわ、ありがとう!
Internet Archiveを極めてるね!
0152名無しさん@お腹いっぱい。
垢版 |
2023/11/18(土) 14:45:36.85
If something goes wrong please click here to send us an error report.
ってやつ、下じゃなくて上に配置してくれないかな・・・
何回誤送信したか分からん
0153名無しさん@お腹いっぱい。
垢版 |
2023/11/18(土) 15:42:54.81
twitter保存できないことが最近増えてるみたいだけど、archivetodayでも保存できない場合は、cacheリンクをぶち込むと保存できるでー
0157名無しさん@お腹いっぱい。
垢版 |
2023/11/19(日) 19:21:06.50
リダイレクトページを保存して過去のアーカイブ上書きして使いづらくする問題
なんで放置されてんだよ!
0158名無しさん@お腹いっぱい。
垢版 |
2023/11/20(月) 04:47:38.50
俺も基本nitterキャプってるなTwitter取得する時は
0159名無しさん@お腹いっぱい。
垢版 |
2023/11/21(火) 01:55:39.65
"The requested video has been archived but is not currently available for playback."と"Attempts to archive this video failed."が出たときが一番ダルい
0160名無しさん@お腹いっぱい。
垢版 |
2023/11/22(水) 20:57:37.32
イーロン・マスクのせいで、1tweetごとにarchiveしないといけなくなったけど、
より問題なのは、tweet群が本人の削除やアカウント停止などで消されてしまったら、
archiveがあってもtweet同士のつながりがわからなくなること。
以前はtweetを1カ所か何カ所かwayback machineで押さえれば、スレッド丸ごとarchiveできたのに。
0162名無しさん@お腹いっぱい。
垢版 |
2023/11/23(木) 16:23:31.19
>>160
ほんとゴミだよな
戻してくれないもんかね…
0165名無しさん@お腹いっぱい。
垢版 |
2023/11/25(土) 15:36:03.02
SPNって一日1000ページ保存が上限なのか。初めて引っかかった。outlink込みでやってたからか。

あと最近頻繁にログアウトしてしまうんだけどこれも不具合なのかな。
0166名無しさん@お腹いっぱい。
垢版 |
2023/11/27(月) 21:08:31.71
>>162
戻る可能性もありそう。

ツイッターの閲覧制限 「経済的な理由という指摘もある」と辛坊治郎
https://news.1242.com/article/448206
Twitter閲覧制限 の理由:データスクレイピング の全てを わかりやすく 説明します
https://sotatek.jp/blogs/all-about-the-reason-behind-twitter-new-view-limit/
「情報はタダじゃない」訴える意図? Twitter閲覧制限 “スクレイピング”…サーバー負荷にマスク氏不満か
https://news.ntv.co.jp/category/society/9517009c0a124432a4ae38cecc2a2cf4
【解説】ツイッター“閲覧制限”なぜ? 考えられる2つの理由 マスク氏の狙いは
https://news.ntv.co.jp/category/society/78ed7d1aae84431889171d51800beb37
Twitterの閲覧制限が起きた理由|今後のビジネスへの影響は?
https://blog.formzu.com/twitter_limit
0168名無しさん@お腹いっぱい。
垢版 |
2023/11/28(火) 21:40:26.81
イーロンの野郎また何かやらかしたのか。
0174名無しさん@お腹いっぱい。
垢版 |
2023/12/01(金) 20:03:23.58
URL側の場合は「Not Found」というか普段から「このURLは保存不可」的なのが出るが、
今はどのサイトを入力しても「Not Found」
0178名無しさん@お腹いっぱい。
垢版 |
2023/12/01(金) 23:31:28.89
復活したけど、これじゃ今日のページ存できないな
The capture will start in ~7 hours, 39 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
0179名無しさん@お腹いっぱい。
垢版 |
2023/12/02(土) 15:23:15.03
待ち時間未明よりは減ってるが、まだ1時間待ち(環境によるだろうが)
ただし、PDF絡みの取得は問題なし
0180名無しさん@お腹いっぱい。
垢版 |
2023/12/02(土) 15:52:02.12
重い
0183名無しさん@お腹いっぱい。
垢版 |
2023/12/03(日) 19:46:55.79
ページを保存しようとしたら

The capture will start in ~3 hours, 5 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.

と言われて、まだ終わらないけど、MP4動画単体を保存したら瞬時に保存された。

2023/12/03(日)19:39:14
URL: https://video.twimg.com/amplify_video/1727180400236417024/vid/avc1/1280x720/WJL1FSGpy8aLWnvc.mp4
Job: https://web.archive.org/save/status/spn2-a3a61ee7a77e38b016777f4e7c9b1139d337b0d8 [success][0.29s][初]
成功: https://web.archive.org/web/20231203103915/https://video.twimg.com/amplify_video/1727180400236417024/vid/avc1/1280x720/WJL1FSGpy8aLWnvc.mp4 - 2023/12/03(日)19:39:15
0184名無しさん@お腹いっぱい。
垢版 |
2023/12/04(月) 03:03:18.62
>>183
.jpg とか .png とか .zip とか、ヘッドレスブラウザでレンダせず
ファイル単体を保存するだけで済むものはそんな感じ。
.pdf も outlinks の走査はされるけど何故か速い。
0185名無しさん@お腹いっぱい。
垢版 |
2023/12/05(火) 01:10:50.73
でた蔵の過去のテレビ番組のアーカイブ2022年12月以前の削除されちゃったんだな、最悪
gooといい価格コムといい削除するなら最初から公開しなきゃいいのに
NHKも一時期過去の番組表見れないようにしてたし何の目的なんだろうな
維持するのも金がかかるのかねえ
0186名無しさん@お腹いっぱい。
垢版 |
2023/12/05(火) 10:15:27.60
更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。

https://wezz-y.com/archives/95862
0187名無しさん@お腹いっぱい。
垢版 |
2023/12/05(火) 10:15:30.24
更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。

https://wezz-y.com/archives/95862
0188名無しさん@お腹いっぱい。
垢版 |
2023/12/05(火) 20:35:42.29
こんな糞重いクルクルクルクルしてるだけのゴミクズサイト
すでに2億円も寄付されてるの糞受けるな
裏金アベノイミン党みたいな連中だ
0189名無しさん@お腹いっぱい。
垢版 |
2023/12/06(水) 10:55:02.43
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.

saveできない
また逝ってるのかな
0193名無しさん@お腹いっぱい。
垢版 |
2023/12/06(水) 20:29:25.03
やっと復旧した

┃ 午前9:18 ・ 2023年12月6日
https://twitter.com/textfiles/status/1732192819098292677
┃ Jason Scott @textfiles
┃ Power has gone out at the @internetarchive primary datacenter; waiting for it to return.

┃ 午前10:04 ・ 2023年12月6日
https://twitter.com/internetarchive/status/1732204429066289608
┃ Internet Archive @internetarchive
┃ Sorry, http://archive.org and http://openlibrary.org will be back in a few,

┃ but a short term power outage was long enough to make recovery take a little while.

┃ We apologize.
https://twitter.com/thejimwatkins
0196名無しさん@お腹いっぱい。
垢版 |
2023/12/11(月) 19:40:20.47
ここ何日か>>195のような表示がそのときそのときで出たり出なかったり
取得そのものができないよりは増しとはいえ・・・
0199195
垢版 |
2023/12/11(月) 22:16:37.71
11 時間 42 分経過、結局アーカイブされてなかったからリクエスト発行し直した。
てゆーか 10 時間とか 20 時間とか言われても、数分後に同じ URL のアーカイブを
再リクエストしたらタイミングによってはすぐ保存してくれることもあるので
こういう時はやり直すのが正解だと理解することにした。
0201名無しさん@お腹いっぱい。
垢版 |
2023/12/12(火) 19:24:45.55
Save outlinksで取得出来るページ数減らされてる…
0202名無しさん@お腹いっぱい。
垢版 |
2023/12/12(火) 20:23:08.77
何個まで?
0203名無しさん@お腹いっぱい。
垢版 |
2023/12/12(火) 20:25:41.13
まあここ最近、調子悪いからな。
しばらくすれば元に戻るかも。
0205名無しさん@お腹いっぱい。
垢版 |
2023/12/12(火) 21:35:01.32
Sorry

You cannot make more than 100 captures per day. Please email us at "info@archive.org" if you would like to discuss this more.
0206名無しさん@お腹いっぱい。
垢版 |
2023/12/12(火) 22:59:52.35
なんかめちゃスムーズにspnリクエスト送れるようになってる
昨日ぐらいまでめっちゃ糞詰まり起こしてたのに
0209名無しさん@お腹いっぱい。
垢版 |
2023/12/13(水) 00:05:36.88
>>208
自分の経験ではアーカイブできてる事も失敗してる事もある
そういう時は web.archive.org/web/2/ に対象の URL を付けて
最新のアーカイブを表示させてみてる
0213名無しさん@お腹いっぱい。
垢版 |
2023/12/13(水) 08:31:24.05

日本語のサイトしか保存した事ないけど…
つか1日100件なんて保存してないのに⇓が出る
前にキャッシュcookie消去したらarchiveでの履歴も消えちゃったから消すの嫌なんだけどなあ

Sorry
You cannot make more than 100 captures per day. Please email us at "info@archive.org" if you would like to discuss this more
0215名無しさん@お腹いっぱい。
垢版 |
2023/12/13(水) 11:42:51.22
>>214
> 2023/12/13(水) 08:59:55.49

カウンターがリセットされる時刻の 5 秒前w
昨日の分も一緒にカウントされてるんじゃないの
0218名無しさん@お腹いっぱい。
垢版 |
2023/12/13(水) 19:04:25.63
>>207
同時実行可能なセッション数も微妙に調整してますね

2023/02/18(土) {"available":6,"daily_captures":0,"daily_captures_limit":100000,"processing":0}
2023/08/21(月) {"available":6,"daily_captures":0,"daily_captures_limit":80000,"processing":0}
2023/09/06(水) {"available":6,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/09/29(金) {"available":8,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/11/23(木) {"available":8,"daily_captures":0,"daily_captures_limit":50000,"processing":0}
2023/12/12(火) {"available":7,"daily_captures":0,"daily_captures_limit":30000,"processing":0}
0224名無しさん@お腹いっぱい。
垢版 |
2023/12/16(土) 01:38:13.04
nitter.net保存できなくなってる。
nitter.czならtodayの方で保存できるが
0225名無しさん@お腹いっぱい。
垢版 |
2023/12/17(日) 20:30:36.67
Twitterはもう保存できなくなったのか?
保存した後、だいぶ経ってから保存されているはずの日付を見に行ったら中身が何もない。
そういうのばかり。
0226名無しさん@お腹いっぱい。
垢版 |
2023/12/18(月) 15:22:07.99
Twitter側の仕様変更のせいで見た目はアーカイブできなくなった
ソースを見るとツイート内容はアーカイブされてるっぽい
0227名無しさん@お腹いっぱい。
垢版 |
2023/12/18(月) 15:57:48.09
本家のtwitter.comも、nitter.netもウェイバックマシンでは保存できなくなってる。
今は、nitter.czをarchive.todayの方にぶち込むしか方法がない。
0229名無しさん@お腹いっぱい。
垢版 |
2023/12/21(木) 04:31:49.98
登録しても制限をかけるなら、有料プランを導入してくれ
0231名無しさん@お腹いっぱい。
垢版 |
2023/12/22(金) 15:05:19.09
アク禁ってされたことないんだけど、どんな表示でるんだ
0232名無しさん@お腹いっぱい。
垢版 |
2023/12/22(金) 15:05:21.69
アク禁ってされたことないんだけど、どんな表示でるんだ
0233名無しさん@お腹いっぱい。
垢版 |
2023/12/22(金) 15:06:53.26
すまん連投になってもた
0236名無しさん@お腹いっぱい。
垢版 |
2023/12/24(日) 20:12:20.28
アーカイブチームの皆さんは自分の事しか考えてないの?
あれだけ顧客第一つったろ!
0237131
垢版 |
2023/12/24(日) 23:14:02.35
>>236
アーカイブチームって覚えられたんだw
すごいね
0239名無しさん@お腹いっぱい。
垢版 |
2023/12/26(火) 07:40:40.52
自動保存できなくなったの?
0241名無しさん@お腹いっぱい。
垢版 |
2023/12/29(金) 15:27:27.42
SPNとSPN-outlinksで結果が変わるの謎過ぎるな
SPNだと取れるのにoutlinksの方はエラーが出るサイトがたまにある
わざわざ別の環境使ってるのか?
0243名無しさん@お腹いっぱい。
垢版 |
2024/01/03(水) 15:31:04.59
>>220

φ(`д´)メモメモ...
0246名無しさん@お腹いっぱい。
垢版 |
2024/01/05(金) 21:00:47.72
アーカイブ開こうとすると実アドレスの方に飛ばされる症状が出てる
アーカイブに保存された形跡はある ただこれも保存済みアドレスが検索で出たりでなかったりがある
0248名無しさん@お腹いっぱい。
垢版 |
2024/01/08(月) 16:23:46.89
既出だったらスマン
アーカイブされたページ自体をユーザ側のアクションで検索エンジンのインデックスに登録することって可能なんかな

検索してみるといくつかの日本のサイトのアーカイブがGoogleにインデックス登録されてるんだよな
でもWaybackが自分でクロール申請したはずはないから何か方法があるんじゃないかと思ってる

例えば自分で立てたサイトにアーカイブへの直リンクを貼っておいて、自分のサイトをインデックス登録してリンク先をクロールさせるとか
0251名無しさん@お腹いっぱい。
垢版 |
2024/01/10(水) 07:22:01.53
うーむ
特定のホストにて、各 URL につき「一時間以上空けろ」ではなく
「一日一回のみアーカイブ可」ということか。
ちなみにホスト名は www.sqlite.org。
0254名無しさん@お腹いっぱい。
垢版 |
2024/01/10(水) 16:08:44.56
>>18によるとYouTubeは動画も保存される仕様とのことだけど
その仕様になったのは最近?
6~7年前にアーカイブされたYoutubeページに辿り着いたら
動画部分は保存されていなかった
0257名無しさん@お腹いっぱい。
垢版 |
2024/01/11(木) 16:04:39.91
>>254
動画によって保存されてたりされなかったりする、基準は分からん
why:のところにyoutubecrawlが無いスナップショットは動画が保存されてない
0264名無しさん@お腹いっぱい。
垢版 |
2024/01/15(月) 02:24:29.46
>>263
リプありがとうございます。
せっかく教えてくださったのに、自分の説明が足らなくて分からなかったのですが、やりたいことはこんな感じです

たとえば、↓のshow allを開くとディレクトリ内のコンテンツが表示されますが
その中のG71-VNW1013.isoを検索して見つける事はできますか?
ttps://archive.org/details/msi-afterburner-driver-and-utility

ttps://archive.org/search
に入力して検索をした場合、タイトルや説明欄しか拾わないので
どうしたものかと思っていました
0267名無しさん@お腹いっぱい。
垢版 |
2024/01/15(月) 14:20:12.75
検索システムはもっと強化してほしいよなぁ
一度も閲覧されてない化石と化したアーカイブとか大量にありそう
まぁあまり強化するとDMCA案件が増えそうなので悩ましいけど
0268名無しさん@お腹いっぱい。
垢版 |
2024/01/17(水) 09:51:54.39
ログインしても同時保存制限厳しい…(4つまで)
あと、一気にまとめて取得する方法ってないの?一個一個やってると面倒臭い
0270名無しさん@お腹いっぱい。
垢版 |
2024/01/17(水) 19:26:47.07
>>268
savepagenow@archive.org に電子メールを送信/転送するとメール中のURIをアーカイブした結果のメールが数~数十分後に返信されてくる
0271名無しさん@お腹いっぱい。
垢版 |
2024/01/18(木) 00:05:13.23
「ウェブ魚拓」や「archive.today」では保存できるのに「wayback machine」ではできないということは、
Xは「wayback machine」を嫌がっているということか?

ウェブ魚拓
https://megalodon.jp/
archive.today
https://archive.md/
0274名無しさん@お腹いっぱい。
垢版 |
2024/01/18(木) 02:24:21.59
「保存」は出来てるよ、表示が崩れてるだけ
CTRL+Uでソースを見ればツイート内容は保存されてるのが分かる
0277名無しさん@お腹いっぱい。
垢版 |
2024/01/19(金) 21:26:20.93
インターネットアーカイブのブログ、ずっと同じ糖質に粘着されてるの笑う
それでも削除しないのは流石だがw
0278名無しさん@お腹いっぱい。
垢版 |
2024/01/28(日) 01:57:58.03
スラドのアーカイブを取ろうと思ったら、このサイト記事一覧ページって無いのか?
ajaxでmore moreで辿るしか無いんだろうか・・・
もう終わりだよ
0279名無しさん@お腹いっぱい。
垢版 |
2024/01/28(日) 02:34:53.07
>>278
日付別の一覧、例えば昨日 (2024-01-26) のストーリー一覧なら
https://srad.jp/story/24/01/26/
から
https://mobile.srad.jp/story/24/01/24/2339228/
https://mobile.srad.jp/story/24/01/24/2346248/
https://it.srad.jp/story/24/01/24/2351254/
https://srad.jp/story/24/01/25/1337233/
https://it.srad.jp/story/24/01/25/1340217/
・・・
と記事番号とカテゴリ名を含む URL は得られるかと思います。
0280279
垢版 |
2024/01/28(日) 02:39:44.69
おっとそれは一昨日だったw
PC を UTC タイムゾーンで動かしているのでうっかり・・・
0282名無しさん@お腹いっぱい。
垢版 |
2024/01/28(日) 13:04:59.85
>>279
すごい、ありがとう!
そのURLは気付かなかった。
しかし、ページングは無さそうだから1日1リクエストとしても日記タレコミ記事で3*365*年数 か・・・。
0284名無しさん@お腹いっぱい。
垢版 |
2024/01/28(日) 15:51:21.68
月曜日に発表があって週末が1回しかないって急すぎるよ。
しかもスラドってコメント欄がperlのajaxで読み込んでるからアーカイブだとまともに表示できないだろうし
0285名無しさん@お腹いっぱい。
垢版 |
2024/01/29(月) 09:18:53.73
savepagenow@archive.org に取得したいページのURL送ったんだけど、ほとんどError! Capture timed outになる・・・
これってサーバー重くて失敗したのかな?
0287名無しさん@お腹いっぱい。
垢版 |
2024/01/31(水) 16:14:30.83
それ Linux バイナリをアーカイブさせると良く出くわすな。
force_get=on を指定すると問題無く行けてるから、おそらく
コンテンツをヘッドレスブラウザでレンダしようとして失敗してるんだと思う。
0288名無しさん@お腹いっぱい。
垢版 |
2024/02/01(木) 05:22:38.32
Srad はアーカイブチームが動いてるって見たけど
個人でバックアップしている人もおるんか
0290名無しさん@お腹いっぱい。
垢版 |
2024/02/02(金) 15:14:07.28
The capture will start in ~1 hour, 1 minute because our service is currently overloaded.
また1時間後とか言われるようになっちゃった・・・
0292名無しさん@お腹いっぱい。
垢版 |
2024/02/04(日) 09:19:08.45
Save Page Now browser crashed
ヤフオクのページを取得しようとすると出る
0293名無しさん@お腹いっぱい。
垢版 |
2024/02/04(日) 12:09:51.36
アーカイブしても画像が保存されないのキツイな
昔から収集方法変えてないみたいだけど
運営陣は変えるつもりないんだろうか
色々相性問題とかあって変えられないのかな?
0294名無しさん@お腹いっぱい。
垢版 |
2024/02/04(日) 12:32:11.99
>>293
大ぼら乙
0295名無しさん@お腹いっぱい。
垢版 |
2024/02/04(日) 13:30:12.10
サイトによるのでは
0297名無しさん@お腹いっぱい。
垢版 |
2024/02/04(日) 16:36:51.96
【2020 年頃まで】
画像の保存は完全にユーザ任せ
(クローラを使っていたり、或いは
普通のブラウザでも保存開始後にすぐ閉じたりすると保存されない)
【それ以降】
ヘッドレスブラウザを実装、ある程度の画像は同時にアーカイブできるようになった

>>293 の言う昔って、いつの話よ?
0298名無しさん@お腹いっぱい。
垢版 |
2024/02/05(月) 21:56:56.61
動的サイトを取ろうとして取れないと勘違いしてるパターンじゃない?
画像は4年前から取れてるし、最近だと自動でアウトリンクまで辿ってくれるようになってるが
0300名無しさん@お腹いっぱい。
垢版 |
2024/02/07(水) 01:46:05.35
Google検索のキャッシュリンクが廃止で過去のページが閲覧不可に
https://pc.watch.impress.co.jp/docs/news/1566730.html

>Googleは、検索結果ページで利用できたWebページのキャッシュへのリンクを削除した。

これまで検索結果の各Webページのキャッシュにアクセスできるリンクが用意されており、Webページの過去の状態や削除される前の状態などが確認できたが、このリンクが削除されたかたち。検索演算子「cache:」を使ったアクセスはまだ行なえるが、将来的にはこちらも利用できなくなる予定だという。

これにともないGoogleでは、キャッシュへのリンクに代わって、Internet Archiveへのリンクを追加したいとも考えているという。
0301名無しさん@お腹いっぱい。
垢版 |
2024/02/08(木) 07:44:47.71
オープンになったことで話題のBlueskyはarchive.todayで昔のTwitterみたいにスレッド丸ごとアーカイブできるようだ。
ところがWayback Machineでは保存できないみたい。
0302名無しさん@お腹いっぱい。
垢版 |
2024/02/08(木) 10:56:12.30
>>300
IAにリンク貼るならGoogleから多額の寄付金もらえそう
0303名無しさん@お腹いっぱい。
垢版 |
2024/02/08(木) 11:50:26.63
とうとう古い端末から Archive.md が開けなくなってしまた。


>>300
回線が重い時テキストだけ読むので重宝だったのにGoogleキャッシュ廃止メチャク不便やん。
0304名無しさん@お腹いっぱい。
垢版 |
2024/02/08(木) 12:15:36.70
流れをぶった切って済まんが
https://download.sysinternals.com/ 配下の URL にて >>251 に遭遇。

ソフトウェア配布サイトをターゲットにした措置だとは思うが
Sysinternals のようにファイル名にリビジョン番号を記載せず
同じ URL のまま中身を差し替えていくサイトでは、
短期間で更新が繰り返されると保存されないリビジョンが出てくる。
0305名無しさん@お腹いっぱい。
垢版 |
2024/02/10(土) 16:54:28.54
This URL has been already captured 6 times today, which is a daily limit we have set for that host. Please try again tomorrow.
10回制限からなんか減った?
0309名無しさん@お腹いっぱい。
垢版 |
2024/02/12(月) 13:36:03.14
Wayback Machineってdoc形式のファイルやdocx形式のファイルも保存できるんだね
ホント便利だな
0310名無しさん@お腹いっぱい。
垢版 |
2024/02/12(月) 16:04:03.39
一日一回のみとか10回のみのエラーってAPIドキュメントには無いよね?
特別に指定されてるんだろうか
0311名無しさん@お腹いっぱい。
垢版 |
2024/02/14(水) 16:25:56.42
X(twitter)はnitter.czにリンクを変えて、archive.todayにぶち込んで保存してる。
他にも方法あるかもしれんけど
0312名無しさん@お腹いっぱい。
垢版 |
2024/02/15(木) 18:30:11.00
そういやnitterの開発終了したんだってな
今のところ動いてるインスタンスはあるけど、これからどうなんだろ
0313名無しさん@お腹いっぱい。
垢版 |
2024/02/15(木) 23:04:23.48
これからどうやってtwitter保存すればいいんだろう
0314名無しさん@お腹いっぱい。
垢版 |
2024/02/17(土) 01:09:16.83
youtubeの動画保存って無くなったのか?
youtubecrawlのコレクションは増え続けてるから動いてるはずなんだが、未だに保存されん・・・
国内メディアのニュース動画だからブロックされてる訳でも無いと思うんだがなぁ
0316名無しさん@お腹いっぱい。
垢版 |
2024/02/17(土) 18:37:04.84
>>315
ホンマや
0317名無しさん@お腹いっぱい。
垢版 |
2024/02/21(水) 03:43:18.85
>>281 が PC でも見られる、ってことは保存し直しの必要は無しか。
しかしアーカイブの表示内容が変化するってのは、別の意味で気持ち悪い。
0318名無しさん@お腹いっぱい。
垢版 |
2024/02/21(水) 16:29:14.97
ページ数、なかなか9000億超えないな
0321名無しさん@お腹いっぱい。
垢版 |
2024/02/24(土) 02:00:32.15
ヘッダー部分の下からが表示されないんだねど自分だけかな。キャッシュ消したり再起動しても直らん
0323名無しさん@お腹いっぱい。
垢版 |
2024/03/03(日) 13:23:54.98
ブルースカイは、アカウントの設定(ログアウトしたユーザーからの可視性)よっては取得できないから注意
0326名無しさん@お腹いっぱい。
垢版 |
2024/03/04(月) 06:55:51.29
ページを保存させて完了画面も確認したのに、そのページが表示されないな
カレンダー形式の一覧に反映されるまでにはこれまでも時間がかかっていたけど
保存ページ自体が数十分待っても出てこないのは初めて
0327名無しさん@お腹いっぱい。
垢版 |
2024/03/04(月) 07:06:56.05
今もう一度見てみたら、既にカレンダー形式の日付には青丸が付いているのに
さっき保存した保存時刻(UTC)をクリックしてもその内容が表示されないという現象が起きてる
0329名無しさん@お腹いっぱい。
垢版 |
2024/03/05(火) 17:33:40.00
i.imgur.comのページは一瞬で保存できるのなんでなんだろ
0330名無しさん@お腹いっぱい。
垢版 |
2024/03/05(火) 19:50:05.76
>>329
1. 対象 URL に HEAD リクエストを投げる。

2. レスポンスヘッダから単一の画像ファイルであることを検知。
(Content-Type: image/jpeg 等)

3. ヘッドレスブラウザは不要と判断、後回しにせず即アーカイブ作業に移る。

対象が HTML の場合は後回しにされることが多いが、おそらく
ヘッドレスブラウザで HTML をパースして追加の画像等を拾ってきたり、
JavaScript を実行させる必要があるなど負荷が重いから。
HEAD リクエストが送られる件については >>3 のドキュメントの force_get の項を参照。
0331名無しさん@お腹いっぱい。
垢版 |
2024/03/06(水) 01:49:37.87
ニコニコ動画のフォロワー欄が途中までしか保存されない問題ってどうすれば解決できますか?

www.nicovideo.jp/user/23396749/follow/follower

https://archive.is/4Efzj

上記のユーザーならフォロワーは僅か40なので情報量が大きすぎるという訳でもないはずなのですが
0333名無しさん@お腹いっぱい。
垢版 |
2024/03/10(日) 15:18:40.98
今日調子悪い?
0334名無しさん@お腹いっぱい。
垢版 |
2024/03/10(日) 15:18:44.98
今日調子悪い?
0338名無しさん@お腹いっぱい。
垢版 |
2024/03/11(月) 21:15:52.76
>>331
じゅんじゅ@\( ・ω・)/ www.nicovideo.jp/user/41124243
元グリーンベレー user/13675361 ・ lalala user/2765923
蘭‐Ran‐ user/18878661 ・ めざすくん user/27507212
わるよい user/3953893 ・ ゆ〜の user/2915294
sou user/11352489 ・ モッチチ user/6511183 ・ 海鼠 user/4114082
0342名無しさん@お腹いっぱい。
垢版 |
2024/03/15(金) 16:03:39.90
imgur 画像のリファラ検査が始まり、直リンが禁止されてアーカイヴできなくなった。
https://i.imgur.com/8oRShxz.jpeg

https://imgur.com/8oRShxz
ページ内の埋め込み画像はリファラが送られるが、この URL では駄目。

https://imgur.com/8oRShxz/embed
この URL のアーカイヴを保存させればよい。

結果
https://web.archive.org/web/20240315065808im_/i.imgur.com/8oRShxzl.jpg
0343名無しさん@お腹いっぱい。
垢版 |
2024/03/16(土) 14:31:32.48
>>342
その方法を今試してみたけど保存できてないよ。
保存したファイルと元のファイル比較してみれば分かるけど解像度もファイルサイズも違うしURL末尾辺りに謎の小文字lが付加されてる。
0344342
垢版 |
2024/03/16(土) 15:04:21.21
>>343
あーほんとだ、気付かんかった

8oRShxz
8oRShxzl

何か良い方法は無いかな
0348名無しさん@お腹いっぱい。
垢版 |
2024/03/22(金) 05:15:15.83
NHKが運営するネット上の特設ページ、続々と運営終了。放送法改正を見据えた動きか

https://internet.watch.impress.co.jp/docs/yajiuma/1577805.html

2024年4月1日10:00をもちまして、以下特設ページの掲載を終了(番組ストリーミングを含む)いたします。(NHKゴガク)
https://www.nhk.or.jp/gogaku/
NHK、「政治マガジン」など6サイト更新停止へ 新サービスを検討(朝日新聞デジタル)
https://www.asahi.com/articles/ASS375VHPS36UCVL04P.html
NHKやばいな。どんどんデジタルサービス終了させている。声調確認くんとか、凄く良かったのに。デジタル頑張っていた中の人たちが気の毒。(Togetter)
https://togetter.com/li/2334548
0349名無しさん@お腹いっぱい。
垢版 |
2024/03/23(土) 15:57:54.15
特許や意匠権の参考文献にURLが記載されてる事って多いんだけどさ
昔のホームページだと404かつ何処にもアーカイブされてないとかざら何だよな
せめてその辺は国がアーカイブしないと将来的に困ったことにならんのか?と思う
0359名無しさん@お腹いっぱい。
垢版 |
2024/03/28(木) 15:36:57.20
Queue-Itの待合室経由みたいに、いったんリダイレクトされてJavascript動作してから本サイトにリダイレクトされるようなサイトはどうやってアーカイブするの?
save page nowではなくて、自PCでアクセスして表示したページをそのままアーカイブできる機能とかあればしりたい。
0368名無しさん@お腹いっぱい。
垢版 |
2024/04/02(火) 19:17:02.33
どうも postpagebeta=0 のクッキーだけ送っておけば、
リファラ無しの画像直リンでも OK っぽいな。

>>367
スクリプト使うのも Save Page Now のページを使うのも、やってる事は全く同じなんだけど
後者では入力できないパラメータを送る必要があるんだよね。
https://web.archive.org/save/ を表示させて、次のブックマークレットで入力欄を追加してから
上の欄に imgur の画像 URL、下の欄に postpagebeta=0 を入力してボタンを押せば
たぶん保存できる。
https://pastebin.com/uEZ1Dbqi
0372名無しさん@お腹いっぱい。
垢版 |
2024/04/04(木) 13:26:28.62
imgur の画像直リンが、クッキーを付けてあってもリダイレクトされるようになってしまったかも。
それでも拡張子の無い https://imgur.com/xxxxxxx 形式の URL を
クッキー付きでアーカイブさせれば、画像にはリファラが送られるので保存はできている。
0373名無しさん@お腹いっぱい。
垢版 |
2024/04/06(土) 22:10:26.61
Resources (ページ内画像等) としてアーカイブされた URL がカレンダ表示に登場するまでに
時間が掛かってる
0374名無しさん@お腹いっぱい。
垢版 |
2024/04/07(日) 12:36:44.17
APIでリファラも送れるようにしてくれないかな
cookieやUAは送れるのにリファラは対応してないの何で?
0378名無しさん@お腹いっぱい。
垢版 |
2024/04/09(火) 18:51:29.66
>>377
自分も、ここ最近X(旧Twitter)のアーカイブが取得できなくて困ってる。
0380名無しさん@お腹いっぱい。
垢版 |
2024/04/14(日) 14:05:36.49
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
0381アーカイブ
垢版 |
2024/04/15(月) 06:08:58.29
またイモグラ保存できなくなったんじゃないだろうな
もうイモグラは使わないでくれ
0383アーカイブ
垢版 |
2024/04/15(月) 14:34:30.98
OutLinksを使うと保存できてる時もあるっぽいな。
これが原因か?
0384アーカイブ
垢版 |
2024/04/15(月) 16:54:08.33
いや関係無いっぽいな。
試しにスクリプトが上げてるグ□画像を保存してみたらOutLinksなんて無くても一発で取れた。
取れる画像と取れない画像があるのか?
0387アーカイブ
垢版 |
2024/04/16(火) 08:03:08.50
保存回数上限がホスト毎に決められているけど、回数はURL毎に数えているってことか。
0389名無しさん@お腹いっぱい。
垢版 |
2024/04/19(金) 22:35:13.33
そろそろやばいやばいっていわれてるけど、Archive.liがなくなる事ってあるのかね。
そもそもあいつの資金源どうなってんだ?
0390名無しさん@お腹いっぱい。
垢版 |
2024/04/19(金) 22:39:26.28
運営費がかさむかさむって言ってたし、ロシアでの運営じゃ厳しいだろ。
国を出ないなら、このまま吹き飛びそうだな。
0391名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:11:21.35
【質問】Wayback machineで既に誰かがウェブサイトをアーカイブしていたときサイトのアーカイブは更新されるのか

拡張機能web archivesでwayback machineを選択する→既にアーカイブされている1年前のものが表示される

画像などが保存されていないので現在の最新の状態で完全なものをアーカイブしたいんですが可能なんですかね?やり方がわかりません
gyazo.com/2dea0146024edc6952878c8d25b9b572
0392名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:57:11.01
Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
0393名無しさん@お腹いっぱい。
垢版 |
2024/04/20(土) 13:57:11.53
Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると?
0395名無しさん@お腹いっぱい。
垢版 |
2024/04/23(火) 19:37:25.85
アーカイブチーム、いや、いつもアーカイブしている人たちは全員本当にやる気を感じない
YouTubeの動画のページが公開された時、すぐに保存されないケースが多いし。
0398名無しさん@お腹いっぱい。
垢版 |
2024/04/29(月) 19:58:05.90
ttps://www.courts.go.jp/app/files/hanrei_jp/995/088995_hanrei.pdf
グリーの弁護士、Wayback MachineのURL日付部分を日本時間基準だと勘違いして日付が一致しないとか言ってて草
検証の部分でUTC時間だから問題ないとちゃんと反論されていてよかった、ついでに裁判も負けてる
0399アーカイヴ
垢版 |
2024/04/30(火) 22:20:03.49
さっきまでめっちゃ調子よかったのに503
0400名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:42:01.31
てかメンテの表示出てるじゃん。今夜はもう無理かな。

>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
0401名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:42:04.16
てかメンテの表示出てるじゃん。今夜はもう無理かな。

>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。
0402名無しさん@お腹いっぱい。
垢版 |
2024/04/30(火) 22:49:38.87
>>387
そういえば、ちょっと前にyoutube.comの1日の保存上限で8万回?ってエラー出てた。2年ぐらい前にエラー出た時はもっと数字が大きかった気がするけど。
確実に保存したいなら上限がリセットされるはずの日本時間午前9時から早い者勝ちで保存するしかないみたいだが。
0406名無しさん@お腹いっぱい。
垢版 |
2024/05/04(土) 15:36:31.33
>>403
今見てみたら、動画ファイルの保存まではできてないみたい。

確認用コード
curl -I "https://web.archive.org/web/2oe_/http://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。
0407名無しさん@お腹いっぱい。
垢版 |
2024/05/04(土) 15:36:33.70
>>403
今見てみたら、動画ファイルの保存まではできてないみたい。

確認用コード
curl -I "https://web.archive.org/web/2oe_/http://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。
0410名無しさん@お腹いっぱい。
垢版 |
2024/05/06(月) 15:54:44.08
archive.todayってMicrosoftのサーバー経由してるのなんで?
MSのサーバーをhostsで遮断したら保存できなくなった
0414名無しさん@お腹いっぱい。
垢版 |
2024/05/12(日) 15:27:19.16
archiveのアニメをWEBで見てたがすごく遅くて適当にVPNで日本で見たらすぐ見れた

IP規制してる??
0415名無しさん@お腹いっぱい。
垢版 |
2024/05/16(木) 18:03:20.05
X(twitter)やインスタを保存するのにオススメの方法があったら教えて。
0416名無しさん@お腹いっぱい。
垢版 |
2024/05/16(木) 18:57:43.42
すみません。
twitterアカウントを削除する前に、ツイート削除した場合、該当のツイートは見ることできますか??
0418名無しさん@お腹いっぱい。
垢版 |
2024/05/16(木) 20:01:40.36
>>417
ありがとうございます!
レスを投稿する


ニューススポーツなんでも実況