X



【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
0001192.168.0.774
垢版 |
2019/04/06(土) 21:31:22.29ID:KqAD+H9+0
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
0399192.168.0.774
垢版 |
2020/07/19(日) 14:44:03.36ID:5VoHw/dK0
ocn1.netってサーバー名だったのかサイト名ではなかったのか
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん
0401192.168.0.774
垢版 |
2020/07/22(水) 00:43:31.60ID:Qv2V5tOA0
>>400
保存する価値が高いな
0402192.168.0.774
垢版 |
2020/07/22(水) 06:22:06.26ID:5ZyfxxsF0
検索サイトにアーカイブが引っ掛かる又はWeb Archiveに保存されてる以外だと実質的な消滅に等しい
0403192.168.0.774
垢版 |
2020/07/25(土) 12:03:11.28ID:vPQBVdbR0
> お知らせです。Neverまとめ終了に伴い、【実走!酷道・険道のまとめ】についても、終了させることにしました。
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
https://twitter.com/5chan_nel (5ch newer account)
0404192.168.0.774
垢版 |
2020/07/25(土) 20:28:57.46ID:op0juaWZ0
ウェイバックでアーカイブしたNAVERまとめ記事でページ移動しようとすると
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう
0405192.168.0.774
垢版 |
2020/07/25(土) 23:03:50.67ID:vPQBVdbR0
>>404
自分が取ったアーカイブはそんな症状は出てないな
その問題が出たアーカイブのURLを教えてくれんか
0406192.168.0.774
垢版 |
2020/07/26(日) 00:15:07.54ID:6TmDXbEI0
>>405
例えばこのまとめのアーカイブ
2159020990876963301

2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false

何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない
0407192.168.0.774
垢版 |
2020/07/28(火) 01:55:57.75ID:GOjmQFzm0
>>406
そのまとめではエラーにならなかったが、別の複数のまとめでエラー発動したわ
条件は全然分からないな
0408192.168.0.774
垢版 |
2020/07/31(金) 18:21:02.96ID:hz5s2lhM0
最近/save/の後にURLつけてブラウザで踏んで保存しようとするととんでもなく時間かかるようになってるんだけど
もっと早く保存する方法ないかな
0409192.168.0.774
垢版 |
2020/07/31(金) 19:38:16.52ID:gaCi8uhU0
>>408
同じく
しかもちゃんと保存できてるかどうかも怪しい
0410192.168.0.774
垢版 |
2020/07/31(金) 20:26:07.21ID:TTL90URn0
これ使えんの?
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14

web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■

動作試験環境:windows10pro Irvine1.3.1
0411192.168.0.774
垢版 |
2020/07/31(金) 21:15:44.33ID:x6UEbNzr0
>>410
自分で使ってみては?
レビューしてくれ
0412192.168.0.774
垢版 |
2020/07/31(金) 22:16:46.71ID:BOBaNxn40
>>411
>>408-409
へのレスしたつもりなんだけどね
誤解させてごめんねw
0413192.168.0.774
垢版 |
2020/07/31(金) 22:59:42.22ID:x6UEbNzr0
>>412
理解した

このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど
0414192.168.0.774
垢版 |
2020/08/02(日) 02:59:54.76ID:BxGk29Xt0
Naverまとめを色々漁ってたらネット上で出回ってるコラの元画像・出典を集めたやつがあった
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい
0415192.168.0.774
垢版 |
2020/08/04(火) 10:42:23.62ID:kQccth3l0
昔のエロゲーとか普通の深夜アニメとかの公式サイトで保存されていないページが時々ある
0416192.168.0.774
垢版 |
2020/08/07(金) 14:35:38.67ID:SiHrQHil0
Googleマップの埋め込みはArchiveTodayで録れる
0417192.168.0.774
垢版 |
2020/08/15(土) 19:40:30.73ID:PMZXDU5C0
>>398
無理じゃね?
0418192.168.0.774
垢版 |
2020/08/16(日) 20:27:14.92ID:98xsFRfG0
ストリーミング配信のクロールは技術的に結構難しい
0419192.168.0.774
垢版 |
2020/08/16(日) 20:27:47.53ID:98xsFRfG0
動画を保存するならメタデータを含めた上で普通にダウンロードした方がいい
0420192.168.0.774
垢版 |
2020/08/18(火) 18:55:08.22ID:e28RrLlN0
トップページは見れるけど細かい中身までは保存されてないのか見れないことが多いわね 特に画像や動画は死んでる
0421192.168.0.774
垢版 |
2020/08/18(火) 21:04:20.75ID:xoxZKMa90
さくらインターネット専用サーバ
2020年11月30日で全て終了
0422192.168.0.774
垢版 |
2020/08/18(火) 23:33:08.82ID:FetPd1Vj0
>>421
古い専用サーバだけが対象

>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 〜 現在申込受付)」はサービス終了の対象ではございません。
https://server.sakura.ad.jp/dedicated_server_end/
0423192.168.0.774
垢版 |
2020/08/19(水) 17:14:03.56ID:iZ5+0Ecr0
>>422
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm

NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して
0424192.168.0.774
垢版 |
2020/09/06(日) 17:22:46.19ID:CBf1XfYV0
サービス終了のお知らせ

長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space

携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
http://m-space.jp/
0425192.168.0.774
垢版 |
2020/09/07(月) 12:06:40.69ID:3OpmkuSp0
Naverまとめのバックアップしてる有志いないかー?
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない
0426192.168.0.774
垢版 |
2020/09/07(月) 15:14:13.63ID:3OpmkuSp0
>>404
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい
0427192.168.0.774
垢版 |
2020/09/08(火) 03:14:53.75ID:rgMOAV4l0
>>397
同意
0428192.168.0.774
垢版 |
2020/09/08(火) 22:10:50.40ID:+a/fwcct0
将来役に立つか分らんけど書いとく
Naverまとめは2ページ目以降のURL末尾が
@: ?page=ページ番号
A: ?&page=ページ番号
の2パターンあるので注意
通常であれば2ページ目→@、3ページ目以降→Aのパターンで保存されてるはず(だが例外もある)
あとはこの辺 >>404 >>406
0429192.168.0.774
垢版 |
2020/09/09(水) 08:08:33.67ID:iGXkHt4n0
とりあえず作ったからURL集めここにしないか?
NAVERの終了近づいてるから立てといた
https://jbbs.shitaraba.net/internet/25479/

5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで
0430192.168.0.774
垢版 |
2020/09/09(水) 22:03:15.69ID:GaAB5Js70
>>429

汎用的に使えるし次スレからここのテンプレに入れた方がいいな

>>429は念の為にトリップ付けてしたらばと5ch両方に書き込んでおくと良いかも
したらばと5ch(&おーぷん2ch)とではトリップの生成アルゴリズムが違うらしく同じ名前でも違うトリップになるけど、とりあえずでも管理人だという証明がある方が何かと安心だしね
0431◆Oddz6L15vQ
垢版 |
2020/09/09(水) 22:23:41.61ID:iGXkHt4n0
>>430
OK、付けておく
0432192.168.0.774
垢版 |
2020/09/10(木) 17:58:45.52ID:lCL9EyAY0
150万記事くらいURLかき集めてタイトルとページ数もセットで保存してあるよ
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない
0433192.168.0.774
垢版 |
2020/09/10(木) 20:34:28.12ID:S0dI6L/m0
>>432
ArchiveTeamに渡すってことはインターネットアーカイブには保存できてないってこと?
0434192.168.0.774
垢版 |
2020/09/11(金) 15:17:14.37ID:FY5rw0Vj0
>>433
ArchiveTeamが保存したサイトはWayback Machineにアップロードされて、最終的にちゃんとInternet Archiveに保存される仕組みになってる
0435192.168.0.774
垢版 |
2020/09/11(金) 15:43:42.84ID:FY5rw0Vj0
>>432
150万はすごいな、何を使って収集したのか気になる
あとArchiveTeamとのコンタクトってどうやって取ったん?
サイトの説明を色々読んでるけど窓口が見つからない
0436192.168.0.774
垢版 |
2020/09/11(金) 17:53:04.83ID:vIEy03BU0
>>434
いや、そういう意味ではなくArchiveTeamの動きないってことはインターネットアーカイブに保存できてないんじゃないかってこと
もしインターネットアーカイブに現時点で保存できなくて、ArchiveTeamに動きなければ>>432がローカルで保存できてない限り9月30日を迎えたらそれも無駄になる
0437192.168.0.774
垢版 |
2020/09/11(金) 18:38:50.57ID:FY5rw0Vj0
>>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね

ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?
0438192.168.0.774
垢版 |
2020/09/11(金) 19:41:43.80ID:vIEy03BU0
>>437
いろいろ保存してるけど本当に2ページ以降はクロールされてないよ
クローラーの仕様でGoogle検索に出る1ページだけは保存されるけど
だから人力で保存されてる記事はあんまりないね
0439192.168.0.774
垢版 |
2020/09/12(土) 09:44:43.85ID:+xgSs3Ql0
>>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ

アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ
0440192.168.0.774
垢版 |
2020/09/12(土) 12:00:07.88ID:G5q1lmCg0
>>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい
0441192.168.0.774
垢版 |
2020/09/12(土) 12:06:20.24ID:G5q1lmCg0
ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ
0442192.168.0.774
垢版 |
2020/09/12(土) 14:19:44.63ID:smUg5j0l0
>>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい

こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから
0443192.168.0.774
垢版 |
2020/09/12(土) 19:09:30.26ID:G5q1lmCg0
>>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー
0444192.168.0.774
垢版 |
2020/09/12(土) 19:14:06.20ID:GdLneOCP0
>>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん
0445192.168.0.774
垢版 |
2020/09/12(土) 19:35:49.12ID:smUg5j0l0
>>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな
0446192.168.0.774
垢版 |
2020/09/14(月) 03:08:56.33ID:W68LNMti0
ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね

>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ
0447435
垢版 |
2020/09/14(月) 04:11:09.04ID:Np2NU3M80
>>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが
0448446
垢版 |
2020/09/14(月) 11:29:54.09ID:sR0ATY0Y0
NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
https://web.archive.org/web/20200913150754if_/https://transfer.notkiska.pw/r9mfn/NAVER_matome_article_list.csv

※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない
0449192.168.0.774
垢版 |
2020/09/14(月) 15:27:58.62ID:Np2NU3M80
>>448
503エラーのページがアーカイブされているんだが
0450192.168.0.774
垢版 |
2020/09/14(月) 15:30:52.44ID:fWxNFkB80
ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?
0451192.168.0.774
垢版 |
2020/09/14(月) 15:32:16.47ID:Np2NU3M80
Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん
0452192.168.0.774
垢版 |
2020/09/14(月) 15:36:10.18ID:Np2NU3M80
>>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
https://ja.wikipedia.org/wiki/Archive_Team
https://www.archiveteam.org/
0454192.168.0.774
垢版 |
2020/09/24(木) 21:11:36.87ID:kg/LREFg0
Braveの機能を使って少額寄付した
0455192.168.0.774
垢版 |
2020/09/25(金) 12:26:47.34ID:Cm7cjbfH0
>>454
Braveいいよね特にスマホ
ポイントサイトで乞食活動やるよか割もいいし
0456192.168.0.774
垢版 |
2020/09/28(月) 05:48:18.46ID:ydgdSdUA0
今更NAVERまとめをローカルに落とそうとしているのだが
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)

NAVER&FC2まとめダウンローダ
http://shimarisu.webcrow.jp/naver_matome.html

は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……

他の人はどのようにローカルに落としているのでしょうか?
0457192.168.0.774
垢版 |
2020/09/29(火) 11:41:45.96ID:IYXlvscX0
そもそもローカルに落としてないな...
Wayback Machineに頼ってる
0458192.168.0.774
垢版 |
2020/09/30(水) 00:31:14.62ID:6Ozi/51l0
Naverまとめはほぼバックアップされてるっぽいから安心した
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫
0459192.168.0.774
垢版 |
2020/09/30(水) 14:43:23.75ID:g0DIZp7G0
ツイッターを見ているとNAVERまとめがなくなったことを喜んでる人結構多いし、
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね

自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない
0460192.168.0.774
垢版 |
2020/09/30(水) 14:52:44.90ID:g0DIZp7G0
しかしまあNAVERまとめをブログ代わりに使ってた人結構多かったみたいだな
0461192.168.0.774
垢版 |
2020/09/30(水) 15:31:27.75ID:aEbDHVq00
>>459
バカッターなんて結論決まってて後押し(確証バイアス)がほしい時だけ見るもんだよ
今回のなんて馬鹿は想像力も共感力も低くて他人の痛みが分からないから見るだけ無駄だったわけだし
0462192.168.0.774
垢版 |
2020/09/30(水) 17:47:30.32ID:g0DIZp7G0
>>461
確かにそれはそういうものなのかもしれないな
0463192.168.0.774
垢版 |
2020/10/04(日) 01:53:55.83ID:t5NF2s3S0
ArchiveTeamのリソースほんとすごいな...
0464192.168.0.774
垢版 |
2020/10/05(月) 21:28:33.39ID:PD0n9p530
「Webスペース」 サービス提供終了について
https://www.so-net.ne.jp/info/2020/op20200908_0039.html

平素はSo-netをご利用いただき、誠にありがとうございます。

このたび、誠に勝手ながら、2021年1月28日(木)をもちまして、「Webスペース」サービスの提供を終了させていただくこととなりました。
0466192.168.0.774
垢版 |
2020/10/06(火) 12:42:46.60ID:phjE2/zo0
so-netが終了したらまた古のインターネットが色々消えるな
0467192.168.0.774
垢版 |
2020/10/06(火) 22:52:50.75ID:DBLhvSyO0
So-netブログはSeesaaに成ったからブログ以外か…
0469GeoLog Project ◆RJRIJK3wcLw8
垢版 |
2020/10/11(日) 16:23:42.66ID:wq/dYYyR0
so-netのURL収集を始めることにしました
知っているURLがあれば追加してください
現時点でユーザー名単位で2万程度、個別URLでは300万くらいDBに入ってます

https://geolog.mydns.jp/so-net/

特にJavaScript等から呼び出されるファイル群は網羅が難しいので、何か良い手があれば
0470◆sOHUy6jdA4II
垢版 |
2020/10/13(火) 01:07:49.82ID:y1bzU/4u0
>>469
日本語版ウィキペディアの外部リンクから2000個ほど抽出したんですが、スクリプトでの送信とかって受け付けてます?
(既に収集済みのものとだいぶ被りがありそうですが)
0471GeoLog Project ◆RJRIJK3wcLw8
垢版 |
2020/10/13(火) 19:39:50.63ID:5fIpkaAP0
>>470
特に制限はしてないですが、処理速度的に現実的ではない気がするので、
フォームを改行区切りで複数受け付けられるように直したいと思います
0473192.168.0.774
垢版 |
2020/10/13(火) 23:27:30.09ID:vjEziSOV0
geocitiesのときはそれなりに貢献できたけど今回はブクマ見てもso-netなかったわ・・・
0474あめ ◆P0jSlC5fJs
垢版 |
2020/10/18(日) 05:37:28.91ID:SRaefsBF0
【告知】ニコニコ動画のコメントサーバーリニューアルについて
https://blog.nicovideo.jp/niconews/141893.html
> マイメモリー機能の提供を終了
> ・マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
> 削除された動画へのコメント投稿とコメント表示の終了
> ・ 動画タイトルや説明文などの情報も表示されなくなります

期限は「2021年の春までに実施」とのこと
0475192.168.0.774
垢版 |
2020/10/18(日) 15:46:35.08ID:kWrTLNjS0
削除済み動画を全部リストアップして、動画説明文/タイトル/コメントなどの情報を取得していく感じか
コメントに関してはXML形式で取得する手法があったような気がする
マイメモリー機能は使ったことないから分からん
0476192.168.0.774
垢版 |
2020/10/18(日) 15:47:20.86ID:kWrTLNjS0
sm1から順に数字をカウントアップしていけばいいのかな
0477192.168.0.774
垢版 |
2020/10/19(月) 19:56:27.93ID:PssRg44Z0
>>472
検索で引っかかったサイトは送信した
WaybackMachineにも保存できないかな
0479192.168.0.774
垢版 |
2020/10/20(火) 18:21:05.26ID:eWiUZHxk0
>>478
Google検索なんて糞化が酷くてもう使ってないからどーでもいい
0480192.168.0.774
垢版 |
2020/10/20(火) 23:29:11.48ID:Puq2k3e00
世界一使われてる検索エンジンだしな
個人の好みとしてはGoogleが何をしたってどうでもいいとしても、
影響力を考えると決して無視はできないよ
0481192.168.0.774
垢版 |
2020/10/21(水) 03:05:19.74ID:2kIOGutW0
数年前からネットサーフィン=スマホに成ったからなぁ…
0482192.168.0.774
垢版 |
2020/10/21(水) 18:11:15.59ID:le0ESoNU0
Google 絶対じゃなくなったんであまり件数ヒットしない検索ワードは Bing や Yandex 併用だよ。
0483192.168.0.774
垢版 |
2020/10/21(水) 22:24:10.23ID:Yfu1DTmm0
DuckDuckGoで出ない時だけGoogle
0484192.168.0.774
垢版 |
2020/10/23(金) 16:57:51.30ID:qVAboCuj0
>>477
誰かがArchiveTeamにURLリスト渡してくれれば多分保存できる
NAVERまとめの時はアーカイブ開始までに1ヶ月くらいかかったから保存したい場合は早めに相談したほうがいいかも
0485192.168.0.774
垢版 |
2020/11/03(火) 09:39:05.85ID:q2UfgLtS0
wgetでWARC.GZファイルを書き出したとき画像ファイルとかも格納される?
どなたかご存知だったらお願いします
0486192.168.0.774
垢版 |
2020/11/04(水) 22:28:08.38ID:iEXbTPK90
>>485
WARCは画像ファイルや音声ファイルも含めてページを丸ごと保存する仕組みになっているから、
--page-requisitesオプションを付けて確実に画像がダウンロードされるように指定すれば、ちゃんと画像が格納されるはず
0488192.168.0.774
垢版 |
2020/11/05(木) 16:18:21.95ID:bSeXiffE0
>>487
ありがとです
--page-requisitesがうまく反映されてなかったみたいでした
0489192.168.0.774
垢版 |
2020/11/05(木) 17:30:05.38ID:M9nLXqV10
コロナ騒動の最中に消えていったお店のサイトも手動で保存している。
0491192.168.0.774
垢版 |
2020/11/22(日) 08:30:10.87ID:q2CdPGCc0
>>469 を使ってみた
URLをページ内検索で探したらなかったのに、送信するとDBにあると出た...
ページ内検索がダメなのかな
あと、文字化けしているところがあるけど大丈夫なのかな
0492GeoLog Project ◆RJRIJK3wcLw8
垢版 |
2020/11/22(日) 13:39:23.43ID:nA7b/lhh0
>>491
どのURLでしょう?

ロジック上は文字コードを考慮していないので、文字化けはそのせいかもしれないです
一応UTF-8のはずなんですが
0493192.168.0.774
垢版 |
2020/11/26(木) 12:16:05.64ID:8QHBEnW70
ttps://archive.st が全然取れなくなってしまった
0494192.168.0.774
垢版 |
2020/12/04(金) 19:50:57.91ID:UDGmJ95l0
>>493

復旧した?
0495192.168.0.774
垢版 |
2020/12/04(金) 21:37:24.55ID:Onk8N+kv0
そこってサイトによって取れたり取れなかったりしない?
0496192.168.0.774
垢版 |
2020/12/05(土) 10:13:49.51ID:jr20iitY0
>>493
そこって消える前のフリーウェアとかアーカイブ出来ないクソじゃね
0497192.168.0.774
垢版 |
2020/12/10(木) 20:48:32.73ID:vQ+C+6Ux0
>>496
自分の目的が果たせないものをクソ扱いするのは幼稚だからやめような
フリーウェアはInternet Archiveに持っていくとか、
証拠に使うから削除されたくないものは削除申請が通りにくいarchive.today使うとか、
各サービスを使い分けるのがより無難だよ
0498192.168.0.774
垢版 |
2020/12/12(土) 15:13:48.12ID:ELOCcQrr0
「Yahoo!ライフマガジン」サービス終了のお知らせ
この度「Yahoo!ライフマガジン」は、2021年3月31日(水)をもちまして、サービスを終了させていただくことになりました。
記事コンテンツは、引き続き「Yahoo! MAP」アプリ上でご覧いただけます。
これまで長きにわたりご利用いただき、ありがとうございました。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況