青空文庫 11棚目
レス数が1000を超えています。これ以上書き込みはできません。
古いファイルを見てると、工作員の独断で勝手に校閲したらしき部分を見つけることが時々ある
(底本通りではなく、別な本を見て直したように見えるが誤記注記がない、とか)
あと底本だか親本だかの版が存在しない版(発行日も刷数もでたらめ)だったこともあったな
あんまりゆるくするとそういうのが増えかねないから、校正はそれなりにちゃんとした方がいい、と思う >>951
OKなわけないじゃん
むしろ悪質だろ
調べに調べた上での誤りは致し方無い部分もあるかもしれないが
他人の書いた文章をお前の怠慢で改竄して公開する権利は無い 逐次更新と簡単に言うけど
少なくとも従来のシステムでは
技術的にも人手的にも簡単なことではなかった
それに青空文庫は出鱈目で信頼性が低いと酷く叩かれた過去だってある
新システムでファイル差し替えがどの程度容易になるかは分からないが、
それに甘んじず校正はきちんとやって信頼度の高いものを提供した方がいい >>953
え?
すでに次世代デジタルライブラリーでOCRによって改竄(いわゆる誤検出)された作品が大量に公開されてるよ
「悪質」かどうか誰が決めるの? というか951は工作員なのか読者なのかどういう立場で言ってるのか気になる
工作員だったら自分の作業には責任も誇りも持って受け持ってると思うので、なかなかこの発想にはならんと思うんだな >>955
次世代デジタルライブラリーはそれ自体が研究検証目的の実験的取り組みだ
同列には語れん >>951
底本をもたずに無料で読みに来る読者に細かい間違いを指摘させるってどんな無謀な期待よ >>956
誇りを持つのは自己満足で勝手にどうぞって感じだけど、責任はなんにも背負ってないでしょ。
それとも賠償責任とか負うの?
学術論文で引用された作品が間違ってたら署名つきで謝罪するとか?
あまり言葉遊びしないほうがいいと思うよ >>955
次世代デジタルライブラリーは「実験的な検索サービス」と謳ってるように青空文庫みたいな読むためのものではないし
OCRテキストと資料の画像を紐付けることによって内容の正確性を担保(補完)してる
それに公開時点で誤字・脱字・衍字があった時点で単純に悪質なのよ そのへんの感覚が希薄な耕作員がいるとしたら恐ろしい >>961
紙書籍の考えを引きずらなくていいと思うよ
間違ってたら更新すればいいだけ
紙書籍はハードウェアなので配布してしまったものを簡単に修正できないけど、
Web書籍はソフトウェアなので簡単に修正できる
青空文庫はなんの社会的責任も負っていないし、
ましてや君主でもないので「綸言汗の如し」のことわざはまったく当てはまらない >>963
で、その更新(修正)前に読んだ人にはどう対応するつもりなの?
その誤字部分のせいで駄作だと思われたら確認にも来ないよね? 間違ってたらデータを更新すればいいだけだからこそ公開までに何人もの目を通して修正を施してるんでしょ >>965
今も対応してないでしょ
てへぺろで十分 ocrの認識率が99%だとして、百字に一字も誤字がある文章なんて読めたもんじゃないから、そのまま公開しても「ざっと読める」クオリティには到底ならないと思う
現状は「ざっと読める」ようになるまで結局誰かの校正が必要。だとすると今とそんなに手間は変わらないんじゃないか。
ocrの認識率が今後伸びればまた違うのかもしれないが。
ただ、みん翻みたいな感じでみんなで校正できたらそれはそれで楽しそうだとは思う
けどそのシステムの実装のために式年遷宮が5年くらい伸びそうな気もするな。 >>954
の言う通り従来のシステムでは逐次更新そのものが面倒というのもそうだが、
青空文庫本体を更新したとしても、そこから作られて別なサーバに置かれてるファイル、
たとえばKindleで無料でダウンロードできる(赤と黄色の表紙の)ファイルなんかは
古いままだから、そっちを利用してる人は古いファイルを使い続けることになる
という問題もある(実際、青空の方は直ってるのにKindleの方だけ見て誤字がーって
愚痴ってる人を見たことがある)
よく知らんけど、公共図書館の電子図書館とかにあるファイルもそんな感じなんじゃない
だとしたらやはり現時点では公開の前に十分なチェックが必要かと思う >>969
青空文庫の最新版と同期を取る仕組みが必要って話でしょ
いつまでたっても古いままってのはどのみち問題なわけで。
公開前の十分なチェックとかやってるといつまで経っても10~20年物の待ち状態の作品をさばけないと思う 複数の工作員が校正を共同で作業してるのはたまにあるよね >>967
十分じゃないから最初の公開までに点検なり校正なりしてるんだけどそれが分からないの? 適当でおk派はウィキソースに行ったほうが幸せになれるぞ 公開してからバグがあると問題であるとするなら
非公開サイト内で一般人に近い環境でファイルを読む、
テスターあるいはデバッガーとしての耕作員活動を募るというのはどうだろう
いずれにしてもボランティアだから
読みやすいものに査読者が偏るだろうけど OCRから読み取るのと電子ブックからコピペしたのを貼り付けるのと何が違うんだろう
文章が全く同一の場合は何も変わらないのだろうか? 漢数字の「二」がカタカナの「ニ」になってたりすると
ocrに読み込ませて失敗したななんてことは思います 一般人から、書写者(早口で三度言えたらお前の勝ち)へ誤字をフィードバックする仕組みを作れよ。 >>978
それはホントに思う
kindleとかは誤字を簡単に報告する仕組みが出来てるけど
そんな感じで「これ、おかしいんじゃない?」って思うのを
気軽に送信してチェックしてもらえると嬉しい。
ちゃんと底本確認してから報告しろと言われるとハードルが
とてつもなく上がる。 たださ、青空文庫ではウィキソースと違ってママ注記を乱発しないんだよ
現代の用法と照らして間違ってるというだけでは、青空文庫ではママ注記しない
誤字通報フォームには、「□利用規約に同意します」よろしく
その旨(青空文庫の公式な「誤字、誤用」に対する考え方)理解を求めないとならんだろう その仕組みがないために誤字だらけの作品を公開し続けるのも
不味いのではないかなんて思うのですが
その辺は皆さんどうお考えでしょうか? 自分がその気軽な連絡を受けてチェックする側にいても同じこと言えるの? 一般読者は>>980を理解してない
だから同じ件や類似の件に何度でも報告してくる可能性がある
同じだからといってテンプレ対応はできない
報告が本当に単なる誤植なのかどうか、ママなのか、注記なしなのか、底本や親本を探してくるのもこちら、
該当箇所にあたって判断しなくちゃならないのはこちらだ
これを一件ずつな >>986
こちらってのは青空文庫側ってことか?
もちろん厖大な誤字報告に対応できるくらいの人手があればできるだろうけど、ないんだから現実的に無理じゃん。
そもそも底本確認することがハードルになるほど難しい事とは思えないから
報告者が底本まで確認して連絡するのが妥当だと思う。
どんな事だって間違いするときは客観的な根拠を示すのがフェアなんだから。 >>989
それほどハードルが高くないって思われるなら
そういう方にその役割を担っていただきたい。
読んで誤字を見つけるのが得意な人もいれば
底本を入手しやすい立場でチェックを得意とする方もいるだろうし
うまく得意分野を合わせて問題解決してほしいです。
誤字だらけの作品を公開されているのは
いくら著作権が切れてるといえ
作者は不本意だとおもうのですが。 「作者は不本意」も何も遺族は訴えられるからね
著作者人格権の侵害は500万円以下の罰金だし おお、ここはOCRを校正に使えると思っている幸せな人をたしなめるスレですね 誤植確認申請フォーム的なのを作るとしたら図書カードのURLや本文の該当箇所をテキストで入力する以外に
底本画像の該当ページと奥付の添付も必須にすればだいぶマシになるとは思う
(出版後70年経過してない場合の対応に困るんだけど)
流石に捏造する愉快犯は出てこないでしょ >>991
そもそも自分でチェックせずになぜ誤字と判断できるのかわからんな。
「誤字かも」「誤字な気がする」とかそんなレベルの連絡に対応するのは人手があればやれるのは確かだが
だとしても本来、やる筋合いはない。 遺族から「ここがおかしい」と言われたら直せばいいだけでしょ、
回収せずに改修できるのがWeb書籍の強み
回収が容易でない紙書籍とは違うのだよ、紙書籍とは 工作員としてやることがなくなるととなんかみんな変な感じになっちゃうな >>993
なにいてんの?
使えるのに使えないと誘導しようとしてるのかね
悪質だねぇ >>996
その杜撰さで運営したら誰も見向きもしなくなるって想像つかないの? このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 243日 19時間 9分 5秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。