青空文庫 11棚目
レス数が1000を超えています。これ以上書き込みはできません。
かもね
積年の課題をやっつけるためにはいい機会だ
なにかできることがあったら加わりたい 入力中→校正待ち
校正中→校了
この間に、「点検はしていないが受領はした」というモードが欲しいなあ
「校正待ち(点検前)」というモードもあるけれど、これはほとんど機能していなくて
入力者自身が中の人の場合くらいしか使われてないんじゃないかな
耕作員としては自分の手を一旦離れたものなのに
ずっと自分のところで○○中のまま停滞しているように見えるのこそ悲しけれ 今はJIS X 0213以外の漢字を含む青空文庫の作品内キーワードはWeb上に存在しないも同然の扱いになってる
Unicode対応するとJIS X 0213以外の漢字を含む作品内キーワードの多くをGoogleなどの検索エンジンが認識できるようになる Googleを引き合いに出してUnicodeを化が必要という話がたまに出るけど
むしろGoogleのほうが青空文庫形式に対応すべきじゃないの
と思う >>906
それやると、かえって逆に青空文庫側が自由に仕様変更できなくなるよ
青空文庫がhtml外字の仕様変更するたびに検索エンジンから見えなくなるからね
そういう二度手間なくすためのUnicodeってこと 青空文庫が出版業界と共存できる差別化は、せっかく紙で再版しても旧字旧仮名だらけで一般読者にはとっつきにくくて採算とれそうにない旧作の電子化だからUnicode対応待ったなしなんよ >>811
今さら亀レスですが
そらもようじゃなくてaozorablogの間違いでした
すみません充電してきます ママ注記にUnicode文字注記含んでるとつまりPageOneでエラー扱いになるからさっさとUnicode対応してほしい Unicodeとかもそうなんだけど作家・作品・底本(出版社や時代)を跨いだ全ての文章の一括検索という観点からすると
例えば「ほぼ」と「ほゞ」と「略」と「略々」と「略※[#二の字点、1-2-22]」みたいに表記揺れのある単語や言い回しをそれぞれの底本に準拠させる必要性がどこまであるのかみたいな問題にもなってくると思うんだよね
(他にも小書きかどうかだったり新字と旧字みたいな区別も出てくる)
それを検索サイトやシステム側で一緒にできるならいいんだけど 表記揺れはand検索でどうとでもなるからそのために本文を改変する必要はないと思うな それがどこまで網羅できるのかって話だけどね
データベースでも作るなら別の話になるけど 当たり前だけどUnicode対応するといままで包摂適用してきた多くの文字をそのまま使えるようになるので外字注記辞書の更新も必須 >>912-914
今まで、それを比較検証することすらできなかったわけで、
「HD画質は皺が目立つから良くない」みたいな後ろ向きな現状維持は見苦しい >>917
誕生から25年経ったのに、青空文庫の書式に対応した検索ツールが皆無という現実がすべてを物語ってるでしょ 「大岡政談」は、テキストファイルのサイズが青空文庫唯一の2MB越えで、ルビが75892個もあるんだね
今、未申請ながら入力してる作品もルビ35000個を超えているんだけど、上には上がいるってことでちょっと安心した 画像生成AI「Stable Diffusion」で青空文庫の名作小説に挿絵をつけてみた!【特集・集中企画】 - 窓の杜
https://forest.watch.impress.co.jp/docs/special/1466561.html >>922
タイトルは面白いと思ったが本文くっさ
漫画☆太郎の100%パターンマンガとどちらが下だろうと悩むほどに 底本のページ番号に特化した注記があればいいなあ
外部プログラムに底本のページ番号を渡すことで該当する画像ファイルなりPDFなりをすぐに開けると校正が楽になると思うんだが 来年は一体どうなるんだろうねぇ
まだ新年の公開作品の情報も出てないから完全に更新止まっちゃうのかな…… 未申請のまま入力に取りかかろうかと考えている
もしも他の人と作業がダブってしまってふいになったとしても
自己責任、自業自得ってことで
Unicode化や注記の仕方など
大きな仕様変更があるかもしれないが
それでも一年間なにもせずにいられそうもない 2022年12月23日に出された充電期間の通知よりも前に申請したんだが、未だに連絡メールが来ない
まだ4週間経ってないから待ってるけど、どうなるのかな
>>928
重複を回避できる仕組みがあればいいんだけど、やたら申請だけしてほったらかしにされると困るので、
青空文庫の中の人による集中管理によらない、入力者間のゆるい情報交換の仕組みがあればいいと思う。
Githubのissue機能(メール通知や状態管理できる2chスレッドみたいなもの)を使えば作品ごとに重複回避や作業分担できそう。 ググルのような工程表を用意し
この通りにやらないと優先度が落ちて行って最終的には申し込み自体消滅でいんちゃうの >>930
言いたいことはなんとなくわかるよ
けど、ガントチャートはスケジュールを中央で一元管理する人がいて始めて成り立つものなので、
ガントチャートの逐次更新にこだわると青空文庫の中の人の仕事が逆に増えてしまう恐れがある
毎日のようにたくさんの作品が放り込まれてくる青空文庫には、なじまないかもしれない 参加者皆で確認して行く方向が大事だと思う
管理者は10名ほど横繋がりでやり取りできる状態になると良いな 中の人もここ見てくれてるのだろうか?
だとすればここでブレインストーミング的にたくさん意見を出しておくと何かに活かされるかもしれんという希望が 工作員のみんな今年もお疲れ様
来年は色々変化があるのだろうけどぼちぼちよろしく 皆の活動が名作を支えてる
読者として楽しんでます
青空読んでたら何でか文庫本も買うようになって
変な逆転現象も出てる 昨年で校了になっている作品は、今「校了」になってるので全部なのだろうか
いま点検グループさんの手元にある作品は、いったん作業中止って扱いになるのだろうか
(入力校正の新規受付がストップするのは分かったけど……) >受領後点検と「校了」ステータスの完全再開は、新データベースシステムの本運用開始と高品質ファイル作成に目処がついてから
そういうことだろうね。
運用システムが万全になるまでは、「校了」に移行することはないということ。
なぜなら高品質ファイルにするために何らかの仕様変更をする可能性があるし、
そうなれば、すでに送ったファイルでも、校正者に再度返す必要がある。 校了したら、点検グループは必ず当日中に校正者にお疲れメールをくれる。
それがないということは
昨年中の校了作品は、今データベースで「校了」になったものがすべてで、あとは作業停止と思ってよいはず 自己レスごめん
>>942
>それがないということは
上の質問者さんが心配しているのは
「昨年中に自分の送った校正ファイルはどうなっている(どうなる)のか?」
ということだろうと想像して答えた。 >>940です。
ありがとうございます。
私は特に自分の担当している作業中作品はありませんが、
(いちおう一作品だけ入力申請していましたが未回答)
昨年の内に校正中になった自分の担当作品が多く、
それらが今後どうなるのか気になってました。
初心者の方が校正している様子も見受けられるので、
混乱が生じないことを祈りたいです…… >>944
あまり新人を敬遠する発言はしないでほしい
新人でも精力的な人は精力的だし
点検Gもサポートしてる 十年以上校正者がいない作品もあるのに
手を上げて校正してもらえる人が現れただけ幸運だよ 厳格にやるべきは著作権など権利の確認で、校正はそれほど厳格にしなくても良いと思うんだが、
「ウォーリーを探せ」よろしく、入力間違いを沢山見つけた強者を月間・年間ランキング表示するゲーム感覚でいいんじゃないの。
ま、暴論だけどさ >>946
そうですね。
申し訳ございません。
私も参加したのは近年からですので、どちらかと申せば初心者です。
今回のリニューアルを機に、
いまだ校正されていない作品に光が当たりますように。
長文作品は「ドグラ・マグラ」のように交流しながらグループで行えるのが理想ですね。 >>948
「歴史的仮名遣いを現代仮名遣いに改めた」とか「明らかな誤植を修正した」とか「使用する文字コードに存在しない文字を画像で挿入にした」みたいに
やむを得ない理由がないのに内容を変えて公開したら同一性保持権の侵害になるんだから内容の正確性はそのまま著作権の論点になるよ
同一性保持権などの著作者人格権は保護期間みたいな制限がないからね(著作権法60条参照) >>950
読者の視点でざっと読んで、違和感なかったらOKってことでいいんでないかな。
より細かい間違いを見つける作業は、一般人に委ねたらいいと思う。
参加型や逐次更新というWebの強みを活かさない手はない。 古いファイルを見てると、工作員の独断で勝手に校閲したらしき部分を見つけることが時々ある
(底本通りではなく、別な本を見て直したように見えるが誤記注記がない、とか)
あと底本だか親本だかの版が存在しない版(発行日も刷数もでたらめ)だったこともあったな
あんまりゆるくするとそういうのが増えかねないから、校正はそれなりにちゃんとした方がいい、と思う >>951
OKなわけないじゃん
むしろ悪質だろ
調べに調べた上での誤りは致し方無い部分もあるかもしれないが
他人の書いた文章をお前の怠慢で改竄して公開する権利は無い 逐次更新と簡単に言うけど
少なくとも従来のシステムでは
技術的にも人手的にも簡単なことではなかった
それに青空文庫は出鱈目で信頼性が低いと酷く叩かれた過去だってある
新システムでファイル差し替えがどの程度容易になるかは分からないが、
それに甘んじず校正はきちんとやって信頼度の高いものを提供した方がいい >>953
え?
すでに次世代デジタルライブラリーでOCRによって改竄(いわゆる誤検出)された作品が大量に公開されてるよ
「悪質」かどうか誰が決めるの? というか951は工作員なのか読者なのかどういう立場で言ってるのか気になる
工作員だったら自分の作業には責任も誇りも持って受け持ってると思うので、なかなかこの発想にはならんと思うんだな >>955
次世代デジタルライブラリーはそれ自体が研究検証目的の実験的取り組みだ
同列には語れん >>951
底本をもたずに無料で読みに来る読者に細かい間違いを指摘させるってどんな無謀な期待よ >>956
誇りを持つのは自己満足で勝手にどうぞって感じだけど、責任はなんにも背負ってないでしょ。
それとも賠償責任とか負うの?
学術論文で引用された作品が間違ってたら署名つきで謝罪するとか?
あまり言葉遊びしないほうがいいと思うよ >>955
次世代デジタルライブラリーは「実験的な検索サービス」と謳ってるように青空文庫みたいな読むためのものではないし
OCRテキストと資料の画像を紐付けることによって内容の正確性を担保(補完)してる
それに公開時点で誤字・脱字・衍字があった時点で単純に悪質なのよ そのへんの感覚が希薄な耕作員がいるとしたら恐ろしい >>961
紙書籍の考えを引きずらなくていいと思うよ
間違ってたら更新すればいいだけ
紙書籍はハードウェアなので配布してしまったものを簡単に修正できないけど、
Web書籍はソフトウェアなので簡単に修正できる
青空文庫はなんの社会的責任も負っていないし、
ましてや君主でもないので「綸言汗の如し」のことわざはまったく当てはまらない >>963
で、その更新(修正)前に読んだ人にはどう対応するつもりなの?
その誤字部分のせいで駄作だと思われたら確認にも来ないよね? 間違ってたらデータを更新すればいいだけだからこそ公開までに何人もの目を通して修正を施してるんでしょ >>965
今も対応してないでしょ
てへぺろで十分 ocrの認識率が99%だとして、百字に一字も誤字がある文章なんて読めたもんじゃないから、そのまま公開しても「ざっと読める」クオリティには到底ならないと思う
現状は「ざっと読める」ようになるまで結局誰かの校正が必要。だとすると今とそんなに手間は変わらないんじゃないか。
ocrの認識率が今後伸びればまた違うのかもしれないが。
ただ、みん翻みたいな感じでみんなで校正できたらそれはそれで楽しそうだとは思う
けどそのシステムの実装のために式年遷宮が5年くらい伸びそうな気もするな。 >>954
の言う通り従来のシステムでは逐次更新そのものが面倒というのもそうだが、
青空文庫本体を更新したとしても、そこから作られて別なサーバに置かれてるファイル、
たとえばKindleで無料でダウンロードできる(赤と黄色の表紙の)ファイルなんかは
古いままだから、そっちを利用してる人は古いファイルを使い続けることになる
という問題もある(実際、青空の方は直ってるのにKindleの方だけ見て誤字がーって
愚痴ってる人を見たことがある)
よく知らんけど、公共図書館の電子図書館とかにあるファイルもそんな感じなんじゃない
だとしたらやはり現時点では公開の前に十分なチェックが必要かと思う >>969
青空文庫の最新版と同期を取る仕組みが必要って話でしょ
いつまでたっても古いままってのはどのみち問題なわけで。
公開前の十分なチェックとかやってるといつまで経っても10~20年物の待ち状態の作品をさばけないと思う 複数の工作員が校正を共同で作業してるのはたまにあるよね >>967
十分じゃないから最初の公開までに点検なり校正なりしてるんだけどそれが分からないの? 適当でおk派はウィキソースに行ったほうが幸せになれるぞ 公開してからバグがあると問題であるとするなら
非公開サイト内で一般人に近い環境でファイルを読む、
テスターあるいはデバッガーとしての耕作員活動を募るというのはどうだろう
いずれにしてもボランティアだから
読みやすいものに査読者が偏るだろうけど OCRから読み取るのと電子ブックからコピペしたのを貼り付けるのと何が違うんだろう
文章が全く同一の場合は何も変わらないのだろうか? 漢数字の「二」がカタカナの「ニ」になってたりすると
ocrに読み込ませて失敗したななんてことは思います 一般人から、書写者(早口で三度言えたらお前の勝ち)へ誤字をフィードバックする仕組みを作れよ。 >>978
それはホントに思う
kindleとかは誤字を簡単に報告する仕組みが出来てるけど
そんな感じで「これ、おかしいんじゃない?」って思うのを
気軽に送信してチェックしてもらえると嬉しい。
ちゃんと底本確認してから報告しろと言われるとハードルが
とてつもなく上がる。 たださ、青空文庫ではウィキソースと違ってママ注記を乱発しないんだよ
現代の用法と照らして間違ってるというだけでは、青空文庫ではママ注記しない
誤字通報フォームには、「□利用規約に同意します」よろしく
その旨(青空文庫の公式な「誤字、誤用」に対する考え方)理解を求めないとならんだろう その仕組みがないために誤字だらけの作品を公開し続けるのも
不味いのではないかなんて思うのですが
その辺は皆さんどうお考えでしょうか? 自分がその気軽な連絡を受けてチェックする側にいても同じこと言えるの? 一般読者は>>980を理解してない
だから同じ件や類似の件に何度でも報告してくる可能性がある
同じだからといってテンプレ対応はできない
報告が本当に単なる誤植なのかどうか、ママなのか、注記なしなのか、底本や親本を探してくるのもこちら、
該当箇所にあたって判断しなくちゃならないのはこちらだ
これを一件ずつな >>986
こちらってのは青空文庫側ってことか?
もちろん厖大な誤字報告に対応できるくらいの人手があればできるだろうけど、ないんだから現実的に無理じゃん。
そもそも底本確認することがハードルになるほど難しい事とは思えないから
報告者が底本まで確認して連絡するのが妥当だと思う。
どんな事だって間違いするときは客観的な根拠を示すのがフェアなんだから。 >>989
それほどハードルが高くないって思われるなら
そういう方にその役割を担っていただきたい。
読んで誤字を見つけるのが得意な人もいれば
底本を入手しやすい立場でチェックを得意とする方もいるだろうし
うまく得意分野を合わせて問題解決してほしいです。
誤字だらけの作品を公開されているのは
いくら著作権が切れてるといえ
作者は不本意だとおもうのですが。 「作者は不本意」も何も遺族は訴えられるからね
著作者人格権の侵害は500万円以下の罰金だし おお、ここはOCRを校正に使えると思っている幸せな人をたしなめるスレですね 誤植確認申請フォーム的なのを作るとしたら図書カードのURLや本文の該当箇所をテキストで入力する以外に
底本画像の該当ページと奥付の添付も必須にすればだいぶマシになるとは思う
(出版後70年経過してない場合の対応に困るんだけど)
流石に捏造する愉快犯は出てこないでしょ >>991
そもそも自分でチェックせずになぜ誤字と判断できるのかわからんな。
「誤字かも」「誤字な気がする」とかそんなレベルの連絡に対応するのは人手があればやれるのは確かだが
だとしても本来、やる筋合いはない。 遺族から「ここがおかしい」と言われたら直せばいいだけでしょ、
回収せずに改修できるのがWeb書籍の強み
回収が容易でない紙書籍とは違うのだよ、紙書籍とは 工作員としてやることがなくなるととなんかみんな変な感じになっちゃうな >>993
なにいてんの?
使えるのに使えないと誘導しようとしてるのかね
悪質だねぇ >>996
その杜撰さで運営したら誰も見向きもしなくなるって想像つかないの? レス数が1000を超えています。これ以上書き込みはできません。