X



青空文庫 11棚目
レス数が1000を超えています。これ以上書き込みはできません。
0001無名草子さん
垢版 |
2022/05/03(火) 21:14:18.76
青空文庫
https://www.aozora.gr.jp/

【前スレ】
青空文庫 10棚目
https://mevius.5ch.net/test/read.cgi/books/1556609356/

【過去スレ】
青空文庫
http://book.5ch.net/test/read.cgi/books/1053625425/
※青空文庫 2冊目※
http://book3.5ch.net/test/read.cgi/books/1073138957/
【※】青空文庫 3棚目【※】
https://book3.5ch.net/test/read.cgi/books/1090913506/
【※】青空文庫4棚目【通りすがり】
https://book3.5ch.net/test/read.cgi/books/1107162580/
青空文庫 5棚目
https://love6.5ch.net/test/read.cgi/books/1152838732/
青空文庫 6棚目
https://kamome.5ch.net/test/read.cgi/books/1272024810/
青空文庫6.5棚目
https://toro.5ch.net/test/read.cgi/books/1284042704/
青空文庫 7.5棚目
https://toro.5ch.net/test/read.cgi/books/1330433965/
青空文庫 8棚目
https://peace.5ch.net/test/read.cgi/books/1349105770/
青空文庫 8.5棚目
https://mevius.5ch.net/test/read.cgi/books/1427638306/
青空文庫 9棚目
https://mevius.5ch.net/test/read.cgi/books/1507638527/
0900無名草子さん
垢版 |
2022/12/25(日) 00:59:41.88
外字注記辞書の更新も点検グループの仕事のひとつ。
0903無名草子さん
垢版 |
2022/12/25(日) 14:20:22.00
かもね
積年の課題をやっつけるためにはいい機会だ
なにかできることがあったら加わりたい
0904無名草子さん
垢版 |
2022/12/25(日) 14:37:38.07
入力中→校正待ち
校正中→校了

この間に、「点検はしていないが受領はした」というモードが欲しいなあ
「校正待ち(点検前)」というモードもあるけれど、これはほとんど機能していなくて
入力者自身が中の人の場合くらいしか使われてないんじゃないかな

耕作員としては自分の手を一旦離れたものなのに
ずっと自分のところで○○中のまま停滞しているように見えるのこそ悲しけれ
0905無名草子さん
垢版 |
2022/12/25(日) 18:01:40.00
今はJIS X 0213以外の漢字を含む青空文庫の作品内キーワードはWeb上に存在しないも同然の扱いになってる
Unicode対応するとJIS X 0213以外の漢字を含む作品内キーワードの多くをGoogleなどの検索エンジンが認識できるようになる
0906無名草子さん
垢版 |
2022/12/25(日) 18:14:29.25
Googleを引き合いに出してUnicodeを化が必要という話がたまに出るけど
むしろGoogleのほうが青空文庫形式に対応すべきじゃないの
と思う
0907無名草子さん
垢版 |
2022/12/25(日) 18:20:01.95
>>906
それやると、かえって逆に青空文庫側が自由に仕様変更できなくなるよ
青空文庫がhtml外字の仕様変更するたびに検索エンジンから見えなくなるからね
そういう二度手間なくすためのUnicodeってこと
0908無名草子さん
垢版 |
2022/12/25(日) 18:27:10.66
青空文庫が出版業界と共存できる差別化は、せっかく紙で再版しても旧字旧仮名だらけで一般読者にはとっつきにくくて採算とれそうにない旧作の電子化だからUnicode対応待ったなしなんよ
0909無名草子さん
垢版 |
2022/12/25(日) 22:05:27.21
>>811
今さら亀レスですが
そらもようじゃなくてaozorablogの間違いでした
すみません充電してきます
0910無名草子さん
垢版 |
2022/12/25(日) 23:20:37.34
ママ注記にUnicode文字注記含んでるとつまりPageOneでエラー扱いになるからさっさとUnicode対応してほしい
0912無名草子さん
垢版 |
2022/12/26(月) 21:36:13.63
Unicodeとかもそうなんだけど作家・作品・底本(出版社や時代)を跨いだ全ての文章の一括検索という観点からすると
例えば「ほぼ」と「ほゞ」と「略」と「略々」と「略※[#二の字点、1-2-22]」みたいに表記揺れのある単語や言い回しをそれぞれの底本に準拠させる必要性がどこまであるのかみたいな問題にもなってくると思うんだよね
(他にも小書きかどうかだったり新字と旧字みたいな区別も出てくる)
それを検索サイトやシステム側で一緒にできるならいいんだけど
0913無名草子さん
垢版 |
2022/12/26(月) 21:56:54.15
表記揺れはand検索でどうとでもなるからそのために本文を改変する必要はないと思うな
0914無名草子さん
垢版 |
2022/12/26(月) 22:12:08.36
それがどこまで網羅できるのかって話だけどね
データベースでも作るなら別の話になるけど
0915無名草子さん
垢版 |
2022/12/26(月) 22:42:57.71
当たり前だけどUnicode対応するといままで包摂適用してきた多くの文字をそのまま使えるようになるので外字注記辞書の更新も必須
0916無名草子さん
垢版 |
2022/12/26(月) 22:57:50.51
>>912-914
今まで、それを比較検証することすらできなかったわけで、
「HD画質は皺が目立つから良くない」みたいな後ろ向きな現状維持は見苦しい
0917無名草子さん
垢版 |
2022/12/27(火) 03:09:19.99
検索ツールの責をデーターに帰してどうすんだ。
0918無名草子さん
垢版 |
2022/12/27(火) 03:38:57.56
>>917
誕生から25年経ったのに、青空文庫の書式に対応した検索ツールが皆無という現実がすべてを物語ってるでしょ
0919無名草子さん
垢版 |
2022/12/27(火) 03:49:22.35
データーの責を検索ツールに帰してどうすんだ。
0921無名草子さん
垢版 |
2022/12/28(水) 01:12:10.34
「大岡政談」は、テキストファイルのサイズが青空文庫唯一の2MB越えで、ルビが75892個もあるんだね
今、未申請ながら入力してる作品もルビ35000個を超えているんだけど、上には上がいるってことでちょっと安心した
0923無名草子さん
垢版 |
2022/12/28(水) 12:40:06.43
>>922
タイトルは面白いと思ったが本文くっさ
漫画☆太郎の100%パターンマンガとどちらが下だろうと悩むほどに
0924無名草子さん
垢版 |
2022/12/29(木) 18:44:44.53
底本のページ番号に特化した注記があればいいなあ
外部プログラムに底本のページ番号を渡すことで該当する画像ファイルなりPDFなりをすぐに開けると校正が楽になると思うんだが
0926925
垢版 |
2022/12/30(金) 16:57:45.24
「来年は」というか「来年こそは」だわ
0927無名草子さん
垢版 |
2022/12/30(金) 17:11:21.75
来年は一体どうなるんだろうねぇ
まだ新年の公開作品の情報も出てないから完全に更新止まっちゃうのかな……
0928無名草子さん
垢版 |
2022/12/30(金) 19:22:38.00
未申請のまま入力に取りかかろうかと考えている
もしも他の人と作業がダブってしまってふいになったとしても
自己責任、自業自得ってことで

Unicode化や注記の仕方など
大きな仕様変更があるかもしれないが
それでも一年間なにもせずにいられそうもない
0929無名草子さん
垢版 |
2022/12/30(金) 20:19:48.47
2022年12月23日に出された充電期間の通知よりも前に申請したんだが、未だに連絡メールが来ない
まだ4週間経ってないから待ってるけど、どうなるのかな

>>928
重複を回避できる仕組みがあればいいんだけど、やたら申請だけしてほったらかしにされると困るので、
青空文庫の中の人による集中管理によらない、入力者間のゆるい情報交換の仕組みがあればいいと思う。
Githubのissue機能(メール通知や状態管理できる2chスレッドみたいなもの)を使えば作品ごとに重複回避や作業分担できそう。
0930無名草子さん
垢版 |
2022/12/30(金) 20:25:16.14
ググルのような工程表を用意し
この通りにやらないと優先度が落ちて行って最終的には申し込み自体消滅でいんちゃうの
0931無名草子さん
垢版 |
2022/12/30(金) 20:32:17.11
>>930
言いたいことはなんとなくわかるよ
けど、ガントチャートはスケジュールを中央で一元管理する人がいて始めて成り立つものなので、
ガントチャートの逐次更新にこだわると青空文庫の中の人の仕事が逆に増えてしまう恐れがある
毎日のようにたくさんの作品が放り込まれてくる青空文庫には、なじまないかもしれない
0932無名草子さん
垢版 |
2022/12/30(金) 20:36:46.66
参加者皆で確認して行く方向が大事だと思う
管理者は10名ほど横繋がりでやり取りできる状態になると良いな
0935無名草子さん
垢版 |
2022/12/31(土) 13:35:20.67
中の人もここ見てくれてるのだろうか?
だとすればここでブレインストーミング的にたくさん意見を出しておくと何かに活かされるかもしれんという希望が
0936無名草子さん
垢版 |
2022/12/31(土) 16:05:03.93
工作員のみんな今年もお疲れ様
来年は色々変化があるのだろうけどぼちぼちよろしく
0937無名草子さん
垢版 |
2022/12/31(土) 20:10:48.61
皆の活動が名作を支えてる
読者として楽しんでます

青空読んでたら何でか文庫本も買うようになって
変な逆転現象も出てる
0940無名草子さん
垢版 |
2023/01/01(日) 20:06:27.66
昨年で校了になっている作品は、今「校了」になってるので全部なのだろうか
いま点検グループさんの手元にある作品は、いったん作業中止って扱いになるのだろうか
(入力校正の新規受付がストップするのは分かったけど……)
0941無名草子さん
垢版 |
2023/01/01(日) 20:13:25.98
>受領後点検と「校了」ステータスの完全再開は、新データベースシステムの本運用開始と高品質ファイル作成に目処がついてから

そういうことだろうね。
運用システムが万全になるまでは、「校了」に移行することはないということ。

なぜなら高品質ファイルにするために何らかの仕様変更をする可能性があるし、
そうなれば、すでに送ったファイルでも、校正者に再度返す必要がある。
0942無名草子さん
垢版 |
2023/01/01(日) 20:16:11.34
校了したら、点検グループは必ず当日中に校正者にお疲れメールをくれる。
それがないということは
昨年中の校了作品は、今データベースで「校了」になったものがすべてで、あとは作業停止と思ってよいはず
0943無名草子さん
垢版 |
2023/01/01(日) 20:18:21.64
自己レスごめん

>>942
>それがないということは

上の質問者さんが心配しているのは
「昨年中に自分の送った校正ファイルはどうなっている(どうなる)のか?」
ということだろうと想像して答えた。
0944無名草子さん
垢版 |
2023/01/01(日) 21:34:25.53
>>940です。
ありがとうございます。
私は特に自分の担当している作業中作品はありませんが、
(いちおう一作品だけ入力申請していましたが未回答)
昨年の内に校正中になった自分の担当作品が多く、
それらが今後どうなるのか気になってました。

初心者の方が校正している様子も見受けられるので、
混乱が生じないことを祈りたいです……
0946無名草子さん
垢版 |
2023/01/01(日) 21:57:33.56
>>944
あまり新人を敬遠する発言はしないでほしい
新人でも精力的な人は精力的だし
点検Gもサポートしてる
0947無名草子さん
垢版 |
2023/01/01(日) 21:59:23.15
十年以上校正者がいない作品もあるのに
手を上げて校正してもらえる人が現れただけ幸運だよ
0948無名草子さん
垢版 |
2023/01/01(日) 22:08:27.84
厳格にやるべきは著作権など権利の確認で、校正はそれほど厳格にしなくても良いと思うんだが、
「ウォーリーを探せ」よろしく、入力間違いを沢山見つけた強者を月間・年間ランキング表示するゲーム感覚でいいんじゃないの。
ま、暴論だけどさ
0949無名草子さん
垢版 |
2023/01/01(日) 22:39:28.25
>>946
そうですね。
申し訳ございません。
私も参加したのは近年からですので、どちらかと申せば初心者です。

今回のリニューアルを機に、
いまだ校正されていない作品に光が当たりますように。
長文作品は「ドグラ・マグラ」のように交流しながらグループで行えるのが理想ですね。
0950無名草子さん
垢版 |
2023/01/01(日) 23:14:39.93
>>948
「歴史的仮名遣いを現代仮名遣いに改めた」とか「明らかな誤植を修正した」とか「使用する文字コードに存在しない文字を画像で挿入にした」みたいに
やむを得ない理由がないのに内容を変えて公開したら同一性保持権の侵害になるんだから内容の正確性はそのまま著作権の論点になるよ
同一性保持権などの著作者人格権は保護期間みたいな制限がないからね(著作権法60条参照)
0951無名草子さん
垢版 |
2023/01/01(日) 23:36:35.04
>>950
読者の視点でざっと読んで、違和感なかったらOKってことでいいんでないかな。
より細かい間違いを見つける作業は、一般人に委ねたらいいと思う。
参加型や逐次更新というWebの強みを活かさない手はない。
0952無名草子さん
垢版 |
2023/01/01(日) 23:49:06.92
古いファイルを見てると、工作員の独断で勝手に校閲したらしき部分を見つけることが時々ある
(底本通りではなく、別な本を見て直したように見えるが誤記注記がない、とか)
あと底本だか親本だかの版が存在しない版(発行日も刷数もでたらめ)だったこともあったな
あんまりゆるくするとそういうのが増えかねないから、校正はそれなりにちゃんとした方がいい、と思う
0953無名草子さん
垢版 |
2023/01/01(日) 23:53:58.96
>>951
OKなわけないじゃん
むしろ悪質だろ

調べに調べた上での誤りは致し方無い部分もあるかもしれないが
他人の書いた文章をお前の怠慢で改竄して公開する権利は無い
0954無名草子さん
垢版 |
2023/01/01(日) 23:56:48.77
逐次更新と簡単に言うけど
少なくとも従来のシステムでは
技術的にも人手的にも簡単なことではなかった

それに青空文庫は出鱈目で信頼性が低いと酷く叩かれた過去だってある

新システムでファイル差し替えがどの程度容易になるかは分からないが、
それに甘んじず校正はきちんとやって信頼度の高いものを提供した方がいい
0955無名草子さん
垢版 |
2023/01/01(日) 23:58:02.24
>>953
え?
すでに次世代デジタルライブラリーでOCRによって改竄(いわゆる誤検出)された作品が大量に公開されてるよ
「悪質」かどうか誰が決めるの?
0956無名草子さん
垢版 |
2023/01/02(月) 00:00:25.46
というか951は工作員なのか読者なのかどういう立場で言ってるのか気になる

工作員だったら自分の作業には責任も誇りも持って受け持ってると思うので、なかなかこの発想にはならんと思うんだな
0957無名草子さん
垢版 |
2023/01/02(月) 00:03:05.72
>>955
次世代デジタルライブラリーはそれ自体が研究検証目的の実験的取り組みだ

同列には語れん
0958無名草子さん
垢版 |
2023/01/02(月) 00:05:00.38
>>951
底本をもたずに無料で読みに来る読者に細かい間違いを指摘させるってどんな無謀な期待よ
0959無名草子さん
垢版 |
2023/01/02(月) 00:06:36.71
>>956
誇りを持つのは自己満足で勝手にどうぞって感じだけど、責任はなんにも背負ってないでしょ。
それとも賠償責任とか負うの?
学術論文で引用された作品が間違ってたら署名つきで謝罪するとか?
あまり言葉遊びしないほうがいいと思うよ
0961無名草子さん
垢版 |
2023/01/02(月) 00:19:35.24
>>955
次世代デジタルライブラリーは「実験的な検索サービス」と謳ってるように青空文庫みたいな読むためのものではないし
OCRテキストと資料の画像を紐付けることによって内容の正確性を担保(補完)してる

それに公開時点で誤字・脱字・衍字があった時点で単純に悪質なのよ
0962無名草子さん
垢版 |
2023/01/02(月) 00:28:34.68
そのへんの感覚が希薄な耕作員がいるとしたら恐ろしい
0963無名草子さん
垢版 |
2023/01/02(月) 00:31:27.81
>>961
紙書籍の考えを引きずらなくていいと思うよ
間違ってたら更新すればいいだけ

紙書籍はハードウェアなので配布してしまったものを簡単に修正できないけど、
Web書籍はソフトウェアなので簡単に修正できる

青空文庫はなんの社会的責任も負っていないし、
ましてや君主でもないので「綸言汗の如し」のことわざはまったく当てはまらない
0965無名草子さん
垢版 |
2023/01/02(月) 00:40:19.52
>>963
で、その更新(修正)前に読んだ人にはどう対応するつもりなの?
その誤字部分のせいで駄作だと思われたら確認にも来ないよね?
0966無名草子さん
垢版 |
2023/01/02(月) 00:43:01.62
間違ってたらデータを更新すればいいだけだからこそ公開までに何人もの目を通して修正を施してるんでしょ
0967無名草子さん
垢版 |
2023/01/02(月) 01:00:08.06
>>965
今も対応してないでしょ
てへぺろで十分
0968無名草子さん
垢版 |
2023/01/02(月) 02:06:09.13
ocrの認識率が99%だとして、百字に一字も誤字がある文章なんて読めたもんじゃないから、そのまま公開しても「ざっと読める」クオリティには到底ならないと思う
現状は「ざっと読める」ようになるまで結局誰かの校正が必要。だとすると今とそんなに手間は変わらないんじゃないか。
ocrの認識率が今後伸びればまた違うのかもしれないが。

ただ、みん翻みたいな感じでみんなで校正できたらそれはそれで楽しそうだとは思う
けどそのシステムの実装のために式年遷宮が5年くらい伸びそうな気もするな。
0969無名草子さん
垢版 |
2023/01/02(月) 07:32:01.37
>>954
の言う通り従来のシステムでは逐次更新そのものが面倒というのもそうだが、
青空文庫本体を更新したとしても、そこから作られて別なサーバに置かれてるファイル、
たとえばKindleで無料でダウンロードできる(赤と黄色の表紙の)ファイルなんかは
古いままだから、そっちを利用してる人は古いファイルを使い続けることになる
という問題もある(実際、青空の方は直ってるのにKindleの方だけ見て誤字がーって
愚痴ってる人を見たことがある)
よく知らんけど、公共図書館の電子図書館とかにあるファイルもそんな感じなんじゃない
だとしたらやはり現時点では公開の前に十分なチェックが必要かと思う
0970無名草子さん
垢版 |
2023/01/02(月) 07:58:35.68
>>969
青空文庫の最新版と同期を取る仕組みが必要って話でしょ
いつまでたっても古いままってのはどのみち問題なわけで。
公開前の十分なチェックとかやってるといつまで経っても10~20年物の待ち状態の作品をさばけないと思う
0971無名草子さん
垢版 |
2023/01/02(月) 10:24:56.27
複数の工作員が校正を共同で作業してるのはたまにあるよね
0972無名草子さん
垢版 |
2023/01/02(月) 12:09:56.37
>>967
十分じゃないから最初の公開までに点検なり校正なりしてるんだけどそれが分からないの?
0973無名草子さん
垢版 |
2023/01/02(月) 12:13:37.34
適当でおk派はウィキソースに行ったほうが幸せになれるぞ
0974無名草子さん
垢版 |
2023/01/02(月) 12:38:50.63
公開してからバグがあると問題であるとするなら

非公開サイト内で一般人に近い環境でファイルを読む、
テスターあるいはデバッガーとしての耕作員活動を募るというのはどうだろう

いずれにしてもボランティアだから
読みやすいものに査読者が偏るだろうけど
0975無名草子さん
垢版 |
2023/01/02(月) 12:54:11.23
OCRから読み取るのと電子ブックからコピペしたのを貼り付けるのと何が違うんだろう
文章が全く同一の場合は何も変わらないのだろうか?
0977無名草子さん
垢版 |
2023/01/02(月) 13:13:07.19
漢数字の「二」がカタカナの「ニ」になってたりすると
ocrに読み込ませて失敗したななんてことは思います
0978無名草子さん
垢版 |
2023/01/02(月) 13:31:26.32
一般人から、書写者(早口で三度言えたらお前の勝ち)へ誤字をフィードバックする仕組みを作れよ。
0979無名草子さん
垢版 |
2023/01/02(月) 13:55:56.90
>>978
それはホントに思う
kindleとかは誤字を簡単に報告する仕組みが出来てるけど
そんな感じで「これ、おかしいんじゃない?」って思うのを
気軽に送信してチェックしてもらえると嬉しい。

ちゃんと底本確認してから報告しろと言われるとハードルが
とてつもなく上がる。
0980無名草子さん
垢版 |
2023/01/02(月) 13:56:54.35
たださ、青空文庫ではウィキソースと違ってママ注記を乱発しないんだよ

現代の用法と照らして間違ってるというだけでは、青空文庫ではママ注記しない

誤字通報フォームには、「□利用規約に同意します」よろしく
その旨(青空文庫の公式な「誤字、誤用」に対する考え方)理解を求めないとならんだろう
0982無名草子さん
垢版 |
2023/01/02(月) 14:02:14.26
その仕組みがないために誤字だらけの作品を公開し続けるのも
不味いのではないかなんて思うのですが
その辺は皆さんどうお考えでしょうか?
0983無名草子さん
垢版 |
2023/01/02(月) 14:03:24.64
自分がその気軽な連絡を受けてチェックする側にいても同じこと言えるの?
0986無名草子さん
垢版 |
2023/01/02(月) 14:10:35.10
一般読者は>>980を理解してない

だから同じ件や類似の件に何度でも報告してくる可能性がある

同じだからといってテンプレ対応はできない
報告が本当に単なる誤植なのかどうか、ママなのか、注記なしなのか、底本や親本を探してくるのもこちら、
該当箇所にあたって判断しなくちゃならないのはこちらだ

これを一件ずつな
0989無名草子さん
垢版 |
2023/01/02(月) 14:47:19.75
>>986

こちらってのは青空文庫側ってことか?
もちろん厖大な誤字報告に対応できるくらいの人手があればできるだろうけど、ないんだから現実的に無理じゃん。
そもそも底本確認することがハードルになるほど難しい事とは思えないから
報告者が底本まで確認して連絡するのが妥当だと思う。

どんな事だって間違いするときは客観的な根拠を示すのがフェアなんだから。
0991無名草子さん
垢版 |
2023/01/02(月) 15:32:42.06
>>989
それほどハードルが高くないって思われるなら
そういう方にその役割を担っていただきたい。

読んで誤字を見つけるのが得意な人もいれば
底本を入手しやすい立場でチェックを得意とする方もいるだろうし
うまく得意分野を合わせて問題解決してほしいです。

誤字だらけの作品を公開されているのは
いくら著作権が切れてるといえ
作者は不本意だとおもうのですが。
0992無名草子さん
垢版 |
2023/01/02(月) 16:00:26.64
「作者は不本意」も何も遺族は訴えられるからね
著作者人格権の侵害は500万円以下の罰金だし
0993無名草子さん
垢版 |
2023/01/02(月) 16:00:42.10
おお、ここはOCRを校正に使えると思っている幸せな人をたしなめるスレですね
0994無名草子さん
垢版 |
2023/01/02(月) 16:04:42.70
誤植確認申請フォーム的なのを作るとしたら図書カードのURLや本文の該当箇所をテキストで入力する以外に
底本画像の該当ページと奥付の添付も必須にすればだいぶマシになるとは思う
(出版後70年経過してない場合の対応に困るんだけど)

流石に捏造する愉快犯は出てこないでしょ
0995989
垢版 |
2023/01/02(月) 16:10:39.13
>>991
そもそも自分でチェックせずになぜ誤字と判断できるのかわからんな。

「誤字かも」「誤字な気がする」とかそんなレベルの連絡に対応するのは人手があればやれるのは確かだが
だとしても本来、やる筋合いはない。
0996無名草子さん
垢版 |
2023/01/02(月) 16:14:54.20
遺族から「ここがおかしい」と言われたら直せばいいだけでしょ、
回収せずに改修できるのがWeb書籍の強み
回収が容易でない紙書籍とは違うのだよ、紙書籍とは
0997無名草子さん
垢版 |
2023/01/02(月) 16:17:58.47
工作員としてやることがなくなるととなんかみんな変な感じになっちゃうな
0998無名草子さん
垢版 |
2023/01/02(月) 16:18:11.20
>>993
なにいてんの?
使えるのに使えないと誘導しようとしてるのかね
悪質だねぇ
0999無名草子さん
垢版 |
2023/01/02(月) 16:23:16.21
>>996
その杜撰さで運営したら誰も見向きもしなくなるって想像つかないの?
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況