探検
文字コード総合スレ part15
1デフォルトの名無しさん
2024/08/17(土) 11:18:00.01ID:VHa7+i59 文字コードについて語り合うスレです
267デフォルトの名無しさん
2025/01/28(火) 10:08:29.84ID:dqvH8r5C268デフォルトの名無しさん
2025/01/28(火) 11:39:24.54ID:JQ2UpNE9269デフォルトの名無しさん
2025/01/30(木) 07:10:47.96ID:gms+ATb5 ワシの霊感では、
CR LF → LF 変換 は無理
CR LF → CR 変換 も無理
その逆、は可能、スナワチ
LF → CR LF 変換等は、可能
なんでかって❓ 霊感的には、
それが可能と仮定すれば、そのような問題は解決済
しかし未だに未解決の模様なので、
では、霊感的にではなく、数学的にはどうなのか
吟味しようかな。てか不可能が証明されても
その証明は、闇に葬る必要があるよな
by 💃🥳🤔
とにかく、アプリの改行バグなくせぇーー
by 👤🤡
CR LF → LF 変換 は無理
CR LF → CR 変換 も無理
その逆、は可能、スナワチ
LF → CR LF 変換等は、可能
なんでかって❓ 霊感的には、
それが可能と仮定すれば、そのような問題は解決済
しかし未だに未解決の模様なので、
では、霊感的にではなく、数学的にはどうなのか
吟味しようかな。てか不可能が証明されても
その証明は、闇に葬る必要があるよな
by 💃🥳🤔
とにかく、アプリの改行バグなくせぇーー
by 👤🤡
270デフォルトの名無しさん
2025/01/30(木) 10:13:34.95ID:lxoi8Hgj RFCもいまどき入力は寛容にとは書いてないんだっけか
271デフォルトの名無しさん
2025/01/30(木) 23:31:56.82ID:xDtExgvT 改行の話をするならこのTRには目を通しているよね?
https://www.unicode.org/reports/tr14/tr14-32.html#BreakingRules
https://www.unicode.org/reports/tr14/tr14-32.html#BreakingRules
272デフォルトの名無しさん
2025/01/31(金) 19:55:09.44ID:0CYGlf8F CRの直後にLFが現れたなら、改行2つではないとわかる。
それなのに改行2つと解釈するのは悪意でしかないり
それなのに改行2つと解釈するのは悪意でしかないり
273デフォルトの名無しさん
2025/01/31(金) 20:06:45.58ID:RSTFpkS7 CR や LF より前に CRLF を処理しないのは悪意でしか無いな
274デフォルトの名無しさん
2025/01/31(金) 20:07:21.09ID:B141IEhK275デフォルトの名無しさん
2025/01/31(金) 20:25:32.29ID:uF0JLDg9 >>274
みんながみんな勝手に modified NFD とか作り始めたら互換性とか規格とか何の意味もなくなる
勝手なオレオレ基準は非難されるべき
単に古い規格準拠というだけなら許されるが Apple のはそうじゃない
みんながみんな勝手に modified NFD とか作り始めたら互換性とか規格とか何の意味もなくなる
勝手なオレオレ基準は非難されるべき
単に古い規格準拠というだけなら許されるが Apple のはそうじゃない
276デフォルトの名無しさん
2025/01/31(金) 20:45:51.19ID:B141IEhK そもそも正規化自体は都合に合わせて勝手にやるもんだぜ?
Windowsの.で終わるファイル名を拡張子なしと同一視するのも正規化だし
掲示板への書き込みで行頭のスペースが消えるのも正規化だ
Unicodeで定義されたやつだけが正規化ではないというのは大前提として
字形を変えない範囲で厄介な合成分解で別ファイル扱いになるのを避けたい
というのは他の文字コードからUnicodeへの過渡期では当然の要求だろう
他のOSとのやりとりでトラブルが起きるようになったのはもっと考えるべきだったとは思うが
Windowsの.で終わるファイル名を拡張子なしと同一視するのも正規化だし
掲示板への書き込みで行頭のスペースが消えるのも正規化だ
Unicodeで定義されたやつだけが正規化ではないというのは大前提として
字形を変えない範囲で厄介な合成分解で別ファイル扱いになるのを避けたい
というのは他の文字コードからUnicodeへの過渡期では当然の要求だろう
他のOSとのやりとりでトラブルが起きるようになったのはもっと考えるべきだったとは思うが
277デフォルトの名無しさん
2025/01/31(金) 20:53:12.36ID:uF0JLDg9 >>276
それは違う
Apple はユニコード・コンソーシアムの設立からのメンバー
技術的に規格に問題があるののならそれを変えればいい、それをやらなければいけない立場
中核メンバーが自分たちが作った規格を勝手に無視してたら、規格の意味なんてない
この件はどう言い訳しても Apple はクソという結論にしかならない
それは違う
Apple はユニコード・コンソーシアムの設立からのメンバー
技術的に規格に問題があるののならそれを変えればいい、それをやらなければいけない立場
中核メンバーが自分たちが作った規格を勝手に無視してたら、規格の意味なんてない
この件はどう言い訳しても Apple はクソという結論にしかならない
278デフォルトの名無しさん
2025/01/31(金) 20:55:58.32ID:B141IEhK >>277
Appleは提案したが通らなかったってどっかで見たぞ
Appleは提案したが通らなかったってどっかで見たぞ
279デフォルトの名無しさん
2025/01/31(金) 20:57:03.60ID:h9+hJoTP 技術的に無理な仕様作ったん?
280デフォルトの名無しさん
2025/01/31(金) 21:06:00.74ID:uF0JLDg9281デフォルトの名無しさん
2025/01/31(金) 21:19:51.37ID:1pwkweKb 規格があるのにそれを使わない分野なんて沢山ありそうだが
実際のところ金を出せて声がでかければ規格なんていくらでも通せるんだから
実際のところ金を出せて声がでかければ規格なんていくらでも通せるんだから
282デフォルトの名無しさん
2025/01/31(金) 21:24:04.22ID:B141IEhK >>280
俺が見た記事は残ってないだろうけど検索したら出てきたunicode.org内の議事録はたぶんこれ
ttps://www.unicode.org/review/resolved-pri.html#pri7
俺が見た記事は残ってないだろうけど検索したら出てきたunicode.org内の議事録はたぶんこれ
ttps://www.unicode.org/review/resolved-pri.html#pri7
283デフォルトの名無しさん
2025/01/31(金) 21:26:16.69ID:gGXkx70A >>281
ヒデェ
ヒデェ
284デフォルトの名無しさん
2025/01/31(金) 22:22:23.03ID:mygoMuj6 >>282
www
一部除外したら一貫性が無くなって正規化が 正規化じゃなくなるから勝手な除外は駄目って明確に指摘されてるな
なんで実装したんだろう? いやVFとか使いたくなかったんだろうけど、
どうしてもやりたければ任意の除外ではなく VF のみ除外みたいなので再提案すべきだったのでは
www
一部除外したら一貫性が無くなって正規化が 正規化じゃなくなるから勝手な除外は駄目って明確に指摘されてるな
なんで実装したんだろう? いやVFとか使いたくなかったんだろうけど、
どうしてもやりたければ任意の除外ではなく VF のみ除外みたいなので再提案すべきだったのでは
285デフォルトの名無しさん
2025/02/16(日) 22:21:14.00ID:y/0wzlVz https://gigazine.net/news/20250214-unicode-hidden-message/
Unicodeでは一見すると普通の文字の中に「秘密のメッセージ」を埋め込むことが可能だという指摘
Unicodeでは一見すると普通の文字の中に「秘密のメッセージ」を埋め込むことが可能だという指摘
286デフォルトの名無しさん
2025/02/16(日) 23:51:54.49ID:hLnUvUfF287デフォルトの名無しさん
2025/02/17(月) 16:59:47.72ID:GjzIkJ/e Unicodeはそのうちオーディオブック用やa11yで読み上げ音声用のVSが定義されそう
288デフォルトの名無しさん
2025/02/17(月) 17:34:45.48ID:9sDD+e7d 漢字みたいな複数の読み方があるのは難しいだろうね
289デフォルトの名無しさん
2025/02/17(月) 18:36:11.68ID:tdbxV0fJ MSOfiiceでIME入力がphoneticsとして保存されてて読み仮名表示出来るのは、他に広まっても良いのにな
290デフォルトの名無しさん
2025/02/18(火) 12:25:03.72ID:HbHlBTpR >>286
なるほどね
fn byte_to_variation_selector(byte: u8) -> char {
if byte < 16 {
char::from_u32(0xFE00 + byte as u32).unwrap()
} else {
char::from_u32(0xE0110 + (byte - 16) as u32).unwrap()
}
}
なるほどね
fn byte_to_variation_selector(byte: u8) -> char {
if byte < 16 {
char::from_u32(0xFE00 + byte as u32).unwrap()
} else {
char::from_u32(0xE0110 + (byte - 16) as u32).unwrap()
}
}
291デフォルトの名無しさん
2025/02/28(金) 17:04:23.70ID:kF3VgEHE fn byte_to_variation_selector(byte: u8) -> Option<char> {
if byte < 16 {
char::from_u32(0xFE00 + byte as u32)
} else {
char::from_u32(0xE0110 + (byte - 16) as u32)
}
}
if byte < 16 {
char::from_u32(0xFE00 + byte as u32)
} else {
char::from_u32(0xE0110 + (byte - 16) as u32)
}
}
292デフォルトの名無しさん
2025/04/03(木) 21:05:53.03ID:tEk54HNS 「Windows11でファイル名に絵文字が使えることを知って、1つ賢くなった」便利と思われる機能が追加→情シスがバールを担いで暴れ出す案件
https://posfie.com/@blackstaragent/p/kpHrLMR
今まで使えなかったんだっけ?と思って最後まで見たら
ちゃんと前から使えてたって突っ込まれてたわ
https://posfie.com/@blackstaragent/p/kpHrLMR
今まで使えなかったんだっけ?と思って最後まで見たら
ちゃんと前から使えてたって突っ込まれてたわ
293デフォルトの名無しさん
2025/04/06(日) 16:37:54.44ID:+flcOJuk 普通に文を書く時でも()?!などの記号をASCII文字にするか全角文字にするか
濁点と半濁点を結合済み文字にするか別の文字にするかで迷ってしまう
濁点と半濁点を結合済み文字にするか別の文字にするかで迷ってしまう
294デフォルトの名無しさん
2025/04/07(月) 21:43:17.60ID:1UVr/FZP 濁点と半濁点が別の文字だと認識しているのはおかしい
295デフォルトの名無しさん
2025/04/08(火) 17:04:31.43ID:UfxEZoR8 まし"て"
296デフォルトの名無しさん
2025/04/09(水) 01:54:47.78ID:t8BwIxsD Windowsのエクスプローラーで見るとキャラクタセットによっては濁点が別の文字だとわからないことがある
297デフォルトの名無しさん
2025/04/11(金) 20:08:58.20ID:i2PY9ZNn 朝鮮系の奴隷労働者が造ったと思われるサイトは
濁点が抜けてる気持ち悪いところがいくつかある
濁点が抜けてる気持ち悪いところがいくつかある
298デフォルトの名無しさん
2025/04/12(土) 06:35:11.93ID:IMDrBc8a299デフォルトの名無しさん
2025/05/02(金) 09:50:51.92ID:k5bGwZZ0 不可視化トラップで教育素材造るのはいいね
https://www.youtube.com/watch?v=cXTBwD798Lk
https://www.youtube.com/watch?v=cXTBwD798Lk
300デフォルトの名無しさん
2025/05/02(金) 18:10:04.97ID:9xoZUliT ユニコード悪用ヤバいな
>>298
>公式アプリと同じ開発者に見える名前で偽アプリが提供されました。
>この詐欺師は、印刷に現れないスペース文字を開発者名に混ぜ込むことでバリデーションのすり抜けに成功しました。
>このハックによって100万人以上が騙されました。
>>298
>公式アプリと同じ開発者に見える名前で偽アプリが提供されました。
>この詐欺師は、印刷に現れないスペース文字を開発者名に混ぜ込むことでバリデーションのすり抜けに成功しました。
>このハックによって100万人以上が騙されました。
301デフォルトの名無しさん
2025/05/02(金) 20:30:48.79ID:rPO248eK >印刷に現れないスペース文字
誤訳だな
AIあほすぎ
誤訳だな
AIあほすぎ
302デフォルトの名無しさん
2025/05/07(水) 21:40:30.18ID:9JkcRkxN https://github.com/microsoft/cascadia-code/releases/tag/cascadia-next
Joyo, JIS1, JIS2って何だよ
日本人向けのフォントなら日本人に分かるような書き方してくれ
Joyo, JIS1, JIS2って何だよ
日本人向けのフォントなら日本人に分かるような書き方してくれ
303デフォルトの名無しさん
2025/05/08(木) 02:26:11.93ID:US+UAC1U304デフォルトの名無しさん
2025/05/08(木) 03:01:55.71ID:US+UAC1U ちなみにライブラリで必ずやることに変えれば
規格準拠にしやすいと思う
フル準拠にするとカーネルに入れるにはテーブルが大きすぎる
けどじゃあPython処理系はどうするんだ
osモジュールに担当させるのか
osモジュールみたいな機構がない言語処理系ではどうするんだ
とか色々大変
規格準拠にしやすいと思う
フル準拠にするとカーネルに入れるにはテーブルが大きすぎる
けどじゃあPython処理系はどうするんだ
osモジュールに担当させるのか
osモジュールみたいな機構がない言語処理系ではどうするんだ
とか色々大変
305デフォルトの名無しさん
2025/05/08(木) 03:15:04.31ID:US+UAC1U 要するにパス名正規化は無意味で無駄
306デフォルトの名無しさん
2025/05/08(木) 12:28:18.82ID:of3Q4Bd7 ちっぱいでもいいじゃん
307デフォルトの名無しさん
2025/05/08(木) 16:10:03.97ID:n8dUtc6U308デフォルトの名無しさん
2025/05/08(木) 23:33:49.27ID:pZAMgdYa 規格には則ってる
複数あって非互換なのが問題
複数あって非互換なのが問題
309デフォルトの名無しさん
2025/05/08(木) 23:40:58.88ID:n8dUtc6U310デフォルトの名無しさん
2025/05/08(木) 23:51:00.29ID:US+UAC1U せめてNFCにしてればな
殆どの文書はNFCで構成されるんだから
それでもUnicodeは規格がバージョンごとに違うからなあ
正規化が無駄な努力
殆どの文書はNFCで構成されるんだから
それでもUnicodeは規格がバージョンごとに違うからなあ
正規化が無駄な努力
311デフォルトの名無しさん
2025/05/09(金) 02:29:43.44ID:3ts3cFTs >>303
ファイルコピーとかするときは毎回、正規化の変換が発生する感じ?
(不明な正規化)->(特定の正規化) ってのは問題ないんだっけ?
一方でファイルビューア(Finder)とか上の方はどのFS上にいるとか意識
したくないだろうからなあ。そこでも正規化の変換が起こるのかな?
ファイルコピーとかするときは毎回、正規化の変換が発生する感じ?
(不明な正規化)->(特定の正規化) ってのは問題ないんだっけ?
一方でファイルビューア(Finder)とか上の方はどのFS上にいるとか意識
したくないだろうからなあ。そこでも正規化の変換が起こるのかな?
312デフォルトの名無しさん
2025/05/09(金) 11:12:25.67ID:oh4Slinf ファイルビューア
↓正規化
ファイルヒ゛ューア
こんなのやだな
↓正規化
ファイルヒ゛ューア
こんなのやだな
313デフォルトの名無しさん
2025/05/09(金) 12:07:16.82ID:OoJ+JMZS EBCDICカナ文字の話みたい。
ごめんなさい、ごめんなさい、ごめんなさい。
ごめんなさい、ごめんなさい、ごめんなさい。
314デフォルトの名無しさん
2025/05/09(金) 15:56:58.76ID:yePfNbNe >>311
最近macOSは余り触ってないが昔は
(様々な理由により以下の状況が起きて)
ファイルビューア
ファイルヒ゛ューア
の両方がディレクトリにある場合に、Finder.appでは
ファイルビューア
ファイルビューア
と表示され後者しかアクセス出来なかった
Cocoaが正規化してユーザやカーネルに渡すから
最近macOSは余り触ってないが昔は
(様々な理由により以下の状況が起きて)
ファイルビューア
ファイルヒ゛ューア
の両方がディレクトリにある場合に、Finder.appでは
ファイルビューア
ファイルビューア
と表示され後者しかアクセス出来なかった
Cocoaが正規化してユーザやカーネルに渡すから
315デフォルトの名無しさん
2025/05/13(火) 18:18:02.49ID:El9a77up 字にはヒラギノール
316デフォルトの名無しさん
2025/07/20(日) 21:42:09.27ID:v9zpB8iu Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは?
https://togetter.com/li/2577928
https://togetter.com/li/2577928
317デフォルトの名無しさん
2025/07/20(日) 22:29:37.55ID:0FYiUEbf >>316
文字コードの問題ではなく単なるバグ
より正確にいうと大昔からある PDF のフォントの使い方の問題
PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる
フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる
複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる
文字コードの問題ではなく単なるバグ
より正確にいうと大昔からある PDF のフォントの使い方の問題
PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる
フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる
複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる
318デフォルトの名無しさん
2025/07/22(火) 01:09:42.93ID:g3Tn7WHZ >>316 みたいな奴が参政党に投票する
319デフォルトの名無しさん
2025/07/22(火) 12:00:50.20ID:Yl+nv6VH アドビはタイプセッター屋じゃけぇ、フォントファーストじゃけぇ
320デフォルトの名無しさん
2025/07/22(火) 12:55:59.74ID:nZDCfJLI321デフォルトの名無しさん
2025/07/22(火) 13:37:16.00ID:bKhKMrtD322デフォルトの名無しさん
2025/07/22(火) 15:01:08.85ID:yoaKkUTS >>321
大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし
> unicode普及以前の技術なのを思い出せ
unicode以外では特に問題なかったのなら、unicode側の問題であり、
unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ
お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ
大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし
> unicode普及以前の技術なのを思い出せ
unicode以外では特に問題なかったのなら、unicode側の問題であり、
unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ
お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ
323デフォルトの名無しさん
2025/07/22(火) 19:20:34.51ID:bKhKMrtD >>322
違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ
でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ
本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ
違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ
でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ
本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ
324デフォルトの名無しさん
2025/07/22(火) 22:22:27.85ID:yoaKkUTS >>323
となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな
とはいえ今更本家からの統制は無理だし、
この問題を認識した上で各自が対応するしかなさそうだな
(そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか)
となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな
とはいえ今更本家からの統制は無理だし、
この問題を認識した上で各自が対応するしかなさそうだな
(そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか)
325デフォルトの名無しさん
2025/07/24(木) 18:46:53.48ID:bvlLnJ99 >>316
PDFの仕様が自由すぎるからだぞ?
PDFの仕様が自由すぎるからだぞ?
326デフォルトの名無しさん
2025/07/24(木) 19:36:31.51ID:Gx5EDFfz adobeはPDF2.0に対応したのか、やる気もないのか、とふと思った
327デフォルトの名無しさん
2025/07/24(木) 21:57:49.45ID:PCIysLOC328デフォルトの名無しさん
2025/07/25(金) 01:59:47.04ID:UKTPcfYB PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない
PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない
PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する
329デフォルトの名無しさん
2025/07/25(金) 07:07:21.05ID:yWMF+wv2 >>328
それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう
ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと?
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい
そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし
unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん
それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう
ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと?
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい
そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし
unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん
330デフォルトの名無しさん
2025/07/25(金) 09:21:41.11ID:5+UAzUxo331デフォルトの名無しさん
2025/07/25(金) 11:08:12.46ID:yWMF+wv2 >>330
つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか
しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か
どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか
(と思ったらもうあった、0x9f4a〜8文字のようだ)
仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、
unicodeもこの軌道に乗ってるな
(もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか?)
つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか
しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か
どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか
(と思ったらもうあった、0x9f4a〜8文字のようだ)
仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、
unicodeもこの軌道に乗ってるな
(もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか?)
332デフォルトの名無しさん
2025/07/25(金) 14:05:16.33ID:TViBdD0W >>331
戸籍/汎用電子情報交換環境/文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる
戸籍/汎用電子情報交換環境/文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる
333デフォルトの名無しさん
2025/07/25(金) 18:28:38.05ID:yWMF+wv2 >>332
正式名称は知らんが、俺が言ってるのはそれだな
ググったら総務省が音頭取ってやってるのか?色々出てきたが、
少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな?
にしても検索どうするんだこれ?だし、
最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが
正式名称は知らんが、俺が言ってるのはそれだな
ググったら総務省が音頭取ってやってるのか?色々出てきたが、
少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな?
にしても検索どうするんだこれ?だし、
最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが
334デフォルトの名無しさん
2025/07/25(金) 19:02:45.52ID:yWMF+wv2 と思ったが、IVSは直後に枝番付加する方式か
まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる
ちなみにこれ、実際のグリフを算出するにはどうするのだ?
異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか?
というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、
もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、
必ず元字+枝番のセットで使うのが仕様か?(この方がいいが)
まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる
ちなみにこれ、実際のグリフを算出するにはどうするのだ?
異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか?
というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、
もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、
必ず元字+枝番のセットで使うのが仕様か?(この方がいいが)
335デフォルトの名無しさん
2025/07/25(金) 19:10:28.15ID:5+UAzUxo >>334
IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
336デフォルトの名無しさん
2025/07/26(土) 08:13:11.69ID:PF0bui/v >>335
うむ、意図が分からん
「斉」は独立コ
ードも与え、IVDにも登録、
「葛」は独立コー
ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな
実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる
無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、
仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな
(大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる)
> ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、
プログラム側には全く問題ないだろうさ
ただ、入力側が正しく入力できるかは大問題だろうけどさ
単一の文字コー
ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな
unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て?
(例:16準拠の場合、15を完全に満たすのか、そうでないのか)
C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか)
うむ、意図が分からん
「斉」は独立コ
ードも与え、IVDにも登録、
「葛」は独立コー
ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな
実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる
無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、
仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな
(大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる)
> ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、
プログラム側には全く問題ないだろうさ
ただ、入力側が正しく入力できるかは大問題だろうけどさ
単一の文字コー
ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな
unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て?
(例:16準拠の場合、15を完全に満たすのか、そうでないのか)
C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか)
337デフォルトの名無しさん
2025/07/26(土) 12:33:33.50ID:JK5RKkw3 >>336
最近の仕様だけ見たら混乱するよな
− もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定
最近の仕様だけ見たら混乱するよな
− もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定
338デフォルトの名無しさん
2025/07/26(土) 13:22:34.55ID:IhScHI/D >>337
日本側の状況はさもありなん
全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが
中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな
検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに
とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが
> オレオレ unicode の利用を中国国内では強制することにする
それは中国規格なので勝手にしろでいいと思うが
> unicode 側が折れて
となるのは、unicode陣営は統一コードの夢を見続けている、ということか
なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが)
非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな
まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい
現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない
可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね
日本側の状況はさもありなん
全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが
中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな
検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに
とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが
> オレオレ unicode の利用を中国国内では強制することにする
それは中国規格なので勝手にしろでいいと思うが
> unicode 側が折れて
となるのは、unicode陣営は統一コードの夢を見続けている、ということか
なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが)
非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな
まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい
現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない
可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね
339デフォルトの名無しさん
2025/07/27(日) 09:27:25.30ID:y0cxqRG2340デフォルトの名無しさん
2025/07/27(日) 09:52:00.68ID:s52NuiMb >>339
酷くはない
その当時はそれでも素晴らしかったから普及した
そして実際、unicode以前は完全に機能していたわけだし
どちらかというとunicodeが既存技術に対してかなり異端で、
当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ
Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない
酷くはない
その当時はそれでも素晴らしかったから普及した
そして実際、unicode以前は完全に機能していたわけだし
どちらかというとunicodeが既存技術に対してかなり異端で、
当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ
Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない
341デフォルトの名無しさん
2025/07/27(日) 10:08:59.26ID:4jy4lfp7342デフォルトの名無しさん
2025/07/27(日) 10:52:09.39ID:s52NuiMb >>341
ソース違いで自体が同じ例か?
カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ
問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、
これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る
だから、unicodeのCJK統合漢字=見た目が同じなら同じ文字、は、
検索の結果がユーザーにも予期出来る、という意味では正しい思想で、
逆に、同じ字体にも違うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる
この辺の思想が、unicodeは徹底出来ていない
ソース違いで自体が同じ例か?
カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ
問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、
これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る
だから、unicodeのCJK統合漢字=見た目が同じなら同じ文字、は、
検索の結果がユーザーにも予期出来る、という意味では正しい思想で、
逆に、同じ字体にも違うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる
この辺の思想が、unicodeは徹底出来ていない
343デフォルトの名無しさん
2025/07/27(日) 15:00:47.82ID:xJMx5cyL344デフォルトの名無しさん
2025/07/27(日) 15:43:44.47ID:s52NuiMb >>343
PostScript以前はプリンタによって出力結果が異なっていた為、
ファイルを渡しても印刷結果が異なる事が普通だった
(だから厳密にやるには紙でやりとりするしかなかった)
これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、
あっという間にデファクトスタンダードをとった
PostScriptはベジエなフォントをプリンタでラスタライズする
だからフォントを埋め込めば、同じ見た目の出力になる
以前のプリンタは、プリンタ内蔵のビットマップフォントを印刷してたか、
PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた
(なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、
プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから)
PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる
当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった
AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料)という方針で、
あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した
MSがWord/Excelのリーダーを無料で提供したのはその後
俺が知ってる概略はこんな所だ
PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ
(今でも十分素晴らしいとも思うが)
ぼくはおまえよりしってるんだ!!!とか要らんから、最初から知ってる事書けばいいと思うけどね
はいどうぞ
PostScript以前はプリンタによって出力結果が異なっていた為、
ファイルを渡しても印刷結果が異なる事が普通だった
(だから厳密にやるには紙でやりとりするしかなかった)
これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、
あっという間にデファクトスタンダードをとった
PostScriptはベジエなフォントをプリンタでラスタライズする
だからフォントを埋め込めば、同じ見た目の出力になる
以前のプリンタは、プリンタ内蔵のビットマップフォントを印刷してたか、
PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた
(なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、
プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから)
PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる
当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった
AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料)という方針で、
あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した
MSがWord/Excelのリーダーを無料で提供したのはその後
俺が知ってる概略はこんな所だ
PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ
(今でも十分素晴らしいとも思うが)
ぼくはおまえよりしってるんだ!!!とか要らんから、最初から知ってる事書けばいいと思うけどね
はいどうぞ
345デフォルトの名無しさん
2025/07/27(日) 16:00:29.88ID:IiX+k+fy >PDFはPostScriptをバイナリ化したもの
doubt
doubt
346デフォルトの名無しさん
2025/07/27(日) 16:39:24.93ID:gwhcenFf PSはプログラム言語でPDFは描画データ
門外漢のオレの理解はここまで
門外漢のオレの理解はここまで
347デフォルトの名無しさん
2025/07/27(日) 16:40:00.92ID:s52NuiMb >>345
ああ確かに、asciiと言った方が近いようだな
ただそんな関係ない所ではなく、本筋の、
> PostScriptと当時のフォントの詳細
に(自称)詳しい人から見て
> 酷い
と考える根拠を述べよ、だな
俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた
実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし
unicodeが色々おかしくしただけだよ
ああ確かに、asciiと言った方が近いようだな
ただそんな関係ない所ではなく、本筋の、
> PostScriptと当時のフォントの詳細
に(自称)詳しい人から見て
> 酷い
と考える根拠を述べよ、だな
俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた
実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし
unicodeが色々おかしくしただけだよ
348デフォルトの名無しさん
2025/07/28(月) 09:30:10.58ID:BMbzFeOA https://www.adobe.com/jp/creativecloud/file-types/image/vector/ps-file.html
PostScriptとPDFの違いは何ですか?
PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。
PostScriptとPDFの違いは何ですか?
PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。
349デフォルトの名無しさん
2025/07/28(月) 11:28:12.87ID:2xoiUnVU postscript は紙に印刷する専用なので検索とかコピー・ペーストとかは不要だが
PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった
unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた
問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
直接的には文字コードの問題ではない
PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった
unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた
問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
直接的には文字コードの問題ではない
350デフォルトの名無しさん
2025/07/28(月) 13:24:28.88ID:f/ONtylv ワニ□クリップも同じか
351デフォルトの名無しさん
2025/07/29(火) 12:35:56.91ID:kq5k6q77 ちゃんと知らん奴に限って総括するような話をしたがるが、悲しいかな理解が
浅いので全然正しく総括できてないあるある
これは例の何ちゃら効果の一種かもしれんね
浅いので全然正しく総括できてないあるある
これは例の何ちゃら効果の一種かもしれんね
352デフォルトの名無しさん
2025/07/29(火) 13:59:09.33ID:3y9fqZXC 詳しく知らないと総括しかできない
353デフォルトの名無しさん
2025/07/29(火) 14:07:42.49ID:OFHwVEwi WebでもHTMLのimgで例えばブランドロゴを画像表示したときに
alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる
そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる
alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる
そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる
354デフォルトの名無しさん
2025/07/29(火) 14:44:03.99ID:GBwxra7f355デフォルトの名無しさん
2025/07/29(火) 19:25:27.31ID:8QmNUBAP HTMLは画像表示できずにテキスト表示のみの環境でも読めるように
そして目の不自由な人たちもテキストの音声読み上げで読めるように
HTMLコンテンツを作る側もブラウザ側両方が対応してきた
いわゆるアクセスビリティ対応が必須で常識
PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる
そして目の不自由な人たちもテキストの音声読み上げで読めるように
HTMLコンテンツを作る側もブラウザ側両方が対応してきた
いわゆるアクセスビリティ対応が必須で常識
PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる
356デフォルトの名無しさん
2025/07/29(火) 22:35:36.96ID:pHNfVPjg altなんて実際のところ機能してないだろ
隠しメッセージに使うとかおもちゃになってる
隠しメッセージに使うとかおもちゃになってる
357デフォルトの名無しさん
2025/07/31(木) 07:07:13.35ID:1FIA24UI >>343
結局、何も言えないのか?
だからゆとりZは死ねなんだな
俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる
理由は長いが以下に書き散らしたので興味あれば読んでみてくれ
https://mevius.5ch.net/test/read.cgi/tech/1739527246/529-
お前らはお互いに足を引っ張り合ってるので成長出来てない
今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、
だから議論もろくに出来ず、幼稚なままだ
そもそも俺はPostScriptやフォントの事に一言も触れてないのに、どうして
> PostScriptと当時のフォントの詳細をほとんど知らないだろ?
> だから妄想で適当なことを書く、酷いのはお前だ
になったのかさっぱり分からない
ゆとりZは妄想で適当なことを書く、酷い連中だから
存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当
お前も死ね
ってこのぐらい書けばわかるんかな
結局、何も言えないのか?
だからゆとりZは死ねなんだな
俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる
理由は長いが以下に書き散らしたので興味あれば読んでみてくれ
https://mevius.5ch.net/test/read.cgi/tech/1739527246/529-
お前らはお互いに足を引っ張り合ってるので成長出来てない
今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、
だから議論もろくに出来ず、幼稚なままだ
そもそも俺はPostScriptやフォントの事に一言も触れてないのに、どうして
> PostScriptと当時のフォントの詳細をほとんど知らないだろ?
> だから妄想で適当なことを書く、酷いのはお前だ
になったのかさっぱり分からない
ゆとりZは妄想で適当なことを書く、酷い連中だから
存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当
お前も死ね
ってこのぐらい書けばわかるんかな
358デフォルトの名無しさん
2025/07/31(木) 07:09:00.90ID:1FIA24UI >>349
> 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
> 直接的には文字コードの問題ではない
その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ
実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ
つまりunicodeが
> 異端 (>>340:俺)
で、
> 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺)
に現時点でなってるのも事実ではないか
PDFに関してはパチもん使わずAdobe純正品使え、だろうが、
unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが
(だから足抜けは許さねえ!!!なコードヤクザになるのも納得)
そもそもサロゲートペアも初段階で必須だと判断出来たはず
(だからutf-16はナンセンスだとも)
> https://skawa68.com/2024/07/31/post-81230/
大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、
常識的には、いや無理でしょ、余裕無さすぎ、だし
(よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf)
あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか?
なら中国が独立コードに拘る理由もありえる、というか、
これだと事実上utf-32も捨てる事になる
まあほぼutf-8なので今更どうでもいいのも事実だが
> 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
> 直接的には文字コードの問題ではない
その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ
実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ
つまりunicodeが
> 異端 (>>340:俺)
で、
> 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺)
に現時点でなってるのも事実ではないか
PDFに関してはパチもん使わずAdobe純正品使え、だろうが、
unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが
(だから足抜けは許さねえ!!!なコードヤクザになるのも納得)
そもそもサロゲートペアも初段階で必須だと判断出来たはず
(だからutf-16はナンセンスだとも)
> https://skawa68.com/2024/07/31/post-81230/
大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、
常識的には、いや無理でしょ、余裕無さすぎ、だし
(よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf)
あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか?
なら中国が独立コードに拘る理由もありえる、というか、
これだと事実上utf-32も捨てる事になる
まあほぼutf-8なので今更どうでもいいのも事実だが
359デフォルトの名無しさん
2025/07/31(木) 07:55:06.21ID:1FIA24UI 思うにunicodeは、文字化けのない世界を提示したのは素晴らしいにしても、
一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする
全ての言語を話せる人が居ない以上、
IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる
だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない
これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、
だから橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、
実際破綻しまくっているのも、元々無理があるからだ
つまり、例のブランコ、
「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない
(会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、
全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない)
まあIT版バベルの塔であり、どこまで行けるかという話だが
実際、自分には関係ない機能なんて、実装するモチベわかないものだし
(大体において実際困ってるから動くのがほぼ全員で、困ってなければ誰も動かない
この意味では、unicodeがフル実装される未来なんて多分存在しない)
一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする
全ての言語を話せる人が居ない以上、
IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる
だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない
これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、
だから橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、
実際破綻しまくっているのも、元々無理があるからだ
つまり、例のブランコ、
「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない
(会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、
全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない)
まあIT版バベルの塔であり、どこまで行けるかという話だが
実際、自分には関係ない機能なんて、実装するモチベわかないものだし
(大体において実際困ってるから動くのがほぼ全員で、困ってなければ誰も動かない
この意味では、unicodeがフル実装される未来なんて多分存在しない)
360デフォルトの名無しさん
2025/07/31(木) 10:38:37.81ID:Ztum1zAi >>359
気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた
変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ
PDF は文字コード表にない文字(フォント)まで扱えることを知ってればコピペ等で化ける(別の字への置き換え)は当然の仕様と知れる
気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた
変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ
PDF は文字コード表にない文字(フォント)まで扱えることを知ってればコピペ等で化ける(別の字への置き換え)は当然の仕様と知れる
361デフォルトの名無しさん
2025/07/31(木) 12:22:57.59ID:1FIA24UI >>360
Windowsの標準のフォントしか使ってないので、遭遇した事もないし、聞いた事もないが
(ただ、当時はそうなっても「文字化け」としてスルーされてたとも思うが
unicodeしか使った事無いゆとり以降は、文字化け=バグ、とか言い出すから別の問題はあるにしても、
文字化けについて厳しくなってるから話題として出てきてるだけかもしれん)
しかし結局、文字コード->グリフで多対一写像があり、戻す時にどちらに戻すべきか分からなくなるのが問題なら、
(SJISな当時に)多対一写像がありまくるのはただの糞フォントだとも思うが
平仮名/片仮名は漢字の簡易形であり、当然似たような字形はあるので、
ほぼ全部のフォントでそれらを何となく区別出来るように大きさを変えてあるのが常だし
で、unicodeは多対一写像が仕様だから、
1:1写像な以前の世界向けに作られた物が当然誤動作してるだけだろ
(さっさと対応しろよ、なのは勿論だが)
して、「酷い」と考える奴は結局、後知恵でもいいからどうすべきだったと考えるのだ?
文字コードを埋め込む方式は、見た目同じだが検索に引っかからない、いわゆる正規化の問題が発生してしまう
同じグリフ->同じ文字コードなら、この問題は存在しない
だから「検索」と「コピペ」のどちら向けの仕様にするか、であり、PDFが
> 検索ができないのは不便だからってんで (>>328)
なら、そりゃ検索向けの仕様にするよ
(現在のPDFが検索時に正規化して対応してるとしても、
同じグリフに複数の文字コードを与えている糞フォントな場合、
画面なぞって検索したときに、見た目同じなのに引っかからないケースが発生する
同じグリフなら同じコードだ!の旧方式なら、これはない)
Windowsの標準のフォントしか使ってないので、遭遇した事もないし、聞いた事もないが
(ただ、当時はそうなっても「文字化け」としてスルーされてたとも思うが
unicodeしか使った事無いゆとり以降は、文字化け=バグ、とか言い出すから別の問題はあるにしても、
文字化けについて厳しくなってるから話題として出てきてるだけかもしれん)
しかし結局、文字コード->グリフで多対一写像があり、戻す時にどちらに戻すべきか分からなくなるのが問題なら、
(SJISな当時に)多対一写像がありまくるのはただの糞フォントだとも思うが
平仮名/片仮名は漢字の簡易形であり、当然似たような字形はあるので、
ほぼ全部のフォントでそれらを何となく区別出来るように大きさを変えてあるのが常だし
で、unicodeは多対一写像が仕様だから、
1:1写像な以前の世界向けに作られた物が当然誤動作してるだけだろ
(さっさと対応しろよ、なのは勿論だが)
して、「酷い」と考える奴は結局、後知恵でもいいからどうすべきだったと考えるのだ?
文字コードを埋め込む方式は、見た目同じだが検索に引っかからない、いわゆる正規化の問題が発生してしまう
同じグリフ->同じ文字コードなら、この問題は存在しない
だから「検索」と「コピペ」のどちら向けの仕様にするか、であり、PDFが
> 検索ができないのは不便だからってんで (>>328)
なら、そりゃ検索向けの仕様にするよ
(現在のPDFが検索時に正規化して対応してるとしても、
同じグリフに複数の文字コードを与えている糞フォントな場合、
画面なぞって検索したときに、見た目同じなのに引っかからないケースが発生する
同じグリフなら同じコードだ!の旧方式なら、これはない)
362デフォルトの名無しさん
2025/07/31(木) 12:57:26.17ID:lEUWnalG 長文は読み手の負担になるし
希薄化して本当に書きたいことも伝わらなくなるよ
希薄化して本当に書きたいことも伝わらなくなるよ
363デフォルトの名無しさん
2025/07/31(木) 13:09:41.59ID:Ztum1zAi364デフォルトの名無しさん
2025/07/31(木) 14:31:26.32ID:hwCClOrU ∃〆レば良いんょ
365デフォルトの名無しさん
2025/07/31(木) 14:51:39.49ID:1FIA24UI >>363
それはSJISの範囲を超えているから当然誤動作する
(俺は知らんがwiki等読む限り)仕様としてはエスケープシーケンスで各国語を切り替えられたらしいが、
そんな事が必要な奴は90年代でも既にunicodeを使ってたので、
SJISに貼り付けて誤動作ガーとか言ってるお前が狂ってる
資本主義=商用ベースでやる以上、訳の分からないマイナーな使い方は無視されて当然
(良い悪いではなく、そうなる構造)
それはSJISの範囲を超えているから当然誤動作する
(俺は知らんがwiki等読む限り)仕様としてはエスケープシーケンスで各国語を切り替えられたらしいが、
そんな事が必要な奴は90年代でも既にunicodeを使ってたので、
SJISに貼り付けて誤動作ガーとか言ってるお前が狂ってる
資本主義=商用ベースでやる以上、訳の分からないマイナーな使い方は無視されて当然
(良い悪いではなく、そうなる構造)
366デフォルトの名無しさん
2025/07/31(木) 15:58:32.58ID:Ztum1zAi >>365
基本的な部分が分かってないな
・全ての文字(フォント)が SJIS と1対1でマップされている保証はない
というのが
・全ての文字(フォント)が Unicode と1対1でマップされている保証はない
というのに変わっただけで unicode など文字コードの問題だと思ってるのがお前の勘違い、文字コードで解決する問題ではない
基本的な部分が分かってないな
・全ての文字(フォント)が SJIS と1対1でマップされている保証はない
というのが
・全ての文字(フォント)が Unicode と1対1でマップされている保証はない
というのに変わっただけで unicode など文字コードの問題だと思ってるのがお前の勘違い、文字コードで解決する問題ではない
レスを投稿する
ニュース
- 【日本大使館】中国在留邦人は安全確保を [ぐれ★]
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★10 [ぐれ★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 東京株式市場 インバウンド関連株が下落 中国政府の渡航自粛要請で [バイト歴50年★]
- 愛子、初の公式外国訪問でラオスに 日本の象徴一家を名乗るならジャップロリペド買春男どもの謝罪と賠償してこい [377482965]
- ニートしかいない時間ってマジでつまんないよな
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 千速は誰とのカップリングがエロいのか
- 高市コイン、155円突破wwwwwwwwww [246620176]
- おじゃる丸をまったり待機するスレ🏡
