文字コード総合スレ part15

2025/01/25(土) 13:31:18.17ID:oQSzfWfA
>>249
どちらのOSも自由を許容している
そのため非ユニコードが混入しうる
OSは歯止めにならない

だからRustのように型で明確に区別できる言語を用いてアプリを作ればよい
非ユニコードが他へ波及することを防ぎつつ安全に扱うことができる
2025/01/25(土) 14:44:40.60ID:6/VZHgMn
from_encoded_bytes_uncheckedにoverlong UTF-8をブチ込んでinto_stringしたらOk返ってきちゃった

StringまたはWTF-16から変換されること以外は無い前提でチェックは最低限にされてるみたい
unsafe contractを破った俺が悪いのはそうなんだが、これを「WTF-8文字列コンテナ型」だと思ってたらまあまあ死にそう
バイト列からの変換にcheckedな版が無いのも、一応エンコーディング未規定なんだから好き勝手なバイト列から作るもんじゃねーよバーカってことだな

同じことをLinuxでもやったらこっちはinto_stringの時点でErrが返ってくる
OsStringの内部のバッファの不変条件としても違いがあって、Windows以外では任意のバイト列でいいけど、Windowsでは常にWTF-8でなくてはならないようだ

WTF-8それ自体が脆弱性の根源になることはなくても、こうしたややこしさが誤った使い方、ひいては脆弱性を生むことはあるかもしれないとは思った
2025/01/25(土) 15:20:14.12ID:0Kd0a2wN
>>251
そのunsafe fn from_encoded_bytes_unchecked(byres: Vec<u8>)は安全性の対象外と明示されているね
unsafeとはC言語と同じようにプログラマーの責任で安全性を保証しなければならない
それを理解しない者や扱う技術を持たない者がunsafeを使ってはいけない
それ以前にRustは今回の件も自動的に安全性が保証されるコードを(unsafeを使わずに)書くことができる
2025/01/25(土) 15:40:07.61ID:6/VZHgMn
>>252
その通り、だからunsafe contractを破った俺が悪いと書いた
しかしぶっ壊すことで得られる学びは多い
2025/01/25(土) 15:45:28.44ID:6/VZHgMn
というかもうWTF-8の話じゃなくてRustの話になりつつあるしこの辺で終わっとこうぜ
続きがやりたければRust本スレで
2025/01/25(土) 21:10:55.94ID:yCgioYGI
Rustスレから出てこないで欲しい
2025/01/25(土) 22:20:25.13ID:LC7IJQQw
構うから居座り続けるんだよ
学習しろ
2025/01/26(日) 10:07:42.23ID:QXh9thRU
Macの濁点半濁点問題ってUTF-8の正規化とやらの範疇に入るのかな
文字構成の解釈の仕方の問題だから正規化を実装する人の思想に強く依存してしまうと思うけど
2025/01/26(日) 10:56:58.06ID:14aIx6OH
日本人からすると濁点半濁点の違うMacうぜーとなるけど
欧州でもdiacriticsがあるから同じくMacうぜーだろうな
2025/01/26(日) 11:31:33.02ID:orn1Lem+
>>257
このスレにいるなら文字コードとエンコーディングの区別を理解しよう
UTF-8はエンコーディング方法なので
そこでの正規化は冗長表現の排除やサロゲートペアの排除を指す
一方濁点半濁点の話は文字コードであるUnicodeの正規化の話であってUTF-8は一切関係がない
2025/01/26(日) 11:52:28.72ID:OHuPDl3g
>>257
Unicode の正規化は規格で決まっている
基本的に実装者の自由にやってはいけない
・複数の正規化が規定されてるのでそのうちの1つに過ぎない
・MacOSの正規化は一部規格から外れてる
という問題はある
2025/01/26(日) 12:03:07.52ID:Lrs5O7+s
Macの濁点半濁点問題はEBCDICのカナ(半角カタカナ)をきれいに表示する努力をした結果なのだろうか?
2025/01/27(月) 11:38:12.00ID:ss2Vvpwv
ファイル名は正規化するべきなのかするべきでないのか、という問題があり
Macは正規化する派
正規化するとした場合、どういう正規化がいいか、それが次の問題
263デフォルトの名無しさん
垢版 |
2025/01/27(月) 18:51:09.07ID:5zVfH4ct
日本語のフォントを外国人が作っているせいで日本語の記号の見た目がおかしくなった
264デフォルトの名無しさん
垢版 |
2025/01/27(月) 18:52:15.56ID:5zVfH4ct
>>262
Macのアップル社もGoogle社も改行コードに対しては意地悪すぎだろ
2025/01/27(月) 22:05:41.27ID:1OoDt+VN
Apple の改行コードはCRだったものがMac OS X でLFになったのを意地悪と言っているのだろうか?
266デフォルトの名無しさん
垢版 |
2025/01/27(月) 23:31:59.65ID:5zVfH4ct
>>265
WindowsのCRLFをどちらも改行と見做すところ

どう考えても1つの改行なのにEメールなどでは2つの改行として送り返してくる
267デフォルトの名無しさん
垢版 |
2025/01/28(火) 10:08:29.84ID:dqvH8r5C
CR=改行(Macのみ)
CRLF=改行(WindowsやRFC)
LF=改行(Unix)

>>266
それはアプリのバグ
2025/01/28(火) 11:39:24.54ID:JQ2UpNE9
>>267
いろいろ間違えてるぞ
正確さが足りない
269デフォルトの名無しさん
垢版 |
2025/01/30(木) 07:10:47.96ID:gms+ATb5
ワシの霊感では、
CR LF → LF 変換 は無理
CR LF → CR 変換 も無理
その逆、は可能、スナワチ
LF → CR LF 変換等は、可能

なんでかって❓ 霊感的には、
それが可能と仮定すれば、そのような問題は解決済
しかし未だに未解決の模様なので、

では、霊感的にではなく、数学的にはどうなのか
吟味しようかな。てか不可能が証明されても
その証明は、闇に葬る必要があるよな
by 💃🥳🤔

とにかく、アプリの改行バグなくせぇーー
by 👤🤡
2025/01/30(木) 10:13:34.95ID:lxoi8Hgj
RFCもいまどき入力は寛容にとは書いてないんだっけか
2025/01/30(木) 23:31:56.82ID:xDtExgvT
改行の話をするならこのTRには目を通しているよね?
https://www.unicode.org/reports/tr14/tr14-32.html#BreakingRules
272デフォルトの名無しさん
垢版 |
2025/01/31(金) 19:55:09.44ID:0CYGlf8F
CRの直後にLFが現れたなら、改行2つではないとわかる。
それなのに改行2つと解釈するのは悪意でしかないり
2025/01/31(金) 20:06:45.58ID:RSTFpkS7
CR や LF より前に CRLF を処理しないのは悪意でしか無いな
2025/01/31(金) 20:07:21.09ID:B141IEhK
>>260
NFD、NFC等を名乗るならそうだが最初からmodified NFD言ってるしなあ
当時は異体字セレクタなどなく、ただのNFDで字形まで変えるUnicodeの定義のほうがおかしかった
2025/01/31(金) 20:25:32.29ID:uF0JLDg9
>>274
みんながみんな勝手に modified NFD とか作り始めたら互換性とか規格とか何の意味もなくなる
勝手なオレオレ基準は非難されるべき
単に古い規格準拠というだけなら許されるが Apple のはそうじゃない
2025/01/31(金) 20:45:51.19ID:B141IEhK
そもそも正規化自体は都合に合わせて勝手にやるもんだぜ?
Windowsの.で終わるファイル名を拡張子なしと同一視するのも正規化だし
掲示板への書き込みで行頭のスペースが消えるのも正規化だ
Unicodeで定義されたやつだけが正規化ではないというのは大前提として

字形を変えない範囲で厄介な合成分解で別ファイル扱いになるのを避けたい
というのは他の文字コードからUnicodeへの過渡期では当然の要求だろう
他のOSとのやりとりでトラブルが起きるようになったのはもっと考えるべきだったとは思うが
2025/01/31(金) 20:53:12.36ID:uF0JLDg9
>>276
それは違う
Apple はユニコード・コンソーシアムの設立からのメンバー
技術的に規格に問題があるののならそれを変えればいい、それをやらなければいけない立場
中核メンバーが自分たちが作った規格を勝手に無視してたら、規格の意味なんてない
この件はどう言い訳しても Apple はクソという結論にしかならない
2025/01/31(金) 20:55:58.32ID:B141IEhK
>>277
Appleは提案したが通らなかったってどっかで見たぞ
2025/01/31(金) 20:57:03.60ID:h9+hJoTP
技術的に無理な仕様作ったん?
2025/01/31(金) 21:06:00.74ID:uF0JLDg9
>>278
どこで見たんだ?
技術的に変な提案したら通らないだろうが、それが規格を無視して良い理由にはならない
それを理由に脱退したんなら一理あるけど
2025/01/31(金) 21:19:51.37ID:1pwkweKb
規格があるのにそれを使わない分野なんて沢山ありそうだが
実際のところ金を出せて声がでかければ規格なんていくらでも通せるんだから
2025/01/31(金) 21:24:04.22ID:B141IEhK
>>280
俺が見た記事は残ってないだろうけど検索したら出てきたunicode.org内の議事録はたぶんこれ
ttps://www.unicode.org/review/resolved-pri.html#pri7
2025/01/31(金) 21:26:16.69ID:gGXkx70A
>>281
ヒデェ
2025/01/31(金) 22:22:23.03ID:mygoMuj6
>>282
www
一部除外したら一貫性が無くなって正規化が 正規化じゃなくなるから勝手な除外は駄目って明確に指摘されてるな
なんで実装したんだろう? いやVFとか使いたくなかったんだろうけど、

どうしてもやりたければ任意の除外ではなく VF のみ除外みたいなので再提案すべきだったのでは
2025/02/16(日) 22:21:14.00ID:y/0wzlVz
https://gigazine.net/news/20250214-unicode-hidden-message/
Unicodeでは一見すると普通の文字の中に「秘密のメッセージ」を埋め込むことが可能だという指摘
2025/02/16(日) 23:51:54.49ID:hLnUvUfF
>>285
なるほどね
https://i.gzn.jp/img/2025/02/14/unicode-hidden-message/03.png
2025/02/17(月) 16:59:47.72ID:GjzIkJ/e
Unicodeはそのうちオーディオブック用やa11yで読み上げ音声用のVSが定義されそう
2025/02/17(月) 17:34:45.48ID:9sDD+e7d
漢字みたいな複数の読み方があるのは難しいだろうね
2025/02/17(月) 18:36:11.68ID:tdbxV0fJ
MSOfiiceでIME入力がphoneticsとして保存されてて読み仮名表示出来るのは、他に広まっても良いのにな
2025/02/18(火) 12:25:03.72ID:HbHlBTpR
>>286
なるほどね
fn byte_to_variation_selector(byte: u8) -> char {
if byte < 16 {
char::from_u32(0xFE00 + byte as u32).unwrap()
} else {
char::from_u32(0xE0110 + (byte - 16) as u32).unwrap()
}
}
291デフォルトの名無しさん
垢版 |
2025/02/28(金) 17:04:23.70ID:kF3VgEHE
fn byte_to_variation_selector(byte: u8) -> Option<char> {
if byte < 16 {
char::from_u32(0xFE00 + byte as u32)
} else {
char::from_u32(0xE0110 + (byte - 16) as u32)
}
}
2025/04/03(木) 21:05:53.03ID:tEk54HNS
「Windows11でファイル名に絵文字が使えることを知って、1つ賢くなった」便利と思われる機能が追加→情シスがバールを担いで暴れ出す案件
https://posfie.com/@blackstaragent/p/kpHrLMR

今まで使えなかったんだっけ?と思って最後まで見たら
ちゃんと前から使えてたって突っ込まれてたわ
2025/04/06(日) 16:37:54.44ID:+flcOJuk
普通に文を書く時でも()?!などの記号をASCII文字にするか全角文字にするか
濁点と半濁点を結合済み文字にするか別の文字にするかで迷ってしまう
294デフォルトの名無しさん
垢版 |
2025/04/07(月) 21:43:17.60ID:1UVr/FZP
濁点と半濁点が別の文字だと認識しているのはおかしい
295デフォルトの名無しさん
垢版 |
2025/04/08(火) 17:04:31.43ID:UfxEZoR8
まし"て"
296デフォルトの名無しさん
垢版 |
2025/04/09(水) 01:54:47.78ID:t8BwIxsD
Windowsのエクスプローラーで見るとキャラクタセットによっては濁点が別の文字だとわからないことがある
2025/04/11(金) 20:08:58.20ID:i2PY9ZNn
朝鮮系の奴隷労働者が造ったと思われるサイトは
濁点が抜けてる気持ち悪いところがいくつかある
2025/04/12(土) 06:35:11.93ID:IMDrBc8a
調整
https://techracho.bpsinc.jp/hachi8833/2021_09_08/48435
https://gigazine.net/news/20231005-unicode/
477414164X
299デフォルトの名無しさん
垢版 |
2025/05/02(金) 09:50:51.92ID:k5bGwZZ0
不可視化トラップで教育素材造るのはいいね
https://www.youtube.com/watch?v=cXTBwD798Lk
2025/05/02(金) 18:10:04.97ID:9xoZUliT
ユニコード悪用ヤバいな

>>298
>公式アプリと同じ開発者に見える名前で偽アプリが提供されました。
>この詐欺師は、印刷に現れないスペース文字を開発者名に混ぜ込むことでバリデーションのすり抜けに成功しました。
>このハックによって100万人以上が騙されました。
301デフォルトの名無しさん
垢版 |
2025/05/02(金) 20:30:48.79ID:rPO248eK
>印刷に現れないスペース文字

誤訳だな
AIあほすぎ
2025/05/07(水) 21:40:30.18ID:9JkcRkxN
https://github.com/microsoft/cascadia-code/releases/tag/cascadia-next

Joyo, JIS1, JIS2って何だよ
日本人向けのフォントなら日本人に分かるような書き方してくれ
303デフォルトの名無しさん
垢版 |
2025/05/08(木) 02:26:11.93ID:US+UAC1U
>>258
多分Mac OS Xのファイル名にNFDを採用したのは
辞書順がdiacriticsを無視する言語文化圏の人だったのでは
欧州では多数派だけど唯一ではない
>>121
OS kernelのsyscall部分で矯正してるわけではなくて
file system driverがやってる(ただしDarwinソースを確認したのは10年以上前)
だからUSBメモリだとかNFSだと、NFCでも書ける
ただし他の人も書いてる通りライブラリでも強制してる
CLIだと関係ない
304デフォルトの名無しさん
垢版 |
2025/05/08(木) 03:01:55.71ID:US+UAC1U
ちなみにライブラリで必ずやることに変えれば
規格準拠にしやすいと思う
フル準拠にするとカーネルに入れるにはテーブルが大きすぎる
けどじゃあPython処理系はどうするんだ
osモジュールに担当させるのか
osモジュールみたいな機構がない言語処理系ではどうするんだ
とか色々大変
305デフォルトの名無しさん
垢版 |
2025/05/08(木) 03:15:04.31ID:US+UAC1U
要するにパス名正規化は無意味で無駄
2025/05/08(木) 12:28:18.82ID:of3Q4Bd7
ちっぱいでもいいじゃん
2025/05/08(木) 16:10:03.97ID:n8dUtc6U
>>305
いや正規化やっても良いんだよ
ただしやるなら規格書どおりにやれ
勝手仕様でやられると対応に困る
2025/05/08(木) 23:33:49.27ID:pZAMgdYa
規格には則ってる
複数あって非互換なのが問題
2025/05/08(木) 23:40:58.88ID:n8dUtc6U
>>308
MacOS のやつは規格にあってないんだよ
しったかすんな
310デフォルトの名無しさん
垢版 |
2025/05/08(木) 23:51:00.29ID:US+UAC1U
せめてNFCにしてればな
殆どの文書はNFCで構成されるんだから
それでもUnicodeは規格がバージョンごとに違うからなあ
正規化が無駄な努力
2025/05/09(金) 02:29:43.44ID:3ts3cFTs
>>303
ファイルコピーとかするときは毎回、正規化の変換が発生する感じ?
(不明な正規化)->(特定の正規化) ってのは問題ないんだっけ?

一方でファイルビューア(Finder)とか上の方はどのFS上にいるとか意識
したくないだろうからなあ。そこでも正規化の変換が起こるのかな?
312デフォルトの名無しさん
垢版 |
2025/05/09(金) 11:12:25.67ID:oh4Slinf
ファイルビューア
↓正規化
ファイルヒ゛ューア

こんなのやだな
2025/05/09(金) 12:07:16.82ID:OoJ+JMZS
EBCDICカナ文字の話みたい。
ごめんなさい、ごめんなさい、ごめんなさい。
314デフォルトの名無しさん
垢版 |
2025/05/09(金) 15:56:58.76ID:yePfNbNe
>>311
最近macOSは余り触ってないが昔は
(様々な理由により以下の状況が起きて)
ファイルビューア
ファイルヒ゛ューア
の両方がディレクトリにある場合に、Finder.appでは
ファイルビューア
ファイルビューア
と表示され後者しかアクセス出来なかった
Cocoaが正規化してユーザやカーネルに渡すから
315デフォルトの名無しさん
垢版 |
2025/05/13(火) 18:18:02.49ID:El9a77up
字にはヒラギノール
2025/07/20(日) 21:42:09.27ID:v9zpB8iu
Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは?
https://togetter.com/li/2577928
2025/07/20(日) 22:29:37.55ID:0FYiUEbf
>>316
文字コードの問題ではなく単なるバグ
より正確にいうと大昔からある PDF のフォントの使い方の問題

PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる
フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる
複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる
2025/07/22(火) 01:09:42.93ID:g3Tn7WHZ
>>316 みたいな奴が参政党に投票する
2025/07/22(火) 12:00:50.20ID:Yl+nv6VH
アドビはタイプセッター屋じゃけぇ、フォントファーストじゃけぇ
2025/07/22(火) 12:55:59.74ID:nZDCfJLI
>>317
しかし1:1になるように、
つまり同じ字形が複数の文字コードで使われるなら、同じ字形のフォントを別登録してしまえば回避出来るのでは?
ならPDF出力ソフトが糞なだけ
2025/07/22(火) 13:37:16.00ID:bKhKMrtD
>>320
そんなことしたらサイズが無駄にでかくなるだろ
PDFがアホなのは同意だが、unicode普及以前の技術なのを思い出せ
2025/07/22(火) 15:01:08.85ID:yoaKkUTS
>>321
大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし

> unicode普及以前の技術なのを思い出せ
unicode以外では特に問題なかったのなら、unicode側の問題であり、
unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ

お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ
2025/07/22(火) 19:20:34.51ID:bKhKMrtD
>>322
違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ
でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ
本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ
2025/07/22(火) 22:22:27.85ID:yoaKkUTS
>>323
となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな

とはいえ今更本家からの統制は無理だし、
この問題を認識した上で各自が対応するしかなさそうだな
(そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか)
325デフォルトの名無しさん
垢版 |
2025/07/24(木) 18:46:53.48ID:bvlLnJ99
>>316
PDFの仕様が自由すぎるからだぞ?
2025/07/24(木) 19:36:31.51ID:Gx5EDFfz
adobeはPDF2.0に対応したのか、やる気もないのか、とふと思った
2025/07/24(木) 21:57:49.45ID:PCIysLOC
>>326
対応とは?
PDF-2.0 が何か知ってて言ってるのか?↓
2025/07/25(金) 01:59:47.04ID:UKTPcfYB
PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する
2025/07/25(金) 07:07:21.05ID:yWMF+wv2
>>328
それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう

ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと?
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい

そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし

unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん
2025/07/25(金) 09:21:41.11ID:5+UAzUxo
>>329
元々の unicode は実践主義、御都合主義ともいう。
過去に別の文字として同時に実装された記録があれば別の文字として登録。
2025/07/25(金) 11:08:12.46ID:yWMF+wv2
>>330
つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか

しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か
どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか
(と思ったらもうあった、0x9f4a〜8文字のようだ)

仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、
unicodeもこの軌道に乗ってるな
(もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか?)
2025/07/25(金) 14:05:16.33ID:TViBdD0W
>>331
戸籍/汎用電子情報交換環境/文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる
2025/07/25(金) 18:28:38.05ID:yWMF+wv2
>>332
正式名称は知らんが、俺が言ってるのはそれだな
ググったら総務省が音頭取ってやってるのか?色々出てきたが、
少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな?

にしても検索どうするんだこれ?だし、
最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが
2025/07/25(金) 19:02:45.52ID:yWMF+wv2
と思ったが、IVSは直後に枝番付加する方式か
まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる

ちなみにこれ、実際のグリフを算出するにはどうするのだ?
異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか?
というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、
もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、
必ず元字+枝番のセットで使うのが仕様か?(この方がいいが)
2025/07/25(金) 19:10:28.15ID:5+UAzUxo
>>334
IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
2025/07/26(土) 08:13:11.69ID:PF0bui/v
>>335
うむ、意図が分からん
「斉」は独立コ
ードも与え、IVDにも登録、
「葛」は独立コー
ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな
実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる
無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、
仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな
(大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる)

> ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある)
検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、
プログラム側には全く問題ないだろうさ
ただ、入力側が正しく入力できるかは大問題だろうけどさ

単一の文字コー
ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな
unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て?
(例:16準拠の場合、15を完全に満たすのか、そうでないのか)
C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか)
2025/07/26(土) 12:33:33.50ID:JK5RKkw3
>>336
最近の仕様だけ見たら混乱するよな

− もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定
2025/07/26(土) 13:22:34.55ID:IhScHI/D
>>337
日本側の状況はさもありなん
全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが

中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな
検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに
とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが

> オレオレ unicode の利用を中国国内では強制することにする
それは中国規格なので勝手にしろでいいと思うが
> unicode 側が折れて
となるのは、unicode陣営は統一コードの夢を見続けている、ということか
なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが)
非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな

まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい
現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない
可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね
2025/07/27(日) 09:27:25.30ID:y0cxqRG2
>>328
>PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
>後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

これはひどい
2025/07/27(日) 09:52:00.68ID:s52NuiMb
>>339
酷くはない
その当時はそれでも素晴らしかったから普及した
そして実際、unicode以前は完全に機能していたわけだし

どちらかというとunicodeが既存技術に対してかなり異端で、
当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ
Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない
341デフォルトの名無しさん
垢版 |
2025/07/27(日) 10:08:59.26ID:4jy4lfp7
>>336
単純な例で



だな
こんなの一緒にされたら困る
2025/07/27(日) 10:52:09.39ID:s52NuiMb
>>341
ソース違いで自体が同じ例か?
カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ
問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、
これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る

だから、unicodeのCJK統合漢字=見た目が同じなら同じ文字、は、
検索の結果がユーザーにも予期出来る、という意味では正しい思想で、
逆に、同じ字体にも違うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる

この辺の思想が、unicodeは徹底出来ていない
2025/07/27(日) 15:00:47.82ID:xJMx5cyL
>>340
そうじゃない
PostScriptと当時のフォントの詳細をほとんど知らないだろ?
だから妄想で適当なことを書く、酷いのはお前だ
ってこのぐらい書けばわかるんかな
2025/07/27(日) 15:43:44.47ID:s52NuiMb
>>343
PostScript以前はプリンタによって出力結果が異なっていた為、
ファイルを渡しても印刷結果が異なる事が普通だった
(だから厳密にやるには紙でやりとりするしかなかった)
これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、
あっという間にデファクトスタンダードをとった

PostScriptはベジエなフォントをプリンタでラスタライズする
だからフォントを埋め込めば、同じ見た目の出力になる
以前のプリンタは、プリンタ内蔵のビットマップフォントを印刷してたか、
PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた
(なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、
プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから)

PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる
当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった
AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料)という方針で、
あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した
MSがWord/Excelのリーダーを無料で提供したのはその後

俺が知ってる概略はこんな所だ
PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ
(今でも十分素晴らしいとも思うが)

ぼくはおまえよりしってるんだ!!!とか要らんから、最初から知ってる事書けばいいと思うけどね
はいどうぞ
345デフォルトの名無しさん
垢版 |
2025/07/27(日) 16:00:29.88ID:IiX+k+fy
>PDFはPostScriptをバイナリ化したもの
doubt
2025/07/27(日) 16:39:24.93ID:gwhcenFf
PSはプログラム言語でPDFは描画データ
門外漢のオレの理解はここまで
2025/07/27(日) 16:40:00.92ID:s52NuiMb
>>345
ああ確かに、asciiと言った方が近いようだな
ただそんな関係ない所ではなく、本筋の、

> PostScriptと当時のフォントの詳細
に(自称)詳しい人から見て
> 酷い
と考える根拠を述べよ、だな

俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた
実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし
unicodeが色々おかしくしただけだよ
2025/07/28(月) 09:30:10.58ID:BMbzFeOA
https://www.adobe.com/jp/creativecloud/file-types/image/vector/ps-file.html

PostScriptとPDFの違いは何ですか?

PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。
2025/07/28(月) 11:28:12.87ID:2xoiUnVU
postscript は紙に印刷する専用なので検索とかコピー・ペーストとかは不要だが
PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった

unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた
問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
直接的には文字コードの問題ではない
350デフォルトの名無しさん
垢版 |
2025/07/28(月) 13:24:28.88ID:f/ONtylv
ワニ□クリップも同じか
2025/07/29(火) 12:35:56.91ID:kq5k6q77
ちゃんと知らん奴に限って総括するような話をしたがるが、悲しいかな理解が
浅いので全然正しく総括できてないあるある
これは例の何ちゃら効果の一種かもしれんね
2025/07/29(火) 13:59:09.33ID:3y9fqZXC
詳しく知らないと総括しかできない
2025/07/29(火) 14:07:42.49ID:OFHwVEwi
WebでもHTMLのimgで例えばブランドロゴを画像表示したときに
alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる
そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる
2025/07/29(火) 14:44:03.99ID:GBwxra7f
>>353
alt に対応してないメイン・ブラウザとかはほぼ存在しないんだが…
PDF はなぁ…
2025/07/29(火) 19:25:27.31ID:8QmNUBAP
HTMLは画像表示できずにテキスト表示のみの環境でも読めるように
そして目の不自由な人たちもテキストの音声読み上げで読めるように
HTMLコンテンツを作る側もブラウザ側両方が対応してきた
いわゆるアクセスビリティ対応が必須で常識
PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる
2025/07/29(火) 22:35:36.96ID:pHNfVPjg
altなんて実際のところ機能してないだろ
隠しメッセージに使うとかおもちゃになってる
2025/07/31(木) 07:07:13.35ID:1FIA24UI
>>343
結局、何も言えないのか?
だからゆとりZは死ねなんだな

俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる
理由は長いが以下に書き散らしたので興味あれば読んでみてくれ
https://mevius.5ch.net/test/read.cgi/tech/1739527246/529-

お前らはお互いに足を引っ張り合ってるので成長出来てない
今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、
だから議論もろくに出来ず、幼稚なままだ
そもそも俺はPostScriptやフォントの事に一言も触れてないのに、どうして
> PostScriptと当時のフォントの詳細をほとんど知らないだろ?
> だから妄想で適当なことを書く、酷いのはお前だ
になったのかさっぱり分からない

ゆとりZは妄想で適当なことを書く、酷い連中だから
存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当
お前も死ね
ってこのぐらい書けばわかるんかな
2025/07/31(木) 07:09:00.90ID:1FIA24UI
>>349
> 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
> 直接的には文字コードの問題ではない
その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ
実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ

つまりunicodeが
> 異端 (>>340:俺)
で、
> 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺)
に現時点でなってるのも事実ではないか
PDFに関してはパチもん使わずAdobe純正品使え、だろうが、
unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが
(だから足抜けは許さねえ!!!なコードヤクザになるのも納得)

そもそもサロゲートペアも初段階で必須だと判断出来たはず
(だからutf-16はナンセンスだとも)
> https://skawa68.com/2024/07/31/post-81230/
大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、
常識的には、いや無理でしょ、余裕無さすぎ、だし
(よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf)

あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか?
なら中国が独立コードに拘る理由もありえる、というか、
これだと事実上utf-32も捨てる事になる
まあほぼutf-8なので今更どうでもいいのも事実だが
2025/07/31(木) 07:55:06.21ID:1FIA24UI
思うにunicodeは、文字化けのない世界を提示したのは素晴らしいにしても、
一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする
全ての言語を話せる人が居ない以上、
IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる
だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない
これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、
だから橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、
実際破綻しまくっているのも、元々無理があるからだ

つまり、例のブランコ、
「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない
(会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、
全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない)

まあIT版バベルの塔であり、どこまで行けるかという話だが
実際、自分には関係ない機能なんて、実装するモチベわかないものだし
(大体において実際困ってるから動くのがほぼ全員で、困ってなければ誰も動かない
この意味では、unicodeがフル実装される未来なんて多分存在しない)
2025/07/31(木) 10:38:37.81ID:Ztum1zAi
>>359
気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた
変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ
PDF は文字コード表にない文字(フォント)まで扱えることを知ってればコピペ等で化ける(別の字への置き換え)は当然の仕様と知れる
2025/07/31(木) 12:22:57.59ID:1FIA24UI
>>360
Windowsの標準のフォントしか使ってないので、遭遇した事もないし、聞いた事もないが
(ただ、当時はそうなっても「文字化け」としてスルーされてたとも思うが
unicodeしか使った事無いゆとり以降は、文字化け=バグ、とか言い出すから別の問題はあるにしても、
文字化けについて厳しくなってるから話題として出てきてるだけかもしれん)

しかし結局、文字コード->グリフで多対一写像があり、戻す時にどちらに戻すべきか分からなくなるのが問題なら、
(SJISな当時に)多対一写像がありまくるのはただの糞フォントだとも思うが
平仮名/片仮名は漢字の簡易形であり、当然似たような字形はあるので、
ほぼ全部のフォントでそれらを何となく区別出来るように大きさを変えてあるのが常だし

で、unicodeは多対一写像が仕様だから、
1:1写像な以前の世界向けに作られた物が当然誤動作してるだけだろ
(さっさと対応しろよ、なのは勿論だが)

して、「酷い」と考える奴は結局、後知恵でもいいからどうすべきだったと考えるのだ?
文字コードを埋め込む方式は、見た目同じだが検索に引っかからない、いわゆる正規化の問題が発生してしまう
同じグリフ->同じ文字コードなら、この問題は存在しない
だから「検索」と「コピペ」のどちら向けの仕様にするか、であり、PDFが
> 検索ができないのは不便だからってんで (>>328)
なら、そりゃ検索向けの仕様にするよ
(現在のPDFが検索時に正規化して対応してるとしても、
同じグリフに複数の文字コードを与えている糞フォントな場合、
画面なぞって検索したときに、見た目同じなのに引っかからないケースが発生する
同じグリフなら同じコードだ!の旧方式なら、これはない)
2025/07/31(木) 12:57:26.17ID:lEUWnalG
長文は読み手の負担になるし
希薄化して本当に書きたいことも伝わらなくなるよ
2025/07/31(木) 13:09:41.59ID:Ztum1zAi
>>361
フォントが1種類しか使われてないと思い込んでるのがお前の妄想の原因なんだよ
アラビア語のフォントが一部に使われてるPDFをSJISのテキストにコピペしたらどうなるか想像つくだろ
364デフォルトの名無しさん
垢版 |
2025/07/31(木) 14:31:26.32ID:hwCClOrU
∃〆レば良いんょ
2025/07/31(木) 14:51:39.49ID:1FIA24UI
>>363
それはSJISの範囲を超えているから当然誤動作する
(俺は知らんがwiki等読む限り)仕様としてはエスケープシーケンスで各国語を切り替えられたらしいが、
そんな事が必要な奴は90年代でも既にunicodeを使ってたので、
SJISに貼り付けて誤動作ガーとか言ってるお前が狂ってる

資本主義=商用ベースでやる以上、訳の分からないマイナーな使い方は無視されて当然
(良い悪いではなく、そうなる構造)
2025/07/31(木) 15:58:32.58ID:Ztum1zAi
>>365
基本的な部分が分かってないな
・全ての文字(フォント)が SJIS と1対1でマップされている保証はない
というのが
・全ての文字(フォント)が Unicode と1対1でマップされている保証はない
というのに変わっただけで unicode など文字コードの問題だと思ってるのがお前の勘違い、文字コードで解決する問題ではない
2025/07/31(木) 17:19:12.01ID:T4u83bYv
対象文書に閉じた形式(情報量が削減されたグリフオリエンテッドな形式)で表現されている以上、どうしようもない
2025/07/31(木) 22:07:10.30ID:1FIA24UI
>>366
> ・全ての文字(フォント)が SJIS と1対1でマップされている保証はない
それはそうだが、実際はされてるから問題にならなかったんだろ
SJISで正規化問題なんて聞いた事無いし
unicodeでは色々な所で多対一がモロ仕様だから顕在化しただけ

とはいえこれ以上は平行線だろうし終わりでいい
合意とる必要もないし

俺は、

・見た目全く同じなのに検索に引っかからない事があるunicode仕様
・コピペ時に見た目は全く同じな別のコードに変わる事があるPDF仕様

なら、PDFには後者の方が断然いいと考える
PDFに対して検索はよくやるが、コピペはあまりしないし
(ただ、ファイル容量なんてどうでもいい昨今なら、両方入れとけだろうし、
それが316リンク先内の/ActualTextだろうから、
俺らがやるべきは、「/ActualTextを出力しないPDF作成アプリはゴミ」と吹聴する事だろうよ)
2025/07/31(木) 22:46:51.26ID:Ztum1zAi
>>368
昔から発生してた、特に字体の多いプロフォント使った印刷用のPDFとか外国語関係とかだと当たり前に起きてた、お前の経験が浅いだけ
単にSJISとかしょっちゅう文字化けするんで、文字化けしても特段話題にならなかっただけ、検索とかコピペ失敗しても単に機種依存文字wって言ってすましてた
unicode が普及したことで環境依存って思わなくなったのと外国の文字が含まれてるフォントを常用するようになって話題になった
2025/07/31(木) 22:58:34.81ID:1FIA24UI
>>369
> 検索とかコピペ失敗しても
それはお前の理解が間違ってて、PDF内では検索失敗しないのがPDFの仕様だ
まあお前みたいなタイプは沢山居るけども
2025/07/31(木) 23:10:14.79ID:1FIA24UI
>>369
もしかして検索はPDFではなくSJISにかかってた?
だとしたら、俺はSJISで「見た目同じだが引っかからない」検索失敗は、一度も経験した事がない
経験不足なのか、SJISにはなくunicodeで発生した問題なのかについては、俺は後者だと考えてる
2025/08/01(金) 01:22:53.13ID:S37h8L9Z
アホ過ぎる「検索失敗しないのがPDFの仕様だ」とか小学生レベル
失敗するのは人間。
見えてる文字で検索したつもりでも内部的には別の文字になってるので検索に引掛からなかったり、その逆で見た目が全然違う文字が検索でひっかかたりする。原因はコピペの失敗と同じ 。
2025/08/01(金) 07:02:06.81ID:7kydH/9J
>>372
グリフが完全に同じ時は同じ文字扱いなのがPDFで、
グリフが完全に同じでも違う文字の時があるのがunicodeだぞ

とはいえ、お前には理解出来ないことは理解したので終わりでいいが
2025/08/01(金) 07:18:07.89ID:ckQfX7Hr
だれかTeXで例えて
2025/08/01(金) 08:03:21.63ID:S37h8L9Z
>>373
SJIS の話してんのに unicode 関係ないだろ
お前は PDF のこと全く分かっってないだろ
PDF はお前が思ってるほど単純なしくみじゃないぞ

CMap って聞いたことあるか? そのあたりから内部構造勉強してみ
/ActualText どころか ToUnicode CMap すらない PDF だって普通にあるんだよ(unicode 以前のフォントが unicode 対応してる訳ないだろ
PDFの内部の文字の記録は unicode ではなくてグリフID というフォント内の格納番号なんだよ、一部の日中韓フォント使った場合は CID というまた別のコードで記載されてることもある
2025/08/01(金) 08:41:40.71ID:wR/jTASQ
>>375
その辺は316のリンク先読んだ程度しか知らないが、
それでも普通にプログラミング経験があれば理解出来る物なんだよ

グリフID->文字コードの変換表は、普通に実装すれば「その文書で最初にそのグリフを使った文字コード」が格納される
だから、「違う文字コードだが同じグリフ」が無い場合、この程度の仕様/実装でも検索もコピペも問題ない
実際、SJISでWindowsデフォのフォントを使ってる限り、問題なかった

ところがunicodeでは、「違う文字コードだが同じグリフ」が普通にあるので、
コピペでは「同じグリフの違う文字コード」に変更(縮退)されてしまう事が多発する
なお、PDF内では「同じグリフは同じ文字コード」に縮退されているので、検索では100%ヒットする

というか、ループしてるしこの辺でいいか?
ここでは知識(知れば済む事)を与える事は出来ても、
理解(考えて納得する事)を与える事は出来ない
いろんな言い方をする事は出来るけども、既にそうしてきてるし、
これで理解出来ないのはお前の知能の問題で、ここで一朝一夕に修正するのは無理だ
お前は知識=頭がいいと考える文系馬鹿に近い存在のようだが、それは間違いだ
知識はちゃんと理解してナンボであってね
プログラミングが多少でも出来る奴なら、上記の俺の説明で、ああ、はいはい程度には理解出来ると思うし
2025/08/01(金) 09:32:26.46ID:S37h8L9Z
お前は一回 PDF 検索を実装してみろ、失敗しない検索が実装できるか分かるぞ
検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか?
2025/08/01(金) 22:01:15.19ID:wR/jTASQ
>>377
> 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか?
お前のプログラミング能力はゼロで、文字列検索では具体的に何をしてるのか全く知らない事は分かった
ただこれはプログラマには常識過ぎるので、316のリンク先やこのスレ内でも、誰もわざわざ言及していない
だからお前は付いてこれないままだ
だが、それ以前に、お前は文字列とは何なのかも知らなそうだが
そもそも>>317もまるで理解できてないだろ

理解したければ、プログラミングのイロハから勉強するんだね
多分お前はPDFのヘビーユーザー、おそらくはイラレ使い、てなところか
お前が文字コードの問題まで理解できることは、短期的にはない。ベースの知識が足り無すぎる
そもそも何故お前がこの板にいるのかがかなり謎だが
PDFに不満があるのなら、「出力はAdobe純正ソフトで、マッピング情報等は全部含めて、ファイルは大きくなってもいいから」と依頼すれば、
お前の不満に対しての最適解にはなってるだろうさ
2025/08/01(金) 23:52:35.21ID:S37h8L9Z
>>378
俺は実際にPDFの検索組んだことあるんだが、お前のその妄想はどっから来たのか知りたい
2025/08/02(土) 07:47:18.20ID:xIFE1Go+
>>379
文盲か?最初の行にわざわざモロクソ書いただろ
> 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか? (>>377)
ここからだよ
普通はたった2行のレスをわざわざ引用するのは冗長すぎるので文句言われるが、
それでもお前にはどちらの行か分かるようにしたほうが良さそうなので敢えて引用した
5chのコミュ障共はこの辺の配慮なんて汲めないから、
ひたすら「俺にとっては冗長だ」という基準で長い長い言うわけだが、
それでも馬鹿なお前に合わせて書いてるんだから、ちゃんと読め

というか、逆に言うと、そんな事を言うお前は、
> 検索文字列がフォント名とグリフIDのセットで降ってくる
場合に、検索出来るようになると思ってるわけだろ
そりゃお前の組んだプログラムなんて動作しないさ

初心者あるあるだが、
・間違った問題を、間違った方法で解決しようとして、余計におかしくなる
ケースに該当する
ただ正直、このレベルから相手にする気にはならんし、勝手によろしくやってくれだが
2025/08/02(土) 07:48:17.42ID:xIFE1Go+
結局の所、>>317はよく書けていて、その通りだが、別の言い方をすると、

PDFの仕様は各文字が別々の字形(=複数の文字コードが同じグリフを使うことがない)
の時に機能するように出来ていた
SJIS時代はだいたいこれが成立してたので、目立った問題はなかった
unicodeだとまるで動かなくなったので、新仕様を整備したが、対応してないPDFアプリは誤動作しまくり

で、これが上位の状況説明で、下位の詳細理由説明が317になってる
上位の説明はお前のような文系馬鹿でも分かるはずだが、下位の説明では、
・元々どのように動作していて、←これ(前提部分)が省略されてる
・〇〇すべき所
・△△になってるから、上手く動かない
の、後半部分しか通常は与えられない。全員が知ってる前提部分なんて無駄でしかないから
だから、前提部分の知識が全く無いお前には理解できない。これがお前が317以降空回りしてる理由

趣旨は異なるけど、例のバッテリー女も、同様の前提条件
・車のエンジンをかける際にバッテリーが必要なこと(=セルモーターを回してエンジンをかけること)
を知らないからそうなるのであって、バッテリー女がクソ女なのは事実としても、
「バッテリーが上がってるとエンジンもかからないんだ。バッテリーなら15分ほどで修理できるから、試してみてくんない?」
と一言言えば回避できるんだが、これをやりたいか、ここまでやる必要があると考えるかは、人それぞれだね
ただ、会話する気があるのなら、相手が馬鹿と分かったのなら、馬鹿にも通じるように言うべきではある
そして俺は一応それをやってるつもりなのだから、ちゃんと読んでくれ
2025/08/02(土) 08:50:01.67ID:jagzAmj3
糞長文書いてる暇があったらプログラム書けよ
そうすればすぐに unicode 関係ない
絶対に失敗しない検索も作れないってわかるぞ
そもそも暗号化されてもいないのに一切検索できないPDFをはくツールすらあるぞ
2025/08/02(土) 09:03:03.63ID:tv/q+z7t
>>382
それも初心者あるあるだな
賢いお前にはこれで十分通じるはず(キリッ
2025/08/02(土) 10:53:41.96ID:jagzAmj3
日本語フォントとかだとグリフID の順がSJISやUnicodeと全く一致してないということを知らずに吹いてるんだろうな(SJIS時代は並び順が一致してたとでも妄想してるのかな?

検索文字列がSJISとかUnicodeで与えられた時にそれをどうやってグリフIDとマッチングされるか具体的な方法も知らないんだろうな

グリフIDと文字コードの対応がPDFに内蔵されてない場合に検索どうするか検討もつかないんだろうな

中には文字をグリフIDですらなくてアウトラインの図形データとして格納してるPDFだってあるということも知らないんだろうな
2025/08/02(土) 11:23:02.89ID:xIFE1Go+
>>384
> 順が
なるほどやはりお前は分かってない

> 検索文字列がSJISとかUnicodeで与えられた時
実はこれには問題がある。だから注つけるかとも考えたが、
> 画面なぞって (>>361)
と既に言及してるし、どのみちunicodeだと手打ちでは無理で、画面なぞるしかない(後述)ので、まあいいかで省略した
賢いお前らなら当然気づくから、いちいち無駄ツッコミはないはずだし

> グリフIDと文字コードの対応がPDFに内蔵されてない場合
それは初(ry

> 中には文字を
それも初(ry


本質的には、unicodeの問題がPDFに輸出されてしまってるんだよ
仮にPDFがhtmlのようにunicode文字コードで構成されてても、正規化の問題は発生するし、
316の例みたいに同じグリフを複数のコードが使用してる場合、「手打ちでの」検索はヒットしないことがあり得る
PDFの仕様だと、「画面なぞれば」100%ヒットするだけまだましで、unicodeはこれすら保証できない
2025/08/02(土) 11:47:17.46ID:jagzAmj3
>>385
結局何も分かってなかったのね?

既存のPDFビュワーの画面をなぞるのはコピペの機能だぞ
一旦グリフIDから文字コードに変換される、そして検索窓等に文字コードとして入力される、コピペが化けるのと同じ問題が起きる

それともお前がSJIS時代にグリフIDのままで検索できるビュワー書いたのか? 本当に過去に存在してたのなら見せてくれ、ごめんなさいして今から書いても良いぞ

作るのなら
フォントごとにグリフIDが異なるんだが、まずは複数のフォントが使われてる時にあるフォントの「あ」の文字を選択したときに、別のフォントの「あ」の文字のグリフIDにどうやったら変換できるか考えてみろ
コードポイントによってはグリフがなくて表示されないやつすらある(単純な例ならスペースとか改行、もっと複雑なのが一杯ある)、
合字とかで複数の文字からなる文字列に1つだけのグリフIDが割り当てられていることもある(レパートリはフォントごとに違う)、
そういう時はどうする考えてみろ、PDFについて無知過ぎ
2025/08/02(土) 12:26:25.37ID:xIFE1Go+
>>386
相変わらず分かってねえな

> コピペが化けるのと同じ問題が起きる
だからいいんだぞ
両方ともPDF内から生成された物だからこそ、確実に一致する

> PDFについて無知過ぎ
PDF博士なお前はマウントポイントなこの点にこだわるようだが、
既に言った通り、本質的にはPDFではなくunicodeの問題だ
実際、unicodeなhtmlでも「見た目同じだけど検索に引っかからない」ケースが普通にあるだろ
コピペに関しては、文字コードを保存してないのが問題で、既に仕様は追加済み、さっさと対応しろだが、
検索に関しては、元々unicodeは検索がまともに出来ない仕様で、それがPDFにも輸出されただけ

例えば、316で3つの「長」が同じグリフIDに紐づけされるのは、
当然その文書のそのフォントでは3つの「長」が同じグリフを使うからであり、見た目が同じだから
同じ文書をhtmlで表示させたら、当然画面上の見た目は同じ「長」になるが、
文字コードが3つのどれかは見た目では分からない
だから「手打ちで」「長」と打ち込んでも、当たらない時がある
これ、PDF全く関係ないだろ
2025/08/02(土) 15:48:00.24ID:MvhBDlJ2
馬鹿はコード書けって言われると発狂するから分かりやすいね
2025/08/02(土) 18:36:31.34ID:jagzAmj3
きっとここがプログラム技術板だってことにすら気付いていないんだろうな
プログラム書けば良いのに
2025/08/02(土) 19:21:29.66ID:dbEqXJf9
ID:xIFE1Go+がニワカ知識だったでOK?
2025/08/04(月) 06:18:28.11ID:QkMIbgCE
さてと

PDFの中を覗いてみたけど、/ActualTextという要素がある(場合がある)のね
Acrobatなどは検索やコピペのときにこれを参照するのかな?
2025/08/04(月) 06:44:34.21ID:wGHus/El
画像に/actualtextや/altが付いているのでたしかめて見ては?
{}内のテキストが入っている

Actual Text
{T}
his is an example of actual text.

Alt Text
{Je t'aime (French for "I love you")}
This image has alt text: Je t'aime (French for "I love you")

https://taggedpdf.com/wp-content/uploads/2015/12/Actual-Alt-Expansion-Text.pdf
2025/08/04(月) 07:42:52.49ID:B+SwrOCa
Actual Text や Alt Text もそうなんだけど最近の PDF には大きな枠組みで「タグ付き PDF」という機能があって文章の構造化ができる

要はHTMLの段落タグや見出しタグと同じやつで読む順番やその文章内での意味付けや読み方や代替の指定が可能、補足を入れる Expansion Text みたいなのも

これによって改行を超えた検索とかリフローっぽいこととか、画像化された文字のテキスト化の指定とかとか色々HTMLっぽく使える

(文字コードとは独立した問題)
2025/08/04(月) 10:06:23.30ID:QkMIbgCE
>>392
なるほどー。ただこれはどちらかというと /Span の使い方のデモ(濫用)って感じも
しかしこれでAcrobatのことが少しわかった感も、どうもです

>>393
> ... 文章の構造化ができる
>(文字コードとは独立した問題)
異なるコードポイントの文字を構造化することもできますね
2025/08/04(月) 12:31:11.59ID:Dprx6XuC
一部訂正
× コピペに関しては、文字コードを保存してないのが問題で、(>>387)
○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、

PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する
316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、
PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題ないPDFが作成される

だから発生条件として、

・糞フォントで、違う文字コードで同じグリフを使いまくり

が必要であり、これを誘発しているのはunicodeの仕様
だからPDFがボロいと言うより、
unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ
(なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、
PDF出力アプリがポンコツなのもほぼ間違いない
376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、
単国籍な文書《≒大半のケース》で顕在化するのは防げる)


結論としては、やっぱunicode糞じゃね?と思うが

以前の文字コード:このコードはこう表示される程度の知識で全く問題ない
unicode:正しい作法(正規化等)を知らないと色々誤動作する
2025/08/04(月) 12:54:11.55ID:B+SwrOCa
>>395
お前、まだあきらめて無かったのか
昔から1対1なんてことはないよ
グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる、逆に同じグリフIDでも異なる文字を表現している
何度も言われただろ、理解できない部分を読み飛ばしてるのか?
2025/08/04(月) 13:40:26.46ID:Dprx6XuC
>>396
いや、やはりお前は理解出来てない
もういいけど
(お前が理解出来ない事は理解しているし、お前の頭の悪さについては諦めている)

> グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる
ここまでは全く問題ないが、
> 逆に同じグリフIDでも異なる文字を表現している
これが問題

「単射」と言った方が正しかったが、
俺は使ってきてなかったのと、後で使ってた「1:1」表現に揃えたのが不適切だったようだ
ただ、事実は変わらない
当たり前だがゴシックの「あ」と明朝の「あ」は別グリフIDになるが、
この場合にも検索/コピペは昔のPDFの仕様で全く問題なく動作する

まあunicodeは色々糞だというのが俺の見解
387の表現だとPDFに主たる問題があるとも読めるので訂正した
(unicode以前は問題なく機能していたので)
2025/08/04(月) 14:31:23.34ID:B+SwrOCa
>>397
明朝体の「あ」のグリフIDが 325 でゴシック体の「ほ」のグリフIDが同じ 325 ということだってあり得るんだよ
明朝体の「あ」とゴシック体の「あ」は検索したいけど、ゴシック体の「ほ」は検索にひっかかると困る。常識だろ
2025/08/04(月) 14:37:31.31ID:D3iy7z0J
>>395
>・糞フォントで、違う文字コードで同じグリフを使いまくり
自分の妄想をベースにAdobeに因縁を付けるのか
最近こういう人が増えている感じで怖い

>以前の文字コード:このコードはこう表示される程度の知識で全く問題ない
ある

前提の認識が間違っているのでそれをベースにした話も間違い
ただの間違いの積み重ね
2025/08/04(月) 15:13:22.04ID:Dprx6XuC
>>398
それは初(ry

あとちなみに、「1:1」の表現は317から使われてるだろ
お前以外の誰も「1:1」表現を気にしてないのは、お前だけが特殊(=非プログラマ)だから
まあ方言っちゃ方言だが、この場合の意味は可逆/非可逆であって、写像形式自体を示しているわけではない



>>399
> 自分の妄想をベースにAdobeに因縁を付けるのか
俺はAdobeは順当で、unicodeがウンコだとずっと言ってる
とはいえ文盲と5chで話をするのは無理なのでもういいが
2025/08/04(月) 15:21:55.26ID:SX/R7tYr
>>392-394
Adobe Acrobatで検索もコピペも出来ない/ActualTextの例
2025/08/04(月) 17:34:36.02ID:B+SwrOCa
>>400
だから 317が1対1じゃないって言ってるだろ
フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術
それが現在までそのまま引き継がれてる
Unicode で始まった話ではない
2025/08/04(月) 21:50:35.58ID:Dprx6XuC
>>402
そういう話じゃねえ
てかお前も本気で文盲だな

317: 1:1でなら動くシステムに多:1をブッ込んでるから動かない

やぞ
ただここまで言っても通じないのだから、本件に対し、お前の知能/知識がまるで足りてないんだよ
普通レベルのプログラマなら317で、ああ、そういう事か、で終わるし
その後、これをどう評価するか(=PDFが糞か、unicodeが糞か)で揉めるならまだしも、
お前は何故そういう動作になるのか未だに理解出来てない
そんなお前が書いたプログラムなんて、何であれ、動くはずもなし

しかしマジで無限ループ状態だから、もう止めようぜ
今のお前が理解するのは無理だよ
2025/08/04(月) 22:38:19.37ID:B+SwrOCa
>>403
文盲って言われても 317 は俺が言ってる通りの意味で、お前の解釈が間違ってるんだが?
2025/08/04(月) 23:12:47.28ID:n6MSUZI0
で、いつ検索プログラム書いてくれるの?
2025/08/05(火) 17:39:03.31ID:vuU/s1Wj
>>401
え? 例えば箇条書きの部分 (Tom Dick Harry)の先頭は
● (<-文字化けするかな? U+25CF)で検索もコピペもできますが?
PDFの中を見てみました?
2025/08/05(火) 17:45:25.95ID:ucdc3IWT
>>406
全部でいくつあるか数えたか?
その他の/ActualText箇所が対応してない
2025/08/05(火) 18:40:04.52ID:vuU/s1Wj
>>407
"T"の所? アクセシビリティをオンにしたらそこを"T"と読むので
これで機能している
多分/Spanとの組み合わせにする必要があるんじゃ?
2025/08/05(火) 18:52:04.83ID:vuU/s1Wj
ところで、この手のPDFって/Encodingが/Identity-Hじゃないですか
もしかして/UniJIS-UTF16-Hとかなら元のコードが反映されるんじゃね? と思って
試してみたが... 駄目ですなーなるほどー
中間コンパイル的な感じでグリフの世界に行っちゃってる感じ?
2025/08/05(火) 19:10:13.54ID:tWkqXVBi
>>408
Thisで検索もコピペも機能してない
2025/08/07(木) 22:53:42.70ID:lZ/0qeLw
というわけで、今のところActualTextが唯一の方法なのかな
本来は構造化とかタグ付け目的なのかもしれんけど、それでグリフとコードポイントの
対応もローカルにカスタマイズできるというか
2025/08/07(木) 23:01:01.28ID:lZ/0qeLw
現状、それを生成できるPDFライブラリとそれを検索できるPDFビューアが限られるけど

ま、コピペするならPDFで出力する前の元の文書からどうぞ、って感じかね
そもそも元の文書の持つ論理構造はPDFにした時点で文書のレンダリング表現(って
言うのかな)に変換されるわけで、何かしら情報が変化しても不思議ではない、
というのが個人的感想ですが
もちろんこうしてアドビさんは頑張っている一方、それを理解していない人々も多々...
2025/08/07(木) 23:05:14.12ID:lZ/0qeLw
そういえば、ネット上で色んなPDFが検索できるけど、中にはActualTextを使わずに
複数コードポイントが混在できているのもあった
それはフォントを切り替えることでグリフが重複していないのだった
PDFの生成主がそれを意図的にやったのかは不明だが
2025/08/17(日) 14:45:32.19ID:2MRCWKC9
康煕部首の「長」と普通の「長」がコピペで混在できる(こともある)PDFを
作ってみましたが、いかがでしょう
https://drive.google.com/file/d/1sqQ6lqQhvfC_zTkL3B4fQ_GV4_376O10/

とりあえずGoogle Driveが立ち上げるPDFビューアではうまくいかない模様w
2025/08/18(月) 08:42:57.19ID:uGdRPz4N
ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね
2025/08/18(月) 09:08:02.65ID:uGdRPz4N
この手のPDFでは、フォントは部分埋め込みなのでCMapも対応する部分だけで
よく、すると一般的な文書の文字範囲では1対1対応にできる(場合が多い)のに
MSの場合はそれでもバグっている、わけね
埋め込みフォントを作る時点ではもうグリフしか見てないということか
2025/08/19(火) 15:11:53.55ID:u9mpg9OM
Windowsのフォントをちょっと調べてみたら、MS明朝とか、「長」のグリフが重複していない
それでPDFを生成してみると... やはりコピペで文字化けしない

と言うわけでWindowsユーザーの皆さん、これからはMSのフォントだけを使う、
と言うのはどうだろうか。游明朝とかのことは忘れて
WindowsのPDF生成ドライバーもそれを望んでいるのかもしれない
2025/08/19(火) 16:58:13.69ID:fPjlHGI2
別にMSじゃなくても伝統的な日本語(JIS系や adobe-japan系)の文字しか入ってないフォントで重複してることなんてめったにないよ
複数の国の文字(中国漢字など)や異なる用途の文字(部首素片など)を同じフォントに収録してる場合にグリフ重複させる場合が多い
最近 google の Noto フォントみたいな多言語対応フォントを使い始めるやつが増えて問題を「再発見」してるだけ
そのせいで unicode のせいだとか言い出すアホが湧いてたわけだが(当然だがフォントには unicode に関係なく任意の文字とマップが登録できる)
2025/08/19(火) 23:57:36.77ID:RalGdNCX
もちろんその通り
unicodeのせいだと主張してる人は根本的にわかっていない
2025/08/20(水) 00:55:18.59ID:hGmntMeI
>>418みたいのって、どこかに書いてあるのでしょうか
それとも純粋に個人的な発想でしょうか
2025/08/20(水) 01:07:20.10ID:gymbsza2
>>420
opentype とか truetype とかもっと古い type1 とかフォントの規格と歴史を勉強しろ
2025/08/20(水) 13:03:56.81ID:NLPMnvCO
>>421
なるほど、そういったものを経て>>418のような知識につながったと。興味深いです
2025/08/20(水) 14:23:04.97ID:bjR6GZEK
>>418
お前が相変わらずアホなだけ
実際、SJIS時代に多言語対応フォントなんて誰も使ってなかったろ
お前は仕様的に出来る/出来ない事と、実際にみんながどう運用してるかの区別が付いてない

仕様が完全でなくても、通常の運用では十分カバー出来てた事を、
無駄に意識高いお前のような馬鹿が「仕様ガー悪いノデー僕は悪くアリマセンー」なノリで不用意に
そこらの意識低いド平民にも問題を強制的に「再発見」させたのはunicodeだろ
しかもunicodeでもグリフを重複させていなければ回避出来た話
(そもそも部首素片と一般の字のグリフが同じなのはただの手抜きな気がするのだが、
一般的に同じグリフにするのが正しいのだろうか?)

その他も含めて見る限り、unicodeは無駄に意識高い馬鹿が作った仕様で、実際の運用には向いてない感じだけど
MSはこの辺昔から泥臭くて、仕様の綺麗さより実際の使い勝手を重視するので、フォントもそうなってるだけ
(まあPDFのコピペ文字化けについては、
お前的にはunicodeではなくフォント『だけの』問題だ、としたいのだろうが、
unicodeがその他諸々糞で、この問題でも誘発源になってるのは事実だろ)
そしてふと考えてみるに、unicodeの利点って、

・文字化けしない

だけで、これ以外は全て以前のSJISの方が良い気がしてきた
勿論これだけで十分な利点だし、SJIS以前の仕様はCPUが非力な時代の産物だから運用向きなのも事実だが
2025/08/20(水) 15:48:16.32ID:EXUVzrtL
絶対負けを認めないマン
2025/08/20(水) 16:40:06.57ID:bjR6GZEK
勝った負けたではなく、俺の認識はこう、ということ
お前がそう思わないのはお前の自由
(というか、何でも勝った負けたになるのは議論出来ない馬鹿の特徴
そもそも「議論」に勝った負けたはない
勝った負けたがあるのは「討論」=決を採る段階で、5chで(というよりネットで)決採る意味はないから、
そもそもネットでのほぼ全部の議論に勝った負けたはない
その辺ひろゆきも大幅に勘違いしてるし、信奉者も同程度
つかね、論破に拘ってる=論破して喜べる=普段なかなか論破出来てない=馬鹿
ということなので、自分で自己紹介しなくても、とは思うのだが)

PDFの仕様が完璧でなかったにせよ、
SJIS時代にMS明朝等使ってた人=一般の人ほぼ全員は遭遇しなかった問題だろ

・MSが上手く回避策を実行してくれてた事を感謝するタイプか、(正確にはMSがではなく、普通に作ったら回避出来るとも思うが)
・俺が何をやるにしても自由だからとにかく仕様が悪いと言い張るタイプかの違いだよ

俺は前者、unicode連中やお前らは後者、ということ
ただ実際、unicodeはもう一度綺麗に作り直さないと駄目な程度に酷い仕様になってきてるよ
しかしこれはunicodeの唯一の利点=文字化けしないを消す事になるから、死んでもやらないのだろうけど
となると、どこまで行けるか?というチキンレースにはなってるよ
2025/08/20(水) 16:44:32.21ID:rn5+zHEj
さんざんマウント取る言い方してきて、勝った負けたの勝負じゃないだとw
クソダサ
2025/08/20(水) 17:25:07.68ID:6T31eh60
>>423
SJISなんてものを褒め称えるとはマイクロソフト信者かね
昔からメールなどネット上ではいわゆるJISコード(ISO-2022-JP)が使われてきてこちらが国際的にも通用する主流でUNIXなどではEUC-JPが標準
もちろん今では国際的にUNICODEで統一され符号化はネット上もファイル保存もUTF8だがマイクロソフトさんは
2025/08/20(水) 18:20:43.93ID:gymbsza2
unicode 出る前からフォントは複数の文字コード対応マップで多言語化されれたことを知らないんだろうな
2025/08/20(水) 19:22:16.58ID:6T31eh60
SJISが世界の全てだった人なんだろうね
2025/08/20(水) 21:05:49.55ID:Qtedysji
>>427
JISがメールで使われてたのは7bit透過だからだぞ
SJIS信者だと思うのは自由だが、PDFのコピペに関しては、今風に言うと現場猫だよ
PDF仕様猫:グリフが重複して使われるフォントなんて普通ないからヨシッ
PDF出力アプリ猫:同上、ヨシッ
google猫:PDF出力アプリが対応してればグリフが重複してもヨシッ
unicode猫:同じ字(でもないが)に複数の文字コードを割り当てても、アプリかフォントが対応してればヨシッ

MS:普通、部首素片と通常文字は別グリフだろ、これで何も問題なくなるし
フォントがどうであれ、アプリ側で対応出来るのは事実なので、アプリが一番悪い
次に悪いのはフォントで、手抜きでなければ部首素片と通常文字は別グリフになるように思う
ただしそもそものunicodeの思想が間違ってて、そもそも統合漢字としてるCJKの通常文字、
日本人と台湾人と中国人の美的感覚は異なるだろうから、同一グリフで何とかなると考えてる所に無理がある
ただ、欧米も同様にアルファベットの美的感覚が微妙には異なるはずなので、連中が問題ないからCJKも問題ないと思ったのかな、とは思う
(ここらへんは文化の結合度によるが、欧米ほど人が交流してれば美的感覚もそれなりに共有されてるのかもしれん)

というか、具体的に言うと「骨」(0x9aa8)や「曜」(0x66dc)、これらは美的感覚ではなくモロに別形だが
CJK統合漢字という根本的なとこから間違ってるよねと
というかこれらが別コードとして登録されなかった理由は何なんだ?今更異体字ダーとかやってるのに
2025/08/20(水) 21:08:26.58ID:Qtedysji
ん?2行連続空行は削除されるようになったのか?
まあちと読みにくくなってるが、よろしく
2025/08/21(木) 02:20:32.36ID:X0ZtFPzr
一つ一つの技術を正しく理解していないから、文字通り「個人の感想ですよね」という
まあ5ちゃんだし、酒飲み話みたいのもアリだとは思うけど
正しい知識が元になっていればそれは役に立つ話にもなる
一方読む方は間違いを間違いと見抜く力が.... って決してひろゆき信者ではないw
2025/08/21(木) 02:56:06.57ID:D3EzSAOJ
私も世界にSJISさえアレば良かった人間です(過去形)。欲しい文字は外字にドット打ってました。
ROMに第2水準程度しか乗っていない8ビットや16ビット世代のマシンでUTF8を構築するのって、現実的に可能なのかしら。
興味本位の疑問だけど。
2025/08/21(木) 04:47:17.94ID:HC849JP7
交換用符号としての扱いは楽だけど
ROMのコードがJISだから変換マップをオンメモリにするのは厳しそう
索引付きでないと性能でないと思うから
これもROMで持てるならあり
もちろん幅や方向、合字なんかは扱えない
2025/08/21(木) 05:18:08.01ID:mNeC3fTJ
>>433
そこはSJISとUTF8といった符号化方式の比較でなくてJIS漢字コードとユニコードの比較で十分
漢字ROMのデータ収録順序はJIS漢字コードの機械的変換できる範囲内だろうから
ユニコードからJIS漢字コードへのマッピング
2025/08/21(木) 05:33:29.34ID:lFCpHxq7
いわゆる半角カタカナ等(JIS X 0201)と全角漢字等(JIS X 0208)のほとんどは規則的変換できるようにユニコード内に収容されている
例外は一部の記号や文字のみ
したがって漢字ROM読み出しもほとんどは規則的変換できて例外のみ対応で実用的かな
2025/08/21(木) 06:14:19.45ID:BA9KDvPD
漢字は厳しいだろ
偶然だが半角の途中まではEF BDを前置するとUTF8
 A1 。 EF BD A1

 AF ッ EF BD AF
 B0 ー EF BD B0
 B1 ア EF BD B1
 B2 イ EF BD B2
 B3 ウ EF BD B3
 B4 エ EF BD B4
 B5 オ EF BD B5

 BF ソ EF BD BF
2025/08/21(木) 08:42:01.26ID:YIWSP+jR
>>436
JIS/SJIS/EUC: https://manuals.ricoh.com/mfp/p_manual/MPC6004JPN/ja/intro/int/r_cjr041.htm
unicode: https://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/cjku_klist.html
さすがゆとりZ、無敵すぎ
2025/08/21(木) 09:07:08.19ID:4FAr+8B9
>>436
昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した
お前、そのAIだったりしないか?
2025/08/21(木) 16:15:00.95ID:jm5fSTrV
>>438
>JIS/SJIS/EUC: https://manuals.ricoh.com/mfp/p_manual/MPC6004JPN/ja/intro/int/r_cjr041.htm

区点コードで文字入力とはシブい。しかし字形が2004じゃないのは果たして
マニュアルだけの話でプリントで使うフォントとかは別なのかな。にしても
2025/08/21(木) 21:08:42.64ID:YIWSP+jR
>>440
何が言いたいのか分からんが、こちらの意図を明確にしておくと、
ただ単に「JIS 漢字表」でググって並び順が見やすいのを選んだだけ
コードなら以下が見やすいかと
http://www.infonet.co.jp/ueyama/ip/binary/x0208txt.html

JIS等は漢字もあいうえお順(ricohのサイトはまんまアイウエオで見やすい)
てかunicodeって何順?
2025/08/22(金) 21:59:54.85ID:SVHvHw/K
https://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/cjku_radical.html
>UnicodeのCJK統合漢字は、概ね部首順(部首内は画数順)に並んでいます
2025/08/23(土) 02:24:50.51ID:/wnxORck
しかしこれらの部首って、例のUnicodeの漢字部首のコードポイントに頼らなくても
出せるのね。元々各国の文字コードに部首のコードがあってそれがUnicodeに
引き継がれているようで

JISでも第二水準にちょいちょい部首が入っている。冫(にすい)とか
だがしかし「さんずい」や「しんにょう」などは第二水準にはない
これって何故でしたっけ。まさか さんずい=水に「包摂」とか? ???
2025/08/23(土) 06:47:36.46ID:0WleoknD
>>443
氵も 辶 もJISにあるだろ (JIIS補助漢字または第4水準だが、包摂ではない)
もちろん Unicode も部首素片以外に漢字側にも登録がある
冫だけ第2水準なのは教科書とかで使用例があったから(うろ覚え)
2025/08/23(土) 07:30:15.06ID:0WleoknD
大元の理由が知りたいというい意味ならこの辺は漢字の歴史に由来していて
「冫」は甲骨の時代から独立した漢字で「氷」は字源的には「冫+水」の「冰」の略字
「氵」は「水」が部首になった時の省略形で昔の漢字では2つは全く同じ字形

unicode でも「冫」は漢字としてのみ登録されていて、部首素片(CJK Radical)には無かったはず
2025/08/23(土) 08:40:59.48ID:baE/iOEd
>>444
「第二水準内で」(第四水準がなかった時代に)という意味です
第四がある現在では包摂の適用が変わりましたので

>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E)

どうやら康熙部首がメインでCJK部首が補助のようですが、件の「長」は何故か両方に

と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
そんなんわかるかあw
2025/08/23(土) 08:52:37.93ID:wdSAuDDp
>>444
「第二水準内で」(第四水準がなかった時代に)という意味です
第三以降では包摂の適用が変わったので、同列には語れません

>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E)

どうやら康熙部首がメインでCJK部首にはそのバリエーションが
なのに「長」は何故か両方に同じものが入っている??

と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
そんなんわかるかあw
2025/08/23(土) 08:56:22.55ID:yzoynflT
失礼、投稿が失敗したと思いダブリました(&少し書き直した)
2025/08/23(土) 09:10:23.66ID:0dLwdQt1
>>446
> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
ならばgoogle猫が手抜きで糞フォントを作ったのがPDFコピペ文字化けの元凶だな
日本人の美的感覚では、(この辺は習字を見れば分かりやすい)
「長」の縦棒は、上よりも下のほうが少し左側(下のほうが広く見える)が美しいとされるので、
真面目にフォントを作れば同じグリフになることはない
2025/08/23(土) 12:38:53.36ID:0WleoknD
>>447
そういう意味なら「康熙部首」はもともと部品じゃなくて普通に使われる漢字なのでJIS的には漢字として登録されるのは問題ない
(康煕部首を漢字以外に登録しているunicode が変というかローマ数字の ⅰ がアルファベットの i と別にあるみたいな変さ)

「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな
国語の教科書とかでも康煕準拠で「冫の部」とういう表記は使われるけど「氵の部」という部首は存在してなくて「水の部」と書かれてる

第3、第4水準の包摂基準は原則として第1、第2の基準を援用してるので第2水準で包摂されていたら第4水準に追加できないので、逆説的に第4水準に追加されたことは包摂されていなかった解釈になる(補助漢字はかなりあやしい
2025/08/23(土) 12:45:02.17ID:0WleoknD
>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい
2025/08/23(土) 14:58:11.95ID:/wnxORck
あ、すみません

> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話

ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首(補助)に登場するのは事実ですが
2025/08/23(土) 15:25:52.11ID:0WleoknD
>>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形
2025/08/23(土) 15:38:45.17ID:/wnxORck
>>450
> 「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな

なるほど、そんな感じですかね
2025/08/23(土) 15:54:04.18ID:/wnxORck
>>453
基底クラスに派生クラスが3つ、みたいな感じですかね

部首周りは思ったより複雑ですなw
2025/08/25(月) 08:21:51.64ID:y+b0tsbW
今回の話はほぼ部首由来だけど、そうでないのも少しありそう

U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」

ここらへんの文字がちゃんと扱えるのかのテストでもある
2025/08/25(月) 08:51:42.49ID:y+b0tsbW
ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか

まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある
2025/08/25(月) 08:56:46.72ID:4e0IOAiN
そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる(IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる
2025/08/25(月) 15:28:01.56ID:WuqY0NEW
>>456
Unicodeは各国にある規格を取り込む、というのはまあまあやっていて
U+6AF8は台湾で使われる字、U+237F1は日本などで用例のある字、
で本来グリフにも差があるらしい
2025/08/25(月) 18:00:18.28ID:4e0IOAiN
>>459
U+6B05 は旁の下部が手なのでおいておいて

もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる

IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる
2025/08/26(火) 15:23:22.74ID:yhOjjAzx
>>460
例えば
>IVS なんか知るか
U+237F1が入ったのはIVSより前じゃね?
2025/08/26(火) 17:54:44.18ID:Bsu3S+Ad
>>461
ちょうど同じ時期に並行して議論されてたんだよ
正式な規格書にコード位置が載ったのは Ext-B の方が少しだけ早かったかも
2025/09/10(水) 21:44:22.92ID:UOM2W4Ny
Unicode 17.0 Release Announcement
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース 〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html
2025/09/10(水) 22:23:52.97ID:I5buXTbc
>>463
漢字10万字突破とか笑える事態は置いとくとして
誰だ? ウサ耳の絵文字とか登録したやつは
2025/09/10(水) 23:25:55.02ID:qn6dqRwx
https://asset.watch.impress.co.jp/img/wf/docs/2046/141/image3_l.png
2025/09/11(木) 14:48:21.23ID:/BCensIn
>>464
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw

絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった
2025/09/11(木) 15:09:06.69ID:UUDIZIcP
>>466
ああ、なるほど
「うさ耳」固有の絵文字が追加されたわけではなくて
今まであった「バニーガール」の絵文字を合成で使うと「うさ耳」の追加として処理するルールが追加されたのか
2025/09/15(月) 20:12:18.82ID:oqgL1+ac
>>464
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?
2025/09/16(火) 03:15:46.45ID:HhaKFttb
>>468
手元に「汉字海」の2018年版があるけど、10万2千字超えてるよ
音未詳、義未詳、同〇〇、みたいな漢字が多数掲載
2025/09/17(水) 13:27:21.24ID:JKPLurCd
>>469
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね

ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ
2025/11/07(金) 08:24:41.35ID:Su4lsdFM
macOS 26 Tahoeアップグレード後に、正規化形式(NFD/NFC)の不具合により日本語環境でNASに接続されたTime Machineバックアップが行えない問題はmacOS 26.1でも修正されていないので注意を。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html

Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。
2025/11/10(月) 05:32:30.23ID:CxzRdolU
>>471
macOSの正規化の問題はもはや定期
2025/11/18(火) 16:46:15.76ID:MyYbum19
なんかMac上のAdobeのアプリが動かなくなってるらしいけどけどパス関連
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある
2025/11/19(水) 19:08:44.33ID:ZdmqM0ve
>>473
原因はまだ公表されていないが症状的にそういうOS寄りの話じゃなさそう
adobe がオンライン経由でライセンスの強制取り消しか何かの仕組みをいれようとしてバグったとかそんな感じのやつ
2025/11/27(木) 22:04:02.60ID:GJJrzAsD
AIにテキストが読み取られるのを防ぐために目に見えないUnicode文字を挿入する「Gibberifier」
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/

文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。

Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です
2025/11/27(木) 22:14:49.16ID:iCPj88WE
HTMLや画像でも文章認識できるのは前処理してるからで
こんなもん瞬で対策されておわりでしょ
2025/12/10(水) 11:51:06.42ID:yiGhfSNm
皆さんUTF-8 code pageでのテストしましょう

Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234
2025/12/10(水) 12:14:52.51ID:bincyYU2
Windows で BOM 付き UTF-8 使った時にバグるのか。
ちゃんと実装できないんなら滅んでしまえ
2025/12/10(水) 21:28:59.81ID:iFFXWT3a
NPP v8.8.6 32bitでは再現出来なかった
2025/12/11(木) 00:51:43.45ID:Y1AYgkFO
>>479
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど
2025/12/11(木) 04:34:26.04ID:m6irsJON
そういえば少し前ベンダーから送られてくるログがやたら文字化けしていて
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ
2025/12/11(木) 06:20:41.73ID:Dn+T9u5Z
ちゃんと見て原因を特定しないお前のような奴がいる限り無理だろ
2025/12/13(土) 06:14:20.73ID:HDRAHpzv
>>482
自分がメンテしているソフトウェアで文字化けが発生しているのではなく
ベンダーがログのデータの扱い中になんかやらかしている
ログのデータをそのまんま送るだけでいいのに余計なことすんなと
そんなものに付き合ってるほど暇じゃない
2025/12/13(土) 14:45:54.42ID:ZLcC3CPk
最近のネット関係の実装とか脆弱性の問題をおいかけてると
セキュリティリスクになるので
・通信にはUTF8以外は使うな
・BOMは拒否しろ(付けるな認識するな)
という方向に収束していきそうだな
2025/12/13(土) 15:00:06.21ID:klNuhF9X
バイナリやASCIIに回帰するならわかる
Unicodeは太っちょだし実装がまだ枯れていない
2025/12/13(土) 17:36:17.84ID:4WR0tL0m
英数字だけならSJIS,UTF-8,ASCIIは同じなのでいいよね
改行コードの問題はあるけど。
2025/12/13(土) 23:27:14.26ID:ZLcC3CPk
>>485
つい最近も致命的なやつが見つかって大騒ぎ

unicode の使い方を今更統一するのは無理
文字コード変換とかあると重大的なセキュリティホールになる
UTF-8限定で他の文字コードを一切許さなければバイナリ扱いでリスクは低い
ASCIIはUTF-8の完全なサブセットなのでUTF-8扱いしても問題ない

ということらしい。
2025/12/13(土) 23:30:44.14ID:ZLcC3CPk
>>486
SJIS さんはバックスラッシュと円記号問題があるので駄目です。仲間には入れてもらえません。
489デフォルトの名無しさん
垢版 |
2025/12/15(月) 16:21:56.43ID:q39XxMth
>>488
Macでも使ってんのかw
2025/12/17(水) 20:05:34.96ID:5yyf9jUg
>>489
>>488 の言うのは、Shift-JIS の 1 バイト文字部分の規格は JIS X0201 であって、ASCII と完全に同一ではない、ということでしょ
それに対して Unicode や EUC-JP の 1 バイト部分は ASCII そのもの
まぁ MS の CP932 なんかはかなりアバウトなんだけど
2025/12/17(水) 20:54:58.87ID:FoDZn9HZ
>>490
かなりアバウトwww

MS CP932 0x5C
フォントで表示すると円記号なんだけど、心の目で見るとバックスラッシュな文字
どう見ても円記号だし昔から円記号として使われていて、なんならマイクロソフトの技術マニュアルにもそう書いてあったのに、ユニコード導入する時のどさくさでバックスラッシュだったと過去改変し半角円記号なんか存在しなかったことになった文字
今でも日本語Windowsのフォントだと円記号表示されたりするけど規格上はバックスラッシュなんで見た目に騙されてはいけない
無茶言うな!!
2025/12/17(水) 22:12:32.32ID:KyfRvLxq
ANKは大昔ISOに沿って名前と書体が変わった
二重に名前が付いてるだけで交換用符号としては困らない
極東がバックスラッシュ置き換えたのは事故なのでしょうがない
DOSのパス区切りとSJISはメタ文字利用されだした後だからただのアホ
2025/12/18(木) 01:39:33.82ID:Ft64z0Ig
まぁ ANK しか使えなかった時代には、円マークはそれなりに利用価値があったはずで
一方で DOS や Win のプログラミングでは、当時からそれをバックスラッシュと空目しながらコードを書いてたわけで
資産継承を考えると MS のやり方を一概には責められない、とは思うけどね
2025/12/18(木) 10:15:45.78ID:L3RpI/xq
>>493
資産継承とかいっても未だに解決してないのが問題
Windows ユーザが 0x5C 送ってきても円記号を送りたかったのか文字通りバックスラッシュなのか受け取った側では判別できない
問題を先送りしただけで被害(駄目な資産)が再生産されてる
2025/12/18(木) 15:49:32.31ID:l3jSErOm
レシートの円マークは頑張って表示しているんだろうな、と思いました。
直DBに繋がっているシステムは、バックスラッシュで使う要件も多いはずなのに。
2025/12/18(木) 19:40:56.03ID:3NC67zwu
いろいろな作り方があるけどビューだけは分離して考えて
2025/12/18(木) 21:46:10.30ID:Ft64z0Ig
>>494
そのとおりなので特にコメントはないw

いや今回は擁護するようなこと書いたけど、MS の肩を持つつもりは毛頭ないので
むしろ敵だと思ってこれまで戦ってきたけど、力及ばすというところ
2025/12/19(金) 21:46:54.73ID:MjUit4Yv
>>492
真説 Windowsでディレクトリ区切りのスラッシュ / がバックスラッシュ ⧵ で円マーク \ な理由
https://qiita.com/ko1nksm/items/4ae0a784a612f23aa412
2025/12/19(金) 22:58:08.40ID:U+0mNs/J
>>498
どうでもいいけどケン・トンプソンが Unix を作ったのは自作ゲームで遊ぶため、という話はウソだったのかな
2025/12/20(土) 01:42:46.43ID:7FtjVRgJ
>>498
よく調べてるけど本質を理解してないので論旨がゴミになってるな
「バックスラッシュを使いたければフォントを変えればすむ」
とか言ってるやつの長文読む価値はない
2025/12/20(土) 01:54:11.10ID:dg21oAwn
どこがへん?
日本語環境以外にするのは本末転倒だしスマートな解決やん
反論にしては中身スッカスカだし愉快犯なんだろうけど
2025/12/20(土) 08:12:39.40ID:P2TgMpyi
俺は>>498はよく書けてると思ったけど。
大半は知らない事だが、俺が知ってる範囲の事は合ってるし。
実際、バックスラッシュのフォントが\であれ、見た目以外に問題になったことないし。
(ただ俺は基本的に枯れてることしかやらない、つまりファイル名の日本語化は《特にCLI環境では》避ける人間だがな。
ちな、Mintでも ダウンロード や デスクトップ という日本語フォルダが自動的に出来てウザい《打つのが手間すぎて使いづらい》)

ゆうて0x5cが被ったところで、前から正しくSJIS判定してれば普通に使えるだろ。
utf8のようにASCII/null終端前提のCコードにブっこんでもそれなりに動く、という程イージーではないだけで。
2025/12/20(土) 10:25:41.79ID:IOYr4f7F
漏れのconsole(win11のcmd)は
日本語キーボードで「\」キーを押すと
「\(半角のバックスラッシュね)」が出るけど何にも困らん
chcpは932でも65001でも同じ結果
2025/12/20(土) 11:14:30.11ID:7FtjVRgJ
肝心なのは文字コードは情報交換用符号ということ。送った方と受け取った方で意味が一致していないといけない。そのために共通規格がある
自分の中で閉じ籠もっていれば俺俺コードとかでも問題ないけど他者と情報交換したいなら規格を合わせないといけない
Microsoft はそこがちゃんとわかってなかった

一番問題で指摘すべきなのは Microsoft CP932 (独自規格)から Unicode (共通規格)への変換テーブルを定めた時に円記号をバックスラッシュにマップしたとこ
独自規格では何やろうと勝手で MS はそれまでも独自実装で規格を勝手に改変して独自のものを作ることが多かった。当時の Windows にはTCP/IPとかも実装してなく他者と情報交換するのが限定的だったので俺俺でも良かった。シェアも圧倒的だったので俺俺実装を押し付けてくることが多かった

今はちゃんと規格を守る優良企業に変化した (そのために IE とか捨てるはめになった) けど過去が足を引っ張っているのはこの点。他の長々は蛇足。技術調査としては面白いが文字コード (情報交換) の視点が欠けてる

要はネットワーク時代を予想できない時代遅れの自閉症思想で問題を場当たり的に対応しようとしたつけが残っている状態。多分今では後悔してるだろう
2025/12/20(土) 11:58:14.83ID:UlyMPQgb
現実解としてはMSのやり方が正解
506502
垢版 |
2025/12/20(土) 12:41:05.42ID:P2TgMpyi
うむ、自分の投稿が化けてる(投稿時と違う)のに気づいた。
こういうところは不便、というか仕様バグレベルだな。
見た目、送信時に差し替えられてるようだが、以下テスト。
(502は化けないようにわざわざ全角円記号にしたのだが、半角バックスラッシュになっている)

半角バックスラッシュ: \
全角バックスラッシュ: \
全角円記号: ¥
2025/12/20(土) 12:42:50.59ID:P2TgMpyi
んん?俺の勘違いか?だったらすまん
2025/12/20(土) 12:56:08.36ID:cMgVKkcy
MSはファイルに使える文字も見せ方も頑張ってはる
2025/12/20(土) 13:03:13.01ID:P2TgMpyi
>>504
> 変換テーブルを定めた時に円記号をバックスラッシュにマップしたとこ
これは正しい。0x5cはバックスラッシュで、フォントが円記号なだけだから。
プログラミング的には、モデル(意味)はバックスラッシュで、ビュー(見た目)が円記号なだけだから。

つまり同音異義語のようなもので、同じコードを複数の意味で使っていたのだからどうやっても問題になる。
どちらかに揃えるなら、当然バックスラッシュだ。
使用状況からどちらとして使っているかは(人間には)容易に推測できるから、自動判定頑張れはあるかもだが、
今ならまだしも、80〜90年代では無理だ。

現実的に、バックスラッシュを円記号に「見た目だけ」差し替えてもあまり問題なかったから今がある。
和文でバックスラッシュを使うことはないし、困るのは精々プログラマだけというのも事実だ。
(この点からすると、0x5cをどちらにするかは手動で切り替えるべきだったのかも?
まあs/\\/¥/すりゃいいだけではあるが)
2025/12/20(土) 15:03:29.90ID:7FtjVRgJ
>>509
文字コードに「同音多義語」wwwとかあってはいけない。 MSのCP932は独自規格なので知らんが Unicode に同音多義語などない
Unicode の 0x5C を円記号で表示するのは明確な規格違反。その規格違反を許し続けている以上問題は解決しない
2025/12/20(土) 15:43:38.07ID:C/AMyXiU
特定フォントのグリフの問題であって、ここで話すことではない
2025/12/20(土) 17:17:31.62ID:hzKP9w72
>>511
いや、だからそれは規格上は間違いなんすよ

Shift_JIS の 1 バイト部分は JIS X0201 なので、そこでは 0x5C は円マークであってバックスラッシュではない
Unicode の 1 バイト部分は ASCII なので、0x5C はバックスラッシュであって円マークではない

それをグリフの問題として片づけるのは実利上の「解釈」に過ぎなくて、規格として明文化されたことは一度もない

でも規格通りに変換してマッピングを変えると、大抵のプログラムはちゃんと動かなくなるので、プログラマには (私も含めて) 受け入れ難い
なので、なぁなぁで済ませるw

ということですよ
2025/12/20(土) 18:11:46.05ID:P2TgMpyi
>>510
> Unicode に同音多義語などない
そうなのだろうが、実際に使う人間は同音異義語に慣れているので無理だ。
具体的には、単字AA、例えば w (単芝) は明確な同形異義文字として使われてる。
Unicode警察的には、新たに登録された芝の絵文字を使うべきなのだろうが、誰もそんなことはしない。
(ググっても🌱🌿🍀🍃しか出てこないが、ここ数年のうちに登録されたものがあったはず。
しかし出てこないところを見ると、俺がLINEスタンプと勘違いしているか?)
2025/12/20(土) 18:23:22.98ID:7FtjVRgJ
>>513
w はラテン文字の w であって他の文字ではない
文字コードは文字の解釈ではなく「文字」を規定している
「文字」であって「語」ではないし「義」を定義していないので多義語とか異義語とかありえない
unicode ではバックスラッシュの文字は 0x5C 、円記号の文字は 0xA5 で表現されなければならない。逆は認められない
2025/12/20(土) 18:27:18.42ID:P2TgMpyi
>>512
解決するには、0x5cをどちらの意味で使ってるか明確に意識し、別のコードとして使い分ける、しか無いだろ。
なら、今は移行期間で、Windows13からは0x5cはバックスラッシュであり円記号ではないので、それまでに書き直せ、程度の解釈でも問題ないのでは。

だから問題なのは現実の運用で、

A: 0x5c→¥で困るのはプログラマだけなのだから、こうした上で、プログラマはフォントで誤魔化すなり、s/\/\\/しろで済ます。
B: 0x5c→バックスラッシュとして、¥の意味で0x5c使ってる場合は積極的な書き換えを促す。最低限、新規で使うのは禁止。

のどちらかであるべきなのに、

現実(Bモドキ): 0x5c→バックスラッシュの癖に、新規で0x5cを¥の意味で使うことすら禁止してない。

から筆者も問題視してるんだろ。ただ実際はAの方が良かったように思えるし、筆者も、504も、多分お前もそう思ってるんだろ。
プログラミング理論的にはBだからBモドキになってしまってるが。
2025/12/20(土) 18:59:02.34ID:7FtjVRgJ
>>515
unicode の 0x5C は元からバックスラッシュで円記号だったことなど一度もないよ
それなのに unicode の 0x5C を円記号で表示するフォントを準備して積極的に誤魔化してるのが今の日本語Windowsの状態
導入当初から変なのであって途中の移行で変になったわけではないよ
2025/12/20(土) 19:45:20.19ID:P2TgMpyi
>>516
それはお前が間違っている。(或いは勘違いしている)

Windowsはunicodeを使用する(準拠する)のが目的ではなく、
従来Windowsと互換を維持しつつ、最大限時代に合わせる=なるべくunicode準拠にする、のが命題だからだ。
だから、互換性が崩れるところはSJIS/CP932を優先するし、unicodeの仕様は無視されて同然。
これは非常に現実的で妥当で真っ当な判断だ。

一言で言えば、WindowsはUnicode警察用のOSではない。
そんなにunicode完全準拠が欲しければ、Windowsを止めて、完全準拠の別OSを使えばいいだけ。
(あるのかどうか知らんが)
2025/12/20(土) 20:06:56.48ID:P2TgMpyi
>>514
> 文字コードは文字の解釈ではなく「文字」を規定している
そうだとして、これだとunicode内に矛盾を生じる。
つまりは正規化の問題だが、

が (0x304c) と
が (0x304b,0x3099)

は(人間にとっては)同じ文字だが異なる文字コード(=unicodeでは別文字扱い)になってるだろ。
だから正規化の問題はあちこちで発生しまくってるわけだけども。
これは仕様がKISS/驚き最小の原則に反してるからバグの温床になってるのもあるが。

そもそも人間が使っている文字は表音文字(アルファベットや平仮名)か表意文字(漢字)であって、
音も意味も無関係なただの文字(unicode、或いはQRコードのようなビットパターン)ではない。
だから完全分離して綺麗にマッピングしようとしてもかなり無理があって、実際ろくでもないことになってる。
(勿論これでも頑張った方なのは認めるけども)
2025/12/21(日) 00:53:34.65ID:ejirtTFD
>>517
>>518
お前は規格が分かっていない
規格というのは任意に一部だけ無視することはできない
選択肢がある場合には規格自身に選択をして良いと記述されてなければならない
unicode 規格には U+005C を円記号に使って良いという記述はない
互換文字とか変種とか規格に書かれてば規格が許可する範囲で使って良い
520デフォルトの名無しさん
垢版 |
2025/12/21(日) 01:55:13.85ID:vNvYYl2J
ほら
愉快犯だった
2025/12/21(日) 07:20:46.63ID:lVq9YRvq
>>519
でマイクロソフトは円記号問題どうすべきだったわけ?
経済合理性無視した幼稚な意見は控えてくれ
2025/12/21(日) 07:55:00.80ID:ZjUZxB21
>>519
「規格」の認識はその通りだとして、
繰り返すが、その部分は互換性の為に規格を無視する判断だろ。これに何の不満が?
規格警察ならお前が100%unicode準拠の何かを作ればいい。だけど出来ないと思うぞ。

お前は、規格=絶対大正義だと勘違いしてる。
規格ってのは、基本的には揃えて無駄な手間を無くす為の方策であり、絶対遵守のギアスではない。
勿論人が定めるものだから、特に政治的指向がある場合、それ自体に間違いが含まれる事も多い。
unicodeなんて、人の絵文字で肌色48種類みたいな、ポリコレまみれになってるだろ。

まあこれはさておき、unicodeは技術的にも間違い(というか矛盾)を作り込んでる。
unicode、というより計算機用の文字コードは、読みや意味よりも見た目(グリフ)との結びつきが強い、
というお前の説(>>514)は一理あるし、実際そうあるべきかもしれない。
ただ、unicodeはK(0x4b)とK(0x212a)を分離してるだろ。
これらは見た目が完全に同じで、意味で分離してる。
(この辺に矛盾が発生し、実装で大幅に手間となるので、100%準拠の実装をする奴が居なくなる)

物理学の単位は人の頭文字から取られているので、自動的にアルファベットになる。
unicode以前のK(ケルビン)は、別文字が用意されていなかった事もあって、全て(アルファベットの)Kが使われていたはず。
当然、全てのグリフは同一だった。
(実際は斉の類と同じで、本来は微妙に違うのだが我慢して使ってただけかもしれんが、知らん)

ただし、計算機用の文字コードをグリフではなく意味で分離し、使い分けをさせる事自体は(計算機的には)正しい。
置換や検索等の計算機上の操作には(本来は)有利だし、その後、同じグリフを与えて同一の見た目にする事も簡単だからだ。
分離してない物を適切に分離させる方が段違いで難しいので、あらかじめ人力で分離しておけ、というのは(今は)正しい。
2025/12/21(日) 07:55:23.64ID:ZjUZxB21
ただ、K(ケルビン)を検索する為には、今後とも、殆どの人がK(アルファベット)を使うに決まっている。
だから今後とも、K(ケルビン)とK(アルファベット)を(少なくとも検索時は)同一視する必要があり、
この辺で技術的負債がかなり発生する。
(仮に、あらゆる文書でK(ケルビン)とK(アルファベット)が完全に間違いなく分離された時代の後でも、
K(ケルビン)は利便性の為にK(アルファベット)で検索され続けるはず)
これ以外にも、unicodeはこの手の話が多い。
勿論、現存する文字情報を全てデジタル化する為に、あらゆる文字を少なくとも表示できることが必要であり、
これに向かって邁進した結果、色々矛盾を抱え込む状況になってるのは仕方ないにしても、
規格として、これを最優先、という方針がなく、あやふやな印象なので、無駄に矛盾が発生しまくってるように見える。
だから、unicode=正しい、とは、俺には全く思えない。

この点、MSの「互換性重視以外にはないだろ馬鹿タレ」は分かりやすくていい。
使用者にとって、挙動を100%予測/納得できることが最重要だからだ。

unicodeの正規化問題なんて、初めて知ったときには、かなり驚いた。
本来規格/仕様上にあんな問題が存在する事自体が間違いで、
NF(K)C/Dのどれでもいいが、本来は、入力時に正規化してしまって、
unicode文字列として存在するのは正規化後の文字列だけ、という規格/仕様にしてないといけない。
これをしなかった/出来なかった正当な理由なんてない気がするがね。
この辺がunicodeは規格側の体制/方針が間違ってる、というかあやふやなままだ。
だからろくでもない規格になりつつある。
(寄り合い所帯の限界ではあるのだろうけども)
2025/12/21(日) 09:23:22.82ID:ejirtTFD
>>523
unicode が正しいかどうかという問題と unicode 規格に適格というのは別問題

unicode が間違ってるなら unicode を採用しないか unicode 規格を改定すれば良い
それをせずに unicode だと言い張りながら unicode ではない独自変種を他者に送りつけてくるのが間違い
2025/12/21(日) 10:33:38.74ID:ZjUZxB21
>>524
unicode警察くんは結局の所、
windowsで作成した書類をunicode準拠です、として送りつけられることが嫌で嫌でたまらないのか?
ならお前は無駄にハゲるし早死するだろう。
こんなしょうもない所でいちいち腹を立てても意味ない。ただそれでもお前の自由ではあるがな。

0x5cの問題なんて人間が見れば分かる程度のものでしか無い。
お前が今後共unicode意識高いのはお前の自由だが、
日本語の書類の大半が今後共Windows上で作成されることも、
お前以外の大半がWindowsの仕様で何の苦労もしないことも変わらない。

そんなことより正規化のほうが大問題であって、
放置しておけばバラけて問題になるが、どれかに決めておけば問題が無くなる、まさにこういう事の為に規格/仕様は存在するのだから、
決めきれてないのは存在価値を自ら放棄してるのと同じ。
馬鹿じゃねーの(AA略
と本当に思うよ。
(とは言え、世界中の言語をカバーしようとしても、現実的に全言語を詳しく知っている人は居ないので、
まあそうなるだろうな、程度にグダグダになってるだけではあるが。
これは風呂敷の広げすぎ=目標仕様が壮大すぎて現実離れしてただけであって、unicodeの次に期待するしか無い)
2025/12/21(日) 11:44:27.73ID:ejirtTFD
Windows でしかものが見れない時代遅れの Windows 中心主義者の言いそうなことだな
Windows の問題は Windows の中に閉じ込めとけ、輸出してよそに迷惑かけるな

Windows からスマフォに送ったら文字化けしましたって毎回問い合わせされるスマフォアプリ開発者やサーバー技術者の身になって考えろ、そしてアプリ側では一切対策が存在しないんだぞ(あきらめろ、文句あったらマイクロソフトかwindowsソフトの開発者に言えって回答してしかられるだけ)

今の時代はスマフォもサーバーも Windows 以外で Windows は少数派なんだよ自重しろ
パス区切りとかプログラムすら分かってない素人がコンピュータ使う時代なんだよ
2025/12/21(日) 12:04:10.78ID:bu704fRk
unicode警察くんがMacOS使いだったら、あっちはあっちで変態文字コードなのに...と思った。
私は仕事では Windows,AIX,Linux 上で SJIS が残っているから今の状態でいい人だけど。
OS だけでなくて DB も文字コード関係する所はあるから、中々統一出来ないよ。
相手システムに合わせて EBCDIC でデータも送っているし。
2025/12/21(日) 12:15:52.27ID:ejirtTFD
>>527
文字コードの統一なんて関係ないし Mac 内部の話も一切関係ない
外部とのやりとりのときに unicode で送るんならちゃんとした unicode で送ってこいというだけ
そかっら先はこっちの責任で対処できる
曖昧なの送られてもこっちでは対処できない
2025/12/21(日) 12:32:32.95ID:ZjUZxB21
>>526
> スマフォアプリ開発者やサーバー技術者の身になって考えろ、そしてアプリ側では一切対策が存在しないんだぞ
100%嘘だな。
だからWeb系はゴミだと言われるんだよ。

少なくともスマホは後発なのだから、先発のWindowsに合わせる、という選択肢はあった。
自分達は規格準拠だから正しい、お前が変えろ、というのはgoogleはじめゴミ共のやり口だ。
とりあえずUA見れば当面の対策も出来るはずだが、それもやる気がないのは、
自分たちこそ正しいと信じてる、意識高い系馬鹿共の言い分だよ。

まあ昔からMSアレルギーのあるやつは居たし、お前もそうなのだろう。
ただ実際の所、かつてのMSよりも今のgoogleの方が何倍も酷いのだが、
その辺酷く言われないのは、立ち回り方が上手いのか、上手く情報操作してるだけなのか、謎だがな。

数年のうちにWindowsが滅びることはない。パヨクみたいに足を引っ張ることが目的でないなら、
単純に、Windowsのunicode(モドキ)→お前が信じる正しいunicode、の変換器を作ればいいだけだろ。
これは本当に簡単に実装できるはずだ。

知能がないやつは全部MSが悪いというが、
少なくとも現行で一番シェアが高いのは、現在一番マシな選択肢だと認識されているということ。
この事実を認めないと、パヨクのままだぞ。
2025/12/21(日) 12:36:02.87ID:ZjUZxB21
>>528
意識高く、
「あなたのunicodeは、Windowsで作成したものですか?
それともunicode完全準拠の金のシステムで作成したものですか?」
といちいち問えばいいんではないですかね。
嫌われるだろうけど、お前の目的は達成できるだろうよ。
531デフォルトの名無しさん
垢版 |
2025/12/21(日) 14:01:38.42ID:i93tKLa3
Kの話で知ったが
物理と言ってもVやAやPやEやBやHやGやTやIやCやQやDやFやJやLやMやRやUやWが独立した話は聴いた事が無い
μをuと描く香具師が居るのは迷惑だった鴨試練
C言語のCとかD言語のDは別コードになってる方が検索には便利だったはず
2025/12/21(日) 14:07:11.21ID:ejirtTFD
windows が unicode を採用したのは当然ながら unicode が出来た後だよ
そういう当たり前の事実すら見えなくなってるのが windows 老害
2025/12/21(日) 15:22:21.34ID:ZjUZxB21
>>532
俺が正しい、お前が間違い、なWeb系パヨクの言い分だな。
実際google筆頭にこんな感じではあるが。
最早日本語が通じ無い感があるが、再度繰り返すと、

スマホの方が後発であり、その時既にWindowsが支配的シェアを持っていたのだから、
・Windowsの仕様を丸パクする、または、
・Windowsコード→オレオレunicode変換器を準備する
が非パヨクな普通の人が採る選択肢だ。(=非パヨクなら、解決の具体策を準備する)

後から「標準化しました〜こっちのほうが正しいです〜」と難癖付けられても、
互換性を重視すればそう簡単に変更するわけにも行かない。
そしてポリコレ棒ならぬ規格棒で殴り続けるという手口か。

まあお前は「Windowsのunicodeは、unicodeではありませんよ」と言い続ければいい。
疎まれるだろうけども、お前は満足できるだろうよ。
そしてこれは、物事を解決する気がなく、ただ文句を言うだけの、典型的なパヨク仕草だと思うぜ。
2025/12/21(日) 15:57:03.22ID:ZjUZxB21
>>531
> Unicode Block “Letterlike Symbols”
> https://www.compart.com/en/unicode/block/U+2100
見た目何がしたかったのか分からんが、
ℎ(プランク定数0x210e)とか、h(アルファベット)で文句言ってる奴に遭遇したこと無いので、
書き直せって事になれば混乱するだけだろう。

> μをuと描く香具師が居るのは迷惑だった鴨試練
むしろ俺は慣れすぎて、最近増えた、頑なにμを使う奴がウザいが。
(というか、以前はum,usと書く以外の選択肢がなかった)

> C言語のCとかD言語のDは別コードになってる方が検索には便利だったはず
これはABCのCなのだし、検索という概念自体がなかった頃なのだから致し方なし。
D言語はそもそも検索でヒットする必要もなし。
Go言語という命名をした連中はただの馬鹿。でもこれ以降、ググラビリティが気にされるようにはなった。


unicodeはすべてを「文字」に集約しようとした。多分ここが間違いだった。
今作り直すなら、ほぼ間違いなく、タグにするはず。つまり、

unicode: K (0x212aという、K(0x4b)とは別の字を用意)
今なら…: <class="KelvinSign">K</> (アルファベットのKに情報を付加)

考えてみれば、Texがこれに近いか。
まあasciiの時代にアレコレ何とか表示しようとしたらこれしか無かったからではあるが。
IVS/IVDも、実はタグ方式のほうがスマートに解決できるのかも?
2025/12/21(日) 21:52:07.35ID:U9DVTeAv
unicode警察くんが存在する事が面白いけど、困り事はサッパリ分からん。
スマホアプリで見た目の円マークとバックスラッシュを使い分けたいシチュエーションも分からん。
エスケープ文字や正規表現でバックスラッシュは使うけど、そこで円マーク出てきても(今は出て来ないと思うが)困る訳でもないし
2025/12/22(月) 07:09:14.21ID:ky9x5GOZ
>>535
実際、文字コードというよりはフォントの問題だからな。
0x5cが半角円記号で表示されるフォントを使えば、見た目以外の問題はなくなる。
そして気づいたんだが、LinuxMintでも半角円記号で表示されてた。つまり、

・Windows→半角円記号
・Linux(Mint)→半角円記号
・泥9,泥14→半角バックスラッシュ

で、googleが意識高い系馬鹿ムーブをやらかしてるだけだ。
とはいえ、フォント変えれば済むなら、試しにやってみようかと思いきや、
変える設定無いんだな。root化必須かこれ?
この辺がどうにもスマホに借りてきたデバイス感が拭えず、好きになれないところだ。
PCと同様に、完全にオープンアーキテクチャにして、好きなOSその他を入れさせてくれ、と思うよ。
(今のメーカー製PCと同様の扱いでいい)
2025/12/22(月) 07:30:48.38ID:/OSr3Yke
>>536
そのMintが異常なだけだろ
LinuxはUbuntuなどいくつか使ってるが0x5cは当然バックスラッシュ
2025/12/22(月) 08:42:11.05ID:ky9x5GOZ
>>537
「正常」なだけだな。
safariも大昔からパッチ入れてるらしいぞ。
https://teppeis.はてなblog.com/entry/2014/09/safari-backslash-yen-sign
2025/12/22(月) 08:42:33.96ID:XCS9cdkE
>>536
mint でどのフォント使ってんだよ?
お前が windows からパクってきたフォントか windows 互換フォントわざわざ使ってるんじゃないの?
2025/12/22(月) 09:00:03.13ID:ky9x5GOZ
>>539
さあ?特段自分では何もやってない。apt installやググってああしろこうしろをそのまま。
ただ以下見る限り、0x5cを『日本語環境では』標準で円記号に当てるようだがな。
https://forums.linuxmint-jp.net/viewtopic.php?t=1409

Archならまだしも、Ubuntuですらその程度だからLinuxも広まらないのだな。
規格ガーではなく、出来る限り馬鹿でも問題ないように最初からしとけではある。
2025/12/22(月) 09:16:05.20ID:ky9x5GOZ
>>539
MintのFirefox上では https://agree.5ch.net/v/style.css によって
font-family: ArialMT, "Hiragino Kaku Gothic ProN", "繝偵Λ繧ョ繝手ァ偵ざ ProN W3" !important;
が当たってる。(上記のとおり、DevTools上で文字化けしてる)

Mintではターミナルでも半角円記号出るが、これが0x5cか0xa5かは分からん。
フォントは Monospace Regular 10 になってる。

泥chromeのフォントはどうやったら分かるんだこれ?
DevTools開けんし。
2025/12/22(月) 10:01:52.69ID:XCS9cdkE
>>540
それはキーボードの話な

・linux は UTF8 なので円記号とバックスラッシュをちゃんと使い分けてる
・linux はバックスラッシュを多用するけど円記号はなくてもさして困らない
・JISキーボードには円記号はあるけどバックスラッシュのキーはない、円記号のキー押すと正しく 0xA5 が入力される
バックスラッシュ 0x5C 入力したいけどどうすばいい? って問題がある

標準な解決策は

・JISキーボードなんか捨ててバックスラッシュがある US配列のキーボード買ってこい
・けちりたいなら設定だけUSキーボードにしてキートップなんか見ずにUS配列で使え
・どうしてもJIS配列が好みなら使わないキー(windows 互換にしたければ円記号キーとかでも良い)にバックスラッシュ割り当てろ、打てなくなったのはコピペなりかな漢字変換で入力しろ

みたいな話だ。円記号とバックスラッシュが同じに見える windows ユーザーは常にとまどってくだらない質問繰り返してる
2025/12/22(月) 11:02:41.57ID:XCS9cdkE
>>542
キーボードに詳しくないやつのために敢えて補足しておくと、現実には

・通常PC用として売られている日本語キーボードは純正のJIS規格配列じゃなくて改造されたOADG106キーボードで円記号とバックスラッシュは別のキーになってはいる
・でもWindowsで指が覚えてる人とかは円記号のキーを押した時にもバックスラッシュになって欲しい

linux 側でもこの辺は分かっているので対応してくれてるけどディストロとかバージョンによってデフォルトをどうするかとかの思想(日本人以外が決めてることも多い)に違いがあるかもしれない(違いが悩ましければUS配列買ってくるか自分でなんとかしろみたいな話)

キーボードとかOS内の話なので他人に影響しないので自分の好きにカスタマイズすればいいよ
2025/12/22(月) 11:20:10.08ID:ky9x5GOZ
>>542-543
ちな、俺環境はUSキーボードだ。(MintもWindowsも)
そしてMintとWindowsで目に見えて違いはない。

MintでUSキーボードのバックスラッシュを押すと、ターミナルでは半角円記号になる。
(なおMonospaceフォントでは、0x5cは半角バックスラッシュ、0xa5は半角円記号らしい)
Mint側であまりバックスラッシュを使用しないのでなんともだが、
例えばDevToolsのコンソール上では問題なく動作する。(表示は半角円記号)
どこで差し替えてるのかはよく分からん。が、まあ、気にせず使える程度にはなってる。
(これはアプリ側で0xa5を0x5c扱いしてるのかも?ならこれでもいいんだが)
2025/12/22(月) 12:18:57.64ID:XCS9cdkE
>>544
その monospace フォントというのは別のフォントへのリンクで代表名みたいなものなので実態を確認しないと
どうせ mint のことだから monospace が TAKAO PGothic に設定されてるとかなんじゃね?
546デフォルトの名無しさん
垢版 |
2025/12/22(月) 12:39:35.32ID:/MDqFcRg
PCならAlt+数値入力でコードで文字入力できるよね
マカーだからいまでも有効かはしらない
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況