文字コード総合スレ part15

**デフォルトの名無しさん** · 2024/08/17(土) 11:18:00.01

文字コードについて語り合うスレです

**デフォルトの名無しさん** · 2025/08/23(土) 08:52:37.93

>>444
「第二水準内で」（第四水準がなかった時代に）という意味です
第三以降では包摂の適用が変わったので、同列には語れません

>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E）

どうやら康熙部首がメインでCJK部首にはそのバリエーションが
なのに「長」は何故か両方に同じものが入っている??

と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話
そんなんわかるかあw

**デフォルトの名無しさん** · 2025/08/23(土) 08:56:22.55

失礼、投稿が失敗したと思いダブリました（&少し書き直した）

**デフォルトの名無しさん** · 2025/08/23(土) 09:10:23.66

>>446
> CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話
ならばgoogle猫が手抜きで糞フォントを作ったのがPDFコピペ文字化けの元凶だな
日本人の美的感覚では、(この辺は習字を見れば分かりやすい)
「長」の縦棒は、上よりも下のほうが少し左側(下のほうが広く見える)が美しいとされるので、
真面目にフォントを作れば同じグリフになることはない

**デフォルトの名無しさん** · 2025/08/23(土) 12:38:53.36

>>447
そういう意味なら「康熙部首」はもともと部品じゃなくて普通に使われる漢字なのでJIS的には漢字として登録されるのは問題ない
（康煕部首を漢字以外に登録しているunicode が変というかローマ数字の ⅰ がアルファベットの i と別にあるみたいな変さ)

「氵」とかは伝統的な漢字じゃないので（辞典類の索引くらいしか）単独の用例が存在していなかったのが理由じゃないかな
国語の教科書とかでも康煕準拠で「冫の部」とういう表記は使われるけど「氵の部」という部首は存在してなくて「水の部」と書かれてる

第3、第4水準の包摂基準は原則として第1、第2の基準を援用してるので第2水準で包摂されていたら第4水準に追加できないので、逆説的に第4水準に追加されたことは包摂されていなかった解釈になる（補助漢字はかなりあやしい

**デフォルトの名無しさん** · 2025/08/23(土) 12:45:02.17

>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい

**デフォルトの名無しさん** · 2025/08/23(土) 14:58:11.95

あ、すみません

> CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話

ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首（補助）に登場するのは事実ですが

**デフォルトの名無しさん** · 2025/08/23(土) 15:25:52.11

>>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形

**デフォルトの名無しさん** · 2025/08/23(土) 15:38:45.17

>>450
> 「氵」とかは伝統的な漢字じゃないので（辞典類の索引くらいしか）単独の用例が存在していなかったのが理由じゃないかな

なるほど、そんな感じですかね

**デフォルトの名無しさん** · 2025/08/23(土) 15:54:04.18

>>453
基底クラスに派生クラスが3つ、みたいな感じですかね

部首周りは思ったより複雑ですなw

**デフォルトの名無しさん** · 2025/08/25(月) 08:21:51.64

今回の話はほぼ部首由来だけど、そうでないのも少しありそう

U+6AF8（櫸）は「ケヤキ」らしいがこれ以外にU+237F1（𣟱）という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05（欅）、つくりの下側が「手」

ここらへんの文字がちゃんと扱えるのかのテストでもある

**デフォルトの名無しさん** · 2025/08/25(月) 08:51:42.49

ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか

まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31（樱）を使ってしまう可能性もある

**デフォルトの名無しさん** · 2025/08/25(月) 08:56:46.72

そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる（IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる

**デフォルトの名無しさん** · 2025/08/25(月) 15:28:01.56

>>456
Unicodeは各国にある規格を取り込む、というのはまあまあやっていて
U+6AF8は台湾で使われる字、U+237F1は日本などで用例のある字、
で本来グリフにも差があるらしい

**デフォルトの名無しさん** · 2025/08/25(月) 18:00:18.28

>>459
U+6B05 は旁の下部が手なのでおいておいて

もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる（日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる

IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる（中国語フォントなら二本と三本で別の字形になる

**デフォルトの名無しさん** · 2025/08/26(火) 15:23:22.74

>>460
例えば
>IVS なんか知るか
U+237F1が入ったのはIVSより前じゃね?

**デフォルトの名無しさん** · 2025/08/26(火) 17:54:44.18

>>461
ちょうど同じ時期に並行して議論されてたんだよ
正式な規格書にコード位置が載ったのは Ext-B の方が少しだけ早かったかも

**デフォルトの名無しさん** · 2025/09/10(水) 21:44:22.92

Unicode 17.0 Release Announcement
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース～8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html

**デフォルトの名無しさん** · 2025/09/10(水) 22:23:52.97

>>463
漢字10万字突破とか笑える事態は置いとくとして
誰だ？ウサ耳の絵文字とか登録したやつは

**デフォルトの名無しさん** · 2025/09/10(水) 23:25:55.02

https://asset.watch.impress.co.jp/img/wf/docs/2046/141/image3_l.png

**デフォルトの名無しさん** · 2025/09/11(木) 14:48:21.23

>>464
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw

絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった

**デフォルトの名無しさん** · 2025/09/11(木) 15:09:06.69

>>466
ああ、なるほど
「うさ耳」固有の絵文字が追加されたわけではなくて
今まであった「バニーガール」の絵文字を合成で使うと「うさ耳」の追加として処理するルールが追加されたのか

**デフォルトの名無しさん** · 2025/09/15(月) 20:12:18.82

>>464
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?

**デフォルトの名無しさん** · 2025/09/16(火) 03:15:46.45

>>468
手元に「汉字海」の2018年版があるけど、10万2千字超えてるよ
音未詳、義未詳、同〇〇、みたいな漢字が多数掲載

**デフォルトの名無しさん** · 2025/09/17(水) 13:27:21.24

>>469
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね

ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ

**デフォルトの名無しさん** · 2025/11/07(金) 08:24:41.35

macOS 26 Tahoeアップグレード後に、正規化形式(NFD/NFC)の不具合により日本語環境でNASに接続されたTime Machineバックアップが行えない問題はmacOS 26.1でも修正されていないので注意を。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html

Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。

**デフォルトの名無しさん** · 2025/11/10(月) 05:32:30.23

>>471
macOSの正規化の問題はもはや定期

**デフォルトの名無しさん** · 2025/11/18(火) 16:46:15.76

なんかMac上のAdobeのアプリが動かなくなってるらしいけどけどパス関連
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある

**デフォルトの名無しさん** · 2025/11/19(水) 19:08:44.33

>>473
原因はまだ公表されていないが症状的にそういうOS寄りの話じゃなさそう
adobe がオンライン経由でライセンスの強制取り消しか何かの仕組みをいれようとしてバグったとかそんな感じのやつ

**デフォルトの名無しさん** · 2025/11/27(木) 22:04:02.60

AIにテキストが読み取られるのを防ぐために目に見えないUnicode文字を挿入する「Gibberifier」
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/

文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。

Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です

**デフォルトの名無しさん** · 2025/11/27(木) 22:14:49.16

HTMLや画像でも文章認識できるのは前処理してるからで
こんなもん瞬で対策されておわりでしょ

**デフォルトの名無しさん** · 2025/12/10(水) 11:51:06.42

皆さんUTF-8 code pageでのテストしましょう

Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234

**デフォルトの名無しさん** · 2025/12/10(水) 12:14:52.51

Windows で BOM 付き UTF-8 使った時にバグるのか。
ちゃんと実装できないんなら滅んでしまえ

**デフォルトの名無しさん** · 2025/12/10(水) 21:28:59.81

NPP v8.8.6 32bitでは再現出来なかった

**デフォルトの名無しさん** · 2025/12/11(木) 00:51:43.45

>>479
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど

**デフォルトの名無しさん** · 2025/12/11(木) 04:34:26.04

そういえば少し前ベンダーから送られてくるログがやたら文字化けしていて
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ

**デフォルトの名無しさん** · 2025/12/11(木) 06:20:41.73

ちゃんと見て原因を特定しないお前のような奴がいる限り無理だろ

**デフォルトの名無しさん** · 2025/12/13(土) 06:14:20.73

>>482
自分がメンテしているソフトウェアで文字化けが発生しているのではなく
ベンダーがログのデータの扱い中になんかやらかしている
ログのデータをそのまんま送るだけでいいのに余計なことすんなと
そんなものに付き合ってるほど暇じゃない

**デフォルトの名無しさん** · 2025/12/13(土) 14:45:54.42

最近のネット関係の実装とか脆弱性の問題をおいかけてると
セキュリティリスクになるので
・通信にはUTF8以外は使うな
・BOMは拒否しろ（付けるな認識するな）
という方向に収束していきそうだな

**デフォルトの名無しさん** · 2025/12/13(土) 15:00:06.21

バイナリやASCIIに回帰するならわかる
Unicodeは太っちょだし実装がまだ枯れていない

**デフォルトの名無しさん** · 2025/12/13(土) 17:36:17.84

英数字だけならSJIS,UTF-8,ASCIIは同じなのでいいよね
改行コードの問題はあるけど。

**デフォルトの名無しさん** · 2025/12/13(土) 23:27:14.26

>>485
つい最近も致命的なやつが見つかって大騒ぎ

unicode の使い方を今更統一するのは無理
文字コード変換とかあると重大的なセキュリティホールになる
UTF-8限定で他の文字コードを一切許さなければバイナリ扱いでリスクは低い
ASCIIはUTF-8の完全なサブセットなのでUTF-8扱いしても問題ない

ということらしい。

**デフォルトの名無しさん** · 2025/12/13(土) 23:30:44.14

>>486
SJIS さんはバックスラッシュと円記号問題があるので駄目です。仲間には入れてもらえません。

**デフォルトの名無しさん** · 2025/12/15(月) 16:21:56.43

>>488
Macでも使ってんのかw

**デフォルトの名無しさん** · 2025/12/17(水) 20:05:34.96

>>489
>>488 の言うのは、Shift-JIS の 1 バイト文字部分の規格は JIS X0201 であって、ASCII と完全に同一ではない、ということでしょ
それに対して Unicode や EUC-JP の 1 バイト部分は ASCII そのもの
まぁ MS の CP932 なんかはかなりアバウトなんだけど

**デフォルトの名無しさん** · 2025/12/17(水) 20:54:58.87

>>490
かなりアバウトwww

MS CP932 0x5C
フォントで表示すると円記号なんだけど、心の目で見るとバックスラッシュな文字
どう見ても円記号だし昔から円記号として使われていて、なんならマイクロソフトの技術マニュアルにもそう書いてあったのに、ユニコード導入する時のどさくさでバックスラッシュだったと過去改変し半角円記号なんか存在しなかったことになった文字
今でも日本語Windowsのフォントだと円記号表示されたりするけど規格上はバックスラッシュなんで見た目に騙されてはいけない
無茶言うな!!

**デフォルトの名無しさん** · 2025/12/17(水) 22:12:32.32

ANKは大昔ISOに沿って名前と書体が変わった
二重に名前が付いてるだけで交換用符号としては困らない
極東がバックスラッシュ置き換えたのは事故なのでしょうがない
DOSのパス区切りとSJISはメタ文字利用されだした後だからただのアホ

**デフォルトの名無しさん** · 2025/12/18(木) 01:39:33.82

まぁ ANK しか使えなかった時代には、円マークはそれなりに利用価値があったはずで
一方で DOS や Win のプログラミングでは、当時からそれをバックスラッシュと空目しながらコードを書いてたわけで
資産継承を考えると MS のやり方を一概には責められない、とは思うけどね

**デフォルトの名無しさん** · 2025/12/18(木) 10:15:45.78

>>493
資産継承とかいっても未だに解決してないのが問題
Windows ユーザが 0x5C 送ってきても円記号を送りたかったのか文字通りバックスラッシュなのか受け取った側では判別できない
問題を先送りしただけで被害（駄目な資産）が再生産されてる

**デフォルトの名無しさん** · 2025/12/18(木) 15:49:32.31

レシートの円マークは頑張って表示しているんだろうな、と思いました。
直DBに繋がっているシステムは、バックスラッシュで使う要件も多いはずなのに。

**デフォルトの名無しさん** · 2025/12/18(木) 19:40:56.03

いろいろな作り方があるけどビューだけは分離して考えて

**デフォルトの名無しさん** · 2025/12/18(木) 21:46:10.30

>>494
そのとおりなので特にコメントはないｗ

いや今回は擁護するようなこと書いたけど、MS の肩を持つつもりは毛頭ないので
むしろ敵だと思ってこれまで戦ってきたけど、力及ばすというところ

**デフォルトの名無しさん** · 2025/12/19(金) 21:46:54.73

>>492
真説 Windowsでディレクトリ区切りのスラッシュ / がバックスラッシュ ⧵ で円マーク \ な理由
https://qiita.com/ko1nksm/items/4ae0a784a612f23aa412

**デフォルトの名無しさん** · 2025/12/19(金) 22:58:08.40

>>498
どうでもいいけどケン・トンプソンが Unix を作ったのは自作ゲームで遊ぶため、という話はウソだったのかな

**デフォルトの名無しさん** · 2025/12/20(土) 01:42:46.43

>>498
よく調べてるけど本質を理解してないので論旨がゴミになってるな
「バックスラッシュを使いたければフォントを変えればすむ」
とか言ってるやつの長文読む価値はない

**デフォルトの名無しさん** · 2025/12/20(土) 01:54:11.10

どこがへん？
日本語環境以外にするのは本末転倒だしスマートな解決やん
反論にしては中身スッカスカだし愉快犯なんだろうけど

**デフォルトの名無しさん** · 2025/12/20(土) 08:12:39.40

俺は>>498はよく書けてると思ったけど。
大半は知らない事だが、俺が知ってる範囲の事は合ってるし。
実際、バックスラッシュのフォントが\であれ、見た目以外に問題になったことないし。
(ただ俺は基本的に枯れてることしかやらない、つまりファイル名の日本語化は《特にCLI環境では》避ける人間だがな。
ちな、Mintでも　ダウンロードやデスクトップという日本語フォルダが自動的に出来てウザい《打つのが手間すぎて使いづらい》)

ゆうて0x5cが被ったところで、前から正しくSJIS判定してれば普通に使えるだろ。
utf8のようにASCII/null終端前提のCコードにブっこんでもそれなりに動く、という程イージーではないだけで。

**デフォルトの名無しさん** · 2025/12/20(土) 10:25:41.79

漏れのconsole(win11のcmd)は
日本語キーボードで「\」キーを押すと
「＼(半角のバックスラッシュね)」が出るけど何にも困らん
chcpは932でも65001でも同じ結果

**デフォルトの名無しさん** · 2025/12/20(土) 11:14:30.11

肝心なのは文字コードは情報交換用符号ということ。送った方と受け取った方で意味が一致していないといけない。そのために共通規格がある
自分の中で閉じ籠もっていれば俺俺コードとかでも問題ないけど他者と情報交換したいなら規格を合わせないといけない
Microsoft はそこがちゃんとわかってなかった

一番問題で指摘すべきなのは Microsoft CP932 （独自規格）から Unicode （共通規格）への変換テーブルを定めた時に円記号をバックスラッシュにマップしたとこ
独自規格では何やろうと勝手で MS はそれまでも独自実装で規格を勝手に改変して独自のものを作ることが多かった。当時の Windows にはTCP/IPとかも実装してなく他者と情報交換するのが限定的だったので俺俺でも良かった。シェアも圧倒的だったので俺俺実装を押し付けてくることが多かった

今はちゃんと規格を守る優良企業に変化した (そのために IE とか捨てるはめになった) けど過去が足を引っ張っているのはこの点。他の長々は蛇足。技術調査としては面白いが文字コード (情報交換) の視点が欠けてる

要はネットワーク時代を予想できない時代遅れの自閉症思想で問題を場当たり的に対応しようとしたつけが残っている状態。多分今では後悔してるだろう

**デフォルトの名無しさん** · 2025/12/20(土) 11:58:14.83

現実解としてはMSのやり方が正解

**502** · 2025/12/20(土) 12:41:05.42

うむ、自分の投稿が化けてる(投稿時と違う)のに気づいた。
こういうところは不便、というか仕様バグレベルだな。
見た目、送信時に差し替えられてるようだが、以下テスト。
(502は化けないようにわざわざ全角円記号にしたのだが、半角バックスラッシュになっている)

半角バックスラッシュ: \
全角バックスラッシュ: ＼
全角円記号: ￥

**デフォルトの名無しさん** · 2025/12/20(土) 12:42:50.59

んん？俺の勘違いか？だったらすまん

**デフォルトの名無しさん** · 2025/12/20(土) 12:56:08.36

MSはファイルに使える文字も見せ方も頑張ってはる

**デフォルトの名無しさん** · 2025/12/20(土) 13:03:13.01

>>504
> 変換テーブルを定めた時に円記号をバックスラッシュにマップしたとこ
これは正しい。0x5cはバックスラッシュで、フォントが円記号なだけだから。
プログラミング的には、モデル(意味)はバックスラッシュで、ビュー(見た目)が円記号なだけだから。

つまり同音異義語のようなもので、同じコードを複数の意味で使っていたのだからどうやっても問題になる。
どちらかに揃えるなら、当然バックスラッシュだ。
使用状況からどちらとして使っているかは(人間には)容易に推測できるから、自動判定頑張れはあるかもだが、
今ならまだしも、80〜90年代では無理だ。

現実的に、バックスラッシュを円記号に「見た目だけ」差し替えてもあまり問題なかったから今がある。
和文でバックスラッシュを使うことはないし、困るのは精々プログラマだけというのも事実だ。
(この点からすると、0x5cをどちらにするかは手動で切り替えるべきだったのかも？
まあs/\\/￥/すりゃいいだけではあるが)

**デフォルトの名無しさん** · 2025/12/20(土) 15:03:29.90

>>509
文字コードに「同音多義語」ｗｗｗとかあってはいけない。 MSのCP932は独自規格なので知らんが Unicode に同音多義語などない
Unicode の 0x5C を円記号で表示するのは明確な規格違反。その規格違反を許し続けている以上問題は解決しない

**デフォルトの名無しさん** · 2025/12/20(土) 15:43:38.07

特定フォントのグリフの問題であって、ここで話すことではない

**デフォルトの名無しさん** · 2025/12/20(土) 17:17:31.62

>>511
いや、だからそれは規格上は間違いなんすよ

Shift_JIS の 1 バイト部分は JIS X0201 なので、そこでは 0x5C は円マークであってバックスラッシュではない
Unicode の 1 バイト部分は ASCII なので、0x5C はバックスラッシュであって円マークではない

それをグリフの問題として片づけるのは実利上の「解釈」に過ぎなくて、規格として明文化されたことは一度もない

でも規格通りに変換してマッピングを変えると、大抵のプログラムはちゃんと動かなくなるので、プログラマには (私も含めて) 受け入れ難い
なので、なぁなぁで済ませるｗ

ということですよ

**デフォルトの名無しさん** · 2025/12/20(土) 18:11:46.05

>>510
> Unicode に同音多義語などない
そうなのだろうが、実際に使う人間は同音異義語に慣れているので無理だ。
具体的には、単字AA、例えば w (単芝) は明確な同形異義文字として使われてる。
Unicode警察的には、新たに登録された芝の絵文字を使うべきなのだろうが、誰もそんなことはしない。
(ググっても🌱🌿🍀🍃しか出てこないが、ここ数年のうちに登録されたものがあったはず。
しかし出てこないところを見ると、俺がLINEスタンプと勘違いしているか？)

**デフォルトの名無しさん** · 2025/12/20(土) 18:23:22.98

>>513
w はラテン文字のｗであって他の文字ではない
文字コードは文字の解釈ではなく「文字」を規定している
「文字」であって「語」ではないし「義」を定義していないので多義語とか異義語とかありえない
unicode ではバックスラッシュの文字は 0x5C 、円記号の文字は 0xA5 で表現されなければならない。逆は認められない

**デフォルトの名無しさん** · 2025/12/20(土) 18:27:18.42

>>512
解決するには、0x5cをどちらの意味で使ってるか明確に意識し、別のコードとして使い分ける、しか無いだろ。
なら、今は移行期間で、Windows13からは0x5cはバックスラッシュであり円記号ではないので、それまでに書き直せ、程度の解釈でも問題ないのでは。

だから問題なのは現実の運用で、

A: 0x5c→￥で困るのはプログラマだけなのだから、こうした上で、プログラマはフォントで誤魔化すなり、s/\/\\/しろで済ます。
B: 0x5c→バックスラッシュとして、￥の意味で0x5c使ってる場合は積極的な書き換えを促す。最低限、新規で使うのは禁止。

のどちらかであるべきなのに、

現実(Bモドキ): 0x5c→バックスラッシュの癖に、新規で0x5cを￥の意味で使うことすら禁止してない。

から筆者も問題視してるんだろ。ただ実際はAの方が良かったように思えるし、筆者も、504も、多分お前もそう思ってるんだろ。
プログラミング理論的にはBだからBモドキになってしまってるが。

**デフォルトの名無しさん** · 2025/12/20(土) 18:59:02.34

>>515
unicode の 0x5C は元からバックスラッシュで円記号だったことなど一度もないよ
それなのに unicode の 0x5C を円記号で表示するフォントを準備して積極的に誤魔化してるのが今の日本語Windowsの状態
導入当初から変なのであって途中の移行で変になったわけではないよ

**デフォルトの名無しさん** · 2025/12/20(土) 19:45:20.19

>>516
それはお前が間違っている。(或いは勘違いしている)

Windowsはunicodeを使用する(準拠する)のが目的ではなく、
従来Windowsと互換を維持しつつ、最大限時代に合わせる＝なるべくunicode準拠にする、のが命題だからだ。
だから、互換性が崩れるところはSJIS/CP932を優先するし、unicodeの仕様は無視されて同然。
これは非常に現実的で妥当で真っ当な判断だ。

一言で言えば、WindowsはUnicode警察用のOSではない。
そんなにunicode完全準拠が欲しければ、Windowsを止めて、完全準拠の別OSを使えばいいだけ。
(あるのかどうか知らんが)

**デフォルトの名無しさん** · 2025/12/20(土) 20:06:56.48

>>514
> 文字コードは文字の解釈ではなく「文字」を規定している
そうだとして、これだとunicode内に矛盾を生じる。
つまりは正規化の問題だが、

が (0x304c) と
が (0x304b,0x3099)

は(人間にとっては)同じ文字だが異なる文字コード(＝unicodeでは別文字扱い)になってるだろ。
だから正規化の問題はあちこちで発生しまくってるわけだけども。
これは仕様がKISS/驚き最小の原則に反してるからバグの温床になってるのもあるが。

そもそも人間が使っている文字は表音文字(アルファベットや平仮名)か表意文字(漢字)であって、
音も意味も無関係なただの文字(unicode、或いはQRコードのようなビットパターン)ではない。
だから完全分離して綺麗にマッピングしようとしてもかなり無理があって、実際ろくでもないことになってる。
(勿論これでも頑張った方なのは認めるけども)

**デフォルトの名無しさん** · 2025/12/21(日) 00:53:34.65

>>517
>>518
お前は規格が分かっていない
規格というのは任意に一部だけ無視することはできない
選択肢がある場合には規格自身に選択をして良いと記述されてなければならない
unicode 規格には U+005C を円記号に使って良いという記述はない
互換文字とか変種とか規格に書かれてば規格が許可する範囲で使って良い

**デフォルトの名無しさん** · 2025/12/21(日) 01:55:13.85

ほら
愉快犯だった

**デフォルトの名無しさん** · 2025/12/21(日) 07:20:46.63

>>519
でマイクロソフトは円記号問題どうすべきだったわけ？
経済合理性無視した幼稚な意見は控えてくれ

**デフォルトの名無しさん** · 2025/12/21(日) 07:55:00.80

>>519
「規格」の認識はその通りだとして、
繰り返すが、その部分は互換性の為に規格を無視する判断だろ。これに何の不満が？
規格警察ならお前が100%unicode準拠の何かを作ればいい。だけど出来ないと思うぞ。

お前は、規格＝絶対大正義だと勘違いしてる。
規格ってのは、基本的には揃えて無駄な手間を無くす為の方策であり、絶対遵守のギアスではない。
勿論人が定めるものだから、特に政治的指向がある場合、それ自体に間違いが含まれる事も多い。
unicodeなんて、人の絵文字で肌色48種類みたいな、ポリコレまみれになってるだろ。

まあこれはさておき、unicodeは技術的にも間違い(というか矛盾)を作り込んでる。
unicode、というより計算機用の文字コードは、読みや意味よりも見た目(グリフ)との結びつきが強い、
というお前の説(>>514)は一理あるし、実際そうあるべきかもしれない。
ただ、unicodeはK(0x4b)とK(0x212a)を分離してるだろ。
これらは見た目が完全に同じで、意味で分離してる。
(この辺に矛盾が発生し、実装で大幅に手間となるので、100%準拠の実装をする奴が居なくなる)

物理学の単位は人の頭文字から取られているので、自動的にアルファベットになる。
unicode以前のK(ケルビン)は、別文字が用意されていなかった事もあって、全て(アルファベットの)Kが使われていたはず。
当然、全てのグリフは同一だった。
(実際は斉の類と同じで、本来は微妙に違うのだが我慢して使ってただけかもしれんが、知らん)

ただし、計算機用の文字コードをグリフではなく意味で分離し、使い分けをさせる事自体は(計算機的には)正しい。
置換や検索等の計算機上の操作には(本来は)有利だし、その後、同じグリフを与えて同一の見た目にする事も簡単だからだ。
分離してない物を適切に分離させる方が段違いで難しいので、あらかじめ人力で分離しておけ、というのは(今は)正しい。

**デフォルトの名無しさん** · 2025/12/21(日) 07:55:23.64

ただ、K(ケルビン)を検索する為には、今後とも、殆どの人がK(アルファベット)を使うに決まっている。
だから今後とも、K(ケルビン)とK(アルファベット)を(少なくとも検索時は)同一視する必要があり、
この辺で技術的負債がかなり発生する。
(仮に、あらゆる文書でK(ケルビン)とK(アルファベット)が完全に間違いなく分離された時代の後でも、
K(ケルビン)は利便性の為にK(アルファベット)で検索され続けるはず)
これ以外にも、unicodeはこの手の話が多い。
勿論、現存する文字情報を全てデジタル化する為に、あらゆる文字を少なくとも表示できることが必要であり、
これに向かって邁進した結果、色々矛盾を抱え込む状況になってるのは仕方ないにしても、
規格として、これを最優先、という方針がなく、あやふやな印象なので、無駄に矛盾が発生しまくってるように見える。
だから、unicode＝正しい、とは、俺には全く思えない。

この点、MSの「互換性重視以外にはないだろ馬鹿タレ」は分かりやすくていい。
使用者にとって、挙動を100%予測/納得できることが最重要だからだ。

unicodeの正規化問題なんて、初めて知ったときには、かなり驚いた。
本来規格/仕様上にあんな問題が存在する事自体が間違いで、
NF(K)C/Dのどれでもいいが、本来は、入力時に正規化してしまって、
unicode文字列として存在するのは正規化後の文字列だけ、という規格/仕様にしてないといけない。
これをしなかった/出来なかった正当な理由なんてない気がするがね。
この辺がunicodeは規格側の体制/方針が間違ってる、というかあやふやなままだ。
だからろくでもない規格になりつつある。
(寄り合い所帯の限界ではあるのだろうけども)

**デフォルトの名無しさん** · 2025/12/21(日) 09:23:22.82

>>523
unicode が正しいかどうかという問題と unicode 規格に適格というのは別問題

unicode が間違ってるなら unicode を採用しないか unicode 規格を改定すれば良い
それをせずに unicode だと言い張りながら unicode ではない独自変種を他者に送りつけてくるのが間違い

**デフォルトの名無しさん** · 2025/12/21(日) 10:33:38.74

>>524
unicode警察くんは結局の所、
windowsで作成した書類をunicode準拠です、として送りつけられることが嫌で嫌でたまらないのか？
ならお前は無駄にハゲるし早死するだろう。
こんなしょうもない所でいちいち腹を立てても意味ない。ただそれでもお前の自由ではあるがな。

0x5cの問題なんて人間が見れば分かる程度のものでしか無い。
お前が今後共unicode意識高いのはお前の自由だが、
日本語の書類の大半が今後共Windows上で作成されることも、
お前以外の大半がWindowsの仕様で何の苦労もしないことも変わらない。

そんなことより正規化のほうが大問題であって、
放置しておけばバラけて問題になるが、どれかに決めておけば問題が無くなる、まさにこういう事の為に規格/仕様は存在するのだから、
決めきれてないのは存在価値を自ら放棄してるのと同じ。
馬鹿じゃねーの(AA略
と本当に思うよ。
(とは言え、世界中の言語をカバーしようとしても、現実的に全言語を詳しく知っている人は居ないので、
まあそうなるだろうな、程度にグダグダになってるだけではあるが。
これは風呂敷の広げすぎ＝目標仕様が壮大すぎて現実離れしてただけであって、unicodeの次に期待するしか無い)

**デフォルトの名無しさん** · 2025/12/21(日) 11:44:27.73

Windows でしかものが見れない時代遅れの Windows 中心主義者の言いそうなことだな
Windows の問題は Windows の中に閉じ込めとけ、輸出してよそに迷惑かけるな

Windows からスマフォに送ったら文字化けしましたって毎回問い合わせされるスマフォアプリ開発者やサーバー技術者の身になって考えろ、そしてアプリ側では一切対策が存在しないんだぞ（あきらめろ、文句あったらマイクロソフトかwindowsソフトの開発者に言えって回答してしかられるだけ）

今の時代はスマフォもサーバーも Windows 以外で Windows は少数派なんだよ自重しろ
パス区切りとかプログラムすら分かってない素人がコンピュータ使う時代なんだよ

**デフォルトの名無しさん** · 2025/12/21(日) 12:04:10.78

unicode警察くんがMacOS使いだったら、あっちはあっちで変態文字コードなのに...と思った。
私は仕事では Windows,AIX,Linux 上で SJIS が残っているから今の状態でいい人だけど。
OS だけでなくて DB も文字コード関係する所はあるから、中々統一出来ないよ。
相手システムに合わせて EBCDIC でデータも送っているし。

**デフォルトの名無しさん** · 2025/12/21(日) 12:15:52.27

>>527
文字コードの統一なんて関係ないし Mac 内部の話も一切関係ない
外部とのやりとりのときに unicode で送るんならちゃんとした unicode で送ってこいというだけ
そかっら先はこっちの責任で対処できる
曖昧なの送られてもこっちでは対処できない

**デフォルトの名無しさん** · 2025/12/21(日) 12:32:32.95

>>526
> スマフォアプリ開発者やサーバー技術者の身になって考えろ、そしてアプリ側では一切対策が存在しないんだぞ
100%嘘だな。
だからWeb系はゴミだと言われるんだよ。

少なくともスマホは後発なのだから、先発のWindowsに合わせる、という選択肢はあった。
自分達は規格準拠だから正しい、お前が変えろ、というのはgoogleはじめゴミ共のやり口だ。
とりあえずUA見れば当面の対策も出来るはずだが、それもやる気がないのは、
自分たちこそ正しいと信じてる、意識高い系馬鹿共の言い分だよ。

まあ昔からMSアレルギーのあるやつは居たし、お前もそうなのだろう。
ただ実際の所、かつてのMSよりも今のgoogleの方が何倍も酷いのだが、
その辺酷く言われないのは、立ち回り方が上手いのか、上手く情報操作してるだけなのか、謎だがな。

数年のうちにWindowsが滅びることはない。パヨクみたいに足を引っ張ることが目的でないなら、
単純に、Windowsのunicode(モドキ)→お前が信じる正しいunicode、の変換器を作ればいいだけだろ。
これは本当に簡単に実装できるはずだ。

知能がないやつは全部MSが悪いというが、
少なくとも現行で一番シェアが高いのは、現在一番マシな選択肢だと認識されているということ。
この事実を認めないと、パヨクのままだぞ。

**デフォルトの名無しさん** · 2025/12/21(日) 12:36:02.87

>>528
意識高く、
「あなたのunicodeは、Windowsで作成したものですか？
それともunicode完全準拠の金のシステムで作成したものですか？」
といちいち問えばいいんではないですかね。
嫌われるだろうけど、お前の目的は達成できるだろうよ。

**デフォルトの名無しさん** · 2025/12/21(日) 14:01:38.42

Kの話で知ったが
物理と言ってもVやAやPやEやBやHやGやTやIやCやQやDやFやJやLやMやRやUやWが独立した話は聴いた事が無い
μをuと描く香具師が居るのは迷惑だった鴨試練
C言語のCとかD言語のDは別コードになってる方が検索には便利だったはず

**デフォルトの名無しさん** · 2025/12/21(日) 14:07:11.21

windows が unicode を採用したのは当然ながら unicode が出来た後だよ
そういう当たり前の事実すら見えなくなってるのが windows 老害

**デフォルトの名無しさん** · 2025/12/21(日) 15:22:21.34

>>532
俺が正しい、お前が間違い、なWeb系パヨクの言い分だな。
実際google筆頭にこんな感じではあるが。
最早日本語が通じ無い感があるが、再度繰り返すと、

スマホの方が後発であり、その時既にWindowsが支配的シェアを持っていたのだから、
・Windowsの仕様を丸パクする、または、
・Windowsコード→オレオレunicode変換器を準備する
が非パヨクな普通の人が採る選択肢だ。(＝非パヨクなら、解決の具体策を準備する)

後から「標準化しました〜こっちのほうが正しいです〜」と難癖付けられても、
互換性を重視すればそう簡単に変更するわけにも行かない。
そしてポリコレ棒ならぬ規格棒で殴り続けるという手口か。

まあお前は「Windowsのunicodeは、unicodeではありませんよ」と言い続ければいい。
疎まれるだろうけども、お前は満足できるだろうよ。
そしてこれは、物事を解決する気がなく、ただ文句を言うだけの、典型的なパヨク仕草だと思うぜ。

**デフォルトの名無しさん** · 2025/12/21(日) 15:57:03.22

>>531
> Unicode Block “Letterlike Symbols”
> https://www.compart.com/en/unicode/block/U+2100
見た目何がしたかったのか分からんが、
ℎ(プランク定数0x210e)とか、h(アルファベット)で文句言ってる奴に遭遇したこと無いので、
書き直せって事になれば混乱するだけだろう。

> μをuと描く香具師が居るのは迷惑だった鴨試練
むしろ俺は慣れすぎて、最近増えた、頑なにμを使う奴がウザいが。
(というか、以前はum,usと書く以外の選択肢がなかった)

> C言語のCとかD言語のDは別コードになってる方が検索には便利だったはず
これはABCのCなのだし、検索という概念自体がなかった頃なのだから致し方なし。
D言語はそもそも検索でヒットする必要もなし。
Go言語という命名をした連中はただの馬鹿。でもこれ以降、ググラビリティが気にされるようにはなった。

unicodeはすべてを「文字」に集約しようとした。多分ここが間違いだった。
今作り直すなら、ほぼ間違いなく、タグにするはず。つまり、

unicode: K (0x212aという、K(0x4b)とは別の字を用意)
今なら…: <class="KelvinSign">K</> (アルファベットのKに情報を付加)

考えてみれば、Texがこれに近いか。
まあasciiの時代にアレコレ何とか表示しようとしたらこれしか無かったからではあるが。
IVS/IVDも、実はタグ方式のほうがスマートに解決できるのかも？

**デフォルトの名無しさん** · 2025/12/21(日) 21:52:07.35

unicode警察くんが存在する事が面白いけど、困り事はサッパリ分からん。
スマホアプリで見た目の円マークとバックスラッシュを使い分けたいシチュエーションも分からん。
エスケープ文字や正規表現でバックスラッシュは使うけど、そこで円マーク出てきても（今は出て来ないと思うが）困る訳でもないし

**デフォルトの名無しさん** · 2025/12/22(月) 07:09:14.21

>>535
実際、文字コードというよりはフォントの問題だからな。
0x5cが半角円記号で表示されるフォントを使えば、見た目以外の問題はなくなる。
そして気づいたんだが、LinuxMintでも半角円記号で表示されてた。つまり、

・Windows→半角円記号
・Linux(Mint)→半角円記号
・泥9,泥14→半角バックスラッシュ

で、googleが意識高い系馬鹿ムーブをやらかしてるだけだ。
とはいえ、フォント変えれば済むなら、試しにやってみようかと思いきや、
変える設定無いんだな。root化必須かこれ？
この辺がどうにもスマホに借りてきたデバイス感が拭えず、好きになれないところだ。
PCと同様に、完全にオープンアーキテクチャにして、好きなOSその他を入れさせてくれ、と思うよ。
(今のメーカー製PCと同様の扱いでいい)

**デフォルトの名無しさん** · 2025/12/22(月) 07:30:48.38

>>536
そのMintが異常なだけだろ
LinuxはUbuntuなどいくつか使ってるが0x5cは当然バックスラッシュ

**デフォルトの名無しさん** · 2025/12/22(月) 08:42:11.05

>>537
「正常」なだけだな。
safariも大昔からパッチ入れてるらしいぞ。
https://teppeis.はてなblog.com/entry/2014/09/safari-backslash-yen-sign

**デフォルトの名無しさん** · 2025/12/22(月) 08:42:33.96

>>536
mint でどのフォント使ってんだよ？
お前が windows からパクってきたフォントか windows 互換フォントわざわざ使ってるんじゃないの？

**デフォルトの名無しさん** · 2025/12/22(月) 09:00:03.13

>>539
さあ？特段自分では何もやってない。apt installやググってああしろこうしろをそのまま。
ただ以下見る限り、0x5cを『日本語環境では』標準で円記号に当てるようだがな。
https://forums.linuxmint-jp.net/viewtopic.php?t=1409

Archならまだしも、Ubuntuですらその程度だからLinuxも広まらないのだな。
規格ガーではなく、出来る限り馬鹿でも問題ないように最初からしとけではある。

**デフォルトの名無しさん** · 2025/12/22(月) 09:16:05.20

>>539
MintのFirefox上では https://agree.5ch.net/v/style.css によって
font-family: ArialMT, "Hiragino Kaku Gothic ProN", "繝偵Λ繧ｮ繝手ｧ偵ざ ProN W3" !important;
が当たってる。(上記のとおり、DevTools上で文字化けしてる)

Mintではターミナルでも半角円記号出るが、これが0x5cか0xa5かは分からん。
フォントは Monospace Regular 10 になってる。

泥chromeのフォントはどうやったら分かるんだこれ？
DevTools開けんし。

**デフォルトの名無しさん** · 2025/12/22(月) 10:01:52.69

>>540
それはキーボードの話な

・linux は UTF8 なので円記号とバックスラッシュをちゃんと使い分けてる
・linux はバックスラッシュを多用するけど円記号はなくてもさして困らない
・JISキーボードには円記号はあるけどバックスラッシュのキーはない、円記号のキー押すと正しく 0xA5 が入力される
バックスラッシュ 0x5C 入力したいけどどうすばいい？って問題がある

標準な解決策は

・JISキーボードなんか捨ててバックスラッシュがある US配列のキーボード買ってこい
・けちりたいなら設定だけUSキーボードにしてキートップなんか見ずにUS配列で使え
・どうしてもJIS配列が好みなら使わないキー（windows 互換にしたければ円記号キーとかでも良い）にバックスラッシュ割り当てろ、打てなくなったのはコピペなりかな漢字変換で入力しろ

みたいな話だ。円記号とバックスラッシュが同じに見える windows ユーザーは常にとまどってくだらない質問繰り返してる

**デフォルトの名無しさん** · 2025/12/22(月) 11:02:41.57

>>542
キーボードに詳しくないやつのために敢えて補足しておくと、現実には

・通常PC用として売られている日本語キーボードは純正のJIS規格配列じゃなくて改造されたOADG106キーボードで円記号とバックスラッシュは別のキーになってはいる
・でもWindowsで指が覚えてる人とかは円記号のキーを押した時にもバックスラッシュになって欲しい

linux 側でもこの辺は分かっているので対応してくれてるけどディストロとかバージョンによってデフォルトをどうするかとかの思想（日本人以外が決めてることも多い）に違いがあるかもしれない（違いが悩ましければUS配列買ってくるか自分でなんとかしろみたいな話）

キーボードとかOS内の話なので他人に影響しないので自分の好きにカスタマイズすればいいよ

**デフォルトの名無しさん** · 2025/12/22(月) 11:20:10.08

>>542-543
ちな、俺環境はUSキーボードだ。(MintもWindowsも)
そしてMintとWindowsで目に見えて違いはない。

MintでUSキーボードのバックスラッシュを押すと、ターミナルでは半角円記号になる。
(なおMonospaceフォントでは、0x5cは半角バックスラッシュ、0xa5は半角円記号らしい)
Mint側であまりバックスラッシュを使用しないのでなんともだが、
例えばDevToolsのコンソール上では問題なく動作する。(表示は半角円記号)
どこで差し替えてるのかはよく分からん。が、まあ、気にせず使える程度にはなってる。
(これはアプリ側で0xa5を0x5c扱いしてるのかも？ならこれでもいいんだが)

**デフォルトの名無しさん** · 2025/12/22(月) 12:18:57.64

>>544
その monospace フォントというのは別のフォントへのリンクで代表名みたいなものなので実態を確認しないと
どうせ mint のことだから monospace が TAKAO PGothic に設定されてるとかなんじゃね？

**デフォルトの名無しさん** · 2025/12/22(月) 12:39:35.32

PCならAlt+数値入力でコードで文字入力できるよね
マカーだからいまでも有効かはしらない

**デフォルトの名無しさん** · 2025/12/22(月) 18:43:45.60

>>545
デフォルトフォント: Ubuntu Regular
デフォルトMonospaceフォント: Monospace Regular
となってることしか分からんな。

とりあえず、
awk -v BINMODE=rw 'BEGIN{for(i=0;i<256;i++)printf("%c",i)}' | od -A x -t x1z
で確認すると、0x5cは半角円記号のフォントになってる。
ただgawkもutf8出力になってて、しかもBINMODEも何故か効かないので
0x80以降がc2,c3が付いてる2バイトコードになってて糞ウザい。
よってこの方法では0xa5のフォントは分からんが、
echo -e "\xa5" とすると、○に?、つまり多分豆腐の親戚が出る。
export LC_ALL=C してからだと0x80以降もバイナリが出てくれるが、od 出力は . だな。
0x80以降にはフォントが当たってない？らしい。

> どうせ mint のことだから
こんな事言ってるから意識高い系馬鹿のままなんだぞ。
こんなのは馬鹿に合わせる＝何も知らない人が何もしなくても苦労しないようにするべきであって、
0x5cが半角円記号なのを見たら火病で死ぬ人たちが勝手にフォントを変更すればいいだけ。
Mint日本語化グループの判断の方が正しい。