文字コード総合スレ part15

2025/12/22(月) 11:02:41.57ID:XCS9cdkE
>>542
キーボードに詳しくないやつのために敢えて補足しておくと、現実には

・通常PC用として売られている日本語キーボードは純正のJIS規格配列じゃなくて改造されたOADG106キーボードで円記号とバックスラッシュは別のキーになってはいる
・でもWindowsで指が覚えてる人とかは円記号のキーを押した時にもバックスラッシュになって欲しい

linux 側でもこの辺は分かっているので対応してくれてるけどディストロとかバージョンによってデフォルトをどうするかとかの思想(日本人以外が決めてることも多い)に違いがあるかもしれない(違いが悩ましければUS配列買ってくるか自分でなんとかしろみたいな話)

キーボードとかOS内の話なので他人に影響しないので自分の好きにカスタマイズすればいいよ
2025/12/22(月) 11:20:10.08ID:ky9x5GOZ
>>542-543
ちな、俺環境はUSキーボードだ。(MintもWindowsも)
そしてMintとWindowsで目に見えて違いはない。

MintでUSキーボードのバックスラッシュを押すと、ターミナルでは半角円記号になる。
(なおMonospaceフォントでは、0x5cは半角バックスラッシュ、0xa5は半角円記号らしい)
Mint側であまりバックスラッシュを使用しないのでなんともだが、
例えばDevToolsのコンソール上では問題なく動作する。(表示は半角円記号)
どこで差し替えてるのかはよく分からん。が、まあ、気にせず使える程度にはなってる。
(これはアプリ側で0xa5を0x5c扱いしてるのかも?ならこれでもいいんだが)
2025/12/22(月) 12:18:57.64ID:XCS9cdkE
>>544
その monospace フォントというのは別のフォントへのリンクで代表名みたいなものなので実態を確認しないと
どうせ mint のことだから monospace が TAKAO PGothic に設定されてるとかなんじゃね?
546デフォルトの名無しさん
垢版 |
2025/12/22(月) 12:39:35.32ID:/MDqFcRg
PCならAlt+数値入力でコードで文字入力できるよね
マカーだからいまでも有効かはしらない
2025/12/22(月) 18:43:45.60ID:ky9x5GOZ
>>545
デフォルトフォント: Ubuntu Regular
デフォルトMonospaceフォント: Monospace Regular
となってることしか分からんな。

とりあえず、
awk -v BINMODE=rw 'BEGIN{for(i=0;i<256;i++)printf("%c",i)}' | od -A x -t x1z
で確認すると、0x5cは半角円記号のフォントになってる。
ただgawkもutf8出力になってて、しかもBINMODEも何故か効かないので
0x80以降がc2,c3が付いてる2バイトコードになってて糞ウザい。
よってこの方法では0xa5のフォントは分からんが、
echo -e "\xa5" とすると、○に?、つまり多分豆腐の親戚が出る。
export LC_ALL=C してからだと0x80以降もバイナリが出てくれるが、od 出力は . だな。
0x80以降にはフォントが当たってない?らしい。

> どうせ mint のことだから
こんな事言ってるから意識高い系馬鹿のままなんだぞ。
こんなのは馬鹿に合わせる=何も知らない人が何もしなくても苦労しないようにするべきであって、
0x5cが半角円記号なのを見たら火病で死ぬ人たちが勝手にフォントを変更すればいいだけ。
Mint日本語化グループの判断の方が正しい。
2025/12/22(月) 20:05:16.27ID:XCS9cdkE
ちな TAKAO フォントというのは IPA フォントを日本語 Windows に入れて使えるように MS Gothic/MS明朝互換に魔改造したフォント

Linux 用というわけではないのに元のIPAフォントより対応文字数が多いとかかなんかで採用されてた過去がある。ただし日本語Windows互換フォントなので 0x5C が円記号になってしまう(mint の派生元の ubuntuとかだと10年くらい前に問題になって別フォントに変更された記憶だけど mint は TAKAO が残ってるかも

あと 0x5C が円記号になるのはIPAモナーフォント。これは2chのAAを正しく表示するために文字幅まで含めてMSゴシック互換に魔改造したフォント

逆に linux ではこれらのような日本語Windows互換を名乗ってる特殊なフォント以外でUTF-8 の 0x5C が円記号になるのフォントは聞いたことがない (もちろん JIS X 0201 フォントなら円記号だが
2025/12/22(月) 20:08:07.06ID:Fy0oh28H
awk で調べる発想に感動した。後で試してみる
2025/12/23(火) 08:17:08.76ID:Xb2nAkTJ
>>548
> 逆に linux ではこれらのような日本語Windows互換を名乗ってる特殊なフォント以外でUTF-8 の 0x5C が円記号になるのフォントは聞いたことがない
これは多分因果関係が逆で、unicode警察が厳しく取り締まった結果、

・0x5cがバックスラッシュのもの”のみ”をucnicodeと称して良い
・0x5cが円記号のフォントは全て「Windows互換」とし、unicodeと称するのは禁止

となったからではないか?
最終的にどうしたいのか知らんが、原理原則通り美しく、

・半角円記号として用いられている0x5cは全て0xa5に書き換える

を目指すなら、utf8→utf8でのコード変換(=同一コード同士でのコー
ド変換)はどう考えてもおかしいので、
Windowsはutf-8ではない、まがい物、例えばutf-8"W"を使っている、等、
最低限「別物」として一般的に認識させる必要があり、この宣伝活動に従事しているのがunicode警察だとも考えられる。
そしてこれは一定の成果を得られ、
「全てのunicodeフォントでは0x5cはバックスラッシュであり、
0x5cが円記号なのは"Windows互換フォント"」と認識される事になった。
2025/12/23(火) 08:17:43.46ID:Xb2nAkTJ
次の手は実際の書き換えだが、現実的にはこれは割と簡単で、

・和文でバックスラッシュが用いられる事はない
・日本語圏でバックスラッシュを用いてるのはプログラマだけ

なので、ascii範囲の文字数と、それ以外の文字数を比べ、

・和文ならほぼ100%の確率で 和文文字数>>>ascii文字数、となるので、この場合の0x5cは全て0xa5に置換
・プログラムコードなら99%以上は、 ascii文字数>和文文字数、となるので、この場合は何もしない

で、9割以上の案件は解決する。
ここみたいに0x5cを議論してる場合は手動での回避が必要だが、
この場合は現時点でも問題が発生しているので、
(例えばこのスレを泥chromeで読めばWindowsとは違った見え方になる)
手動で置換しても手間が増えるわけではない。

だからまあ、unicode警察勢力の思惑は、まあ割と上手く進行中なのだろうよ。
2025/12/23(火) 08:18:22.68ID:Xb2nAkTJ
> mint の派生元の ubuntuとかだと10年くらい前に問題になって別フォントに変更された記憶
ここら辺が無駄にお高く留まってるところだよ。
原理的Linux信者はWindowsの撲滅を願っており、この為にはとにかくシェアが必要なのだが、
Linuxのシェアを上げる養分は100%、Windows→Linuxの移行組であるにもかかわらず、
Windowsとの間に無駄に壁を作っているという。
unicode警察を見習って、大いなる目標「Windowsの撲滅」の為に、積極的にWindowsを丸パクする、のもありだと思うんだけどな。
2025/12/23(火) 08:53:55.68ID:povEAx9L
>>550
バックスラッシュと円記号を同一扱ってるのは日本語Windowsだけで英語版Windowsとかでは unicode 導入以前からバックスラッシュと円記号は別の文字として普通に使えていた。もちろん unicode 導入後も問題は起きない。なので UTF8W とかだと各国から異論出まくりだろう

UTF8MSJP と UTF8-MSCP932−COMPATIBLE みたいな名前にしてユーザが円記号になるWindows CP932互換フォント使ってる場合は Transfer-Encoding この名前を設定して、バックスラッシュになる国際標準のフォント使ってる場合には正規の UTF8 名乗って送ってくれれば問題は解決するんだろう

もちろん UTF8 しか受けつけないと規定されたプロトコルでは送信側が UTF8MSJP → UTF8 の事前変換が必須ということで(むしろ常に事前変換するようにすれば名前なんか不要だぞ
2025/12/23(火) 09:05:39.53ID:povEAx9L
>>552
英語と日本語で互換性が無くなるのは linux では困るんだよ
日本語 linux なんて OS は存在しなくて1つの国際版で全世界サポートなので
アメリカ人と日本人がメールしたら文字化けとかはバグ扱いになるので許されない。そもそもアメリカ人は特殊事情知らない、そうすると日本側が規格的に正しい国際事情に合わせる結論にしかならない
日本語Wndowsだけ使って井の中の蛙してれば不便ないかもだが国際化されたアプリとか作れないぞ
2025/12/23(火) 09:54:36.31ID:glgnMXsy
異体字が存在するのは歴史的経緯があるので仕方がないけど、常用漢字は時々変更されるお気持学問だよね。
人間さんが使う漢字が短期間で変わる方の意味が分からん。
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況