文字コード総合スレ part15
1デフォルトの名無しさん
2024/08/17(土) 11:18:00.01ID:VHa7+i59 文字コードについて語り合うスレです
549デフォルトの名無しさん
2025/12/22(月) 20:08:07.06ID:Fy0oh28H awk で調べる発想に感動した。後で試してみる
550デフォルトの名無しさん
2025/12/23(火) 08:17:08.76ID:Xb2nAkTJ >>548
> 逆に linux ではこれらのような日本語Windows互換を名乗ってる特殊なフォント以外でUTF-8 の 0x5C が円記号になるのフォントは聞いたことがない
これは多分因果関係が逆で、unicode警察が厳しく取り締まった結果、
・0x5cがバックスラッシュのもの”のみ”をucnicodeと称して良い
・0x5cが円記号のフォントは全て「Windows互換」とし、unicodeと称するのは禁止
となったからではないか?
最終的にどうしたいのか知らんが、原理原則通り美しく、
・半角円記号として用いられている0x5cは全て0xa5に書き換える
を目指すなら、utf8→utf8でのコード変換(=同一コード同士でのコー
ド変換)はどう考えてもおかしいので、
Windowsはutf-8ではない、まがい物、例えばutf-8"W"を使っている、等、
最低限「別物」として一般的に認識させる必要があり、この宣伝活動に従事しているのがunicode警察だとも考えられる。
そしてこれは一定の成果を得られ、
「全てのunicodeフォントでは0x5cはバックスラッシュであり、
0x5cが円記号なのは"Windows互換フォント"」と認識される事になった。
> 逆に linux ではこれらのような日本語Windows互換を名乗ってる特殊なフォント以外でUTF-8 の 0x5C が円記号になるのフォントは聞いたことがない
これは多分因果関係が逆で、unicode警察が厳しく取り締まった結果、
・0x5cがバックスラッシュのもの”のみ”をucnicodeと称して良い
・0x5cが円記号のフォントは全て「Windows互換」とし、unicodeと称するのは禁止
となったからではないか?
最終的にどうしたいのか知らんが、原理原則通り美しく、
・半角円記号として用いられている0x5cは全て0xa5に書き換える
を目指すなら、utf8→utf8でのコード変換(=同一コード同士でのコー
ド変換)はどう考えてもおかしいので、
Windowsはutf-8ではない、まがい物、例えばutf-8"W"を使っている、等、
最低限「別物」として一般的に認識させる必要があり、この宣伝活動に従事しているのがunicode警察だとも考えられる。
そしてこれは一定の成果を得られ、
「全てのunicodeフォントでは0x5cはバックスラッシュであり、
0x5cが円記号なのは"Windows互換フォント"」と認識される事になった。
551デフォルトの名無しさん
2025/12/23(火) 08:17:43.46ID:Xb2nAkTJ 次の手は実際の書き換えだが、現実的にはこれは割と簡単で、
・和文でバックスラッシュが用いられる事はない
・日本語圏でバックスラッシュを用いてるのはプログラマだけ
なので、ascii範囲の文字数と、それ以外の文字数を比べ、
・和文ならほぼ100%の確率で 和文文字数>>>ascii文字数、となるので、この場合の0x5cは全て0xa5に置換
・プログラムコードなら99%以上は、 ascii文字数>和文文字数、となるので、この場合は何もしない
で、9割以上の案件は解決する。
ここみたいに0x5cを議論してる場合は手動での回避が必要だが、
この場合は現時点でも問題が発生しているので、
(例えばこのスレを泥chromeで読めばWindowsとは違った見え方になる)
手動で置換しても手間が増えるわけではない。
だからまあ、unicode警察勢力の思惑は、まあ割と上手く進行中なのだろうよ。
・和文でバックスラッシュが用いられる事はない
・日本語圏でバックスラッシュを用いてるのはプログラマだけ
なので、ascii範囲の文字数と、それ以外の文字数を比べ、
・和文ならほぼ100%の確率で 和文文字数>>>ascii文字数、となるので、この場合の0x5cは全て0xa5に置換
・プログラムコードなら99%以上は、 ascii文字数>和文文字数、となるので、この場合は何もしない
で、9割以上の案件は解決する。
ここみたいに0x5cを議論してる場合は手動での回避が必要だが、
この場合は現時点でも問題が発生しているので、
(例えばこのスレを泥chromeで読めばWindowsとは違った見え方になる)
手動で置換しても手間が増えるわけではない。
だからまあ、unicode警察勢力の思惑は、まあ割と上手く進行中なのだろうよ。
552デフォルトの名無しさん
2025/12/23(火) 08:18:22.68ID:Xb2nAkTJ > mint の派生元の ubuntuとかだと10年くらい前に問題になって別フォントに変更された記憶
ここら辺が無駄にお高く留まってるところだよ。
原理的Linux信者はWindowsの撲滅を願っており、この為にはとにかくシェアが必要なのだが、
Linuxのシェアを上げる養分は100%、Windows→Linuxの移行組であるにもかかわらず、
Windowsとの間に無駄に壁を作っているという。
unicode警察を見習って、大いなる目標「Windowsの撲滅」の為に、積極的にWindowsを丸パクする、のもありだと思うんだけどな。
ここら辺が無駄にお高く留まってるところだよ。
原理的Linux信者はWindowsの撲滅を願っており、この為にはとにかくシェアが必要なのだが、
Linuxのシェアを上げる養分は100%、Windows→Linuxの移行組であるにもかかわらず、
Windowsとの間に無駄に壁を作っているという。
unicode警察を見習って、大いなる目標「Windowsの撲滅」の為に、積極的にWindowsを丸パクする、のもありだと思うんだけどな。
553デフォルトの名無しさん
2025/12/23(火) 08:53:55.68ID:povEAx9L >>550
バックスラッシュと円記号を同一扱ってるのは日本語Windowsだけで英語版Windowsとかでは unicode 導入以前からバックスラッシュと円記号は別の文字として普通に使えていた。もちろん unicode 導入後も問題は起きない。なので UTF8W とかだと各国から異論出まくりだろう
UTF8MSJP と UTF8-MSCP932−COMPATIBLE みたいな名前にしてユーザが円記号になるWindows CP932互換フォント使ってる場合は Transfer-Encoding この名前を設定して、バックスラッシュになる国際標準のフォント使ってる場合には正規の UTF8 名乗って送ってくれれば問題は解決するんだろう
もちろん UTF8 しか受けつけないと規定されたプロトコルでは送信側が UTF8MSJP → UTF8 の事前変換が必須ということで(むしろ常に事前変換するようにすれば名前なんか不要だぞ
バックスラッシュと円記号を同一扱ってるのは日本語Windowsだけで英語版Windowsとかでは unicode 導入以前からバックスラッシュと円記号は別の文字として普通に使えていた。もちろん unicode 導入後も問題は起きない。なので UTF8W とかだと各国から異論出まくりだろう
UTF8MSJP と UTF8-MSCP932−COMPATIBLE みたいな名前にしてユーザが円記号になるWindows CP932互換フォント使ってる場合は Transfer-Encoding この名前を設定して、バックスラッシュになる国際標準のフォント使ってる場合には正規の UTF8 名乗って送ってくれれば問題は解決するんだろう
もちろん UTF8 しか受けつけないと規定されたプロトコルでは送信側が UTF8MSJP → UTF8 の事前変換が必須ということで(むしろ常に事前変換するようにすれば名前なんか不要だぞ
554デフォルトの名無しさん
2025/12/23(火) 09:05:39.53ID:povEAx9L >>552
英語と日本語で互換性が無くなるのは linux では困るんだよ
日本語 linux なんて OS は存在しなくて1つの国際版で全世界サポートなので
アメリカ人と日本人がメールしたら文字化けとかはバグ扱いになるので許されない。そもそもアメリカ人は特殊事情知らない、そうすると日本側が規格的に正しい国際事情に合わせる結論にしかならない
日本語Wndowsだけ使って井の中の蛙してれば不便ないかもだが国際化されたアプリとか作れないぞ
英語と日本語で互換性が無くなるのは linux では困るんだよ
日本語 linux なんて OS は存在しなくて1つの国際版で全世界サポートなので
アメリカ人と日本人がメールしたら文字化けとかはバグ扱いになるので許されない。そもそもアメリカ人は特殊事情知らない、そうすると日本側が規格的に正しい国際事情に合わせる結論にしかならない
日本語Wndowsだけ使って井の中の蛙してれば不便ないかもだが国際化されたアプリとか作れないぞ
555デフォルトの名無しさん
2025/12/23(火) 09:54:36.31ID:glgnMXsy 異体字が存在するのは歴史的経緯があるので仕方がないけど、常用漢字は時々変更されるお気持学問だよね。
人間さんが使う漢字が短期間で変わる方の意味が分からん。
人間さんが使う漢字が短期間で変わる方の意味が分からん。
556デフォルトの名無しさん
2025/12/23(火) 12:37:34.49ID:i9POOTwU >>534
ベクトル用の二重打ちアルファベットがコード順じゃなくて飛び飛びにしてるのがセンス無いな
ベクトル用の二重打ちアルファベットがコード順じゃなくて飛び飛びにしてるのがセンス無いな
557デフォルトの名無しさん
2025/12/23(火) 12:39:25.57ID:i9POOTwU >>534
漏れはuFを使ってたな
漏れはuFを使ってたな
558デフォルトの名無しさん
2025/12/23(火) 12:57:07.40ID:i9POOTwU >>555
毛沢東文字はどうしてるんだろ
毛沢東文字はどうしてるんだろ
レスを投稿する
ニュース
- 真冬に“エアコン”がなく孤独な死…生活保護受給者40代シングルマザーの悲劇が行政に問いかける“教訓” [ぐれ★]
- 【芸能】グラドル・阿波みなみ 握手会が急きょ中止… 客が一人も来ず 「並びが0人で中止」呆然写真に驚愕感想や辛辣意見も [冬月記者★]
- 【東京】西東京市の住宅で親子4人死亡 母親名義のマンションで知人男性も死亡 いきさつや関連を捜査 警視庁 ★4 [ぐれ★]
- 高市首相「無責任な減税しない」、国債発行抑える 単独インタビュー - 日経 [少考さん★]
- 【米国】海軍、「トランプ級」新型戦艦を建造へ [シャチ★]
- 日テレの男性記者と女性記者がカラオケBOXで行為に及び、NHK記者が動画撮影 動画が拡散するも女性記者は「泥酔していて記憶がない」★5 [Ailuropoda melanoleuca★]
- 【実況】博衣こよりのえちえちしゃどばすチャンネルビヨンド クリスマススペシャル!🧪
- 【実況】博衣こよりのえちえちしゃどばすチャンネルビヨンド クリスマススペシャル!🧪★2
- 小野田紀美、イキリすぎて国民から嫌われ始める「アニメキャラの真似をしてるオタクみたいで痛くて見ていられない」 [856698234]
- 【悲報】国民・玉木「連立したい」 [115996789]
- 高市早苗「戦闘員には最後まで戦っていただく」 [834922174]
- 氷見の寒ブリ、不漁で価格高騰。1本11万円に [663766621]
