X

文字コード総合スレ part14

■ このスレッドは過去ログ倉庫に格納されています
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
2023/05/14(日) 08:40:55.72ID:c+bjkz0t
>>246
昔から両方あるけど、違う意味で使い分けられていた。
障碍:じゃまな物があって進められないこと
障害:危害を加えられて進められないこと

当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。
2023/05/14(日) 08:44:30.56ID:c+bjkz0t
碍を害と統合するとか unicode 以上の暴挙。
国語審議会には漢字廃止論者がいたので仕方ないね。
2023/05/14(日) 11:32:59.03ID:hyIJBQi4
近頃は漢字を使うことをあきらめているケースも多いよね
こ線橋とか
2023/05/14(日) 15:13:31.89ID:+xFqdUJk
こうしちゃおう
跨線橋

股線橋
2023/05/14(日) 16:03:06.41ID:CQAZebBv
>>247
まさにそれが俗説
https://www8.cao.go.jp/shougai/suishin/seisaku_iinkai/k_54/txt/s3-2.txt
2023/05/14(日) 18:31:54.44ID:c+bjkz0t
>>251
俗説でも何でもないだろうが。
引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。
難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。
しかしあくまで代用は代用。
2023/05/14(日) 18:40:36.33ID:c+bjkz0t
戦争で片足を失った。→ 身体を傷つけられているので「障害」でOK
生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG
使った例があるかどうかじゃなくて、正しく使われてるかの問題。
2023/05/14(日) 18:47:52.94ID:sJ4QSX2k
>当用漢字で碍を害に置き換えたせいで、

嘘はここだな。
その流れは戦前からあったと。
2023/05/14(日) 18:50:56.65ID:c+bjkz0t
>>254
昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
2023/05/14(日) 18:56:05.62ID:sJ4QSX2k
>当用漢字で碍を害に置き換えたせいで、この2つが衝突した。

せいで衝突したんじゃないな。
2023/05/14(日) 18:58:21.13ID:c+bjkz0t
>>256
衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
2023/05/14(日) 19:08:36.54ID:sJ4QSX2k
それよりも前から衝突はしてるだろう。
あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。
学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
2023/05/14(日) 19:12:14.69ID:c+bjkz0t
話を戻すと大陸の簡体字も同じやり口。
「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
2023/05/14(日) 19:13:38.88ID:sJ4QSX2k
話を戻してて笑った。
2023/05/14(日) 19:14:35.45ID:c+bjkz0t
>>258
当用漢字は禁止だよ。公文書、学校教育、新聞などでの使用ができなくなった。
当用漢字が廃止されて、常用漢字の制定で推奨に変わった。
2023/05/14(日) 19:22:00.23ID:sJ4QSX2k
使用が一切認められない「禁止」ではない。
そして「話を戻すと」、せいで衝突したんじゃないな。
2023/05/14(日) 21:29:14.62ID:Rm+3qTCO
当用漢字表
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/syusen/tosin02/index.html

使用上の注意事項
イ   この表の漢字で書きあらわせないことばは,別のことばにかえるか,または,かな書きにする。
ロ   代名詞・副詞・接続詞・感動詞・助動詞・助詞は,なるべくかな書きにする。
ハ   外国(中華民国を除く)の地名・人名は,かな書きにする。
 ただし,「米国」「英米」等の用例は,従来の慣習に従ってもさしつかえない。
ニ   外来語は,かな書きにする。
ホ   動植物の名称は,かな書きにする。
ヘ   あて字は,かな書きにする。
ト   ふりがなは,原則として使わない。
チ   専門用語については,この表を基準として,整理することが望ましい。
2023/05/14(日) 23:31:19.13ID:eRs+xSP8
原則となる調達基準が制定されてそれ以外が入りにくくなったみたいな話だよね
こういうの一言で言えば何なんだろう?「ルール」?
2023/05/15(月) 00:45:03.74ID:ZXlC61aQ
簡略化は一貫性がない場合もあるのな。傳->伝、團->団とか
2023/05/15(月) 15:41:30.69ID:/VJRgGP9
異体字はその定義があいまいだから、IT技術者の仕様都合でどうにかできる話ではないでしょ
2023/05/19(金) 01:30:50.77ID:Gmj5KBEl
UTF-8をよく見かけるけど
7とか6とかも昔はあったんですか?
2023/05/19(金) 02:14:03.40ID:yl46Wrbm
8ビットスルーでない経路が絶滅危惧種だし
HTTPで無駄にUTF-7なんて使っても知らんいわれるのがオチ
つかうにしてもプログラム書かないといけないならBase64のが筋がよさそう
2023/05/19(金) 03:59:19.38ID:D8L3U8l/
UTF-5のことも忘れないでいてあげるべき

UTF-5 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/UTF-5
2023/05/19(金) 05:56:35.73ID:EpqBRKGy
UTF-1は美しそうだ
2023/05/19(金) 06:20:44.06ID:Gmj5KBEl
やっぱり色々あるんですね㌧
これからも増える可能性もありそうですねー
2023/05/19(金) 07:22:38.06ID:8oPN6wuF
・・・ギャグで言ってるつもりなのか本気でそう思ってるのか判断がつかないんで一応補足しとくと
「UTF-#」の#はバージョン番号じゃなくて
Unicodeの文字を何ビットで表現するかを意味してる

基本的には16Bitで表現するUTF-16が一番楽
サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい
だが現状はAsciiと互換性のある8Bit表現のUTF-8が事実上の標準となった
UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうとしてた昔の通信経路向けの規格
2023/05/19(金) 07:55:58.41ID:Gmj5KBEl
>>272
バージョンじゃないんですか、詳しくありがとうございます!
2023/05/19(金) 08:47:03.32ID:rVwS6Z+x
>>272
あんまり知ったかぶりすんな
>「UTF-#」の#はバージョン番号じゃなくて
虚偽、UTF-1 とか UTF-2 はバージョン

> 基本的には16Bitで表現するUTF-16が一番楽
虚偽、(もしくは個人の感想)

> UTF-7はデータビット数を8⇒7に減らすことで少しでも通信速度を稼ごうと
虚偽
2023/05/19(金) 12:13:32.86ID:clAdGtGh
>>238
毛沢東文字やね
あれはスパイを発見し易くするために導入された
276デフォルトの名無しさん
垢版 |
2023/05/19(金) 12:33:17.95ID:clAdGtGh
>>272
>サロゲートペア文字もそうでない文字も同じデータ長として管理するなら32Bit表現のUTF-32がよい

doubt
2023/05/19(金) 13:28:13.37ID:1PFium2f
64bit版g++は、規定のstd::wstringがUTF-32だよ
2023/05/19(金) 13:29:18.88ID:1PFium2f
規定じゃなくて既定だった
2023/05/19(金) 15:02:22.21ID:clAdGtGh
>同じデータ長

doubt
2023/05/19(金) 16:15:02.50ID:DhYPerzk
ネタとして楽しむためには正しい知識がいる、という
2023/05/20(土) 00:06:13.39ID:Wgabc+Na
文字コード奥深過ぎだなアニメ化して欲しい
2023/05/20(土) 13:16:12.40ID:QfLlK72x
IVSなめんな
2023/05/20(土) 13:31:47.35ID:XYoRKnAf
ペロッ...これは、0xE0100で修飾された異体字!!
2023/05/20(土) 13:52:04.98ID:HDVuLGIu
文字コードソムリエですね
2023/05/21(日) 20:48:13.44ID:5peOv9L3
\ソムリエ
2023/05/23(火) 23:24:40.51ID:R2ZlFyvy
漢字構成記述文字 IDSは何処かで有効活用されているのですか?

今の字体の見た目の直感と違うのですが
黒 →⿱里灬 ダメ?

https://kanji-database.sourceforge.net/ids/ids-analysis.html
>解字IDSデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。

U+09ED1 黑 ⿱𡆧炎 會意 3840010
U+09ED2 黒 →黑
https://github.com/cjkvi/cjkvi-ids/blob/86b4d16159f0079437870408f0ca186e529015db/ids-analysis.txt#L18185
2023/05/24(水) 23:52:15.53ID:nx1OpmdE
見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね
2023/05/27(土) 01:16:15.20ID:JRhYMEVC
簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた?わけで
一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな
という訳で今すぐ滅びろ
2023/05/27(土) 06:31:36.72ID:EKOWOt22
二簡字ぐらいいくとかっこよくも見えてくる
2023/05/27(土) 14:22:30.10ID:Qh66ZSbX
utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした
2023/05/27(土) 15:25:11.32ID:Iw6vgmTP
メモリ上の内部コードはしらんけど
xlsxはXMLだからUTF-8じゃない?
2023/05/27(土) 19:18:50.92ID:4YJ0U8GR
文語で「じゃない」を使うおじさん
2023/05/27(土) 22:18:54.32ID:Qh66ZSbX
お姉さんの可能性あるで
俺もお姉さんだし( ・`ω・´)
2023/05/27(土) 22:19:28.39ID:Qh66ZSbX
>>291
他の人のExcelも今度確認してみるわ
2023/05/28(日) 11:38:12.73ID:mveGBcKw
XML は BOMつき UTF-16 も許されてるんじゃなかったっけ?
BOM無しなら UTF-8 だったか
2023/05/28(日) 21:52:09.12ID:YNYjEu0w
excelは昔からさまざまな文字コードに対応してる
高い互換性を維持し続けてる
それがMSの強さ
こういうところはUnixとかLinuxとかOSSでは
太刀打ちできない
2023/05/28(日) 22:53:12.34ID:mveGBcKw
>>296
emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。
無知が擁護するとMSの格が下がるのでやめとけ。
2023/05/28(日) 23:26:13.89ID:ig5hb7tN
>>291
そうだね。実際には階層的になったXMLをzipにしてあるけど

んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ
おっと文字コード関係なかったw
2023/05/29(月) 01:28:07.80ID:0ytXwqTB
Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ
ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり
5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり
その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。
2023/05/29(月) 12:46:50.20ID:MCD4Vue8
2012年頃?
Windows10 が最後の Windows バージョンです(キリっ
2023/05/29(月) 13:52:34.19ID:M19znpYQ
MSはJIS X 0213:2012のIVSに
Wordが早く対応したりしてそれほど悪い印象はない
しかしパス名が未だにCP932系なのは何とかならんのか
2023/05/29(月) 14:43:43.87ID:0ytXwqTB
>>301
ロケール設定とアプリの問題じゃないの?
2023/05/29(月) 15:27:55.29ID:hGly4rru
近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース&標準準拠を進めているのは良い
2023/05/29(月) 21:29:10.05ID:NNOaBXNh
>>302
日本ロケールだとNTFSのパス名がShift JIS
2023/05/29(月) 21:38:29.70ID:mH3oOe43
ファイル名で使用される文字セット
https://learn.microsoft.com/ja-jp/windows/win32/intl/character-sets-used-in-file-names

> NTFS では、Unicode にファイル名が格納されます。
2023/05/29(月) 21:41:41.73ID:1bms2IW3
>>304
そういうのはコンソールやアプリ側のエンコーディング設定であってな...
2023/05/29(月) 21:58:43.15ID:0DJ9XOU5
UTF16はMBCSと共存しており切り捨てた訳ではない
windows11で64bit版だけになるまで16bitアプリも動かせてたわけで
そもそもソースレベルでしか互換性を保てないのがLinux
Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい?
2023/05/29(月) 23:12:48.07ID:0ytXwqTB
>>307
あほ? EUC-JPアプリって何?
20年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが?
ロケールの切り替えとか知ってる?
2023/05/30(火) 07:55:17.64ID:89IT6MB6
>>308
Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く?
冗談はやめてほしい
百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ
Windowsだったら20年前のMBCSのソフトもそのまま動くよ
当然Unicodeのソフトも動く
Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ
Windows11より速いですね
あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい
2023/05/30(火) 08:50:00.67ID:ZT3eEMEM
>>309
技術がないやつは、これだから。
お前の技術が足りないのをOSのせいにしてるだけだな
全部できるぞ。俺が実際使ってるし
Ubuntu で32ビットアプリも動いてるよ
2023/05/30(火) 09:40:11.60ID:ksZIMFia
コンパイルしたなら文字コード関係なくそりゃ動くわな。
スクリプト言語なら知らんが。
2023/05/30(火) 10:48:25.25ID:sLlAlpBn
スクリプト言語のが文字という概念があるから
ロケールみて外部入出力ちゃんと取り持ってくれそう
昔のプログラムはバイトストリームで処理してるから問題ないだけで
ロケールなんてgettextで文言変わるくらいにしか利用してない
2023/05/30(火) 12:45:01.53ID:+VlMdD+Q
>>309
冗談は辞めてほしい
君が何も知らないのはよく分かった
2023/06/07(水) 04:27:17.54ID:0FN/+S+x
タイトルに付いていたらあ、クソだなと思うもの
異世界
チート
転生
のんびり
最強
スローライフ
無双
ギルド
追放
スキル
おっさん
勇者
魔王
賢者
魔術師
錬金術
聖女
奴隷
悪役令嬢
婚約破棄
2023/06/07(水) 17:58:56.39ID:Xm2S+dHf
遅くとも<title>までにはエンコードを確定できるワードが欲しいね
2023/06/18(日) 09:23:53.16ID:a4zjBeRN
どす恋!
2023/06/22(木) 20:17:25.79ID:u8IMi/jS
>>312
> 昔のプログラムはバイトストリームで処理してるから問題ないだけで
> ロケールなんてgettextで文言変わるくらいにしか利用してない

あっさり言ってくれちゃってますが
Ken Thompson大先生の大発明UTF-8以前は
みんな処理系から実行系まで
USC-2対応に書き換えるつもりだったんですよ?

凄く簡単なアイデアだけど着眼点がシャープ

それから商業UNIXのm17nは徹底的なもので
grepなんかも各言語、各文字コード対応だった
2023/06/22(木) 20:30:09.06ID:6hgABg1u
👁--------→
2023/06/22(木) 23:18:43.47ID:xBwPkaNz
昔のプログラムはバイトストリームで処理してるから問題ない?
そんなわけないだろ
正規表現の.とかUTF-8の一文字に対応させんといかんから
ほとんどのプログラムに修正が必要だぞ
今も修正できてないコマンドはいくらでもある
2023/06/23(金) 00:24:16.74ID:M8BBIM3e
相手が変なこといってるなと感じたら
じぶんが拾えてない情報がないか確認するよねふつう
2023/06/23(金) 00:39:25.84ID:31qk7hM1
ふわっとしてんな
2023/06/23(金) 05:42:45.03ID:G2V4SBFP
>>320
お前、もしかして相手が変なことを言っていると感じているのか?
2023/06/23(金) 11:06:55.50ID:wom6IAq0
>>317
みんな突っ込まないでくれているけど
USC-2 → UCS-2
2023/06/23(金) 11:12:13.58ID:yEQ18GoZ
>>323
タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで
無理に訂正する必要もないよ
2023/06/23(金) 13:39:13.07ID:fMNbteF1
なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった
2023/06/23(金) 13:40:28.91ID:fMNbteF1
のw
2023/06/23(金) 16:35:16.14ID:RASP4hQI
このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ
2023/06/23(金) 16:49:42.58ID:fJe7a8sc
UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
2023/06/24(土) 15:50:27.65ID:v2U7ONLO
これで気兼ねなくATMの話ができます!
2023/06/24(土) 15:54:00.59ID:xBNVjuxa
>>319
正規表現とか使ってなければ問題無いだろう
ほとんどのプログラムに修正が必要は大げさ
2023/06/24(土) 16:15:39.62ID:6718OB4j
昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。
MS-DOSの話してるんだろうか?
2023/06/24(土) 17:49:25.13ID:mybFnLY5
>>330
ASCII以外の文字を扱う全てのプログラムに修正が必要
2023/06/25(日) 09:29:11.85ID:u4T7tXaY
>>331
昔も今もバイトストリームだろ
じゃなきゃバックスラッシュと円記号が同一視されるはずがない
2023/06/25(日) 11:58:16.15ID:0nHjw2pZ
>>333
小学生でもそんなこと言わんぞ
「文字コード」って聞いたことあるか?
2023/06/25(日) 13:42:41.66ID:gLBngrQA
多バイト文字の処理が念頭にあるんだろうけども
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし
2023/06/25(日) 17:28:04.26ID:ySKqPmeW
うん。だからテキスト処理関係のフィルタコマンドだよ
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要
2023/06/25(日) 17:56:47.65ID:0nHjw2pZ
>>336
お前どこのツール使ってるの?
オレの sort とかのツールはちゃんとロカール対応してるけど?
2023/06/25(日) 19:33:55.93ID:+QOmRgEX
>>329
それは回線にモデルとかISBNとか使ってた頃の遺物だろww
2023/06/25(日) 19:53:24.27ID:s5vVSYDk
ぼくは雑誌コード
2023/06/25(日) 19:59:23.87ID:ySKqPmeW
>>337
だからロケールに対応する修正が入ってるから今は動くようになってるんだろ
UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる
2023/06/25(日) 20:41:53.62ID:0nHjw2pZ
>>340
Unix 系はunicodeとか発明される以前の昔からロカールあったろ? お前のは無かったの?
UTF-8 きても対応文字コードが増えた以上の変化はないぞ
2023/06/25(日) 21:34:04.71ID:nujrLvHq
>>336
ほとんどのプログラムって言っていたのが随分と対象が減ったな
2023/06/25(日) 21:49:59.79ID:ySKqPmeW
>>341
昔にロケールなんて概念ねーよw
あったとしてもASCIIしか考慮してないプログラムは
ロケールに対応してない
2023/06/25(日) 21:54:46.00ID:ySKqPmeW
どうせ今の話しか知らんくせに
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら?

GNU Coreutils - Multibyte/unicode support
https://crashcourse.housegordon.org/coreutils-multibyte-support.html
2023/06/25(日) 21:56:04.00ID:ySKqPmeW
多くの人の努力によってようやくUTF-8に対応しつつあるというのに
ASCIIのままのプログラムでUTF-8でも動くとか

あーほみたいじゃなくて、あーほ
2023/06/25(日) 22:09:28.31ID:0nHjw2pZ
>>343
unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの?
調べもしないの? 恥ずかしくない?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況