文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/16(日) 12:38:15.61

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2019/09/03(火) 00:26:14.39

そんな圧力あったかなあ

**デフォルトの名無しさん** · 2019/09/03(火) 06:39:22.40

>>625
所でLinuxもデスクトップ環境も
一つに統一したほうが良いのではないか？ん？

**デフォルトの名無しさん** · 2019/09/03(火) 08:49:15.73

MSがXPSを作った時、まだPDFは標準規格化されてなかったはずだが
それにPDFの競合規格はXPS以外にもたくさんある

https://ja.wikipedia.org/wiki/Portable_Document_Format#PDF%E3%81%AE%E7%AB%B6%E5%90%88%E8%A6%8F%E6%A0%BC

**デフォルトの名無しさん** · 2019/09/03(火) 10:21:51.94

PDFはアドビのプロプラフォーマットってイメージが抜けないｗ

**デフォルトの名無しさん** · 2019/09/03(火) 10:34:53.29

JavaだってSunのプロプラ言語だぞ

**667** · 2019/09/03(火) 12:40:23.25

今は違うけどね

**デフォルトの名無しさん** · 2019/09/03(火) 15:04:07.63

そのうち「MSはUnicodeを潰すためにCP932を作った」とか言い出す奴が出てくる

**デフォルトの名無しさん** · 2019/09/03(火) 15:40:05.81

Windowsの内部でCP932に依存している。
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる

**デフォルトの名無しさん** · 2019/09/03(火) 16:56:31.60

>>627
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり，古いカーネルや別の派生版との互換性が，Windowsのそれらに比べてない。

**デフォルトの名無しさん** · 2019/09/03(火) 16:58:35.78

>>628
当時PDFは国際標準にこそなってなかったが，
オープンフォーマットだったし，様々な場面で使われてた。
ただ描画ソフトがクソ重たいのしかなかった記憶がw

**デフォルトの名無しさん** · 2019/09/03(火) 17:26:28.25

>>634
だから多様性を重んじるっていうのは
競合するフォーマットが複数できるってことで
（例えば画像フォーマットや圧縮フォーマット）
Microsoftが独自フォーマットを作るのと同じ思想なんだよ

**デフォルトの名無しさん** · 2019/09/03(火) 17:35:15.54

>>635
> オープンフォーマットだったし
PDFはオープンではありませんでした。
プロプライエタリだって言ってるだろ

**デフォルトの名無しさん** · 2019/09/03(火) 19:23:12.90

>>633
いつの知識なのかw

Windowsは表面的にはSJISで、内部ではUTF-16だ。

**デフォルトの名無しさん** · 2019/09/03(火) 19:25:28.03

> Windowsは表面的にはSJISで
ほらな、SJISじゃないって言ってんのにSJISだっていう
潜在意識レベルでそう思い込んでるから治しようがないｗ

**デフォルトの名無しさん** · 2019/09/03(火) 19:51:10.42

WindowsというよりWindowsアプリが特定のOEMコードページやANSIコードページに決め打ちして作られてる物があるということだろ
他言語の状況は知らんけど日本語以外でも似たようなものだろうな

**デフォルトの名無しさん** · 2019/09/03(火) 21:04:34.10

Linuxの思想自体は多様性を重んじるのかもしれんが、ユーザーはそれに反して
「UTF-8以外死ね」みたいに言う奴多いよな。

**デフォルトの名無しさん** · 2019/09/03(火) 21:08:34.33

そうはいってもLinuxはASCIIと互換性がない文字コード（例 UTF-32）は死ねだからｗ
影響範囲が大きすぎて、LinuxはUTF-16とかUTF-32には事実上対応できないんだよね

**デフォルトの名無しさん** · 2019/09/03(火) 21:51:19.99

文字集合を符号化するのは、文字の区切れが判断できないからって解釈してんだけどあってる？

**デフォルトの名無しさん** · 2019/09/03(火) 22:15:09.34

>>634
>多様性を重んじる。俺はそっちのほうが好きかな。

ところでホモにつきまとわれたらどうする？

**デフォルトの名無しさん** · 2019/09/04(水) 01:38:53.56

一橋大学アウティング事件でググれ

**デフォルトの名無しさん** · 2019/09/04(水) 04:00:00.76

>>644
ホモであることは否定しないが、ホモは嫌いという俺の感情も尊重していただきたい
これが多様性だ!

**デフォルトの名無しさん** · 2019/09/04(水) 09:16:30.39

>>645
ホモにつきまとわれて困ると友人にこぼしたら、
性癖を暴露されたとか言われて更に嫌がらせで自殺された事件？
ああいうの見てると、ホモの権利拡大とかしちゃいかんよなって思うよなあ

**デフォルトの名無しさん** · 2019/09/04(水) 18:11:05.05

>>639
Windowsが作るシステムファイルもSJISですよ？

**デフォルトの名無しさん** · 2019/09/04(水) 18:12:22.94

>>648
そういうネタはいらんから

**デフォルトの名無しさん** · 2019/09/04(水) 18:52:19.95

>>649
延々と嘘を書くのはやめてもらえませんか？

**デフォルトの名無しさん** · 2019/09/04(水) 19:01:15.19

ネタにネタをかぶせてもつまらんで

**デフォルトの名無しさん** · 2019/09/04(水) 19:24:35.38

妄想か

**デフォルトの名無しさん** · 2019/09/04(水) 22:41:17.45

まあWindowsはNTカーネルとは限らないからな

**デフォルトの名無しさん** · 2019/09/05(木) 00:35:42.74

>>653はNTカーネルに限ると完全Unicode対応って意味やで

**デフォルトの名無しさん** · 2019/09/05(木) 00:50:59.59

ここでUnicodeといっちゃうあたりの頭の弱さよ

**デフォルトの名無しさん** · 2019/09/05(木) 01:09:51.35

補足すると、Unicodeは文字列集合で
符号化方式がUTF-16やUTF-8など
どの符号化方式であってもUnicodeといえる

>>655
さて、何か言い返したい言葉は有るかね？

**デフォルトの名無しさん** · 2019/09/05(木) 01:11:05.81

どうせ言い返す言葉は無いだろうから
待ってても時間の無駄なので先に言っておくと
何も言わない or 捨て台詞はくだけなら俺に喧嘩売らなければいいのにｗ

**デフォルトの名無しさん** · 2019/09/05(木) 04:37:49.32

完全Unicode対応ならどの符号化方式も対応してなきゃダメだろ

**デフォルトの名無しさん** · 2019/09/05(木) 05:59:20.80

※ LinuxはUTF-16、UTF-32に対応していません

**デフォルトの名無しさん** · 2019/09/05(木) 06:00:04.95

※ MacもUTF-16、UTF-32に対応していません

**デフォルトの名無しさん** · 2019/09/05(木) 06:48:35.75

他者を貶めたところで>>654が真実になることはない

**デフォルトの名無しさん** · 2019/09/05(木) 06:54:53.66

他者を貶めるってなんのこと？

**デフォルトの名無しさん** · 2019/09/05(木) 07:53:38.03

>>662
NTカーネル以外のものは他者だろ

**デフォルトの名無しさん** · 2019/09/05(木) 08:02:45.45

じゃあNTカーネルに限ってはUnicodeっていうのは正しいってこと？

**デフォルトの名無しさん** · 2019/09/05(木) 12:58:50.41

どーしても我流を貫きたいんだなw
まあ他人の人生だから干渉するつもりはないが，そういう生き方は苦労すると思うぞ？

**デフォルトの名無しさん** · 2019/09/11(水) 17:58:19.49

FEFF
https://en.wikipedia.org/wiki/FEFF

**デフォルトの名無しさん** · 2019/09/12(木) 12:27:59.62

全然関係ないけどWPへのリンクはMWの短縮URLが使える。
https://w.wiki/8Ew

**デフォルトの名無しさん** · 2019/09/12(木) 12:43:49.99

本当に短縮したいところは日本語ページのパーセントエンコードされたところだがうまくいかないもんだな

**デフォルトの名無しさん** · 2019/09/13(金) 09:23:49.73

日本語のページも短縮URLにできるんだけど，そうじゃなくて？

**デフォルトの名無しさん** · 2019/09/13(金) 10:11:35.77

文字通り文字コードのエンコードを間違えてるんだろう

**デフォルトの名無しさん** · 2019/09/13(金) 16:18:49.47

[%E5は無効なエンコードです。メインページに戻る。]

**デフォルトの名無しさん** · 2019/09/13(金) 17:19:54.63

当たり前だけど問題ないな
https://w.wiki/8Hy

**デフォルトの名無しさん** · 2019/09/14(土) 00:14:10.89

これ使われた順に生成されていくの？
そのうち4文字になるんかな

**デフォルトの名無しさん** · 2019/09/14(土) 00:23:57.48

絵文字などサロゲートペアが必要な領域をUTF-7で表現するとUTF-32よりもバイトサイズが大きくなる。まめな。

**デフォルトの名無しさん** · 2019/09/14(土) 11:56:27.23

utf-7が使われてる環境とかデータとか出会ったことが無い

**デフォルトの名無しさん** · 2019/09/15(日) 03:21:10.57

見せたろか

**デフォルトの名無しさん** · 2019/09/15(日) 04:11:30.07

見せて！

**デフォルトの名無しさん** · 2019/09/15(日) 04:14:52.61

utf7ってasciiじゃないっけ？

**デフォルトの名無しさん** · 2019/09/15(日) 05:00:59.65

ここにはない

**デフォルトの名無しさん** · 2019/09/15(日) 10:05:21.58

>>678
違う

君の理屈だと中国はチベットの一部ということになる

**デフォルトの名無しさん** · 2019/09/16(月) 06:54:09.51

じゃ，そういうことじゃん

**デフォルトの名無しさん** · 2019/09/21(土) 16:46:43.93

UTF-8もUTF-7も「ASCII互換にしようと思えばできる」文字符号化方式で
UTF-16/32は端から過去互換性を捨ててるっていう理解OK？

**デフォルトの名無しさん** · 2019/09/21(土) 17:12:22.41

互換の意味判ってるか？

**デフォルトの名無しさん** · 2019/09/21(土) 17:13:19.94

>>682
ちゃんと仕様読め

**デフォルトの名無しさん** · 2019/09/22(日) 02:18:18.82

>>682
意味がわからない

**デフォルトの名無しさん** · 2019/09/22(日) 11:35:45.78

>>682
OK

**デフォルトの名無しさん** · 2019/09/22(日) 12:48:42.82

684デフォルトの名無しさん2019/09/21(土) 17:13:19.94ID:AMltcnvP
>>682
ちゃんと仕様読め

685デフォルトの名無しさん2019/09/22(日) 02:18:18.82ID:tTe+mIIa
>>682
意味がわからない

686デフォルトの名無しさん2019/09/22(日) 11:35:45.78ID:LQCFANDg
>>682
OK

----
どういうことなの…

**デフォルトの名無しさん** · 2019/09/22(日) 15:28:59.04

教訓：5chで情報収集するな

**デフォルトの名無しさん** · 2019/09/22(日) 21:23:59.11

互換って何なの

**デフォルトの名無しさん** · 2019/09/22(日) 22:18:40.20

揚げ足取り終了。

質問。皆さんが普段使っている文字コード変換ライブラリでおススメはなんですか。

**デフォルトの名無しさん** · 2019/09/22(日) 23:28:10.21

お勧めもなにもiconvかICUで大体用は足りる
それで満足しなきゃ自分で作るしかない

**デフォルトの名無しさん** · 2019/09/23(月) 08:58:26.51

文字コードの変換だけ？
いまどきのまともな言語環境なら変換元のエンコーディングさえ分かってれば標準機能で出来るだろうに
それとも全角⇔半角の変換みたいなのをやりたいってこと？

**デフォルトの名無しさん** · 2019/09/23(月) 11:35:21.05

こっちはだめ
https://ja.cppreference.com/w/cpp/string/multibyte/wcstombs
https://ja.cppreference.com/w/cpp/string/multibyte/mbstowcs

これ使え
https://docs.microsoft.com/ja-jp/cpp/c-runtime-library/reference/mbstowcs-s-mbstowcs-s-l?view=vs-2019
https://docs.microsoft.com/ja-jp/cpp/c-runtime-library/reference/wcstombs-s-wcstombs-s-l?view=vs-2019

**デフォルトの名無しさん** · 2019/09/23(月) 14:54:10.02

Windows SDK付属のデバッグ用ソースを見たところmbstowcs_sの文字コード変換は、Win32APIであるMultiByteToWideCharを使っているようですね。

**デフォルトの名無しさん** · 2019/09/23(月) 15:08:29.22

MultiByteToWideChar / WideCharToMultiByte 最強

◆QZaw55cn4c · 2019/09/23(月) 15:53:59.08

>>695
確かに便利でありがたかったです
https://mevius.5ch.net/test/read.cgi/tech/1434079972/53

**デフォルトの名無しさん** · 2019/09/23(月) 16:01:34.44

null-terminatedとそうでない場合の仕様の違いをちゃんと理解してなくて
バグった挙句によけいな1byte追加しちゃったりした思い出。

**デフォルトの名無しさん** · 2019/09/23(月) 16:24:42.75

奇遇ですね
https://www.vector.co.jp/soft/dl/winnt/net/se472641.html

**デフォルトの名無しさん** · 2019/09/24(火) 00:23:12.23

長い上にださい略し方だ…

**デフォルトの名無しさん** · 2019/09/24(火) 14:25:04.46

python3でlogging使ってsyslogに出力すると
ASCIIで出力してもなぜか最後に\0が付いてログが残る
鯖側のsyslogdの方で付いてるのかと思ったが
そうじゃなくてpython3が勝手に付けてるみたい
python3のstringがunicode化したときにバグ入ったんかな
python2のときはそんなこと無かった気がする

**デフォルトの名無しさん** · 2019/09/25(水) 12:14:01.12

ttps://bugs.python.org/issue12168

**デフォルトの名無しさん** · 2019/09/25(水) 13:11:07.39

深い闇を垣間見た気がする

handler.log_format_string = '<%d>%s'
だと no attribute

handler.setFormatter(logging.Formatter('%(message)s'))
だと結局 \0 付いたままでした

**デフォルトの名無しさん** · 2019/09/25(水) 13:18:01.66

コンストラクタ呼ぶ前に
logging.handlers.SysLogHandler.append_nul = False
で解決しました
thx!

**デフォルトの名無しさん** · 2019/09/25(水) 14:09:59.51

エンコードされた文字のバイト並びが
utf-8 と cp832 で同じ(にみえる)ものってどんなのがあります？
そもそも 3bytes と 2bytes なのは仕方ないのですが
utf-8 だと (xx yy zz)
みたいなのが
cp932 だと (xx yy) 00
逆に
cp932 だと (uu vv) (ww xx) (yy zz)
みたいなのが
utf-8 だと (uu vv ww) (xx yy zz)
みたいなのでも良いです
そもそもありえない？

**デフォルトの名無しさん** · 2019/09/25(水) 14:11:59.88

cp932 ってことはいわゆる半角カナも入れて良いのカナ

**デフォルトの名無しさん** · 2019/09/25(水) 14:14:32.79

出来れば「美乳」みたいなクオリティ高いのが良いです

**デフォルトの名無しさん** · 2019/09/25(水) 16:32:05.43

美乳ってどういう特長を持ってたんだっけ？
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。

**デフォルトの名無しさん** · 2019/09/25(水) 23:44:33.31

PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト＋右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか？

**デフォルトの名無しさん** · 2019/09/26(木) 00:04:19.37

↓最高に面白い回答

**デフォルトの名無しさん** · 2019/09/26(木) 00:06:20.67

>>708
>どうしたら良いですか？

諦める
高望みするから人間は苦しむんだよ

**デフォルトの名無しさん** · 2019/09/26(木) 01:58:07.64

>>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった

どういう目的でそういう例を探してるの？

**デフォルトの名無しさん** · 2019/09/26(木) 08:30:15.09

>>708
cmdにd&dかバッチファイル作れ
これ以上はスレチ

**デフォルトの名無しさん** · 2019/10/08(火) 14:05:40.55

ブログラムソースをUTF16やUTF32で書いてる人いるの？
ブログラム内の文字列のデータじゃなくてブログラムの地の部分

**デフォルトの名無しさん** · 2019/10/08(火) 14:10:33.38

そんなゴリホーモおらんやろ

**デフォルトの名無しさん** · 2019/10/08(火) 15:33:52.08

誰が読むんだ

**デフォルトの名無しさん** · 2019/10/23(水) 21:57:19.58

まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。

**デフォルトの名無しさん** · 2019/10/23(水) 23:42:00.06

ICUなんてほぼほぼUTF-16ですよ。

**デフォルトの名無しさん** · 2019/10/24(木) 17:29:35.02

なんかUnicodeのサイト分裂した？

**デフォルトの名無しさん** · 2019/10/24(木) 18:37:57.14

青っぽいデザイン変更で入口が使いにくくなってる辺り?

**デフォルトの名無しさん** · 2019/10/27(日) 00:29:12.62

なにそれこわい

**デフォルトの名無しさん** · 2019/10/29(火) 16:20:42.34

https://home.unicode.org/#
これやな。
なんか謎の意匠がw

**デフォルトの名無しさん** · 2019/11/01(金) 01:07:36.40

結局見つかったのは何なの

**デフォルトの名無しさん** · 2019/11/01(金) 01:07:53.40

書くとこ間違えた失礼

**デフォルトの名無しさん** · 2019/11/15(金) 19:48:26.91

文を書くときに？や（）などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか

**デフォルトの名無しさん** · 2019/11/15(金) 21:21:21.06

特に拘りが無いならNFKCに倣う