文字コード総合スレ Part10 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2015/10/14(水) 20:29:00.08

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/

**デフォルトの名無しさん** · 2015/11/24(火) 12:09:48.94

>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど

EmEditorはgbk / big5も表示可能だが自動識別はダメ

**デフォルトの名無しさん** · 2015/11/24(火) 16:09:46.89

EUC系の自動判別には限界があるってだけの話じゃないのそれ

**デフォルトの名無しさん** · 2015/11/24(火) 17:13:28.90

馬鹿に言ってもしょうがないんだよなあ

**デフォルトの名無しさん** · 2015/11/24(火) 21:06:35.37

文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください

**デフォルトの名無しさん** · 2015/11/25(水) 13:54:24.53

文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな

**デフォルトの名無しさん** · 2015/11/25(水) 21:01:53.81

>>74
utf-8でガマンガマン

**デフォルトの名無しさん** · 2015/11/26(木) 10:04:26.60

プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね

**デフォルトの名無しさん** · 2015/11/26(木) 18:52:12.64

>>81
それな。
動きおかしいと思ったらハイフンついてたとかある。

**デフォルトの名無しさん** · 2015/11/26(木) 20:23:24.34

>>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ

utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな

**デフォルトの名無しさん** · 2015/11/26(木) 22:39:18.80

>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。

**デフォルトの名無しさん** · 2015/11/26(木) 22:43:40.69

>>83
> ANSI(s-jis)

糞表現w

**デフォルトの名無しさん** · 2015/11/26(木) 23:24:19.12

>>85
悪かったな

糞やろう。

**デフォルトの名無しさん** · 2015/11/26(木) 23:37:04.25

そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ

**デフォルトの名無しさん** · 2015/11/26(木) 23:41:50.71

お前が馬鹿だ

**デフォルトの名無しさん** · 2015/11/27(金) 07:32:51.99

>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな？
コマンドですか？　GUIですか？
コマンドなら、画面の環境に依存したりする

**デフォルトの名無しさん** · 2015/11/27(金) 15:43:44.97

>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。

**デフォルトの名無しさん** · 2015/11/30(月) 21:59:17.66

「して欲しい」じゃなく自分でやってみればいいのに。

**デフォルトの名無しさん** · 2015/11/30(月) 22:34:12.03

UTF-8って日本語はほぼ3バイトだと思っていいんだっけ？

仕事仲間がそう言ってたけど不安。

**デフォルトの名無しさん** · 2015/11/30(月) 22:58:14.64

そういう曖昧な表現なら答えはyesでありnoでもあるだろう

**デフォルトの名無しさん** · 2015/12/01(火) 02:33:52.32

iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい

# 日本人にとってUTF-8がいいわけない

**デフォルトの名無しさん** · 2015/12/01(火) 02:44:11.35

ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.

3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.

http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com

**デフォルトの名無しさん** · 2015/12/01(火) 03:51:29.82

>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな

UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった

$ wc -c 1444822140-*
 26775 1444822140-cp932.dat
 40234 1444822140-utf16.dat
 33434 1444822140-utf8.dat

ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない

**デフォルトの名無しさん** · 2015/12/01(火) 10:01:27.63

UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える

%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93

とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング？する時の問題だけれど。

**デフォルトの名無しさん** · 2015/12/01(火) 19:29:51.08

パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。

**デフォルトの名無しさん** · 2015/12/01(火) 20:03:05.10

別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ

**デフォルトの名無しさん** · 2015/12/01(火) 20:18:47.62

>>94
そんな程度のことでutf-8を辞める訳にはいかない。

**デフォルトの名無しさん** · 2015/12/01(火) 20:40:03.81

>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない

**デフォルトの名無しさん** · 2015/12/01(火) 22:44:13.88

URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ

**デフォルトの名無しさん** · 2015/12/01(火) 23:03:02.39

なんでやめないといけないぷに？
いいじゃないかぷに。

**デフォルトの名無しさん** · 2015/12/02(水) 01:31:49.86

日本語のソート順くらい日本人に決めさせろや

**デフォルトの名無しさん** · 2015/12/02(水) 09:35:48.18

人の感覚じゃなくて、機械的な感覚がないと・・・

**デフォルトの名無しさん** · 2015/12/02(水) 10:05:36.38

>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。

**デフォルトの名無しさん** · 2015/12/02(水) 10:18:22.35

JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・

脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも　あ・・・

**デフォルトの名無しさん** · 2015/12/02(水) 13:55:56.97

日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。

**デフォルトの名無しさん** · 2015/12/04(金) 12:30:36.89

最近勉強し出したのか？
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね？
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。

**デフォルトの名無しさん** · 2015/12/04(金) 12:38:17.66

シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。

**デフォルトの名無しさん** · 2015/12/04(金) 12:53:33.88

でもJISコードなら希望通りのソートができるわけでもないだろ

**デフォルトの名無しさん** · 2015/12/04(金) 14:24:16.07

何のために仮名文字があると思っているのか。

**デフォルトの名無しさん** · 2015/12/04(金) 18:29:07.64

文字コード順でソートしてるアホ

**デフォルトの名無しさん** · 2015/12/04(金) 20:17:25.57

いつまでたっても文字集合順序バカはいなくならないね。

全てのいじたいに

**デフォルトの名無しさん** · 2015/12/05(土) 09:09:04.31

半角ｶﾀｶﾅで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角ｶﾀｶﾅで比較して行を並べ替える

**デフォルトの名無しさん** · 2015/12/05(土) 10:43:28.38

なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?

**デフォルトの名無しさん** · 2015/12/05(土) 11:20:47.89

>>116
アメリカ人がバカだから

**デフォルトの名無しさん** · 2015/12/05(土) 19:58:46.22

>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。

**デフォルトの名無しさん** · 2015/12/05(土) 20:50:07.85

>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。

**デフォルトの名無しさん** · 2015/12/06(日) 00:47:45.72

英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし

**デフォルトの名無しさん** · 2015/12/06(日) 09:58:13.03

>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。

アンシ以外は聞いたことがなかった。

**デフォルトの名無しさん** · 2015/12/06(日) 10:48:45.84

お前らも意味不明な文章を見たときに
「日本語でおＫ」って言うだろ？
それと同じ事だ

**デフォルトの名無しさん** · 2015/12/06(日) 11:36:05.85

答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される

**デフォルトの名無しさん** · 2015/12/06(日) 12:39:48.92

>>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。

**デフォルトの名無しさん** · 2015/12/07(月) 08:05:52.84

>>120
なるほど。
ドラフトに噛んでただけなのか

**デフォルトの名無しさん** · 2015/12/09(水) 07:55:39.86

というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。

**デフォルトの名無しさん** · 2015/12/09(水) 08:29:25.15

ほうほう、シフトジスもANSIが決めたのですか
それは初耳です

**デフォルトの名無しさん** · 2015/12/09(水) 09:52:29.63

>>127
>>124みたいな話でしょ

**デフォルトの名無しさん** · 2015/12/09(水) 16:27:04.50

カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna

**デフォルトの名無しさん** · 2015/12/09(水) 22:54:10.41

朝感度
磯感度

**デフォルトの名無しさん** · 2015/12/10(木) 08:01:54.07

>>127
えっ!?何言ってんの⁇

**デフォルトの名無しさん** · 2015/12/18(金) 18:25:49.47

>>108
NDL-70のマネだからな
http://www.wdic.org/w/WDIC/NDL-70

**デフォルトの名無しさん** · 2015/12/19(土) 00:00:59.61

第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?

**デフォルトの名無しさん** · 2015/12/19(土) 09:33:24.36

たとえばおしえて

**デフォルトの名無しさん** · 2015/12/19(土) 22:28:28.39

NDL-70の「扱」は「圧」と「安」の間

**デフォルトの名無しさん** · 2015/12/20(日) 02:41:57.27

あっあっあん

**デフォルトの名無しさん** · 2015/12/20(日) 10:16:50.75

しごく
こく

**デフォルトの名無しさん** · 2015/12/20(日) 10:19:07.37

音読みが表外

**デフォルトの名無しさん** · 2016/01/01(金) 03:45:50.30

あけまして

**デフォルトの名無しさん** · 2016/01/01(金) 10:51:09.09

しめました

**デフォルトの名無しさん** · 2016/01/01(金) 23:48:50.10

ISO/IEC 10646のAmd.はもう無料公開されないのかしら

**デフォルトの名無しさん** · 2016/01/03(日) 11:09:11.17

安岡センセイ絶賛ステマ中
http://srad.jp/%7Eyasuoka/journal/599105
＞MZ-80Kの文字コードはなぜ変態的だったのか

**デフォルトの名無しさん** · 2016/01/06(水) 19:04:13.23

年寄りの昔話だな

**デフォルトの名無しさん** · 2016/01/06(水) 20:12:47.63

書き起こして記録しておくことは大切

**デフォルトの名無しさん** · 2016/01/06(水) 20:53:18.67

確かに。

**デフォルトの名無しさん** · 2016/01/15(金) 16:58:58.27

特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。

**デフォルトの名無しさん** · 2016/01/15(金) 18:41:54.97

豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では

**デフォルトの名無しさん** · 2016/01/16(土) 01:02:26.88

何個の豆腐かにもよるんじゃなかろうか

**デフォルトの名無しさん** · 2016/01/19(火) 13:39:56.61

http://srad.jp/%7Eyasuoka/journal/599766

安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの？

**デフォルトの名無しさん** · 2016/01/19(火) 20:31:34.42

使ったならちゃんとそう書けって話で
使うなということではない

**デフォルトの名無しさん** · 2016/01/22(金) 19:46:47.72

[要出典]
てか

**デフォルトの名無しさん** · 2016/01/22(金) 20:00:04.23

アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は

**デフォルトの名無しさん** · 2016/01/25(月) 22:08:23.80

Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス

**デフォルトの名無しさん** · 2016/01/25(月) 22:37:19.56

そんな甘い考えでやっちまったんだろうなあ

**片山博文MZ** ◆T6xkBnTXz7B0 · 2016/01/29(金) 15:58:28.60

与えられたテキストがUCS16に合致するか判定するアルゴリズムってある？

**デフォルトの名無しさん** · 2016/01/29(金) 16:42:21.91

iconvはルールが厳しいから
入ロクおかしければ変換失敗する

**片山博文MZ** ◆T6xkBnTXz7B0 · 2016/01/30(土) 22:17:33.35

nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。

**デフォルトの名無しさん** · 2016/01/31(日) 00:56:53.78

nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意

**デフォルトの名無しさん** · 2016/02/01(月) 00:21:45.94

ほええそういうものなのか

**デフォルトの名無しさん** · 2016/02/03(水) 21:14:57.17

シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな？
こうすればダメ文字問題も起こらないのに。

**デフォルトの名無しさん** · 2016/02/03(水) 21:41:36.87

>>160
半角カナは1バイト
漢字は2バイト
って制約があるから無理

**デフォルトの名無しさん** · 2016/02/03(水) 21:50:14.56

>>161は会話のできないあすぺ

**デフォルトの名無しさん** · 2016/02/03(水) 21:58:17.93

できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える

**デフォルトの名無しさん** · 2016/02/03(水) 23:45:43.20

Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。

**デフォルトの名無しさん** · 2016/02/03(水) 23:58:17.15

そして三水四水を入れる領域が足りなくなり後のMSに恨まれると。

**デフォルトの名無しさん** · 2016/02/04(木) 12:35:29.01

>>164
文字コードと符号化の違い分かってる？
そもそもシフトJISをサポートしてないソフトでシフトJISを使ったら問題出たってだけでしょ

**デフォルトの名無しさん** · 2016/02/04(木) 13:06:32.74

>>164
もう全く必要ない

**デフォルトの名無しさん** · 2016/02/04(木) 14:58:00.09

シフトJISの反省の上に？作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か

>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ？

**デフォルトの名無しさん** · 2016/02/04(木) 16:01:14.78

>>168
EUCはISO 2022ルールに則っとってる
ISO 2022はすでに存在した
半角カナも使える

**デフォルトの名無しさん** · 2016/02/04(木) 19:20:10.85

>>169
>>168は半角カナを1バイトに納めることがそんなに優先かと言ってる

>>168
確証は無いけど、分かりやすさ・計算の単純さ優先の結果だと思ってた

**デフォルトの名無しさん** · 2016/02/04(木) 23:06:09.90

>>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトＪＩＳもそうできなかったのかという話じゃないのか？

**デフォルトの名無しさん** · 2016/02/04(木) 23:35:33.23

むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ

**デフォルトの名無しさん** · 2016/02/05(金) 02:34:16.13

>>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる

シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな

**デフォルトの名無しさん** · 2016/02/05(金) 02:44:24.24

上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない