文字コード総合スレ Part10 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2015/10/14(水) 20:29:00.08

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/

**デフォルトの名無しさん** · 2015/10/14(水) 20:30:38.15

■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/

**デフォルトの名無しさん** · 2015/10/14(水) 20:31:02.98

■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

**デフォルトの名無しさん** · 2015/10/14(水) 20:31:39.28

・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏＋?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

**デフォルトの名無しさん** · 2015/10/14(水) 20:31:59.03

・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

**デフォルトの名無しさん** · 2015/10/14(水) 23:23:47.69

**デフォルトの名無しさん** · 2015/10/14(水) 23:28:48.06

もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは？
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは？　その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは？　その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/

**デフォルトの名無しさん** · 2015/10/14(水) 23:29:44.73

■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/

**デフォルトの名無しさん** · 2015/10/14(水) 23:30:41.28

■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。

**デフォルトの名無しさん** · 2015/10/14(水) 23:31:54.53

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/

**デフォルトの名無しさん** · 2015/10/15(木) 18:31:09.40

>>4が化けてるな前スレもだが

**デフォルトの名無しさん** · 2015/10/15(木) 18:40:33.47

4とか5とかもう引き継がなくていいのでは

**デフォルトの名無しさん** · 2015/10/16(金) 16:24:02.87

&#x6076;

**デフォルトの名無しさん** · 2015/10/16(金) 16:24:47.61

恶

**デフォルトの名無しさん** · 2015/10/17(土) 20:16:21.68

文化庁の文化審議会漢字小委員会は１６日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。

**デフォルトの名無しさん** · 2015/10/18(日) 22:08:48.48

明日から松江でWG2らしいけど文書非公開だと流れが追えなくてつまらんな

**デフォルトの名無しさん** · 2015/10/19(月) 00:12:31.07

うむつまらん

**デフォルトの名無しさん** · 2015/10/22(木) 19:44:06.99

Unicodeおじさんがミラーしてくれた
http://www.unicode.org/wg2/docs/

Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな

**デフォルトの名無しさん** · 2015/10/24(土) 00:34:11.18

>>15
これか。
http://srad.jp/story/15/10/20/0510245/

ただでさえ漢字が多すぎて困っている。それをさらに増やすような法務省の莫迦に対する歯止めとして期待。

**デフォルトの名無しさん** · 2015/10/25(日) 03:36:16.82

>>12
同意
古いのが多すぎるし

**デフォルトの名無しさん** · 2015/10/25(日) 12:49:19.83

>>12
引き継がないとはどういう意味ですか?

**デフォルトの名無しさん** · 2015/10/25(日) 18:50:42.59

3-5と9はもうテンプレから外していいんじゃないかなって話かと

20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ

**デフォルトの名無しさん** · 2015/10/25(日) 19:24:02.31

>>3-5はいらないけど、しれっと>>9を紛れ込ませるのは許さん

**デフォルトの名無しさん** · 2015/10/25(日) 19:33:16.94

>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉

**デフォルトの名無しさん** · 2015/10/26(月) 20:48:28.23

絵文字馬鹿のOむかつく
とっとと干されりゃいいのに

**デフォルトの名無しさん** · 2015/10/27(火) 07:41:18.41

ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。

**デフォルトの名無しさん** · 2015/10/27(火) 23:40:44.85

Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。

**デフォルトの名無しさん** · 2015/10/28(水) 02:14:09.30

ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。

**デフォルトの名無しさん** · 2015/10/28(水) 07:10:47.43

>WAVE DASHの問題はMSが独自の変換表を使ってるから

どうしてこういう見え透いた嘘を平気でつけるんだろうか

**デフォルトの名無しさん** · 2015/10/29(木) 20:27:41.85

>>29
無知？それとも俺には問題ないという青年の主張？

**デフォルトの名無しさん** · 2015/11/02(月) 21:17:58.86

>>29
勉強し直そうね

**デフォルトの名無しさん** · 2015/11/02(月) 21:18:31.16

>>28
ほんまそれ

**デフォルトの名無しさん** · 2015/11/03(火) 04:49:27.68

逆Ｓの記号ってなんでないんだろう？

**デフォルトの名無しさん** · 2015/11/03(火) 05:49:15.31

M？

**デフォルトの名無しさん** · 2015/11/03(火) 07:38:16.60

**デフォルトの名無しさん** · 2015/11/03(火) 17:26:02.76

クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。

**デフォルトの名無しさん** · 2015/11/04(水) 00:41:30.22

肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。

**デフォルトの名無しさん** · 2015/11/04(水) 01:28:04.95

向きが90度ずれない？
S字のを2個連結すれば戻るけど2個使い前提の道具なの？

**デフォルトの名無しさん** · 2015/11/04(水) 16:58:03.51

あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか？

>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う

**デフォルトの名無しさん** · 2015/11/05(木) 23:49:21.72

スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた

これはどういうこと？
中国語扱う人が日本語をGB2312でエンコードしてたってこと？

**デフォルトの名無しさん** · 2015/11/05(木) 23:59:17.68

ふつうに考えるとそうだろうな

**デフォルトの名無しさん** · 2015/11/06(金) 06:30:43.46

>>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。

**デフォルトの名無しさん** · 2015/11/07(土) 23:09:16.59

http://wired.jp/2015/11/07/finland-national-emoji/

**デフォルトの名無しさん** · 2015/11/08(日) 14:35:15.95

お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。

**デフォルトの名無しさん** · 2015/11/08(日) 17:13:00.26

絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。

**デフォルトの名無しさん** · 2015/11/09(月) 00:23:08.17

作った奴と押し込む奴は往々にして別、

**デフォルトの名無しさん** · 2015/11/09(月) 01:28:50.80

>>46
?

**デフォルトの名無しさん** · 2015/11/09(月) 07:42:22.13

さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか

**デフォルトの名無しさん** · 2015/11/09(月) 09:49:40.58

nokiaの端末に入っちゃったんでしょう?

**デフォルトの名無しさん** · 2015/11/09(月) 14:08:54.96

Unicode 10.0あたりになったら収録されるんだろうか?

**デフォルトの名無しさん** · 2015/11/09(月) 22:16:17.29

>>49
そうなの？文字として？

**デフォルトの名無しさん** · 2015/11/09(月) 23:44:45.41

ビットコインマーク、Unicodeに収録へ | スラド IT
http://it.srad.jp/story/15/11/09/055230/
Bitcoin 'B' Approved By Computer Text Standards Body
http://www.coindesk.com/bitcoin-unicode-symbol-approval/
http://www.unicode.org/L2/L2015/15229-bitcoin-sign.pdf

**デフォルトの名無しさん** · 2015/11/10(火) 12:10:29.99

ペリカもはよ

**デフォルトの名無しさん** · 2015/11/11(水) 22:12:58.76

ぼ
さ
ん

& ◆Pw.ZL0FkaP42 · 2015/11/11(水) 22:13:45.21

**デフォルトの名無しさん** · 2015/11/11(水) 22:23:37.04

GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。

**デフォルトの名無しさん** · 2015/11/11(水) 23:13:58.34

シュエエアィサィ的な使い方を想定していたんじゃなかろうか

**デフォルトの名無しさん** · 2015/11/12(木) 23:09:21.24

しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。

**デフォルトの名無しさん** · 2015/11/13(金) 14:48:06.39

韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。

**デフォルトの名無しさん** · 2015/11/13(金) 16:17:05.05

日本語の文章捏造するために必要だから

**デフォルトの名無しさん** · 2015/11/13(金) 17:57:15.36

GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した

**デフォルトの名無しさん** · 2015/11/14(土) 12:15:58.19

そういうのは嫌韓嫌中スレでやってねw

**デフォルトの名無しさん** · 2015/11/14(土) 16:21:16.08

Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない

**デフォルトの名無しさん** · 2015/11/14(土) 16:31:04.02

文字コード関係なし

**デフォルトの名無しさん** · 2015/11/18(水) 16:49:52.57

すみません
今ISO-IRの資料を収集してるんですが

http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt

の対応表ファイル持ってる方いらっしゃいませんか？
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。

**デフォルトの名無しさん** · 2015/11/19(木) 01:28:49.91

これ？
https://www.itscj.ipsj.or.jp/iso-ir/232mapping.txt

**デフォルトの名無しさん** · 2015/11/20(金) 02:58:25.44

人名漢字など「文字情報基盤」約6万字の暫定私用コードと対応フォント公開 -INTERNET Watch
http://internet.watch.impress.co.jp/docs/news/20151117_731123.html

**デフォルトの名無しさん** · 2015/11/20(金) 16:27:32.87

>>66
そう、これです！
ありがとうございます！

ずっと
http://www.itscj.ipsj.or.jp/～
と
http://kikaku.itscj.ipsj.or.jp/～
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。

ありがとうございました。

**デフォルトの名無しさん** · 2015/11/21(土) 03:23:51.12

gbkのひらがなはEUC-JPと互換性がある

ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される

**デフォルトの名無しさん** · 2015/11/21(土) 06:36:56.04

お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても

**デフォルトの名無しさん** · 2015/11/21(土) 14:00:50.43

>>70
EmEditor と日本語しか対応してないものはすべて同様なんだが

英語圏の方がまとも

**デフォルトの名無しさん** · 2015/11/21(土) 14:57:31.75

全てって…
具体名を十個挙げてみてくれ。

**デフォルトの名無しさん** · 2015/11/22(日) 15:40:38.08

仕様と実装をごちゃ混ぜにしないでほしい

**デフォルトの名無しさん** · 2015/11/24(火) 07:50:30.03

grepをutf16対応にして欲しいわ

**デフォルトの名無しさん** · 2015/11/24(火) 12:09:48.94

>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど

EmEditorはgbk / big5も表示可能だが自動識別はダメ

**デフォルトの名無しさん** · 2015/11/24(火) 16:09:46.89

EUC系の自動判別には限界があるってだけの話じゃないのそれ

**デフォルトの名無しさん** · 2015/11/24(火) 17:13:28.90

馬鹿に言ってもしょうがないんだよなあ

**デフォルトの名無しさん** · 2015/11/24(火) 21:06:35.37

文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください

**デフォルトの名無しさん** · 2015/11/25(水) 13:54:24.53

文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな

**デフォルトの名無しさん** · 2015/11/25(水) 21:01:53.81

>>74
utf-8でガマンガマン

**デフォルトの名無しさん** · 2015/11/26(木) 10:04:26.60

プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね

**デフォルトの名無しさん** · 2015/11/26(木) 18:52:12.64

>>81
それな。
動きおかしいと思ったらハイフンついてたとかある。

**デフォルトの名無しさん** · 2015/11/26(木) 20:23:24.34

>>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ

utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな

**デフォルトの名無しさん** · 2015/11/26(木) 22:39:18.80

>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。

**デフォルトの名無しさん** · 2015/11/26(木) 22:43:40.69

>>83
> ANSI(s-jis)

糞表現w

**デフォルトの名無しさん** · 2015/11/26(木) 23:24:19.12

>>85
悪かったな

糞やろう。

**デフォルトの名無しさん** · 2015/11/26(木) 23:37:04.25

そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ

**デフォルトの名無しさん** · 2015/11/26(木) 23:41:50.71

お前が馬鹿だ

**デフォルトの名無しさん** · 2015/11/27(金) 07:32:51.99

>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな？
コマンドですか？　GUIですか？
コマンドなら、画面の環境に依存したりする

**デフォルトの名無しさん** · 2015/11/27(金) 15:43:44.97

>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。

**デフォルトの名無しさん** · 2015/11/30(月) 21:59:17.66

「して欲しい」じゃなく自分でやってみればいいのに。

**デフォルトの名無しさん** · 2015/11/30(月) 22:34:12.03

UTF-8って日本語はほぼ3バイトだと思っていいんだっけ？

仕事仲間がそう言ってたけど不安。

**デフォルトの名無しさん** · 2015/11/30(月) 22:58:14.64

そういう曖昧な表現なら答えはyesでありnoでもあるだろう

**デフォルトの名無しさん** · 2015/12/01(火) 02:33:52.32

iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい

# 日本人にとってUTF-8がいいわけない

**デフォルトの名無しさん** · 2015/12/01(火) 02:44:11.35

ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.

3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.

http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com

**デフォルトの名無しさん** · 2015/12/01(火) 03:51:29.82

>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな

UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった

$ wc -c 1444822140-*
 26775 1444822140-cp932.dat
 40234 1444822140-utf16.dat
 33434 1444822140-utf8.dat

ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない

**デフォルトの名無しさん** · 2015/12/01(火) 10:01:27.63

UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える

%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93

とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング？する時の問題だけれど。

**デフォルトの名無しさん** · 2015/12/01(火) 19:29:51.08

パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。

**デフォルトの名無しさん** · 2015/12/01(火) 20:03:05.10

別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ

**デフォルトの名無しさん** · 2015/12/01(火) 20:18:47.62

>>94
そんな程度のことでutf-8を辞める訳にはいかない。

**デフォルトの名無しさん** · 2015/12/01(火) 20:40:03.81

>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない

**デフォルトの名無しさん** · 2015/12/01(火) 22:44:13.88

URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ

**デフォルトの名無しさん** · 2015/12/01(火) 23:03:02.39

なんでやめないといけないぷに？
いいじゃないかぷに。

**デフォルトの名無しさん** · 2015/12/02(水) 01:31:49.86

日本語のソート順くらい日本人に決めさせろや

**デフォルトの名無しさん** · 2015/12/02(水) 09:35:48.18

人の感覚じゃなくて、機械的な感覚がないと・・・

**デフォルトの名無しさん** · 2015/12/02(水) 10:05:36.38

>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。

**デフォルトの名無しさん** · 2015/12/02(水) 10:18:22.35

JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・

脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも　あ・・・

**デフォルトの名無しさん** · 2015/12/02(水) 13:55:56.97

日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。

**デフォルトの名無しさん** · 2015/12/04(金) 12:30:36.89

最近勉強し出したのか？
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね？
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。

**デフォルトの名無しさん** · 2015/12/04(金) 12:38:17.66

シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。

**デフォルトの名無しさん** · 2015/12/04(金) 12:53:33.88

でもJISコードなら希望通りのソートができるわけでもないだろ

**デフォルトの名無しさん** · 2015/12/04(金) 14:24:16.07

何のために仮名文字があると思っているのか。

**デフォルトの名無しさん** · 2015/12/04(金) 18:29:07.64

文字コード順でソートしてるアホ

**デフォルトの名無しさん** · 2015/12/04(金) 20:17:25.57

いつまでたっても文字集合順序バカはいなくならないね。

全てのいじたいに

**デフォルトの名無しさん** · 2015/12/05(土) 09:09:04.31

半角ｶﾀｶﾅで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角ｶﾀｶﾅで比較して行を並べ替える

**デフォルトの名無しさん** · 2015/12/05(土) 10:43:28.38

なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?

**デフォルトの名無しさん** · 2015/12/05(土) 11:20:47.89

>>116
アメリカ人がバカだから

**デフォルトの名無しさん** · 2015/12/05(土) 19:58:46.22

>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。

**デフォルトの名無しさん** · 2015/12/05(土) 20:50:07.85

>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。

**デフォルトの名無しさん** · 2015/12/06(日) 00:47:45.72

英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし

**デフォルトの名無しさん** · 2015/12/06(日) 09:58:13.03

>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。

アンシ以外は聞いたことがなかった。

**デフォルトの名無しさん** · 2015/12/06(日) 10:48:45.84

お前らも意味不明な文章を見たときに
「日本語でおＫ」って言うだろ？
それと同じ事だ

**デフォルトの名無しさん** · 2015/12/06(日) 11:36:05.85

答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される

**デフォルトの名無しさん** · 2015/12/06(日) 12:39:48.92

>>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。

**デフォルトの名無しさん** · 2015/12/07(月) 08:05:52.84

>>120
なるほど。
ドラフトに噛んでただけなのか

**デフォルトの名無しさん** · 2015/12/09(水) 07:55:39.86

というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。

**デフォルトの名無しさん** · 2015/12/09(水) 08:29:25.15

ほうほう、シフトジスもANSIが決めたのですか
それは初耳です

**デフォルトの名無しさん** · 2015/12/09(水) 09:52:29.63

>>127
>>124みたいな話でしょ

**デフォルトの名無しさん** · 2015/12/09(水) 16:27:04.50

カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna

**デフォルトの名無しさん** · 2015/12/09(水) 22:54:10.41

朝感度
磯感度

**デフォルトの名無しさん** · 2015/12/10(木) 08:01:54.07

>>127
えっ!?何言ってんの⁇

**デフォルトの名無しさん** · 2015/12/18(金) 18:25:49.47

>>108
NDL-70のマネだからな
http://www.wdic.org/w/WDIC/NDL-70

**デフォルトの名無しさん** · 2015/12/19(土) 00:00:59.61

第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?

**デフォルトの名無しさん** · 2015/12/19(土) 09:33:24.36

たとえばおしえて

**デフォルトの名無しさん** · 2015/12/19(土) 22:28:28.39

NDL-70の「扱」は「圧」と「安」の間

**デフォルトの名無しさん** · 2015/12/20(日) 02:41:57.27

あっあっあん

**デフォルトの名無しさん** · 2015/12/20(日) 10:16:50.75

しごく
こく

**デフォルトの名無しさん** · 2015/12/20(日) 10:19:07.37

音読みが表外

**デフォルトの名無しさん** · 2016/01/01(金) 03:45:50.30

あけまして

**デフォルトの名無しさん** · 2016/01/01(金) 10:51:09.09

しめました

**デフォルトの名無しさん** · 2016/01/01(金) 23:48:50.10

ISO/IEC 10646のAmd.はもう無料公開されないのかしら

**デフォルトの名無しさん** · 2016/01/03(日) 11:09:11.17

安岡センセイ絶賛ステマ中
http://srad.jp/%7Eyasuoka/journal/599105
＞MZ-80Kの文字コードはなぜ変態的だったのか

**デフォルトの名無しさん** · 2016/01/06(水) 19:04:13.23

年寄りの昔話だな

**デフォルトの名無しさん** · 2016/01/06(水) 20:12:47.63

書き起こして記録しておくことは大切

**デフォルトの名無しさん** · 2016/01/06(水) 20:53:18.67

確かに。

**デフォルトの名無しさん** · 2016/01/15(金) 16:58:58.27

特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。

**デフォルトの名無しさん** · 2016/01/15(金) 18:41:54.97

豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では

**デフォルトの名無しさん** · 2016/01/16(土) 01:02:26.88

何個の豆腐かにもよるんじゃなかろうか

**デフォルトの名無しさん** · 2016/01/19(火) 13:39:56.61

http://srad.jp/%7Eyasuoka/journal/599766

安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの？

**デフォルトの名無しさん** · 2016/01/19(火) 20:31:34.42

使ったならちゃんとそう書けって話で
使うなということではない

**デフォルトの名無しさん** · 2016/01/22(金) 19:46:47.72

[要出典]
てか

**デフォルトの名無しさん** · 2016/01/22(金) 20:00:04.23

アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は

**デフォルトの名無しさん** · 2016/01/25(月) 22:08:23.80

Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス

**デフォルトの名無しさん** · 2016/01/25(月) 22:37:19.56

そんな甘い考えでやっちまったんだろうなあ

**片山博文MZ** ◆T6xkBnTXz7B0 · 2016/01/29(金) 15:58:28.60

与えられたテキストがUCS16に合致するか判定するアルゴリズムってある？

**デフォルトの名無しさん** · 2016/01/29(金) 16:42:21.91

iconvはルールが厳しいから
入ロクおかしければ変換失敗する

**片山博文MZ** ◆T6xkBnTXz7B0 · 2016/01/30(土) 22:17:33.35

nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。

**デフォルトの名無しさん** · 2016/01/31(日) 00:56:53.78

nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意

**デフォルトの名無しさん** · 2016/02/01(月) 00:21:45.94

ほええそういうものなのか

**デフォルトの名無しさん** · 2016/02/03(水) 21:14:57.17

シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな？
こうすればダメ文字問題も起こらないのに。

**デフォルトの名無しさん** · 2016/02/03(水) 21:41:36.87

>>160
半角カナは1バイト
漢字は2バイト
って制約があるから無理

**デフォルトの名無しさん** · 2016/02/03(水) 21:50:14.56

>>161は会話のできないあすぺ

**デフォルトの名無しさん** · 2016/02/03(水) 21:58:17.93

できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える

**デフォルトの名無しさん** · 2016/02/03(水) 23:45:43.20

Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。

**デフォルトの名無しさん** · 2016/02/03(水) 23:58:17.15

そして三水四水を入れる領域が足りなくなり後のMSに恨まれると。

**デフォルトの名無しさん** · 2016/02/04(木) 12:35:29.01

>>164
文字コードと符号化の違い分かってる？
そもそもシフトJISをサポートしてないソフトでシフトJISを使ったら問題出たってだけでしょ

**デフォルトの名無しさん** · 2016/02/04(木) 13:06:32.74

>>164
もう全く必要ない

**デフォルトの名無しさん** · 2016/02/04(木) 14:58:00.09

シフトJISの反省の上に？作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か

>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ？

**デフォルトの名無しさん** · 2016/02/04(木) 16:01:14.78

>>168
EUCはISO 2022ルールに則っとってる
ISO 2022はすでに存在した
半角カナも使える

**デフォルトの名無しさん** · 2016/02/04(木) 19:20:10.85

>>169
>>168は半角カナを1バイトに納めることがそんなに優先かと言ってる

>>168
確証は無いけど、分かりやすさ・計算の単純さ優先の結果だと思ってた

**デフォルトの名無しさん** · 2016/02/04(木) 23:06:09.90

>>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトＪＩＳもそうできなかったのかという話じゃないのか？

**デフォルトの名無しさん** · 2016/02/04(木) 23:35:33.23

むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ

**デフォルトの名無しさん** · 2016/02/05(金) 02:34:16.13

>>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる

シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな

**デフォルトの名無しさん** · 2016/02/05(金) 02:44:24.24

上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない

**デフォルトの名無しさん** · 2016/02/06(土) 14:03:11.00

>>173
対応してないから出来ないなんてことが起こるのはシフトＪＩＳだけだよ。
ダメ文字のせいで正規表現すら書けない。誰もやりたがらないような裏技はあるけどね。

**デフォルトの名無しさん** · 2016/02/06(土) 15:14:13.70

自分が間違ったやり方をしていたけど問題になったのはAだけだ
→だからAが悪い

まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い

**デフォルトの名無しさん** · 2016/02/06(土) 15:45:39.28

ビットマップのフォントデータ(16×16)を使って
レトロな電光掲示板を作ってみよう、と思う
http://i.imgur.com/owubbp4.png

**デフォルトの名無しさん** · 2016/02/06(土) 18:59:39.30

UTF-8なら漢字やかなに00-7Fは使わないけどな
って、そういう話をしてるわけじゃないのか。

**デフォルトの名無しさん** · 2016/02/06(土) 19:36:29.58

>>176
しかしShift JISはかなり質が悪い

**デフォルトの名無しさん** · 2016/02/06(土) 19:41:15.78

どうしてWindowsは出来の悪い方ばっかり選択するんだろうか
cp932といいUTF-16といい…

**デフォルトの名無しさん** · 2016/02/06(土) 20:34:21.53

>>178
そういう話をしてるつもりだけど、そうでない人もいるようだ。

**デフォルトの名無しさん** · 2016/02/07(日) 08:00:22.03

エスケープシーケンスよりCP932の方がまだマシだし、
CP932よりUCS-2の方が多少はマシだったからでしょ

**デフォルトの名無しさん** · 2016/02/07(日) 13:34:15.00

>>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトＪＩＳではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトＪＩＳと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトＪＩＳの場合はこれに加えてシフトＪＩＳな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトＪＩＳしか通さない grep など技術的には邪魔なだけだよ。

**デフォルトの名無しさん** · 2016/02/07(日) 13:49:06.41

>>183
長文の駄文乙
文字処理を文字単位でなくバイナリデータで行うのをやめた方がいいぞ

**デフォルトの名無しさん** · 2016/02/07(日) 15:37:08.80

>>183
"\]"←おおESC、これでアニメ作ったもんじゃ

>>184
ビット操作は頭の体操になるよ↓
http://i.imgur.com/ibjeaA8.png

**デフォルトの名無しさん** · 2016/02/07(日) 20:14:33.59

grepはいつutf16対応してくれるんじゃぁ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ

**デフォルトの名無しさん** · 2016/02/07(日) 21:05:14.46

utf16のそーすとか見たこと無いな

**デフォルトの名無しさん** · 2016/02/08(月) 01:36:20.73

>>180
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ

個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。

**デフォルトの名無しさん** · 2016/02/08(月) 05:19:47.55

>>188
全然仕方なくないどころか、むしろまた先走ってやっちまったとしか

**デフォルトの名無しさん** · 2016/02/08(月) 09:34:53.73

UTF-16固定とか基地外沙汰
ackやagもUTF-16は華麗にスルー

**デフォルトの名無しさん** · 2016/02/08(月) 22:30:39.07

EUCは目糞鼻糞だし、当時の記録媒体でUTF-8とか頭おかしいレベルなのに
一体どうしたかったのか

**デフォルトの名無しさん** · 2016/02/08(月) 22:35:16.47

ただマイクロソフトを非難したいだけのキティGUYに何を。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。

**デフォルトの名無しさん** · 2016/02/08(月) 23:02:30.93

SHIFT_JISよりEUC-JPの方がマシ、UTF-16よりUTF-8の方がマシってだけでしょ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ

**デフォルトの名無しさん** · 2016/02/09(火) 00:48:21.70

>>191
> 当時の記録媒体でUTF-8とか頭おかしいレベルなのに

kwsk

と言っても
> EUCは目糞鼻糞だしょ
なんて言ってる奴のいうことが理解できるかどうか…

**デフォルトの名無しさん** · 2016/02/09(火) 05:16:13.78

UTF-8のRFCが出たのは2003年
その頃には80GBのHDDを一般人が変える時代
テキストの容量が問題になるとか無いわ

個人的にはいつまで経ってもsetlocaleでUTF-8を指定出来ない、代替の方法も用意されないWindowsは非難されて当然だと思うけどな。

**デフォルトの名無しさん** · 2016/02/09(火) 07:15:08.73

Windowsの今の文字コードの設計のベースは1991年か1992年に
Unicode1.0.0をもとに作られたはず

ちなみにその頃から「～」はU+FF5Eに存在した

**デフォルトの名無しさん** · 2016/02/09(火) 07:20:39.41

当時の記録媒体言ってるのはWindowsNTの時代な
その当時にUTF-8みたいな実装してもｱﾎでしょ

それとUTF-8を率先して使用してる理由ってEUC環境が糞だったからでしょ
EUC環境の時代って外人様のソフトウェアで漢字の表示すらままならなかったよね

**デフォルトの名無しさん** · 2016/02/09(火) 07:37:26.98

まあなんにせよUnicodeでデータ交換できるようになって
EUCゴミ環境が消えテクノは良い事だわ
EUCありがとうバイバイ

**デフォルトの名無しさん** · 2016/02/09(火) 08:47:31.92

同じようにWindowsのCP932もさっさと消えてほしいんだけどな

**デフォルトの名無しさん** · 2016/02/09(火) 11:12:55.58

今でも新規作成の全文章を統計取ると、
cp932の方が多いんじゃないか。
結局全くプログラムかかないひとが
何の文字コード使ってるかが焦点で、
プログラム書く人間の文字コードなんざ焦点じゃないんだよね。