文字コードの種類は何故複数あるのでしょうか？

**デフォルトの名無しさん** · NG

1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。

**デフォルトの名無しさん** · 2006/11/09(木) 12:34:39

JISの文字コードがあれなのはそもそもが朝日新聞が適当に定めた文字だから

**デフォルトの名無しさん** · 2007/01/06(土) 11:43:23

まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。
実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから
そういう文字はどんどん淘汰してゆくべき。
あと、字体がそっくりな文字なんかもできるだけ１つに統合してしまったほうがいい。
そのあとで国（言語種別）ごとにコード領域を分けて、すべての文字を１つのコード体系に
収めるべき。

次に改行コードだが、全部LFで統一でＯＫ。改行ごときに２バイトも必要ない。
既存のリソースは全部LFに変換してしまえばよい。
Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、
CR+LFはいずれこの世から自然消滅するだろう。

最後にエンディアンについてだが、ビッグエンディアンに統一すべき。
人間が感覚的になじみやすいほうがいいから。

これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを
考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。

**デフォルトの名無しさん** · 2007/01/10(水) 13:15:10

バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。
これは事実で、（ｒｙ

**デフォルトの名無しさん** · 2007/01/10(水) 14:26:08

JISとEUCはほぼ等価だから
漏れ的には扱い安さは
EUC > JIS >>> SJIS >>>>>>> UNICODE
だと思うよ

**デフォルトの名無しさん** · 2007/01/10(水) 14:28:45

判定のしやすさで言えばJISは・・
UNICODEもそうだな、代わりにUTF-8とか使うが

**デフォルトの名無しさん** · 2007/01/10(水) 17:43:21

援交ディングと門司セットの話がない交ぜに！

**デフォルトの名無しさん** · 2007/01/10(水) 18:11:17

UTF-128あれば大丈夫だろ？

**デフォルトの名無しさん** · 2007/01/10(水) 18:15:07

野球板　お約束その122
「しまってこーぜー」
↓
「まずお前が社会の窓閉めろや」

**デフォルトの名無しさん** · 2007/01/10(水) 18:15:43

ミスッた

**デフォルトの名無しさん** · 2007/01/10(水) 20:06:46

言語は何故複数あるのでしょうか？
どうせなら言語も英語だけにしようよ。

ﾊﾟｽがでたー

**デフォルトの名無しさん** · 2007/01/11(木) 09:38:18

主食は何故複数あるのでしょうか？
どうせなら主食も米だけにしようよ。

**デフォルトの名無しさん** · 2007/01/11(木) 23:46:02

>104
まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか？
それともCCSとしてのJISX208なのか。

**デフォルトの名無しさん** · 2007/01/24(水) 23:51:46

だいたい文字をコード（数字）に置き換えなければならない
現代のコンピュータアーキテクチャが問題。

やっぱ文字は文字として扱えなきゃダメでしょ。

**デフォルトの名無しさん** · 2007/01/25(木) 09:34:43

「文字を文字として扱う」っていうのは具体的にどういうことよ？

**デフォルトの名無しさん** · 2007/01/25(木) 10:01:33

0から9、AからFまでの文字しか使わない

**デフォルトの名無しさん** · 2007/01/25(木) 11:25:11

で、それらの文字を文字として扱うとはどういうこと?

**デフォルトの名無しさん** · 2007/02/10(土) 22:58:13

あいう・・・と書かずに
a01001a01002a01003・・・

**デフォルトの名無しさん** · 2007/03/16(金) 03:44:15

ベクトルデータとしてパターン認識させるとか？w

**デフォルトの名無しさん** · 2007/07/12(木) 19:45:19

【日本語を扱える主な文字コード（“x-” 付きのものは IANA 非登録）】

Shift_JIS
Windows-31J
x-Mac-Japanese

ISO-2022-JP
ISO-2022-JP-2
x-CP50220

EUC-JP
x-CP51932

UTF-8
x-UTF-8N
x-UTF-8-BOM

UTF-7

UTF-16
UTF-16BE
UTF-16LE

**デフォルトの名無しさん** · 2007/07/12(木) 21:01:07

UTF-32系は？

**・∀・）っ-○◎●** · 2007/08/09(木) 02:10:09

UTF-9は？

**デフォルトの名無しさん** · 2007/08/09(木) 16:25:42

UTF-18は？

**デフォルトの名無しさん** · 2007/08/09(木) 23:52:07

Punycodeは？

**デフォルトの名無しさん** · 2007/08/13(月) 14:54:27

Windows上でperlのCGIを作成していて、
ファイルの保存時に、漢字コードを指定しないと
保存できないのですが、
シフトJISと
JISと
EUCと、
どれを選択したらいいのでしょうか？
作成後はFFFTPでレンタルサーバーにアップロードしますが、
そのレンタルサーバーは当然UNIXなので、
UNIXで動かすということを考えればEUCで保存したほうが
いいのですか？
あと、C5の問題（表とか）を考えれば
シフトJISだと
表￥
っていちいち書かないと文字化けしますが、
EUCだったらそんな余計なこと考えないでいいと
いう記述も見つけました。
だったらEUCで保存しようかな？と思いましたが
それだとWindows上でソースコードの変更作業するときに
漢字が文字化けしないですか？
だってWindowｓはシフトJISしか取り扱えないのだから。
結局何で保存すればいいのでしょうか？

**デフォルトの名無しさん** · 2007/08/13(月) 23:34:09

>>124
・ShiftJisで書いてffftpで変換する。
・まともなエディタでEUCで書く。

**・∀・）っ-○◎●** · 2007/08/15(水) 03:02:00

UNIXだからってサイトをEUCにしないといけないなんてことはない。
最近のLinuxは標準文字コードはUTF-8が多いよ。

XML対応とかも視野に入れるならできればUTF-8のほうがいい。
Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。

**デフォルトの名無しさん** · 2007/08/15(水) 03:08:05

そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。

SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、
Unicode使っても薔薇色の未来が待ってるわけじゃない。
どっちかっつーと、長いものには巻かれろ的な感じの方が強い。

**デフォルトの名無しさん** · 2007/08/15(水) 10:36:44

ハナからUnicode使ってれば変換表とか関係ないんじゃ？

**・∀・）っ-○◎●** · 2007/08/15(水) 23:28:24

それは言える。

tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると
機種依存文字の関係でUNICODEの変換失敗で全部転ける。

**デフォルトの名無しさん** · 2007/08/16(木) 01:39:32

>>128
ハナからUnicodeしか使って無くても、WAVE DASH使うと
Windowsのフォントでは汚くなるとかあるし無問題とはならない。

**デフォルトの名無しさん** · 2007/08/16(木) 05:24:15

世界が今すぐに全てUnicodeに変るわけじゃないから、
>>128は実現不可能な夢。

そもそも狂っている変換表があるから、
元の意味/意図と違うUnicodeのデータが溜っていっている状況。

**デフォルトの名無しさん** · 2007/08/16(木) 10:12:50

ダンゴさんの居るスレは活気があるな。

**デフォルトの名無しさん** · 2007/08/20(月) 17:54:12

普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ
ちょいと外国の文字使うくらいなら実体参照でも十分だし
Unicodeなんて混乱の極みにある物を使う気にはなれん

**デフォルトの名無しさん** · 2007/08/20(月) 20:15:12

なんでウェブサイトの話になってるの？

**デフォルトの名無しさん** · 2007/08/26(日) 08:04:08

あげ

**デフォルトの名無しさん** · 2007/08/30(木) 08:21:39

ネットワークが一番文字コード問題が露呈しやすいからだろ

**デフォルトの名無しさん** · 2007/09/02(日) 18:33:34

>>1
なんで人の言葉は複数あるんでしょうか？

**デフォルトの名無しさん** · 2007/09/04(火) 16:32:27

バベルの塔を建てたから

**デフォルトの名無しさん** · 2007/09/08(土) 10:08:44

JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな

**デフォルトの名無しさん** · 2007/11/25(日) 16:28:52

JISの文字コード表なんて
もうごちゃごちゃだな
80h～9Fhなんて制御文字には使わないんだから
１区１点～126区126点１つにまとめろよ

**デフォルトの名無しさん** · 2008/01/16(水) 23:18:53

>>135
あるよ。
以上。
↓次の方どうぞ

**デフォルトの名無しさん** · 2008/05/07(水) 23:34:16

age

**デフォルトの名無しさん** · 2008/05/12(月) 22:00:30

sage

**デフォルトの名無しさん** · 2008/07/09(水) 23:50:48

２２０８

**デフォルトの名無しさん** · 2008/12/23(火) 07:49:06

>>139
JEF KEIS IBM JIPS(E/J)
これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの？

**デフォルトの名無しさん** · 2008/12/25(木) 21:09:50

プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ

**デフォルトの名無しさん** · 2009/01/07(水) 12:48:00

だれか文字コード総合スレの新スレ立ててー。

**デフォルトの名無しさん** · 2009/01/07(水) 21:23:47

>>147
前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね？

**デフォルトの名無しさん** · 2009/01/07(水) 21:31:34

この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。

**デフォルトの名無しさん** · 2009/01/08(木) 00:03:07

>>147
ここを乗っ取ればいいんじゃね?
>>148
誰もExt.Cには興味ないのか…
Unicodeメーリングリストも絵文字で絶賛炎上中だしな

**デフォルトの名無しさん** · 2009/01/08(木) 22:13:20

>>149
ああ、即死食らったのか

まぁ、このスレで充分な気もするけど

**デフォルトの名無しさん** · 2009/01/12(月) 16:41:43

http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html
最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが
たくさんいるようだがこれはひどすぎる
日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。
それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。
それ何てKS X 1001?

**デフォルトの名無しさん** · 2009/01/12(月) 19:52:02

文字コードって65000くらいあるの？

**デフォルトの名無しさん** · 2009/01/12(月) 21:00:14

100万くらいあります

**デフォルトの名無しさん** · 2009/01/15(木) 00:13:07

絵文字レビュー終了のお知らせ

**デフォルトの名無しさん** · 2009/01/18(日) 23:15:58

国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい

**デフォルトの名無しさん** · 2009/01/18(日) 23:17:53

>>157
日本は何にするの？

**デフォルトの名無しさん** · 2009/01/26(月) 11:26:56

http://twitter.com/wraith13/status/1147555396

**デフォルトの名無しさん** · 2009/01/26(月) 12:52:12

>>157
JIS_X201で。

**デフォルトの名無しさん** · 2009/01/26(月) 23:24:33

http://smallbear.sakura.ne.jp/tron/btm20091.html#20090123
まるで人ごとのように書いてますけど
TRONコードでは&T224C71;と&T224C72;のどっちなんですか?
ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は
(JIS|Unicode)叩きの定番だったような気がするんですが。
ていうかTフォントマダー? (AAry

**デフォルトの名無しさん** · 2009/01/27(火) 01:10:46

「…お母さん？俺やけど…」
「…TRONか？…」
「うん…俺、包摂分離してしもて…」
「もう、包摂分離の事は気にせんでいいから、成仏して…」

**デフォルトの名無しさん** · 2009/01/27(火) 08:05:57

ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。
いや実際には調べてないけど絶対分離されてるに違いないし

**マイク** ◆gZ6OoOjBU6 · 2009/02/05(木) 08:39:33

UnicodeだかUTF16だか知らんが
サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。
2001年頃に2ｃｈで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。

**マイク** ◆gZ6OoOjBU6 · 2009/02/05(木) 08:49:15

これだわこれ。
blackhatコンファレンスで長谷川洋介って人だっけ？
それが発表してた文字コードに関する脆弱性に関する論文に近いもの。
見てない奴は見てみ
参考になんぞ

https://www.blackhat.com/presentations/bh-jp-08/bh-jp-08-Hasegawa/BlackHat-japan-08-Hasegawa-Char-Encoding.pdf

**デフォルトの名無しさん** · 2009/02/06(金) 15:04:05

Gmailが絵文字を全世界的に公式アナウンス。

https://mail.google.com/mail/help/about_whatsnew.html

> Emoticons - they're not just for chat anymore
> Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ).
> Click the (小さい笑い顔) button when composing a message
> in "Rich formatting" mode, or choose the new emoticons tab in chat,
> and express yourself to your ハートマーク)'s desire.
> Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518)

https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif
を絵文字アイコンに決定した模様。

「even ハエうんこ」ﾜﾛﾀ

**デフォルトの名無しさん** · 2009/02/07(土) 08:19:39

Sun-ExtBが更新されて、Extension Cの正式版に対応してた。
>>165
それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな

**デフォルトの名無しさん** · 2009/02/07(土) 09:20:45

UTF-16サロゲートペアをUTF-8に変換出来ますか？

**デフォルトの名無しさん** · 2009/02/07(土) 12:12:34

>>167
いったんUnicode scalar valueを求めてからUTF-8に変換してください。
サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。

**デフォルトの名無しさん** · 2009/02/08(日) 01:58:04

日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め
独自のPC漢字文化が創られた。これがすべての始まり。

**デフォルトの名無しさん** · 2009/02/08(日) 13:24:01

で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて
独自の絵文字文化が発達したわけですね、わかります。

進歩しろよ

**デフォルトの名無しさん** · 2009/02/10(火) 11:08:47

絵文字はユニコードに入りますよ、たぶん。

**デフォルトの名無しさん** · 2009/02/11(水) 01:08:00

日本のケータイメーカーが音頭を取って入れたわけではないけどね。
漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった

**デフォルトの名無しさん** · 2009/02/13(金) 07:51:40

http://www.kumikomi.net/article/report/2009/01tron/01.html
> 2009年の早い時期に，
もう出す出す詐欺はいいよ
> 第1期 236,025字の一般リリース（Webからの無償ダウンロード）を予定しているという．
GT78,675字×3書体を先に出すことにしたのか

**デフォルトの名無しさん** · 2009/02/17(火) 21:04:27

久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。
http://www.unicode.org/roadmaps/smp/
歴史的仮名遣いに必要な文字はすべて収録済みのはずだから
変体仮名の追加提案かな

**デフォルトの名無しさん** · 2009/02/17(火) 21:25:54

"historical"じゃないのは何故だろう?

**デフォルトの名無しさん** · 2009/02/17(火) 23:03:24

この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。
同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、
片仮名ブロックはもう空きが無いからな。

**デフォルトの名無しさん** · 2009/02/22(日) 18:58:47

http://fezn.exblog.jp/10234044/
一太郎ってIVS対応してたの? マジ?

**デフォルトの名無しさん** · 2009/02/23(月) 23:33:42

> 今後は「出典をすべてscanデータで出すべし」という方針に。
> だが、律儀に守っているのは日本と中国ぐらい。。
> 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。
UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。

**デフォルトの名無しさん** · 2009/02/24(火) 15:45:03

>>177
今後の話だろ。

**デフォルトの名無しさん** · 2009/02/25(水) 22:50:21

今後の話だったら「ブラウザはまだ」って書いてるのが変だ

**デフォルトの名無しさん** · 2009/03/03(火) 22:09:24

U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。
名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。
平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。
Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?

**デフォルトの名無しさん** · 2009/03/04(水) 00:21:44

256で足りるのｗ？
そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。

**デフォルトの名無しさん** · 2009/03/04(水) 00:29:59

変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。
ttp://www10.plala.or.jp/koin/koinhentaigana.html

**デフォルトの名無しさん** · 2009/03/04(水) 12:43:59

住基仮名だけなら256で足りるがな。

**デフォルトの名無しさん** · 2009/03/05(木) 07:38:01

１バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った
最低２バイト～な感じで

**デフォルトの名無しさん** · 2009/03/05(木) 17:50:02

欧米人にはそれが理解できんのですよ。

たとえば、”うまれつき目の見えないひと” を想像してみてください。
その人に「海は青い」という事を、いったいどうやって教えればいいのか。
そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。
だから理解不可能です。

３次元の世界で生活している我々が４次元の世界を理解できないのと同じく
１文字１バイト圏で生活している欧米人には、１文字が２バイト、３バイトになるのが
理解できんのです。ヤツらにとってマルチバイト文化は４次元の世界なのです。

**デフォルトの名無しさん** · 2009/03/05(木) 18:06:53

物理的に無理なのと一緒にされても。

**デフォルトの名無しさん** · 2009/03/05(木) 19:19:15

文字コード総合の次スレはここでござるな？　しからば過去スレを貼り。

【UTF8】文字コード変換【SJIS】
http://pc5.2ch.net/test/read.cgi/tech/1063177450/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
文字コード総合スレ part2
http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3
http://pc11.2ch.net/test/read.cgi/tech/1180250376/

**デフォルトの名無しさん** · 2009/03/05(木) 20:24:38

>>185
いきなり可変でよろしくやってるのがUTF-8です。

**デフォルトの名無しさん** · 2009/03/05(木) 21:44:14

>>184
たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を
設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする

**デフォルトの名無しさん** · 2009/03/07(土) 02:01:46

変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね？
256種類まで対応できるんだから、多分足りるでしょ。
足りなきゃ、異体字セレクタの方を増やせばいい。

**デフォルトの名無しさん** · 2009/03/07(土) 14:29:53

U+E0100～U+E01EFは漢字専用じゃなかったっけ?

**デフォルトの名無しさん** · 2009/03/07(土) 15:36:34

それよりアラビア文字みたいに前後の文字で字形を変えるのを
サポートする必要があるんじゃないか

**デフォルトの名無しさん** · 2009/03/07(土) 19:27:11

・縦書き
・前後の状況で字形を変える必要がある
・異体字セレクタに対応が必要
それなんてモンゴル文字?

**デフォルトの名無しさん** · 2009/03/07(土) 22:28:59

草書を標準化するところから始めないと…

**デフォルトの名無しさん** · 2009/03/08(日) 11:10:41

アラビア文字がまさに草書の電子化

**デフォルトの名無しさん** · 2009/03/09(月) 02:11:40

文字コード総合スレ part5
http://pc11.2ch.net/test/read.cgi/tech/1236529563/l50
作ってきた。　
即死回避に、だれか頼む。　
あと、テンプレがまだ（４０行）残ってるので。現在連投規制（5回）で書き込めないのを何とかしないといけない。

**デフォルトの名無しさん** · 2009/03/09(月) 02:23:53

●かえ

**デフォルトの名無しさん** · 2009/03/09(月) 02:36:52

●持ってない
取り合えず見切り発車してくれ。

**デフォルトの名無しさん** · 2009/03/09(月) 22:10:13

>>197
乙

どんだけ書けば即死回避するんだっけ