文字コードの種類は何故複数あるのでしょうか?
0102デフォルトの名無しさん
垢版 |
2007/01/06(土) 11:43:23
まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。
実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから
そういう文字はどんどん淘汰してゆくべき。
あと、字体がそっくりな文字なんかもできるだけ1つに統合してしまったほうがいい。
そのあとで国(言語種別)ごとにコード領域を分けて、すべての文字を1つのコード体系に
収めるべき。

次に改行コードだが、全部LFで統一でOK。改行ごときに2バイトも必要ない。
既存のリソースは全部LFに変換してしまえばよい。
Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、
CR+LFはいずれこの世から自然消滅するだろう。

最後にエンディアンについてだが、ビッグエンディアンに統一すべき。
人間が感覚的になじみやすいほうがいいから。

これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを
考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。
0103デフォルトの名無しさん
垢版 |
2007/01/10(水) 13:15:10
バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。
これは事実で、(ry
0107デフォルトの名無しさん
垢版 |
2007/01/10(水) 18:11:17
UTF-128あれば大丈夫だろ?
0108デフォルトの名無しさん
垢版 |
2007/01/10(水) 18:15:07
野球板 お約束その122
「しまってこーぜー」

「まずお前が社会の窓閉めろや」
0110デフォルトの名無しさん
垢版 |
2007/01/10(水) 20:06:46
言語は何故複数あるのでしょうか?
どうせなら言語も英語だけにしようよ。

パスがでたー
0112デフォルトの名無しさん
垢版 |
2007/01/11(木) 23:46:02
>104
まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか?
それともCCSとしてのJISX208なのか。
0113デフォルトの名無しさん
垢版 |
2007/01/24(水) 23:51:46
だいたい文字をコード(数字)に置き換えなければならない
現代のコンピュータアーキテクチャが問題。

やっぱ文字は文字として扱えなきゃダメでしょ。
0119デフォルトの名無しさん
垢版 |
2007/07/12(木) 19:45:19
【日本語を扱える主な文字コード(“x-” 付きのものは IANA 非登録)】

Shift_JIS
Windows-31J
x-Mac-Japanese

ISO-2022-JP
ISO-2022-JP-2
x-CP50220

EUC-JP
x-CP51932

UTF-8
x-UTF-8N
x-UTF-8-BOM

UTF-7

UTF-16
UTF-16BE
UTF-16LE
0124デフォルトの名無しさん
垢版 |
2007/08/13(月) 14:54:27
Windows上でperlのCGIを作成していて、
ファイルの保存時に、漢字コードを指定しないと
保存できないのですが、
シフトJISと
JISと
EUCと、
どれを選択したらいいのでしょうか?
作成後はFFFTPでレンタルサーバーにアップロードしますが、
そのレンタルサーバーは当然UNIXなので、
UNIXで動かすということを考えればEUCで保存したほうが
いいのですか?
あと、C5の問題(表とか)を考えれば
シフトJISだと
表¥
っていちいち書かないと文字化けしますが、
EUCだったらそんな余計なこと考えないでいいと
いう記述も見つけました。
だったらEUCで保存しようかな?と思いましたが
それだとWindows上でソースコードの変更作業するときに
漢字が文字化けしないですか?
だってWindowsはシフトJISしか取り扱えないのだから。
結局何で保存すればいいのでしょうか?
0126・∀・)っ-○◎●
垢版 |
2007/08/15(水) 03:02:00
UNIXだからってサイトをEUCにしないといけないなんてことはない。
最近のLinuxは標準文字コードはUTF-8が多いよ。

XML対応とかも視野に入れるならできればUTF-8のほうがいい。
Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。
0127デフォルトの名無しさん
垢版 |
2007/08/15(水) 03:08:05
そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。

SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、
Unicode使っても薔薇色の未来が待ってるわけじゃない。
どっちかっつーと、長いものには巻かれろ的な感じの方が強い。
0129・∀・)っ-○◎●
垢版 |
2007/08/15(水) 23:28:24
それは言える。

tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると
機種依存文字の関係でUNICODEの変換失敗で全部転ける。
0130デフォルトの名無しさん
垢版 |
2007/08/16(木) 01:39:32
>>128
ハナからUnicodeしか使って無くても、WAVE DASH使うと
Windowsのフォントでは汚くなるとかあるし無問題とはならない。
0131デフォルトの名無しさん
垢版 |
2007/08/16(木) 05:24:15
世界が今すぐに全てUnicodeに変るわけじゃないから、
>>128は実現不可能な夢。

そもそも狂っている変換表があるから、
元の意味/意図と違うUnicodeのデータが溜っていっている状況。
0133デフォルトの名無しさん
垢版 |
2007/08/20(月) 17:54:12
普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ
ちょいと外国の文字使うくらいなら実体参照でも十分だし
Unicodeなんて混乱の極みにある物を使う気にはなれん
0135デフォルトの名無しさん
垢版 |
2007/08/26(日) 08:04:08
あげ
0137デフォルトの名無しさん
垢版 |
2007/09/02(日) 18:33:34
>>1
なんで人の言葉は複数あるんでしょうか?
0139デフォルトの名無しさん
垢版 |
2007/09/08(土) 10:08:44
JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな
0140デフォルトの名無しさん
垢版 |
2007/11/25(日) 16:28:52
JISの文字コード表なんて
もうごちゃごちゃだな
80h〜9Fhなんて制御文字には使わないんだから
1区1点〜126区126点1つにまとめろよ
0142デフォルトの名無しさん
垢版 |
2008/05/07(水) 23:34:16
age
0144デフォルトの名無しさん
垢版 |
2008/07/09(水) 23:50:48
2208
0145デフォルトの名無しさん
垢版 |
2008/12/23(火) 07:49:06
>>139
JEF KEIS IBM JIPS(E/J)
これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの?
0146デフォルトの名無しさん
垢版 |
2008/12/25(木) 21:09:50
プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ
0152デフォルトの名無しさん
垢版 |
2009/01/12(月) 16:41:43
http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html
最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが
たくさんいるようだがこれはひどすぎる
日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。
それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。
それ何てKS X 1001?
0161デフォルトの名無しさん
垢版 |
2009/01/27(火) 01:10:46
「…お母さん?俺やけど…」
「…TRONか?…」
「うん…俺、包摂分離してしもて…」
「もう、包摂分離の事は気にせんでいいから、成仏して…」
0162デフォルトの名無しさん
垢版 |
2009/01/27(火) 08:05:57
ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。
いや実際には調べてないけど絶対分離されてるに違いないし
0163マイク ◆gZ6OoOjBU6
垢版 |
2009/02/05(木) 08:39:33
UnicodeだかUTF16だか知らんが
サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。
2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。
0165デフォルトの名無しさん
垢版 |
2009/02/06(金) 15:04:05
Gmailが絵文字を全世界的に公式アナウンス。

https://mail.google.com/mail/help/about_whatsnew.html

> Emoticons - they're not just for chat anymore
> Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ).
> Click the (小さい笑い顔) button when composing a message
> in "Rich formatting" mode, or choose the new emoticons tab in chat,
> and express yourself to your ハートマーク)'s desire.
> Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518)

https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif
を絵文字アイコンに決定した模様。

「even ハエうんこ」ワロタ
0166デフォルトの名無しさん
垢版 |
2009/02/07(土) 08:19:39
Sun-ExtBが更新されて、Extension Cの正式版に対応してた。
>>165
それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな
0167デフォルトの名無しさん
垢版 |
2009/02/07(土) 09:20:45
UTF-16サロゲートペアをUTF-8に変換出来ますか?
0168デフォルトの名無しさん
垢版 |
2009/02/07(土) 12:12:34
>>167
いったんUnicode scalar valueを求めてからUTF-8に変換してください。
サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。
0169デフォルトの名無しさん
垢版 |
2009/02/08(日) 01:58:04
日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め
独自のPC漢字文化が創られた。これがすべての始まり。
0170デフォルトの名無しさん
垢版 |
2009/02/08(日) 13:24:01
で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて
独自の絵文字文化が発達したわけですね、わかります。

進歩しろよ
0172デフォルトの名無しさん
垢版 |
2009/02/11(水) 01:08:00
日本のケータイメーカーが音頭を取って入れたわけではないけどね。
漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった
0176デフォルトの名無しさん
垢版 |
2009/02/17(火) 23:03:24
この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。
同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、
片仮名ブロックはもう空きが無いからな。
0178デフォルトの名無しさん
垢版 |
2009/02/23(月) 23:33:42
> 今後は「出典をすべてscanデータで出すべし」という方針に。
> だが、律儀に守っているのは日本と中国ぐらい。。
> 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。
UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。
0181デフォルトの名無しさん
垢版 |
2009/03/03(火) 22:09:24
U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。
名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。
平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。
Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?
0182デフォルトの名無しさん
垢版 |
2009/03/04(水) 00:21:44
256で足りるのw?
そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。
0183デフォルトの名無しさん
垢版 |
2009/03/04(水) 00:29:59
変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。
ttp://www10.plala.or.jp/koin/koinhentaigana.html
0184デフォルトの名無しさん
垢版 |
2009/03/04(水) 12:43:59
住基仮名だけなら256で足りるがな。
0185デフォルトの名無しさん
垢版 |
2009/03/05(木) 07:38:01
1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った
最低2バイト〜な感じで
0186デフォルトの名無しさん
垢版 |
2009/03/05(木) 17:50:02
欧米人にはそれが理解できんのですよ。

たとえば、”うまれつき目の見えないひと” を想像してみてください。
その人に「海は青い」という事を、いったいどうやって教えればいいのか。
そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。
だから理解不可能です。

3次元の世界で生活している我々が4次元の世界を理解できないのと同じく
1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが
理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。
0188デフォルトの名無しさん
垢版 |
2009/03/05(木) 19:19:15
文字コード総合の次スレはここでござるな? しからば過去スレを貼り。

【UTF8】文字コード変換【SJIS】
http://pc5.2ch.net/test/read.cgi/tech/1063177450/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
文字コード総合スレ part2
http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3
http://pc11.2ch.net/test/read.cgi/tech/1180250376/
0190デフォルトの名無しさん
垢版 |
2009/03/05(木) 21:44:14
>>184
たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を
設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする
0191デフォルトの名無しさん
垢版 |
2009/03/07(土) 02:01:46
変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね?
256種類まで対応できるんだから、多分足りるでしょ。
足りなきゃ、異体字セレクタの方を増やせばいい。
0193デフォルトの名無しさん
垢版 |
2009/03/07(土) 15:36:34
それよりアラビア文字みたいに前後の文字で字形を変えるのを
サポートする必要があるんじゃないか
0194デフォルトの名無しさん
垢版 |
2009/03/07(土) 19:27:11
・縦書き
・前後の状況で字形を変える必要がある
・異体字セレクタに対応が必要
それなんてモンゴル文字?
レスを投稿する


ニューススポーツなんでも実況