文字コードの種類は何故複数あるのでしょうか?
1つにしてくれればPGが苦労することはなくて 、ミンナうれしいはずなのに。
JISの文字コードがあれなのはそもそもが朝日新聞が適当に定めた文字だから まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。 実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから そういう文字はどんどん淘汰してゆくべき。 あと、字体がそっくりな文字なんかもできるだけ1つに統合してしまったほうがいい。 そのあとで国(言語種別)ごとにコード領域を分けて、すべての文字を1つのコード体系に 収めるべき。 次に改行コードだが、全部LFで統一でOK。改行ごときに2バイトも必要ない。 既存のリソースは全部LFに変換してしまえばよい。 Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、 CR+LFはいずれこの世から自然消滅するだろう。 最後にエンディアンについてだが、ビッグエンディアンに統一すべき。 人間が感覚的になじみやすいほうがいいから。 これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを 考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。 バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。 これは事実で、(ry JISとEUCはほぼ等価だから 漏れ的には扱い安さは EUC > JIS >>> SJIS >>>>>>> UNICODE だと思うよ 判定のしやすさで言えばJISは・・ UNICODEもそうだな、代わりにUTF-8とか使うが 野球板 お約束その122 「しまってこーぜー」 ↓ 「まずお前が社会の窓閉めろや」 言語は何故複数あるのでしょうか? どうせなら言語も英語だけにしようよ。 パスがでたー 主食は何故複数あるのでしょうか? どうせなら主食も米だけにしようよ。 >104 まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか? それともCCSとしてのJISX208なのか。 だいたい文字をコード(数字)に置き換えなければならない 現代のコンピュータアーキテクチャが問題。 やっぱ文字は文字として扱えなきゃダメでしょ。 「文字を文字として扱う」っていうのは具体的にどういうことよ? で、それらの文字を文字として扱うとはどういうこと? あいう・・・と書かずに a01001a01002a01003・・・ 【日本語を扱える主な文字コード(“x-” 付きのものは IANA 非登録)】 Shift_JIS Windows-31J x-Mac-Japanese ISO-2022-JP ISO-2022-JP-2 x-CP50220 EUC-JP x-CP51932 UTF-8 x-UTF-8N x-UTF-8-BOM UTF-7 UTF-16 UTF-16BE UTF-16LE Windows上でperlのCGIを作成していて、 ファイルの保存時に、漢字コードを指定しないと 保存できないのですが、 シフトJISと JISと EUCと、 どれを選択したらいいのでしょうか? 作成後はFFFTPでレンタルサーバーにアップロードしますが、 そのレンタルサーバーは当然UNIXなので、 UNIXで動かすということを考えればEUCで保存したほうが いいのですか? あと、C5の問題(表とか)を考えれば シフトJISだと 表¥ っていちいち書かないと文字化けしますが、 EUCだったらそんな余計なこと考えないでいいと いう記述も見つけました。 だったらEUCで保存しようかな?と思いましたが それだとWindows上でソースコードの変更作業するときに 漢字が文字化けしないですか? だってWindowsはシフトJISしか取り扱えないのだから。 結局何で保存すればいいのでしょうか? >>124 ・ShiftJisで書いてffftpで変換する。 ・まともなエディタでEUCで書く。 UNIXだからってサイトをEUCにしないといけないなんてことはない。 最近のLinuxは標準文字コードはUTF-8が多いよ。 XML対応とかも視野に入れるならできればUTF-8のほうがいい。 Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。 そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。 SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、 Unicode使っても薔薇色の未来が待ってるわけじゃない。 どっちかっつーと、長いものには巻かれろ的な感じの方が強い。 ハナからUnicode使ってれば変換表とか関係ないんじゃ? それは言える。 tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると 機種依存文字の関係でUNICODEの変換失敗で全部転ける。 >>128 ハナからUnicodeしか使って無くても、WAVE DASH使うと Windowsのフォントでは汚くなるとかあるし無問題とはならない。 世界が今すぐに全てUnicodeに変るわけじゃないから、 >>128 は実現不可能な夢。 そもそも狂っている変換表があるから、 元の意味/意図と違うUnicodeのデータが溜っていっている状況。 普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ ちょいと外国の文字使うくらいなら実体参照でも十分だし Unicodeなんて混乱の極みにある物を使う気にはなれん ネットワークが一番文字コード問題が露呈しやすいからだろ JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな JISの文字コード表なんて もうごちゃごちゃだな 80h〜9Fhなんて制御文字には使わないんだから 1区1点〜126区126点1つにまとめろよ >>139 JEF KEIS IBM JIPS(E/J) これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの? プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ >>147 前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね? この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。 >>147 ここを乗っ取ればいいんじゃね? >>148 誰もExt.Cには興味ないのか… Unicodeメーリングリストも絵文字で絶賛炎上中だしな >>149 ああ、即死食らったのか まぁ、このスレで充分な気もするけど http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html 最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが たくさんいるようだがこれはひどすぎる 日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。 それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。 それ何てKS X 1001? 国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい http://smallbear.sakura.ne.jp/tron/btm20091.html#20090123 まるで人ごとのように書いてますけど TRONコードでは&T224C71;と&T224C72;のどっちなんですか? ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は (JIS|Unicode)叩きの定番だったような気がするんですが。 ていうかTフォントマダー? (AAry 「…お母さん?俺やけど…」 「…TRONか?…」 「うん…俺、包摂分離してしもて…」 「もう、包摂分離の事は気にせんでいいから、成仏して…」 ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。 いや実際には調べてないけど絶対分離されてるに違いないし UnicodeだかUTF16だか知らんが サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。 2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。 Gmailが絵文字を全世界的に公式アナウンス。 https://mail.google.com/mail/help/about_whatsnew.html > Emoticons - they're not just for chat anymore > Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ). > Click the (小さい笑い顔) button when composing a message > in "Rich formatting" mode, or choose the new emoticons tab in chat, > and express yourself to your ハートマーク)'s desire. > Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518 ) https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif を絵文字アイコンに決定した模様。 「even ハエうんこ」ワロタ Sun-ExtBが更新されて、Extension Cの正式版に対応してた。 >>165 それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな UTF-16サロゲートペアをUTF-8に変換出来ますか? >>167 いったんUnicode scalar valueを求めてからUTF-8に変換してください。 サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。 日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め 独自のPC漢字文化が創られた。これがすべての始まり。 で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて 独自の絵文字文化が発達したわけですね、わかります。 進歩しろよ 日本のケータイメーカーが音頭を取って入れたわけではないけどね。 漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった http://www.kumikomi.net/article/report/2009/01tron/01.html > 2009年の早い時期に, もう出す出す詐欺はいいよ > 第1期 236,025字の一般リリース(Webからの無償ダウンロード)を予定しているという. GT78,675字×3書体を先に出すことにしたのか 久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。 http://www.unicode.org/roadmaps/smp/ 歴史的仮名遣いに必要な文字はすべて収録済みのはずだから 変体仮名の追加提案かな この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。 同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、 片仮名ブロックはもう空きが無いからな。 > 今後は「出典をすべてscanデータで出すべし」という方針に。 > だが、律儀に守っているのは日本と中国ぐらい。。 > 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。 UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。 今後の話だったら「ブラウザはまだ」って書いてるのが変だ U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。 名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。 平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。 Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな? 256で足りるのw? そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。 変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。 ttp://www10.plala.or.jp/koin/koinhentaigana.html 1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った 最低2バイト〜な感じで 欧米人にはそれが理解できんのですよ。 たとえば、”うまれつき目の見えないひと” を想像してみてください。 その人に「海は青い」という事を、いったいどうやって教えればいいのか。 そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。 だから理解不可能です。 3次元の世界で生活している我々が4次元の世界を理解できないのと同じく 1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが 理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。 >>185 いきなり可変でよろしくやってるのがUTF-8です。 >>184 たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を 設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする 変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね? 256種類まで対応できるんだから、多分足りるでしょ。 足りなきゃ、異体字セレクタの方を増やせばいい。 U+E0100〜U+E01EFは漢字専用じゃなかったっけ? それよりアラビア文字みたいに前後の文字で字形を変えるのを サポートする必要があるんじゃないか ・縦書き ・前後の状況で字形を変える必要がある ・異体字セレクタに対応が必要 それなんてモンゴル文字? 文字コード総合スレ part5 http://pc11.2ch.net/test/read.cgi/tech/1236529563/l50 作ってきた。 即死回避に、だれか頼む。 あと、テンプレがまだ(40行)残ってるので。現在連投規制(5回)で書き込めないのを何とかしないといけない。 >>197 乙 どんだけ書けば即死回避するんだっけ read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる