文字コードの種類は何故複数あるのでしょうか?

NGNG
1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。
2008/01/16(水) 23:18:53
>>135
あるよ。
以上。
↓次の方どうぞ
142デフォルトの名無しさん
垢版 |
2008/05/07(水) 23:34:16
age
2008/05/12(月) 22:00:30
sage
144デフォルトの名無しさん
垢版 |
2008/07/09(水) 23:50:48
2208
145デフォルトの名無しさん
垢版 |
2008/12/23(火) 07:49:06
>>139
JEF KEIS IBM JIPS(E/J)
これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの?
2008/12/25(木) 21:09:50
プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ
2009/01/07(水) 12:48:00
だれか文字コード総合スレの新スレ立ててー。
2009/01/07(水) 21:23:47
>>147
前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね?
2009/01/07(水) 21:31:34
この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。
2009/01/08(木) 00:03:07
>>147
ここを乗っ取ればいいんじゃね?
>>148
誰もExt.Cには興味ないのか…
Unicodeメーリングリストも絵文字で絶賛炎上中だしな
2009/01/08(木) 22:13:20
>>149
ああ、即死食らったのか

まぁ、このスレで充分な気もするけど
2009/01/12(月) 16:41:43
http://www.unicode.org/mail-arch/unicode-ml/y2009-m01/0380.html
最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが
たくさんいるようだがこれはひどすぎる
日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。
それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。
それ何てKS X 1001?
2009/01/12(月) 19:52:02
文字コードって65000くらいあるの?
2009/01/12(月) 21:00:14
100万くらいあります
2009/01/15(木) 00:13:07
絵文字レビュー終了のお知らせ
2009/01/18(日) 23:15:58
国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい
2009/01/18(日) 23:17:53
>>157
日本は何にするの?
158デフォルトの名無しさん
垢版 |
2009/01/26(月) 11:26:56
http://twitter.com/wraith13/status/1147555396
2009/01/26(月) 12:52:12
>>157
JIS_X201で。
2009/01/26(月) 23:24:33
http://smallbear.sakura.ne.jp/tron/btm20091.html#20090123
まるで人ごとのように書いてますけど
TRONコードでは&T224C71;と&T224C72;のどっちなんですか?
ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は
(JIS|Unicode)叩きの定番だったような気がするんですが。
ていうかTフォントマダー? (AAry
2009/01/27(火) 01:10:46
「…お母さん?俺やけど…」
「…TRONか?…」
「うん…俺、包摂分離してしもて…」
「もう、包摂分離の事は気にせんでいいから、成仏して…」
2009/01/27(火) 08:05:57
ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。
いや実際には調べてないけど絶対分離されてるに違いないし
163マイク ◆gZ6OoOjBU6
垢版 |
2009/02/05(木) 08:39:33
UnicodeだかUTF16だか知らんが
サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。
2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。
164マイク ◆gZ6OoOjBU6
垢版 |
2009/02/05(木) 08:49:15
これだわこれ。
blackhatコンファレンスで長谷川洋介って人だっけ?
それが発表してた文字コードに関する脆弱性に関する論文に近いもの。
見てない奴は見てみ
参考になんぞ

https://www.blackhat.com/presentations/bh-jp-08/bh-jp-08-Hasegawa/BlackHat-japan-08-Hasegawa-Char-Encoding.pdf
2009/02/06(金) 15:04:05
Gmailが絵文字を全世界的に公式アナウンス。

https://mail.google.com/mail/help/about_whatsnew.html

> Emoticons - they're not just for chat anymore
> Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ).
> Click the (小さい笑い顔) button when composing a message
> in "Rich formatting" mode, or choose the new emoticons tab in chat,
> and express yourself to your ハートマーク)'s desire.
> Learn more (http://mail.google.com/support/bin/answer.py?hl=en&answer=112518)

https://mail.google.com/mail/help/images/whatsnew/emoji_smile.gif
を絵文字アイコンに決定した模様。

「even ハエうんこ」ワロタ
2009/02/07(土) 08:19:39
Sun-ExtBが更新されて、Extension Cの正式版に対応してた。
>>165
それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな
167デフォルトの名無しさん
垢版 |
2009/02/07(土) 09:20:45
UTF-16サロゲートペアをUTF-8に変換出来ますか?
2009/02/07(土) 12:12:34
>>167
いったんUnicode scalar valueを求めてからUTF-8に変換してください。
サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。
2009/02/08(日) 01:58:04
日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め
独自のPC漢字文化が創られた。これがすべての始まり。
2009/02/08(日) 13:24:01
で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて
独自の絵文字文化が発達したわけですね、わかります。

進歩しろよ
2009/02/10(火) 11:08:47
絵文字はユニコードに入りますよ、たぶん。
2009/02/11(水) 01:08:00
日本のケータイメーカーが音頭を取って入れたわけではないけどね。
漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった
2009/02/13(金) 07:51:40
http://www.kumikomi.net/article/report/2009/01tron/01.html
> 2009年の早い時期に,
もう出す出す詐欺はいいよ
> 第1期 236,025字の一般リリース(Webからの無償ダウンロード)を予定しているという.
GT78,675字×3書体を先に出すことにしたのか
2009/02/17(火) 21:04:27
久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。
http://www.unicode.org/roadmaps/smp/
歴史的仮名遣いに必要な文字はすべて収録済みのはずだから
変体仮名の追加提案かな
2009/02/17(火) 21:25:54
"historical"じゃないのは何故だろう?
176デフォルトの名無しさん
垢版 |
2009/02/17(火) 23:03:24
この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。
同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、
片仮名ブロックはもう空きが無いからな。
2009/02/22(日) 18:58:47
http://fezn.exblog.jp/10234044/
一太郎ってIVS対応してたの? マジ?
2009/02/23(月) 23:33:42
> 今後は「出典をすべてscanデータで出すべし」という方針に。
> だが、律儀に守っているのは日本と中国ぐらい。。
> 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。
UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。
2009/02/24(火) 15:45:03
>>177
今後の話だろ。
2009/02/25(水) 22:50:21
今後の話だったら「ブラウザはまだ」って書いてるのが変だ
181デフォルトの名無しさん
垢版 |
2009/03/03(火) 22:09:24
U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。
名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。
平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。
Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?
2009/03/04(水) 00:21:44
256で足りるのw?
そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。
183デフォルトの名無しさん
垢版 |
2009/03/04(水) 00:29:59
変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。
ttp://www10.plala.or.jp/koin/koinhentaigana.html
184デフォルトの名無しさん
垢版 |
2009/03/04(水) 12:43:59
住基仮名だけなら256で足りるがな。
185デフォルトの名無しさん
垢版 |
2009/03/05(木) 07:38:01
1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った
最低2バイト〜な感じで
2009/03/05(木) 17:50:02
欧米人にはそれが理解できんのですよ。

たとえば、”うまれつき目の見えないひと” を想像してみてください。
その人に「海は青い」という事を、いったいどうやって教えればいいのか。
そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。
だから理解不可能です。

3次元の世界で生活している我々が4次元の世界を理解できないのと同じく
1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが
理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。
2009/03/05(木) 18:06:53
物理的に無理なのと一緒にされても。
2009/03/05(木) 19:19:15
文字コード総合の次スレはここでござるな? しからば過去スレを貼り。

【UTF8】文字コード変換【SJIS】
http://pc5.2ch.net/test/read.cgi/tech/1063177450/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
文字コード総合スレ part2
http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3
http://pc11.2ch.net/test/read.cgi/tech/1180250376/
2009/03/05(木) 20:24:38
>>185
いきなり可変でよろしくやってるのがUTF-8です。
2009/03/05(木) 21:44:14
>>184
たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を
設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする
2009/03/07(土) 02:01:46
変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね?
256種類まで対応できるんだから、多分足りるでしょ。
足りなきゃ、異体字セレクタの方を増やせばいい。
2009/03/07(土) 14:29:53
U+E0100〜U+E01EFは漢字専用じゃなかったっけ?
2009/03/07(土) 15:36:34
それよりアラビア文字みたいに前後の文字で字形を変えるのを
サポートする必要があるんじゃないか
2009/03/07(土) 19:27:11
・縦書き
・前後の状況で字形を変える必要がある
・異体字セレクタに対応が必要
それなんてモンゴル文字?
2009/03/07(土) 22:28:59
草書を標準化するところから始めないと…
2009/03/08(日) 11:10:41
アラビア文字がまさに草書の電子化
2009/03/09(月) 02:11:40
文字コード総合スレ part5
http://pc11.2ch.net/test/read.cgi/tech/1236529563/l50
作ってきた。 
即死回避に、だれか頼む。 
あと、テンプレがまだ(40行)残ってるので。現在連投規制(5回)で書き込めないのを何とかしないといけない。
2009/03/09(月) 02:23:53
●かえ
2009/03/09(月) 02:36:52
●持ってない
取り合えず見切り発車してくれ。
2009/03/09(月) 22:10:13
>>197


どんだけ書けば即死回避するんだっけ
2009/03/23(月) 19:29:17
>>192
あれって漢字専用なの?
漢字とモンゴル文字以外の場合はU+FE00〜FE0Fを使わないといかんの?
2009/08/11(火) 15:28:27
       ∧_∧
     ( ・∀・ )つ
     ( つ /
     | (⌒)どどど・・・
.       し' 三


       ∧_∧
    ⊂( ・∀・ )
.     ヽ ⊂ )
     (⌒) |どどどどど・・・・・
        三 `J

    メ\,_        ,メ゙\、
   .メ′ .゙゙アhr    _,zl||y,_ .゙∨
   .″       .y!^⌒ ¨\ .,,,,,,__ 
     .,yr=¬z  .l|  ◎  《 . ゙゙̄^へu,
 ,メ″,z厂◎  l|  ¥     il!      ゙ミ
il「  ミy   ..,ilト  ゙ミy_ ア ,メ       .∨
.ll′   干=冖″       ,,,yyyyy.   l|    / ̄ ̄ ̄ ̄ ̄
.l|     ,,,yvr=冖''''|リ|||》巛》ミ冖'li厂.l|   .,l!  <  薄型?!!!
.l!     《vvvr=冖¨ ̄      .゙干l!  .,メ′   \_____
.l|     .l|   .,,yrrvy_   ,,,,,,_   .《yrl″
\_   ,l|.,yzl^^゙゙^冖《《||7厂`゙リu_ .l|
  .゙\、 .r《l厂      .¨゙冖=vu,フhrト
203デフォルトの名無しさん
垢版 |
2009/12/12(土) 15:53:19
>>1
日本が世界を統一できなかったから
2009/12/12(土) 18:36:49
>>47

むしろNTはいち早く海栗コードだっただろ
当時は処理コストの無駄とすら言われていた。
2010/04/08(木) 01:34:54
もし、織田信長が生きていたら、日本が世界を支配するとか、テレビってマジ、アホだな。
あそこに出てた専門家も恥ずかしくないんだろうか?
(ひょっとして自称専門家かな)
206デフォルトの名無しさん
垢版 |
2010/06/27(日) 00:46:08
UTF8最強
ASCIIとの互換性は伊達じゃない。
2010/06/27(日) 00:57:46
もし、織田信長が生きていたら、日本が世界を支配
2010/06/30(水) 13:16:56
立ってないことろを見ると、ここが「文字コード総合スレ」の後継スレでつか?
2010/06/30(水) 13:28:51
立てるか。
テンプレ面倒過ぎるな。1 だけでいい?
2010/06/30(水) 23:13:43
VSネタまだやるなら分けてほしいな
2010/07/02(金) 17:37:12
結局争点はなんだったのだろう?
2010/07/02(金) 23:59:40
>>211
俺、utf8非万能説についてた人だが、俺の争点はそこだったんだが、相手の争点はそこじゃなかった気がするんだ。
一体何が争点だったのか、当事者にも分からない。
2010/07/03(土) 00:50:32
>>211
もおたが飲み仲間なのか、それとも憎いかでしょう。
2010/07/03(土) 11:01:09
それじゃ、争点を洗い出すスレが別に要る?それともここがそれ?
2010/07/03(土) 11:02:48
>>214
もういらないだろ。
2010/07/03(土) 11:55:19
文字コードのスレは何故複数あるのでしょうか?
217デフォルトの名無しさん
垢版 |
2010/07/03(土) 11:57:49
コードもスレも統合出来ないお馬鹿さんたちwww
2010/07/03(土) 12:18:09
馬鹿が来たぞー
2010/07/03(土) 12:41:21
>>211
争点は、UTF8はUTF16やUTF32よりも優れている。
特にASCIIとの互換性に優れており、
既存のソフト・・・多くはASCIIやEUC-JPなどの
ASCII互換用として作られているソフトや
そこで使われているライブラリの互換性がよく
ほとんど修正無しに動く。
UTF16やUTF32だと修正のコストが膨大になる。
ということ。
2010/07/03(土) 12:52:08
wchar_tとロケールとファイルシステム(fopen)がごっちゃになってた気がするんだが。
2010/07/03(土) 13:01:26
全部charをwchar_tに置き換えるだけでOKとかいう
能天気やろうもいたしな。

それが全ソースコード修正&再テストという
意味だというのを気づいていない。

その膨大さに気づいていないから、
置き換えるだけにコストがかかるというんですか?
なんてことを平気でいえてしまう。
2010/07/03(土) 13:06:11
>>219
それは争点じゃなくて、君の意見。

そしてUTF16,UTF32に拘りすぎ。
それを最初に持ち出した人(同一人物かは知らんが)は、
UTF8でも修正コストが膨大だと主張していて、UTF16は別にどうでもいい感じだった。

>>220
その通り。ファイルシステムどころかOSの仕様まで混ざってきて、複雑になるばかりの泥仕合。
2010/07/03(土) 13:07:21
>>222
お前の意見も、「君の意見」でしかないよ。

鏡見ろ
2010/07/03(土) 13:07:38
>>221
置き換えずにそのまま使うのにコストがかかるんですか?というのと同レベルの話。
2010/07/03(土) 13:08:47
>>223
俺は争点について話してない。>>219は争点について話しているはずなのに、君の意見しか入ってない。
自分の考え方に囚われるな。
2010/07/03(土) 13:10:12
>>222
文字コードを変えるのにOSの仕様まで出てくるってこと自体が、
文字コード変えるのがいかに難しいかを示しているんだけどなぁ。
2010/07/03(土) 13:17:19
この話は続ける必要はない。落ちたスレで既に話は終わっていたのだから。

999 名前:デフォルトの名無しさん [sage]: 2010/06/26(土) 22:19:28
>>972

>UTF-8にすると何もかも上手くいくよ派は、何を言いたいのかよくわからん

そんな奴いたか? wchar_tにすれば何もかもうまくいくよ派は居たけど。

---

UTF-8にすると何もかも上手くいくよ派がいないのなら、
>>212が争点にしてたことは、元々誰も否定してなかったことだし、
>>219が争点にしてたことは、元々誰も言っていなかったこと。
wchar_tにすることが全てを解決する方法じゃないのは自明。

結論は既に出ていた。
2010/07/03(土) 13:25:04
>>219が争点にしてたことは、元々誰も言っていなかったこと。

言っていたレスはあった
2010/07/03(土) 13:30:08
じゃあここは「文字コード総合スレ」がなぜ立たないのか、立てた場合のテンプレの話のスレにする?
2010/07/03(土) 13:38:28
なにもなければ放置されるだけのスレの埋め草としてちょうどいいな。
2010/07/03(土) 14:35:47
>>228
それよりも俺はwchar_tにすれば何もかもうまくいくよ派がいたのかどうかが気になるが。

>>229
いらないからだろ。
2010/07/03(土) 14:58:57
さっさと次スレ立てろよボケ
2010/07/03(土) 15:13:49
>>231
> >>228
> それよりも俺はwchar_tにすれば何もかもうまくいくよ派がいたのかどうかが気になるが。
>
WindowsかJavaしか知らなくて、Unixのロケールを知らなければそういう発想になるかも。
2010/07/03(土) 15:21:57
>>233
意味が分からん。2chに書いてあったか書いてなかったかと、Unixのロケールがどう関係するんだ?
2010/07/03(土) 15:24:04
情報の受け手側に理解する能力がなければ書かれてても気付かないってことだろう
2010/07/03(土) 15:26:22
>>234
> >>233
> 意味が分からん。2chに書いてあったか書いてなかったかと、Unixのロケールがどう関係するんだ?
fopenのwchar_tは規格化されていない、から泥仕合が始まったのだが。
2010/07/03(土) 15:28:13

知らないことは誰だってあるけど、いいやんとか言って違いも調べず思考停止するやつは向上心もう少し持とうぜ
2010/07/03(土) 15:43:18
>>236
・fopenの話が出たことと、wchar_tにすれば何もかもうまくいくという人がいたことは関係がない
・fopenが出てくる前から、どうせ泥試合だった
・どっちにせよ、fopenでそのままutf8渡して(文字化けすらしないという意味で)うまくいくのはロケールもutf8のときのみ
と認識しているが。
2010/07/03(土) 16:01:26
> ・どっちにせよ、fopenでそのままutf8渡して(文字化けすらしないという意味で)うまくいくのはロケールもutf8のときのみ
> と認識しているが。

ロケール間違ったまま使っていることなんてしょっちゅうあるが?
日本語化しないままOS使えるだろ。
文字がちゃんと表示されないだけで
2010/07/03(土) 17:02:38
Linuxのext2,ext3でSJIS,EUC-JP,UTF-8のファイル名混在は時々ある。
LinuxでもCD-ROM,vfat,ntfs,smbfsをマウントできて、その時に文字コードを指定しないと痛い目にあう。
2010/07/03(土) 17:47:51
>>239
日本語使えるロケールでも日本語がちゃんと表示されないんだったら、それは正常に動作してるとは言わない。
たとえ内部的にはちゃんと保持できていたとしても、関係ない。

>>240
それぞれのパーティションごとに文字コードが違うのは指定すればいいけど、
同一パーティションに複数の文字コードが混在してるのはやめてほしいが……
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況