Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
536デフォルトの名無しさん
2019/08/19(月) 07:31:42.15ID:SJok1opV537デフォルトの名無しさん
2019/08/19(月) 08:38:57.28ID:xlQPwL5+ ところでW3Cって文字コードの制定とかに関わってたっけ?
XMLが使う符号化文字集合にUnicodeを推奨してるくらいじゃない?
XMLが使う符号化文字集合にUnicodeを推奨してるくらいじゃない?
538デフォルトの名無しさん
2019/08/20(火) 11:37:07.61ID:zlJnj2O9 >>531
これはひどいω
これはひどいω
539デフォルトの名無しさん
2019/08/20(火) 11:39:07.12ID:zlJnj2O9 >>533
ファイル名まで .sjis つけてるくせになんで iso-2022-jp で保存してるのかイミフ
ファイル名まで .sjis つけてるくせになんで iso-2022-jp で保存してるのかイミフ
540デフォルトの名無しさん
2019/08/20(火) 18:30:12.77ID:Gkd3xMH4 なんか同じような原因で文字化けしてるページに対して
同じようなレスをした記憶が…と思ったら前スレにあった。
記憶障害じゃなくてよかったw
https://mevius.5ch.net/test/read.cgi/tech/1516629503/821-843
同じようなレスをした記憶が…と思ったら前スレにあった。
記憶障害じゃなくてよかったw
https://mevius.5ch.net/test/read.cgi/tech/1516629503/821-843
541デフォルトの名無しさん
2019/08/20(火) 21:44:07.86ID:Y189B2BT HTMLをiso-2022-jpにするのって
どこの文化なんだろうか?
Windowsはsjisだからありえないし
Linuxも昔の普通はEUC-JPだろ?
iso-2022-jpはメールにしか使われてなかったはずだが
どこの文化なんだろうか?
Windowsはsjisだからありえないし
Linuxも昔の普通はEUC-JPだろ?
iso-2022-jpはメールにしか使われてなかったはずだが
542デフォルトの名無しさん
2019/08/20(火) 21:47:57.43ID:UVunetX1 >>531
イシカワ マサヤスというのは誰だろうね。
イシカワ マサヤスというのは誰だろうね。
543デフォルトの名無しさん
2019/08/20(火) 21:51:25.41ID:Y189B2BT イシカワ マサヤスさんでは?
544デフォルトの名無しさん
2019/08/20(火) 21:52:36.86ID:UVunetX1 石川雅康と石川哲志は親族だろうか?
どちらもICT業界から去ったのかな。
どちらもICT業界から去ったのかな。
545デフォルトの名無しさん
2019/08/20(火) 21:54:13.55ID:Y189B2BT またつまらんものを
546デフォルトの名無しさん
2019/08/20(火) 21:58:33.22ID:UVunetX1 XHTMLが終わってしまって、そのまま放置の石川さん。
547デフォルトの名無しさん
2019/08/20(火) 22:46:49.05ID:anpoimU7 >>541
sjisやeuc-jpが整う前は、HTMLをiso-2022-jpにするのも選択肢の一つだったらしい
ttp://www.tohoho-web.com/lng/199801/98011002.htm
sjisやeuc-jpが整う前は、HTMLをiso-2022-jpにするのも選択肢の一つだったらしい
ttp://www.tohoho-web.com/lng/199801/98011002.htm
549デフォルトの名無しさん
2019/08/20(火) 23:43:43.88ID:Gkd3xMH4 > どこかの雑誌で、「charset=iso-2022-jp は自動判別の指定」と堂々と紹介された
http://web.archive.org/web/19980116120529/http://www.pro.or.jp/~fuji/horrible/horrible.kanji.html
えぇ……。
http://web.archive.org/web/19980116120529/http://www.pro.or.jp/~fuji/horrible/horrible.kanji.html
えぇ……。
550デフォルトの名無しさん
2019/08/21(水) 00:08:09.19ID:/FRdjxvW 1998年当時のWebブラウザはキャラクタセットの判定すら怪しかった。
551デフォルトの名無しさん
2019/08/21(水) 02:35:13.27ID:GZen3C6t >>549
そのリンク先に書いてあるけど、iso-2022-jp が使われてるのはMSが発端なのか?
> name="GENERATOR" content="Microsoft FrontPage 2.0"
> というのが各HTMLファイルの先頭にあることから、Microsoft の FrontPage が 漢字コードがシフトJISのファイルであるにもか かわらず、iso-2022-jp の指定するからではないかと思われます。
そのリンク先に書いてあるけど、iso-2022-jp が使われてるのはMSが発端なのか?
> name="GENERATOR" content="Microsoft FrontPage 2.0"
> というのが各HTMLファイルの先頭にあることから、Microsoft の FrontPage が 漢字コードがシフトJISのファイルであるにもか かわらず、iso-2022-jp の指定するからではないかと思われます。
552デフォルトの名無しさん
2019/08/21(水) 03:44:23.93ID:jDiMObB6553551
2019/08/21(水) 05:07:33.18ID:GZen3C6t あ、違ったわ。MSのはMicrosoft FrontPage 2.0がmetaタグの指定を間違ってるって話で
HTMLの内容がiso-2022-jpというのはまた別問題か
sjis以外あるかな?ってやってみたら他のエンコーディングも見つかったし
>>531は単なる文字コード変換ミスかな?
https://www.w3.org/People/mimasa/xmldev.html.ja.aaaaa
HTMLの内容がiso-2022-jpというのはまた別問題か
sjis以外あるかな?ってやってみたら他のエンコーディングも見つかったし
>>531は単なる文字コード変換ミスかな?
https://www.w3.org/People/mimasa/xmldev.html.ja.aaaaa
554デフォルトの名無しさん
2019/08/21(水) 14:49:37.63ID:ur92HW83 拡張子付け間違いか
555デフォルトの名無しさん
2019/08/22(木) 06:16:14.71ID:mlpPC2JR ブラウザって一時だけでも拡張子によって文字コードを判断してた時期があったの?
俺の記憶にはないのだけども……。
俺の記憶にはないのだけども……。
556デフォルトの名無しさん
2019/08/22(木) 06:36:57.94ID:jM8tCXZ0 だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jisなのに
中身がiso-2022-jpなんだってば
iso-2022-jpが使えるテキストエディタで書いたか
sjisに変換すべきところをiso-2022-jpに変換してしまったということ
昔のWindowsで書いたならsjisになるだろうから変換ミスかなって話
中身がiso-2022-jpなんだってば
iso-2022-jpが使えるテキストエディタで書いたか
sjisに変換すべきところをiso-2022-jpに変換してしまったということ
昔のWindowsで書いたならsjisになるだろうから変換ミスかなって話
557デフォルトの名無しさん
2019/08/22(木) 08:04:31.58ID:jlFkmCtz jisって拡張子ならiso-2022-jp(JISコード)なのは意図通りだろ
HTTPヘッダのcharsetが食い違ってるだけで
HTTPヘッダのcharsetが食い違ってるだけで
558デフォルトの名無しさん
2019/08/22(木) 09:50:35.92ID:xQsiKIbM 鯖の仕様が変わってcharsetのデフォが変わったからな
サーバー引越のときに設定間違えた可能性はあり得る
サーバー引越のときに設定間違えた可能性はあり得る
559デフォルトの名無しさん
2019/08/22(木) 10:23:09.36ID:jM8tCXZ0560デフォルトの名無しさん
2019/08/22(木) 10:30:34.86ID:jM8tCXZ0 昔のブラウザはHTTPヘッダのcharsetよりも
ドキュメントからの文字コード判定の方を重視していた。
なぜならセキュリティというかサーバー運営者がよくわかっておらず
設定変更の必要性を理解できていなかったので設定されてなかった
たとえ設定変更ができるサーバーでもユーザーが理解していなかった
そんな時代だからブラウザで表示できれば良し程度のレベルが普通で
今からするとチェックが甘かった。その当時の間違った文字コードのページが今も残っている。
たぶんこんなところ
ドキュメントからの文字コード判定の方を重視していた。
なぜならセキュリティというかサーバー運営者がよくわかっておらず
設定変更の必要性を理解できていなかったので設定されてなかった
たとえ設定変更ができるサーバーでもユーザーが理解していなかった
そんな時代だからブラウザで表示できれば良し程度のレベルが普通で
今からするとチェックが甘かった。その当時の間違った文字コードのページが今も残っている。
たぶんこんなところ
562デフォルトの名無しさん
2019/08/22(木) 10:35:00.76ID:jM8tCXZ0563デフォルトの名無しさん
2019/08/22(木) 10:38:26.99ID:8JJS2LZD564デフォルトの名無しさん
2019/08/22(木) 15:58:03.72ID:mlpPC2JR 皆さん落ち着いて
565デフォルトの名無しさん
2019/08/23(金) 17:29:19.40ID:bWgnQwQ7 なんでUTF8以外違法になった今そんな話してんだか・・・
566デフォルトの名無しさん
2019/08/23(金) 17:59:07.09ID:UifFOlyJ × 違法 ○ 非推奨
567デフォルトの名無しさん
2019/08/24(土) 00:05:20.43ID:Ka96Zrl8 秘宝とか緋水晶とか何の話をしてるんだ?
568デフォルトの名無しさん
2019/08/25(日) 20:34:39.12ID:++G8a3I1 ムーンプリズムパワー!メイクアップ!
569デフォルトの名無しさん
2019/08/25(日) 22:05:01.03ID:E2o3oeEK タリスマン
570デフォルトの名無しさん
2019/08/25(日) 22:36:09.44ID:heTmUHGD クリマタスミ
571デフォルトの名無しさん
2019/08/28(水) 13:35:52.48ID:AiVdwxrR ひまだ
572デフォルトの名無しさん
2019/08/28(水) 19:19:16.62ID:lfvHhqTB サクラエディタがとうの昔にUTF32対応していた事実をいまごろ知った。
573デフォルトの名無しさん
2019/08/28(水) 20:04:07.93ID:FG4A80Dg じっさい32じたいそんな使わないだろw
574デフォルトの名無しさん
2019/08/29(木) 18:28:30.40ID:VG5IecJ5 でもUTF-16の「どんな文字でも固定ビット幅」という利点が失われてしまった今,
固定ビット幅が実現できる唯一の規格であるUTF-32は希少では。
固定ビット幅が実現できる唯一の規格であるUTF-32は希少では。
575デフォルトの名無しさん
2019/08/29(木) 18:42:08.11ID:y3rrvHgi 読むぶんにはナイーブな実装で足りるからいいけど実際使うとなったら00が無駄に思えてきて敬遠しがち
だからもしかすると文字コードでさえ適材適所なのかと考え始めている
だからもしかすると文字コードでさえ適材適所なのかと考え始めている
576デフォルトの名無しさん
2019/08/29(木) 18:49:00.69ID:1ks18uap 内部表現は32bit単位で固定長の方が楽
ファイル読み書きのときはutf-8で勝利
あとはcps932が滅ぶのを待つだけ
ファイル読み書きのときはutf-8で勝利
あとはcps932が滅ぶのを待つだけ
577デフォルトの名無しさん
2019/08/29(木) 19:05:33.35ID:VG5IecJ5 OSのインターフェースはUTF-8,内部表現はUTF-32が一番いいのかもね。
UTF-32だとASCIIに比べて単純計算で四倍弱の容量を食ってしまうのが難点。
でもOSの本体くらいならそもそもテキストとして表現されてるファイルも少ないし案外肥大化は防げるのかも。
UTF-32だとASCIIに比べて単純計算で四倍弱の容量を食ってしまうのが難点。
でもOSの本体くらいならそもそもテキストとして表現されてるファイルも少ないし案外肥大化は防げるのかも。
578デフォルトの名無しさん
2019/08/29(木) 19:09:37.98ID:CAV+1+Xc という会話を何年も前にこのスレで観た
579デフォルトの名無しさん
2019/08/29(木) 19:11:19.48ID:YrWceYNE 複数のコードポイントのシーケンスで一文字を表現するUNICODEだから
UTF-32でも一文字が32bitで収まるとは限らないからUTF-8でも大差ない
UTF-32でも一文字が32bitで収まるとは限らないからUTF-8でも大差ない
580デフォルトの名無しさん
2019/08/29(木) 20:02:33.30ID:jljmwQsV プログラミング言語C++に関していうと、x64版Linux用gccは既定でwchar_tのサイズが4バイト。
つまりx64版Linux用gccはstd::wstringがUTF-32。誰も使っていないように見えてそうでもない。
つまりx64版Linux用gccはstd::wstringがUTF-32。誰も使っていないように見えてそうでもない。
581デフォルトの名無しさん
2019/08/29(木) 21:00:32.68ID:FJllEP/G 【名案】0〜9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021−65018=3」ってどう書くの?
https://togetter.com/li/1396827
https://togetter.com/li/1396827
582デフォルトの名無しさん
2019/08/29(木) 22:50:02.31ID:azXlKn0W UTF-16でも8バイト必要なのに、32bit(4バイト)に収まるわけ無いだろうw
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
583デフォルトの名無しさん
2019/08/29(木) 23:01:38.50ID:jljmwQsV UTF-8だけで必要十分という結論に到達せざるをえない現実
584デフォルトの名無しさん
2019/08/29(木) 23:09:19.19ID:azXlKn0W 逆なんだよな。
本来UTF-32だけで必要十分だったのにどんどん複雑にしていって、
UTF-32でも不便になったからUTF-8でいいでしょ?
どうせ単純には扱えずライブラリ使うしか無いんだから。
という必要十分な文字コードを捨てたというのが現実
本来UTF-32だけで必要十分だったのにどんどん複雑にしていって、
UTF-32でも不便になったからUTF-8でいいでしょ?
どうせ単純には扱えずライブラリ使うしか無いんだから。
という必要十分な文字コードを捨てたというのが現実
585デフォルトの名無しさん
2019/08/29(木) 23:11:55.32ID:jljmwQsV 宇宙に存在するすべての知的生命体が用いている文字すべてを網羅するのがUnicodeの理念。
たったの32bitで足りるわけがない。
たったの32bitで足りるわけがない。
586デフォルトの名無しさん
2019/08/30(金) 00:11:25.73ID:h/StilS8 文字コードのスレッドなのにUnicodeがわかっていないやつらばかりw
587デフォルトの名無しさん
2019/08/30(金) 01:01:22.62ID:LpXSw35l UTF-32じゃなくてUCS4じゃないの?内部コードに便利なのは
588デフォルトの名無しさん
2019/08/30(金) 01:29:38.44ID:/ghu33Nb >>586
ではどうぞ御説明をどうぞw
ではどうぞ御説明をどうぞw
589デフォルトの名無しさん
2019/08/30(金) 13:00:23.27ID:oVszNH41 >>579
codecvtは糞だ
codecvtは糞だ
590デフォルトの名無しさん
2019/08/30(金) 13:03:12.55ID:oVszNH41591デフォルトの名無しさん
2019/08/30(金) 15:32:59.58ID:6uSriybI >>588
UTF-16を16ビットで1文字を表すと思い込んでいる人間がいるが、16ビット単位でデータ扱うだけで、1文字が32ビットのこともある。
UTF-16を16ビットで1文字を表すと思い込んでいる人間がいるが、16ビット単位でデータ扱うだけで、1文字が32ビットのこともある。
592デフォルトの名無しさん
2019/08/30(金) 15:56:24.57ID:iPGqG8dk >>591
それぐらいみんな知ってる
それぐらいみんな知ってる
593デフォルトの名無しさん
2019/08/30(金) 17:05:21.42ID:GEn/r+mZ >>592
それぐらいみんな知ってる
それぐらいみんな知ってる
594デフォルトの名無しさん
2019/08/30(金) 17:19:36.31ID:57FOZgRt ビットサイズ固定でどうにかなると思っていた時期が俺にもありました。
595デフォルトの名無しさん
2019/08/30(金) 17:27:36.02ID:GEn/r+mZ596デフォルトの名無しさん
2019/08/31(土) 10:08:53.77ID:0iGUnrw4 >>591
スレの流れみた?UTF-32の話をしてんだぞ?
スレの流れみた?UTF-32の話をしてんだぞ?
597デフォルトの名無しさん
2019/08/31(土) 15:33:43.16ID:SHne0DDt >>596
そのまえ
そのまえ
598デフォルトの名無しさん
2019/08/31(土) 15:35:30.15ID:SHne0DDt 6 仕様書無しさん sage 2019/08/31(土) 11:36:13.12
日本人ならUTF16を掲げるJavaを支持すべきだ
日本人ならUTF16を掲げるJavaを支持すべきだ
599デフォルトの名無しさん
2019/08/31(土) 15:37:04.56ID:3i1dPJsj >>598
それは理由が書いてないから、読む価値ある?
それは理由が書いてないから、読む価値ある?
600デフォルトの名無しさん
2019/08/31(土) 15:45:23.47ID:4qIvp+ND なんで毛唐の決めたコードを支持するのか、意味が分からん
ネットウヨの類は米英には尻の穴まで晒すようだし困ったものだ
ネットウヨの類は米英には尻の穴まで晒すようだし困ったものだ
601デフォルトの名無しさん
2019/08/31(土) 15:56:52.05ID:3i1dPJsj ん?支持しなくて良いよ
602デフォルトの名無しさん
2019/08/31(土) 17:12:51.44ID:0iGUnrw4603デフォルトの名無しさん
2019/08/31(土) 17:59:12.56ID:Yn5v13ie ネットウヨw
604デフォルトの名無しさん
2019/08/31(土) 20:21:37.85ID:5EL66xzp re2のようにUTF-8にしか正式対応していない正規表現ライブラリもある。
605デフォルトの名無しさん
2019/08/31(土) 22:52:53.39ID:0iGUnrw4 寧ろre2がUTF-32に対応すべきでは。
もしくはiconv使う。
もしくはiconv使う。
606デフォルトの名無しさん
2019/08/31(土) 22:58:57.55ID:3i1dPJsj UTF-32対応は難しいから無理だろ
607デフォルトの名無しさん
2019/09/01(日) 01:36:48.58ID:sYwYgS29 iconv禁止
608デフォルトの名無しさん
2019/09/01(日) 09:07:17.74ID:XF6G4Ohn NKF(Network Kanji code conversion Filter)を使えば?
Ruby にも、NKF モジュールがある
Ruby にも、NKF モジュールがある
609デフォルトの名無しさん
2019/09/01(日) 10:46:26.40ID:YneNC5Ev 別にコード変換ツールを探してるわけじゃなくね?w
610デフォルトの名無しさん
2019/09/01(日) 10:52:49.46ID:kCJZVLuH どこぞの皇帝や中国王朝みたいに文字の方を変えて宇宙統一してしまえば良い
文字コードに合った文字だけ使えば解決
文字コードに合った文字だけ使えば解決
611デフォルトの名無しさん
2019/09/01(日) 12:53:54.91ID:k0czTyLP 収録文字数が2の16乗を超えた時点でUTF16は破綻したんだから、サロゲートペアなんて
煩雑な延命策を取らず、UTF32に完全移行すべきだった。
UTF16を残したせいでUTF32にも皺寄せが来ている。UTF32ではU+FFFFFFFFまで
対応できるはずなのに、UTF16のサロゲートペアで表せるU+10FFFFまでに符号空間が
制約されてしまった。つまり、実質的に32ビットではなく21ビットコードになってしまった。
UTF16を全廃しUTF32を本来の32ビットまで拡張すれば、異字体を異字体セレクタなしで
収録できるから、すべての文字を32ビットで表せて単純明快になる。
煩雑な延命策を取らず、UTF32に完全移行すべきだった。
UTF16を残したせいでUTF32にも皺寄せが来ている。UTF32ではU+FFFFFFFFまで
対応できるはずなのに、UTF16のサロゲートペアで表せるU+10FFFFまでに符号空間が
制約されてしまった。つまり、実質的に32ビットではなく21ビットコードになってしまった。
UTF16を全廃しUTF32を本来の32ビットまで拡張すれば、異字体を異字体セレクタなしで
収録できるから、すべての文字を32ビットで表せて単純明快になる。
612デフォルトの名無しさん
2019/09/01(日) 13:07:58.05ID:lmQdJ5gb >>611
いろいろ間違ってるなw
まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
既に使われてるものを簡単に変えられるわけがない。
UTF32が21bitコードになってしまったのはUTF-8のせいだ
21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
いろいろ間違ってるなw
まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
既に使われてるものを簡単に変えられるわけがない。
UTF32が21bitコードになってしまったのはUTF-8のせいだ
21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
613デフォルトの名無しさん
2019/09/01(日) 13:11:25.72ID:xmxF7u0H 異体字セレクタが導入されたのは別にコードポイントが足りないからじゃないだろ。
異体字なんて数が限られているし、それ以上に役に立たない絵文字をバンバン追加している状況だし。
異体字なんて数が限られているし、それ以上に役に立たない絵文字をバンバン追加している状況だし。
614デフォルトの名無しさん
2019/09/01(日) 13:35:49.57ID:JCPxJyAV MSがUTF-16を採用したせいで廃止しようにもできないだろ
CP932とSJISとUTF16が生き残ってるのもだいたいこいつのせいだ
CP932とSJISとUTF16が生き残ってるのもだいたいこいつのせいだ
615デフォルトの名無しさん
2019/09/01(日) 13:40:59.73ID:kCJZVLuH >>612
おまいもかなり可笑しいなω
おまいもかなり可笑しいなω
616デフォルトの名無しさん
2019/09/01(日) 13:42:43.07ID:k0czTyLP >>612
>まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
あれ、そうだった? だとしたら、UTF16は最初から破綻していたってことだな。
変なものを作らずにUTF32を導入すべきだった。
>UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
>既に使われてるものを簡単に変えられるわけがない。
シフトJISからUnicodeへも互換性がないのに移行が進んだだろ。
>UTF32が21bitコードになってしまったのはUTF-8のせいだ
UTF8は可変長だから、32ビットでも表そう思えば表せる。
21ビットになったのはUTF16のせい。
>21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
収録した記号は他にも色々あるし、U+F0000〜U+10FFFFは外字領域だし、
21ビットだけでは心許ない。
>>613
異字体セレクタは同じコードでもAdobe-Japan1とMoji_Johoで字体が違う
滅茶苦茶な欠陥規格だから、さっさと廃止した方が良い。
>まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
あれ、そうだった? だとしたら、UTF16は最初から破綻していたってことだな。
変なものを作らずにUTF32を導入すべきだった。
>UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
>既に使われてるものを簡単に変えられるわけがない。
シフトJISからUnicodeへも互換性がないのに移行が進んだだろ。
>UTF32が21bitコードになってしまったのはUTF-8のせいだ
UTF8は可変長だから、32ビットでも表そう思えば表せる。
21ビットになったのはUTF16のせい。
>21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
収録した記号は他にも色々あるし、U+F0000〜U+10FFFFは外字領域だし、
21ビットだけでは心許ない。
>>613
異字体セレクタは同じコードでもAdobe-Japan1とMoji_Johoで字体が違う
滅茶苦茶な欠陥規格だから、さっさと廃止した方が良い。
617デフォルトの名無しさん
2019/09/01(日) 14:01:22.04ID:JCPxJyAV (もしかして: フォント)
618デフォルトの名無しさん
2019/09/01(日) 14:17:44.56ID:Cv4S4gQH >>616
> UTF8は可変長だから、32ビットでも表そう思えば表せる。
無理。UTF-8は「自由に可変にできる文字コード」ではない。
ビットパターンが決まっていて最大21bitまでしか表現できない
> UTF8は可変長だから、32ビットでも表そう思えば表せる。
無理。UTF-8は「自由に可変にできる文字コード」ではない。
ビットパターンが決まっていて最大21bitまでしか表現できない
619デフォルトの名無しさん
2019/09/01(日) 14:29:25.97ID:k0czTyLP >>618
原理的にはUTF8は「自由に可変にできる文字コード」で32ビットも表せる。
UTF16の制約で符号空間が21ビットのU+10FFFFまでと定められたから、
UTF8もそれを超えるコードを規格外とみなすようにしただけ。
原理的にはUTF8は「自由に可変にできる文字コード」で32ビットも表せる。
UTF16の制約で符号空間が21ビットのU+10FFFFまでと定められたから、
UTF8もそれを超えるコードを規格外とみなすようにしただけ。
620デフォルトの名無しさん
2019/09/01(日) 14:38:49.28ID:5y1tL0M+621デフォルトの名無しさん
2019/09/01(日) 15:12:24.21ID:VpClr4jS >>614
JavaやJavaScriptの内部エンコーディングもUTF-16だが
JavaやJavaScriptの内部エンコーディングもUTF-16だが
622デフォルトの名無しさん
2019/09/01(日) 15:24:13.07ID:Cv4S4gQH623デフォルトの名無しさん
2019/09/02(月) 15:56:23.21ID:8MncpZHQ 魔法(圧力)
624デフォルトの名無しさん
2019/09/02(月) 16:24:11.77ID:KSSQVEnP625デフォルトの名無しさん
2019/09/02(月) 22:33:53.67ID:8MncpZHQ マジレスするとOOXMLとかXPSとか「ある程度便利だけど既存の規格で十分じゃない?」というMS独自規格を、
MSが企業に圧力を掛けたりして広めてきた歴史を言ってるんじゃなかろうか。
念の為言っておくとOOXML←OpenDocument、XPS←PDFね。
MSが企業に圧力を掛けたりして広めてきた歴史を言ってるんじゃなかろうか。
念の為言っておくとOOXML←OpenDocument、XPS←PDFね。
626デフォルトの名無しさん
2019/09/03(火) 00:26:14.39ID:EcUF0HHf そんな圧力あったかなあ
627デフォルトの名無しさん
2019/09/03(火) 06:39:22.40ID:KovswbEV628デフォルトの名無しさん
2019/09/03(火) 08:49:15.73ID:/ybqtULG MSがXPSを作った時、まだPDFは標準規格化されてなかったはずだが
それにPDFの競合規格はXPS以外にもたくさんある
https://ja.wikipedia.org/wiki/Portable_Document_Format#PDF%E3%81%AE%E7%AB%B6%E5%90%88%E8%A6%8F%E6%A0%BC
それにPDFの競合規格はXPS以外にもたくさんある
https://ja.wikipedia.org/wiki/Portable_Document_Format#PDF%E3%81%AE%E7%AB%B6%E5%90%88%E8%A6%8F%E6%A0%BC
629デフォルトの名無しさん
2019/09/03(火) 10:21:51.94ID:KovswbEV PDFはアドビのプロプラフォーマットってイメージが抜けないw
630デフォルトの名無しさん
2019/09/03(火) 10:34:53.29ID:gWEsYspA JavaだってSunのプロプラ言語だぞ
631667
2019/09/03(火) 12:40:23.25ID:JzHlK+VD 今は違うけどね
632デフォルトの名無しさん
2019/09/03(火) 15:04:07.63ID:jfAsT/N5 そのうち「MSはUnicodeを潰すためにCP932を作った」とか言い出す奴が出てくる
633デフォルトの名無しさん
2019/09/03(火) 15:40:05.81ID:KovswbEV Windowsの内部でCP932に依存している。
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる
634デフォルトの名無しさん
2019/09/03(火) 16:56:31.60ID:MR8tgZNH >>627
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり,古いカーネルや別の派生版との互換性が,Windowsのそれらに比べてない。
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり,古いカーネルや別の派生版との互換性が,Windowsのそれらに比べてない。
635デフォルトの名無しさん
2019/09/03(火) 16:58:35.78ID:MR8tgZNH■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【地震速報】青森県で震度6強 沿岸部に津波警報 ★6 [ぐれ★]
- 「日の丸にバツ印」掲げた大学生 あいまいな国旗損壊罪に「怖い」 The Mainichi [少考さん★]
- 【音楽】BARBEE BOYS・KONTAが事故で四肢麻痺を公表、新体制で活動は継続 [少考さん★]
- 【野球】野球の未来に危機感「マイナースポーツになる」 宮本慎也氏が開催…学童大会 [尺アジ★]
- 中国「捜索レーダー起動は各国の通常の手法」 火器管制用か回答せず [蚤の市★]
- 【訃報】声優・西村知道さん死去 「SLAM DUNK」安西先生役 9月に体調不良のため一時休業 [少考さん★]
- 中国「日本のネトウヨを根絶してやるからな」。ネトウヨ、人生が終わる [805596214]
- お前らってヘアオイル何使ってるの?
- (´・ω・`)刑務所での暮らしwwwwwwwwwwwwwwww
- ぺこーら、地震で同僚が次々配信を止めるなか強行し続けるので悪目立ちするwww [268244553]
- なぜ人間は架空の人物に感情移入するのか
- 【速報】高市早苗、起床 [779938112]
