Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
探検
文字コード総合スレ part13
レス数が900を超えています。1000を超えると表示できなくなるよ。
1デフォルトの名無しさん
2020/07/03(金) 20:53:47.08ID:elbfDzqw824デフォルトの名無しさん
2023/02/25(土) 00:00:07.97ID:dveJDxzx >>823
お前か誰かしらんが、どのディストリでUnicodeに
対応してないって聞かれたから
Linuxは全て対応してないと答えたんだが?
Linuxは対応してないといった俺の指摘に対して
Linuxは対応してないのが仕様だと答えるアホ
macOSのcutはちゃんとUnicodeに対応してる
対応してないディストリを聞かれたから答えただけだ
お前か誰かしらんが、どのディストリでUnicodeに
対応してないって聞かれたから
Linuxは全て対応してないと答えたんだが?
Linuxは対応してないといった俺の指摘に対して
Linuxは対応してないのが仕様だと答えるアホ
macOSのcutはちゃんとUnicodeに対応してる
対応してないディストリを聞かれたから答えただけだ
825デフォルトの名無しさん
2023/02/25(土) 00:01:38.57ID:dveJDxzx それにmawkやdashが対応してないという話からも逃げてるな
Unicodeに完全対応してねーんだよ
Unicodeに完全対応してねーんだよ
826デフォルトの名無しさん
2023/02/25(土) 01:08:13.97ID:IGzyIaR2 >>825
話の流れを見る限り、お前が内部コードと外部コードの区別がついてないんじゃないか?
話の流れを見る限り、お前が内部コードと外部コードの区別がついてないんじゃないか?
827デフォルトの名無しさん
2023/02/25(土) 01:34:53.03ID:pcyV0/Fb macOSはUNIXといってるからawkもちゃんとロケール対応してるべき? SUSのバージョンにもよる?
gawkは対応してるみたいね
gawkは対応してるみたいね
828デフォルトの名無しさん
2023/02/25(土) 06:59:37.00ID:dveJDxzx >>826
付いているし、そんな質問されても意味がない
付いているし、そんな質問されても意味がない
829デフォルトの名無しさん
2023/02/25(土) 08:46:26.36ID:Rl2aLkT8 >>821
現実的で一番良い結論だと思うw
現実的で一番良い結論だと思うw
830デフォルトの名無しさん
2023/02/25(土) 08:48:27.98ID:dveJDxzx 現実的っていうのはEUC-JPで書かれた
ウェブサイトが見れなくなるってこと?
ウェブサイトが見れなくなるってこと?
831デフォルトの名無しさん
2023/02/25(土) 10:28:54.79ID:+wSAdwQP 文字のエンコーディングは通信相手同士で取り決めろということ
相手がEUC-JPで送ってくるならこっちもEUC-JPで受け取れば良いこと
相手がEUC-JPで送ってくるならこっちもEUC-JPで受け取れば良いこと
832デフォルトの名無しさん
2023/02/25(土) 10:44:41.98ID:IGzyIaR2 今後はファイルや外部通信はUTF-8がデフォルトになる
デフォルトの意味が理解できないド素人がいるみたいなので書いておくと
「アプリは特に文字コードの指定が無かった場合はUTF-8で出力するべき、指定が無かった場合はUTF-8として読み込むべきである」ということ
つまりBOMが無くてもUTF-8とみなすべきなので、UTF-8にBOMは不要
デフォルトの意味が理解できないド素人がいるみたいなので書いておくと
「アプリは特に文字コードの指定が無かった場合はUTF-8で出力するべき、指定が無かった場合はUTF-8として読み込むべきである」ということ
つまりBOMが無くてもUTF-8とみなすべきなので、UTF-8にBOMは不要
833デフォルトの名無しさん
2023/02/25(土) 12:47:05.63ID:PU7vc6R3834デフォルトの名無しさん
2023/02/25(土) 14:33:50.87ID:mpikKEOw 通信はともかく、問題は過去に作成された膨大な数のUTF-8以外のファイルだ
とりあえず開いてみて、文字化けしたらエンコードを指定して開き直してみろ?
そんな対応じゃクレームが大量に来るし、PC苦手な人じゃ教わっても対応出来ないだろ
とりあえず開いてみて、文字化けしたらエンコードを指定して開き直してみろ?
そんな対応じゃクレームが大量に来るし、PC苦手な人じゃ教わっても対応出来ないだろ
835デフォルトの名無しさん
2023/02/25(土) 15:16:11.43ID:k0PvGKB9 ロバストネス原則(ポステルの法則)
https://makitani.net/shimauma/robustness-principle
ロバストネス原則(robustness principle)とは、「あなたがすることは厳密に、あなたが他人から受けることには寛容に (be conservative in what you do, be liberal in what you accept from others.)」というシステムやソフトウェアの開発における考え方、開発指針のこと。「送信は厳密に、受信は寛容に」とも言い換えられる。「堅牢性原則」。
他のシステムとの間で通信を行う際、処理をして送信する側は厳格なデータの仕様に準拠するべきだが、利用するユーザー側には入力データの多様性を許容して使い勝手を損なわないようにするべきである、というものである。
アメリカのコンピューター科学者でインターネットの創始者の1人であるジョン・ポステル(Jonathan Bruce Postel)が初期のTCPを規定したRFC 793において示した一節であり、それが一般化され知られるようになったものである。ジョン・ポステルにちなんで「ポステルの法則 (Postel’s law)」とも呼ばれる。
https://makitani.net/shimauma/robustness-principle
ロバストネス原則(robustness principle)とは、「あなたがすることは厳密に、あなたが他人から受けることには寛容に (be conservative in what you do, be liberal in what you accept from others.)」というシステムやソフトウェアの開発における考え方、開発指針のこと。「送信は厳密に、受信は寛容に」とも言い換えられる。「堅牢性原則」。
他のシステムとの間で通信を行う際、処理をして送信する側は厳格なデータの仕様に準拠するべきだが、利用するユーザー側には入力データの多様性を許容して使い勝手を損なわないようにするべきである、というものである。
アメリカのコンピューター科学者でインターネットの創始者の1人であるジョン・ポステル(Jonathan Bruce Postel)が初期のTCPを規定したRFC 793において示した一節であり、それが一般化され知られるようになったものである。ジョン・ポステルにちなんで「ポステルの法則 (Postel’s law)」とも呼ばれる。
836デフォルトの名無しさん
2023/02/25(土) 15:34:51.75ID:+JwPKi/T 禿丸最強でFA
837デフォルトの名無しさん
2023/02/25(土) 16:51:45.73ID:dveJDxzx >>831
だからUTF-8を前提にできないってことだろ
だからUTF-8を前提にできないってことだろ
838デフォルトの名無しさん
2023/02/25(土) 16:52:21.29ID:dveJDxzx839デフォルトの名無しさん
2023/02/25(土) 18:25:42.81ID:p5DpNAy5 アップデートされずEUC-JPのまま捨て置かれたドキュメントの価値などもはや「歴史的な」価値しかない
Webブラウザで閲覧できれば十分、新しく作るシステムでいまさら対応する必要性など皆無
2000年前後の知識しか持ち合わせていない老害がいくらギャーギャー騒ごうとも
時代遅れなエンコーディングに対応するような愚を犯してはならない
毅然としてUTF-8以外を切り捨てるべし
Webブラウザで閲覧できれば十分、新しく作るシステムでいまさら対応する必要性など皆無
2000年前後の知識しか持ち合わせていない老害がいくらギャーギャー騒ごうとも
時代遅れなエンコーディングに対応するような愚を犯してはならない
毅然としてUTF-8以外を切り捨てるべし
840デフォルトの名無しさん
2023/02/25(土) 19:05:12.59ID:PU7vc6R3 >>839みたいに「切り捨てる」とか強い表現を使う人は、既得権からあぶれた失うものがない負け組が好んで使う言葉。
ネットでは威勢が良く見えても現実世界では切り捨てる側ではなく切り捨てられる側。ルサンチマンを抱えている。
ネットでは威勢が良く見えても現実世界では切り捨てる側ではなく切り捨てられる側。ルサンチマンを抱えている。
841デフォルトの名無しさん
2023/02/25(土) 19:12:22.66ID:PU7vc6R3 「~べき」とか語っていいのはカネを出す側であって、「~べき」はカネで雇われる側にすぎない技術者が使っていい表現ではない。
842デフォルトの名無しさん
2023/02/25(土) 19:43:50.59ID:pcyV0/Fb >>835
そういう歴史的なコンテクストでいうならRFC 793じゃなくて761を引用すべきでしょ
そういう歴史的なコンテクストでいうならRFC 793じゃなくて761を引用すべきでしょ
843デフォルトの名無しさん
2023/02/25(土) 21:32:29.38ID:bBUOoOco よりによってShift_JISの5chでイキってて笑っちゃうんすよね
844デフォルトの名無しさん
2023/02/25(土) 21:46:01.53ID:vjs83zv7 🤔
845デフォルトの名無しさん
2023/02/25(土) 22:09:35.17ID:SbO0y0c6 ユニコード規格 Unicode Standard にも UTF-8 の BOM は付けても良い(may)けど、非推奨(not recommended)って明記されてるのに、どうしても付けさせたいや奴がいるのはわかった
846デフォルトの名無しさん
2023/02/25(土) 22:43:56.85ID:dveJDxzx >>839
だから歴史的な価値が高いものをお前は捨てるのかって言ってるんだよ
だから歴史的な価値が高いものをお前は捨てるのかって言ってるんだよ
847デフォルトの名無しさん
2023/02/25(土) 22:44:39.12ID:dveJDxzx >>845
非推奨だけど付けて良いわけで何の問題もないだろ
非推奨だけど付けて良いわけで何の問題もないだろ
848デフォルトの名無しさん
2023/02/25(土) 22:52:11.76ID:IGzyIaR2849デフォルトの名無しさん
2023/02/25(土) 23:48:54.66ID:m4LfFP+9 つけたいじゃなくて、対応できないと困ると言ってるだけでしょう
850デフォルトの名無しさん
2023/02/26(日) 01:34:30.84ID:cEWS884H つまり入力をどするかは置いといて、出力にがBOMはつけるなでFA?
851デフォルトの名無しさん
2023/02/26(日) 05:45:33.47ID:6avgaEJx852デフォルトの名無しさん
2023/02/26(日) 06:00:29.38ID:5w3etrkl ドレスコードを守らない客を門前払いするかを判断するのは雇われコックではない。経営者や管理人だ。
853デフォルトの名無しさん
2023/02/26(日) 06:40:37.52ID:O/DM2Am7 UTF-8にBOMは付けるなでFA
付いてるやつ受け取ったらドンマイ
付いてるやつ受け取ったらドンマイ
854デフォルトの名無しさん
2023/02/26(日) 15:37:46.70ID:iPWFNko4 付けるなと規定されているところなら付けないし
付けろと規定されているところならつける
指定が無ければ俺は付ける
付けろと規定されているところならつける
指定が無ければ俺は付ける
855デフォルトの名無しさん
2023/02/26(日) 16:12:00.59ID:5w3etrkl コロナ禍でマスクするのは世間体のためばかりとは限らない。
マスクしてないと入店拒否されかねないからね。
マスクしている人を入店拒否するのは反ワクチンかな。
マスクしてないと入店拒否されかねないからね。
マスクしている人を入店拒否するのは反ワクチンかな。
856デフォルトの名無しさん
2023/02/26(日) 16:23:35.39ID:5w3etrkl >>853みたいにクライアントとサーバーの切り分けできてない人、頭悪そうに見えてしまうから良く考えてから書き込んだほうがいい
BOMのせいで挙動がおかしくなることはないので、みなBOMをつけるようになる。それが現実。
BOMのせいで挙動がおかしくなることはないので、みなBOMをつけるようになる。それが現実。
857デフォルトの名無しさん
2023/02/26(日) 19:04:25.66ID:cEWS884H >>856
ねえよ。規格で非推奨ってなってるの出力して誤動作したら出力した方の責任。業務プログラムなら非推奨を理由に改修要求や損害賠償請求できる。規格の非推奨にはそれだけの効力がある。
趣味でやる分に好きにすれば良いけど、実務にはかかわるな。
ねえよ。規格で非推奨ってなってるの出力して誤動作したら出力した方の責任。業務プログラムなら非推奨を理由に改修要求や損害賠償請求できる。規格の非推奨にはそれだけの効力がある。
趣味でやる分に好きにすれば良いけど、実務にはかかわるな。
858デフォルトの名無しさん
2023/02/26(日) 19:13:28.86ID:CWs9xgaU まさか禁止と非推奨の違いを知らないのか?
859デフォルトの名無しさん
2023/02/26(日) 20:41:34.15ID:BRhyzl+u860デフォルトの名無しさん
2023/02/26(日) 22:10:02.37ID:5w3etrkl Windows環境はどんどんBOMつきが当たり前になっていくから、サービス提供者はBOM対応が事実上必須になる
非推奨だからとかつけるなとか、およそ現実を見てないね
非推奨だからとかつけるなとか、およそ現実を見てないね
861デフォルトの名無しさん
2023/02/26(日) 22:12:16.04ID:cEWS884H862デフォルトの名無しさん
2023/02/26(日) 22:18:29.81ID:5w3etrkl863デフォルトの名無しさん
2023/02/26(日) 23:13:02.63ID:cEWS884H864デフォルトの名無しさん
2023/02/26(日) 23:31:02.55ID:K7TElpTY >>863
Windows Subsystem for Linuxのためじゃないかな?
上にもあるとおりunix系のアプリの中にはutf8のBOM未対応のまま(というか今更いじれない?)の状態になっているからな
良くも悪しくも歴史的にメモ帳は機能がしょぼすぎてその他の一般業務向けでの影響力はほとんどない状態だから、
Excelとかに比べれば変更しやすいという後ろ向きな理由もあるだろう
Windows Subsystem for Linuxのためじゃないかな?
上にもあるとおりunix系のアプリの中にはutf8のBOM未対応のまま(というか今更いじれない?)の状態になっているからな
良くも悪しくも歴史的にメモ帳は機能がしょぼすぎてその他の一般業務向けでの影響力はほとんどない状態だから、
Excelとかに比べれば変更しやすいという後ろ向きな理由もあるだろう
865デフォルトの名無しさん
2023/02/26(日) 23:35:43.20ID:GmFx8zoR866デフォルトの名無しさん
2023/02/26(日) 23:40:56.18ID:K7TElpTY ていうかあれか、パイプを使ったテキストのやりとり等とBOMの相性が悪そうだから、コンソール系のアプリでBOM対応は面倒だわな
867デフォルトの名無しさん
2023/02/26(日) 23:42:12.69ID:K7TElpTY >>865
いや、webの標準はunix系のコンソールアプリでしょ?
いや、webの標準はunix系のコンソールアプリでしょ?
868デフォルトの名無しさん
2023/02/27(月) 00:05:34.15ID:Y3EgytEI リンク貼った人がいるので正解は
Microsoft の主張は「WEBの標準はASCIIと互換性のある BOM 無しの UTF-8 だから、それに合わせるため変更した。これは重要な改善である。後方互換性のためにBOMつきも可能にしといた」
BOMなしは改善、BOMつき後方互換性って明言してる。
Microsoft の主張は「WEBの標準はASCIIと互換性のある BOM 無しの UTF-8 だから、それに合わせるため変更した。これは重要な改善である。後方互換性のためにBOMつきも可能にしといた」
BOMなしは改善、BOMつき後方互換性って明言してる。
869デフォルトの名無しさん
2023/02/27(月) 00:50:48.43ID:gqYK4M5Z ASCIIのような化石との互換性は要らない。UTF16以上を推奨し、UTF8はASCII文字出現率が
99.5%以上のファイルに限り許容するのが良い。
99.5%以上のファイルに限り許容するのが良い。
870デフォルトの名無しさん
2023/02/27(月) 01:16:54.16ID:ILzwYPjj Windows10では、デバッグ機能で別のエディタを起動してるから
メモ帳を使ったことないというか、どんなだったかも思い出せない
メモ帳を使ったことないというか、どんなだったかも思い出せない
871デフォルトの名無しさん
2023/02/27(月) 01:28:41.06ID:JGGw5pJY MSはデフォルトを変更しただけで
BOMにも対応している
つまり完璧にUnicodeに対応している
BOMにも対応している
つまり完璧にUnicodeに対応している
872デフォルトの名無しさん
2023/02/27(月) 02:25:37.58ID:mqhAvYzW 大正義じゃないか
873デフォルトの名無しさん
2023/02/27(月) 02:59:07.83ID:BI+QMK6X もうUTF−16にはWindowsの内部コード以外の役割はないんだ
文字コード戦争はとっくにUTF-8の勝利で終結したんだ ネットの普及が決め手だった
残念ながら負け犬がどんだけ吠えても現実は変わらないんだ
ほら、どんどん吠えて、(愉悦
文字コード戦争はとっくにUTF-8の勝利で終結したんだ ネットの普及が決め手だった
残念ながら負け犬がどんだけ吠えても現実は変わらないんだ
ほら、どんどん吠えて、(愉悦
874デフォルトの名無しさん
2023/02/27(月) 03:10:49.85ID:WKLLShCH 恥ずかしい無知野郎だなぁw
JavaもJavaScriptも内部コードはUTF-16だってーのに
JavaもJavaScriptも内部コードはUTF-16だってーのに
875デフォルトの名無しさん
2023/02/27(月) 05:48:11.01ID:FhIHw4p1876デフォルトの名無しさん
2023/02/27(月) 06:23:41.06ID:WKLLShCH 無知二匹目w
877デフォルトの名無しさん
2023/02/27(月) 06:45:46.85ID:FhIHw4p1 >>868
>これは重要な改善である。
甘いなあ
文字コードの自動判定を入れた、ということは、今後はUTF-8と認識できない可能性が生じる事を意味する
皮肉な話だが、文字コード自動判定のせいで事実上、BOM必須になる
>これは重要な改善である。
甘いなあ
文字コードの自動判定を入れた、ということは、今後はUTF-8と認識できない可能性が生じる事を意味する
皮肉な話だが、文字コード自動判定のせいで事実上、BOM必須になる
878デフォルトの名無しさん
2023/02/27(月) 06:46:52.69ID:jlyK/+pC JavaのStringとか、もう開き直っちゃってる感じで「文字とはUTF-16のバイトのことでーす」
って感じじゃん。ただの16ビットの配列と何が違うんだっけあれ
まともな文字列処理をするには別途ライブラリが確実にいる。面倒じゃのう
って感じじゃん。ただの16ビットの配列と何が違うんだっけあれ
まともな文字列処理をするには別途ライブラリが確実にいる。面倒じゃのう
879デフォルトの名無しさん
2023/02/27(月) 06:48:51.24ID:FhIHw4p1 BOMは文字コード自動判定をスキップする顔パスのようなもの。BOMを無くしたいという意向とは裏腹に、今後BOMは益々増える。
それが現実。
それが現実。
880デフォルトの名無しさん
2023/02/27(月) 06:51:35.24ID:FhIHw4p1 関所を沢山作ったせいで、ますます関所破りのバッドノウハウが普及する
881デフォルトの名無しさん
2023/02/27(月) 08:02:36.27ID:71jbPN3e >>874
通りすがりだが、お前は論外
ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、BOMつけるか論争をしている人達割り込むツッコミ方じゃねぇw
他人を煽る前に自身の読解力と理解力を見直して出直してこいw
通りすがりだが、お前は論外
ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、BOMつけるか論争をしている人達割り込むツッコミ方じゃねぇw
他人を煽る前に自身の読解力と理解力を見直して出直してこいw
882デフォルトの名無しさん
2023/02/27(月) 10:24:39.27ID:Y3EgytEI 外部コードは自動認識うんぬんより ASCII との互換性が重要なのだ
Linux だの Mac だのの Unix 系は ASCII との互換性が必須なので BOM 無し UTF-8 以外に選択肢がないし
RFC とかネットの標準もそれに引きずられて るし
Windows 外部コードの unicode 化はこれから本番だけど、今まで CP932, CP1252 みたいにASCII互換は大前提で来たので互換維持した方がトータルのコストは低い
結局ASCIIと互換性のないBOM付きのUTF-8だの、UTF-16だのが外部コードとして主流になる世界は来ないのだよ
Linux だの Mac だのの Unix 系は ASCII との互換性が必須なので BOM 無し UTF-8 以外に選択肢がないし
RFC とかネットの標準もそれに引きずられて るし
Windows 外部コードの unicode 化はこれから本番だけど、今まで CP932, CP1252 みたいにASCII互換は大前提で来たので互換維持した方がトータルのコストは低い
結局ASCIIと互換性のないBOM付きのUTF-8だの、UTF-16だのが外部コードとして主流になる世界は来ないのだよ
883デフォルトの名無しさん
2023/02/27(月) 15:06:03.61ID:ILzwYPjj UTF-8を使い始めたのは、
Fedora 1でデフォルトのシステム・ロケールになったときだから、
もう19年か、早いもんだ
RedHatの頃のEUC-JPに戻す誘惑にも負けずに苦労したことを思い出す
Fedora 1でデフォルトのシステム・ロケールになったときだから、
もう19年か、早いもんだ
RedHatの頃のEUC-JPに戻す誘惑にも負けずに苦労したことを思い出す
884デフォルトの名無しさん
2023/02/27(月) 17:19:48.75ID:WKLLShCH >>881
> ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、
それはお前だろw
JavaやJavaScriptがUTF-16を使っていることなんか
ちょっと昔のことを知ってりゃ誰だってわかることなんだよ
そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
> ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、
それはお前だろw
JavaやJavaScriptがUTF-16を使っていることなんか
ちょっと昔のことを知ってりゃ誰だってわかることなんだよ
そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
885デフォルトの名無しさん
2023/02/27(月) 17:50:44.38ID:XtLZSXQF そもそもUnicodeといえばUTF-16のことで、いまでもUTF-16のことをUnicodeと呼ぶことが多い。
Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。
UTF-8も一長一短があって、容量とマシンスペックの問題がなんとかなってきたから、UTF-8に向かっているが、この面倒くさいキャラクタセットは、1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。
Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。
UTF-8も一長一短があって、容量とマシンスペックの問題がなんとかなってきたから、UTF-8に向かっているが、この面倒くさいキャラクタセットは、1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。
886デフォルトの名無しさん
2023/02/27(月) 17:55:19.17ID:WKLLShCH > Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。
いや難しくはないぞw
Windowsは現にUTF-8に対応している
いや難しくはないぞw
Windowsは現にUTF-8に対応している
887デフォルトの名無しさん
2023/02/27(月) 18:08:52.64ID:Y3EgytEI >>885
>1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
>2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。
全く意味がわからない。誰か理解できる人いる?
>1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
>2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。
全く意味がわからない。誰か理解できる人いる?
888デフォルトの名無しさん
2023/02/27(月) 18:13:02.85ID:WKLLShCH 理解できるぞw
889デフォルトの名無しさん
2023/02/27(月) 18:20:09.01ID:hsotX699 配列の添え字での文字編集はUTF32でもだめな場合があるから諦めるべき
可変長なコードとして扱うようにしないどこかで破綻するよ
まぁ、そういう文字列操作のライブラリでこれ使えみたいのはたぶんないから、自前で用意する必要があると思うが
可変長なコードとして扱うようにしないどこかで破綻するよ
まぁ、そういう文字列操作のライブラリでこれ使えみたいのはたぶんないから、自前で用意する必要があると思うが
890デフォルトの名無しさん
2023/02/27(月) 18:39:55.97ID:Y3EgytEI891デフォルトの名無しさん
2023/02/27(月) 19:07:19.57ID:miAOVMfk ちょっと前まで文字コード総合スレは名ばかりの実質絵文字スレだったのに
今は文字コード総合スレは名ばかりの実質BOMスレになったのか
今は文字コード総合スレは名ばかりの実質BOMスレになったのか
892デフォルトの名無しさん
2023/02/27(月) 19:12:40.37ID:hpJa9B57 >>884
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース
893デフォルトの名無しさん
2023/02/27(月) 20:54:01.76ID:jlyK/+pC894デフォルトの名無しさん
2023/02/27(月) 21:08:05.40ID:FhIHw4p1 単純なUTF-32配列だとEMOJI MODIFIERなどに対処できない。すでにUTF-32でも可変長に対応必須が前提になってる。
895デフォルトの名無しさん
2023/02/27(月) 22:08:49.50ID:Ms3I5yW6896デフォルトの名無しさん
2023/02/27(月) 22:45:37.52ID:WKLLShCH >>892
その提案が採用された日付を見てみ
その提案が採用された日付を見てみ
897デフォルトの名無しさん
2023/02/27(月) 22:46:26.63ID:WKLLShCH >>895
Unicode signatureとしてそのような用途として使ってよいと書いてある
Unicode signatureとしてそのような用途として使ってよいと書いてある
898デフォルトの名無しさん
2023/02/27(月) 22:52:06.63ID:WKLLShCH899デフォルトの名無しさん
2023/02/27(月) 22:54:22.19ID:DVrHyfiD >>895
バイトオーダーの無いUTF-8のBOMにそれ以外に何の意味が
バイトオーダーの無いUTF-8のBOMにそれ以外に何の意味が
900デフォルトの名無しさん
2023/02/27(月) 22:57:56.43ID:+0iiKFkK utf8-bomで保存するソフトもutf8-bomを受け付けないソフトもそういう仕様だと謳えばどっちもありだろう。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。
901デフォルトの名無しさん
2023/02/27(月) 22:59:30.26ID:Y3EgytEI >>897
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ
902デフォルトの名無しさん
2023/02/27(月) 23:03:56.05ID:hpJa9B57903デフォルトの名無しさん
2023/02/27(月) 23:08:26.08ID:hpJa9B57 規格に入ったことを基準にするならShiftJISは1997年に
生まれたことになるんだけど、それでいいの?
生まれたことになるんだけど、それでいいの?
904デフォルトの名無しさん
2023/02/27(月) 23:08:41.53ID:WKLLShCH >>901
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね
やれやれw
UTF-16の前身のUCS-2のことも知らないようだ
> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね
やれやれw
UTF-16の前身のUCS-2のことも知らないようだ
> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw
905デフォルトの名無しさん
2023/02/27(月) 23:09:42.74ID:Y3EgytEI >>901
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。
906デフォルトの名無しさん
2023/02/27(月) 23:10:15.34ID:WKLLShCH907デフォルトの名無しさん
2023/02/27(月) 23:11:07.15ID:WKLLShCH908デフォルトの名無しさん
2023/02/27(月) 23:12:14.77ID:WKLLShCH https://youneedaken.hate
nablog.com/entry/2022/10/11/104904
MAY
MAY (してもよい) は、選択的な要件を表す場合に使います。
OPTIONAL (選択してもよい) も同じ使い方をします。
nablog.com/entry/2022/10/11/104904
MAY
MAY (してもよい) は、選択的な要件を表す場合に使います。
OPTIONAL (選択してもよい) も同じ使い方をします。
909デフォルトの名無しさん
2023/02/27(月) 23:17:27.33ID:Y3EgytEI >>907
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
910デフォルトの名無しさん
2023/02/27(月) 23:23:20.91ID:o85fWYlD マジで英語読めずに単語拾ってる状態やん
911デフォルトの名無しさん
2023/02/27(月) 23:35:24.56ID:+0iiKFkK >>909
赤信号は横断しちゃダメと決められているけどBOMは禁止されてる?
赤信号は横断しちゃダメと決められているけどBOMは禁止されてる?
912デフォルトの名無しさん
2023/02/27(月) 23:52:22.36ID:0XbN/TTN 先に英語の勉強した方がいいんじゃない?
いや日本語の読解力を鍛える方が先か
いや日本語の読解力を鍛える方が先か
913デフォルトの名無しさん
2023/02/27(月) 23:54:30.47ID:hpJa9B57 >>904
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した
UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した
どっちも実装が先
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した
UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した
どっちも実装が先
914デフォルトの名無しさん
2023/02/28(火) 00:05:34.32ID:RiXy5X63 そろそろ議論を終わろう。テンプレに
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。
915デフォルトの名無しさん
2023/02/28(火) 00:10:17.26ID:arzeasWt どの規格書かも明記しておいて。
916デフォルトの名無しさん
2023/02/28(火) 03:25:44.83ID:TvT0Tpcw >>909
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?
917デフォルトの名無しさん
2023/02/28(火) 03:26:52.16ID:TvT0Tpcw918デフォルトの名無しさん
2023/02/28(火) 18:09:24.12ID:iD64SDKM >>916
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ
919デフォルトの名無しさん
2023/02/28(火) 21:07:59.09ID:Tc4CBiEC >>856
なわけない
なわけない
920デフォルトの名無しさん
2023/02/28(火) 22:51:31.47ID:arzeasWt >>918
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。
921デフォルトの名無しさん
2023/02/28(火) 23:38:31.89ID:blbEyEwW 長文君と論破将軍
922デフォルトの名無しさん
2023/03/01(水) 00:21:41.81ID:OaPBPWBe >>918
お前のいう喩えはおかしい
× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨
赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない
頭悪いならレスバ仕掛けてくるなよw
お前のいう喩えはおかしい
× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨
赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない
頭悪いならレスバ仕掛けてくるなよw
923デフォルトの名無しさん
2023/03/01(水) 01:31:29.23ID:XRlhYtl4レス数が900を超えています。1000を超えると表示できなくなるよ。
ニュース
- 小1の通知表を廃止、「自己肯定感が下がる」との意見受け…岐阜・美濃市 [少考さん★]
- 農水省、備蓄米の迅速な供給を要求 コメ価格高止まりで厳しい対応 全農「きちんと努力」 ★2 [蚤の市★]
- 氷河期40代おじさんが人生初のファミマ店員バイト!パニックになった「呪文みたい」な注文とは? [煮卵★]
- 【芸能】大久保佳代子 友人の子供に渡すお年玉は一律1000円 「芸能人のくせにセコイなと思われてるかもしれないけど…」 [冬月記者★]
- 【SNS】米、独を「専制政治」と批判 第2党AfDの極右団体認定で [少考さん★]
- 広末涼子が公表した病名 専門家「この2つの病気併発は珍しい」「重なったことでいろんな問題行動が…」 [ネギうどん★]
- 吉村はん「万博リングは閉幕後も600m保存するんや😤」記者「17億かかるけど誰が負担?」吉村はん「知らんがな!」 [359965264]
- 【ストーカー殺人事件】川崎警察署にデモ隊が突入、一触即発に [606757419]
- いつまでも立たない🏡
- 在阪メディアさん、大阪万博が大混雑してるように見せかけるために行列を『ズーム』してしまう・・・ [931948549]
- Z世代、ブチギレ「職場がホワイトすぎてキツイ。刺激がない」 [606757419]
- 広瀬アリス(30)「何故か『性格良い』と言われるがそんなことない。かなり『根に持つ』タイプです」