Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
文字コード総合スレ part14
■ このスレッドは過去ログ倉庫に格納されています
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
408デフォルトの名無しさん
2023/08/19(土) 10:44:11.66ID:Af/nXbF+ >>407
macOS には HFS+ と APFS というのがあってだな。
macOS には HFS+ と APFS というのがあってだな。
409デフォルトの名無しさん
2023/09/18(月) 15:14:20.26ID:lNC8R66h awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に!
https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd
やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね
https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd
やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね
410デフォルトの名無しさん
2023/09/18(月) 17:45:11.83ID:xE50yd7v >>409
そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し
nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。
そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し
nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。
411デフォルトの名無しさん
2023/09/21(木) 17:13:01.39ID:2fMT8T96 事故の予感しかしない
412デフォルトの名無しさん
2023/10/05(木) 21:37:01.18ID:629OTK1e 全ての開発者が知っておくべきUnicodeについての最低限の知識
https://gigazine.net/news/20231005-unicode/
https://gigazine.net/news/20231005-unicode/
413デフォルトの名無しさん
2023/10/06(金) 02:09:53.00ID:rMpfnI78 互換漢字のことを思い出してもいいですか
macOSのFinderで神というフォルダーを作ると神に変換される
Chrome上で神を検索すると神と神の両方にマッチする
Firefox上で神を検索すると神にはマッチしない
Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない
Mozcで神︀を入力すると分解形がデフォ
みんなちがって、みんないい?
macOSのFinderで神というフォルダーを作ると神に変換される
Chrome上で神を検索すると神と神の両方にマッチする
Firefox上で神を検索すると神にはマッチしない
Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない
Mozcで神︀を入力すると分解形がデフォ
みんなちがって、みんないい?
414デフォルトの名無しさん
2023/10/06(金) 09:13:41.28ID:r0aKLQgw おはよう
今起きたけど、UTF-8にBOMつけるか否か?結論は出た?
今起きたけど、UTF-8にBOMつけるか否か?結論は出た?
415デフォルトの名無しさん
2023/10/06(金) 09:59:40.01ID:Zl0hPCVy UTF-8にBOは存在しない
↓
BOMなんて概念が不要
議論も何も無い
↓
BOMなんて概念が不要
議論も何も無い
416デフォルトの名無しさん
2023/10/06(金) 11:34:57.64ID:rMpfnI78 >>413
>macOSのFinderで神というフォルダーを作ると神に変換される
このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが
あったのだと思っていたけど、今は違うのかな?
>macOSのFinderで神というフォルダーを作ると神に変換される
このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが
あったのだと思っていたけど、今は違うのかな?
417デフォルトの名無しさん
2023/10/06(金) 14:17:35.44ID:RyNaN3Hq >>415
元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね
元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね
418デフォルトの名無しさん
2023/10/06(金) 17:44:51.54ID:vOZibH++419デフォルトの名無しさん
2023/10/06(金) 18:03:58.96ID:vujaBc4z Firefoxの検索は半角カナの同一視もしてくれないからなあ
420デフォルトの名無しさん
2023/10/06(金) 21:14:36.66ID:VyRY/4o/ How can I get WideCharToMultiByte to convert strings encoded in UTF-16BE?
https://devblogs.microsoft.com/oldnewthing/20231005-00/?p=108854
UTB-16BEからShift_JISに変換したいとかいろんな要望があるものだな
https://devblogs.microsoft.com/oldnewthing/20231005-00/?p=108854
UTB-16BEからShift_JISに変換したいとかいろんな要望があるものだな
421デフォルトの名無しさん
2023/10/06(金) 21:24:18.57ID:cSD4ys+j >>415
正確には「UTF-8にバイトオーダーの違いはない」だな。
正確には「UTF-8にバイトオーダーの違いはない」だな。
422デフォルトの名無しさん
2023/10/06(金) 22:08:49.33ID:g8qFATdI JSONなどBOMを付与して送信してはいけないと明確に規定されていたり
BOMを取り扱わない規定やソフトウェアもあるため
UTF8ではBOMを付与しないほうが好ましい
BOMを取り扱わない規定やソフトウェアもあるため
UTF8ではBOMを付与しないほうが好ましい
423デフォルトの名無しさん
2023/10/06(金) 22:54:13.21ID:cSD4ys+j JSOINファイルに付けるなとは言ってないみたいよ
424デフォルトの名無しさん
2023/10/06(金) 23:20:11.94ID:tE7CLicd #!shebangの邪魔になるだろ
425デフォルトの名無しさん
2023/10/07(土) 09:59:00.66ID:I3+2vFW6426デフォルトの名無しさん
2023/10/07(土) 10:25:02.17ID:8Whhaa6B427デフォルトの名無しさん
2023/10/07(土) 10:55:59.28ID:dXS7C+xF >>425
execve の引数解釈が locale に従うのであれば BOM を付けるべきではない状況に該当すると思う。
execve の引数解釈が locale に従うのであれば BOM を付けるべきではない状況に該当すると思う。
428デフォルトの名無しさん
2023/10/07(土) 19:44:18.39ID:hE+46nhQ BOMなしがいいってのはAsciiしか対応してないレガシーソフトウェアに通したいから?
UTF8を意識できてるならBOMのありなしの両対応は簡単だし
UTF8を意識できてるならBOMのありなしの両対応は簡単だし
429デフォルトの名無しさん
2023/10/07(土) 20:50:45.55ID:iX5KyQz4 >>428
ファイルの接続とか分割にゴミ処理とかしないですむ。自分がいまから出力するのが先頭かどうか不明とかでも問題は起きない
ファイルの先頭とかには別の識別子置きたいアプリもある。先頭BOMが優先して使えるとか思い上がり。
そして何より、世の中すべて UTF-8 で情報交換すべきで、他の文字コードは内部コード以外は認めない。滅べば良いと本気で信じてるので BOM に使いみちなんかない。
だいたい最近の欧米の主張はこんな感じ。
ファイルの接続とか分割にゴミ処理とかしないですむ。自分がいまから出力するのが先頭かどうか不明とかでも問題は起きない
ファイルの先頭とかには別の識別子置きたいアプリもある。先頭BOMが優先して使えるとか思い上がり。
そして何より、世の中すべて UTF-8 で情報交換すべきで、他の文字コードは内部コード以外は認めない。滅べば良いと本気で信じてるので BOM に使いみちなんかない。
だいたい最近の欧米の主張はこんな感じ。
430デフォルトの名無しさん
2023/10/07(土) 21:50:44.31ID:gQ4GHwFf UTF8こそが不要で滅べば良い。I
431デフォルトの名無しさん
2023/10/08(日) 05:39:53.69ID:c7bH/Jal これからの時代は UTF-32
432デフォルトの名無しさん
2023/10/08(日) 05:43:54.93ID:c7bH/Jal なぁに。1バイトを32bitにしてしまえばエンディアンがどうのなどとつまらない事を考える必要もなくなる。BOMも不要。
433デフォルトの名無しさん
2023/10/08(日) 05:46:34.19ID:c7bH/Jal いいかげんチマチマと8bitづつ扱うようなケチな精神がいけない。
8bit CPU の事などもう忘れろ。
8bit CPU の事などもう忘れろ。
434デフォルトの名無しさん
2023/10/08(日) 12:38:49.49ID:BgGDjECm435デフォルトの名無しさん
2023/10/08(日) 13:46:55.09ID:VA0G2N7t >>434
つまり UTF1024 が必要ということだな
つまり UTF1024 が必要ということだな
436デフォルトの名無しさん
2023/10/09(月) 13:08:59.15ID:anIJ/4nw えっ
437414
2023/10/09(月) 14:11:34.76ID:o3mTrHdx ふーん
結局UTF-8にBOMつけるか否か?まだ結論は出てないんだな?
じゃあ、今からまた寝るから結論出たら教えて…おやすみ
結局UTF-8にBOMつけるか否か?まだ結論は出てないんだな?
じゃあ、今からまた寝るから結論出たら教えて…おやすみ
438デフォルトの名無しさん
2023/10/10(火) 07:39:18.70ID:dUGfQnTA 結論は出ない、永遠に寝てろ
439デフォルトの名無しさん
2023/10/10(火) 08:43:04.58ID:5iCI9hbC 結論も何も最初から規格上は「つけないことを推奨」。規格を無視するやつらは勝手につけてるだけ。
これ以上何に結論を出せと?
これ以上何に結論を出せと?
440デフォルトの名無しさん
2023/10/10(火) 09:13:29.30ID:aKJ84hs/ 禁止はしてないな。いくつか使用すべきではない状況はあるがそれ以外必要に応じて使ってよい。
まあいずれEUCと同じように淘汰はされていくと思うが。
まあいずれEUCと同じように淘汰はされていくと思うが。
441デフォルトの名無しさん
2023/10/11(水) 14:25:41.16ID:+taOca1a 拡大解釈を結論としちゃうとそりゃ永遠に終わらんよな
442デフォルトの名無しさん
2023/10/11(水) 16:29:14.72ID:dsbLch4n もう恥ずかしいからやめろよ
443デフォルトの名無しさん
2023/10/11(水) 16:32:12.66ID:iAp1htgn 文字コードの自動判定でBOMが欲しいんでしょ
だったら日本人的には当面ありの方がいいんじゃないの
だったら日本人的には当面ありの方がいいんじゃないの
444デフォルトの名無しさん
2023/10/11(水) 17:54:36.20ID:UpuL/ixe まじで文字コード判定でBOM必要とするなんてExcel以外にしらんし
他にならって決め打ちか失敗前提で推測する実装にしとけばこんなことにはならなんだ
他にならって決め打ちか失敗前提で推測する実装にしとけばこんなことにはならなんだ
445デフォルトの名無しさん
2023/10/11(水) 23:59:31.72ID:Bi4J/pND446デフォルトの名無しさん
2023/10/12(木) 21:40:02.12ID:HDD8qAO3 UTF8を使うのが普通だったりエンコーディングを指定できる所ばかりじゃないんだからBOMがあるのは仕方ない
447デフォルトの名無しさん
2023/10/12(木) 22:03:04.02ID:/ksYFMDD448デフォルトの名無しさん
2023/10/12(木) 22:26:37.40ID:dSlEv+Dk visual studioもbom必要
設定でutf8指定したら不要だけど
外部のソースまでutf8前提になるので踏み切れない
設定でutf8指定したら不要だけど
外部のソースまでutf8前提になるので踏み切れない
449デフォルトの名無しさん
2023/10/12(木) 23:49:07.23ID:vmLUU1Bo いわゆるWindows PowerShell(5.x系)も、日本語を含むスクリプトの場合は BOM付きUTF-8 で保存する必要がある
文字コード、改行コード(何らかのデミリタ)に関わる問題は果てしなく続く
そして、文字数カウント問題も...
文字コード、改行コード(何らかのデミリタ)に関わる問題は果てしなく続く
そして、文字数カウント問題も...
450デフォルトの名無しさん
2023/10/13(金) 08:42:04.37ID:QFEuT346 >>447
Mac, iPhone も Linux, android も BOM なし UTF8 オンリーで、十分いけてることを考ええると、
UTF8にBOM必要とかいってるやつも、日本語 Windows の system locale が UTF8 なったら手のひら返すだろうね
Mac, iPhone も Linux, android も BOM なし UTF8 オンリーで、十分いけてることを考ええると、
UTF8にBOM必要とかいってるやつも、日本語 Windows の system locale が UTF8 なったら手のひら返すだろうね
451デフォルトの名無しさん
2023/10/13(金) 09:08:31.59ID:Zvnb58M2 必要だから使っているだけで、必要なくなったら使わなくなるだけ。
手のひら返すって発想が出るのはこれをなにか派閥争いや宗教的対立ととらえているんだろうな。
手のひら返すって発想が出るのはこれをなにか派閥争いや宗教的対立ととらえているんだろうな。
452414
2023/10/13(金) 09:49:50.49ID:e5Ke0Kb/ みんなうるさいなぁ…全然寝れないじゃん!
結論は出ない…という結論が出てるんだから
もうみんな静かにしといて欲しいわ
ホントの結論が出たら起こしてねw
結論は出ない…という結論が出てるんだから
もうみんな静かにしといて欲しいわ
ホントの結論が出たら起こしてねw
453デフォルトの名無しさん
2023/10/13(金) 09:59:16.16ID:an/6eWNJ UTF-8にBOMは不要だがBOMを要求する出来の悪いアプリが存在するというだけの話
アプリを修正すればいいだけなのに出来の悪い子のためにBOM付きファイルを広めようとするから迷惑がられる
アプリを修正すればいいだけなのに出来の悪い子のためにBOM付きファイルを広めようとするから迷惑がられる
454デフォルトの名無しさん
2023/10/13(金) 20:19:14.08ID:Zvnb58M2 こう、「出来の悪い」とか要らん煽りをちょいちょい挟んでくるのがな
455デフォルトの名無しさん
2023/10/13(金) 21:36:36.55ID:UzC3xoYA 環境のCPのエンコーディングとUTF-8を両対応したくてBOMを導入した設計は偏狭
専用の閉じたデータなら勝手にどうぞだけどCSVファイルだよ
出来が悪いにもほどがある
専用の閉じたデータなら勝手にどうぞだけどCSVファイルだよ
出来が悪いにもほどがある
456デフォルトの名無しさん
2023/10/13(金) 22:08:36.81ID:Zvnb58M2 一応Unicode規格に定められた仕様なわけだがそれを正しく実装しても出来が悪い呼ばわりするわけだな
457デフォルトの名無しさん
2023/10/13(金) 23:15:47.89ID:SKnf/8eA458デフォルトの名無しさん
2023/10/14(土) 00:20:16.97ID:U0vUYMwi459デフォルトの名無しさん
2023/10/14(土) 12:58:12.11ID:x03gZ5vc VC++はコンパイルオプションでBOM無し通るようになったから許す
460デフォルトの名無しさん
2023/10/14(土) 23:17:30.52ID:BgrcFKKf あ、そうか。UTF-8なのにBOM入りにする理由はコードの自動判別のためか。
461デフォルトの名無しさん
2023/10/15(日) 01:20:23.94ID:QRU3KQek >>460
Windows は文字コードの指定がないとシステムロカールに設定されている文字コード(日本語WiIndows11だとCP932=SJIS)という約束になっていて、これを変更せずに UTF−8 を使いたいがための苦肉の策だった(過去形)。
最近はマイクロソフトはこの約束を破棄して標準を UTF−8 にするよう要請してるし、将来システムロケールのデフォルトを UTF−8 に変更することは確実なので、単なる経過措置。
Windows は文字コードの指定がないとシステムロカールに設定されている文字コード(日本語WiIndows11だとCP932=SJIS)という約束になっていて、これを変更せずに UTF−8 を使いたいがための苦肉の策だった(過去形)。
最近はマイクロソフトはこの約束を破棄して標準を UTF−8 にするよう要請してるし、将来システムロケールのデフォルトを UTF−8 に変更することは確実なので、単なる経過措置。
462デフォルトの名無しさん
2023/10/15(日) 01:39:21.51ID:xER5snLk メモ帳のデフォルトの文字コードは、BOM付きUTF-8
463デフォルトの名無しさん
2023/10/15(日) 02:16:16.57ID:ZnCIGybA464デフォルトの名無しさん
2023/10/15(日) 10:20:43.11ID:qGVDb90a 「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に 〜「Windows 10 19H1」
https://forest.watch.impress.co.jp/docs/news/1157696.html
https://forest.watch.impress.co.jp/docs/news/1157696.html
465デフォルトの名無しさん
2023/10/15(日) 11:24:00.22ID:2RtZyNYP 「UTF8はBOMを付けない」
これでWindows以外は統一されている
WindowsでもBOMなしが標準になりつつある
大勢は決した
これでWindows以外は統一されている
WindowsでもBOMなしが標準になりつつある
大勢は決した
466デフォルトの名無しさん
2023/10/15(日) 12:36:43.97ID:MbTcJx+r ExcelがBOM無しCSV/TSVを文字化けせずに読み込んでくれたら解決しそうw
自慢?のcopilot使ってもいいからさっさと解決しろやーw
自慢?のcopilot使ってもいいからさっさと解決しろやーw
467デフォルトの名無しさん
2023/10/15(日) 13:03:46.10ID:QRU3KQek >>466
今でもシステムロカールを UTF8 に切り替ええると BOM なしで読める。システムのデフォルトを SJIS に設定しているから BOM なしを SJIS とみなしてるだけ。
今でもシステムロカールを UTF8 に切り替ええると BOM なしで読める。システムのデフォルトを SJIS に設定しているから BOM なしを SJIS とみなしてるだけ。
468デフォルトの名無しさん
2023/10/15(日) 14:10:15.45ID:nt2NScg7 >>467
今のExcelの挙動の方がOSの設定を反映してて行儀良いとも言える
WindowsがUTF-8で統一されるには、まずはWindowsのシステムロケールの規定値がUTF-8にならないことにはな
今のExcelの挙動の方がOSの設定を反映してて行儀良いとも言える
WindowsがUTF-8で統一されるには、まずはWindowsのシステムロケールの規定値がUTF-8にならないことにはな
469デフォルトの名無しさん
2023/10/15(日) 15:48:50.38ID:QRU3KQek >>468
その通りなんだが、マイクロソフト自身がそこを翻して、今後は外部文字コードはシステム設定にかかわらず UTF8 にするようにプログラマー向けのガイドで推奨している。
時代は変わったというやつだな。
その通りなんだが、マイクロソフト自身がそこを翻して、今後は外部文字コードはシステム設定にかかわらず UTF8 にするようにプログラマー向けのガイドで推奨している。
時代は変わったというやつだな。
470デフォルトの名無しさん
2023/10/15(日) 21:43:34.82ID:qGVDb90a General Unicode requirement in INF files
https://learn.microsoft.com/en-us/windows-hardware/drivers/display/general-unicode-requirement
INF files should be saved and encoded as Unicode (UTF-16 LE); they must not be ANSI or UTF-8.
https://learn.microsoft.com/en-us/windows-hardware/drivers/display/general-unicode-requirement
INF files should be saved and encoded as Unicode (UTF-16 LE); they must not be ANSI or UTF-8.
471デフォルトの名無しさん
2023/10/15(日) 23:29:04.23ID:Rd0ckQwZ 話してるのは交換用のデータ
そういうレガシーな閉じたデータは困んないし関係ないよ
そういうレガシーな閉じたデータは困んないし関係ないよ
472デフォルトの名無しさん
2023/10/16(月) 00:06:18.56ID:WBw8/fQB Microsoft は 、UTF-8 BOM 無しを推奨する理由として「Web アプリや Unix 系の OS が UTF8 BOM 無しなので、文字コード関連のバグを最低限にするためには UTF8 は BOM なしである必要がある」と主張している。
この主張を元に PowerShell とかの基幹アプリもデフォルトを BOM 無しに移行した。
今はもう UTF-8 BOM つきを推奨するメジャー組織は存在しない。
この主張を元に PowerShell とかの基幹アプリもデフォルトを BOM 無しに移行した。
今はもう UTF-8 BOM つきを推奨するメジャー組織は存在しない。
473デフォルトの名無しさん
2023/10/16(月) 00:53:41.28ID:RCBIhsJ4 ハナっから「推奨」していた組織など存在しない
474デフォルトの名無しさん
2023/10/16(月) 09:54:20.88ID:kgcCjrnK Windows/MS がさっさと間違いを認めれば良いだけ
475デフォルトの名無しさん
2023/10/16(月) 11:23:36.19ID:WBw8/fQB >>473
マイクロソフトは昔はプログラマ向けにBOMつけることを推奨してたんだよ。ツールとかも勝手にBOMを追加していた。
そもそもユニコード規格で UTF8 のBOMが文字コード判別用として規定されたのもマイクロソフトの主張によるもの。
他の企業とかは反対だったけどMSが強く主張するので、妥協として非推奨という形で規格に取り入れられた。
マイクロソフトは昔はプログラマ向けにBOMつけることを推奨してたんだよ。ツールとかも勝手にBOMを追加していた。
そもそもユニコード規格で UTF8 のBOMが文字コード判別用として規定されたのもマイクロソフトの主張によるもの。
他の企業とかは反対だったけどMSが強く主張するので、妥協として非推奨という形で規格に取り入れられた。
476デフォルトの名無しさん
2023/10/16(月) 15:03:12.56ID:wuREpmcE RFC3629の日本語訳
UTF-8, ISO 10646 を変換したフォーマット
https://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt
プロトコルはが常にUTF-8であるなら、そのような場合シグネチャ機能は完全に無駄であるので、そのプロトコルが命令するそれらの原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁止【すべき】(SHOULD)である。
プロトコルは、それらの原文のプロトコル要素、プロトコルの実装が常に適切にメカニズムを使う立場にあることが予測されるとき、そのプロトコルが文字符号識別メカニズムを供給するためのシグネチャとしてのU+FEFFの使用を同じく【禁じるべき】(SHOULD)である。これは、プロトコル要素がそれらの作成時からそれらの適切に分類される伝送の時間まで実装の制御下にきつく維持されるケースであろう。
禁止が不可能、あるいはプロトコルの実装がメカニズムを常に適切に使う立場にないことが予測される時には、プロトコルは、文字符号化識別メカニズムを提供しないそれら原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁じる【べきではない】(SHOULD NOT)。後者2ケースでは、特にプロトコルの実装が、そのような要素を、ファイルシステム、ペイロード(FTPなど)のための符号化識別メカニズムを持たないプロトコル、または文字符号化の適切な識別を保証しない他のプロトコルから得る時のMIME要素(HTTPなど)など、より大きいプロトコル要素で起こりそうだ。
UTF-8, ISO 10646 を変換したフォーマット
https://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt
プロトコルはが常にUTF-8であるなら、そのような場合シグネチャ機能は完全に無駄であるので、そのプロトコルが命令するそれらの原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁止【すべき】(SHOULD)である。
プロトコルは、それらの原文のプロトコル要素、プロトコルの実装が常に適切にメカニズムを使う立場にあることが予測されるとき、そのプロトコルが文字符号識別メカニズムを供給するためのシグネチャとしてのU+FEFFの使用を同じく【禁じるべき】(SHOULD)である。これは、プロトコル要素がそれらの作成時からそれらの適切に分類される伝送の時間まで実装の制御下にきつく維持されるケースであろう。
禁止が不可能、あるいはプロトコルの実装がメカニズムを常に適切に使う立場にないことが予測される時には、プロトコルは、文字符号化識別メカニズムを提供しないそれら原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁じる【べきではない】(SHOULD NOT)。後者2ケースでは、特にプロトコルの実装が、そのような要素を、ファイルシステム、ペイロード(FTPなど)のための符号化識別メカニズムを持たないプロトコル、または文字符号化の適切な識別を保証しない他のプロトコルから得る時のMIME要素(HTTPなど)など、より大きいプロトコル要素で起こりそうだ。
477デフォルトの名無しさん
2023/10/16(月) 22:51:46.46ID:9bPcPHuX >>472
UTF8のBOM付きは古いローカル環境のファイルを除いて世の中から消滅だね
UTF8のBOM付きは古いローカル環境のファイルを除いて世の中から消滅だね
478デフォルトの名無しさん
2023/10/17(火) 21:20:13.70ID:ThqcsYHx いずれ消滅はするだろうね。今すぐにではないだろうけど。
479デフォルトの名無しさん
2023/10/20(金) 01:51:40.88ID:oeTulwfB 以下のウェブページ、ちゃんと表示されます? 自分の環境ではところどころ文字化けが
新JIS漢字で包摂の扱いが変わる文字
https://www.aozora.gr.jp/newJIS-Kanji/gokan_henkou_list.html
新JIS漢字で包摂の扱いが変わる文字
https://www.aozora.gr.jp/newJIS-Kanji/gokan_henkou_list.html
480デフォルトの名無しさん
2023/10/20(金) 02:19:51.80ID:oeTulwfB Shift_JIS-2004にするとemacsでは見れるっぽいな
481デフォルトの名無しさん
2023/10/20(金) 02:31:11.04ID:9LoNmjGS >>479
ページのデコード(文字コード)の問題っぽいので、現代のブラウザでそれらの文字を正しく表示するのは不可能な気がする
少なくともChromiumにはページの文字コードを指定して読み込む機能はない(かなり前に失われた)
ページのデコード(文字コード)の問題っぽいので、現代のブラウザでそれらの文字を正しく表示するのは不可能な気がする
少なくともChromiumにはページの文字コードを指定して読み込む機能はない(かなり前に失われた)
482デフォルトの名無しさん
2023/10/20(金) 05:05:07.19ID:oeTulwfB >>481
なるほど
試しにソースをUTF-8に変換してみたら問題ないっぽいので、そこに書かれているような
UCSのコードポイントがないだとか拡張されたフォントが必要だとかそういうのも
昔話くさいですね。関係者の皆様(?)ご苦労様でした
なるほど
試しにソースをUTF-8に変換してみたら問題ないっぽいので、そこに書かれているような
UCSのコードポイントがないだとか拡張されたフォントが必要だとかそういうのも
昔話くさいですね。関係者の皆様(?)ご苦労様でした
483デフォルトの名無しさん
2023/10/20(金) 05:40:00.05ID:oeTulwfB ちなみに当の青空文庫、チラ見すると今でも基本はJIS X 0208/ShiftJISのようで
なかなかストイックですな。結局「包摂の扱いが変わ」らなかったのかな
なかなかストイックですな。結局「包摂の扱いが変わ」らなかったのかな
484デフォルトの名無しさん
2023/10/21(土) 08:53:53.52ID:gqL/5FH6485デフォルトの名無しさん
2023/10/21(土) 12:16:38.09ID:sf7W/HH9 永青文庫といつも間違う
486デフォルトの名無しさん
2023/10/22(日) 23:34:06.39ID:FeoJDOmp 中々に興味深い内容だった
我々の著書はなぜ誤植まみれに?出版業界と標準規格は相容れない世界。【文字ヶョデ2】#95 - YouTube
https://youtu.be/zSuD9DRzxYk?si=n55RbOykxZLOtTXB
我々の著書はなぜ誤植まみれに?出版業界と標準規格は相容れない世界。【文字ヶョデ2】#95 - YouTube
https://youtu.be/zSuD9DRzxYk?si=n55RbOykxZLOtTXB
487デフォルトの名無しさん
2023/10/23(月) 07:04:22.11ID:8gpCEC0e >使わざる終えない
こういう誤字ってる香具師をよく観かけた
こういう誤字ってる香具師をよく観かけた
488デフォルトの名無しさん
2023/10/23(月) 10:59:00.60ID:Nln6L14l >>486
流し見したけど、若いなあ。若い視聴者向けにあえて歴史的な部分を嘘で誤魔化したのかもしれないけど。
印刷業界の正字文化も、おおもとはフォントの都合。コンピュターのフォントじゃなくてフォント(物理)。
金属活字は高価なのでマイナーな漢字は種類揃えることができなきて正字しか存在しなかった。それで作家がどんな漢字を手書きで書いてこようが、植字職人が問答無用で正字に直していた。
作家に文句いわれても、これが正しい漢字だとうちは正しい漢字で出版すると言い訳してきたのが伝授されていくうちに文化として定着した。
流し見したけど、若いなあ。若い視聴者向けにあえて歴史的な部分を嘘で誤魔化したのかもしれないけど。
印刷業界の正字文化も、おおもとはフォントの都合。コンピュターのフォントじゃなくてフォント(物理)。
金属活字は高価なのでマイナーな漢字は種類揃えることができなきて正字しか存在しなかった。それで作家がどんな漢字を手書きで書いてこようが、植字職人が問答無用で正字に直していた。
作家に文句いわれても、これが正しい漢字だとうちは正しい漢字で出版すると言い訳してきたのが伝授されていくうちに文化として定着した。
489デフォルトの名無しさん
2023/10/23(月) 15:38:39.38ID:1Wk/iiy/ 常用漢字も公務員ωの都合だしな
490デフォルトの名無しさん
2023/10/23(月) 17:57:09.35ID:1YV3x5Wl >>484
元の文書はShift_JISx0213なんですよね。チラ見した感じではリストになさそうなので
単にメニューを追加しただけでは無理そう
さらに今は名前がShift_JIS-2004に変わっているという
ただ、Shift_JIS-2004にしてもIANAには登録されてないようですが
このウェブ文書が書かれたときにはどうやって見ていたのだろう
ブラウザにエンコーディングメニューがあった時代にもShift_JISx0213はなかったような
元の文書はShift_JISx0213なんですよね。チラ見した感じではリストになさそうなので
単にメニューを追加しただけでは無理そう
さらに今は名前がShift_JIS-2004に変わっているという
ただ、Shift_JIS-2004にしてもIANAには登録されてないようですが
このウェブ文書が書かれたときにはどうやって見ていたのだろう
ブラウザにエンコーディングメニューがあった時代にもShift_JISx0213はなかったような
491デフォルトの名無しさん
2023/10/23(月) 21:46:58.87ID:oe4nN6j5492デフォルトの名無しさん
2023/10/24(火) 03:15:10.80ID:iGA2hVtd >>491
送り仮名や当て字は昔は作家の作風の一部だったので出版社が勝手にいじるのは厳禁だった。あくまで正字に直すだけ、あとは校正校閲で指摘して作家本人に直すか確認。
最近は出版社どうのこうのの前にかな漢字変換先生が“正しい”送り仮名をつけるし、わざわざ選ばない限り当て字にもならないので差がほぼ消滅した
送り仮名や当て字は昔は作家の作風の一部だったので出版社が勝手にいじるのは厳禁だった。あくまで正字に直すだけ、あとは校正校閲で指摘して作家本人に直すか確認。
最近は出版社どうのこうのの前にかな漢字変換先生が“正しい”送り仮名をつけるし、わざわざ選ばない限り当て字にもならないので差がほぼ消滅した
493デフォルトの名無しさん
2023/12/08(金) 16:57:00.72ID:UNy3lGIg ついにWindows 11のメモ帳に文字数カウント機能が追加される - GIGAZINE
https://gigazine.net/news/20231208-windows-11-notepad-character-count/
https://gigazine.net/news/20231208-windows-11-notepad-character-count/
494デフォルトの名無しさん
2023/12/09(土) 18:16:22.88ID:ruczJkGu メモ帳とワードパッドどこで差が付いたのか
495デフォルトの名無しさん
2023/12/09(土) 18:53:06.75ID:ScuIIvWx ワードパッドはプアマンズワードみたいなもんだったから、あらゆる意味で中途半端だった
エディタとして基本的なものだけでよかったメモ帳とはわけが違うな
エディタとして基本的なものだけでよかったメモ帳とはわけが違うな
496デフォルトの名無しさん
2023/12/09(土) 23:47:37.80ID:AAQcXydY >>493
合成絵文字とか国旗とかは何文字扱いなんだろう?
合成絵文字とか国旗とかは何文字扱いなんだろう?
497デフォルトの名無しさん
2023/12/12(火) 08:19:11.85ID:Wmqfa5v8498デフォルトの名無しさん
2023/12/12(火) 21:14:09.31ID:rWgfKJ70 そういえば、Windowsのレジストリスクリプト、
v.4はANSI
v.5はUTF-16LE
だったな
v.4はANSI
v.5はUTF-16LE
だったな
499デフォルトの名無しさん
2023/12/17(日) 01:04:51.64ID:H3YKPY2M 時代のあだはなって奴か
500デフォルトの名無しさん
2023/12/17(日) 02:48:49.64ID:65psdCcV 「世界の全部の文字は16ビットに収まる。16ビット固定長なら全世界の人が幸せになる。」
マイクロソフトの発想は面白かったんだが前提が間違っていたのでどうにもならないな。
韓国がワガママ言ってハングルだけでBMPの1/5の1万2千字持って行くとか、中国や台湾が漢字を5万字追加してBMPに入らなくなるとか想定できないのが悪い。
絵文字は同情の余地がある。Google がandroid携帯で携帯市場に参入するとかは当時は予想し難いだろう。
マイクロソフトの発想は面白かったんだが前提が間違っていたのでどうにもならないな。
韓国がワガママ言ってハングルだけでBMPの1/5の1万2千字持って行くとか、中国や台湾が漢字を5万字追加してBMPに入らなくなるとか想定できないのが悪い。
絵文字は同情の余地がある。Google がandroid携帯で携帯市場に参入するとかは当時は予想し難いだろう。
501デフォルトの名無しさん
2023/12/17(日) 05:27:58.87ID:SlmDr4VF 想定が甘かったのでなく、もともとISOで32bitで文字を表す規格化が進んでいたけど16bitに収めたい企業のゴリ押しで16bitになったんだよ
502デフォルトの名無しさん
2023/12/17(日) 13:09:37.31ID:65psdCcV >>501
その前の話だよ。ISOとかとの調整以前の動き
その前の話だよ。ISOとかとの調整以前の動き
503デフォルトの名無しさん
2023/12/17(日) 13:11:41.67ID:KrIvl4tf じゃあマイクロソフトを持ち出すのはおかしい
504デフォルトの名無しさん
2023/12/17(日) 18:20:50.82ID:65psdCcV ISOの多言語化とは別に、マイクロソフトがIBMと多言語文字コードの研究開発してたの知らずに文句言ってるだけか。
505デフォルトの名無しさん
2023/12/18(月) 00:12:33.22ID:HYITYpsg おれは歴史を知ってるふう装っても
その上に歴史に基づかない妄想を書いたことは取り消せないよな
その上に歴史に基づかない妄想を書いたことは取り消せないよな
506デフォルトの名無しさん
2023/12/19(火) 10:06:38.46ID:R7hYmjVP https://ja.wikipedia.org/?curid=1999
1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。
このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。
1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。
このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。
507デフォルトの名無しさん
2023/12/19(火) 23:28:13.27ID:39X2u1HU それだけあれば十分だな!
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 【映画】『クレヨンしんちゃん』 中国で公開延期 対日報復、エンタメに波及 [冬月記者★]
- Xのネトウヨは大体高齢独身。40過ぎて独身だと例外なく狂うって本当だったんだなと思う [805596214]
- 女の子に生まれ変わったらやりたいこと🍓🍫💄❤ [856698234]
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 日経時間外、5万円割れ 垂直落下始まる [402859164]
- ウッドデッキで調子こいてたやついたじゃん
- えんやすー
