Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
探検
文字コード総合スレ part14
■ このスレッドは過去ログ倉庫に格納されています
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
320デフォルトの名無しさん
2023/06/23(金) 00:24:16.74ID:M8BBIM3e 相手が変なこといってるなと感じたら
じぶんが拾えてない情報がないか確認するよねふつう
じぶんが拾えてない情報がないか確認するよねふつう
321デフォルトの名無しさん
2023/06/23(金) 00:39:25.84ID:31qk7hM1 ふわっとしてんな
322デフォルトの名無しさん
2023/06/23(金) 05:42:45.03ID:G2V4SBFP >>320
お前、もしかして相手が変なことを言っていると感じているのか?
お前、もしかして相手が変なことを言っていると感じているのか?
323デフォルトの名無しさん
2023/06/23(金) 11:06:55.50ID:wom6IAq0324デフォルトの名無しさん
2023/06/23(金) 11:12:13.58ID:yEQ18GoZ325デフォルトの名無しさん
2023/06/23(金) 13:39:13.07ID:fMNbteF1 なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった
326デフォルトの名無しさん
2023/06/23(金) 13:40:28.91ID:fMNbteF1 のw
327デフォルトの名無しさん
2023/06/23(金) 16:35:16.14ID:RASP4hQI このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ
328デフォルトの名無しさん
2023/06/23(金) 16:49:42.58ID:fJe7a8sc UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね
329デフォルトの名無しさん
2023/06/24(土) 15:50:27.65ID:v2U7ONLO これで気兼ねなくATMの話ができます!
330デフォルトの名無しさん
2023/06/24(土) 15:54:00.59ID:xBNVjuxa331デフォルトの名無しさん
2023/06/24(土) 16:15:39.62ID:6718OB4j 昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。
MS-DOSの話してるんだろうか?
MS-DOSの話してるんだろうか?
332デフォルトの名無しさん
2023/06/24(土) 17:49:25.13ID:mybFnLY5 >>330
ASCII以外の文字を扱う全てのプログラムに修正が必要
ASCII以外の文字を扱う全てのプログラムに修正が必要
333デフォルトの名無しさん
2023/06/25(日) 09:29:11.85ID:u4T7tXaY334デフォルトの名無しさん
2023/06/25(日) 11:58:16.15ID:0nHjw2pZ335デフォルトの名無しさん
2023/06/25(日) 13:42:41.66ID:gLBngrQA 多バイト文字の処理が念頭にあるんだろうけども
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし
336デフォルトの名無しさん
2023/06/25(日) 17:28:04.26ID:ySKqPmeW うん。だからテキスト処理関係のフィルタコマンドだよ
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要
337デフォルトの名無しさん
2023/06/25(日) 17:56:47.65ID:0nHjw2pZ338デフォルトの名無しさん
2023/06/25(日) 19:33:55.93ID:+QOmRgEX >>329
それは回線にモデルとかISBNとか使ってた頃の遺物だろww
それは回線にモデルとかISBNとか使ってた頃の遺物だろww
339デフォルトの名無しさん
2023/06/25(日) 19:53:24.27ID:s5vVSYDk ぼくは雑誌コード
340デフォルトの名無しさん
2023/06/25(日) 19:59:23.87ID:ySKqPmeW341デフォルトの名無しさん
2023/06/25(日) 20:41:53.62ID:0nHjw2pZ342デフォルトの名無しさん
2023/06/25(日) 21:34:04.71ID:nujrLvHq >>336
ほとんどのプログラムって言っていたのが随分と対象が減ったな
ほとんどのプログラムって言っていたのが随分と対象が減ったな
343デフォルトの名無しさん
2023/06/25(日) 21:49:59.79ID:ySKqPmeW344デフォルトの名無しさん
2023/06/25(日) 21:54:46.00ID:ySKqPmeW どうせ今の話しか知らんくせに
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら?
GNU Coreutils - Multibyte/unicode support
https://crashcourse.housegordon.org/coreutils-multibyte-support.html
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら?
GNU Coreutils - Multibyte/unicode support
https://crashcourse.housegordon.org/coreutils-multibyte-support.html
345デフォルトの名無しさん
2023/06/25(日) 21:56:04.00ID:ySKqPmeW 多くの人の努力によってようやくUTF-8に対応しつつあるというのに
ASCIIのままのプログラムでUTF-8でも動くとか
あーほみたいじゃなくて、あーほ
ASCIIのままのプログラムでUTF-8でも動くとか
あーほみたいじゃなくて、あーほ
346デフォルトの名無しさん
2023/06/25(日) 22:09:28.31ID:0nHjw2pZ347デフォルトの名無しさん
2023/06/25(日) 22:10:52.26ID:ySKqPmeW348デフォルトの名無しさん
2023/06/25(日) 22:18:03.54ID:ySKqPmeW だいたいASCIIにしか対応してないプログラムって言ってんだから
ロケールにも対応してないに決まってるだろ
頭悪そうじゃなくて、頭悪い。
ロケールにも対応してないに決まってるだろ
頭悪そうじゃなくて、頭悪い。
349デフォルトの名無しさん
2023/06/25(日) 22:22:23.09ID:0nHjw2pZ >>345
gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。
こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?
gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。
こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの?
350デフォルトの名無しさん
2023/06/25(日) 22:24:10.92ID:ySKqPmeW351デフォルトの名無しさん
2023/06/25(日) 22:25:47.25ID:ySKqPmeW 俺が何をやったかだって?
お前よりすごいことをしていたよ
守秘義務があるから言えないけどなwww
お前よりすごいことをしていたよ
守秘義務があるから言えないけどなwww
352デフォルトの名無しさん
2023/06/25(日) 22:25:52.06ID:0nHjw2pZ >>348
336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?
336の話してるんだが、どこで言ったの? 脳内? ASCII しか対応してないって何時の時代の話? お前何か参加したの?
353デフォルトの名無しさん
2023/06/25(日) 22:30:06.30ID:ySKqPmeW > ASCII しか対応してないって何時の時代の話?
まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w
まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか?w
354デフォルトの名無しさん
2023/06/25(日) 22:31:57.20ID:ySKqPmeW 今もUnicode・UTF-8に非対応で、
本当は一文字なのに三文字とか間違える実装を知らんのだろうな
本当は一文字なのに三文字とか間違える実装を知らんのだろうな
355デフォルトの名無しさん
2023/06/25(日) 22:34:23.36ID:ySKqPmeW 漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/
https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/
356デフォルトの名無しさん
2023/06/25(日) 22:34:25.42ID:0nHjw2pZ UTF-8 が来た時には既に locale があった
locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった
locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった
357デフォルトの名無しさん
2023/06/25(日) 22:37:12.38ID:0nHjw2pZ 個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。
358デフォルトの名無しさん
2023/06/25(日) 22:40:53.01ID:ySKqPmeW どうやらASCIIしか考慮してないプログラムは
そのOS側のライブラリを使ってないということに
思い至らないようだw
それともなにか?printfをロケール対応に
仕様変更するきかね?www
そのOS側のライブラリを使ってないということに
思い至らないようだw
それともなにか?printfをロケール対応に
仕様変更するきかね?www
359デフォルトの名無しさん
2023/06/25(日) 22:41:32.64ID:9S6fsVfv >>335
wc
wc
360デフォルトの名無しさん
2023/06/25(日) 22:42:37.03ID:ySKqPmeW UTF-8 が来た時には既に locale があった
だがlocale に対応していないプログラムがたくさんあった
だがlocale に対応していないプログラムがたくさんあった
361デフォルトの名無しさん
2023/06/25(日) 23:21:26.81ID:0nHjw2pZ >>360
で336のうちどれの話?
で336のうちどれの話?
362デフォルトの名無しさん
2023/06/26(月) 10:16:30.84ID:lZKUXxOT >>358
ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より
printfの仕様はロケール対応では?
%sの代わりに%lsでワイドキャラクタを扱える
ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より
printfの仕様はロケール対応では?
%sの代わりに%lsでワイドキャラクタを扱える
363デフォルトの名無しさん
2023/06/26(月) 10:35:51.62ID:wgwkla1B >>358
商業UNIXはlibcレベルから各文字コード対応だったんだよ
商業UNIXはlibcレベルから各文字コード対応だったんだよ
364デフォルトの名無しさん
2023/06/26(月) 10:39:44.57ID:lZKUXxOT なんかCの仕様をわかっていない人がいるような
Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を
呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを
使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや
scanf系関数で%sの代わりに%lsで扱う
Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と
7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連
これらはロケールやwchar_tとは別概念なはず
Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を
呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを
使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや
scanf系関数で%sの代わりに%lsで扱う
Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と
7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連
これらはロケールやwchar_tとは別概念なはず
365デフォルトの名無しさん
2023/06/26(月) 11:12:59.67ID:15L3klhZ >>364
順番とか歴史を理解してる?
国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった
その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった
比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた
国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって
今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる
順番とか歴史を理解してる?
国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった
その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった
比較的最近になって、もう新しいプログラムは unicode だけ対応していれば 十分で locale 対応いらないんじゃね? という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた
国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって
今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる
366デフォルトの名無しさん
2023/06/26(月) 11:45:10.68ID:OOvp3Qkm utf-8になってもロケールは必要だよね
言語や地域ごとに処理を変えないといけないから
例えば同じ文字を使っていても辞書順が違うことがある
発音記号の取り扱いとか
それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった
ASCII文字だけ扱いたい時
Unicode以前旧世界との互換性
を考えると
結局世界はMBCSと付き合わざるを得ない事に納得し
wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった
言語や地域ごとに処理を変えないといけないから
例えば同じ文字を使っていても辞書順が違うことがある
発音記号の取り扱いとか
それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった
ASCII文字だけ扱いたい時
Unicode以前旧世界との互換性
を考えると
結局世界はMBCSと付き合わざるを得ない事に納得し
wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった
367デフォルトの名無しさん
2023/06/26(月) 11:51:20.62ID:uBe3VRyC localeに対応しているlessコマンドはsjisファイルも読めるん?
368デフォルトの名無しさん
2023/06/26(月) 12:04:29.17ID:OOvp3Qkm >>367
昔の商業UNIXにlessはなくてmoreだけど
ja_JP.sjis
に設定すれば
Solarisでは2byte目\問題もなかった
もちろん内部的にはMBCS stringとして扱ってる
euc-jpだってMBCSなのだから
ちなみにSolarisの場合はこの辺の処理は
ハードコーディングではなくテーブルドリブンだった
昔の商業UNIXにlessはなくてmoreだけど
ja_JP.sjis
に設定すれば
Solarisでは2byte目\問題もなかった
もちろん内部的にはMBCS stringとして扱ってる
euc-jpだってMBCSなのだから
ちなみにSolarisの場合はこの辺の処理は
ハードコーディングではなくテーブルドリブンだった
369デフォルトの名無しさん
2023/06/26(月) 12:07:04.06ID:OOvp3Qkm ただこの辺の努力は全て水泡に帰して
GNU Linux全盛期に入ったわけだ
つまり文字コード対応はutf-8をベースにして
各言語対応は車輪の再発明をしなければならなかったし
まだ当時に追いついてもいない
GNU Linux全盛期に入ったわけだ
つまり文字コード対応はutf-8をベースにして
各言語対応は車輪の再発明をしなければならなかったし
まだ当時に追いついてもいない
370デフォルトの名無しさん
2023/06/26(月) 12:44:13.00ID:15L3klhZ >>369
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち
371デフォルトの名無しさん
2023/06/26(月) 12:54:23.97ID:15L3klhZ ここでも知らんやつもいるかもしれないので、一応書いておくと
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構
372デフォルトの名無しさん
2023/06/26(月) 13:12:12.62ID:15L3klhZ unicode という規格には
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる
373デフォルトの名無しさん
2023/06/26(月) 16:20:01.13ID:LAEwcUbv 多言語化は国際化に含まれますか?
374デフォルトの名無しさん
2023/06/26(月) 17:50:33.08ID:e5otmU9r >>372
それもちょっと違うね
「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない
そこでは各文字にコード割り当て定義されていてコードは一意に定まる
一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね
それもちょっと違うね
「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない
そこでは各文字にコード割り当て定義されていてコードは一意に定まる
一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね
375デフォルトの名無しさん
2023/06/26(月) 18:30:16.65ID:15L3klhZ >>374
エンコードはコードじゃないという主張の人なの? 珍しいな
エンコードはコードじゃないという主張の人なの? 珍しいな
376デフォルトの名無しさん
2023/06/26(月) 19:03:46.54ID:CwqPR/Mz >>375
そこは全く異なるのがユニコードの基本
例えば「あ」はコードポイントU+3042と一意に定められている
これはエンコーディング方式に関係なく一意に定まる
エンコーディング方式が増えたり廃止されたりしても影響を受けない
一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる
例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32
「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる
UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる
「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる
このようにコードポイント割り当てとエンコーディングは全く独立した別の分野
そこは全く異なるのがユニコードの基本
例えば「あ」はコードポイントU+3042と一意に定められている
これはエンコーディング方式に関係なく一意に定まる
エンコーディング方式が増えたり廃止されたりしても影響を受けない
一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる
例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32
「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる
UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる
「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる
このようにコードポイント割り当てとエンコーディングは全く独立した別の分野
377デフォルトの名無しさん
2023/06/26(月) 19:14:59.15ID:b1vEmQDc378デフォルトの名無しさん
2023/06/26(月) 19:27:42.67ID:Wnoei0OS バイト表現と文字コード体系は別の概念
379デフォルトの名無しさん
2023/06/26(月) 22:19:22.18ID:15L3klhZ380デフォルトの名無しさん
2023/06/26(月) 23:14:57.66ID:zFI2p9hF その感覚はないな
\uXXXXや数値文字参照で指定する値という認識じゃね?
コードポイントそのもの
\uXXXXや数値文字参照で指定する値という認識じゃね?
コードポイントそのもの
381デフォルトの名無しさん
2023/06/27(火) 00:02:41.00ID:fkxIsCCD382デフォルトの名無しさん
2023/06/27(火) 00:31:42.23ID:TcukIZUS character encoding system = encoding method + character set
383デフォルトの名無しさん
2023/06/27(火) 00:39:10.68ID:0oaaTR6k 文字コードポイントとそのエンコーディングの区別ができてやつがいるな
例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない
あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない
例えばUTF8の0xE3 0x81 0x82を文字コードポイントとは言わない
あくまでも文字コードポイントはU+3042であり0xE3 0x81 0x82はUTFでエンコーディングした時のバイト列にすぎない
384デフォルトの名無しさん
2023/06/27(火) 01:24:36.76ID:fkxIsCCD >>382
+ の後ろを coded character set 「符号化文字集合」とした方がより良いな
+ の後ろを coded character set 「符号化文字集合」とした方がより良いな
385デフォルトの名無しさん
2023/06/27(火) 07:10:50.09ID:TcukIZUS386デフォルトの名無しさん
2023/06/27(火) 09:02:31.09ID:fkxIsCCD >>385
規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は
code character set + character encoding scheme
それぞれCCSとCESと略されることもある
一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな
規格によって用語の意味が違うので難しいところだねインターネットのRFCとかだと正式用語は
code character set + character encoding scheme
それぞれCCSとCESと略されることもある
一般的な日本訳は「符号化文字集合」と「文字符号化方式」かな
387デフォルトの名無しさん
2023/06/27(火) 09:03:47.40ID:fkxIsCCD >>386
dが抜けた。coded character set ね
dが抜けた。coded character set ね
388デフォルトの名無しさん
2023/06/30(金) 18:08:26.89ID:9szWkPbV >>383
お前は文字コードとエンコードの区別はついているか?
お前は文字コードとエンコードの区別はついているか?
389デフォルトの名無しさん
2023/07/01(土) 03:56:24.34ID:LJyXb+JQ 数学の写像だと考えればいいのでは
390デフォルトの名無しさん
2023/07/11(火) 16:13:44.17ID:heSsZz8c てすと🌀🌀
391デフォルトの名無しさん
2023/07/27(木) 22:11:05.51ID:u2yUFzzA 𝕏
392デフォルトの名無しさん
2023/07/28(金) 00:23:42.06ID:8p3s4hKM フフフ
393デフォルトの名無しさん
2023/07/28(金) 00:51:45.87ID:9nGZuQCT 文字コードって誰が作ってんの?
394デフォルトの名無しさん
2023/07/28(金) 02:16:49.64ID:6UVKXpPK >>393
誰が作っても良い。他人に使ってもらえるかは知らんが
誰が作っても良い。他人に使ってもらえるかは知らんが
395デフォルトの名無しさん
2023/07/28(金) 02:28:54.58ID:9nGZuQCT 俺用の文字コードを作れば、漏洩して悪意ある他人が見ても文字化けで意味不明ってことか。
396デフォルトの名無しさん
2023/07/28(金) 19:41:58.97ID:25x9IMWE まず13文字ずらします
397デフォルトの名無しさん
2023/07/29(土) 08:13:24.61ID:ej8Wm4VI おおジュリアス・シーザー
398デフォルトの名無しさん
2023/07/29(土) 14:26:21.89ID:fTZOzdc3 カエサル派にとっては意味不明ってことか。
399デフォルトの名無しさん
2023/08/04(金) 14:46:46.47ID:XLfSEGlw コードずらしただけだと出現頻度でばれるって話
400デフォルトの名無しさん
2023/08/04(金) 18:06:48.16ID:v1ivVYRs -・ ・・- ・-・・ ・-・・ ・--・ ---
401デフォルトの名無しさん
2023/08/18(金) 15:49:14.73ID:s/AKDW6W macOS上の話ですが、'が’という名前のフォルダを作ってその名前をシェルで見ると
% ls | iconv -f utf-8 -t utf-16le | od -x -A n
304b 3099 000a
% echo * | iconv -f utf-8 -t utf-16le | od -x -A n
304c 000a
あれ、もしかしてシェル (zsh) がUnicodeの合成をしている?
% ls | iconv -f utf-8 -t utf-16le | od -x -A n
304b 3099 000a
% echo * | iconv -f utf-8 -t utf-16le | od -x -A n
304c 000a
あれ、もしかしてシェル (zsh) がUnicodeの合成をしている?
402デフォルトの名無しさん
2023/08/18(金) 23:53:14.80ID:mQKTVMWd bashでやると元のままでコマンドを外部コマンドにしても変わらないから
globがそういう動作なんやね
globがそういう動作なんやね
403デフォルトの名無しさん
2023/08/19(土) 00:16:00.94ID:Af/nXbF+ 正確に言うと MacOS の zsh のグロブだな。
404デフォルトの名無しさん
2023/08/19(土) 01:35:51.14ID:5L917aO4 >>403
もしかしてmacOS上以外のzshだと挙動が違ったりします?
もしかしてmacOS上以外のzshだと挙動が違ったりします?
405デフォルトの名無しさん
2023/08/19(土) 02:04:07.40ID:Af/nXbF+ >>404
違う
違う
406デフォルトの名無しさん
2023/08/19(土) 10:09:35.79ID:5L917aO4 >>405
確かに、zshのソースを見てみたらMac上だとファイル名を加工する処理が入ってました:
https://github.com/zsh-users/zsh/blob/master/Src/utils.c#L5169
確かに、zshのソースを見てみたらMac上だとファイル名を加工する処理が入ってました:
https://github.com/zsh-users/zsh/blob/master/Src/utils.c#L5169
407デフォルトの名無しさん
2023/08/19(土) 10:21:56.98ID:5L917aO4 が、果たしてそれはいい事なんだろうか。小さな親切大きなお世話という気もしないでもない
皆さんご存知macOS上のFSはファイル名がUnicodeの分解形になっているのだが、
上記により、シェル内でワイルドカードを使うとファイル名が合成形で得られる
その後、そのファイル名を加工して別のファイルを作ると、合成形でファイルが作られること
になる(macOSのUNIXレイヤーではパス名を分解形にすることは強制ではない)
結果、分解形のファイル名と合成形のファイル名がコンタミするではないか、と
皆さんご存知macOS上のFSはファイル名がUnicodeの分解形になっているのだが、
上記により、シェル内でワイルドカードを使うとファイル名が合成形で得られる
その後、そのファイル名を加工して別のファイルを作ると、合成形でファイルが作られること
になる(macOSのUNIXレイヤーではパス名を分解形にすることは強制ではない)
結果、分解形のファイル名と合成形のファイル名がコンタミするではないか、と
408デフォルトの名無しさん
2023/08/19(土) 10:44:11.66ID:Af/nXbF+ >>407
macOS には HFS+ と APFS というのがあってだな。
macOS には HFS+ と APFS というのがあってだな。
409デフォルトの名無しさん
2023/09/18(月) 15:14:20.26ID:lNC8R66h awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に!
https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd
やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね
https://qiita.com/ko1nksm/items/1a3e711bbd925657f5fd
やっぱりUTF-8に対応するにはアプリ側を修正しなきゃいけないって事ね
410デフォルトの名無しさん
2023/09/18(月) 17:45:11.83ID:xE50yd7v >>409
そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し
nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。
そもそも、そういう用途は nawk じゃなくて gawk とか使ってるので今更 nawk が対応したと主張したところで意味無し
nawk は文字とバイトの区別すらついて無かった古典だし。POSIX?それ美味しいの?状態だったのがようやく今頃になって対応始めた感じ。まだ問題だらけなので文字コード区別必要な場面での使用は非推奨。
411デフォルトの名無しさん
2023/09/21(木) 17:13:01.39ID:2fMT8T96 事故の予感しかしない
412デフォルトの名無しさん
2023/10/05(木) 21:37:01.18ID:629OTK1e 全ての開発者が知っておくべきUnicodeについての最低限の知識
https://gigazine.net/news/20231005-unicode/
https://gigazine.net/news/20231005-unicode/
413デフォルトの名無しさん
2023/10/06(金) 02:09:53.00ID:rMpfnI78 互換漢字のことを思い出してもいいですか
macOSのFinderで神というフォルダーを作ると神に変換される
Chrome上で神を検索すると神と神の両方にマッチする
Firefox上で神を検索すると神にはマッチしない
Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない
Mozcで神︀を入力すると分解形がデフォ
みんなちがって、みんないい?
macOSのFinderで神というフォルダーを作ると神に変換される
Chrome上で神を検索すると神と神の両方にマッチする
Firefox上で神を検索すると神にはマッチしない
Firefox上で分解形の神︀で検索すると合成形の神にはマッチしない
Mozcで神︀を入力すると分解形がデフォ
みんなちがって、みんないい?
414デフォルトの名無しさん
2023/10/06(金) 09:13:41.28ID:r0aKLQgw おはよう
今起きたけど、UTF-8にBOMつけるか否か?結論は出た?
今起きたけど、UTF-8にBOMつけるか否か?結論は出た?
415デフォルトの名無しさん
2023/10/06(金) 09:59:40.01ID:Zl0hPCVy UTF-8にBOは存在しない
↓
BOMなんて概念が不要
議論も何も無い
↓
BOMなんて概念が不要
議論も何も無い
416デフォルトの名無しさん
2023/10/06(金) 11:34:57.64ID:rMpfnI78 >>413
>macOSのFinderで神というフォルダーを作ると神に変換される
このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが
あったのだと思っていたけど、今は違うのかな?
>macOSのFinderで神というフォルダーを作ると神に変換される
このあたり、Appleには素のNFDとは少し違う独自の正規化を使うこだわりが
あったのだと思っていたけど、今は違うのかな?
417デフォルトの名無しさん
2023/10/06(金) 14:17:35.44ID:RyNaN3Hq >>415
元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね
元来の用途で使う可能性が無いからこそ新しいより有用な目的を割り当てて使えるのですね
418デフォルトの名無しさん
2023/10/06(金) 17:44:51.54ID:vOZibH++419デフォルトの名無しさん
2023/10/06(金) 18:03:58.96ID:vujaBc4z Firefoxの検索は半角カナの同一視もしてくれないからなあ
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★11 [ぐれ★]
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 日本損失1.7兆円に修正 中国渡航自粛の影響試算 [蚤の市★]
- 「どうしようもない」 ため息つくアジアの玄関口 中国の訪日自粛で−福岡市 [蚤の市★]
- 「アベノミクス」で投資対象と化したマンション ローンの低金利続き「年収の12倍」借りる20代出現 [蚤の市★]
- 食品の高騰対策、政府が交付金の「特別枠」検討 原則全ての自治体で [蚤の市★]
- 【超絶悲報】日本政府「高市さんの答弁撤回はない。政権として弱腰と映る姿勢は見せられない」これもう立憲岡田の議員辞職しかないだろ [519511584]
- 【実況】博衣こよりのえちえち朝こよ🧪
- 台湾「高市さんが台湾人の悲願を叶えてくれた!」これじゃ高市さん発言撤回できないぢゃん😰 [523957489]
- 高市周辺、さすがに焦り始めるww「小さな火種が火事になりかけている。早く鎮火しなくてはいけない」 [271912485]
- 【超悲報】中国への武力行使、世論調査で「賛成」「どちらかといえば賛成」48.8% 「反対」「どちらかといえば反対」の44.2%を上回る [314039747]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
