Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
2018/12/20(木) 21:42:31.32ID:oZOw2Nhk
今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ
47デフォルトの名無しさん
2018/12/20(木) 21:44:56.46ID:/Up9dRku バカがよくやる誤りは
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす
シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす
シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる
48デフォルトの名無しさん
2018/12/20(木) 21:53:38.53ID:/Up9dRku そんなファイル読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない
utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる
リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない
ビッグエンディアンならその逆になる
低学歴知恵遅れはこういった基本的な理解がない
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない
utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる
リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない
ビッグエンディアンならその逆になる
低学歴知恵遅れはこういった基本的な理解がない
2018/12/20(木) 21:59:01.65ID:gpCj1726
2018/12/20(木) 21:59:21.79ID:KozHiIkR
one little two little three little endians
51デフォルトの名無しさん
2018/12/20(木) 22:00:12.93ID:/Up9dRku だからそう書いてる
手動で自分で並べ替える
手動で自分で並べ替える
2018/12/20(木) 22:12:47.37ID:gpCj1726
自分で並べ替えろって話か。それは勘違いした、すまん。
2018/12/20(木) 22:23:36.55ID:tzmwAGAt
結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話
2018/12/20(木) 23:02:54.77ID:Epiz8Tj2
PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。
2018/12/20(木) 23:23:21.93ID:tzmwAGAt
いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ
そんな経験するのは無理だよ
56デフォルトの名無しさん
2018/12/20(木) 23:49:16.62ID:/Up9dRku やはり低学歴知恵遅れには
C++はむり
レスみればよく分かる
レスから頭の悪さがにじみ出てる
低学歴のレスはすぐにわかるわ
残念なことに
C++はむり
レスみればよく分かる
レスから頭の悪さがにじみ出てる
低学歴のレスはすぐにわかるわ
残念なことに
2018/12/21(金) 12:36:36.76ID:C7PBMVlX
データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。
2018/12/21(金) 14:56:12.53ID:wVAQd9sY
>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。
2018/12/21(金) 16:01:10.01ID:2iFVCAc3
で、なんだっけ?バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw
60デフォルトの名無しさん
2018/12/21(金) 16:43:13.79ID:wVAQd9sY intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。
2018/12/21(金) 17:01:59.77ID:2iFVCAc3
一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった
2018/12/21(金) 17:02:51.29ID:2iFVCAc3
C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ
2018/12/21(金) 17:23:19.85ID:wVAQd9sY
>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。
2018/12/21(金) 17:47:28.44ID:2iFVCAc3
>>63
違いますね。memcpy相当ですから
違いますね。memcpy相当ですから
2018/12/21(金) 18:13:53.48ID:ORTv1gtC
低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか
2018/12/21(金) 21:50:05.59ID:0muy2Btq
>>65
色んなところにいるよ
色んなところにいるよ
2018/12/21(金) 22:02:28.52ID:SVNbSsFy
相変わらず日本語の読解に問題がありそうな奴がいるなぁ。
68デフォルトの名無しさん
2018/12/21(金) 23:50:03.63ID:j37Ohb1y まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな
低学歴知恵遅れの自覚がないからな
69デフォルトの名無しさん
2018/12/22(土) 11:38:13.24ID:boWDflNh 実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか?
Cでサンプル欲しいのですがどこかにありますか?
2018/12/22(土) 13:36:46.26ID:aa5NQG9N
bool is_bigendian() {
return htons(1) == 1;
}
return htons(1) == 1;
}
2018/12/31(月) 08:52:03.67ID:Tj5kujd4
C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?
2018/12/31(月) 13:29:33.60ID:8Z6ezMyM
U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
2019/01/01(火) 01:45:48.02ID:kXQfWbAp
なんてこった
エイプリルフールだって?
エイプリルフールだって?
2019/01/01(火) 23:58:04.80ID:j16q/z48
あけましておめでとうございます
2019年は何が起きるかしらね
2019年は何が起きるかしらね
2019/01/02(水) 00:20:17.09ID:R6tFufwf
エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな
新元号『NEO平成』に決定みたいな
2019/01/02(水) 11:30:40.86ID:6YX6jwF2
新元号『』
2019/01/02(水) 22:33:06.92ID:Fz1uszjs
新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
2019/01/03(木) 00:28:36.38ID:agNiXwq6
元号は安晋に内定してるだろ
2019/01/03(木) 09:15:51.35ID:IESB6EpY
MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
2019/01/03(木) 21:04:56.87ID:ejflNGhp
2019/01/04(金) 13:59:50.88ID:8DNHKlb4
8279
2019/01/04(金) 17:36:17.24ID:opswFKCW ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
2019/01/04(金) 18:54:02.55ID:3Gm4cMvD
Windows環境ならそこは _mbschr() でしょ。
2019/01/04(金) 19:30:16.38ID:EMYjNY+E
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
2019/01/04(金) 21:30:36.38ID:atCGQoq2
複数コードポイントで1文字を表すのって上限って決まってないの?青天井?
2019/01/04(金) 22:02:58.14ID:rG/yv5Zr
UTF-8なら、最大四バイトだけど、そういうことじゃなくて?
2019/01/04(金) 22:11:30.43ID:FtJLKwOD
>>86
先ずコードポイントの意味を理解してから質問した方が良い
先ずコードポイントの意味を理解してから質問した方が良い
2019/01/04(金) 22:27:33.32ID:atCGQoq2
なんかごめん
2019/01/04(金) 23:45:49.70ID:EMYjNY+E
>>86
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
2019/01/04(金) 23:54:23.74ID:EMYjNY+E
ZWJシーケンス というのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
2019/01/05(土) 00:00:08.40ID:41KVD0qa
https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
2019/01/05(土) 00:03:32.79ID:fLBZxFEd
合成文字・絵文字とかが絡むともっと地獄になるけどな
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
2019/01/05(土) 00:03:39.55ID:41KVD0qa
ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
2019/01/05(土) 00:07:24.29ID:41KVD0qa
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
2019/01/05(土) 00:11:16.35ID:41KVD0qa
見た目上の1文字は最大4バイト×11文字で44バイトなのかな?w
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
世の中にあるすべての文字をコード化してやる!
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
2019/01/05(土) 00:38:07.30ID:198zQJKz
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
2019/01/05(土) 00:46:41.68ID:fLBZxFEd
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
2019/01/05(土) 01:28:42.81ID:41KVD0qa
絵文字は象形文字の発展版なんだから
文字扱いするのは当然
文字扱いするのは当然
100デフォルトの名無しさん
2019/01/05(土) 12:51:39.06ID:l3tIMYns 現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
101デフォルトの名無しさん
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV >>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
世界には文盲がわんさか居るから結局象形文字が必要ってことか
102デフォルトの名無しさん
2019/01/05(土) 15:08:59.93ID:WAT5i9L3 世界が認めたニッポンのスゴーイ文化やぞ
103デフォルトの名無しさん
2019/01/05(土) 15:19:11.13ID:dE0KuiGH 当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
104デフォルトの名無しさん
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl 1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
106デフォルトの名無しさん
2019/01/05(土) 17:24:42.05ID:41KVD0qa はい
107デフォルトの名無しさん
2019/01/05(土) 19:28:07.65ID:2yRzjNJO 便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
108デフォルトの名無しさん
2019/01/06(日) 10:52:08.85ID:6OQPByjN 田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
https://togetter.com/li/1305754
109デフォルトの名無しさん
2019/01/09(水) 21:32:33.71ID:Duz5lH4D うんちにも色バリエーションつけたいなあ
110デフォルトの名無しさん
2019/01/10(木) 11:56:03.90ID:+qf2Eno1 カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
うっかりつなぎそうになった
111デフォルトの名無しさん
2019/01/10(木) 14:02:26.62ID:LOQSfV+x 形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ
巻きうんち/一本糞/ビチグソ
112デフォルトの名無しさん
2019/01/10(木) 18:35:20.73ID:1lL5sq44 POO WITH TURBANとかもほしい
113デフォルトの名無しさん
2019/01/14(月) 01:16:50.95ID:s6eFaywu U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
114デフォルトの名無しさん
2019/01/14(月) 11:40:16.54ID:tN6VIVTj Unicodeですらないのに「U+〜」という表記はこれ如何にw
115デフォルトの名無しさん
2019/01/15(火) 16:00:55.99ID:exaSay/9 Replacement Characters: U+FFFC–U+FFFD
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
116デフォルトの名無しさん
2019/01/15(火) 18:43:18.89ID:cLBK0jiu >>115
sorry Japanese only please
sorry Japanese only please
117デフォルトの名無しさん
2019/01/15(火) 20:15:36.54ID:XDACXjEE >>116
なんで卑屈なの?
なんで卑屈なの?
118デフォルトの名無しさん
2019/01/16(水) 11:07:49.88ID:vTKVQdGX 朝鮮人クオリティ
119デフォルトの名無しさん
2019/01/17(木) 14:01:24.86ID:yxSqAYIN 消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
120デフォルトの名無しさん
2019/01/17(木) 14:27:36.24ID:fAu7Qwle 一方、保存ボタンには相変わらずフロッピー
121デフォルトの名無しさん
2019/01/17(木) 21:08:16.21ID:rro3H2AR122デフォルトの名無しさん
2019/01/17(木) 21:10:53.89ID:1NGaj4L3 ダウンロードかな
123デフォルトの名無しさん
2019/01/18(金) 04:13:25.86ID:6U5tZjv3 山
↑
の方が合ってると思うけど
現実は
↓
下載
↑
の方が合ってると思うけど
現実は
↓
下載
124デフォルトの名無しさん
2019/01/18(金) 15:39:10.11ID:XYduBDiM 直訳かよ
125デフォルトの名無しさん
2019/01/19(土) 00:58:09.98ID:cLBGydY8 >>115
これ使われてるの?
これ使われてるの?
126デフォルトの名無しさん
2019/01/19(土) 01:02:48.22ID:TqFwYkHH 使われてるよ
127デフォルトの名無しさん
2019/01/20(日) 06:25:45.86ID:kFywruI2128デフォルトの名無しさん
2019/01/20(日) 19:36:07.54ID:GM/wkhUD FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
129127
2019/01/21(月) 07:51:07.97ID:uncS2Ppy >>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
130デフォルトの名無しさん
2019/01/21(月) 10:29:40.20ID:z/MdI8Lw そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。
https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか?
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
よろしくお願いいたします。
https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか?
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
132デフォルトの名無しさん
2019/01/22(火) 02:31:06.16ID:leGefjnc 字体とか書体を文字としてどう考えるか、で答えが変わるだろ
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
134デフォルトの名無しさん
2019/01/22(火) 02:59:07.23ID:leGefjnc どっちも可能
135デフォルトの名無しさん
2019/01/22(火) 07:59:46.55ID:Um5Ij+zI 新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
136デフォルトの名無しさん
2019/01/22(火) 13:07:54.27ID:/wbMKv3O137デフォルトの名無しさん
2019/01/22(火) 14:56:00.21ID:SJtsjRub138デフォルトの名無しさん
2019/01/22(火) 23:10:13.56ID:MZI8yiK5139デフォルトの名無しさん
2019/01/23(水) 08:37:00.98ID:bn3mLL6F >131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
140デフォルトの名無しさん
2019/01/23(水) 08:38:04.03ID:bn3mLL6F あちゃー。unicode文字が全部?になってしまった。
141デフォルトの名無しさん
2019/01/23(水) 12:18:22.13ID:djVGMpuO142デフォルトの名無しさん
2019/01/23(水) 20:08:35.75ID:9uGbsXCn >>141
文字がないのに文字コード化できるの?
文字がないのに文字コード化できるの?
143デフォルトの名無しさん
2019/01/23(水) 23:59:31.81ID:einaVBCe 漂流する論点
144デフォルトの名無しさん
2019/01/24(木) 10:44:11.21ID:TePOwsZ1 論点ずらしは朝鮮人のはじまり
145デフォルトの名無しさん
2019/01/24(木) 14:09:11.07ID:CmuJPGgn■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【地震速報】青森県で震度6強 沿岸部に津波警報 ★6 [ぐれ★]
- 「日の丸にバツ印」掲げた大学生 あいまいな国旗損壊罪に「怖い」 The Mainichi [少考さん★]
- 【音楽】BARBEE BOYS・KONTAが事故で四肢麻痺を公表、新体制で活動は継続 [少考さん★]
- 【野球】野球の未来に危機感「マイナースポーツになる」 宮本慎也氏が開催…学童大会 [尺アジ★]
- 中国「捜索レーダー起動は各国の通常の手法」 火器管制用か回答せず [蚤の市★]
- 【訃報】声優・西村知道さん死去 「SLAM DUNK」安西先生役 9月に体調不良のため一時休業 [少考さん★]
- 中国「日本のネトウヨを根絶してやるからな」。ネトウヨ、人生が終わる [805596214]
- お前らってヘアオイル何使ってるの?
- (´・ω・`)刑務所での暮らしwwwwwwwwwwwwwwww
- ぺこーら、地震で同僚が次々配信を止めるなか強行し続けるので悪目立ちするwww [268244553]
- なぜ人間は架空の人物に感情移入するのか
- 【速報】高市早苗、起床 [779938112]
