文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2018/12/20(木) 10:08:25.12ID:48mnxvPx
>>35
>C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが

誰に騙された?
37デフォルトの名無しさん
垢版 |
2018/12/20(木) 13:46:21.36ID:P4Rv6f7s
実行メモリ上はともかく
ファイルやネットワークストリームでLEにするアホいるんか?
38デフォルトの名無しさん
垢版 |
2018/12/20(木) 16:58:53.93ID:Epiz8Tj2
エンディアンもさることながら32/64bit整数の幅調節が厄介。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。
2018/12/20(木) 18:26:27.50ID:6OEKrw3R
いや、だからさ、その程度までは理解できてるのに、何故「C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが」なんてことを言っちゃうの?
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。
2018/12/20(木) 19:07:05.38ID:oZOw2Nhk
C/C++しらないけど、魔法のようにアライメントを
勝手に調整してくれるんじゃないの?想像しただけで
41デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:19:19.38ID:/Up9dRku
Unicodeは普通にリトルエンディアンもありだ

なんで Byte Order Mark(BOM) がファイルの先頭に入ってるのか分かってない
Javaバイトコードのcafe babeみたいな飾りだと思ってんの

リトルエンディアンの計算機ばっかりがあるとこで
ビッグエンディアンでファイルを保存する理由なんかないからな

当然、そういったコンテンツデータがHTTPでも流れてくる
42デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:20:17.21ID:/Up9dRku
やっぱりこの板には
クルクルパーしかいない

そしてそのクルクルパーの声だけがでかい

やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない
2018/12/20(木) 21:26:52.62ID:gpCj1726
アライメントはふつうコンパイラが適切に調整してくれるよね。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。
44デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:31:46.95ID:/Up9dRku
32bitなら
ちゃんと32bitに詰まるように
メンバの順序かえる
45デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:38:37.03ID:/Up9dRku
char unko
char foo
int aho
short poi
char baka
int manuke
short boo
char woo




int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo


64bitでも考え方は同じ
強制パッキングのオプション使えるコンパイラもある
2018/12/20(木) 21:42:31.32ID:oZOw2Nhk
今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない

つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ
47デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:44:56.46ID:/Up9dRku
バカがよくやる誤りは
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす


シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる
48デフォルトの名無しさん
垢版 |
2018/12/20(木) 21:53:38.53ID:/Up9dRku
そんなファイル読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない


utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む

リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる

リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない

ビッグエンディアンならその逆になる

低学歴知恵遅れはこういった基本的な理解がない
2018/12/20(木) 21:59:01.65ID:gpCj1726
>>45
C/C++の規格じゃ構造体のメンバは宣言された順にアドレスが増加するよう並べられることになっている。
仮に>>45のような最適化を行うことができる処理系が存在したとしても、一般的と言えるものではない。
2018/12/20(木) 21:59:21.79ID:KozHiIkR
one little two little three little endians
51デフォルトの名無しさん
垢版 |
2018/12/20(木) 22:00:12.93ID:/Up9dRku
だからそう書いてる
手動で自分で並べ替える
2018/12/20(木) 22:12:47.37ID:gpCj1726
自分で並べ替えろって話か。それは勘違いした、すまん。
2018/12/20(木) 22:23:36.55ID:tzmwAGAt
結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話
2018/12/20(木) 23:02:54.77ID:Epiz8Tj2
PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。
2018/12/20(木) 23:23:21.93ID:tzmwAGAt
いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ
56デフォルトの名無しさん
垢版 |
2018/12/20(木) 23:49:16.62ID:/Up9dRku
やはり低学歴知恵遅れには
C++はむり

レスみればよく分かる
レスから頭の悪さがにじみ出てる

低学歴のレスはすぐにわかるわ
残念なことに
2018/12/21(金) 12:36:36.76ID:C7PBMVlX
データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。
2018/12/21(金) 14:56:12.53ID:wVAQd9sY
>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。
2018/12/21(金) 16:01:10.01ID:2iFVCAc3
で、なんだっけ?バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw
60デフォルトの名無しさん
垢版 |
2018/12/21(金) 16:43:13.79ID:wVAQd9sY
intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。
2018/12/21(金) 17:01:59.77ID:2iFVCAc3
一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった
2018/12/21(金) 17:02:51.29ID:2iFVCAc3
C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ
2018/12/21(金) 17:23:19.85ID:wVAQd9sY
>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。
2018/12/21(金) 17:47:28.44ID:2iFVCAc3
>>63
違いますね。memcpy相当ですから
2018/12/21(金) 18:13:53.48ID:ORTv1gtC
低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか
2018/12/21(金) 21:50:05.59ID:0muy2Btq
>>65
色んなところにいるよ
2018/12/21(金) 22:02:28.52ID:SVNbSsFy
相変わらず日本語の読解に問題がありそうな奴がいるなぁ。
68デフォルトの名無しさん
垢版 |
2018/12/21(金) 23:50:03.63ID:j37Ohb1y
まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな
69デフォルトの名無しさん
垢版 |
2018/12/22(土) 11:38:13.24ID:boWDflNh
実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか?
2018/12/22(土) 13:36:46.26ID:aa5NQG9N
bool is_bigendian() {
 return htons(1) == 1;
}
2018/12/31(月) 08:52:03.67ID:Tj5kujd4
C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?
2018/12/31(月) 13:29:33.60ID:8Z6ezMyM
U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf

WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
2019/01/01(火) 01:45:48.02ID:kXQfWbAp
なんてこった
エイプリルフールだって?
2019/01/01(火) 23:58:04.80ID:j16q/z48
あけましておめでとうございます
2019年は何が起きるかしらね
2019/01/02(水) 00:20:17.09ID:R6tFufwf
エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな
2019/01/02(水) 11:30:40.86ID:6YX6jwF2
新元号『��』
2019/01/02(水) 22:33:06.92ID:Fz1uszjs
新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
2019/01/03(木) 00:28:36.38ID:agNiXwq6
元号は安晋に内定してるだろ
2019/01/03(木) 09:15:51.35ID:IESB6EpY
MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
2019/01/03(木) 21:04:56.87ID:ejflNGhp
>>72
ありがとう。
なにか事情があったんだろうけど、なんだろうね……。
2019/01/04(金) 13:59:50.88ID:8DNHKlb4
あけおめ

>>79
大昔のことだけど、SJIS 文字列の末尾から検索するプログラム書いてた時は「SJIS、お前はマジで殺す」という気持ちで一杯でした。
もう二度とあんなことはやりたくない。
8279
垢版 |
2019/01/04(金) 17:36:17.24ID:opswFKCW
ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
2019/01/04(金) 18:54:02.55ID:3Gm4cMvD
Windows環境ならそこは _mbschr() でしょ。
2019/01/04(金) 19:30:16.38ID:EMYjNY+E
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
2019/01/04(金) 21:30:36.38ID:atCGQoq2
複数コードポイントで1文字を表すのって上限って決まってないの?青天井?
2019/01/04(金) 22:02:58.14ID:rG/yv5Zr
UTF-8なら、最大四バイトだけど、そういうことじゃなくて?
2019/01/04(金) 22:11:30.43ID:FtJLKwOD
>>86
先ずコードポイントの意味を理解してから質問した方が良い
2019/01/04(金) 22:27:33.32ID:atCGQoq2
なんかごめん
2019/01/04(金) 23:45:49.70ID:EMYjNY+E
>>86
最大4バイトじゃないよ

漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/

Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理

もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&;type=html
2019/01/04(金) 23:54:23.74ID:EMYjNY+E
ZWJシーケンス というのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF

見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
2019/01/05(土) 00:00:08.40ID:41KVD0qa
https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
2019/01/05(土) 00:03:32.79ID:fLBZxFEd
合成文字・絵文字とかが絡むともっと地獄になるけどな
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
2019/01/05(土) 00:03:39.55ID:41KVD0qa
ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
2019/01/05(土) 00:07:24.29ID:41KVD0qa
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
2019/01/05(土) 00:11:16.35ID:41KVD0qa
見た目上の1文字は最大4バイト×11文字で44バイトなのかな?w
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
2019/01/05(土) 00:12:47.39ID:F8+3E8Pf
世の中にあるすべての文字をコード化してやる!
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…

仕切りなおしたほうがいいんじゃないですか?
2019/01/05(土) 00:38:07.30ID:198zQJKz
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
2019/01/05(土) 00:46:41.68ID:fLBZxFEd
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
2019/01/05(土) 01:28:42.81ID:41KVD0qa
絵文字は象形文字の発展版なんだから
文字扱いするのは当然
2019/01/05(土) 12:51:39.06ID:l3tIMYns
現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
101デフォルトの名無しさん
垢版 |
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV
>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
2019/01/05(土) 15:08:59.93ID:WAT5i9L3
世界が認めたニッポンのスゴーイ文化やぞ
2019/01/05(土) 15:19:11.13ID:dE0KuiGH
当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
104デフォルトの名無しさん
垢版 |
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl
1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
2019/01/05(土) 17:03:40.22ID:F8+3E8Pf
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
2019/01/05(土) 17:24:42.05ID:41KVD0qa
はい
107デフォルトの名無しさん
垢版 |
2019/01/05(土) 19:28:07.65ID:2yRzjNJO
便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
2019/01/06(日) 10:52:08.85ID:6OQPByjN
田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
2019/01/09(水) 21:32:33.71ID:Duz5lH4D
うんちにも色バリエーションつけたいなあ
110デフォルトの名無しさん
垢版 |
2019/01/10(木) 11:56:03.90ID:+qf2Eno1
カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
2019/01/10(木) 14:02:26.62ID:LOQSfV+x
形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ
2019/01/10(木) 18:35:20.73ID:1lL5sq44
POO WITH TURBANとかもほしい
2019/01/14(月) 01:16:50.95ID:s6eFaywu
U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
2019/01/14(月) 11:40:16.54ID:tN6VIVTj
Unicodeですらないのに「U+〜」という表記はこれ如何にw
2019/01/15(火) 16:00:55.99ID:exaSay/9
Replacement Characters: U+FFFC–U+FFFD

U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.

U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
2019/01/15(火) 18:43:18.89ID:cLBK0jiu
>>115
sorry Japanese only please
2019/01/15(火) 20:15:36.54ID:XDACXjEE
>>116
なんで卑屈なの?
118デフォルトの名無しさん
垢版 |
2019/01/16(水) 11:07:49.88ID:vTKVQdGX
朝鮮人クオリティ
2019/01/17(木) 14:01:24.86ID:yxSqAYIN
消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
2019/01/17(木) 14:27:36.24ID:fAu7Qwle
一方、保存ボタンには相変わらずフロッピー��
121デフォルトの名無しさん
垢版 |
2019/01/17(木) 21:08:16.21ID:rro3H2AR
今はこうですよ
https://www.appps.jp/wp-content/uploads/2017/01/20170131-tell-icon-news-008.jpg
2019/01/17(木) 21:10:53.89ID:1NGaj4L3
ダウンロードかな
123デフォルトの名無しさん
垢版 |
2019/01/18(金) 04:13:25.86ID:6U5tZjv3



の方が合ってると思うけど
現実は


下載
2019/01/18(金) 15:39:10.11ID:XYduBDiM
直訳かよ
2019/01/19(土) 00:58:09.98ID:cLBGydY8
>>115
これ使われてるの?
2019/01/19(土) 01:02:48.22ID:TqFwYkHH
使われてるよ
2019/01/20(日) 06:25:45.86ID:kFywruI2
>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw
2019/01/20(日) 19:36:07.54ID:GM/wkhUD
FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
129127
垢版 |
2019/01/21(月) 07:51:07.97ID:uncS2Ppy
>>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
130デフォルトの名無しさん
垢版 |
2019/01/21(月) 10:29:40.20ID:z/MdI8Lw
そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
2019/01/22(火) 01:05:00.00ID:zFHfz07h
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。

https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、

これって本当ですか?

私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
2019/01/22(火) 02:31:06.16ID:leGefjnc
字体とか書体を文字としてどう考えるか、で答えが変わるだろ
2019/01/22(火) 02:34:15.81ID:zFHfz07h
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
2019/01/22(火) 02:59:07.23ID:leGefjnc
どっちも可能
2019/01/22(火) 07:59:46.55ID:Um5Ij+zI
新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況