文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2019/01/05(土) 00:46:41.68ID:fLBZxFEd
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
2019/01/05(土) 01:28:42.81ID:41KVD0qa
絵文字は象形文字の発展版なんだから
文字扱いするのは当然
2019/01/05(土) 12:51:39.06ID:l3tIMYns
現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
101デフォルトの名無しさん
垢版 |
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV
>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
2019/01/05(土) 15:08:59.93ID:WAT5i9L3
世界が認めたニッポンのスゴーイ文化やぞ
2019/01/05(土) 15:19:11.13ID:dE0KuiGH
当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
104デフォルトの名無しさん
垢版 |
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl
1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
2019/01/05(土) 17:03:40.22ID:F8+3E8Pf
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
2019/01/05(土) 17:24:42.05ID:41KVD0qa
はい
107デフォルトの名無しさん
垢版 |
2019/01/05(土) 19:28:07.65ID:2yRzjNJO
便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
2019/01/06(日) 10:52:08.85ID:6OQPByjN
田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
2019/01/09(水) 21:32:33.71ID:Duz5lH4D
うんちにも色バリエーションつけたいなあ
110デフォルトの名無しさん
垢版 |
2019/01/10(木) 11:56:03.90ID:+qf2Eno1
カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
2019/01/10(木) 14:02:26.62ID:LOQSfV+x
形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ
2019/01/10(木) 18:35:20.73ID:1lL5sq44
POO WITH TURBANとかもほしい
2019/01/14(月) 01:16:50.95ID:s6eFaywu
U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
2019/01/14(月) 11:40:16.54ID:tN6VIVTj
Unicodeですらないのに「U+〜」という表記はこれ如何にw
2019/01/15(火) 16:00:55.99ID:exaSay/9
Replacement Characters: U+FFFC–U+FFFD

U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.

U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
2019/01/15(火) 18:43:18.89ID:cLBK0jiu
>>115
sorry Japanese only please
2019/01/15(火) 20:15:36.54ID:XDACXjEE
>>116
なんで卑屈なの?
118デフォルトの名無しさん
垢版 |
2019/01/16(水) 11:07:49.88ID:vTKVQdGX
朝鮮人クオリティ
2019/01/17(木) 14:01:24.86ID:yxSqAYIN
消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
2019/01/17(木) 14:27:36.24ID:fAu7Qwle
一方、保存ボタンには相変わらずフロッピー��
121デフォルトの名無しさん
垢版 |
2019/01/17(木) 21:08:16.21ID:rro3H2AR
今はこうですよ
https://www.appps.jp/wp-content/uploads/2017/01/20170131-tell-icon-news-008.jpg
2019/01/17(木) 21:10:53.89ID:1NGaj4L3
ダウンロードかな
123デフォルトの名無しさん
垢版 |
2019/01/18(金) 04:13:25.86ID:6U5tZjv3



の方が合ってると思うけど
現実は


下載
2019/01/18(金) 15:39:10.11ID:XYduBDiM
直訳かよ
2019/01/19(土) 00:58:09.98ID:cLBGydY8
>>115
これ使われてるの?
2019/01/19(土) 01:02:48.22ID:TqFwYkHH
使われてるよ
2019/01/20(日) 06:25:45.86ID:kFywruI2
>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw
2019/01/20(日) 19:36:07.54ID:GM/wkhUD
FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
129127
垢版 |
2019/01/21(月) 07:51:07.97ID:uncS2Ppy
>>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
130デフォルトの名無しさん
垢版 |
2019/01/21(月) 10:29:40.20ID:z/MdI8Lw
そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
2019/01/22(火) 01:05:00.00ID:zFHfz07h
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。

https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、

これって本当ですか?

私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
2019/01/22(火) 02:31:06.16ID:leGefjnc
字体とか書体を文字としてどう考えるか、で答えが変わるだろ
2019/01/22(火) 02:34:15.81ID:zFHfz07h
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
2019/01/22(火) 02:59:07.23ID:leGefjnc
どっちも可能
2019/01/22(火) 07:59:46.55ID:Um5Ij+zI
新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
136デフォルトの名無しさん
垢版 |
2019/01/22(火) 13:07:54.27ID:/wbMKv3O
>>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな
2019/01/22(火) 14:56:00.21ID:SJtsjRub
>>131
Unicodeは全世界の文字に対応した文字コード
混在して使えるのは当たり前
2019/01/22(火) 23:10:13.56ID:MZI8yiK5
>>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう

>>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
2019/01/23(水) 08:37:00.98ID:bn3mLL6F
>131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
2019/01/23(水) 08:38:04.03ID:bn3mLL6F
あちゃー。unicode文字が全部?になってしまった。
2019/01/23(水) 12:18:22.13ID:djVGMpuO
>>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる
2019/01/23(水) 20:08:35.75ID:9uGbsXCn
>>141
文字がないのに文字コード化できるの?
2019/01/23(水) 23:59:31.81ID:einaVBCe
漂流する論点
144デフォルトの名無しさん
垢版 |
2019/01/24(木) 10:44:11.21ID:TePOwsZ1
論点ずらしは朝鮮人のはじまり
2019/01/24(木) 14:09:11.07ID:CmuJPGgn
>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから
2019/01/24(木) 14:37:04.33ID:YqEq6vd1
Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。
2019/01/24(木) 14:59:51.89ID:CmuJPGgn
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

じゃ、この発言で言いたかったことは何だって言うの?
「私(>>138)は馬鹿です。」以外に何も思いつかないんだが
2019/01/24(木) 23:03:59.13ID:YqEq6vd1
>>147
>じゃ、この発言で言いたかったことは何だって言うの?

(unicodeならすべての言語を混在できるという話しを受けて)
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理

だろ。他に何があるってんだ?
2019/01/25(金) 11:58:11.28ID:Syn0T0uw
横からすまんが元レスをたどると>>131「あらゆる言語の文字を混在させる」だぞ。
それを>>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。
150デフォルトの名無しさん
垢版 |
2019/01/25(金) 12:36:50.26ID:EnRgcOgq
宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか
2019/01/25(金) 14:50:56.20ID:fW+xzaQf
>>148
縄文時代の日本語ってなに?
参考リンク教えて
2019/01/25(金) 21:01:41.10ID:Syn0T0uw
これ誰かがわざと論点動かして遊んでるだけだな…
2019/01/25(金) 21:59:31.32ID:cTfFLjRM
>>149
だから文字のない言語は無理だろ?
という話だけなのに、なんでひねくれてるの?
154デフォルトの名無しさん
垢版 |
2019/01/26(土) 15:18:19.02ID:yVAkGzul
>>152
朝鮮人メンタル
2019/01/26(土) 17:43:06.71ID:+ikAikUs
なぜ文字コードスレで文字の無い言語の話をしようと思ったのか
2019/01/27(日) 20:08:40.52ID:fsCM9HoX
そこに文字がないから
2019/01/28(月) 17:43:32.30ID:2/HZJEKq
win32apiスレ荒すな!
2019/01/29(火) 08:22:23.73ID:NccK+bbj
なんか旧かなキチガイと同じ臭いがする
2019/02/01(金) 11:28:25.54ID:FNQUOW/0
いきなりですが質問失礼します

とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です

素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした

スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです

文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing

それではよろしくお願いします
2019/02/01(金) 11:40:45.63ID:FNQUOW/0
このサイトを参考に文字コード引っ張って来てみました
http://ash.jp/code/unitbl21.htm

区 点 JIS SJIS EUC UTF-8 UTF-16 字

01 86 2176 8196 A1F6 EFBC8A FF0A *
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D }

ゲーム内では熙 燕 矢 紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな?と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした

実験として、符号化の一番値の大きい文字である「FF5D }」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。
2019/02/01(金) 13:28:31.64ID:OoI2nX80
区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない
2019/02/01(金) 14:36:54.05ID:5sjBS9D2
StrCmpLogicalWとか知らなそう?
2019/02/01(金) 18:36:04.25ID:FNQUOW/0
回答ありがとうございます
本当に助かります

>>161
あーそういう感じですか・・・
ってことは自分で調査しないとだめそうですね
返答ありがとうございました

>>162
ほとんど初心者なので知りませんでした こういう関数があるんですね
専門用語とかだけでも出してもらえて嬉しいです
何も知らないのでぐぐる事もできなかったので助かります


単語さえわかればあとはこちらで調べますので
他にも関連した情報がありましたら用語だけでも教えてもらえると嬉しいです
2019/02/01(金) 19:29:42.41ID:GHV5J4t+
Unicode(UTF-8, UTF-16)はコードポイント順とは別にソート順のデータが定義されてるんだけど
記号類がアルファベットの前に来るってのはそれっぽいような
http://www.unicode.org/Public/UCA/latest/allkeys.txt

でも〆の位置は明らかに違うなぁ
165デフォルトの名無しさん
垢版 |
2019/02/01(金) 22:48:31.77ID:UXXgl86T
>>161
ほんそれ
2019/02/01(金) 23:10:01.58ID:1OLKpSdz
例えば韓国製のゲームなら韓国語での文字コード順になってるかもな

データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという

http://variable.jp/2009/07/14/mysql-collation/
> MySQL5.0では,126種類でMySQL5.1では,127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合,文字コードによって,
> 並びが変化する。

127種類のうちUTF8系だけで21種類の順番が存在する
2019/02/04(月) 15:09:00.52ID:ipefWero
中国製なら中文系かもな。「Big5」とか「CNS11643(EUC_TW)」とか、「GB2312(EUC_CN)」とか。
2019/02/05(火) 19:23:22.90ID:9Z2hbdGL
日本製でもCO-59とかの可能性がある。
2019/02/06(水) 14:24:15.52ID:r9SYyl7G
230 New Emojis in Final List for 2019
https://blog.emojipedia.org/230-new-emojis-in-final-list-for-2019/
170デフォルトの名無しさん
垢版 |
2019/02/06(水) 15:28:47.74ID:kcXvzDdu
絵文字ちゃうやん
ただの絵
2019/02/06(水) 21:57:35.71ID:/jZJbKDa
>>169
ブリックパックの右二つがなんだかわからない
2019/02/07(木) 00:13:13.64ID:XGqZMSaR
だんだんレゴみたいになってきたな
2019/02/07(木) 18:52:35.59ID:rnocbaU8
>>171
南アの飲み物マテと牡蠣じゃねーの
2019/02/08(金) 04:31:41.05ID:6HMnnMCZ
なんか真珠できてない?
2019/02/08(金) 19:56:39.86ID:oJ2kcRDW
真珠を絵に入れるなら pearl oyster にしとけばいいのに
2019/02/09(土) 15:36:03.22ID:3lTArmdf
>>110
SSIDって英数字だけじゃないの?
2019/02/09(土) 16:49:37.43ID:UMSUoHVI
>>176
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。
2019/02/10(日) 00:42:00.71ID:katisOGx
内部UTF-8なの?
2019/02/10(日) 00:57:47.38ID:nr+SJD/m
内部では単なるヌル終端のバイト列として扱ってるだけなんだろう
180デフォルトの名無しさん
垢版 |
2019/02/10(日) 15:54:10.44ID:PXpe84p+
無理やり設定しても繋げられなくなる気がする
2019/02/10(日) 19:57:18.23ID:MigChu0H
💩
うんこ
🍭
あめ
182デフォルトの名無しさん
垢版 |
2019/02/10(日) 20:01:32.56ID:MigChu0H
🍭
あめ

2019/02/10(日) 22:34:53.92ID:Amp5CTrh
>>180
見えているのに到達できない場所みたいだな
184デフォルトの名無しさん
垢版 |
2019/02/10(日) 23:37:08.37ID:/Ok9Y0Js
ユニコードの文字の説明(#から右の部分)がのっているテキストファイルの置き場所って
どこかわかります。できれば、日本語だけでなく全文字が欲しい。

↓こんなやつがずらっと。
0x878D U+337E # SQUARE ERA NAME MEIZI [2000]
185デフォルトの名無しさん
垢版 |
2019/02/10(日) 23:45:31.96ID:/Ok9Y0Js
https://unicode.org/Public/MAPPINGS/
ここは知っています。
2019/02/11(月) 18:36:04.22ID:QUwqB+eg
そこ知ってるならもう辿り着けたも同然なのに
一つ上がってみよう
2019/02/12(火) 17:07:51.47ID:uPzbFBNW
一昔前に、大塩平八郎のLANや応仁のLANというSSIDが話題になったことがあるよね。
俺は見たこと無くて何とも言えないのだけど、実際に接続できたのだろうか?
2019/02/14(木) 19:27:45.79ID:Ny/2bQvT
文字化け先生はなんかあったのか
189デフォルトの名無しさん
垢版 |
2019/02/14(木) 21:24:21.21ID:sLL+4j00
境界判定するつもりが教会判定することになり異端審問にかけられた。
2019/02/15(金) 10:47:46.35ID:9AJYray/
Nobody expects the Spanish Inquisition!
2019/02/15(金) 21:47:29.13ID:8MeM2Ami
>>190
Nobody knows the trouble i've seen, nobody knows but Jesus!
2019/02/23(土) 21:24:43.04ID:nqqF93LL
https://unicode.org/cldr/utility/character.jsp?a=1D00
↑ここにアクセスしても空白のページが表示されるだけなんだけど
みなさんもそう?

前までは確かに存在したページの筈……。
2019/02/24(日) 11:44:00.18ID:A1cNJX+Z
確かに空白だな、と思ってソース見たらtofuが並んでた
194デフォルトの名無しさん
垢版 |
2019/02/24(日) 14:46:38.10ID:YwY0sV++
Service Temporarily Unavailable
2019/02/24(日) 17:25:45.84ID:Nokppl90
そうか…
あのページはすごい便利に使わしてもらってたのに、利用できないとは残念
196デフォルトの名無しさん
垢版 |
2019/02/25(月) 10:45:27.39ID:Opp/wdL5
>>192 がトドメ刺したんか
197デフォルトの名無しさん
垢版 |
2019/02/25(月) 10:51:17.50ID:Opp/wdL5
こっちか
http://cldr.unicode.org/
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況