Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
2019/01/03(木) 21:04:56.87ID:ejflNGhp
2019/01/04(金) 13:59:50.88ID:8DNHKlb4
8279
2019/01/04(金) 17:36:17.24ID:opswFKCW ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
2019/01/04(金) 18:54:02.55ID:3Gm4cMvD
Windows環境ならそこは _mbschr() でしょ。
2019/01/04(金) 19:30:16.38ID:EMYjNY+E
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
2019/01/04(金) 21:30:36.38ID:atCGQoq2
複数コードポイントで1文字を表すのって上限って決まってないの?青天井?
2019/01/04(金) 22:02:58.14ID:rG/yv5Zr
UTF-8なら、最大四バイトだけど、そういうことじゃなくて?
2019/01/04(金) 22:11:30.43ID:FtJLKwOD
>>86
先ずコードポイントの意味を理解してから質問した方が良い
先ずコードポイントの意味を理解してから質問した方が良い
2019/01/04(金) 22:27:33.32ID:atCGQoq2
なんかごめん
2019/01/04(金) 23:45:49.70ID:EMYjNY+E
>>86
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
2019/01/04(金) 23:54:23.74ID:EMYjNY+E
ZWJシーケンス というのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
2019/01/05(土) 00:00:08.40ID:41KVD0qa
https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
2019/01/05(土) 00:03:32.79ID:fLBZxFEd
合成文字・絵文字とかが絡むともっと地獄になるけどな
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
2019/01/05(土) 00:03:39.55ID:41KVD0qa
ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
2019/01/05(土) 00:07:24.29ID:41KVD0qa
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
2019/01/05(土) 00:11:16.35ID:41KVD0qa
見た目上の1文字は最大4バイト×11文字で44バイトなのかな?w
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
世の中にあるすべての文字をコード化してやる!
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
2019/01/05(土) 00:38:07.30ID:198zQJKz
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
2019/01/05(土) 00:46:41.68ID:fLBZxFEd
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
2019/01/05(土) 01:28:42.81ID:41KVD0qa
絵文字は象形文字の発展版なんだから
文字扱いするのは当然
文字扱いするのは当然
100デフォルトの名無しさん
2019/01/05(土) 12:51:39.06ID:l3tIMYns 現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
101デフォルトの名無しさん
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV >>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
世界には文盲がわんさか居るから結局象形文字が必要ってことか
102デフォルトの名無しさん
2019/01/05(土) 15:08:59.93ID:WAT5i9L3 世界が認めたニッポンのスゴーイ文化やぞ
103デフォルトの名無しさん
2019/01/05(土) 15:19:11.13ID:dE0KuiGH 当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
104デフォルトの名無しさん
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl 1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
106デフォルトの名無しさん
2019/01/05(土) 17:24:42.05ID:41KVD0qa はい
107デフォルトの名無しさん
2019/01/05(土) 19:28:07.65ID:2yRzjNJO 便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
108デフォルトの名無しさん
2019/01/06(日) 10:52:08.85ID:6OQPByjN 田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
https://togetter.com/li/1305754
109デフォルトの名無しさん
2019/01/09(水) 21:32:33.71ID:Duz5lH4D うんちにも色バリエーションつけたいなあ
110デフォルトの名無しさん
2019/01/10(木) 11:56:03.90ID:+qf2Eno1 カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
うっかりつなぎそうになった
111デフォルトの名無しさん
2019/01/10(木) 14:02:26.62ID:LOQSfV+x 形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ
巻きうんち/一本糞/ビチグソ
112デフォルトの名無しさん
2019/01/10(木) 18:35:20.73ID:1lL5sq44 POO WITH TURBANとかもほしい
113デフォルトの名無しさん
2019/01/14(月) 01:16:50.95ID:s6eFaywu U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?
114デフォルトの名無しさん
2019/01/14(月) 11:40:16.54ID:tN6VIVTj Unicodeですらないのに「U+〜」という表記はこれ如何にw
115デフォルトの名無しさん
2019/01/15(火) 16:00:55.99ID:exaSay/9 Replacement Characters: U+FFFC–U+FFFD
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
116デフォルトの名無しさん
2019/01/15(火) 18:43:18.89ID:cLBK0jiu >>115
sorry Japanese only please
sorry Japanese only please
117デフォルトの名無しさん
2019/01/15(火) 20:15:36.54ID:XDACXjEE >>116
なんで卑屈なの?
なんで卑屈なの?
118デフォルトの名無しさん
2019/01/16(水) 11:07:49.88ID:vTKVQdGX 朝鮮人クオリティ
119デフォルトの名無しさん
2019/01/17(木) 14:01:24.86ID:yxSqAYIN 消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html
120デフォルトの名無しさん
2019/01/17(木) 14:27:36.24ID:fAu7Qwle 一方、保存ボタンには相変わらずフロッピー
121デフォルトの名無しさん
2019/01/17(木) 21:08:16.21ID:rro3H2AR122デフォルトの名無しさん
2019/01/17(木) 21:10:53.89ID:1NGaj4L3 ダウンロードかな
123デフォルトの名無しさん
2019/01/18(金) 04:13:25.86ID:6U5tZjv3 山
↑
の方が合ってると思うけど
現実は
↓
下載
↑
の方が合ってると思うけど
現実は
↓
下載
124デフォルトの名無しさん
2019/01/18(金) 15:39:10.11ID:XYduBDiM 直訳かよ
125デフォルトの名無しさん
2019/01/19(土) 00:58:09.98ID:cLBGydY8 >>115
これ使われてるの?
これ使われてるの?
126デフォルトの名無しさん
2019/01/19(土) 01:02:48.22ID:TqFwYkHH 使われてるよ
127デフォルトの名無しさん
2019/01/20(日) 06:25:45.86ID:kFywruI2128デフォルトの名無しさん
2019/01/20(日) 19:36:07.54ID:GM/wkhUD FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
129127
2019/01/21(月) 07:51:07.97ID:uncS2Ppy >>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
130デフォルトの名無しさん
2019/01/21(月) 10:29:40.20ID:z/MdI8Lw そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。
https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか?
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
よろしくお願いいたします。
https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか?
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
132デフォルトの名無しさん
2019/01/22(火) 02:31:06.16ID:leGefjnc 字体とか書体を文字としてどう考えるか、で答えが変わるだろ
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
134デフォルトの名無しさん
2019/01/22(火) 02:59:07.23ID:leGefjnc どっちも可能
135デフォルトの名無しさん
2019/01/22(火) 07:59:46.55ID:Um5Ij+zI 新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
136デフォルトの名無しさん
2019/01/22(火) 13:07:54.27ID:/wbMKv3O137デフォルトの名無しさん
2019/01/22(火) 14:56:00.21ID:SJtsjRub138デフォルトの名無しさん
2019/01/22(火) 23:10:13.56ID:MZI8yiK5139デフォルトの名無しさん
2019/01/23(水) 08:37:00.98ID:bn3mLL6F >131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
140デフォルトの名無しさん
2019/01/23(水) 08:38:04.03ID:bn3mLL6F あちゃー。unicode文字が全部?になってしまった。
141デフォルトの名無しさん
2019/01/23(水) 12:18:22.13ID:djVGMpuO142デフォルトの名無しさん
2019/01/23(水) 20:08:35.75ID:9uGbsXCn >>141
文字がないのに文字コード化できるの?
文字がないのに文字コード化できるの?
143デフォルトの名無しさん
2019/01/23(水) 23:59:31.81ID:einaVBCe 漂流する論点
144デフォルトの名無しさん
2019/01/24(木) 10:44:11.21ID:TePOwsZ1 論点ずらしは朝鮮人のはじまり
145デフォルトの名無しさん
2019/01/24(木) 14:09:11.07ID:CmuJPGgn146デフォルトの名無しさん
2019/01/24(木) 14:37:04.33ID:YqEq6vd1 Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。
被害妄想にとりつかれた朝鮮人みたいだな。
147デフォルトの名無しさん
2019/01/24(木) 14:59:51.89ID:CmuJPGgn148デフォルトの名無しさん
2019/01/24(木) 23:03:59.13ID:YqEq6vd1 >>147
>じゃ、この発言で言いたかったことは何だって言うの?
(unicodeならすべての言語を混在できるという話しを受けて)
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理
だろ。他に何があるってんだ?
>じゃ、この発言で言いたかったことは何だって言うの?
(unicodeならすべての言語を混在できるという話しを受けて)
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理
だろ。他に何があるってんだ?
149デフォルトの名無しさん
2019/01/25(金) 11:58:11.28ID:Syn0T0uw150デフォルトの名無しさん
2019/01/25(金) 12:36:50.26ID:EnRgcOgq 宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか
UNICODEじゃ全然足りないのは明らか
151デフォルトの名無しさん
2019/01/25(金) 14:50:56.20ID:fW+xzaQf152デフォルトの名無しさん
2019/01/25(金) 21:01:41.10ID:Syn0T0uw これ誰かがわざと論点動かして遊んでるだけだな…
153デフォルトの名無しさん
2019/01/25(金) 21:59:31.32ID:cTfFLjRM154デフォルトの名無しさん
2019/01/26(土) 15:18:19.02ID:yVAkGzul >>152
朝鮮人メンタル
朝鮮人メンタル
155デフォルトの名無しさん
2019/01/26(土) 17:43:06.71ID:+ikAikUs なぜ文字コードスレで文字の無い言語の話をしようと思ったのか
156デフォルトの名無しさん
2019/01/27(日) 20:08:40.52ID:fsCM9HoX そこに文字がないから
157デフォルトの名無しさん
2019/01/28(月) 17:43:32.30ID:2/HZJEKq win32apiスレ荒すな!
158デフォルトの名無しさん
2019/01/29(火) 08:22:23.73ID:NccK+bbj なんか旧かなキチガイと同じ臭いがする
159デフォルトの名無しさん
2019/02/01(金) 11:28:25.54ID:FNQUOW/0 いきなりですが質問失礼します
とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です
素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした
スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです
文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing
それではよろしくお願いします
とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です
素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした
スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです
文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing
それではよろしくお願いします
160デフォルトの名無しさん
2019/02/01(金) 11:40:45.63ID:FNQUOW/0 このサイトを参考に文字コード引っ張って来てみました
http://ash.jp/code/unitbl21.htm
区 点 JIS SJIS EUC UTF-8 UTF-16 字
01 86 2176 8196 A1F6 EFBC8A FF0A *
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D }
ゲーム内では熙 燕 矢 紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな?と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした
実験として、符号化の一番値の大きい文字である「FF5D }」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。
http://ash.jp/code/unitbl21.htm
区 点 JIS SJIS EUC UTF-8 UTF-16 字
01 86 2176 8196 A1F6 EFBC8A FF0A *
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D }
ゲーム内では熙 燕 矢 紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな?と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした
実験として、符号化の一番値の大きい文字である「FF5D }」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。
161デフォルトの名無しさん
2019/02/01(金) 13:28:31.64ID:OoI2nX80 区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない
162デフォルトの名無しさん
2019/02/01(金) 14:36:54.05ID:5sjBS9D2 StrCmpLogicalWとか知らなそう?
163デフォルトの名無しさん
2019/02/01(金) 18:36:04.25ID:FNQUOW/0164デフォルトの名無しさん
2019/02/01(金) 19:29:42.41ID:GHV5J4t+ Unicode(UTF-8, UTF-16)はコードポイント順とは別にソート順のデータが定義されてるんだけど
記号類がアルファベットの前に来るってのはそれっぽいような
http://www.unicode.org/Public/UCA/latest/allkeys.txt
でも〆の位置は明らかに違うなぁ
記号類がアルファベットの前に来るってのはそれっぽいような
http://www.unicode.org/Public/UCA/latest/allkeys.txt
でも〆の位置は明らかに違うなぁ
165デフォルトの名無しさん
2019/02/01(金) 22:48:31.77ID:UXXgl86T >>161
ほんそれ
ほんそれ
166デフォルトの名無しさん
2019/02/01(金) 23:10:01.58ID:1OLKpSdz 例えば韓国製のゲームなら韓国語での文字コード順になってるかもな
データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという
http://variable.jp/2009/07/14/mysql-collation/
> MySQL5.0では,126種類でMySQL5.1では,127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合,文字コードによって,
> 並びが変化する。
127種類のうちUTF8系だけで21種類の順番が存在する
データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという
http://variable.jp/2009/07/14/mysql-collation/
> MySQL5.0では,126種類でMySQL5.1では,127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合,文字コードによって,
> 並びが変化する。
127種類のうちUTF8系だけで21種類の順番が存在する
167デフォルトの名無しさん
2019/02/04(月) 15:09:00.52ID:ipefWero 中国製なら中文系かもな。「Big5」とか「CNS11643(EUC_TW)」とか、「GB2312(EUC_CN)」とか。
168デフォルトの名無しさん
2019/02/05(火) 19:23:22.90ID:9Z2hbdGL 日本製でもCO-59とかの可能性がある。
169デフォルトの名無しさん
2019/02/06(水) 14:24:15.52ID:r9SYyl7G 230 New Emojis in Final List for 2019
https://blog.emojipedia.org/230-new-emojis-in-final-list-for-2019/
https://blog.emojipedia.org/230-new-emojis-in-final-list-for-2019/
170デフォルトの名無しさん
2019/02/06(水) 15:28:47.74ID:kcXvzDdu 絵文字ちゃうやん
ただの絵
ただの絵
171デフォルトの名無しさん
2019/02/06(水) 21:57:35.71ID:/jZJbKDa >>169
ブリックパックの右二つがなんだかわからない
ブリックパックの右二つがなんだかわからない
172デフォルトの名無しさん
2019/02/07(木) 00:13:13.64ID:XGqZMSaR だんだんレゴみたいになってきたな
173デフォルトの名無しさん
2019/02/07(木) 18:52:35.59ID:rnocbaU8 >>171
南アの飲み物マテと牡蠣じゃねーの
南アの飲み物マテと牡蠣じゃねーの
174デフォルトの名無しさん
2019/02/08(金) 04:31:41.05ID:6HMnnMCZ なんか真珠できてない?
175デフォルトの名無しさん
2019/02/08(金) 19:56:39.86ID:oJ2kcRDW 真珠を絵に入れるなら pearl oyster にしとけばいいのに
176デフォルトの名無しさん
2019/02/09(土) 15:36:03.22ID:3lTArmdf >>110
SSIDって英数字だけじゃないの?
SSIDって英数字だけじゃないの?
177デフォルトの名無しさん
2019/02/09(土) 16:49:37.43ID:UMSUoHVI >>176
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。
178デフォルトの名無しさん
2019/02/10(日) 00:42:00.71ID:katisOGx 内部UTF-8なの?
179デフォルトの名無しさん
2019/02/10(日) 00:57:47.38ID:nr+SJD/m 内部では単なるヌル終端のバイト列として扱ってるだけなんだろう
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国国営メディア「沖縄は日本ではない」… ★3 [BFU★]
- 中国国営メディア「沖縄は日本ではない」… ★2 [BFU★]
- 高市政権にパイプ役不在…日中高まる緊張 公明党の連立離脱影響、自民内にも懸念「自分でまいた種は自分で刈り取ってもらわないと」 [ぐれ★]
- 小野田氏、”中国経済への依存“に警戒感 高市首相の国会答弁巡り [煮卵★]
- 【こんなの初めて…】民泊には既にキャンセルも 中国の渡航自粛で [ぐれ★]
- 【サッカー】独占入手 最年長JリーガーにW不倫疑惑 『お風呂覗きたいんですが笑』LINE流出も… 慰謝料トラブルを本人に直撃 [冬月記者★]
- 【悲報】ココイチ、売上増収も客離れが止まらずジリ貧。「さらなる値上げも視野」😳 [518915984]
- ネトウヨ「存立危機発言なんて無かった!!!!!!!!!」 [314039747]
- 【なぜ】安倍晋三の評価、地味に上がってる模様… [343591364]
- 円安株安債券安なんだが!終わりだねこの国😿 [929293504]
- 【画像】セクシー女優・天沢りんさん「お休み頂いてた半年間でこんな体になりました🪽🤍」👉予想通りの展開に [242521385]
- 中国国営放送「日本は琉球をただちに中国に返還せよ」 キタ━━━━(゚∀゚)━━━━!!!!! [314039747]
