X



文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
0101デフォルトの名無しさん
垢版 |
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV
>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
0103デフォルトの名無しさん
垢版 |
2019/01/05(土) 15:19:11.13ID:dE0KuiGH
当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
0104デフォルトの名無しさん
垢版 |
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl
1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
0105 ◆QZaw55cn4c
垢版 |
2019/01/05(土) 17:03:40.22ID:F8+3E8Pf
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
0107デフォルトの名無しさん
垢版 |
2019/01/05(土) 19:28:07.65ID:2yRzjNJO
便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
0110デフォルトの名無しさん
垢版 |
2019/01/10(木) 11:56:03.90ID:+qf2Eno1
カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
0115デフォルトの名無しさん
垢版 |
2019/01/15(火) 16:00:55.99ID:exaSay/9
Replacement Characters: U+FFFC–U+FFFD

U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.

U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.
0118デフォルトの名無しさん
垢版 |
2019/01/16(水) 11:07:49.88ID:vTKVQdGX
朝鮮人クオリティ
0123デフォルトの名無しさん
垢版 |
2019/01/18(金) 04:13:25.86ID:6U5tZjv3



の方が合ってると思うけど
現実は


下載
0127デフォルトの名無しさん
垢版 |
2019/01/20(日) 06:25:45.86ID:kFywruI2
>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw
0128デフォルトの名無しさん
垢版 |
2019/01/20(日) 19:36:07.54ID:GM/wkhUD
FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。
0129127
垢版 |
2019/01/21(月) 07:51:07.97ID:uncS2Ppy
>>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)
0130デフォルトの名無しさん
垢版 |
2019/01/21(月) 10:29:40.20ID:z/MdI8Lw
そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。
0131 ◆QZaw55cn4c
垢版 |
2019/01/22(火) 01:05:00.00ID:zFHfz07h
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。

https://pc.watch.impress.co.jp/docs/column/config/1158344.html
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、

これって本当ですか?

私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?
0133 ◆QZaw55cn4c
垢版 |
2019/01/22(火) 02:34:15.81ID:zFHfz07h
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
@:同一文書に含ませることは可能でしょうか?A:@が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?
0135デフォルトの名無しさん
垢版 |
2019/01/22(火) 07:59:46.55ID:Um5Ij+zI
新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。
0136デフォルトの名無しさん
垢版 |
2019/01/22(火) 13:07:54.27ID:/wbMKv3O
>>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな
0138デフォルトの名無しさん
垢版 |
2019/01/22(火) 23:10:13.56ID:MZI8yiK5
>>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう

>>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
0139デフォルトの名無しさん
垢版 |
2019/01/23(水) 08:37:00.98ID:bn3mLL6F
>131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。
0141デフォルトの名無しさん
垢版 |
2019/01/23(水) 12:18:22.13ID:djVGMpuO
>>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる
0144デフォルトの名無しさん
垢版 |
2019/01/24(木) 10:44:11.21ID:TePOwsZ1
論点ずらしは朝鮮人のはじまり
0145デフォルトの名無しさん
垢版 |
2019/01/24(木) 14:09:11.07ID:CmuJPGgn
>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから
0146デフォルトの名無しさん
垢版 |
2019/01/24(木) 14:37:04.33ID:YqEq6vd1
Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。
0147デフォルトの名無しさん
垢版 |
2019/01/24(木) 14:59:51.89ID:CmuJPGgn
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

じゃ、この発言で言いたかったことは何だって言うの?
「私(>>138)は馬鹿です。」以外に何も思いつかないんだが
0148デフォルトの名無しさん
垢版 |
2019/01/24(木) 23:03:59.13ID:YqEq6vd1
>>147
>じゃ、この発言で言いたかったことは何だって言うの?

(unicodeならすべての言語を混在できるという話しを受けて)
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理

だろ。他に何があるってんだ?
0149デフォルトの名無しさん
垢版 |
2019/01/25(金) 11:58:11.28ID:Syn0T0uw
横からすまんが元レスをたどると>>131「あらゆる言語の文字を混在させる」だぞ。
それを>>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。
0150デフォルトの名無しさん
垢版 |
2019/01/25(金) 12:36:50.26ID:EnRgcOgq
宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか
0154デフォルトの名無しさん
垢版 |
2019/01/26(土) 15:18:19.02ID:yVAkGzul
>>152
朝鮮人メンタル
0159デフォルトの名無しさん
垢版 |
2019/02/01(金) 11:28:25.54ID:FNQUOW/0
いきなりですが質問失礼します

とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です

素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした

スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです

文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing

それではよろしくお願いします
0160デフォルトの名無しさん
垢版 |
2019/02/01(金) 11:40:45.63ID:FNQUOW/0
このサイトを参考に文字コード引っ張って来てみました
http://ash.jp/code/unitbl21.htm

区 点 JIS SJIS EUC UTF-8 UTF-16 字

01 86 2176 8196 A1F6 EFBC8A FF0A *
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D }

ゲーム内では熙 燕 矢 紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな?と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした

実験として、符号化の一番値の大きい文字である「FF5D }」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。
0161デフォルトの名無しさん
垢版 |
2019/02/01(金) 13:28:31.64ID:OoI2nX80
区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない
0163デフォルトの名無しさん
垢版 |
2019/02/01(金) 18:36:04.25ID:FNQUOW/0
回答ありがとうございます
本当に助かります

>>161
あーそういう感じですか・・・
ってことは自分で調査しないとだめそうですね
返答ありがとうございました

>>162
ほとんど初心者なので知りませんでした こういう関数があるんですね
専門用語とかだけでも出してもらえて嬉しいです
何も知らないのでぐぐる事もできなかったので助かります


単語さえわかればあとはこちらで調べますので
他にも関連した情報がありましたら用語だけでも教えてもらえると嬉しいです
0165デフォルトの名無しさん
垢版 |
2019/02/01(金) 22:48:31.77ID:UXXgl86T
>>161
ほんそれ
0166デフォルトの名無しさん
垢版 |
2019/02/01(金) 23:10:01.58ID:1OLKpSdz
例えば韓国製のゲームなら韓国語での文字コード順になってるかもな

データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという

http://variable.jp/2009/07/14/mysql-collation/
> MySQL5.0では,126種類でMySQL5.1では,127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合,文字コードによって,
> 並びが変化する。

127種類のうちUTF8系だけで21種類の順番が存在する
0167デフォルトの名無しさん
垢版 |
2019/02/04(月) 15:09:00.52ID:ipefWero
中国製なら中文系かもな。「Big5」とか「CNS11643(EUC_TW)」とか、「GB2312(EUC_CN)」とか。
0170デフォルトの名無しさん
垢版 |
2019/02/06(水) 15:28:47.74ID:kcXvzDdu
絵文字ちゃうやん
ただの絵
0177デフォルトの名無しさん
垢版 |
2019/02/09(土) 16:49:37.43ID:UMSUoHVI
>>176
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。
0180デフォルトの名無しさん
垢版 |
2019/02/10(日) 15:54:10.44ID:PXpe84p+
無理やり設定しても繋げられなくなる気がする
0182デフォルトの名無しさん
垢版 |
2019/02/10(日) 20:01:32.56ID:MigChu0H
🍭
あめ

0184デフォルトの名無しさん
垢版 |
2019/02/10(日) 23:37:08.37ID:/Ok9Y0Js
ユニコードの文字の説明(#から右の部分)がのっているテキストファイルの置き場所って
どこかわかります。できれば、日本語だけでなく全文字が欲しい。

↓こんなやつがずらっと。
0x878D U+337E # SQUARE ERA NAME MEIZI [2000]
0187デフォルトの名無しさん
垢版 |
2019/02/12(火) 17:07:51.47ID:uPzbFBNW
一昔前に、大塩平八郎のLANや応仁のLANというSSIDが話題になったことがあるよね。
俺は見たこと無くて何とも言えないのだけど、実際に接続できたのだろうか?
0189デフォルトの名無しさん
垢版 |
2019/02/14(木) 21:24:21.21ID:sLL+4j00
境界判定するつもりが教会判定することになり異端審問にかけられた。
0191 ◆QZaw55cn4c
垢版 |
2019/02/15(金) 21:47:29.13ID:8MeM2Ami
>>190
Nobody knows the trouble i've seen, nobody knows but Jesus!
0194デフォルトの名無しさん
垢版 |
2019/02/24(日) 14:46:38.10ID:YwY0sV++
Service Temporarily Unavailable
0195デフォルトの名無しさん
垢版 |
2019/02/24(日) 17:25:45.84ID:Nokppl90
そうか…
あのページはすごい便利に使わしてもらってたのに、利用できないとは残念
0196デフォルトの名無しさん
垢版 |
2019/02/25(月) 10:45:27.39ID:Opp/wdL5
>>192 がトドメ刺したんか
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況