文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/16(日) 12:38:15.61

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2018/12/16(日) 12:40:36.99

■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
JIS X 4061
日本語文字列照合順番
http://www.jisc.go.jp/

**デフォルトの名無しさん** · 2018/12/16(日) 12:45:08.07

■これまでに行われた議論
・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。Unicodeでは機種依存文字ではない。
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　対応済み
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・Unicodeのzipが文字化けする。→Windows 7は公式パッチで対応可能。8以降は標準対応

**デフォルトの名無しさん** · 2018/12/16(日) 12:46:00.56

・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

**デフォルトの名無しさん** · 2018/12/16(日) 12:46:16.07

もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは？
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは？　その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは？　その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/

**デフォルトの名無しさん** · 2018/12/16(日) 12:48:18.57

■ライブラリ
ICU - International Components for Unicode
http://site.icu-project.org/home
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
NKF32.DLL （非推奨）
http://www.vector.co.jp/soft/win95/util/se020949.html

**デフォルトの名無しさん** · 2018/12/16(日) 12:49:13.25

■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。

**デフォルトの名無しさん** · 2018/12/16(日) 17:19:29.50

oo|o|o|||o|o|o|o|||ooo|oo|o|ooooo||o||o|oooo|||o||||o|oo|o|||o|o|o|o|o|oo
ooo||o|o|||||||o|o||oo|ooo||ooo|o||oooo|oo|o||oo|||ooo||||oo||ooooo||oo||
oo||ooo|o||o||ooooo|oo|oo|o|o|||o|||||o|o|oo||oo|ooo||o||||o|o||o||o|oooo
ooo|||||o|oo|||ooo|o|oo|||||ooooooooooo|||ooo|||o||||oo|oo|||ooo|o||oo|||
ooooo|ooo||o|oo|||oooo|oo|||||ooooo||o|||oo|||o|o|o|o||||o|||||oo|oo|oo|o
||o|oo||oooooo||o|oo||o|||ooo||oo||oo||ooo|o|o|oo|||||o|o|o|||oooooo|o|||
||o||||o|oo|||o||oo||ooo|ooo|oo|||oo|o|||o|||oo|oo|oo|o|||||oooo||ooooooo
oo|oo|||||oo|||||o|oo|o||oo|||o|ooo||o|oo|||o||ooooooooo|ooooo|o|||o||o||
o|oo|o||o|oo|oo|oo|o|o|o|oo|o||||oo|oo||ooo|ooooo||||o|oo|oo|||o|||oo||||
|o||||o|||oo|o||o||oo||oooo|oo|o||oooo|oo|||||||oo|o|o|ooo|oooo||||ooo|oo
ooooo|||oo||oo|o||o|ooooooo||||||o|o||o|o|ooo||oo||o||oooo||oo|oo|||o||||
|o|||oo||o||o|o|||o||oooo|oo|||o||oo|ooooo|o|||o|||oo|ooo|ooo|||oo||oo|oo
||ooo|||ooo|||o|ooooo||||oo|||||oo||ooo|o||o||ooo|oo||oo|oo|||o|o|o|oooo|
|||oo|o||o||o|ooooooooo|o|o|||||oo|o||ooo|o||o|oo||||oo|o||o||o|ooo|||ooo
oooo|||ooooo||o||oo|ooo|||||o|oo|||o||o||ooo|ooo||oo||oo||o||o|oo|o|oo|||
oooooo||||oo|o||oo|||o|ooooo||ooo||||||oooo|||||oo||||ooo|||o|o|o|o||oooo
o|o|o|oo|o|oooo|o|ooo||oo|oo||||||||ooo|o||o||oo||o|||ooo|o||oo||oo||oo|o
oo||||oooooo|o||o|o|oooo||o|||oo|ooo|o|o|o|ooo||o|o|oo|o|||o|o|o|||o||o||
oo|oooo|oo|o|oo||||oo|||o||o|o||o||o|oooo|o||||o|o||o|ooooo||ooo||||||ooo
oo||o|oo||||oo|||||||||ooo|oo|||oo||oooo||o|o|o||||ooooooooo|oo|||oo|oo|o
o|o|||||o|o|||oo|oo|o|||o|o|||oo|oo||ooo|oo|oo||oooo||||o||||ooooooo||ooo
o|||||oo|o|||oo|ooooo|ooooo||o||oo||ooo||||oo|oooo||||oo|oooo||oo|o||||||
|oo|oo|||||oooooo||||ooo|||||ooo|oo|o|||oo|o|o|||o||ooo||ooo|o|oo|||o|ooo
ooooo|o|oo||o||||oo||oo|o|ooo||o|o|o|||ooo||||||o||oo|ooo||o|o||oo|o||ooo
|oo|ooooo||o||o|o|oo|oo|||ooo||||o|oo|oo|o||||o|oo|||o||o|||||ooooo|o|ooo
|o||ooooooo|||oo|ooo|ooo||||ooo||oo||ooo|||||||ooo|o|ooooo|||||o|o|o|||o|

**デフォルトの名無しさん** · 2018/12/16(日) 21:10:16.93

こんなスレあったんだ
Windowsのフォントって、どのフォントがどのコード体系とか字体を使っている。
などを纏めているところってある？？

**デフォルトの名無しさん** · 2018/12/16(日) 23:11:32.43

ちょっと考えれば分かるようなことをなぜ聞くんだろう。

**デフォルトの名無しさん** · 2018/12/17(月) 20:40:27.55

ちょっと考えれば解るなんてすごい人だな。
ちょっと書いてみ

**デフォルトの名無しさん** · 2018/12/17(月) 21:18:18.25

あげ

**デフォルトの名無しさん** · 2018/12/18(火) 03:08:10.44

nkf - Network Kanji Filter Fork
https://ja.osdn.net/projects/nkf/scm/git/nkf/
v2.1.5
2018-12-15 18:19:02

**デフォルトの名無しさん** · 2018/12/18(火) 11:22:36.98

>やはり頭悪いのはunicodeと符号化を混同してる

ここは同意

>2つ以上のｵｸﾃｯﾄを使う符号単位で
>BOM入れないﾔﾂは池沼だからな

これは嘘

**デフォルトの名無しさん** · 2018/12/19(水) 00:20:13.76

低学歴知恵遅れには
ｴﾝﾃﾞｨｱﾝの概念がないのが
よおく分かったわ

**デフォルトの名無しさん** · 2018/12/19(水) 00:28:37.33

CPUの内部形式とデータには何の関係もない
現にネットワークデータはCPUとは無関係の並びになってる

**デフォルトの名無しさん** · 2018/12/19(水) 00:54:40.89

やっぱあれ書いたの半角さんだったんだｗ

**デフォルトの名無しさん** · 2018/12/19(水) 00:57:03.62

うわあ。。。
ﾏｼﾞでいってんの

こういうﾏｼﾞもんの低学歴がこの板で
はば利かせてるのがよく分かるわ

ﾏｼﾞで頭悪いことを
ﾊｼﾞもなくなんの躊躇もなくいうからな

ﾌﾟﾛｸﾞﾗﾑで
いちいｴﾝﾃﾞｨｱﾝ変換してんのすら
しらないらしいわ

当然Unicodeのｴﾝｺｰﾄﾞ方法にも
ﾋﾞｯｸﾞｴﾃﾞｨｱﾝとﾘﾄﾙｴﾝﾃﾞｨｱﾝがある

**デフォルトの名無しさん** · 2018/12/19(水) 00:58:18.75

もうね低学歴すぎてﾔﾊﾞｲって
ちなみﾈｯﾄﾜｰｸでﾃﾞｰﾀを交換するときは
暗黙で基本はﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝになってる

常識だからなｺﾚ

**デフォルトの名無しさん** · 2018/12/19(水) 01:00:17.18

低学歴知恵遅れって
なんでものすごい頭悪いことを
自信満々にいうわけ？

**デフォルトの名無しさん** · 2018/12/19(水) 01:12:57.34

ちなみipｱﾄﾞﾚｽの並びはﾋﾞｯｸｴﾝﾃﾞｨｱﾝになってる
ﾎﾟｰﾄ番号も当然ﾋﾞｯｸｴﾝﾃﾞｨｱﾝになってる

ｿｹｯﾄ通信のﾌﾟﾛｸﾞﾗﾑ組んだことあるなら
ﾎﾟｰﾄ番号設定するのにhtons（ｺﾚはｵｸﾃｯﾄ2つになる）という関数を使ったことあるﾊｽﾞだ

ちなみにこの関数はﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機なら
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝに変換された値がかえってくる

ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの計算機なら
そのままﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの値がかえってくる

**デフォルトの名無しさん** · 2018/12/19(水) 01:39:07.45

半角カタカナはAAにしか見えない

**デフォルトの名無しさん** · 2018/12/19(水) 06:24:21.16

最近の子はバイトオーダーなんて意識しないからな
常識としては知っててほしいがけど
低レベルな処理書かなきゃ関係ないし触れることもないだろうから知らなくても困らんな
アラインメントとかパディングとかも同様

**デフォルトの名無しさん** · 2018/12/19(水) 12:49:47.13

エンディアン嘘つかない

**デフォルトの名無しさん** · 2018/12/19(水) 16:46:27.07

>>23
バイトオーダーを意識する機会が減ったのは、xmlやjsonなどテキスト形式でデータ受け渡しすることが多くなったから。
テキスト形式ならバイトオーダーを意識せずに済むし、スクリプト言語で扱うのにも便利。

**デフォルトの名無しさん** · 2018/12/19(水) 20:30:33.10

いやいや、テキストでもUTF16とかUTF32ならめっちゃ意識するやん。

◆QZaw55cn4c · 2018/12/19(水) 20:51:34.30

>>24
豆知識、endian とは？
もともとは、卵を丸い方の端 (big end) から割る人々（Big Endians）と尖った方の端から割る人々 (Little Endians) との対立を表したものだった

**デフォルトの名無しさん** · 2018/12/20(木) 01:35:41.75

そういえばハンプティダンプティの絵文字がない

**デフォルトの名無しさん** · 2018/12/20(木) 03:36:13.08

バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++で開発している時はコンパイラが自動的に配置・取得してくれるデータを、スクリプト言語では自力でオフセット調整して配置・取得しなければならない。
C/C++より簡単なことが長所だったはずのC#・Java・Perl・Python言語などで、低レベルなオフセット調節を自力で行う必要に迫られる皮肉な状況が起きる。

**デフォルトの名無しさん** · 2018/12/20(木) 04:20:27.30

> バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++言語以外ではライブラリが処理してしまうんで意識しないかな
C/C++ライブラリを呼び出すライブラリを作るときは意識するだろうけど、
それって結局C/C++言語で書くんで、あれ？意識するのはC/C++かｗ

**デフォルトの名無しさん** · 2018/12/20(木) 06:53:32.14

>>30
例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。

**デフォルトの名無しさん** · 2018/12/20(木) 07:18:15.99

× 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
○ 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、C/C++並みに低レベルなオフセット調節を自力で行う必要に迫られる。

◆QZaw55cn4c · 2018/12/20(木) 07:37:44.12

>>32
うーん、具体的な win32api 名（だけでいいです）を例示してください．

**デフォルトの名無しさん** · 2018/12/20(木) 07:43:09.20

>>31に聞いてください

**デフォルトの名無しさん** · 2018/12/20(木) 08:04:20.01

>>32
勝手に書き換えないでもらいたい。
C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが、他の言語だとそうはいかないので、アセンブリと同じようなオフセット調節が必要。
SendMessage(WM_COPYDATA)の送受信データの読み書きなど例はいくらでもある。

**デフォルトの名無しさん** · 2018/12/20(木) 10:08:25.12

>>35
>C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが

誰に騙された？

**デフォルトの名無しさん** · 2018/12/20(木) 13:46:21.36

実行メモリ上はともかく
ファイルやネットワークストリームでLEにするアホいるんか？

**デフォルトの名無しさん** · 2018/12/20(木) 16:58:53.93

エンディアンもさることながら32/64bit整数の幅調節が厄介。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。

**デフォルトの名無しさん** · 2018/12/20(木) 18:26:27.50

いや、だからさ、その程度までは理解できてるのに、何故「C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが」なんてことを言っちゃうの？
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。

**デフォルトの名無しさん** · 2018/12/20(木) 19:07:05.38

C/C++しらないけど、魔法のようにアライメントを
勝手に調整してくれるんじゃないの？想像しただけで

**デフォルトの名無しさん** · 2018/12/20(木) 21:19:19.38

Unicodeは普通にﾘﾄﾙｴﾝﾃﾞｨｱﾝもありだ

なんで Byte Order Mark(BOM) がﾌｧｲﾙの先頭に入ってるのか分かってない
Javaﾊﾞｲﾄｺｰﾄﾞのcafe babeみたいな飾りだと思ってんの

ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機ばっかりがあるとこで
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝでﾌｧｲﾙを保存する理由なんかないからな

当然、そういったｺﾝﾃﾝﾂﾃﾞｰﾀがHTTPでも流れてくる

**デフォルトの名無しさん** · 2018/12/20(木) 21:20:17.21

やっぱりこの板には
ｸﾙｸﾙﾊﾟｰしかいない

そしてそのｸﾙｸﾙﾊﾟｰの声だけがでかい

やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない

**デフォルトの名無しさん** · 2018/12/20(木) 21:26:52.62

アライメントはふつうコンパイラが適切に調整してくれるよね。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。

**デフォルトの名無しさん** · 2018/12/20(木) 21:31:46.95

32bitなら
ちゃんと32bitに詰まるように
ﾒﾝﾊﾞの順序かえる

**デフォルトの名無しさん** · 2018/12/20(木) 21:38:37.03

char unko
char foo
int aho
short poi
char baka
int manuke
short boo
char woo

↓

int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo

64bitでも考え方は同じ
強制ﾊﾟｯｷﾝｸﾞのｵﾌﾟｼｮﾝ使えるｺﾝﾊﾟｲﾗもある

**デフォルトの名無しさん** · 2018/12/20(木) 21:42:31.32

今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない

つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ

**デフォルトの名無しさん** · 2018/12/20(木) 21:44:56.46

ﾊﾞｶがよくやる誤りは
ﾒﾓﾘ境界をまたぐ位置で64bit値を参照したりして
ﾊﾞｽｴﾗｰを起こす

ｼﾘｱﾗｲｽﾞﾃﾞｰﾀを直に参照できると思ってるﾊﾞｶがあとをたたない
CISCの計算機しか使ったことないｻﾙ並の脳みそのﾔﾂがよくやる

**デフォルトの名無しさん** · 2018/12/20(木) 21:53:38.53

そんなﾌｧｲﾙ読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない

utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む

ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機で
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝのUnicode読む場合は
16bit単位なら16bit単位でｵｸﾃｯﾄ列の並びを逆転させる
32bit単位なら32bit単位でｵｸﾃｯﾄ列の並びを逆転させる

ﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機で
ﾘﾄﾙｴﾝﾃﾞｨｱﾝのﾌｧｲﾙ読み込むならｵｸﾃｯﾄ列の並びを逆転させる必要はない

ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝならその逆になる

低学歴知恵遅れはこういった基本的な理解がない

**デフォルトの名無しさん** · 2018/12/20(木) 21:59:01.65

>>45
C/C++の規格じゃ構造体のメンバは宣言された順にアドレスが増加するよう並べられることになっている。
仮に>>45のような最適化を行うことができる処理系が存在したとしても、一般的と言えるものではない。

**デフォルトの名無しさん** · 2018/12/20(木) 21:59:21.79

one little two little three little endians

**デフォルトの名無しさん** · 2018/12/20(木) 22:00:12.93

だからそう書いてる
手動で自分で並べ替える

**デフォルトの名無しさん** · 2018/12/20(木) 22:12:47.37

自分で並べ替えろって話か。それは勘違いした、すまん。

**デフォルトの名無しさん** · 2018/12/20(木) 22:23:36.55

結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話

**デフォルトの名無しさん** · 2018/12/20(木) 23:02:54.77

PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。

**デフォルトの名無しさん** · 2018/12/20(木) 23:23:21.93

いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ

**デフォルトの名無しさん** · 2018/12/20(木) 23:49:16.62

やはり低学歴知恵遅れには
C++はむり

ﾚｽみればよく分かる
ﾚｽから頭の悪さがにじみ出てる

低学歴のﾚｽはすぐにわかるわ
残念なことに

**デフォルトの名無しさん** · 2018/12/21(金) 12:36:36.76

データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。

**デフォルトの名無しさん** · 2018/12/21(金) 14:56:12.53

>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。

**デフォルトの名無しさん** · 2018/12/21(金) 16:01:10.01

で、なんだっけ？バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけｗ
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーｗ

**デフォルトの名無しさん** · 2018/12/21(金) 16:43:13.79

intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。

**デフォルトの名無しさん** · 2018/12/21(金) 17:01:59.77

一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった

**デフォルトの名無しさん** · 2018/12/21(金) 17:02:51.29

C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ

**デフォルトの名無しさん** · 2018/12/21(金) 17:23:19.85

>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。

**デフォルトの名無しさん** · 2018/12/21(金) 17:47:28.44

>>63
違いますね。memcpy相当ですから

**デフォルトの名無しさん** · 2018/12/21(金) 18:13:53.48

低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか

**デフォルトの名無しさん** · 2018/12/21(金) 21:50:05.59

>>65
色んなところにいるよ

**デフォルトの名無しさん** · 2018/12/21(金) 22:02:28.52

相変わらず日本語の読解に問題がありそうな奴がいるなぁ。

**デフォルトの名無しさん** · 2018/12/21(金) 23:50:03.63

まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな

**デフォルトの名無しさん** · 2018/12/22(土) 11:38:13.24

実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか？

**デフォルトの名無しさん** · 2018/12/22(土) 13:36:46.26

bool is_bigendian() {
　return htons(1) == 1;
}

**デフォルトの名無しさん** · 2018/12/31(月) 08:52:03.67

C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある？

**デフォルトの名無しさん** · 2018/12/31(月) 13:29:33.60

U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf

WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set

**デフォルトの名無しさん** · 2019/01/01(火) 01:45:48.02

なんてこった
エイプリルフールだって？

**デフォルトの名無しさん** · 2019/01/01(火) 23:58:04.80

あけましておめでとうございます
2019年は何が起きるかしらね

**デフォルトの名無しさん** · 2019/01/02(水) 00:20:17.09

エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな

**デフォルトの名無しさん** · 2019/01/02(水) 11:30:40.86

新元号『��』

**デフォルトの名無しさん** · 2019/01/02(水) 22:33:06.92

新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる

**デフォルトの名無しさん** · 2019/01/03(木) 00:28:36.38

元号は安晋に内定してるだろ

**デフォルトの名無しさん** · 2019/01/03(木) 09:15:51.35

MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。

**デフォルトの名無しさん** · 2019/01/03(木) 21:04:56.87

>>72
ありがとう。
なにか事情があったんだろうけど、なんだろうね……。

**デフォルトの名無しさん** · 2019/01/04(金) 13:59:50.88

あけおめ

>>79
大昔のことだけど、SJIS 文字列の末尾から検索するプログラム書いてた時は「SJIS、お前はマジで殺す」という気持ちで一杯でした。
もう二度とあんなことはやりたくない。

79 · 2019/01/04(金) 17:36:17.24

ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */

**デフォルトの名無しさん** · 2019/01/04(金) 18:54:02.55

Windows環境ならそこは _mbschr() でしょ。

**デフォルトの名無しさん** · 2019/01/04(金) 19:30:16.38

UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう

**デフォルトの名無しさん** · 2019/01/04(金) 21:30:36.38

複数コードポイントで1文字を表すのって上限って決まってないの？青天井？

**デフォルトの名無しさん** · 2019/01/04(金) 22:02:58.14

UTF-8なら、最大四バイトだけど、そういうことじゃなくて？

**デフォルトの名無しさん** · 2019/01/04(金) 22:11:30.43

>>86
先ずコードポイントの意味を理解してから質問した方が良い

**デフォルトの名無しさん** · 2019/01/04(金) 22:27:33.32

なんかごめん

**デフォルトの名無しさん** · 2019/01/04(金) 23:45:49.70

>>86
最大4バイトじゃないよ

漢字1文字が最大8バイト、Unicodeの「IVS」とは？
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/

Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理

もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&;type=html

**デフォルトの名無しさん** · 2019/01/04(金) 23:54:23.74

ZWJシーケンスというのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF

見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。

**デフォルトの名無しさん** · 2019/01/05(土) 00:00:08.40

https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね

**デフォルトの名無しさん** · 2019/01/05(土) 00:03:32.79

合成文字・絵文字とかが絡むともっと地獄になるけどな
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93

**デフォルトの名無しさん** · 2019/01/05(土) 00:03:39.55

ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/

**デフォルトの名無しさん** · 2019/01/05(土) 00:07:24.29

Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ？でもこれは11文字なんや
全く意味がわからないｗ

**デフォルトの名無しさん** · 2019/01/05(土) 00:11:16.35

見た目上の1文字は最大4バイト×11文字で44バイトなのかな？ｗ
11文字ってのは今現在存在する最大が11文字ってだけで青天井？
もうライブラリ使ってないと無理だね

◆QZaw55cn4c · 2019/01/05(土) 00:12:47.39

世の中にあるすべての文字をコード化してやる！
という意義には賛同していたんですけれども、（主に経済的理由により）絵文字が入った時点で失望してしまいました…

仕切りなおしたほうがいいんじゃないですか？

**デフォルトの名無しさん** · 2019/01/05(土) 00:38:07.30

仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。

**デフォルトの名無しさん** · 2019/01/05(土) 00:46:41.68

仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし

**デフォルトの名無しさん** · 2019/01/05(土) 01:28:42.81

絵文字は象形文字の発展版なんだから
文字扱いするのは当然

**デフォルトの名無しさん** · 2019/01/05(土) 12:51:39.06

現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ

**デフォルトの名無しさん** · 2019/01/05(土) 13:09:21.22

>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか

**デフォルトの名無しさん** · 2019/01/05(土) 15:08:59.93

世界が認めたニッポンのスゴーイ文化やぞ

**デフォルトの名無しさん** · 2019/01/05(土) 15:19:11.13

当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……

**デフォルトの名無しさん** · 2019/01/05(土) 16:29:31.32

1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。

◆QZaw55cn4c · 2019/01/05(土) 17:03:40.22

>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは？
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか？

**デフォルトの名無しさん** · 2019/01/05(土) 17:24:42.05

はい

**デフォルトの名無しさん** · 2019/01/05(土) 19:28:07.65

便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ

**デフォルトの名無しさん** · 2019/01/06(日) 10:52:08.85

田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754

**デフォルトの名無しさん** · 2019/01/09(水) 21:32:33.71

うんちにも色バリエーションつけたいなあ

**デフォルトの名無しさん** · 2019/01/10(木) 11:56:03.90

カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった

**デフォルトの名無しさん** · 2019/01/10(木) 14:02:26.62

形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ

**デフォルトの名無しさん** · 2019/01/10(木) 18:35:20.73

POO WITH TURBANとかもほしい

**デフォルトの名無しさん** · 2019/01/14(月) 01:16:50.95

U+FFFCとU+FFFDの違いってなんだろう。
一応https://www.unicode.org/charts/PDF/UFFF0.pdf←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな？

**デフォルトの名無しさん** · 2019/01/14(月) 11:40:16.54

Unicodeですらないのに「U+～」という表記はこれ如何にｗ

**デフォルトの名無しさん** · 2019/01/15(火) 16:00:55.99

Replacement Characters: U+FFFC–U+FFFD

U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.

U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.

**デフォルトの名無しさん** · 2019/01/15(火) 18:43:18.89

>>115
sorry Japanese only please

**デフォルトの名無しさん** · 2019/01/15(火) 20:15:36.54

>>116
なんで卑屈なの？

**デフォルトの名無しさん** · 2019/01/16(水) 11:07:49.88

朝鮮人クオリティ

**デフォルトの名無しさん** · 2019/01/17(木) 14:01:24.86

消えゆく「黒電話」マーク…時代とともに変化
https://www.sankei.com/premium/news/190117/prm1901170009-n1.html

**デフォルトの名無しさん** · 2019/01/17(木) 14:27:36.24

一方、保存ボタンには相変わらずフロッピー��

**デフォルトの名無しさん** · 2019/01/17(木) 21:08:16.21

今はこうですよ
https://www.appps.jp/wp-content/uploads/2017/01/20170131-tell-icon-news-008.jpg

**デフォルトの名無しさん** · 2019/01/17(木) 21:10:53.89

ダウンロードかな

**デフォルトの名無しさん** · 2019/01/18(金) 04:13:25.86

山

↑
の方が合ってると思うけど
現実は
↓

下載

**デフォルトの名無しさん** · 2019/01/18(金) 15:39:10.11

直訳かよ

**デフォルトの名無しさん** · 2019/01/19(土) 00:58:09.98

>>115
これ使われてるの？

**デフォルトの名無しさん** · 2019/01/19(土) 01:02:48.22

使われてるよ

**デフォルトの名無しさん** · 2019/01/20(日) 06:25:45.86

>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw

**デフォルトの名無しさん** · 2019/01/20(日) 19:36:07.54

FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。

**127** · 2019/01/21(月) 07:51:07.97

>>128
なるほど「オブジェクト」ってそういう意味か！
ありがとう。
つまり基本的に（Unicode環境で）「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
（Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし）

**デフォルトの名無しさん** · 2019/01/21(月) 10:29:40.20

そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。

◆QZaw55cn4c · 2019/01/22(火) 01:05:00.00

漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。

https://pc.watch.impress.co.jp/docs/column/config/1158344.html
＞文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
＞たとえばUnicodeならあらゆる言語の文字を混在させることができる。
＞Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、

これって本当ですか？

私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか？

**デフォルトの名無しさん** · 2019/01/22(火) 02:31:06.16

字体とか書体を文字としてどう考えるか、で答えが変わるだろ

◆QZaw55cn4c · 2019/01/22(火) 02:34:15.81

>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
①：同一文書に含ませることは可能でしょうか？②：①が可能であったとして、PC の画面にて同時に表示することは可能でしょうか？

**デフォルトの名無しさん** · 2019/01/22(火) 02:59:07.23

どっちも可能

**デフォルトの名無しさん** · 2019/01/22(火) 07:59:46.55

新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。

**デフォルトの名無しさん** · 2019/01/22(火) 13:07:54.27

>>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな

**デフォルトの名無しさん** · 2019/01/22(火) 14:56:00.21

>>131
Unicodeは全世界の文字に対応した文字コード
混在して使えるのは当たり前

**デフォルトの名無しさん** · 2019/01/22(火) 23:10:13.56

>>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう

>>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

**デフォルトの名無しさん** · 2019/01/23(水) 08:37:00.98

>131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。

**デフォルトの名無しさん** · 2019/01/23(水) 08:38:04.03

あちゃー。unicode文字が全部?になってしまった。

**デフォルトの名無しさん** · 2019/01/23(水) 12:18:22.13

>>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる

**デフォルトの名無しさん** · 2019/01/23(水) 20:08:35.75

>>141
文字がないのに文字コード化できるの？

**デフォルトの名無しさん** · 2019/01/23(水) 23:59:31.81

漂流する論点

**デフォルトの名無しさん** · 2019/01/24(木) 10:44:11.21

論点ずらしは朝鮮人のはじまり

**デフォルトの名無しさん** · 2019/01/24(木) 14:09:11.07

>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから

**デフォルトの名無しさん** · 2019/01/24(木) 14:37:04.33

Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。

**デフォルトの名無しさん** · 2019/01/24(木) 14:59:51.89

> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

じゃ、この発言で言いたかったことは何だって言うの？
「私（>>138）は馬鹿です。」以外に何も思いつかないんだが

**デフォルトの名無しさん** · 2019/01/24(木) 23:03:59.13

>>147
>じゃ、この発言で言いたかったことは何だって言うの？

（unicodeならすべての言語を混在できるという話しを受けて）
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理

だろ。他に何があるってんだ？

**デフォルトの名無しさん** · 2019/01/25(金) 11:58:11.28

横からすまんが元レスをたどると>>131「あらゆる言語の文字を混在させる」だぞ。
それを>>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。

**デフォルトの名無しさん** · 2019/01/25(金) 12:36:50.26

宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか

**デフォルトの名無しさん** · 2019/01/25(金) 14:50:56.20

>>148
縄文時代の日本語ってなに？
参考リンク教えて

**デフォルトの名無しさん** · 2019/01/25(金) 21:01:41.10

これ誰かがわざと論点動かして遊んでるだけだな…

**デフォルトの名無しさん** · 2019/01/25(金) 21:59:31.32

>>149
だから文字のない言語は無理だろ？
という話だけなのに、なんでひねくれてるの？

**デフォルトの名無しさん** · 2019/01/26(土) 15:18:19.02

>>152
朝鮮人メンタル

**デフォルトの名無しさん** · 2019/01/26(土) 17:43:06.71

なぜ文字コードスレで文字の無い言語の話をしようと思ったのか

**デフォルトの名無しさん** · 2019/01/27(日) 20:08:40.52

そこに文字がないから

**デフォルトの名無しさん** · 2019/01/28(月) 17:43:32.30

win32apiスレ荒すな！

**デフォルトの名無しさん** · 2019/01/29(火) 08:22:23.73

なんか旧かなキチガイと同じ臭いがする

**デフォルトの名無しさん** · 2019/02/01(金) 11:28:25.54

いきなりですが質問失礼します

とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です

素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした

スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです

文字ソートまとめ、上から下に向かって昇順になっています
https://docs.google.com/spreadsheets/d/1QbN1zHY8BLnUampdKYVIRzK34SrTdq2gkMBgct03Fu8/edit?usp=sharing

それではよろしくお願いします

**デフォルトの名無しさん** · 2019/02/01(金) 11:40:45.63

このサイトを参考に文字コード引っ張って来てみました
http://ash.jp/code/unitbl21.htm

区点 JIS SJIS EUC UTF-8 UTF-16 字

01 86 2176 8196 A1F6 EFBC8A FF0A ＊
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D ｝

ゲーム内では熙　燕　矢　紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな？と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした

実験として、符号化の一番値の大きい文字である「FF5D ｝」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。

**デフォルトの名無しさん** · 2019/02/01(金) 13:28:31.64

区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない

**デフォルトの名無しさん** · 2019/02/01(金) 14:36:54.05

StrCmpLogicalWとか知らなそう?

**デフォルトの名無しさん** · 2019/02/01(金) 18:36:04.25

回答ありがとうございます
本当に助かります

>>161
あーそういう感じですか・・・
ってことは自分で調査しないとだめそうですね
返答ありがとうございました

>>162
ほとんど初心者なので知りませんでした　こういう関数があるんですね
専門用語とかだけでも出してもらえて嬉しいです
何も知らないのでぐぐる事もできなかったので助かります

単語さえわかればあとはこちらで調べますので
他にも関連した情報がありましたら用語だけでも教えてもらえると嬉しいです

**デフォルトの名無しさん** · 2019/02/01(金) 19:29:42.41

Unicode(UTF-8, UTF-16)はコードポイント順とは別にソート順のデータが定義されてるんだけど
記号類がアルファベットの前に来るってのはそれっぽいような
http://www.unicode.org/Public/UCA/latest/allkeys.txt

でも〆の位置は明らかに違うなぁ

**デフォルトの名無しさん** · 2019/02/01(金) 22:48:31.77

>>161
ほんそれ

**デフォルトの名無しさん** · 2019/02/01(金) 23:10:01.58

例えば韓国製のゲームなら韓国語での文字コード順になってるかもな

データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという

http://variable.jp/2009/07/14/mysql-collation/
> MySQL5.0では，126種類でMySQL5.1では，127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合，文字コードによって，
> 並びが変化する。

127種類のうちUTF8系だけで21種類の順番が存在する

**デフォルトの名無しさん** · 2019/02/04(月) 15:09:00.52

中国製なら中文系かもな。「Big5」とか「CNS11643（EUC_TW）」とか、「GB2312（EUC_CN）」とか。

**デフォルトの名無しさん** · 2019/02/05(火) 19:23:22.90

日本製でもCO-59とかの可能性がある。

**デフォルトの名無しさん** · 2019/02/06(水) 14:24:15.52

230 New Emojis in Final List for 2019
https://blog.emojipedia.org/230-new-emojis-in-final-list-for-2019/

**デフォルトの名無しさん** · 2019/02/06(水) 15:28:47.74

絵文字ちゃうやん
ただの絵

**デフォルトの名無しさん** · 2019/02/06(水) 21:57:35.71

>>169
ブリックパックの右二つがなんだかわからない

**デフォルトの名無しさん** · 2019/02/07(木) 00:13:13.64

だんだんレゴみたいになってきたな

**デフォルトの名無しさん** · 2019/02/07(木) 18:52:35.59

>>171
南アの飲み物マテと牡蠣じゃねーの

**デフォルトの名無しさん** · 2019/02/08(金) 04:31:41.05

なんか真珠できてない？

**デフォルトの名無しさん** · 2019/02/08(金) 19:56:39.86

真珠を絵に入れるなら pearl oyster にしとけばいいのに

**デフォルトの名無しさん** · 2019/02/09(土) 15:36:03.22

>>110
SSIDって英数字だけじゃないの？

**デフォルトの名無しさん** · 2019/02/09(土) 16:49:37.43

>>176
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。

**デフォルトの名無しさん** · 2019/02/10(日) 00:42:00.71

内部UTF-8なの？

**デフォルトの名無しさん** · 2019/02/10(日) 00:57:47.38

内部では単なるヌル終端のバイト列として扱ってるだけなんだろう

**デフォルトの名無しさん** · 2019/02/10(日) 15:54:10.44

無理やり設定しても繋げられなくなる気がする

**デフォルトの名無しさん** · 2019/02/10(日) 19:57:18.23

💩
うんこ
🍭
あめ

**デフォルトの名無しさん** · 2019/02/10(日) 20:01:32.56

🍭
あめ
☔
雨

**デフォルトの名無しさん** · 2019/02/10(日) 22:34:53.92

>>180
見えているのに到達できない場所みたいだな

**デフォルトの名無しさん** · 2019/02/10(日) 23:37:08.37

ユニコードの文字の説明（#から右の部分）がのっているテキストファイルの置き場所って
どこかわかります。できれば、日本語だけでなく全文字が欲しい。

↓こんなやつがずらっと。
0x878D U+337E # SQUARE ERA NAME MEIZI [2000]

**デフォルトの名無しさん** · 2019/02/10(日) 23:45:31.96

https://unicode.org/Public/MAPPINGS/
ここは知っています。

**デフォルトの名無しさん** · 2019/02/11(月) 18:36:04.22

そこ知ってるならもう辿り着けたも同然なのに
一つ上がってみよう

**デフォルトの名無しさん** · 2019/02/12(火) 17:07:51.47

一昔前に、大塩平八郎のLANや応仁のLANというSSIDが話題になったことがあるよね。
俺は見たこと無くて何とも言えないのだけど、実際に接続できたのだろうか？

**デフォルトの名無しさん** · 2019/02/14(木) 19:27:45.79

文字化け先生はなんかあったのか

**デフォルトの名無しさん** · 2019/02/14(木) 21:24:21.21

境界判定するつもりが教会判定することになり異端審問にかけられた。

**デフォルトの名無しさん** · 2019/02/15(金) 10:47:46.35

Nobody expects the Spanish Inquisition!

◆QZaw55cn4c · 2019/02/15(金) 21:47:29.13

>>190
Nobody knows the trouble i've seen, nobody knows but Jesus!

**デフォルトの名無しさん** · 2019/02/23(土) 21:24:43.04

https://unicode.org/cldr/utility/character.jsp?a=1D00
↑ここにアクセスしても空白のページが表示されるだけなんだけど
みなさんもそう？

前までは確かに存在したページの筈……。

**デフォルトの名無しさん** · 2019/02/24(日) 11:44:00.18

確かに空白だな、と思ってソース見たらtofuが並んでた

**デフォルトの名無しさん** · 2019/02/24(日) 14:46:38.10

Service Temporarily Unavailable

**デフォルトの名無しさん** · 2019/02/24(日) 17:25:45.84

そうか…
あのページはすごい便利に使わしてもらってたのに、利用できないとは残念

**デフォルトの名無しさん** · 2019/02/25(月) 10:45:27.39

>>192 がトドメ刺したんか

**デフォルトの名無しさん** · 2019/02/25(月) 10:51:17.50

こっちか
http://cldr.unicode.org/

**デフォルトの名無しさん** · 2019/02/27(水) 18:11:26.22

>>197
そのページから個々の文字に関する情報って見れなくね？

**デフォルトの名無しさん** · 2019/03/06(水) 23:53:15.90

unicode 12.0 出てた

**デフォルトの名無しさん** · 2019/03/07(木) 07:31:58.41

>>199
unicode、すっかりグダグダたな。なんだよ絵文字って。