Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
2018/12/16(日) 23:11:32.43ID:/e3hQGaS
ちょっと考えれば分かるようなことをなぜ聞くんだろう。
2018/12/17(月) 20:40:27.55ID:kiEfSjeK
ちょっと考えれば解るなんてすごい人だな。
ちょっと書いてみ
ちょっと書いてみ
12デフォルトの名無しさん
2018/12/17(月) 21:18:18.25ID:lO+98ZHR あげ
13デフォルトの名無しさん
2018/12/18(火) 03:08:10.44ID:81OlOyOQ nkf - Network Kanji Filter Fork
https://ja.osdn.net/projects/nkf/scm/git/nkf/
v2.1.5
2018-12-15 18:19:02
https://ja.osdn.net/projects/nkf/scm/git/nkf/
v2.1.5
2018-12-15 18:19:02
14デフォルトの名無しさん
2018/12/18(火) 11:22:36.98ID:/M0/bFGF >やはり頭悪いのはunicodeと符号化を混同してる
ここは同意
>2つ以上のオクテットを使う符号単位で
>BOM入れないヤツは池沼だからな
これは嘘
ここは同意
>2つ以上のオクテットを使う符号単位で
>BOM入れないヤツは池沼だからな
これは嘘
15デフォルトの名無しさん
2018/12/19(水) 00:20:13.76ID:jOXn0Ht9 低学歴知恵遅れには
エンディアンの概念がないのが
よおく分かったわ
エンディアンの概念がないのが
よおく分かったわ
2018/12/19(水) 00:28:37.33ID:t+yG2AJO
CPUの内部形式とデータには何の関係もない
現にネットワークデータはCPUとは無関係の並びになってる
現にネットワークデータはCPUとは無関係の並びになってる
2018/12/19(水) 00:54:40.89ID:s0UhV0Jg
やっぱあれ書いたの半角さんだったんだw
18デフォルトの名無しさん
2018/12/19(水) 00:57:03.62ID:jOXn0Ht9 うわあ。。。
マジでいってんの
こういうマジもんの低学歴がこの板で
はば利かせてるのがよく分かるわ
マジで頭悪いことを
ハジもなくなんの躊躇もなくいうからな
プログラムで
いちいエンディアン変換してんのすら
しらないらしいわ
当然Unicodeのエンコード方法にも
ビッグエディアンとリトルエンディアンがある
マジでいってんの
こういうマジもんの低学歴がこの板で
はば利かせてるのがよく分かるわ
マジで頭悪いことを
ハジもなくなんの躊躇もなくいうからな
プログラムで
いちいエンディアン変換してんのすら
しらないらしいわ
当然Unicodeのエンコード方法にも
ビッグエディアンとリトルエンディアンがある
19デフォルトの名無しさん
2018/12/19(水) 00:58:18.75ID:jOXn0Ht9 もうね低学歴すぎてヤバイって
ちなみネットワークでデータを交換するときは
暗黙で基本はビッグエンディアンになってる
常識だからなコレ
ちなみネットワークでデータを交換するときは
暗黙で基本はビッグエンディアンになってる
常識だからなコレ
20デフォルトの名無しさん
2018/12/19(水) 01:00:17.18ID:jOXn0Ht9 低学歴知恵遅れって
なんでものすごい頭悪いことを
自信満々にいうわけ?
なんでものすごい頭悪いことを
自信満々にいうわけ?
21デフォルトの名無しさん
2018/12/19(水) 01:12:57.34ID:jOXn0Ht9 ちなみipアドレスの並びはビックエンディアンになってる
ポート番号も当然ビックエンディアンになってる
ソケット通信のプログラム組んだことあるなら
ポート番号設定するのにhtons(コレはオクテット2つになる)という関数を使ったことあるハズだ
ちなみにこの関数はリトルエンディアンの計算機なら
ビッグエンディアンに変換された値がかえってくる
ビッグエンディアンの計算機なら
そのままビッグエンディアンの値がかえってくる
ポート番号も当然ビックエンディアンになってる
ソケット通信のプログラム組んだことあるなら
ポート番号設定するのにhtons(コレはオクテット2つになる)という関数を使ったことあるハズだ
ちなみにこの関数はリトルエンディアンの計算機なら
ビッグエンディアンに変換された値がかえってくる
ビッグエンディアンの計算機なら
そのままビッグエンディアンの値がかえってくる
2018/12/19(水) 01:39:07.45ID:B2A2n/bL
半角カタカナはAAにしか見えない
2018/12/19(水) 06:24:21.16ID:wJcYDzdz
最近の子はバイトオーダーなんて意識しないからな
常識としては知っててほしいがけど
低レベルな処理書かなきゃ関係ないし触れることもないだろうから知らなくても困らんな
アラインメントとかパディングとかも同様
常識としては知っててほしいがけど
低レベルな処理書かなきゃ関係ないし触れることもないだろうから知らなくても困らんな
アラインメントとかパディングとかも同様
2018/12/19(水) 12:49:47.13ID:JIdS0sYR
エンディアン嘘つかない
25デフォルトの名無しさん
2018/12/19(水) 16:46:27.07ID:R6d6JT/9 >>23
バイトオーダーを意識する機会が減ったのは、xmlやjsonなどテキスト形式でデータ受け渡しすることが多くなったから。
テキスト形式ならバイトオーダーを意識せずに済むし、スクリプト言語で扱うのにも便利。
バイトオーダーを意識する機会が減ったのは、xmlやjsonなどテキスト形式でデータ受け渡しすることが多くなったから。
テキスト形式ならバイトオーダーを意識せずに済むし、スクリプト言語で扱うのにも便利。
2018/12/19(水) 20:30:33.10ID:gznchIbF
いやいや、テキストでもUTF16とかUTF32ならめっちゃ意識するやん。
>>24
豆知識、endian とは?
もともとは、卵を丸い方の端 (big end) から割る人々(Big Endians)と尖った方の端から割る人々 (Little Endians) との対立を表したものだった
豆知識、endian とは?
もともとは、卵を丸い方の端 (big end) から割る人々(Big Endians)と尖った方の端から割る人々 (Little Endians) との対立を表したものだった
2018/12/20(木) 01:35:41.75ID:jYg2YnYV
そういえばハンプティダンプティの絵文字がない
2018/12/20(木) 03:36:13.08ID:Epiz8Tj2
バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++で開発している時はコンパイラが自動的に配置・取得してくれるデータを、スクリプト言語では自力でオフセット調整して配置・取得しなければならない。
C/C++より簡単なことが長所だったはずのC#・Java・Perl・Python言語などで、低レベルなオフセット調節を自力で行う必要に迫られる皮肉な状況が起きる。
C/C++で開発している時はコンパイラが自動的に配置・取得してくれるデータを、スクリプト言語では自力でオフセット調整して配置・取得しなければならない。
C/C++より簡単なことが長所だったはずのC#・Java・Perl・Python言語などで、低レベルなオフセット調節を自力で行う必要に迫られる皮肉な状況が起きる。
2018/12/20(木) 04:20:27.30ID:ojhJ7lIE
> バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++言語以外ではライブラリが処理してしまうんで意識しないかな
C/C++ライブラリを呼び出すライブラリを作るときは意識するだろうけど、
それって結局C/C++言語で書くんで、あれ?意識するのはC/C++かw
C/C++言語以外ではライブラリが処理してしまうんで意識しないかな
C/C++ライブラリを呼び出すライブラリを作るときは意識するだろうけど、
それって結局C/C++言語で書くんで、あれ?意識するのはC/C++かw
2018/12/20(木) 06:53:32.14ID:Epiz8Tj2
>>30
例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
2018/12/20(木) 07:18:15.99ID:ojhJ7lIE
× 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
○ 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、C/C++並みに低レベルなオフセット調節を自力で行う必要に迫られる。
○ 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、C/C++並みに低レベルなオフセット調節を自力で行う必要に迫られる。
>>32
うーん、具体的な win32api 名(だけでいいです)を例示してください.
うーん、具体的な win32api 名(だけでいいです)を例示してください.
2018/12/20(木) 07:43:09.20ID:ojhJ7lIE
>>31に聞いてください
2018/12/20(木) 08:04:20.01ID:Epiz8Tj2
>>32
勝手に書き換えないでもらいたい。
C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが、他の言語だとそうはいかないので、アセンブリと同じようなオフセット調節が必要。
SendMessage(WM_COPYDATA)の送受信データの読み書きなど例はいくらでもある。
勝手に書き換えないでもらいたい。
C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが、他の言語だとそうはいかないので、アセンブリと同じようなオフセット調節が必要。
SendMessage(WM_COPYDATA)の送受信データの読み書きなど例はいくらでもある。
2018/12/20(木) 10:08:25.12ID:48mnxvPx
37デフォルトの名無しさん
2018/12/20(木) 13:46:21.36ID:P4Rv6f7s 実行メモリ上はともかく
ファイルやネットワークストリームでLEにするアホいるんか?
ファイルやネットワークストリームでLEにするアホいるんか?
38デフォルトの名無しさん
2018/12/20(木) 16:58:53.93ID:Epiz8Tj2 エンディアンもさることながら32/64bit整数の幅調節が厄介。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。
2018/12/20(木) 18:26:27.50ID:6OEKrw3R
いや、だからさ、その程度までは理解できてるのに、何故「C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが」なんてことを言っちゃうの?
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。
2018/12/20(木) 19:07:05.38ID:oZOw2Nhk
C/C++しらないけど、魔法のようにアライメントを
勝手に調整してくれるんじゃないの?想像しただけで
勝手に調整してくれるんじゃないの?想像しただけで
41デフォルトの名無しさん
2018/12/20(木) 21:19:19.38ID:/Up9dRku Unicodeは普通にリトルエンディアンもありだ
なんで Byte Order Mark(BOM) がファイルの先頭に入ってるのか分かってない
Javaバイトコードのcafe babeみたいな飾りだと思ってんの
リトルエンディアンの計算機ばっかりがあるとこで
ビッグエンディアンでファイルを保存する理由なんかないからな
当然、そういったコンテンツデータがHTTPでも流れてくる
なんで Byte Order Mark(BOM) がファイルの先頭に入ってるのか分かってない
Javaバイトコードのcafe babeみたいな飾りだと思ってんの
リトルエンディアンの計算機ばっかりがあるとこで
ビッグエンディアンでファイルを保存する理由なんかないからな
当然、そういったコンテンツデータがHTTPでも流れてくる
42デフォルトの名無しさん
2018/12/20(木) 21:20:17.21ID:/Up9dRku やっぱりこの板には
クルクルパーしかいない
そしてそのクルクルパーの声だけがでかい
やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない
クルクルパーしかいない
そしてそのクルクルパーの声だけがでかい
やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない
2018/12/20(木) 21:26:52.62ID:gpCj1726
アライメントはふつうコンパイラが適切に調整してくれるよね。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。
44デフォルトの名無しさん
2018/12/20(木) 21:31:46.95ID:/Up9dRku 32bitなら
ちゃんと32bitに詰まるように
メンバの順序かえる
ちゃんと32bitに詰まるように
メンバの順序かえる
45デフォルトの名無しさん
2018/12/20(木) 21:38:37.03ID:/Up9dRku char unko
char foo
int aho
short poi
char baka
int manuke
short boo
char woo
↓
int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo
64bitでも考え方は同じ
強制パッキングのオプション使えるコンパイラもある
char foo
int aho
short poi
char baka
int manuke
short boo
char woo
↓
int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo
64bitでも考え方は同じ
強制パッキングのオプション使えるコンパイラもある
2018/12/20(木) 21:42:31.32ID:oZOw2Nhk
今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ
47デフォルトの名無しさん
2018/12/20(木) 21:44:56.46ID:/Up9dRku バカがよくやる誤りは
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす
シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす
シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる
48デフォルトの名無しさん
2018/12/20(木) 21:53:38.53ID:/Up9dRku そんなファイル読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない
utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる
リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない
ビッグエンディアンならその逆になる
低学歴知恵遅れはこういった基本的な理解がない
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない
utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる
リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない
ビッグエンディアンならその逆になる
低学歴知恵遅れはこういった基本的な理解がない
2018/12/20(木) 21:59:01.65ID:gpCj1726
2018/12/20(木) 21:59:21.79ID:KozHiIkR
one little two little three little endians
51デフォルトの名無しさん
2018/12/20(木) 22:00:12.93ID:/Up9dRku だからそう書いてる
手動で自分で並べ替える
手動で自分で並べ替える
2018/12/20(木) 22:12:47.37ID:gpCj1726
自分で並べ替えろって話か。それは勘違いした、すまん。
2018/12/20(木) 22:23:36.55ID:tzmwAGAt
結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話
2018/12/20(木) 23:02:54.77ID:Epiz8Tj2
PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。
2018/12/20(木) 23:23:21.93ID:tzmwAGAt
いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ
そんな経験するのは無理だよ
56デフォルトの名無しさん
2018/12/20(木) 23:49:16.62ID:/Up9dRku やはり低学歴知恵遅れには
C++はむり
レスみればよく分かる
レスから頭の悪さがにじみ出てる
低学歴のレスはすぐにわかるわ
残念なことに
C++はむり
レスみればよく分かる
レスから頭の悪さがにじみ出てる
低学歴のレスはすぐにわかるわ
残念なことに
2018/12/21(金) 12:36:36.76ID:C7PBMVlX
データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。
2018/12/21(金) 14:56:12.53ID:wVAQd9sY
>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。
2018/12/21(金) 16:01:10.01ID:2iFVCAc3
で、なんだっけ?バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw
60デフォルトの名無しさん
2018/12/21(金) 16:43:13.79ID:wVAQd9sY intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。
2018/12/21(金) 17:01:59.77ID:2iFVCAc3
一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった
2018/12/21(金) 17:02:51.29ID:2iFVCAc3
C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ
2018/12/21(金) 17:23:19.85ID:wVAQd9sY
>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。
2018/12/21(金) 17:47:28.44ID:2iFVCAc3
>>63
違いますね。memcpy相当ですから
違いますね。memcpy相当ですから
2018/12/21(金) 18:13:53.48ID:ORTv1gtC
低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか
2018/12/21(金) 21:50:05.59ID:0muy2Btq
>>65
色んなところにいるよ
色んなところにいるよ
2018/12/21(金) 22:02:28.52ID:SVNbSsFy
相変わらず日本語の読解に問題がありそうな奴がいるなぁ。
68デフォルトの名無しさん
2018/12/21(金) 23:50:03.63ID:j37Ohb1y まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな
低学歴知恵遅れの自覚がないからな
69デフォルトの名無しさん
2018/12/22(土) 11:38:13.24ID:boWDflNh 実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか?
Cでサンプル欲しいのですがどこかにありますか?
2018/12/22(土) 13:36:46.26ID:aa5NQG9N
bool is_bigendian() {
return htons(1) == 1;
}
return htons(1) == 1;
}
2018/12/31(月) 08:52:03.67ID:Tj5kujd4
C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?
2018/12/31(月) 13:29:33.60ID:8Z6ezMyM
U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
というか削除されてる
http://www.ecma-international.org/publications/standards/Ecma-048.htm
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-048.pdf
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
https://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_set
2019/01/01(火) 01:45:48.02ID:kXQfWbAp
なんてこった
エイプリルフールだって?
エイプリルフールだって?
2019/01/01(火) 23:58:04.80ID:j16q/z48
あけましておめでとうございます
2019年は何が起きるかしらね
2019年は何が起きるかしらね
2019/01/02(水) 00:20:17.09ID:R6tFufwf
エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな
新元号『NEO平成』に決定みたいな
2019/01/02(水) 11:30:40.86ID:6YX6jwF2
新元号『』
2019/01/02(水) 22:33:06.92ID:Fz1uszjs
新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる
2019/01/03(木) 00:28:36.38ID:agNiXwq6
元号は安晋に内定してるだろ
2019/01/03(木) 09:15:51.35ID:IESB6EpY
MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。
2019/01/03(木) 21:04:56.87ID:ejflNGhp
2019/01/04(金) 13:59:50.88ID:8DNHKlb4
8279
2019/01/04(金) 17:36:17.24ID:opswFKCW ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */
2019/01/04(金) 18:54:02.55ID:3Gm4cMvD
Windows環境ならそこは _mbschr() でしょ。
2019/01/04(金) 19:30:16.38ID:EMYjNY+E
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう
2019/01/04(金) 21:30:36.38ID:atCGQoq2
複数コードポイントで1文字を表すのって上限って決まってないの?青天井?
2019/01/04(金) 22:02:58.14ID:rG/yv5Zr
UTF-8なら、最大四バイトだけど、そういうことじゃなくて?
2019/01/04(金) 22:11:30.43ID:FtJLKwOD
>>86
先ずコードポイントの意味を理解してから質問した方が良い
先ずコードポイントの意味を理解してから質問した方が良い
2019/01/04(金) 22:27:33.32ID:atCGQoq2
なんかごめん
2019/01/04(金) 23:45:49.70ID:EMYjNY+E
>>86
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
https://www.kthree.co.jp/kihelp/index.html?page=data/ivs&type=html
2019/01/04(金) 23:54:23.74ID:EMYjNY+E
ZWJシーケンス というのもあるね
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
https://qiita.com/nonanona/items/b148c212ba7c24942e93#%E7%B5%B5%E6%96%87%E5%AD%97%E7%94%A8%E3%81%AE%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BFemoji-variation-selector%E3%81%A8%E3%81%AF
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。
2019/01/05(土) 00:00:08.40ID:41KVD0qa
https://unicode.org/emoji/charts/emoji-zwj-sequences.html#1f441_fe0f_200d_1f5e8_fe0f
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね
2019/01/05(土) 00:03:32.79ID:fLBZxFEd
合成文字・絵文字とかが絡むともっと地獄になるけどな
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
http://tech.albert2005.co.jp/201/
https://qiita.com/nonanona/items/b148c212ba7c24942e93
2019/01/05(土) 00:03:39.55ID:41KVD0qa
ZWJを使うと最大11文字だって。
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
https://n2p.co.jp/blog/column/counting-characters-on-twitter/
2019/01/05(土) 00:07:24.29ID:41KVD0qa
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw
2019/01/05(土) 00:11:16.35ID:41KVD0qa
見た目上の1文字は最大4バイト×11文字で44バイトなのかな?w
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね
世の中にあるすべての文字をコード化してやる!
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?
2019/01/05(土) 00:38:07.30ID:198zQJKz
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。
2019/01/05(土) 00:46:41.68ID:fLBZxFEd
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし
2019/01/05(土) 01:28:42.81ID:41KVD0qa
絵文字は象形文字の発展版なんだから
文字扱いするのは当然
文字扱いするのは当然
100デフォルトの名無しさん
2019/01/05(土) 12:51:39.06ID:l3tIMYns 現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ
101デフォルトの名無しさん
2019/01/05(土) 13:09:21.22ID:Lsf8iZgV >>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか
世界には文盲がわんさか居るから結局象形文字が必要ってことか
102デフォルトの名無しさん
2019/01/05(土) 15:08:59.93ID:WAT5i9L3 世界が認めたニッポンのスゴーイ文化やぞ
103デフォルトの名無しさん
2019/01/05(土) 15:19:11.13ID:dE0KuiGH 当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
そんなもんをコード化したら破綻するに決まってるんだよなぁ……
104デフォルトの名無しさん
2019/01/05(土) 16:29:31.32ID:XzO5Y/Fl 1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?
106デフォルトの名無しさん
2019/01/05(土) 17:24:42.05ID:41KVD0qa はい
107デフォルトの名無しさん
2019/01/05(土) 19:28:07.65ID:2yRzjNJO 便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ
108デフォルトの名無しさん
2019/01/06(日) 10:52:08.85ID:6OQPByjN 田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
https://togetter.com/li/1305754
https://togetter.com/li/1305754
109デフォルトの名無しさん
2019/01/09(水) 21:32:33.71ID:Duz5lH4D うんちにも色バリエーションつけたいなあ
110デフォルトの名無しさん
2019/01/10(木) 11:56:03.90ID:+qf2Eno1 カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった
うっかりつなぎそうになった
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 日本語が話せない「外国籍」の子が急増中、授業がストップ、教室から脱走も…先生にも大きな負担「日本語支援」追いつかず★2 [七波羅探題★]
- アメリカ、入国時に「日本人を含む外国人観光客の最大5年分のSNS履歴の提出」義務化 過去10年間に使用のメールアドレスや電話番号等も [Hitzeschleier★]
- 「もうキモくてキモくて…」29歳女性が語る“おぢアタック”の実態。「俺ならイケるかも」年下女性を狙う勘違い中年男性に共通点が★3 [Hitzeschleier★]
- 【速報】年収の壁の自民案判明、26年は168万円 [蚤の市★]
- 「ワールドトリガー」原作1話から完全新作アニメ化、よりパワーアップした1stシーズンとして [爆笑ゴリラ★]
- 自ら「パンセクシュアル」だと明かし、東由貴・東京都議(立憲民主)が「パートナーシップ」施策の充実求める:東京新聞 [少考さん★]
- 【高市悲報】維新、複数人が国保逃れの脱法行為にバチーン!と関与か😰せやかて外国人ガー! [359965264]
- 【速報】統一教会から100万円の現金を受け取った疑いで現職大臣が辞職へ [709039863]
- 「ミニトマトがボウルに入ってるから使ったら残りはラップして輪ゴムしといてー」👉アスペ系旦那、とんでもない行動に出てしまう [242521385]
- お昼のまったり🍵😶‍🌫🤏すこすこハウス🏡
- 自閉症児の父親「中絶しておけば良かった。 家族が欲しかったのに、手に入れたのは人間たまごっち」 [777114754]
- ネトウヨ「真実なんてどうでもいい。俺にとってはホルホル動画の内容が現実だから」ネトウヨの脳内世界がこちら [165981677]
