プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp5702デフォルトの名無しさん
2018/08/16(木) 08:31:16.13ID:FM/GQ3/9 Windows標準のXmlLiteというXMLパーサーは、入力ファイルがどんな文字エンコードだろうと、
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。
703デフォルトの名無しさん
2018/08/16(木) 10:25:22.61ID:Lp1O0T8c >>701
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張
>>702
Windowsは内部ネイティブ文字コードがUnicode(UTF-16)だから
別にそれでいいのでは?
それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。
まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張
>>702
Windowsは内部ネイティブ文字コードがUnicode(UTF-16)だから
別にそれでいいのでは?
それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。
まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね
704デフォルトの名無しさん
2018/08/16(木) 10:57:13.81ID:dYP+//4M Win10 1809のコンソールはUTF-8対応
Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/
Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/
705デフォルトの名無しさん
2018/08/16(木) 11:03:08.50ID:wiNukf+g アホが頑張るとろくなことにならない
706デフォルトの名無しさん
2018/08/16(木) 20:21:21.81ID:HgLxU9xg wchar_t のこと何もわかっていないのに適当なこと言ってるな。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。
707デフォルトの名無しさん
2018/08/16(木) 21:42:21.17ID:rfZ8gqJr それで何が言いたいの?
708デフォルトの名無しさん
2018/08/16(木) 21:43:39.72ID:rfZ8gqJr 常識だし当たり前のことだから、
言ってることに間違いはないってことかな?
言ってることに間違いはないってことかな?
709デフォルトの名無しさん
2018/08/16(木) 21:50:57.04ID:VSd23G4R オレですら電子メールでは半角カナは使わないからな
710デフォルトの名無しさん
2018/08/16(木) 22:12:07.10ID:RvAH1val 今時のまともなMUAでいわゆる半角カナに対応できないものってあるかな?
fj全盛の20年前ならいざ知らず。
fj全盛の20年前ならいざ知らず。
711デフォルトの名無しさん
2018/08/16(木) 22:16:46.79ID:VSd23G4R C/C++
The C and C++ standard libraries include a number of facilities for dealing with
wide characters and strings composed of them. The wide characters are defined using
datatype wchar_t, which in the original C90 standard was defined as
"an integral type whose range of values can represent distinct codes for all
members of the largest extended character set specified among the supported
locales" (ISO 9899:1990 §4.1.5)
Both C and C++ introduced fixed-size character types char16_t and char32_t in the
2011 revisions of their respective standards to provide unambiguous representation
of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
programs that need to be portable across any C or C++ compiler should not use
wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
wide characters, which may be Unicode characters in some compilers."
カンペキな引用
やはりオレのレスはカンペキ
The C and C++ standard libraries include a number of facilities for dealing with
wide characters and strings composed of them. The wide characters are defined using
datatype wchar_t, which in the original C90 standard was defined as
"an integral type whose range of values can represent distinct codes for all
members of the largest extended character set specified among the supported
locales" (ISO 9899:1990 §4.1.5)
Both C and C++ introduced fixed-size character types char16_t and char32_t in the
2011 revisions of their respective standards to provide unambiguous representation
of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
programs that need to be portable across any C or C++ compiler should not use
wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
wide characters, which may be Unicode characters in some compilers."
カンペキな引用
やはりオレのレスはカンペキ
712デフォルトの名無しさん
2018/08/16(木) 22:23:45.92ID:VSd23G4R 会社のメールは勝手にメールに含まれる半角を全角にかえやがる
※ 必要で半角をいれてるからな
半角でフォルダ名つけるバカがいるせいで
その半角を含むパスに格納されてる資料のおいてあるパスを送ると
メール送ったあと一時期必ず文句がきてたからな
その資料にアクセスできないと
そんな場所ないと
うんざりしたから
この部分が半角ですと書いてやっても
アクセスできないと返信が来る
何度か半角でフォルダ名つけたバカを探しだして
しばいたろかと思ったわ
※ 必要で半角をいれてるからな
半角でフォルダ名つけるバカがいるせいで
その半角を含むパスに格納されてる資料のおいてあるパスを送ると
メール送ったあと一時期必ず文句がきてたからな
その資料にアクセスできないと
そんな場所ないと
うんざりしたから
この部分が半角ですと書いてやっても
アクセスできないと返信が来る
何度か半角でフォルダ名つけたバカを探しだして
しばいたろかと思ったわ
713デフォルトの名無しさん
2018/08/16(木) 22:33:35.19ID:jJkSajo2 しばくんじゃなくてフォルダ名を変更すれば済むじゃん
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねw
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねw
714デフォルトの名無しさん
2018/08/16(木) 22:38:11.04ID:VSd23G4R フォルダ名は一回変更したわ
すると突然
半角以下にあるリンクがすべてアクセスできなくって
みなが大騒ぎになったわ
そんなことやったのはだれだと
幸いオレがやったとバレずに済んだが
すると突然
半角以下にあるリンクがすべてアクセスできなくって
みなが大騒ぎになったわ
そんなことやったのはだれだと
幸いオレがやったとバレずに済んだが
715デフォルトの名無しさん
2018/08/17(金) 00:58:59.23ID:6wrElEJt 掲示板に半角カナで書くバカもいる
716デフォルトの名無しさん
2018/08/17(金) 01:01:58.63ID:6wrElEJt メールで送らなければいい
会社のメールを変えればいい
会社を変えればいい
半角君の発想だとこんな感じ
会社のメールを変えればいい
会社を変えればいい
半角君の発想だとこんな感じ
717デフォルトの名無しさん
2018/08/17(金) 02:37:02.49ID:adBXNxGj 掲示板に半角カナ使うなとか原始人かよw
718デフォルトの名無しさん
2018/08/17(金) 05:01:13.36ID:xjFqJl5K >>706
今北産業
今北産業
719デフォルトの名無しさん
2018/08/17(金) 05:32:43.08ID:DWhhxT1h >>718
そいつは勘違いしてるよ。
Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな
最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ
そいつは勘違いしてるよ。
Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな
最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ
720デフォルトの名無しさん
2018/08/17(金) 06:41:03.91ID:xjFqJl5K721デフォルトの名無しさん
2018/08/17(金) 07:06:48.04ID:p3S4iKgX 外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい
charで全て賄える文字文化圏が羨ましい
722デフォルトの名無しさん
2018/08/17(金) 14:32:22.25ID:qwkl5VTB >外国人は鼻ほじりながら「おまいら大変だなー」と同情してる
その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな
その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな
723デフォルトの名無しさん
2018/08/17(金) 17:39:37.76ID:6wrElEJt >>717
フォルダ名に半角カナ使うなとか原始人かよw
フォルダ名に半角カナ使うなとか原始人かよw
724デフォルトの名無しさん
2018/08/17(金) 17:52:36.10ID:KRgOhrj9 >>723
??
??
725デフォルトの名無しさん
2018/08/17(金) 17:57:13.67ID:RTbKyx/W バカ「半角カナを使うと文字化けするんだぞ!使うの禁止!」
それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。
バカ「む、難しい言葉でごまかすな!」
それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。
バカ「む、難しい言葉でごまかすな!」
726デフォルトの名無しさん
2018/08/17(金) 18:37:13.62ID:UXylYx1j わざわざ使うようなものでもないけどな
727デフォルトの名無しさん
2018/08/17(金) 20:09:50.97ID:yTcXDgUV やっぱりバカどもは
なんにもわかってないわ。。。
電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる
昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf−8とかshift−jisとかな、メールでは意味不明なバイナリーなわけ
分かる?
そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然
Content−Transfer−Encoding: 7bit ← コレは絶対だからな
utf−8やshift−jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf−7という選択肢もある
なんにもわかってないわ。。。
電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる
昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf−8とかshift−jisとかな、メールでは意味不明なバイナリーなわけ
分かる?
そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然
Content−Transfer−Encoding: 7bit ← コレは絶対だからな
utf−8やshift−jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf−7という選択肢もある
728デフォルトの名無しさん
2018/08/17(金) 20:12:42.50ID:yTcXDgUV729デフォルトの名無しさん
2018/08/17(金) 20:12:47.89ID:xjFqJl5K 今北産業
730デフォルトの名無しさん
2018/08/17(金) 20:14:07.81ID:yTcXDgUV 日本のすべてのシステムではずっとな
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない
※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない
保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる
わかった?
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない
※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない
保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる
わかった?
731デフォルトの名無しさん
2018/08/17(金) 20:17:14.05ID:yTcXDgUV 結論をいえば
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない
表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない
表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな
732デフォルトの名無しさん
2018/08/17(金) 20:18:53.90ID:yTcXDgUV ホントなこの板は低学歴底辺知恵遅れのゴミクズしかいないのがよく分かるわ
> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
> ASCII が 7bit というのは常識レベルの知識。
ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。
> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
> ASCII が 7bit というのは常識レベルの知識。
ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。
733デフォルトの名無しさん
2018/08/17(金) 20:29:28.96ID:RgiGOjCt >Content−Transfer−Encoding: 7bit ← コレは絶対だからな
前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。
前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。
734デフォルトの名無しさん
2018/08/17(金) 20:32:13.67ID:yTcXDgUV MIME-Version: 1.0
MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない
MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない
735デフォルトの名無しさん
2018/08/17(金) 20:34:01.29ID:yTcXDgUV 低学歴底辺知恵遅れの世界にプロトコルなんかないからな
低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない
低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない
736デフォルトの名無しさん
2018/08/17(金) 20:37:37.32ID:yTcXDgUV 低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能
プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない
まともな人間の間では
そもそも意思疎通は不可能
プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない
737デフォルトの名無しさん
2018/08/17(金) 22:48:02.68ID:dUYwrsCb 氏名における「」や「𠮷」や「乭」 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/623209/
読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ
https://srad.jp/~yasuoka/journal/623209/
読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ
738デフォルトの名無しさん
2018/08/18(土) 12:04:57.41ID:TgZCKLMK UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない
大量レスでスレ流ししてるようにしか見えない
739デフォルトの名無しさん
2018/08/18(土) 12:25:36.64ID:XOnooV72 ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ
連投してID赤くしてたら誰もレス読まないぞ
740デフォルトの名無しさん
2018/08/18(土) 12:27:24.39ID:/9y7PjMS741デフォルトの名無しさん
2018/08/18(土) 12:33:47.22ID:KC80I9ck unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。
unicode が普及するすっと前から wchar_t は普通に使われてる。
742デフォルトの名無しさん
2018/08/18(土) 14:13:23.54ID:5gN61dbI そりゃ使われてるかどうかで言えば使われてるだろうけど。
そんなことよりも技術的な所気にならない?
問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか?
問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか?
答えわかる?意外すぎてびっくりするよ。
そんなことよりも技術的な所気にならない?
問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか?
問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか?
答えわかる?意外すぎてびっくりするよ。
743デフォルトの名無しさん
2018/08/18(土) 14:15:44.35ID:5BnyFmRJ 16bitのwchar_tや32bitのwchar_tの使い方(エンコーディング)によるとしか
744デフォルトの名無しさん
2018/08/18(土) 14:18:12.19ID:5gN61dbI >>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
745デフォルトの名無しさん
2018/08/18(土) 14:33:57.87ID:KC80I9ck >>744
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
746デフォルトの名無しさん
2018/08/18(土) 14:42:51.01ID:5gN61dbI > 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?
747デフォルトの名無しさん
2018/08/18(土) 14:48:48.76ID:/4eOy7p1 wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。
存在していたとは知らなかったな。
748デフォルトの名無しさん
2018/08/18(土) 14:55:58.85ID:KC80I9ck >>746
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。
749デフォルトの名無しさん
2018/08/18(土) 15:23:20.80ID:bNUWoVQ1 やけに wchar_t にこだわる(かみつく)奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに
内部がどういうエンコーディングかはプログラマは意識する必要ないのに
750デフォルトの名無しさん
2018/08/18(土) 15:32:18.21ID:KC80I9ck >>747
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。
751デフォルトの名無しさん
2018/08/18(土) 16:04:03.91ID:M4v7ary7 低学歴低知能のククソニートどもや底辺ドカタどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる
サマータイムスレでも同じだからな
コイツラ
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる
サマータイムスレでも同じだからな
コイツラ
752デフォルトの名無しさん
2018/08/18(土) 19:02:32.17ID:IyhzoKxX753デフォルトの名無しさん
2018/08/21(火) 10:01:44.15ID:O500W7m7 RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
https://tools.ietf.org/html/rfc8369
https://tools.ietf.org/html/rfc8369
754デフォルトの名無しさん
2018/08/21(火) 14:20:52.24ID:avvvfppX あれだろうなと確認したらやはりあれだった
755デフォルトの名無しさん
2018/08/21(火) 14:31:10.12ID:Y1HyydAv ああ、アレだな
756デフォルトの名無しさん
2018/08/21(火) 15:54:58.52ID:R5Y2p11o あれだよねあれ。あれ安くて美味しいよね
757デフォルトの名無しさん
2018/08/21(火) 15:56:11.80ID:dhW5/kUC え?ハトが?
758デフォルトの名無しさん
2018/08/24(金) 18:18:47.09ID:mVdVBkdF すいません 文字コードについて教えてほしいことがあります マジものの初心者なんですがどうかおねがいします
Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&End=65536
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。
Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&End=65536
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。
759デフォルトの名無しさん
2018/08/24(金) 18:42:02.68ID:NFTQhSIK 65536-256
760デフォルトの名無しさん
2018/08/24(金) 18:46:30.51ID:qhlQ/zrJ >>758
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。
Code Charts
http://unicode.org/charts/
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。
Code Charts
http://unicode.org/charts/
761デフォルトの名無しさん
2018/08/24(金) 19:19:57.24ID:wXpFbMeR >>758
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2
Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2
Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる
762デフォルトの名無しさん
2018/08/24(金) 19:24:24.02ID:wXpFbMeR Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
763デフォルトの名無しさん
2018/08/24(金) 20:11:02.68ID:mVdVBkdF >>761
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。
ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。
ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。
764デフォルトの名無しさん
2018/08/25(土) 06:50:31.16ID:gxBSyOuw HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索!
HTMLの文字コードは、UTF-8
<font face="候補1,候補2,候補3">フォントを変更します</font>
<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>
それとも、マインクラフトはHTMLじゃないのか?
「html フォント指定」で検索!
HTMLの文字コードは、UTF-8
<font face="候補1,候補2,候補3">フォントを変更します</font>
<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>
それとも、マインクラフトはHTMLじゃないのか?
765デフォルトの名無しさん
2018/08/25(土) 07:11:24.89ID:5ar3I1wr >>762
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?
766デフォルトの名無しさん
2018/08/25(土) 09:10:13.50ID:2/0/KxdV >>764
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。
767デフォルトの名無しさん
2018/09/07(金) 14:01:42.05ID:NnTKHa0h ♥
768デフォルトの名無しさん
2018/09/10(月) 17:53:51.80ID:wWJP5KoS Unicodeの公式サイト(http://unicode.org/)で,Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。
769デフォルトの名無しさん
2018/09/10(月) 19:07:05.53ID:Xr++yj7Q >>768
ちゃんとメニューを見よう。
サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。
ちゃんとメニューを見よう。
サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。
770デフォルトの名無しさん
2018/09/11(火) 03:10:58.81ID:zLtJmO+E771デフォルトの名無しさん
2018/09/12(水) 15:59:00.59ID:DAmcAY4y Unicodeって,なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
772デフォルトの名無しさん
2018/09/12(水) 16:00:08.88ID:3JFFS4nO The Unicode Blog: New Japanese Era
http://blog.unicode.org/2018/09/new-japanese-era.html
Unicodeの方でも記事になってたのか。
http://blog.unicode.org/2018/09/new-japanese-era.html
Unicodeの方でも記事になってたのか。
773デフォルトの名無しさん
2018/09/12(水) 16:39:35.87ID:1j3hWxX7774デフォルトの名無しさん
2018/09/12(水) 17:33:44.29ID:lrlSblfi775デフォルトの名無しさん
2018/09/12(水) 22:23:14.60ID:DAmcAY4y >>774
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな
776デフォルトの名無しさん
2018/09/12(水) 22:25:38.00ID:yfKtIfo2 で、バカは5マンの漢字全部読めるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?
777デフォルトの名無しさん
2018/09/12(水) 22:30:26.22ID:yfKtIfo2 卜部の卜
トナカイの卜
見た目でも違いなんかまったくわからない
トナカイの卜
見た目でも違いなんかまったくわからない
778デフォルトの名無しさん
2018/09/13(木) 02:31:52.28ID:cMp+qWRQ でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな
サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ
作り変えることができるなら、
65535文字に抑えるだろうな
サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ
779デフォルトの名無しさん
2018/09/13(木) 08:51:11.89ID:wI3BpnoI 君が代によれば、天皇の世は八千代続くので、
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。
780デフォルトの名無しさん
2018/09/13(木) 09:03:45.21ID:1sKEH3Wo781デフォルトの名無しさん
2018/09/13(木) 09:54:19.07ID:l9KSlvFS >>774
宇宙人と交信する予定は無かったのか
宇宙人と交信する予定は無かったのか
782デフォルトの名無しさん
2018/09/13(木) 09:56:12.02ID:l9KSlvFS >電気の流れもマイナスからプラスへだ
これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
783デフォルトの名無しさん
2018/09/13(木) 16:01:34.38ID:Mtznb6SP >>782
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない
784デフォルトの名無しさん
2018/09/13(木) 17:09:43.69ID:1sKEH3Wo 数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。
EBCDICとかは英語が連続してないことで有名だけど。
785デフォルトの名無しさん
2018/09/13(木) 19:23:35.05ID:U1nKZv8x C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは
786デフォルトの名無しさん
2018/09/13(木) 19:34:24.00ID:l9KSlvFS どうせ文字集合じゃねーって言われるけど
漢数字
漢数字
787デフォルトの名無しさん
2018/09/13(木) 19:47:56.84ID:QXoXnqLA 0〜9は世界共通文字
どの国でも同じ文字が使える
どの国でも同じ文字が使える
788デフォルトの名無しさん
2018/09/13(木) 20:25:28.42ID:U1nKZv8x 世界共通になる前に6と9のどちらかを変更しておいて欲しかった
789デフォルトの名無しさん
2018/09/13(木) 21:10:29.13ID:1sKEH3Wo790デフォルトの名無しさん
2018/09/13(木) 21:35:44.08ID:1sKEH3Wo 漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい
791デフォルトの名無しさん
2018/09/14(金) 06:35:40.18ID:gu26jl1+792デフォルトの名無しさん
2018/09/14(金) 07:22:37.60ID:jXQgdfuV793デフォルトの名無しさん
2018/09/14(金) 12:40:21.98ID:5xDSXwp0 >>788
RとЯ
RとЯ
794デフォルトの名無しさん
2018/09/14(金) 15:58:06.01ID:V0YFlSa+ 1960年代1970年代では、
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために
Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。
「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。
なにぶん、古い話なので、間違っているかもしれないが
一応参考までに
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために
Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。
「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。
なにぶん、古い話なので、間違っているかもしれないが
一応参考までに
795デフォルトの名無しさん
2018/09/14(金) 16:10:40.01ID:cGEdpT46 斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。
VS使ってU+0030 U+FE00で表せるように
なってたんだな。
796デフォルトの名無しさん
2018/09/14(金) 16:32:11.43ID:jXQgdfuV797デフォルトの名無しさん
2018/09/14(金) 18:22:58.68ID:q3l06dS7 まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな
798デフォルトの名無しさん
2018/09/14(金) 19:03:02.27ID:YqXme0/t799デフォルトの名無しさん
2018/09/14(金) 19:03:15.35ID:TqoCD1dQ Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人
800デフォルトの名無しさん
2018/09/14(金) 21:49:17.28ID:J5fDz/kR 斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。
もうアホかと。
801デフォルトの名無しさん
2018/09/14(金) 22:09:46.77ID:zZtMiOUI あーあもうめちゃくちゃだよ…
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国国営メディア「沖縄は日本ではない」… [BFU★]
- 【こんなの初めて…】民泊には既にキャンセルも 中国の渡航自粛で [ぐれ★]
- 高市政権にパイプ役不在…日中高まる緊張 公明党の連立離脱影響、自民内にも懸念「自分でまいた種は自分で刈り取ってもらわないと」 [ぐれ★]
- 「稼ぐのよ!」高市総理が電話ガチャ切りで伝えたこと 鈴木憲和農林水産大臣が国政報告会に出席 自身が目指す農政の方針語る [煮卵★]
- 「どうしようもない」 ため息つくアジアの玄関口 中国の訪日自粛で−福岡市 [蚤の市★]
- 俳優 高岡蒼佑「エジプト出身とかナイジェリア出身とかの人が、日本の代表顔して移民の事とか話してるの見るとなんか違う気がする」★2 [Anonymous★]
- 【高市悲報】アメリカ戦争省「あのさ、何回シミュレートしてもわーくに中国に負けちゃうんだよね🤗」 [359965264]
- 自民「高市の一言でこれまで積み上げてきた関係が駄目になる。言葉の重みを分かっていない。自分でまいた種は自分で刈り取ってもらう」 [256556981]
- 中国発日本行の航空券、491,000件(全体の32%)がキャンセルされたと判明。高市どうすんのこれ [603416639]
- 中国国営放送「日本は琉球をただちに中国に返還せよ」 キタ━━━━(゚∀゚)━━━━!!!!! [314039747]
- 【高市速報】小野田経済安保相「中国依存はリスクなおおおおおおおおおおお」 [127986362]
- 識者「『フリーパレスチナ』とかイキってる連中が台湾の話になると『中国を怒らせるな!』ってなる。ほんと左翼の正義って薄っぺらい」 [279254606]
