文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/08/11(土) 13:16:33.61

>>644
去年だぞ

**デフォルトの名無しさん** · 2018/08/11(土) 15:11:54.76

546<<
ケォヴわいくにみ読

**デフォルトの名無しさん** · 2018/08/11(土) 15:47:35.74

中東の言語は確か右からだったよな
やろうと思えば簡単そう

**デフォルトの名無しさん** · 2018/08/11(土) 15:56:48.16

TeXって右から書くのにも対応してるっけ

**デフォルトの名無しさん** · 2018/08/11(土) 18:33:53.99

sjisの～とcp932の～の違いって何？
～を入力して検索すると、sjisのほうはヒットしないんよね

**デフォルトの名無しさん** · 2018/08/11(土) 19:10:44.45

>>650
「入力して検索する」
どうやって入力して何を検索するのか他人に分かるように書いたらどうか
入力側がUNICODEで変換不能とかじゃない

**デフォルトの名無しさん** · 2018/08/12(日) 00:02:17.72

＞649

ArabTeX　を使えば出来ます

**デフォルトの名無しさん** · 2018/08/12(日) 14:13:27.50

Draft Emoji Candidates
http://unicode.org/emoji/future/emoji-candidates.html

**デフォルトの名無しさん** · 2018/08/12(日) 14:20:12.48

絵文字がんがん増えてるけど、ぱっと見で見分けが付かない微妙なの多いよなぁ

**デフォルトの名無しさん** · 2018/08/12(日) 14:26:24.04

馬鹿は同じ過ちを繰り返す

**デフォルトの名無しさん** · 2018/08/12(日) 14:35:29.88

そのうち洗練されて象形文字になって、やがて漢字に…あれ?

**デフォルトの名無しさん** · 2018/08/13(月) 14:33:07.24

この際1byteを32bitか64bitにしたらどうよ
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる

**デフォルトの名無しさん** · 2018/08/13(月) 14:58:06.25

そうなんか？
16新数で2桁でちょうどいいからだと思ってた

**デフォルトの名無しさん** · 2018/08/13(月) 14:59:26.97

あと 8bit を 1byte というけど
4bit のことをなんていうの？

**デフォルトの名無しさん** · 2018/08/13(月) 15:02:02.90

>>657
8bitや16bitのCPUはどうすんの？

**デフォルトの名無しさん** · 2018/08/13(月) 15:15:08.87

>>657

32bitでも、64bitでも、好きな長さを「word」と呼べばいい。
これで、エンディアンの問題もなくなって分かりやすくなるんだよな。

**デフォルトの名無しさん** · 2018/08/13(月) 15:19:57.39

>>659
ニブル - Wikipedia
https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%96%E3%83%AB

> ニブルは4ビットのことである。

**デフォルトの名無しさん** · 2018/08/13(月) 16:04:07.52

Thx!
DNCL

**デフォルトの名無しさん** · 2018/08/14(火) 02:11:13.81

無理。各コンピュータ内部なら好きなビッド数にすれば良いけど、インターネットのほぼ全ての規格はオクテットが基準になってる。
インターネット全部作り直すくらいやらないと今更変更できない。

**デフォルトの名無しさん** · 2018/08/14(火) 09:43:35.42

byteとoctetを区別すればいいだろ

**デフォルトの名無しさん** · 2018/08/14(火) 12:58:54.95

>>584
昔の ISO/IEC 10646 がそんな感じじゃなかったっけ？
UCS-4 が Four-Octet Canonical Form (4オクテット正規形) と呼ばれてて
UTF-8 や UTF-16 はあくまで Transformation Format だと。

**デフォルトの名無しさん** · 2018/08/14(火) 13:43:48.36

UTF-32に統一できないなら、UTF-8を残そうがUTF-16を残そうが
どちらも大して変わんないんだよね。
UTF-8 も UTF-16 も既存OSの互換性を保つためにあるのだから

UTF-8はANSI互換性というメリットがあるというけれど
なんてことはない、Unix/Linuxの改修が大変だったから、
文字コードのエンコーディング方式自体を作ったってだけの話
互換性のために作ったものだよ

16bitにすべての文字を収めるのは不可能だが、仮に収まったとしたら
UTF-16はサロゲートペアなどなく1文字16bitというシンプルなものになっていた。

もし最初から32bit必要だと認識していれば、UTF-32という1文字32bitに
統一された素晴らしい文字コードになっていただろう
そしてWindowsはそれを標準文字コードとして採用しただろう。
（WindowsがUTF-16なのは、その頃はUnicode = UTF-16の前身のUCS-2 だったから）

結局固定長でないなら、どちらも面倒なことに大差ないし
互換性を保つために面倒な方式を残すのであれば、
それがUTF-8でもUTF-16でも同じこと

**デフォルトの名無しさん** · 2018/08/14(火) 14:30:35.75

UTF-8はエンディアンの問題が無いのが良い

**デフォルトの名無しさん** · 2018/08/14(火) 15:00:48.27

8も16も大して変わらないと言えばそうだけど、種類が少ないに越したことはないし
どっちかひとつ残すならやっぱり8なので、16には退場願いたいね

**デフォルトの名無しさん** · 2018/08/14(火) 15:32:16.19

>>669
Windowsという重要な役目があるので無理だってわかってるだろ？

**デフォルトの名無しさん** · 2018/08/14(火) 15:39:29.46

>>667
妄想は要らん
asciiとの互換性とosの改修は関係ない
16bitに収まったとしたらとか ifを言い出したらきりがない

**デフォルトの名無しさん** · 2018/08/14(火) 15:47:44.20

>>670
昔からMSは独自文字コードが大好きだからUNICODEからUTF-16が無くなっても問題ない

**デフォルトの名無しさん** · 2018/08/14(火) 16:47:25.95

>>671
> asciiとの互換性とosの改修は関係ない

大あり。C言語はASCII互換前提となっている。
具体的に言うと、文字列の終端文字が\0なので
UTF-16やUTF-32といった、1文字の中に\0が
含まれてる場合に対応できない

UTF-8でなければprintfなどの基本的でよく使われる関数
全てをUnicode対応に改修しなければならなかった。
もしくは捨て去さるかだ

**デフォルトの名無しさん** · 2018/08/14(火) 16:48:00.48

>>672
昔からUnicode対応なんですがーｗ

**デフォルトの名無しさん** · 2018/08/14(火) 16:54:07.60

UTF-16やUTF-32も1文字の中に\0が含まれているわけじゃないがな。

**デフォルトの名無しさん** · 2018/08/14(火) 17:16:53.37

含まれるやろ

**デフォルトの名無しさん** · 2018/08/14(火) 17:17:26.99

L'\0' は含まれないが '\0' は含まれる

**デフォルトの名無しさん** · 2018/08/14(火) 17:18:41.77

http://ash.jp/code/unitbl1.htm

41 41 41 41 0041 A
42 42 42 42 0042 B
43 43 43 43 0043 C
44 44 44 44 0044 D
45 45 45 45 0045 E

右から二番目がUTF16の文字コード
見ての通り基本のアルファベットの中に0x00が含まれてる

つまり ABCは、00 41 00 42 00 43 もしくは 41 00 42 00 43 00 という並びとなり
これをprintf等にわたすとASCII文字として1文字8bitと解釈し、
00を\0とみなすので途中で切れるか全く表示されなくなる

**デフォルトの名無しさん** · 2018/08/14(火) 17:21:01.63

説明足らずな>>675が揚げ足取りだと思われると可愛そうなので（笑）
補足してあげると、UTF-16やUTF-32の1文字はそれぞれ16bit or 32bit で
16bitで\0、32bitで\0 は含まれてないと言いたいのだ

だが今は、printfなど1文字8bitと解釈する関数の話をしているので
8bitずつ見ていくと文字の途中に\0が含まれるのだ

**デフォルトの名無しさん** · 2018/08/14(火) 17:37:04.18

まあWindowsみたいにcharはロケール依存のままでwchar_tだけUnicodeという構成もあるので
UnixのUnicode対応にUTF-8が必須だったかというとわからんけどなー

**デフォルトの名無しさん** · 2018/08/14(火) 19:46:09.12

>>680
え？ Unixもwchar_tはUnicodeだけど？

**デフォルトの名無しさん** · 2018/08/14(火) 20:25:18.83

正確には、既存のコードの多くは wchar_t が使われて無くて、
その対応が大変だっていう話

WindowsはOSすべてを自分たちで作ってるからどうにかなったが、
オープンソースで他人が作ったものの寄せ集めだと対応が大変だろうね

**デフォルトの名無しさん** · 2018/08/14(火) 20:38:21.12

gcc は、 wchar_t を16bitと32bitでコンパイル時に選択できるようになっているので、のちのちWindows以上に厄介なことになるでしょう。

**デフォルトの名無しさん** · 2018/08/14(火) 22:54:07.34

>>681
Linuxではそうだけど、Unix一般の話でいうとwchar_tはcharの多バイト文字をひとつの値で表せられるならなんでもいいし
実際BSDはcharがSJISならwchar_tはJISコード

**デフォルトの名無しさん** · 2018/08/15(水) 01:31:39.17

OSの中とかプログラム言語とかどうでもいい。
インターネットとかの通信プロトコルでオクテット(8bit)単位で交信、終端は0x0A 0x0Dとかの特定のオクテットコード列を使用とかになってるのが多数ある。
内部では好きなビット数で処理すれば良いけど、通信には8bit単位の処理系も必須。
ユニコード使うかどうか以前の問題。

**デフォルトの名無しさん** · 2018/08/15(水) 01:44:12.43

ケチケチ言わずIPV6くらいドカンと拡張しようぜ

**デフォルトの名無しさん** · 2018/08/15(水) 02:10:10.66

wcharは、内部の符号化に依存しちゃいけないし、幅が 16bitか32bitかに依存するのもよくない
使うのがなかなか難しいね

但し、char と混在させるのは単なる誤り。printf に使うと途中で切れるとかいうのは使う側のミス

**デフォルトの名無しさん** · 2018/08/15(水) 05:49:51.06

wchar_tやったときない

**デフォルトの名無しさん** · 2018/08/15(水) 11:55:41.55

>>687
printfで途切れる云々は仮にLANG=C.UTF-16みたいなロケールがあったとしての話だろ？
isdigit等も実装できないし、規格上できないようになってるとは思うけど

**デフォルトの名無しさん** · 2018/08/15(水) 13:30:59.38

>>687
printfはchar（のポインタ）を受け取るんだから、wchar_tは使えないでしょ？
というかcharで表示できない文字だから、wchar_tが作られたというのが正しい

そうなると、printfだけでなく多くの文字列用関数に対して
charバージョンとwchar_tバージョンが必要になって、変更しなければいけなくなるよね
それが大変だからUnix/LinuxはUTF-16には対応するのは現実的に不可能
対応が簡単なUTF-8を作りました。という流れ。

>>689
> LANG=C.UTF-16みたいなロケールがあったとしての話だろ

Unix/LinuxはUTF-16に対応するの大変だから、
そんなロケールは実現できないだろうね

似たような理由EUC-JPは対応できたけど、SJISは対応できなかった

と思ったけど以下のような警告出るけど使えるのかｗ
> # localedef -f SHIFT_JIS -i ja_JP /usr/lib/locale/ja_JP.SJIS
> キャラクタマップ `SHIFT_JIS' は ASCII 互換ではありません, ロケールは ISO C に従っていません

こんなのまで見つけた
http://www.ossforum.jp/jossfiles/Linux_SJIS_Support.pdf
ダメ文字（文字の一部に\が含まれる場合）にさえ、あたらなければ大丈夫ってことなんかな
UTF-16と違って確率的には低いだろうけど

**デフォルトの名無しさん** · 2018/08/15(水) 15:55:17.05

>>662
シュメール文明の神アヌンナキたちの故郷の惑星のことかと思った

**デフォルトの名無しさん** · 2018/08/15(水) 16:15:54.08

乳首の甘噛み

**デフォルトの名無しさん** · 2018/08/15(水) 16:25:48.18

>>690
> 似たような理由EUC-JPは対応できたけど、SJISは対応できなかった

kwsk

**デフォルトの名無しさん** · 2018/08/15(水) 16:43:22.85

>>693
だからダメ文字だって

http://ash.jp/code/code.htm
>　また、2バイト文字の中に"\"(0x5C)を含むデータが存在するため、文字列がメタ処理されてしまい、文字化けする可能性があります。

LinuxやUnixに限った話ではないけど、
文字を1バイトずつ処理するようなもの（つまりcharポインタ）は
ASCIIと互換性がないと不具合の原因になる

だからSJISやUTF-16やUTF-32はLinuxやUnixで
ネイティブに処理するのは苦手なんだ

**デフォルトの名無しさん** · 2018/08/15(水) 17:20:00.89

中途半端な多encoding対応で不具合が出たという話。要はバグ。

**デフォルトの名無しさん** · 2018/08/15(水) 22:23:06.07

アホか、アホしか居ないか？
それともわざとボケてんのか？
なんで wchar_t の話と printf の話を一緒に語ってるんだ？

wprintf 🤔

**デフォルトの名無しさん** · 2018/08/16(木) 02:36:38.02

>>696
だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。

それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう
なぜならwchar_tは16bit または 32bitという固定サイズなので
8bitのASCIIは扱えない（当然可変長バイトのUTF-8もwchar_tでは扱えない）

だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して
ワイド文字列対応にするのは現実的に不可能と判断し、
printfで扱えるASCII互換のUTF-8を使うことにした

**デフォルトの名無しさん** · 2018/08/16(木) 02:59:55.06

ダウト
wchar_t で普通に ASCII も使える。当たり前。i18n でプログラム組んだことないだろ？
UNIX 系で utf8 が好まれる最大の理由は内部コードとかじゃなくて、ファイル名。
ファイル名に直接 0x00 が入れられないので。あとはネットワークまわり。

**デフォルトの名無しさん** · 2018/08/16(木) 03:50:25.48

そりゃ16bit（つまりUTF-16）として書くか変換すりゃASCIIの範囲の文字列は
扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話

charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる
wchar_tは16bit （または環境によっては32bit）であるがUTF-16を扱う場合は16bit単位の可変長、
つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit（または32bit）単位なので8bitは扱えない

そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。

このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは
だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と
みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか
1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い

**デフォルトの名無しさん** · 2018/08/16(木) 06:01:32.95

訂正

そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。

**デフォルトの名無しさん** · 2018/08/16(木) 08:19:53.82

ファイルシステムに記録された物理的encodingに依存したコーディングができる方が良いという主張かねぇ。

**デフォルトの名無しさん** · 2018/08/16(木) 08:31:16.13

Windows標準のXmlLiteというXMLパーサーは、入力ファイルがどんな文字エンコードだろうと、
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。

**デフォルトの名無しさん** · 2018/08/16(木) 10:25:22.61

>>701
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張

>>702
Windowsは内部ネイティブ文字コードがUnicode（UTF-16）だから
別にそれでいいのでは？

それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。

まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね

**デフォルトの名無しさん** · 2018/08/16(木) 10:57:13.81

Win10 1809のコンソールはUTF-8対応

Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/

**デフォルトの名無しさん** · 2018/08/16(木) 11:03:08.50

アホが頑張るとろくなことにならない

**デフォルトの名無しさん** · 2018/08/16(木) 20:21:21.81

wchar_t のこと何もわかっていないのに適当なこと言ってるな。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。

**デフォルトの名無しさん** · 2018/08/16(木) 21:42:21.17

それで何が言いたいの？

**デフォルトの名無しさん** · 2018/08/16(木) 21:43:39.72

常識だし当たり前のことだから、
言ってることに間違いはないってことかな？

**デフォルトの名無しさん** · 2018/08/16(木) 21:50:57.04

ｵﾚですら電子ﾒｰﾙでは半角ｶﾅは使わないからな

**デフォルトの名無しさん** · 2018/08/16(木) 22:12:07.10

今時のまともなMUAでいわゆる半角カナに対応できないものってあるかな？
fj全盛の20年前ならいざ知らず。

**デフォルトの名無しさん** · 2018/08/16(木) 22:16:46.79

C/C++

　The C and C++ standard libraries include a number of facilities for dealing with
　wide characters and strings composed of them. The wide characters are defined using
　datatype wchar_t, which in the original C90 standard was defined as

　　"an integral type whose range of values can represent distinct codes for all
　　 members of the largest extended character set specified among the supported
　　 locales" (ISO 9899:1990 §4.1.5)

　Both C and C++ introduced fixed-size character types char16_t and char32_t in the
　2011 revisions of their respective standards to provide unambiguous representation
　of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
　The ISO/IEC 10646:2003 Unicode standard 4.0 says that:

　　"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
　　 programs that need to be portable across any C or C++ compiler should not use
　　 wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
　　 wide characters, which may be Unicode characters in some compilers."

ｶﾝﾍﾟｷな引用
やはりｵﾚのﾚｽはｶﾝﾍﾟｷ

**デフォルトの名無しさん** · 2018/08/16(木) 22:23:45.92

会社のﾒｰﾙは勝手にﾒｰﾙに含まれる半角を全角にかえやがる
※　必要で半角をいれてるからな

半角でﾌｫﾙﾀﾞ名つけるﾊﾞｶがいるせいで
その半角を含むﾊﾟｽに格納されてる資料のおいてあるﾊﾟｽを送ると
ﾒｰﾙ送ったあと一時期必ず文句がきてたからな

　その資料にｱｸｾｽできないと
　そんな場所ないと

うんざりしたから
この部分が半角ですと書いてやっても
ｱｸｾｽできないと返信が来る

何度か半角でﾌｫﾙﾀﾞ名つけたﾊﾞｶを探しだして
しばいたろかと思ったわ

**デフォルトの名無しさん** · 2018/08/16(木) 22:33:35.19

しばくんじゃなくてフォルダ名を変更すれば済むじゃん
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねｗ

**デフォルトの名無しさん** · 2018/08/16(木) 22:38:11.04

ﾌｫﾙﾀﾞ名は一回変更したわ

すると突然
半角以下にあるﾘﾝｸがすべてｱｸｾｽできなくって
みなが大騒ぎになったわ

そんなことやったのはだれだと
幸いｵﾚがやったとﾊﾞﾚずに済んだが

**デフォルトの名無しさん** · 2018/08/17(金) 00:58:59.23

掲示板に半角カナで書くバカもいる

**デフォルトの名無しさん** · 2018/08/17(金) 01:01:58.63

メールで送らなければいい
会社のメールを変えればいい
会社を変えればいい

半角君の発想だとこんな感じ

**デフォルトの名無しさん** · 2018/08/17(金) 02:37:02.49

掲示板に半角ｶﾅ使うなとか原始人かよw

**デフォルトの名無しさん** · 2018/08/17(金) 05:01:13.36

>>706
今北産業

**デフォルトの名無しさん** · 2018/08/17(金) 05:32:43.08

>>718
そいつは勘違いしてるよ。

Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな

最初からUnicode（UTF-16）対応として設計開発された
Windows NTとは違うわけだ

**デフォルトの名無しさん** · 2018/08/17(金) 06:41:03.91

>>719
詳しい解説サンクス
wchar_t 難し杉ない？

**デフォルトの名無しさん** · 2018/08/17(金) 07:06:48.04

外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい

**デフォルトの名無しさん** · 2018/08/17(金) 14:32:22.25

＞外国人は鼻ほじりながら「おまいら大変だなー」と同情してる

その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな

**デフォルトの名無しさん** · 2018/08/17(金) 17:39:37.76

>>717
フォルダ名に半角カナ使うなとか原始人かよw

**デフォルトの名無しさん** · 2018/08/17(金) 17:52:36.10

>>723
？？

**デフォルトの名無しさん** · 2018/08/17(金) 17:57:13.67

バカ「半角カナを使うと文字化けするんだぞ！使うの禁止！」

それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。

バカ「む、難しい言葉でごまかすな！」

**デフォルトの名無しさん** · 2018/08/17(金) 18:37:13.62

わざわざ使うようなものでもないけどな

**デフォルトの名無しさん** · 2018/08/17(金) 20:09:50.97

やっぱりバカどもは
なんにもわかってないわ。。。

電子メールでいうテキストというのは
７ｂｉｔだけで表現されたもんをテキストといってるワケ
つまり、伝統的にａｓｃｉｉ（７ｂｉｔ）だけで表現されてるデータをテキストと呼称してる

昔は、７ｂｉｔのデータしかやりとりできなかったネットワークもあったからな
ｕｔｆ－８とかｓｈｉｆｔ－ｊｉｓとかな、メールでは意味不明なバイナリーなわけ

分かる？

そんなテキストもどきでも
いまでもプロトコルの規定どおり７ｂｉｔのデータ以外を発信してはいけないのは当然

　
　Ｃｏｎｔｅｎｔ－Ｔｒａｎｓｆｅｒ－Ｅｎｃｏｄｉｎｇ：　７ｂｉｔ　←　コレは絶対だからな

ｕｔｆ－８やｓｈｉｆｔ－ｊｉｓのテキストもどきならｂａｓｅ６４エンコードするとかしないといけない
そのままがいいならｕｎｉｃｏｄｅのエンコード形式でｕｔｆ－７という選択肢もある

**デフォルトの名無しさん** · 2018/08/17(金) 20:12:42.50

お、書けた
ﾙｰﾀ再起動でも書けなかったのに
>>727のﾚｽをｻｸﾗで半角全角変換するだけで書けた
どの部分がよくなかったのかよくわからん
ｻｰﾊﾞｰが>>727のﾚｽをｾｷｭﾘﾃｨﾌﾞﾛｯｸではじいてるみたいだったからな

まあいいか

**デフォルトの名無しさん** · 2018/08/17(金) 20:12:47.89

今北産業

**デフォルトの名無しさん** · 2018/08/17(金) 20:14:07.81

日本のすべてのｼｽﾃﾑではずっとな
ﾒｰﾙのﾃｷｽﾄ表示まで保証されてるのはiso-2022-jpにﾏｯﾋﾟﾝｸﾞできる文字だけだからな
iso-2022-jpにﾏｯﾋﾟﾝｸﾞできない文字はそもそも保証されてない

※ JISにﾏｯﾋﾟﾝｸﾞできないUnicodeやShift半角ｶﾅなんか保証してない
※ 最低でもiso-2022-jpのﾌｫﾝﾄなら日本のどのｼｽﾃﾑにも用意できてるﾊｽﾞだからな
※ そうでないとﾃｷｽﾄすら表示できない

保証されなくてもいいなら、そのままばっちいままのﾃｷｽﾄもどきをｴﾝｺｰﾄﾞして発信すればいいﾜｹ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとｴﾝｺｰﾄﾞされてるｵｸﾃｯﾄをさらに7bitにｴﾝｺｰﾄﾞしてから発信することになる

わかった？

**デフォルトの名無しさん** · 2018/08/17(金) 20:17:14.05

結論をいえば
受信されるｼｽﾃﾑで最終的にそのｼｽﾃﾑ用にﾃﾞｺｰﾄﾞまでできて
表示まできるのなら問題ない
それだったら受信したﾔﾂも腹もたたない

表示できないﾒｰﾙもらったら腹立つだろ
ﾃﾞｺｰﾄﾞ未対応だったり未対応形式だったりするｴﾛ動画をしらずにﾀﾞｳｿしてな、
そのｴﾛ動画が再生できないのと同じぐらいの強いｲﾗﾀﾞﾁを感じるﾊｽﾞだからな

**デフォルトの名無しさん** · 2018/08/17(金) 20:18:53.90

ﾎﾝﾄなこの板は低学歴底辺知恵遅れのｺﾞﾐｸｽﾞしかいないのがよく分かるわ

　> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
　> ASCII が 7bit というのは常識レベルの知識。

ID:HgLxU9xgやｵﾚみたいにきわめて常識的なこといってるﾔﾂが叩かれて
しったかﾃｷﾄｰなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。

**デフォルトの名無しさん** · 2018/08/17(金) 20:29:28.96

>Ｃｏｎｔｅｎｔ－Ｔｒａｎｓｆｅｒ－Ｅｎｃｏｄｉｎｇ：　７ｂｉｔ　←　コレは絶対だからな

前世紀の遺物かよｗ
つかオマエ、mohtaみたいでキモいんだが。

**デフォルトの名無しさん** · 2018/08/17(金) 20:32:13.67

　MIME-Version: 1.0

MIME-Versionは1.0しかない
ﾎﾝﾄな知恵遅れがいってることは
いつも意味が分からない

**デフォルトの名無しさん** · 2018/08/17(金) 20:34:01.29

低学歴底辺知恵遅れの世界にﾌﾟﾛﾄｺﾙなんかないからな

低学歴底辺知恵遅れﾄﾞｶﾀは
ﾈｯﾄﾜｰｸのﾌﾟﾛｸﾞﾗﾑなんかやらないから関係ない

**デフォルトの名無しさん** · 2018/08/17(金) 20:37:37.32

低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能

ﾌﾟﾛﾄｺﾙがまったく違う
低学歴底辺知恵遅れ特有のﾌﾟﾛﾄｺﾙがあるらしいが
ｵﾚはそのﾌﾟﾛﾄｺﾙがまったく分からない

**デフォルトの名無しさん** · 2018/08/17(金) 22:48:02.68

氏名における「髙」や「𠮷」や「乭」 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/623209/

読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか？
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ

**デフォルトの名無しさん** · 2018/08/18(土) 12:04:57.41

UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない

**デフォルトの名無しさん** · 2018/08/18(土) 12:25:36.64

ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ

**デフォルトの名無しさん** · 2018/08/18(土) 12:27:24.39

>>739
＞ID赤くしてたら
皆が皆、専用ブラウザを使っているとは限らないのでは？

**デフォルトの名無しさん** · 2018/08/18(土) 12:33:47.22

unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。

**デフォルトの名無しさん** · 2018/08/18(土) 14:13:23.54

そりゃ使われてるかどうかで言えば使われてるだろうけど。

そんなことよりも技術的な所気にならない？

問1 16bitのwchar_tで1バイトまたは 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか？

問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか？

答えわかる？意外すぎてびっくりするよ。

**デフォルトの名無しさん** · 2018/08/18(土) 14:15:44.35

16bitのwchar_tや32bitのwchar_tの使い方（エンコーディング）によるとしか

**デフォルトの名無しさん** · 2018/08/18(土) 14:18:12.19

>>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ

**デフォルトの名無しさん** · 2018/08/18(土) 14:33:57.87

>>744
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。

**デフォルトの名無しさん** · 2018/08/18(土) 14:42:51.01

> 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな？
16bitでは不可能だよね？