文字コード総合スレ Part11

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/08/17(金) 05:01:13.36ID:xjFqJl5K
>>706
今北産業
2018/08/17(金) 05:32:43.08ID:DWhhxT1h
>>718
そいつは勘違いしてるよ。

Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな

最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ
2018/08/17(金) 06:41:03.91ID:xjFqJl5K
>>719
詳しい解説サンクス
wchar_t 難し杉ない?
2018/08/17(金) 07:06:48.04ID:p3S4iKgX
外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい
2018/08/17(金) 14:32:22.25ID:qwkl5VTB
>外国人は鼻ほじりながら「おまいら大変だなー」と同情してる

その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな
2018/08/17(金) 17:39:37.76ID:6wrElEJt
>>717
フォルダ名に半角カナ使うなとか原始人かよw
2018/08/17(金) 17:52:36.10ID:KRgOhrj9
>>723
??
2018/08/17(金) 17:57:13.67ID:RTbKyx/W
バカ「半角カナを使うと文字化けするんだぞ!使うの禁止!」

それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。

バカ「む、難しい言葉でごまかすな!」
2018/08/17(金) 18:37:13.62ID:UXylYx1j
わざわざ使うようなものでもないけどな
727デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:09:50.97ID:yTcXDgUV
やっぱりバカどもは
なんにもわかってないわ。。。

電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる

昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf−8とかshift−jisとかな、メールでは意味不明なバイナリーなわけ

分かる?

そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然

 
 Content−Transfer−Encoding: 7bit ← コレは絶対だからな

utf−8やshift−jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf−7という選択肢もある
728デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:12:42.50ID:yTcXDgUV
お、書けた
ルータ再起動でも書けなかったのに
>>727のレスをサクラで半角全角変換するだけで書けた
どの部分がよくなかったのかよくわからん
サーバーが>>727のレスをセキュリティブロックではじいてるみたいだったからな

まあいいか
2018/08/17(金) 20:12:47.89ID:xjFqJl5K
今北産業
730デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:14:07.81ID:yTcXDgUV
日本のすべてのシステムではずっとな
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない

※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない

保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる

わかった?
731デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:17:14.05ID:yTcXDgUV
結論をいえば
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない

表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな
732デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:18:53.90ID:yTcXDgUV
ホントなこの板は低学歴底辺知恵遅れのゴミクズしかいないのがよく分かるわ

 > あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
 > ASCII が 7bit というのは常識レベルの知識。

ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。
2018/08/17(金) 20:29:28.96ID:RgiGOjCt
>Content−Transfer−Encoding: 7bit ← コレは絶対だからな

前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。
734デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:32:13.67ID:yTcXDgUV
 MIME-Version: 1.0

MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない
735デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:34:01.29ID:yTcXDgUV
低学歴底辺知恵遅れの世界にプロトコルなんかないからな

低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない
736デフォルトの名無しさん
垢版 |
2018/08/17(金) 20:37:37.32ID:yTcXDgUV
低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能

プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない
2018/08/17(金) 22:48:02.68ID:dUYwrsCb
氏名における「」や「𠮷」や「乭」 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/623209/

読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ
738デフォルトの名無しさん
垢版 |
2018/08/18(土) 12:04:57.41ID:TgZCKLMK
UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない
2018/08/18(土) 12:25:36.64ID:XOnooV72
ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ
2018/08/18(土) 12:27:24.39ID:/9y7PjMS
>>739
>ID赤くしてたら
皆が皆、専用ブラウザを使っているとは限らないのでは?
2018/08/18(土) 12:33:47.22ID:KC80I9ck
unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。
2018/08/18(土) 14:13:23.54ID:5gN61dbI
そりゃ使われてるかどうかで言えば使われてるだろうけど。

そんなことよりも技術的な所気にならない?

問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか?

問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか?

答えわかる?意外すぎてびっくりするよ。
2018/08/18(土) 14:15:44.35ID:5BnyFmRJ
16bitのwchar_tや32bitのwchar_tの使い方(エンコーディング)によるとしか
2018/08/18(土) 14:18:12.19ID:5gN61dbI
>>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
2018/08/18(土) 14:33:57.87ID:KC80I9ck
>>744
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
2018/08/18(土) 14:42:51.01ID:5gN61dbI
> 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?
2018/08/18(土) 14:48:48.76ID:/4eOy7p1
wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。
2018/08/18(土) 14:55:58.85ID:KC80I9ck
>>746
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。
2018/08/18(土) 15:23:20.80ID:bNUWoVQ1
やけに wchar_t にこだわる(かみつく)奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに
2018/08/18(土) 15:32:18.21ID:KC80I9ck
>>747
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。
751デフォルトの名無しさん
垢版 |
2018/08/18(土) 16:04:03.91ID:M4v7ary7
低学歴低知能のククソニートどもや底辺ドカタどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる

サマータイムスレでも同じだからな
コイツラ
752デフォルトの名無しさん
垢版 |
2018/08/18(土) 19:02:32.17ID:IyhzoKxX
>>742
漏れの知ってる答えは
1も2もそういうコード書く奴はクビ
2018/08/21(火) 10:01:44.15ID:O500W7m7
RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
https://tools.ietf.org/html/rfc8369
2018/08/21(火) 14:20:52.24ID:avvvfppX
あれだろうなと確認したらやはりあれだった
2018/08/21(火) 14:31:10.12ID:Y1HyydAv
ああ、アレだな
2018/08/21(火) 15:54:58.52ID:R5Y2p11o
あれだよねあれ。あれ安くて美味しいよね
2018/08/21(火) 15:56:11.80ID:dhW5/kUC
え?ハトが?
2018/08/24(金) 18:18:47.09ID:mVdVBkdF
すいません 文字コードについて教えてほしいことがあります マジものの初心者なんですがどうかおねがいします

Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&;End=65536
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。
759デフォルトの名無しさん
垢版 |
2018/08/24(金) 18:42:02.68ID:NFTQhSIK
65536-256
2018/08/24(金) 18:46:30.51ID:qhlQ/zrJ
>>758
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。

Code Charts
http://unicode.org/charts/
2018/08/24(金) 19:19:57.24ID:wXpFbMeR
>>758
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2

Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる
2018/08/24(金) 19:24:24.02ID:wXpFbMeR
Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
2018/08/24(金) 20:11:02.68ID:mVdVBkdF
>>761
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。

ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。
2018/08/25(土) 06:50:31.16ID:gxBSyOuw
HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索!

HTMLの文字コードは、UTF-8

<font face="候補1,候補2,候補3">フォントを変更します</font>

<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>

それとも、マインクラフトはHTMLじゃないのか?
2018/08/25(土) 07:11:24.89ID:5ar3I1wr
>>762
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?
2018/08/25(土) 09:10:13.50ID:2/0/KxdV
>>764
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。
2018/09/07(金) 14:01:42.05ID:NnTKHa0h
&hearts;
2018/09/10(月) 17:53:51.80ID:wWJP5KoS
Unicodeの公式サイト(http://unicode.org/)で,Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。
2018/09/10(月) 19:07:05.53ID:Xr++yj7Q
>>768
ちゃんとメニューを見よう。

サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。
2018/09/11(火) 03:10:58.81ID:zLtJmO+E
>>769
あざす。
http://www.unicode.org/versions/latest/
ここにアクセスしたら自動的に最新版に繋がりますね。
2018/09/12(水) 15:59:00.59ID:DAmcAY4y
Unicodeって,なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
2018/09/12(水) 16:00:08.88ID:3JFFS4nO
The Unicode Blog: New Japanese Era
http://blog.unicode.org/2018/09/new-japanese-era.html

Unicodeの方でも記事になってたのか。
773デフォルトの名無しさん
垢版 |
2018/09/12(水) 16:39:35.87ID:1j3hWxX7
>>771
アルファベット二十数文字しか使ってない奴らが
六万文字もあれば世界中全部の文字カバーできるよな
って雑に考えたから
2018/09/12(水) 17:33:44.29ID:lrlSblfi
>>773
ちょっと漢字の知識があっても漢字が5万字くらいだろ?
漢字で5万使って残り1万5千だな、余裕だろって感じだったんだろうな
2018/09/12(水) 22:23:14.60ID:DAmcAY4y
>>774
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな
776デフォルトの名無しさん
垢版 |
2018/09/12(水) 22:25:38.00ID:yfKtIfo2
で、バカは5マンの漢字全部読めるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?
777デフォルトの名無しさん
垢版 |
2018/09/12(水) 22:30:26.22ID:yfKtIfo2
卜部の卜
トナカイの卜
見た目でも違いなんかまったくわからない
2018/09/13(木) 02:31:52.28ID:cMp+qWRQ
でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな

サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ
2018/09/13(木) 08:51:11.89ID:wI3BpnoI
君が代によれば、天皇の世は八千代続くので、
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。
2018/09/13(木) 09:03:45.21ID:1sKEH3Wo
>>778
おおむね賛同するが
電流の流れが電子の流れと逆なのは電算機登場以前の話だぞ
781デフォルトの名無しさん
垢版 |
2018/09/13(木) 09:54:19.07ID:l9KSlvFS
>>774
宇宙人と交信する予定は無かったのか
782デフォルトの名無しさん
垢版 |
2018/09/13(木) 09:56:12.02ID:l9KSlvFS
>電気の流れもマイナスからプラスへだ

これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
2018/09/13(木) 16:01:34.38ID:Mtznb6SP
>>782
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない
2018/09/13(木) 17:09:43.69ID:1sKEH3Wo
数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。
2018/09/13(木) 19:23:35.05ID:U1nKZv8x
C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは
786デフォルトの名無しさん
垢版 |
2018/09/13(木) 19:34:24.00ID:l9KSlvFS
どうせ文字集合じゃねーって言われるけど
漢数字
2018/09/13(木) 19:47:56.84ID:QXoXnqLA
0〜9は世界共通文字
どの国でも同じ文字が使える
2018/09/13(木) 20:25:28.42ID:U1nKZv8x
世界共通になる前に6と9のどちらかを変更しておいて欲しかった
2018/09/13(木) 21:10:29.13ID:1sKEH3Wo
>>786
毎日のように使うのに、普通に気が付いてなかった。
おもしろい。
けど文字集合ではないなw

>>788
あと1と7
2018/09/13(木) 21:35:44.08ID:1sKEH3Wo
漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい
2018/09/14(金) 06:35:40.18ID:gu26jl1+
>>788
9って手で書くときはqみたいな形じゃない?
なんでコンピュータのフォントだと丸まるんだろう。
2018/09/14(金) 07:22:37.60ID:jXQgdfuV
>>791
ビリヤードの玉なんかわざわざ区別のつかないような字形にした上で
区別が付くように線を引いてるんだぜ
793デフォルトの名無しさん
垢版 |
2018/09/14(金) 12:40:21.98ID:5xDSXwp0
>>788
RとЯ
2018/09/14(金) 15:58:06.01ID:V0YFlSa+
1960年代1970年代では、
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために

Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。

「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。

なにぶん、古い話なので、間違っているかもしれないが
一応参考までに
2018/09/14(金) 16:10:40.01ID:cGEdpT46
斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。
2018/09/14(金) 16:32:11.43ID:jXQgdfuV
>>795
本当だ!
って、なぜVS?重ね書きでいいのだから合成では、って探したらU+0338 U+0030でもいいらしい……
二重収録……
2018/09/14(金) 18:22:58.68ID:q3l06dS7
まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな
798デフォルトの名無しさん
垢版 |
2018/09/14(金) 19:03:02.27ID:YqXme0/t
>>794
Dも横線入れたり、Uは必ず小文字のヒゲ書いたな
今でも手書きアルファベットでついやっちまうw
2018/09/14(金) 19:03:15.35ID:TqoCD1dQ
Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人
2018/09/14(金) 21:49:17.28ID:J5fDz/kR
斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。
2018/09/14(金) 22:09:46.77ID:zZtMiOUI
あーあもうめちゃくちゃだよ…
2018/09/14(金) 22:50:34.15ID:G7suMYm4
21bitも使わせるからそんな浪費するんだよ。16bitで我慢させておくべきだった。
2018/09/15(土) 00:35:10.02ID:RLWLi0Yo
多コードポイント文字(←?)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる
804デフォルトの名無しさん
垢版 |
2018/09/15(土) 00:49:16.31ID:KIanXBkQ
UCS-4でコードポイントで利用できる領域は21bitまでときまってる
コードのレンジはMSBを除く31bitまで

コードポイントのビット数とエンコードのビット数は関係ない

相変わらず低学歴知恵遅れは
意味不明なことばっかりいう
2018/09/15(土) 08:00:03.75ID:JGlclHBn
>>804
知恵遅れは自分の思慮の浅さを認識出来ないから知恵遅れなんだぞ
仮に間違っていても何らかの意図や思惑があって発言したものを
意味不明と思考停止した時点で自分が馬鹿だと宣言するようなものだから
賢いつもりならもっと謙虚な態度を取るべきだ

>>803は複数のコードポイントのシーケンスで一文字を表す体系を採用した時点で
コードポイントが何ビットかはそれほど重要な問題じゃないと言っているわけだし
基本面しかなかったころにUCS2でコードポイントを16bitで表現していたのだが
賢いつもりならそれを分かっててそんな馬鹿のことを書いてるのか?
2018/09/15(土) 10:09:57.93ID:RLWLi0Yo
お、おう……ありがとう
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが
2018/09/16(日) 22:47:16.05ID:R5KpyTLY
>>796
U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる
2018/09/18(火) 13:57:58.92ID:5qlr0JT7
>>807
従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね?
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない?
まあ、今更言ってもなんだ
2018/09/18(火) 13:58:59.04ID:5qlr0JT7
訂正、合成文字の方が先だからU+0338 U+0030
2018/09/18(火) 22:20:07.57ID:rWjVnVL/
なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。
2018/09/21(金) 03:58:13.13ID:dtC8HZuo
すいません
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。

どうかよろしくおねがいします。
2018/09/21(金) 06:10:45.73ID:v8LFlyn0
>>811
無理です
2018/09/21(金) 08:54:48.61ID:YSf5+rmt
>>811
utf8のEF BF BDは、utf16ではFFFD(非文字)。
例えば、エンコードに失敗した時に使われる。
2018/09/21(金) 16:14:43.03ID:dtC8HZuo
>>813
なるほど。復元は無理ってことですね。thx
2018/09/21(金) 22:27:01.36ID:VETs/R35
URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。
816デフォルトの名無しさん
垢版 |
2018/09/22(土) 12:49:11.01ID:xOVRbYWf
>>815
表示したい文字とそれ以外をどうやって区別させる?
817デフォルトの名無しさん
垢版 |
2018/09/22(土) 13:55:53.33ID:PGp2AKzL
低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況