文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2018/12/17(月) 16:48:24.47ID:Pfqpaohb
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
2020/12/24(木) 08:15:43.26ID:EahE3vDH
テスト
🅿🅴🅽 🅿🅸🅽🅴🅰🅿🅿🅻🅴 🅰🅿🅿🅻🅴 🅿🅴🅽
2020/12/24(木) 13:14:04.00ID:Tf2UBq9W
���������� ℤ
437デフォルトの名無しさん
垢版 |
2020/12/24(木) 14:37:35.38ID:LJDzLTFM
何だろう? 専ブラだと全部読めるけど Firefox だと読めたり読めなかったりする。
431 と 435 は Firefox でも読める。432は読めない。436 は Z だけ読める。
🄟⒜⒭⒠⒩⒯⒣⒠⒮⒤⒵⒠⒟
Ⓒⓘⓡⓒⓛⓔⓓ
🅂🅀🅄🄰🅁🄴🄳
🅝🅔🅖🅐🅣🅘🅥🅔 🅒🅘🅡🅒🅛🅔🅓
🅽🅴🆃🅰🅶🅸🆅🅴 🆂🆀🆄🅰🆁🅴🅳
2020/12/24(木) 14:50:54.98ID:LJDzLTFM
わかったサロゲートが原因だな。
BMP 以外の文字を &#XXXXX; 形式で投げる時に、なぜかサロゲート分解して2文字にして投げてるクライアントがいるな。
内部でいったん UTF-16 に変換すれば復元できるけど、内部がUTF32やUTF8だと未定文字になる。
2020/12/25(金) 12:51:47.65ID:qJluI3Ne
同じ専ブラでも端末が変わると読めなくなるみたいだけど
2020/12/25(金) 14:23:41.08ID:wLkIv5a0
そりゃフォントが違うから
2020/12/25(金) 21:14:44.85ID:xu2VH6Eq
フォントに?
442デフォルトの名無しさん
垢版 |
2020/12/31(木) 06:07:50.70ID:YZyBnRB+
→ → → ~ のパターンでさりげなく令和が増えていて驚いた。

㋿ U+32ff
2020/12/31(木) 06:20:27.61ID:rUTWKsHs
あれほど騒ぎになったのに今更かよw
444デフォルトの名無しさん
垢版 |
2020/12/31(木) 06:48:08.64ID:YZyBnRB+
>>443
いや、正確に言うと、自分の使ってるPCでその㋿が表示されることに驚いたのね。
買った直後だけアプデしてその後ずっとアプデしないようにしてたから。
アプデしてないアイポン6で表示されてないのを見てちょっと安心しました。
445デフォルトの名無しさん
垢版 |
2020/12/31(木) 06:51:45.99ID:YZyBnRB+
丸付きにも四角付きにも 音・訓・外 が無くて悲しい。
ということで以下は、ブラウザやアイポンでの表示チェックです。

音:㋔ Ⓒ㋾ⓞ
訓:㋗ Ⓙⓙ🅹🄹ⓝ
外:▲ ⓖⒼ
中: 厨Ⓒ

訓読みは Ⓚ という文字を使いたいくないので 字訓を元にしたⒿとか 大和言葉(和語)を基にする方がいいなぁ。
音読みは中国由来のⒸの方が㋔よりもいいかもしれない。
外字は小中学生や外人さんにはあまり使わない文字なので▲で良いと思う。
丸付きの ガ があればそれで決まりだったんだけどいろいろ揃って無いよなぁ。

で、辞書で出てくる 中 ってなんの意味か知ってる人が居たら教えてください。
なんとなく中国史で使うっていうような意味っぽいけど。あるいは中学で覚えるとか?
446デフォルトの名無しさん
垢版 |
2020/12/31(木) 07:36:55.69ID:YZyBnRB+
>>445
自己レスです。
中は中学で学習する音訓と漢字ペディアに出てました。
ちなみに高というのもあって高校で習うそうです。
2020/12/31(木) 20:58:20.96ID:DjLZ71J5
サロゲートペアは本当に厄介者
2020/12/31(木) 21:04:25.88ID:2bA0HVQw
結合文字「サロゲートペア程度にやられてるのか?」
異体字セレクタ「奴はUnicode四天王の中でも最弱」
????「サロゲートペアごときに負けるとはプログラマの面汚しよ…」
2020/12/31(木) 23:29:53.71ID:AP5qdpgj
混沌を極めるUNICODE界…
もう一回いちから(別案で)やり直す可能性ってあるのかな
2021/01/01(金) 02:12:50.76ID:YAS452Oz
ないよ
というか仕切り直したところで今のUnicodeは内包されるに決まってるからメリットがないよ
2021/01/01(金) 08:19:29.86ID:u/6kYyhd
BMPに還るのがいい
452デフォルトの名無しさん
垢版 |
2021/01/01(金) 22:27:30.90ID:rsUPFffA
あけましておめでとうございます
Unicode 14.0.0の発表が9月に延期になって寂しい
2021/01/02(土) 00:20:21.99ID:3z5SV0Cg
有名所の13対応のフリーのフォントてもう出てましたっけ?
454デフォルトの名無しさん
垢版 |
2021/01/02(土) 09:08:13.69ID:peE3gLXE
あけおめ。

サロゲートペア対応の漢字のみ収集コード JavaScript版、
𪗱𪘂𪘚 の3つがサロゲートペアかな? 読めなくてアレですが。
お隣の文字はちゃんと省いてる、使えば大願成就間違いなしの縁起物?バージョンです
絵文字も省いていたような気がするけどなんかいろいろ忘れてますね。

re = "abcd齆あ齓齕齘ab𪗱齝𪘂齩𪘚々齭てすと".match(/([\uD840-\uD869][\uDC00-\uDFFF]|[々〇\u303B\u3400-\u9FFF\uF900-\uFAFF])+/g);
console.log( re );
2021/01/02(土) 16:52:42.20ID:c+PMhAgd
>>450
まじかー
もう128bitくらい使って宇宙文字にも耐えられるようにすればいいのに
これが本当の異星体なんつって
456デフォルトの名無しさん
垢版 |
2021/01/02(土) 21:50:17.89ID:NzxSghB6
GUIライブラリTkはいまだにサロゲートペアに対応しておらず絵文字を使えない。
2021/01/03(日) 14:22:31.22ID:uzdBwonC
ここもunicode=changeな板が多すぎてな
このオプション消滅せんかな
458デフォルトの名無しさん
垢版 |
2021/01/05(火) 12:09:35.45ID:G8BimKKu
5chもほぼSJIS専用やんけ
2021/01/05(火) 18:11:40.31ID:F/xhjvIl
>>458
なんだかんだSJISのままで存続できてるよね。
文字参照が使えればベースのエンコーディングは案外何でもいいのかな、
とか思ったり思わなかったり。
2021/01/05(火) 21:01:08.07ID:Xkz87/Po
たまにスレタイで絵文字入ってるのあるけど
あれも文字参照で入力してるのかな
2021/01/05(火) 21:11:16.54ID:TUUmcJJM
https://twitter.com/MarkusGerstel/status/1343249726456606720

UK/EU trade agreement redefines ASCII character 123 to be 3 characters, and ASCII 125 to be 2 characters.

But I'm sure the legal bits are fine and need no scrutiny whatsoever.
https://twitter.com/5chan_nel (5ch newer account)
2021/01/05(火) 21:12:01.50ID:TUUmcJJM
https://pbs.twimg.com/media/EqQuVm0W4AAAxfv.png
463デフォルトの名無しさん
垢版 |
2021/01/06(水) 09:23:40.34ID:nouQm06h
絵文字テスト   (↓の&と¥は全角)
Growing star 🌟 , 🌟 , 🌟 , ¥u{1f31f}

SJIS環境だとサロゲートペアはエラーになるんじゃね?
ウニコードベースのエディタへの移行に失敗というか断念して
未だにSJISベースのテキストエディタをメインに使ってる俺が言ってみたり。

そう言えばサクラエディタのマクロフルセット?サポート版てどこでダウンロードするのが良いのだろう?
2021/01/06(水) 18:53:39.44ID:BIuq+YWk
あ、Chromeって検索のとき全角半角を区別しないのか。今知ったw
っていうかそもそも大文字小文字も区別しないのか。へー。
でもこの手の正規化を無効にするオプションもないようだしちょっと不便。
2021/01/06(水) 19:42:47.04ID:evtp6HPL
chromeの検索の同一視はなんか怪しいというか独自テーブルかな
2021/01/07(木) 00:30:30.04ID:RA5aGs7i
最近は知らないが昔のFirefoxは全角半角同一視してくれなくて大変困った
2021/01/07(木) 01:59:00.08ID:HEGtY6UH
>>459
海外からの荒らし対策になっているのでは
SJISは国内だけの希少コード
2021/01/07(木) 02:00:13.67ID:o03LMIA7
>>466
今でもFirefoxは全角半角を無視「しない」ように見えるけど?
いつだかダイアクリティカルを無視するというので問題になったけど。
2021/01/10(日) 18:48:17.35ID:akopncMr
>>449
別に一から作り直せとは言わんけど明らかにミス、バグだろって箇所は直してくれ
有名なのだと U+29FCE と U+29FD7 とか
2021/01/10(日) 20:04:42.25ID:/+cMzhpZ
やるとしてJSoueceの方をobsoleteされるんだろw
2021/01/20(水) 22:49:15.22ID:Eoi5GIMM
テキストエディターが改行コードを間違って解釈しないように
BOMの機能を拡張して改行コードの種類も表せるようにしたらどうなんだろう
2021/01/21(木) 00:18:54.31ID:Nk7WM/aM
来月からUnicode 14に向けた準備が始まるそうだけど
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか
2021/01/21(木) 12:01:56.27ID:uTJ86sk/
改行コード間違うのってたいてい改行コードが混在してるのが原因じゃないの?
474342
垢版 |
2021/01/21(木) 17:12:51.59ID:zM0oz2u8
>>471
一行目の改行コードで充分では?
2021/01/22(金) 23:50:53.67ID:SkpJ9szj
eメールは8bitの文字を7bitに変換して送るのが一般的だけど
今でも7bitしか扱えないメールサーバーってあるんだろうか
2021/01/25(月) 20:49:52.31ID:r2WhSNc4
前に件名を=?ISO-2022-JP?B?の形式でエンコードせずに直接ShiftJISを書きこみ
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと
2021/01/25(月) 20:59:52.42ID:nPU6SWGR
8bitを化けさせるようなメールサーバーが今でも存在するのかという質問であって、お前の化けなかった経験は何の解答にもなってない。
2021/01/25(月) 22:50:52.28ID:dmbNtT1m
そりゃあ、存在しないという解答は解答にならなくて存在しているという解答だけが解答になるわけだ。
2021/01/26(火) 00:14:38.98ID:c6DHU6bT
現れないのが透明人間です
みたいな話
2021/01/29(金) 22:30:48.89ID:SgmI7msw
規格上はオプションではあるがSMTP POP3 IMAP4全てでUTF-8をそのまま送受信できるから
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな
2021/01/30(土) 00:20:35.73ID:nT2XTKgy
>>480
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。
2021/01/30(土) 01:48:16.96ID:i+4/kULN
先賢の方々が何処かの頃合いで8bitクリーンに作り直しておいてくれればなぁ
2021/01/30(土) 04:51:50.38ID:yJsdZMSi
問題になるのはTAB,SP,BS,ESC,DELとかの制御コードなのでBase64等は必須でしょうね
行頭の'.'も気にしなくて良くなる
2021/02/01(月) 15:56:04.61ID:2wWFCs7L
どうしてメールは7bitが基本になったんだろうね
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか
2021/02/01(月) 19:54:24.08ID:daMBxrCa
もともとインターネットでメールがやり取りされるようになる以前から
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。
2021/02/01(月) 19:58:08.39ID:B8SI3YQR
SMTPが出来たは40年ちかく昔だからなあ
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう
2021/02/01(月) 21:54:37.95ID:A78/KaWg
コマンド以外は全て8bitのバイナリデータとして扱ってエンコードしないで
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない
2021/02/01(月) 22:00:08.44ID:o0ZguV06
>>484
>8bit目をパリティとして使う
でしょうね、欧米はそれで足りるから
2021/02/02(火) 00:59:48.46ID:ecf2UzG0
binarymimeって使われてないの?
2021/02/02(火) 13:36:00.69ID:8YNA1BPy
>>486
>日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
シフトするJISはあったでしょ
2021/02/03(水) 21:38:48.49ID:nNuCDyZ2
記号以外のASCII文字はエンコード後も変化しないという意味でUTF-8を7bitにエンコードするなら
quoted printableがbase64より合っていると思うんだけど
メールでのUTF-8の普及に合わせてquoted printableも普及しないかな
2021/02/03(水) 22:02:22.02ID:PgvsD/XS
そういえばUTF7なんてのもあったね
どこで使ってたんだろう?と思ってググったらIMAP4とかだと2010年前後でも当たり前に使われていたらしい
メールはかなり最近まで(今も?)7bitを大事にする文化みたいだね
2021/02/03(水) 22:21:53.66ID:WEk0ntun
本当はもう無いのに「読めないぞ」というクレームが怖くて残ってるんじゃ。
残ってても、そもそもそんなところに8bitのメールは送られないような。
2021/02/04(木) 01:36:54.71ID:JoFJnM0w
今現在のメールの良さって汎用性・後方互換性に尽きるからなあ
2021/02/04(木) 18:23:08.62ID:ez+Z5Z3J
https://www.janog.gr.jp/meeting/janog31/resume/janog31-i18nmail-fujiwara-01.pdf#page=10
この形式でメールを送れるメールソフトがどのくらいあるのか分からないけど
今はこの形式でメールを送って、問題が出たら従来の形式で送るというくらいでもいいんじゃないの
2021/02/08(月) 21:58:11.42ID:dRtPTDkz
UTF-16がunicodeをややこしくさせる原因になってるよね
unicodeのコードポイントがU+7FFFFFFFからU+10FFFFまでに制限されたのも
サロゲートペアも考慮しないといけない所もUTF-16のせいなんだし
2021/02/12(金) 05:28:51.22ID:iQJLsSxS
麻雀牌が全部登録されたのに🀄だけ先行だから見た目が違うのどうにかならんのか…
2021/02/12(金) 08:42:44.00ID:9pKWi6uS
フォント次第だろ
2021/02/12(金) 08:54:47.22ID:nGt16DhZ
>>498
大抵のフォントでも🀄だけは違うよ
2021/02/12(金) 14:05:54.17ID:dwh87PNV
Ninja Catは新たな機種依存文字といえるだろうか
2021/02/12(金) 16:22:53.75ID:Dgq2mig/
>>496
というかそれはUnicodeの歴史とむすびついてるわけだし。
当初16ビットでということでWindowsやMacがそれを採用、しかしリリース後に16ビット
では足りないことが判明。もうその時点ではサロゲートペア的なものでどうにかする
のは仕方ないかも。

というわけでややこしいのはUnicodeそのものw
2021/02/12(金) 23:39:41.89ID:2MB5qean

💙
2021/02/12(金) 23:59:30.90ID:dwh87PNV
16ビットで足りない事が判明した時点でUTF-32に移行できればよかったんだけど
未だにUTF-32に対応したソフトは少ないんだよね
504デフォルトの名無しさん
垢版 |
2021/02/13(土) 06:00:35.89ID:neaggcXJ
理論上は、UTF-32でも足りない。無限に増えるユニコード表に対応するには、UTF-32にもサロゲートが必要。
2021/02/13(土) 06:02:18.96ID:xr59QL32
歯磨き粉買ってくる
2021/02/13(土) 09:04:37.07ID:+Dfn0XQq
無限に増える理屈を詳しく
2021/02/13(土) 10:43:02.72ID:Xo6k9nK0
宇宙文明
508デフォルトの名無しさん
垢版 |
2021/02/13(土) 11:01:30.65ID:neaggcXJ
ぼくのかんがえたさいきょうの文字が追加されても耐えられる仕様でなければならぬ。
よしんば絵文字の可能性は無限。
509デフォルトの名無しさん
垢版 |
2021/02/14(日) 11:44:24.49ID:PGTjJwEI
🐼🐼🍞🍞🐼🍞🐼
2021/02/14(日) 23:59:32.09ID:u9kxNS7O
>>497-499
同じ種類の文字なのに一部だけ先行して登録されて
他の文字は後から全く違うポイントに登録されている物もあるから
フォントだけで済んでるならまだマシじゃないかと
2021/02/15(月) 03:09:13.69ID:N3rul/OC
>>510
いや🀄だけ違うのはちょっとモヤるんだよなぁ
unicodeに送ろうと思ったら有料会員じゃないとだめだったorz
2021/02/15(月) 16:03:14.56ID:0+vI5H2L
unicode に送っても仕方ないやろ
フォントメーカーに送れ。
内蔵フォントなら機器メーカーに送れ。
2021/02/15(月) 16:39:10.57ID:G46IYPHn
何送り付けるつもりなの
2021/02/15(月) 17:18:57.69ID:ugNMmOOo
ヷヸヹヺセ゚ツ゚ト゚の合字ではない平仮名は無いんだよな
「ゔ」を入れたのなら他の文字も平仮名版を入れればいいのに
2021/02/15(月) 20:05:59.00ID:/z22KH1R
ユニコードはウィルスなので送らないでください。
2021/02/16(火) 08:25:02.10ID:mevxUua1
>>512
Unicodeで決まってるんじゃなくて?
2021/02/16(火) 09:08:45.11ID:3D5+Vdqo
>>516
図柄を決めてるのはフォント屋。
Unicode的にはコードポイントが離れてても同じような図柄にすることを想定してるけど、フォントがそうなってないだけ。
2021/02/16(火) 16:32:28.02ID:maqlUdeY
文字のバイト数が可変長のコードを作れば、弱い暗号に使えないのかな
1,2,3,4バイト不規則に混在、たまに7バイトや10バイトも混ざる
2021/02/16(火) 17:46:12.13ID:X0P7Oy5W
もしかしてutf-8?
2021/02/16(火) 20:48:18.23ID:qlfoq285
>>496
UTF-8の4バイトに合わせてU+1FFFFFまでにしてくれればよかったのにとはちょっと思った。
2021/02/16(火) 21:51:25.16ID:ABVOYRZa
可変長の究極は1文字ごとに
文字の切れ目を表すためのエスケープ文字とunicodeの登録名(HIRAGANA LETTER Aなど)
をテキストファイルに記録する事かもね。
コードポイントの概念を無くして16進数の番号で管理しないから
後から追加された文字でもコードポイントが飛んでいる事はなくなるし。
ただし文字によっては1文字に50バイト以上使うこともある。
2021/02/16(火) 23:05:15.94ID:ZcpmZlC/
>496
Unicodeの当初の16bit(最大65536文字)あれば
十分だろうという考えがそもそもの原因なんだから
UnicodeをややこしくさせてるのはUnicode自身だよ

最初の段階で16bitで足りないと認めていれば
今頃はUTF-32が主流になっていただろう
もっともUnixは互換性のためにUTF-32をネイティブで扱うのが
難しいのでUTF-8は生まれていたかもしれないがね
2021/02/17(水) 01:57:41.63ID:1VpGhFke
ニ(木へんに世)って、シフトJIS(のバリエーション)的にはどうなんだっけ。
というかこれ自体もテストだったり。
2021/02/17(水) 02:17:54.79ID:1VpGhFke
ちなみに自分はMacなんだが、0xFAE2を書き込んだ模様。
皆さんには見えてますでしょうか。
HTMLでcharset=Shift_JISのときってどうするのか揉めた記憶が。
2021/02/17(水) 02:44:16.94ID:PIB5BTik
5ちゃんねるの仕様は文字コードと何の関係もない
2021/02/17(水) 03:22:07.19ID:edB0ww9C
https://encoding.spec.whatwg.org/shift_jis.html
今のブラウザはこの辺に従ってるで終了じゃねの?
2021/02/17(水) 08:12:07.90ID:peDNmUYI
>>525
5chをブラウザで見るとHTMLがcharset=Shift_JISなんだけど、それは関係ないってこと?

そもそもテキストデータのやり取りで文字コードの指定がない仕様というのは... もしかして
適当にデータを送受信して適当な文字コードを指定して見れたらラッキー、的な仕様?

そもそも5chの仕様ってどこかにあるんでしょうか。
2021/02/17(水) 09:42:15.24ID:ty0uudwM
やれやれ頭が固いなw
SJISでUnicodeが表示できないと思いこんでる
529デフォルトの名無しさん
垢版 |
2021/02/17(水) 18:28:41.76ID:8Df3qLX7
もりおうがいしかる
森鷗外𠮟る
森鴎外叱る
2021/02/17(水) 19:54:41.88ID:NZXazeNu
森鳩タトロヒる
2021/02/17(水) 20:00:49.86ID:SpPvhnPe
>>521
そこまで行くと文字コードというか最早マーク付け言語みたいだな
てかHTML (SGML/XML)の文字実体参照まんまでは
2021/02/17(水) 22:24:44.47ID:gjncEnw2
sjis には、Windows CP932 特有の環境依存文字がある

それで、バグルか、フォントが無いとか
2021/02/18(木) 00:08:48.51ID:QtoO1FYc
>>523-524
世に出てるブラウザの殆どはcharset=Shift_JISな文書をWindows-31Jとして解釈するだろうから
IBM拡張文字として表示されるんでない?
というか、何を疑問に感じてのレスなのかが分からないんだけど。
534デフォルトの名無しさん
垢版 |
2021/02/18(木) 10:20:55.82ID:64/LOwh9
不知佛
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況