文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/09/18(火) 13:58:59.04

訂正、合成文字の方が先だからU+0338 U+0030

**デフォルトの名無しさん** · 2018/09/18(火) 22:20:07.57

なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。

**デフォルトの名無しさん** · 2018/09/21(金) 03:58:13.13

すいません
「��d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました（iconv -c -f utf16 -t utf8）が駄目でした。

どうかよろしくおねがいします。

**デフォルトの名無しさん** · 2018/09/21(金) 06:10:45.73

>>811
無理です

**デフォルトの名無しさん** · 2018/09/21(金) 08:54:48.61

>>811
utf8のEF BF BDは、utf16ではFFFD（非文字）。
例えば、エンコードに失敗した時に使われる。

**デフォルトの名無しさん** · 2018/09/21(金) 16:14:43.03

>>813
なるほど。復元は無理ってことですね。thx

**デフォルトの名無しさん** · 2018/09/21(金) 22:27:01.36

URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。

**デフォルトの名無しさん** · 2018/09/22(土) 12:49:11.01

>>815
表示したい文字とそれ以外をどうやって区別させる？

**デフォルトの名無しさん** · 2018/09/22(土) 13:55:53.33

低学歴知恵遅れの世界ではｸﾞﾘﾌが違うように見えれば
その字じたいがもつ意味もかわる

**デフォルトの名無しさん** · 2018/09/22(土) 16:15:38.71

φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに

**デフォルトの名無しさん** · 2018/09/23(日) 04:36:37.16

https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)

**デフォルトの名無しさん** · 2018/09/23(日) 13:00:23.58

>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。

**デフォルトの名無しさん** · 2018/09/25(火) 01:23:30.21

https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる？
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ｽ」だらけ
UTF-8で読みこむと非文字だらけ

**デフォルトの名無しさん** · 2018/09/25(火) 11:23:08.18

chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな

**デフォルトの名無しさん** · 2018/09/25(火) 12:50:25.51

やっぱFirefoxはゴミですね

**デフォルトの名無しさん** · 2018/09/25(火) 13:50:17.89

そのサイトうちのffタソは普通に日本語出してる

**デフォルトの名無しさん** · 2018/09/25(火) 15:39:49.76

夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?

**デフォルトの名無しさん** · 2018/09/25(火) 15:45:45.33

apacheとかデフォでutf-8に強制変更とかあるからな

**デフォルトの名無しさん** · 2018/09/25(火) 16:40:21.10

>>825
同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ

**デフォルトの名無しさん** · 2018/09/25(火) 16:45:52.15

奇遇ですね
私もちょうど昨日そのサイト見てました

**デフォルトの名無しさん** · 2018/09/25(火) 17:23:14.79

あっっれ。
まさかなと思ってもう一度行ったらなんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。

**デフォルトの名無しさん** · 2018/09/25(火) 17:33:32.27

最近のブラウザは一時的に文字コード指定するメニュー無くなった

**デフォルトの名無しさん** · 2018/09/25(火) 17:41:54.78

>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな

**デフォルトの名無しさん** · 2018/09/25(火) 18:07:13.36

http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね

**デフォルトの名無しさん** · 2018/09/25(火) 18:35:00.27

HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ

**デフォルトの名無しさん** · 2018/09/25(火) 18:40:37.62

そういえば、昔おまじない文字ってあったよな
「京」とか

**デフォルトの名無しさん** · 2018/09/25(火) 19:00:03.09

だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ

**デフォルトの名無しさん** · 2018/09/25(火) 19:01:52.45

>>834
美乳

**デフォルトの名無しさん** · 2018/09/25(火) 23:09:37.69

>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。

**デフォルトの名無しさん** · 2018/10/01(月) 00:48:09.88

これってよくあるよな

**デフォルトの名無しさん** · 2018/10/01(月) 06:54:49.15

なにが？

**デフォルトの名無しさん** · 2018/10/01(月) 09:18:19.81

サーバーが余計なこといってるやつ

**デフォルトの名無しさん** · 2018/10/02(火) 15:20:38.65

RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……

**デフォルトの名無しさん** · 2018/10/02(火) 15:47:12.77

何を今更

**デフォルトの名無しさん** · 2018/10/03(水) 08:04:57.07

UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。

**デフォルトの名無しさん** · 2018/10/09(火) 21:29:38.61

最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した（つまり2次元的な配置の）コードとして
処理する」
っていう方法ではないのか。

**デフォルトの名無しさん** · 2018/10/10(水) 01:30:32.33

違う

**デフォルトの名無しさん** · 2018/10/10(水) 02:38:09.95

サロゲートペアの話？

**デフォルトの名無しさん** · 2018/10/10(水) 16:28:58.28

ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ

**デフォルトの名無しさん** · 2018/10/15(月) 00:47:51.51

実際に使用されていた、おもしろい文字コードとかない？
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。

**デフォルトの名無しさん** · 2018/10/15(月) 04:39:56.62

EBSDICのことか

**デフォルトの名無しさん** · 2018/10/15(月) 04:40:51.83

EBCDICだったすまそ

**デフォルトの名無しさん** · 2018/10/16(火) 14:17:09.82

Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
http://www.itmedia.co.jp/news/articles/1810/16/news086.html

**デフォルトの名無しさん** · 2018/10/16(火) 21:00:39.00

IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい

**デフォルトの名無しさん** · 2018/10/16(火) 22:29:11.24

絵文字はどんどん規格にない不文律が増えていくんだな

◆QZaw55cn4c · 2018/10/16(火) 22:46:32.20

誰がunicodeに絵文字顔文字なんかいれたんだ？

**デフォルトの名無しさん** · 2018/10/18(木) 09:37:48.19

>>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html

**デフォルトの名無しさん** · 2018/10/21(日) 02:11:42.72

つまり結局のところどうしたらええんじゃ？

**デフォルトの名無しさん** · 2018/10/21(日) 11:20:10.64

見

**デフォルトの名無しさん** · 2018/10/21(日) 21:31:47.23

https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。

**デフォルトの名無しさん** · 2018/10/21(日) 23:19:14.44

Wikipediaはある種独特じゃね

**デフォルトの名無しさん** · 2018/10/29(月) 01:00:18.66

https://s.codepen.io/aardrian/debug/ENJdjN
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね

**デフォルトの名無しさん** · 2018/10/29(月) 11:18:13.71

☃

**デフォルトの名無しさん** · 2018/10/29(月) 12:04:33.69

マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか？

**デフォルトの名無しさん** · 2018/10/29(月) 12:49:16.57

utf8

**デフォルトの名無しさん** · 2018/10/29(月) 15:46:00.93

>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理

**デフォルトの名無しさん** · 2018/10/29(月) 16:16:56.56

ありがとうございます
自己解決しました。

**デフォルトの名無しさん** · 2018/10/30(火) 22:48:53.83

Draft Emoji Candidates
http://www.unicode.org/emoji/future/emoji-candidates.html

何個目だよハート
そして色つきの丸と四角がいっぱい

**デフォルトの名無しさん** · 2018/10/31(水) 00:23:40.01

オイスターは動物じゃなくて食いもん枠なのか

**デフォルトの名無しさん** · 2018/10/31(水) 23:32:52.14

U+2053のSWUNG DASHってどういうときに使うか分かる？
波ダッシュと同じ使い方でいいのかな。

**デフォルトの名無しさん** · 2018/11/01(木) 00:15:41.30

ホゲエ～だと力が足りない時に使う

**デフォルトの名無しさん** · 2018/11/01(木) 10:43:45.13

⁓
～
〜
～
~
~
￣
～
～
∼
～
≁
∻
〰
~
￣
~
￣
～

**デフォルトの名無しさん** · 2018/11/01(木) 12:02:35.35

>>870
床に落ちてる縮れ毛みたいだね

**デフォルトの名無しさん** · 2018/11/01(木) 12:10:10.60

gal undo

**デフォルトの名無しさん** · 2018/11/01(木) 13:23:41.33

>>871
こんなきれいに並べんやろ

**デフォルトの名無しさん** · 2018/11/04(日) 22:18:26.79

>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの（特に視覚障碍者が使うような）音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。

**デフォルトの名無しさん** · 2018/11/05(月) 15:43:44.70

今でもASCII制御文字で使われている物はHT CR LFくらいかな？

**デフォルトの名無しさん** · 2018/11/05(月) 17:16:04.95

C/C++なら今でも\aで音出るよ

**デフォルトの名無しさん** · 2018/11/05(月) 20:56:08.29

今のPCもマザボにスピーカー入ってるの？

**デフォルトの名無しさん** · 2018/11/06(火) 02:07:29.32

NUL SO SI ESC SPACE DEL 辺りも使うかな

**デフォルトの名無しさん** · 2018/11/06(火) 11:04:20.63

RLOも現役ぽいなあ

**デフォルトの名無しさん** · 2018/11/06(火) 11:35:39.71

**デフォルトの名無しさん** · 2018/11/06(火) 11:46:12.83

BSも利く

**デフォルトの名無しさん** · 2018/11/06(火) 13:19:35.81

^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある

**デフォルトの名無しさん** · 2018/11/06(火) 13:28:10.62

Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ

**デフォルトの名無しさん** · 2018/11/09(金) 01:31:09.73

？

**デフォルトの名無しさん** · 2018/11/09(金) 19:51:09.78

Unicodeの概念そのものは好きだけど
太字の「>」とか要る？そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。

**デフォルトの名無しさん** · 2018/11/09(金) 21:06:14.08

知らんけどもともとどっかにあったんじゃないの？
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの？

**デフォルトの名無しさん** · 2018/11/10(土) 02:40:35.70

なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ

**デフォルトの名無しさん** · 2018/11/10(土) 12:59:04.24

別々の集合からならまとめても元に戻せるから矛盾しないぞ

◆QZaw55cn4c · 2018/11/10(土) 13:35:27.91

>>887
それは16ビットで収めるためのMSの暴挙

**デフォルトの名無しさん** · 2018/11/10(土) 13:36:04.74

太字よりも、色付き絵文字に呆れた。

**デフォルトの名無しさん** · 2018/11/10(土) 15:49:00.28

絵文字排除するはずだったのに何のための文字コードだったのか

**デフォルトの名無しさん** · 2018/11/10(土) 15:52:17.38

むしろいちいちﾌｫﾝﾄなんか使わずに画像使えばいい

**デフォルトの名無しさん** · 2018/11/10(土) 16:19:59.30

害児のための外字

**デフォルトの名無しさん** · 2018/11/12(月) 16:28:58.15

記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。

**デフォルトの名無しさん** · 2018/11/13(火) 03:51:59.47

テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀

**デフォルトの名無しさん** · 2018/11/14(水) 00:25:03.52

test󾬄󾌰󾍇󾌵󾔣󾔥󾹄

**デフォルトの名無しさん** · 2018/11/14(水) 15:22:06.98

test123

**デフォルトの名無しさん** · 2018/11/23(金) 10:18:33.14

https://pbs.twimg.com/media/DsbSo7oU4AAKJ-e.jpg

**デフォルトの名無しさん** · 2018/11/23(金) 22:12:04.21

「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという

**デフォルトの名無しさん** · 2018/11/23(金) 23:52:57.64

>>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか？

**デフォルトの名無しさん** · 2018/11/24(土) 00:12:46.90

実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね！
子供の日記でも「～でおどろいた」と良く使われるフレーズなのにね！

**デフォルトの名無しさん** · 2018/11/24(土) 00:16:41.62

ためになるなあ

**デフォルトの名無しさん** · 2018/11/24(土) 09:56:10.66

https://map.goo.ne.jp/place/22001814283/
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。

**デフォルトの名無しさん** · 2018/11/24(土) 13:17:41.92

學校
臺灣
國體
驛辯
やめたくなるわな

**デフォルトの名無しさん** · 2018/11/24(土) 13:24:00.06

>>903
看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
https://dotup.org/uploda/dotup.org1699600.jpg
他のアングルだと欝ってなかった

**デフォルトの名無しさん** · 2018/11/24(土) 13:49:21.65

複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう

**デフォルトの名無しさん** · 2018/11/24(土) 14:28:12.34

明後日の方向からレスが来た

◆QZaw55cn4c · 2018/11/24(土) 14:33:23.15

>>904
＞驛辯
辨・辧・瓣・辮・?　かもしれませんよ…それらが合わさって弁になったんです

**デフォルトの名無しさん** · 2018/11/24(土) 22:16:10.34

メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど