文字コード総合スレ Part11

1デフォルトの名無しさん2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

809デフォルトの名無しさん2018/09/18(火) 13:58:59.04ID:5qlr0JT7
訂正、合成文字の方が先だからU+0338 U+0030

810デフォルトの名無しさん2018/09/18(火) 22:20:07.57ID:rWjVnVL/
なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。

811デフォルトの名無しさん2018/09/21(金) 03:58:13.13ID:dtC8HZuo
すいません
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。

どうかよろしくおねがいします。

812デフォルトの名無しさん2018/09/21(金) 06:10:45.73ID:v8LFlyn0
>>811
無理です

813デフォルトの名無しさん2018/09/21(金) 08:54:48.61ID:YSf5+rmt
>>811
utf8のEF BF BDは、utf16ではFFFD(非文字)。
例えば、エンコードに失敗した時に使われる。

814デフォルトの名無しさん2018/09/21(金) 16:14:43.03ID:dtC8HZuo
>>813
なるほど。復元は無理ってことですね。thx

815デフォルトの名無しさん2018/09/21(金) 22:27:01.36ID:VETs/R35
URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。

816デフォルトの名無しさん2018/09/22(土) 12:49:11.01ID:xOVRbYWf
>>815
表示したい文字とそれ以外をどうやって区別させる?

817デフォルトの名無しさん2018/09/22(土) 13:55:53.33ID:PGp2AKzL
低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる

818デフォルトの名無しさん2018/09/22(土) 16:15:38.71ID:lyt/iYyi
φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに

819デフォルトの名無しさん2018/09/23(日) 04:36:37.16ID:D4/zD5nR
https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)

820デフォルトの名無しさん2018/09/23(日) 13:00:23.58ID:7oyGtio1
>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。

821デフォルトの名無しさん2018/09/25(火) 01:23:30.21ID:lmrEE7TE
https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる?
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ス」だらけ
UTF-8で読みこむと非文字だらけ

822デフォルトの名無しさん2018/09/25(火) 11:23:08.18ID:Ldj267OX
chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな

823デフォルトの名無しさん2018/09/25(火) 12:50:25.51ID:lmrEE7TE
やっぱFirefoxはゴミですね

824デフォルトの名無しさん2018/09/25(火) 13:50:17.89ID:O6wzDQwM
そのサイトうちのffタソは普通に日本語出してる

825デフォルトの名無しさん2018/09/25(火) 15:39:49.76ID:po7dXpcK
夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?

826デフォルトの名無しさん2018/09/25(火) 15:45:45.33ID:O6wzDQwM
apacheとかデフォでutf-8に強制変更とかあるからな

827デフォルトの名無しさん2018/09/25(火) 16:40:21.10ID:hDTNQGQ/
>>825
同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ

828デフォルトの名無しさん2018/09/25(火) 16:45:52.15ID:EqDfiqim
奇遇ですね
私もちょうど昨日そのサイト見てました

829デフォルトの名無しさん2018/09/25(火) 17:23:14.79ID:lmrEE7TE
あっっれ。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。

830デフォルトの名無しさん2018/09/25(火) 17:33:32.27ID:EqDfiqim
最近のブラウザは一時的に文字コード指定するメニュー無くなった

831デフォルトの名無しさん2018/09/25(火) 17:41:54.78ID:UWcApuPo
>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな

832デフォルトの名無しさん2018/09/25(火) 18:07:13.36ID:po7dXpcK
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね

833デフォルトの名無しさん2018/09/25(火) 18:35:00.27ID:EqDfiqim
HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ

834デフォルトの名無しさん2018/09/25(火) 18:40:37.62ID:YBMAwOu6
そういえば、昔おまじない文字ってあったよな
「京」とか

835デフォルトの名無しさん2018/09/25(火) 19:00:03.09ID:lmrEE7TE
だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ

836デフォルトの名無しさん2018/09/25(火) 19:01:52.45ID:EqDfiqim
>>834
美乳

837デフォルトの名無しさん2018/09/25(火) 23:09:37.69ID:dH/9GcKQ
>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。

838デフォルトの名無しさん2018/10/01(月) 00:48:09.88ID:MJnLVykJ
これってよくあるよな

839デフォルトの名無しさん2018/10/01(月) 06:54:49.15ID:lrLCBstk
なにが?

840デフォルトの名無しさん2018/10/01(月) 09:18:19.81ID:CSe7Ol42
サーバーが余計なこといってるやつ

841デフォルトの名無しさん2018/10/02(火) 15:20:38.65ID:YIYqcJyy
RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……

842デフォルトの名無しさん2018/10/02(火) 15:47:12.77ID:yDKwoLm6
何を今更

843デフォルトの名無しさん2018/10/03(水) 08:04:57.07ID:ej0n10jM
UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。

844デフォルトの名無しさん2018/10/09(火) 21:29:38.61ID:cJ7fFqob
最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。

845デフォルトの名無しさん2018/10/10(水) 01:30:32.33ID:cxHjn/W/
違う

846デフォルトの名無しさん2018/10/10(水) 02:38:09.95ID:cuDZW5pF
サロゲートペアの話?

847デフォルトの名無しさん2018/10/10(水) 16:28:58.28ID:WmZeX0g1
ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ

848デフォルトの名無しさん2018/10/15(月) 00:47:51.51ID:FbFcpKzK
実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。

849デフォルトの名無しさん2018/10/15(月) 04:39:56.62ID:/DZZgAIK
EBSDICのことか

850デフォルトの名無しさん2018/10/15(月) 04:40:51.83ID:/DZZgAIK
EBCDICだったすまそ

851デフォルトの名無しさん2018/10/16(火) 14:17:09.82ID:lPgoIDQ1
Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
http://www.itmedia.co.jp/news/articles/1810/16/news086.html

852デフォルトの名無しさん2018/10/16(火) 21:00:39.00ID:+1MBTbsX
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい

853デフォルトの名無しさん2018/10/16(火) 22:29:11.24ID:xkS5MTi4
絵文字はどんどん規格にない不文律が増えていくんだな

854 ◆QZaw55cn4c 2018/10/16(火) 22:46:32.20ID:YZqafHqA
誰がunicodeに絵文字顔文字なんかいれたんだ?

855デフォルトの名無しさん2018/10/18(木) 09:37:48.19ID:9Pcdnt1S
>>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html

856デフォルトの名無しさん2018/10/21(日) 02:11:42.72ID:fBvnF/D1
つまり結局のところどうしたらええんじゃ?

857デフォルトの名無しさん2018/10/21(日) 11:20:10.64ID:sjXodBVw

858デフォルトの名無しさん2018/10/21(日) 21:31:47.23ID:8BH3p2hm
https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。

859デフォルトの名無しさん2018/10/21(日) 23:19:14.44ID:j+lXdzx1
Wikipediaはある種独特じゃね

新着レスの表示
レスを投稿する