X



文字コード総合スレ Part11
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
0810デフォルトの名無しさん
垢版 |
2018/09/18(火) 22:20:07.57ID:rWjVnVL/
なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。
0811デフォルトの名無しさん
垢版 |
2018/09/21(金) 03:58:13.13ID:dtC8HZuo
すいません
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。

どうかよろしくおねがいします。
0815デフォルトの名無しさん
垢版 |
2018/09/21(金) 22:27:01.36ID:VETs/R35
URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。
0816デフォルトの名無しさん
垢版 |
2018/09/22(土) 12:49:11.01ID:xOVRbYWf
>>815
表示したい文字とそれ以外をどうやって区別させる?
0817デフォルトの名無しさん
垢版 |
2018/09/22(土) 13:55:53.33ID:PGp2AKzL
低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる
0818デフォルトの名無しさん
垢版 |
2018/09/22(土) 16:15:38.71ID:lyt/iYyi
φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに
0819デフォルトの名無しさん
垢版 |
2018/09/23(日) 04:36:37.16ID:D4/zD5nR
https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)
0820デフォルトの名無しさん
垢版 |
2018/09/23(日) 13:00:23.58ID:7oyGtio1
>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。
0822デフォルトの名無しさん
垢版 |
2018/09/25(火) 11:23:08.18ID:Ldj267OX
chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな
0824デフォルトの名無しさん
垢版 |
2018/09/25(火) 13:50:17.89ID:O6wzDQwM
そのサイトうちのffタソは普通に日本語出してる
0825デフォルトの名無しさん
垢版 |
2018/09/25(火) 15:39:49.76ID:po7dXpcK
夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?
0826デフォルトの名無しさん
垢版 |
2018/09/25(火) 15:45:45.33ID:O6wzDQwM
apacheとかデフォでutf-8に強制変更とかあるからな
0828デフォルトの名無しさん
垢版 |
2018/09/25(火) 16:45:52.15ID:EqDfiqim
奇遇ですね
私もちょうど昨日そのサイト見てました
0829デフォルトの名無しさん
垢版 |
2018/09/25(火) 17:23:14.79ID:lmrEE7TE
あっっれ。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。
0830デフォルトの名無しさん
垢版 |
2018/09/25(火) 17:33:32.27ID:EqDfiqim
最近のブラウザは一時的に文字コード指定するメニュー無くなった
0831デフォルトの名無しさん
垢版 |
2018/09/25(火) 17:41:54.78ID:UWcApuPo
>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな
0832デフォルトの名無しさん
垢版 |
2018/09/25(火) 18:07:13.36ID:po7dXpcK
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね
0833デフォルトの名無しさん
垢版 |
2018/09/25(火) 18:35:00.27ID:EqDfiqim
HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ
0835デフォルトの名無しさん
垢版 |
2018/09/25(火) 19:00:03.09ID:lmrEE7TE
だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ
0836デフォルトの名無しさん
垢版 |
2018/09/25(火) 19:01:52.45ID:EqDfiqim
>>834
美乳
0837デフォルトの名無しさん
垢版 |
2018/09/25(火) 23:09:37.69ID:dH/9GcKQ
>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。
0841デフォルトの名無しさん
垢版 |
2018/10/02(火) 15:20:38.65ID:YIYqcJyy
RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……
0842デフォルトの名無しさん
垢版 |
2018/10/02(火) 15:47:12.77ID:yDKwoLm6
何を今更
0843デフォルトの名無しさん
垢版 |
2018/10/03(水) 08:04:57.07ID:ej0n10jM
UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。
0844デフォルトの名無しさん
垢版 |
2018/10/09(火) 21:29:38.61ID:cJ7fFqob
最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。
0845デフォルトの名無しさん
垢版 |
2018/10/10(水) 01:30:32.33ID:cxHjn/W/
違う
0847デフォルトの名無しさん
垢版 |
2018/10/10(水) 16:28:58.28ID:WmZeX0g1
ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ
0848デフォルトの名無しさん
垢版 |
2018/10/15(月) 00:47:51.51ID:FbFcpKzK
実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。
0852デフォルトの名無しさん
垢版 |
2018/10/16(火) 21:00:39.00ID:+1MBTbsX
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい
0854 ◆QZaw55cn4c
垢版 |
2018/10/16(火) 22:46:32.20ID:YZqafHqA
誰がunicodeに絵文字顔文字なんかいれたんだ?
0857デフォルトの名無しさん
垢版 |
2018/10/21(日) 11:20:10.64ID:sjXodBVw
0861デフォルトの名無しさん
垢版 |
2018/10/29(月) 11:18:13.71ID:rTl7m6mf
0862デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:04:33.69ID:oLCvh0eX
マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
0863デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:49:16.57ID:VtmwN/uo
utf8
0864デフォルトの名無しさん
垢版 |
2018/10/29(月) 15:46:00.93ID:AJZhbohO
>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理
0868デフォルトの名無しさん
垢版 |
2018/10/31(水) 23:32:52.14ID:VU8NOm8y
U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。
0870デフォルトの名無しさん
垢版 |
2018/11/01(木) 10:43:45.13ID:z733lC2q




~
~








~

~

0872デフォルトの名無しさん
垢版 |
2018/11/01(木) 12:10:10.60ID:VLboL17t
gal undo
0874デフォルトの名無しさん
垢版 |
2018/11/04(日) 22:18:26.79ID:V6s3/sLe
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
0876デフォルトの名無しさん
垢版 |
2018/11/05(月) 17:16:04.95ID:o5QGnfIr
C/C++なら今でも\aで音出るよ
0880デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:35:39.71ID:vyXuaWzf
^C
0881デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ
BSも利く
0882デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:19:35.81ID:e09+EfP6
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
0883デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:28:10.62ID:qdniag2/
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
0885デフォルトの名無しさん
垢版 |
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
0886デフォルトの名無しさん
垢版 |
2018/11/09(金) 21:06:14.08ID:romiKFBS
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
0889 ◆QZaw55cn4c
垢版 |
2018/11/10(土) 13:35:27.91ID:gF+s2COR
>>887
それは16ビットで収めるためのMSの暴挙
0891デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:49:00.28ID:gwVpzklH
絵文字排除するはずだったのに何のための文字コードだったのか
0892デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:52:17.38ID:mjExs0JA
むしろいちいちフォントなんか使わずに画像使えばいい
0893デフォルトの名無しさん
垢版 |
2018/11/10(土) 16:19:59.30ID:gwVpzklH
害児のための外字
0894デフォルトの名無しさん
垢版 |
2018/11/12(月) 16:28:58.15ID:sDbkVTfY
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
0899デフォルトの名無しさん
垢版 |
2018/11/23(金) 22:12:04.21ID:8npogZAr
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
0901デフォルトの名無しさん
垢版 |
2018/11/24(土) 00:12:46.90ID:GcFLRWmR
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
0904デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:17:41.92ID:4kdGLnPd
學校
臺灣
國體
驛辯
やめたくなるわな
0906デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:49:21.65ID:rXljiVhx
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
0907デフォルトの名無しさん
垢版 |
2018/11/24(土) 14:28:12.34ID:4kdGLnPd
明後日の方向からレスが来た
0908 ◆QZaw55cn4c
垢版 |
2018/11/24(土) 14:33:23.15ID:nrZVZwkF
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです
0909デフォルトの名無しさん
垢版 |
2018/11/24(土) 22:16:10.34ID:nC23MCFq
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況