文字コード総合スレ Part11

レス数が900を超えています。1000を超えると表示できなくなるよ。
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/09/21(金) 06:10:45.73ID:v8LFlyn0
>>811
無理です
2018/09/21(金) 08:54:48.61ID:YSf5+rmt
>>811
utf8のEF BF BDは、utf16ではFFFD(非文字)。
例えば、エンコードに失敗した時に使われる。
2018/09/21(金) 16:14:43.03ID:dtC8HZuo
>>813
なるほど。復元は無理ってことですね。thx
2018/09/21(金) 22:27:01.36ID:VETs/R35
URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。
816デフォルトの名無しさん
垢版 |
2018/09/22(土) 12:49:11.01ID:xOVRbYWf
>>815
表示したい文字とそれ以外をどうやって区別させる?
817デフォルトの名無しさん
垢版 |
2018/09/22(土) 13:55:53.33ID:PGp2AKzL
低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる
818デフォルトの名無しさん
垢版 |
2018/09/22(土) 16:15:38.71ID:lyt/iYyi
φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに
2018/09/23(日) 04:36:37.16ID:D4/zD5nR
https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)
2018/09/23(日) 13:00:23.58ID:7oyGtio1
>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。
2018/09/25(火) 01:23:30.21ID:lmrEE7TE
https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる?
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ス」だらけ
UTF-8で読みこむと非文字だらけ
822デフォルトの名無しさん
垢版 |
2018/09/25(火) 11:23:08.18ID:Ldj267OX
chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな
2018/09/25(火) 12:50:25.51ID:lmrEE7TE
やっぱFirefoxはゴミですね
824デフォルトの名無しさん
垢版 |
2018/09/25(火) 13:50:17.89ID:O6wzDQwM
そのサイトうちのffタソは普通に日本語出してる
2018/09/25(火) 15:39:49.76ID:po7dXpcK
夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?
826デフォルトの名無しさん
垢版 |
2018/09/25(火) 15:45:45.33ID:O6wzDQwM
apacheとかデフォでutf-8に強制変更とかあるからな
2018/09/25(火) 16:40:21.10ID:hDTNQGQ/
>>825
同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ
828デフォルトの名無しさん
垢版 |
2018/09/25(火) 16:45:52.15ID:EqDfiqim
奇遇ですね
私もちょうど昨日そのサイト見てました
2018/09/25(火) 17:23:14.79ID:lmrEE7TE
あっっれ。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。
830デフォルトの名無しさん
垢版 |
2018/09/25(火) 17:33:32.27ID:EqDfiqim
最近のブラウザは一時的に文字コード指定するメニュー無くなった
2018/09/25(火) 17:41:54.78ID:UWcApuPo
>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな
2018/09/25(火) 18:07:13.36ID:po7dXpcK
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね
833デフォルトの名無しさん
垢版 |
2018/09/25(火) 18:35:00.27ID:EqDfiqim
HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ
2018/09/25(火) 18:40:37.62ID:YBMAwOu6
そういえば、昔おまじない文字ってあったよな
「京」とか
2018/09/25(火) 19:00:03.09ID:lmrEE7TE
だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ
836デフォルトの名無しさん
垢版 |
2018/09/25(火) 19:01:52.45ID:EqDfiqim
>>834
美乳
2018/09/25(火) 23:09:37.69ID:dH/9GcKQ
>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。
2018/10/01(月) 00:48:09.88ID:MJnLVykJ
これってよくあるよな
2018/10/01(月) 06:54:49.15ID:lrLCBstk
なにが?
2018/10/01(月) 09:18:19.81ID:CSe7Ol42
サーバーが余計なこといってるやつ
2018/10/02(火) 15:20:38.65ID:YIYqcJyy
RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……
842デフォルトの名無しさん
垢版 |
2018/10/02(火) 15:47:12.77ID:yDKwoLm6
何を今更
2018/10/03(水) 08:04:57.07ID:ej0n10jM
UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。
2018/10/09(火) 21:29:38.61ID:cJ7fFqob
最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。
845デフォルトの名無しさん
垢版 |
2018/10/10(水) 01:30:32.33ID:cxHjn/W/
違う
2018/10/10(水) 02:38:09.95ID:cuDZW5pF
サロゲートペアの話?
2018/10/10(水) 16:28:58.28ID:WmZeX0g1
ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ
2018/10/15(月) 00:47:51.51ID:FbFcpKzK
実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。
2018/10/15(月) 04:39:56.62ID:/DZZgAIK
EBSDICのことか
2018/10/15(月) 04:40:51.83ID:/DZZgAIK
EBCDICだったすまそ
2018/10/16(火) 14:17:09.82ID:lPgoIDQ1
Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
http://www.itmedia.co.jp/news/articles/1810/16/news086.html
2018/10/16(火) 21:00:39.00ID:+1MBTbsX
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい
2018/10/16(火) 22:29:11.24ID:xkS5MTi4
絵文字はどんどん規格にない不文律が増えていくんだな
2018/10/16(火) 22:46:32.20ID:YZqafHqA
誰がunicodeに絵文字顔文字なんかいれたんだ?
2018/10/18(木) 09:37:48.19ID:9Pcdnt1S
>>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html
2018/10/21(日) 02:11:42.72ID:fBvnF/D1
つまり結局のところどうしたらええんじゃ?
857デフォルトの名無しさん
垢版 |
2018/10/21(日) 11:20:10.64ID:sjXodBVw
2018/10/21(日) 21:31:47.23ID:8BH3p2hm
https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。
2018/10/21(日) 23:19:14.44ID:j+lXdzx1
Wikipediaはある種独特じゃね
2018/10/29(月) 01:00:18.66ID:OPK1oA4w
https://s.codepen.io/aardrian/debug/ENJdjN
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね
861デフォルトの名無しさん
垢版 |
2018/10/29(月) 11:18:13.71ID:rTl7m6mf
862デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:04:33.69ID:oLCvh0eX
マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
863デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:49:16.57ID:VtmwN/uo
utf8
2018/10/29(月) 15:46:00.93ID:AJZhbohO
>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理
2018/10/29(月) 16:16:56.56ID:oLCvh0eX
ありがとうございます
自己解決しました。
2018/10/30(火) 22:48:53.83ID:sNif6dsM
Draft Emoji Candidates
http://www.unicode.org/emoji/future/emoji-candidates.html

何個目だよハート
そして色つきの丸と四角がいっぱい
2018/10/31(水) 00:23:40.01ID:W1Oq41Ld
オイスターは動物じゃなくて食いもん枠なのか
2018/10/31(水) 23:32:52.14ID:VU8NOm8y
U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。
2018/11/01(木) 00:15:41.30ID:+UpfaFuk
ホゲエ〜だと力が足りない時に使う
870デフォルトの名無しさん
垢版 |
2018/11/01(木) 10:43:45.13ID:z733lC2q




~
~








~

~

2018/11/01(木) 12:02:35.35ID:rRwKTtG6
>>870
床に落ちてる縮れ毛みたいだね
872デフォルトの名無しさん
垢版 |
2018/11/01(木) 12:10:10.60ID:VLboL17t
gal undo
2018/11/01(木) 13:23:41.33ID:EuhtjlAA
>>871
こんなきれいに並べんやろ
2018/11/04(日) 22:18:26.79ID:V6s3/sLe
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
2018/11/05(月) 15:43:44.70ID:TZRFRfjm
今でもASCII制御文字で使われている物はHT CR LFくらいかな?
876デフォルトの名無しさん
垢版 |
2018/11/05(月) 17:16:04.95ID:o5QGnfIr
C/C++なら今でも\aで音出るよ
2018/11/05(月) 20:56:08.29ID:4CVibwX5
今のPCもマザボにスピーカー入ってるの?
2018/11/06(火) 02:07:29.32ID:dakOghSY
NUL SO SI ESC SPACE DEL 辺りも使うかな
2018/11/06(火) 11:04:20.63ID:FAqyZmup
RLOも現役ぽいなあ
880デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:35:39.71ID:vyXuaWzf
^C
881デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ
BSも利く
2018/11/06(火) 13:19:35.81ID:e09+EfP6
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
883デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:28:10.62ID:qdniag2/
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
2018/11/09(金) 01:31:09.73ID:c1qAdcQz
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
2018/11/09(金) 21:06:14.08ID:romiKFBS
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
2018/11/10(土) 02:40:35.70ID:1I6WGnS3
なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ
2018/11/10(土) 12:59:04.24ID:RdMcj9Zd
別々の集合からならまとめても元に戻せるから矛盾しないぞ
2018/11/10(土) 13:35:27.91ID:gF+s2COR
>>887
それは16ビットで収めるためのMSの暴挙
2018/11/10(土) 13:36:04.74ID:6fDrSpR2
太字よりも、色付き絵文字に呆れた。
891デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:49:00.28ID:gwVpzklH
絵文字排除するはずだったのに何のための文字コードだったのか
892デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:52:17.38ID:mjExs0JA
むしろいちいちフォントなんか使わずに画像使えばいい
893デフォルトの名無しさん
垢版 |
2018/11/10(土) 16:19:59.30ID:gwVpzklH
害児のための外字
2018/11/12(月) 16:28:58.15ID:sDbkVTfY
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
2018/11/13(火) 03:51:59.47ID:T2RztKBH
テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀
2018/11/14(水) 00:25:03.52ID:7Ifnwzhb
test󾬄󾌰󾍇󾌵󾔣󾔥󾹄
2018/11/14(水) 15:22:06.98ID:DziNZxCd
test123
898デフォルトの名無しさん
垢版 |
2018/11/23(金) 10:18:33.14ID:e4GZHgy/
https://pbs.twimg.com/media/DsbSo7oU4AAKJ-e.jpg
2018/11/23(金) 22:12:04.21ID:8npogZAr
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
2018/11/23(金) 23:52:57.64ID:LJvBE/cy
>>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか?
2018/11/24(土) 00:12:46.90ID:GcFLRWmR
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
2018/11/24(土) 00:16:41.62ID:jHhCYnAM
ためになるなあ
2018/11/24(土) 09:56:10.66ID:b7FMpfFJ
https://map.goo.ne.jp/place/22001814283/
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。
904デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:17:41.92ID:4kdGLnPd
學校
臺灣
國體
驛辯
やめたくなるわな
905デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:24:00.06ID:4kdGLnPd
>>903
看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
https://dotup.org/uploda/dotup.org1699600.jpg
他のアングルだと欝ってなかった
2018/11/24(土) 13:49:21.65ID:rXljiVhx
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
907デフォルトの名無しさん
垢版 |
2018/11/24(土) 14:28:12.34ID:4kdGLnPd
明後日の方向からレスが来た
2018/11/24(土) 14:33:23.15ID:nrZVZwkF
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです
2018/11/24(土) 22:16:10.34ID:nC23MCFq
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
2018/11/24(土) 22:31:27.28ID:3CbvFbkZ
20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。
911デフォルトの名無しさん
垢版 |
2018/11/24(土) 23:28:09.38ID:or35NFsF
ならUTF-7使うしかない
レス数が900を超えています。1000を超えると表示できなくなるよ。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況