文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/08/18(土) 14:48:48.76

wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。

**デフォルトの名無しさん** · 2018/08/18(土) 14:55:58.85

>>746
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。

**デフォルトの名無しさん** · 2018/08/18(土) 15:23:20.80

やけに wchar_t にこだわる（かみつく）奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに

**デフォルトの名無しさん** · 2018/08/18(土) 15:32:18.21

>>747
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。

**デフォルトの名無しさん** · 2018/08/18(土) 16:04:03.91

低学歴低知能のｸｸｿﾆｰﾄどもや底辺ﾄﾞｶﾀどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる

ｻﾏｰﾀｲﾑｽﾚでも同じだからな
ｺｲﾂﾗ

**デフォルトの名無しさん** · 2018/08/18(土) 19:02:32.17

>>742
漏れの知ってる答えは
１も２もそういうコード書く奴はクビ

**デフォルトの名無しさん** · 2018/08/21(火) 10:01:44.15

RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
https://tools.ietf.org/html/rfc8369

**デフォルトの名無しさん** · 2018/08/21(火) 14:20:52.24

あれだろうなと確認したらやはりあれだった

**デフォルトの名無しさん** · 2018/08/21(火) 14:31:10.12

ああ、アレだな

**デフォルトの名無しさん** · 2018/08/21(火) 15:54:58.52

あれだよねあれ。あれ安くて美味しいよね

**デフォルトの名無しさん** · 2018/08/21(火) 15:56:11.80

え？ハトが？

**デフォルトの名無しさん** · 2018/08/24(金) 18:18:47.09

すいません文字コードについて教えてほしいことがありますマジものの初心者なんですがどうかおねがいします

Unicodeの一種（？）で65280文字ある種類のものを、なんと呼ぶのでしょうか。
（最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&;End=65536
このページと想定しているものはまったく同じです）
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか正直、Unicodeというのは65280文字（0xFFFF番目ですから）までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり余計に混乱してしまいました
文字コードに関する知識がほとんどなくおかしい文章になってしまいすいませんよろしくおねがいします。

**デフォルトの名無しさん** · 2018/08/24(金) 18:42:02.68

65536-256

**デフォルトの名無しさん** · 2018/08/24(金) 18:46:30.51

>>758
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。

Code Charts
http://unicode.org/charts/

**デフォルトの名無しさん** · 2018/08/24(金) 19:19:57.24

>>758
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2

Unicodeは似てる文字を一つにまとめて約6万5000文字（16bit）に収めるぞーって
言っていたのが、案の定無理だと破綻し（だから言っただろうがバカメリケンが）、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる

**デフォルトの名無しさん** · 2018/08/24(金) 19:24:24.02

Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している

**デフォルトの名無しさん** · 2018/08/24(金) 20:11:02.68

>>761
「基本多言語面」
ありがとうございます！すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。

ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。

**デフォルトの名無しさん** · 2018/08/25(土) 06:50:31.16

HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索！

HTMLの文字コードは、UTF-8

フォントを変更します

これは明朝体を指定

それとも、マインクラフトはHTMLじゃないのか？

**デフォルトの名無しさん** · 2018/08/25(土) 07:11:24.89

>>762
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと？

**デフォルトの名無しさん** · 2018/08/25(土) 09:10:13.50

>>764
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。

**デフォルトの名無しさん** · 2018/09/07(金) 14:01:42.05

&hearts;

**デフォルトの名無しさん** · 2018/09/10(月) 17:53:51.80

Unicodeの公式サイト（http://unicode.org/）で，Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが，他サイトの情報なので，なるべく本家本元の情報が欲しいんです。

**デフォルトの名無しさん** · 2018/09/10(月) 19:07:05.53

>>768
ちゃんとメニューを見よう。

サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。

**デフォルトの名無しさん** · 2018/09/11(火) 03:10:58.81

>>769
あざす。
http://www.unicode.org/versions/latest/
ここにアクセスしたら自動的に最新版に繋がりますね。

**デフォルトの名無しさん** · 2018/09/12(水) 15:59:00.59

Unicodeって，なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから，
2^16では済まないことくらい予測できた筈なのにね

**デフォルトの名無しさん** · 2018/09/12(水) 16:00:08.88

The Unicode Blog: New Japanese Era
http://blog.unicode.org/2018/09/new-japanese-era.html

Unicodeの方でも記事になってたのか。

**デフォルトの名無しさん** · 2018/09/12(水) 16:39:35.87

>>771
アルファベット二十数文字しか使ってない奴らが
六万文字もあれば世界中全部の文字カバーできるよな
って雑に考えたから

**デフォルトの名無しさん** · 2018/09/12(水) 17:33:44.29

>>773
ちょっと漢字の知識があっても漢字が５万字くらいだろ？
漢字で5万使って残り1万5千だな、余裕だろって感じだったんだろうな

**デフォルトの名無しさん** · 2018/09/12(水) 22:23:14.60

>>774
まあ正直，日本人でも特段勉強してなかったらそういう感覚やろうしな

**デフォルトの名無しさん** · 2018/09/12(水) 22:25:38.00

で、ﾊﾞｶは5ﾏﾝの漢字全部読めるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部書けるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部使えるの？
で、ﾊﾞｶは5ﾏﾝの漢字全部使ってるの？

**デフォルトの名無しさん** · 2018/09/12(水) 22:30:26.22

卜部の卜
トﾅｶｲの卜
見た目でも違いなんかまったくわからない

**デフォルトの名無しさん** · 2018/09/13(木) 02:31:52.28

でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな

サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ

**デフォルトの名無しさん** · 2018/09/13(木) 08:51:11.89

君が代によれば、天皇の世は八千代続くので、
元号の合字も８０００個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。

**デフォルトの名無しさん** · 2018/09/13(木) 09:03:45.21

>>778
おおむね賛同するが
電流の流れが電子の流れと逆なのは電算機登場以前の話だぞ

**デフォルトの名無しさん** · 2018/09/13(木) 09:54:19.07

>>774
宇宙人と交信する予定は無かったのか

**デフォルトの名無しさん** · 2018/09/13(木) 09:56:12.02

>電気の流れもマイナスからプラスへだ

これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう

**デフォルトの名無しさん** · 2018/09/13(木) 16:01:34.38

>>782
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない

**デフォルトの名無しさん** · 2018/09/13(木) 17:09:43.69

数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。

**デフォルトの名無しさん** · 2018/09/13(木) 19:23:35.05

C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは

**デフォルトの名無しさん** · 2018/09/13(木) 19:34:24.00

どうせ文字集合じゃねーって言われるけど
漢数字

**デフォルトの名無しさん** · 2018/09/13(木) 19:47:56.84

0～9は世界共通文字
どの国でも同じ文字が使える

**デフォルトの名無しさん** · 2018/09/13(木) 20:25:28.42

世界共通になる前に6と9のどちらかを変更しておいて欲しかった

**デフォルトの名無しさん** · 2018/09/13(木) 21:10:29.13

>>786
毎日のように使うのに、普通に気が付いてなかった。
おもしろい。
けど文字集合ではないなw

>>788
あと1と7

**デフォルトの名無しさん** · 2018/09/13(木) 21:35:44.08

漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい

**デフォルトの名無しさん** · 2018/09/14(金) 06:35:40.18

>>788
9って手で書くときはqみたいな形じゃない？
なんでコンピュータのフォントだと丸まるんだろう。

**デフォルトの名無しさん** · 2018/09/14(金) 07:22:37.60

>>791
ビリヤードの玉なんかわざわざ区別のつかないような字形にした上で
区別が付くように線を引いてるんだぜ

**デフォルトの名無しさん** · 2018/09/14(金) 12:40:21.98

>>788
ＲとЯ

**デフォルトの名無しさん** · 2018/09/14(金) 15:58:06.01

1960年代1970年代では、
コーディングシート上で「O(オー）」」と「０（ゼロ９）とを
区別するために

Fortranは「「O（オー）」の上に傍線を書いたし、
COBOLでは、「０（ゼロ）」に斜線を引いて区別
してたような気がする。

「I（あい）」と「１（いち）」の場合は、「Ｉ（アイ）」を
小文字の「i」を使っていたような気がする。

なにぶん、古い話なので、間違っているかもしれないが
一応参考までに

**デフォルトの名無しさん** · 2018/09/14(金) 16:10:40.01

斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。

**デフォルトの名無しさん** · 2018/09/14(金) 16:32:11.43

>>795
本当だ！
って、なぜVS？重ね書きでいいのだから合成では、って探したらU+0338 U+0030でもいいらしい……
二重収録……

**デフォルトの名無しさん** · 2018/09/14(金) 18:22:58.68

まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな

**デフォルトの名無しさん** · 2018/09/14(金) 19:03:02.27

>>794
Dも横線入れたり、Uは必ず小文字のヒゲ書いたな
今でも手書きアルファベットでついやっちまうｗ

**デフォルトの名無しさん** · 2018/09/14(金) 19:03:15.35

Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人

**デフォルトの名無しさん** · 2018/09/14(金) 21:49:17.28

斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。

**デフォルトの名無しさん** · 2018/09/14(金) 22:09:46.77

あーあもうめちゃくちゃだよ…

**デフォルトの名無しさん** · 2018/09/14(金) 22:50:34.15

21bitも使わせるからそんな浪費するんだよ。16bitで我慢させておくべきだった。

**デフォルトの名無しさん** · 2018/09/15(土) 00:35:10.02

多コードポイント文字(←？)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる

**デフォルトの名無しさん** · 2018/09/15(土) 00:49:16.31

UCS-4でｺｰﾄﾞﾎﾟｲﾝﾄで利用できる領域は21bitまでときまってる
ｺｰﾄﾞのﾚﾝｼﾞはMSBを除く31bitまで

ｺｰﾄﾞﾎﾟｲﾝﾄのﾋﾞｯﾄ数とｴﾝｺｰﾄﾞのﾋﾞｯﾄ数は関係ない

相変わらず低学歴知恵遅れは
意味不明なことばっかりいう

**デフォルトの名無しさん** · 2018/09/15(土) 08:00:03.75

>>804
知恵遅れは自分の思慮の浅さを認識出来ないから知恵遅れなんだぞ
仮に間違っていても何らかの意図や思惑があって発言したものを
意味不明と思考停止した時点で自分が馬鹿だと宣言するようなものだから
賢いつもりならもっと謙虚な態度を取るべきだ

>>803は複数のコードポイントのシーケンスで一文字を表す体系を採用した時点で
コードポイントが何ビットかはそれほど重要な問題じゃないと言っているわけだし
基本面しかなかったころにUCS2でコードポイントを16bitで表現していたのだが
賢いつもりならそれを分かっててそんな馬鹿のことを書いてるのか？

**デフォルトの名無しさん** · 2018/09/15(土) 10:09:57.93

お、おう……ありがとう
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが

**デフォルトの名無しさん** · 2018/09/16(日) 22:47:16.05

>>796
U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる

**デフォルトの名無しさん** · 2018/09/18(火) 13:57:58.92

>>807
従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね？
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない？
まあ、今更言ってもなんだ

**デフォルトの名無しさん** · 2018/09/18(火) 13:58:59.04

訂正、合成文字の方が先だからU+0338 U+0030

**デフォルトの名無しさん** · 2018/09/18(火) 22:20:07.57

なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。

**デフォルトの名無しさん** · 2018/09/21(金) 03:58:13.13

すいません
「��d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました（iconv -c -f utf16 -t utf8）が駄目でした。

どうかよろしくおねがいします。

**デフォルトの名無しさん** · 2018/09/21(金) 06:10:45.73

>>811
無理です

**デフォルトの名無しさん** · 2018/09/21(金) 08:54:48.61

>>811
utf8のEF BF BDは、utf16ではFFFD（非文字）。
例えば、エンコードに失敗した時に使われる。

**デフォルトの名無しさん** · 2018/09/21(金) 16:14:43.03

>>813
なるほど。復元は無理ってことですね。thx

**デフォルトの名無しさん** · 2018/09/21(金) 22:27:01.36

URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。

**デフォルトの名無しさん** · 2018/09/22(土) 12:49:11.01

>>815
表示したい文字とそれ以外をどうやって区別させる？

**デフォルトの名無しさん** · 2018/09/22(土) 13:55:53.33

低学歴知恵遅れの世界ではｸﾞﾘﾌが違うように見えれば
その字じたいがもつ意味もかわる

**デフォルトの名無しさん** · 2018/09/22(土) 16:15:38.71

φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに

**デフォルトの名無しさん** · 2018/09/23(日) 04:36:37.16

https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。

ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)

**デフォルトの名無しさん** · 2018/09/23(日) 13:00:23.58

>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。

**デフォルトの名無しさん** · 2018/09/25(火) 01:23:30.21

https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる？
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ｽ」だらけ
UTF-8で読みこむと非文字だらけ

**デフォルトの名無しさん** · 2018/09/25(火) 11:23:08.18

chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね

ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな

**デフォルトの名無しさん** · 2018/09/25(火) 12:50:25.51

やっぱFirefoxはゴミですね

**デフォルトの名無しさん** · 2018/09/25(火) 13:50:17.89

そのサイトうちのffタソは普通に日本語出してる

**デフォルトの名無しさん** · 2018/09/25(火) 15:39:49.76

夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?

**デフォルトの名無しさん** · 2018/09/25(火) 15:45:45.33

apacheとかデフォでutf-8に強制変更とかあるからな

**デフォルトの名無しさん** · 2018/09/25(火) 16:40:21.10

>>825
同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ

**デフォルトの名無しさん** · 2018/09/25(火) 16:45:52.15

奇遇ですね
私もちょうど昨日そのサイト見てました

**デフォルトの名無しさん** · 2018/09/25(火) 17:23:14.79

あっっれ。
まさかなと思ってもう一度行ったらなんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。

ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。

**デフォルトの名無しさん** · 2018/09/25(火) 17:33:32.27

最近のブラウザは一時的に文字コード指定するメニュー無くなった

**デフォルトの名無しさん** · 2018/09/25(火) 17:41:54.78

>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな

**デフォルトの名無しさん** · 2018/09/25(火) 18:07:13.36

http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね

**デフォルトの名無しさん** · 2018/09/25(火) 18:35:00.27

HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ

**デフォルトの名無しさん** · 2018/09/25(火) 18:40:37.62

そういえば、昔おまじない文字ってあったよな
「京」とか

**デフォルトの名無しさん** · 2018/09/25(火) 19:00:03.09

だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ

**デフォルトの名無しさん** · 2018/09/25(火) 19:01:52.45

>>834
美乳

**デフォルトの名無しさん** · 2018/09/25(火) 23:09:37.69

>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。

>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。

**デフォルトの名無しさん** · 2018/10/01(月) 00:48:09.88

これってよくあるよな

**デフォルトの名無しさん** · 2018/10/01(月) 06:54:49.15

なにが？

**デフォルトの名無しさん** · 2018/10/01(月) 09:18:19.81

サーバーが余計なこといってるやつ

**デフォルトの名無しさん** · 2018/10/02(火) 15:20:38.65

RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……

**デフォルトの名無しさん** · 2018/10/02(火) 15:47:12.77

何を今更

**デフォルトの名無しさん** · 2018/10/03(水) 08:04:57.07

UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。

**デフォルトの名無しさん** · 2018/10/09(火) 21:29:38.61

最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した（つまり2次元的な配置の）コードとして
処理する」
っていう方法ではないのか。

**デフォルトの名無しさん** · 2018/10/10(水) 01:30:32.33

違う

**デフォルトの名無しさん** · 2018/10/10(水) 02:38:09.95

サロゲートペアの話？