文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2019/06/30(日) 23:23:56.67ID:sPnkqdOZ
どのフォントでどこからどこまでリガチャっていう指定を含めないといけないからプレーンテキストで利用できない
リッチテキスト使えるなら画像でいい
2019/07/01(月) 00:12:01.52ID:vOsPyG+v
This is a pen��.とか[�� Download Now!]みたいにもともと並べて使うことも多いしな。
This is a penpen.や[Download Download Now!]は変やろ。あとThat is a ��guin.の誤爆避けも必要になる。
2019/07/01(月) 05:12:02.84ID:2smzn43h
https://8beat-studio.net/how-to-use-ligaturesymbols/
とか? >>499
2019/07/01(月) 05:12:32.89ID:2smzn43h
>>500
Webフォントを使う強みはページ読み込み速度の向上だと思うよ。
2019/07/01(月) 05:13:03.16ID:2smzn43h
>>500
あ、それと色とか大きさとかをCSSでより柔軟に調整できる。
2019/07/01(月) 12:02:58.02ID:liKrIWIO
SVGベタ書きがいいと思う
2019/07/01(月) 13:38:09.58ID:Ltl936Sg
WebフォントってDL待ちでむしろ遅いイメージしかないな…
2019/07/01(月) 16:21:02.28ID:MoEwNeEz
日本語だとどうしても…
サブセット化もこれから足してくコンテンツ考えるとあんまりいいソリューションとは…
2019/07/01(月) 19:16:16.83ID:2smzn43h
>>507
>>508
絵文字リガチャフォントだと高々100個くらいだから
日本語Webフォントの常識は当て嵌らんぞ
2019/07/01(月) 21:01:31.88ID:1h0unusf
推すなあ。
あえてこれ使いたいと思うならもちろん自由に使えばいいと思うが、
正直これを選ぶメリットがある局面はすごく限られてる気しかしない。
2019/07/04(木) 14:48:01.78ID:nXaEmuLe
ISO/IEC 10646:2017/Amd 2:2019 - Nandinagari, Georgian extension, and other characters
https://www.iso.org/standard/73773.html

いつの間にか完成していた。
2019/07/05(金) 07:31:35.09ID:CMdnJVDV
JISにも取り込まれるかな?
2019/07/12(金) 14:32:58.64ID:q8HbeEfz
>>97
BCってなに?
2019/07/12(金) 23:51:11.25ID:aHiS7zOG
ブラックキャップ
2019/07/13(土) 19:08:40.33ID:Wy302ne8
まじめに答えてほしかった。。。
2019/07/13(土) 20:43:48.97ID:tESkaNg7
����?
2019/07/13(土) 22:47:35.97ID:0DH1k/wL
>>516
何これ?
2019/07/14(日) 01:25:41.28ID:cxt0+A+5
ブラックキャップ
2019/07/14(日) 09:54:29.74ID:N6Jg+9Qo
ワロタ
520デフォルトの名無しさん
垢版 |
2019/07/14(日) 22:04:02.29ID:GSQZGuhE
>>513
>>97じゃないから確かなことは言えないけど
「better choice」じゃないかな?
つまり絵文字を「入れざるを得ない」ってことね。
2019/07/15(月) 03:44:17.27ID:GN7I2Kmp
単に後方互換だろ…
2019/07/15(月) 04:14:22.81ID:GXO+LVjR
BA-90使いたいのに斑の黄顔になるのはなんだかなー
2019/07/16(火) 23:08:05.64ID:6ZdisLnD
IC: 相互互換性
FC: 前方互換性
BC: 後方互換性
UC: 上位互換性
LC: 下位互換性
ちい覚えた
524デフォルトの名無しさん
垢版 |
2019/07/17(水) 11:56:39.82ID:FD/sfaX1
LeftとかRightとかCorrectは無いんか
2019/07/17(水) 16:54:36.95ID:Lq1+nMLH
>>524
correctはともかく左右は確実にねーだろw
526デフォルトの名無しさん
垢版 |
2019/07/18(木) 14:33:21.11ID:44Ax18Yo
共産とりっけんと社民社と国民主と令和革命はLC互換
2019/07/18(木) 23:12:28.17ID:BkvY1rKv
>>526
わろたw
2019/07/23(火) 15:56:55.39ID:vatz3/hX
https://github.com/qntm/base65536
↑Unicodeの基本多言語面を使ったエンコード方法w
2019/07/23(火) 17:04:19.76ID:yKl7I/yp
高度に発達したエンコードはMojibakeと見分けがつかない
2019/07/24(水) 00:37:51.21ID:ArGZw8p9
基本多言語面って制御文字含んでるよね。
それbaseXXの本来の意味を成してないw
2019/08/18(日) 16:07:01.10ID:zqR8kD3Y
W3Cのwebページが文字化けしてて草。
文字コードの本元の一つがこんな体たらくでいいのだろうか…w
https://www.w3.org/People/mimasa/xmldev.html.ja.sjis
2019/08/18(日) 17:27:15.46ID:wpOWgZAQ
読めるけど...?
2019/08/18(日) 23:04:31.46ID:8LEpKI7v
ISO-2022-JP のくせに content-type: text/html; charset=shift_jis で送ってきてるからなあ
2019/08/19(月) 01:20:35.42ID:JKQq3Dbg
(´・・∀・・`)ほう
2019/08/19(月) 06:07:28.33ID:xlQPwL5+
>>533
あ、そういうことか。と思ったけどChromiumだとどうしようもねぇわ。
最近のブラウザって文字コードを修正する機能みたいなのって消えてるね。
2019/08/19(月) 07:31:42.15ID:SJok1opV
>>535
Firefox68には文字コード指定が残ってる
通常は無効になってるけど>>531のリンク先を表示したときは有効になって
ISO-2022-JPを指定すると文字化けなしで読めた
2019/08/19(月) 08:38:57.28ID:xlQPwL5+
ところでW3Cって文字コードの制定とかに関わってたっけ?
XMLが使う符号化文字集合にUnicodeを推奨してるくらいじゃない?
538デフォルトの名無しさん
垢版 |
2019/08/20(火) 11:37:07.61ID:zlJnj2O9
>>531
これはひどいω
539デフォルトの名無しさん
垢版 |
2019/08/20(火) 11:39:07.12ID:zlJnj2O9
>>533
ファイル名まで .sjis つけてるくせになんで iso-2022-jp で保存してるのかイミフ
2019/08/20(火) 18:30:12.77ID:Gkd3xMH4
なんか同じような原因で文字化けしてるページに対して
同じようなレスをした記憶が…と思ったら前スレにあった。
記憶障害じゃなくてよかったw
https://mevius.5ch.net/test/read.cgi/tech/1516629503/821-843
2019/08/20(火) 21:44:07.86ID:Y189B2BT
HTMLをiso-2022-jpにするのって
どこの文化なんだろうか?

Windowsはsjisだからありえないし
Linuxも昔の普通はEUC-JPだろ?

iso-2022-jpはメールにしか使われてなかったはずだが
542デフォルトの名無しさん
垢版 |
2019/08/20(火) 21:47:57.43ID:UVunetX1
>>531
イシカワ マサヤスというのは誰だろうね。
2019/08/20(火) 21:51:25.41ID:Y189B2BT
イシカワ マサヤスさんでは?
544デフォルトの名無しさん
垢版 |
2019/08/20(火) 21:52:36.86ID:UVunetX1
石川雅康と石川哲志は親族だろうか?

どちらもICT業界から去ったのかな。
2019/08/20(火) 21:54:13.55ID:Y189B2BT
またつまらんものを
546デフォルトの名無しさん
垢版 |
2019/08/20(火) 21:58:33.22ID:UVunetX1
XHTMLが終わってしまって、そのまま放置の石川さん。
2019/08/20(火) 22:46:49.05ID:anpoimU7
>>541
sjisやeuc-jpが整う前は、HTMLをiso-2022-jpにするのも選択肢の一つだったらしい
ttp://www.tohoho-web.com/lng/199801/98011002.htm
548デフォルトの名無しさん
垢版 |
2019/08/20(火) 23:01:02.75ID:UVunetX1
>>547
http://の先頭のhを取っても付けても同じですよ。
2019/08/20(火) 23:43:43.88ID:Gkd3xMH4
> どこかの雑誌で、「charset=iso-2022-jp は自動判別の指定」と堂々と紹介された
http://web.archive.org/web/19980116120529/http://www.pro.or.jp/~fuji/horrible/horrible.kanji.html
えぇ……。
550デフォルトの名無しさん
垢版 |
2019/08/21(水) 00:08:09.19ID:/FRdjxvW
1998年当時のWebブラウザはキャラクタセットの判定すら怪しかった。
2019/08/21(水) 02:35:13.27ID:GZen3C6t
>>549
そのリンク先に書いてあるけど、iso-2022-jp が使われてるのはMSが発端なのか?

> name="GENERATOR" content="Microsoft FrontPage 2.0"
> というのが各HTMLファイルの先頭にあることから、Microsoft の FrontPage が 漢字コードがシフトJISのファイルであるにもか かわらず、iso-2022-jp の指定するからではないかと思われます。
552デフォルトの名無しさん
垢版 |
2019/08/21(水) 03:44:23.93ID:jDiMObB6
>>540
流れは似てるが今回は指摘されてるURLが問題なんだろ
よりによってアイツがってやつさ
553551
垢版 |
2019/08/21(水) 05:07:33.18ID:GZen3C6t
あ、違ったわ。MSのはMicrosoft FrontPage 2.0がmetaタグの指定を間違ってるって話で
HTMLの内容がiso-2022-jpというのはまた別問題か

sjis以外あるかな?ってやってみたら他のエンコーディングも見つかったし
>>531は単なる文字コード変換ミスかな?

https://www.w3.org/People/mimasa/xmldev.html.ja.aaaaa
554デフォルトの名無しさん
垢版 |
2019/08/21(水) 14:49:37.63ID:ur92HW83
拡張子付け間違いか
2019/08/22(木) 06:16:14.71ID:mlpPC2JR
ブラウザって一時だけでも拡張子によって文字コードを判断してた時期があったの?
俺の記憶にはないのだけども……。
2019/08/22(木) 06:36:57.94ID:jM8tCXZ0
だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jisなのに
中身がiso-2022-jpなんだってば

iso-2022-jpが使えるテキストエディタで書いたか
sjisに変換すべきところをiso-2022-jpに変換してしまったということ
昔のWindowsで書いたならsjisになるだろうから変換ミスかなって話
2019/08/22(木) 08:04:31.58ID:jlFkmCtz
jisって拡張子ならiso-2022-jp(JISコード)なのは意図通りだろ
HTTPヘッダのcharsetが食い違ってるだけで
558デフォルトの名無しさん
垢版 |
2019/08/22(木) 09:50:35.92ID:xQsiKIbM
鯖の仕様が変わってcharsetのデフォが変わったからな
サーバー引越のときに設定間違えた可能性はあり得る
2019/08/22(木) 10:23:09.36ID:jM8tCXZ0
>>557
拡張子はjisじゃなくてsjisな
だからドキュメントの文字コードが明らかに間違ってるんだよ
2019/08/22(木) 10:30:34.86ID:jM8tCXZ0
昔のブラウザはHTTPヘッダのcharsetよりも
ドキュメントからの文字コード判定の方を重視していた。

なぜならセキュリティというかサーバー運営者がよくわかっておらず
設定変更の必要性を理解できていなかったので設定されてなかった
たとえ設定変更ができるサーバーでもユーザーが理解していなかった

そんな時代だからブラウザで表示できれば良し程度のレベルが普通で
今からするとチェックが甘かった。その当時の間違った文字コードのページが今も残っている。

たぶんこんなところ
561デフォルトの名無しさん
垢版 |
2019/08/22(木) 10:33:49.69ID:8JJS2LZD
>>559
お前のレスの >>556 には jis って書いてあるだろω
お前が原因
2019/08/22(木) 10:35:00.76ID:jM8tCXZ0
>>561
単なる書き間違えじゃね?
リンク先見ればわかるでしょ
563デフォルトの名無しさん
垢版 |
2019/08/22(木) 10:38:26.99ID:8JJS2LZD
>だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jis

こういうおっちょこちょいが >>531 みたいなミス連発するんだろうな
2019/08/22(木) 15:58:03.72ID:mlpPC2JR
皆さん落ち着いて
2019/08/23(金) 17:29:19.40ID:bWgnQwQ7
なんでUTF8以外違法になった今そんな話してんだか・・・
2019/08/23(金) 17:59:07.09ID:UifFOlyJ
× 違法 ○ 非推奨
2019/08/24(土) 00:05:20.43ID:Ka96Zrl8
秘宝とか緋水晶とか何の話をしてるんだ?
2019/08/25(日) 20:34:39.12ID:++G8a3I1
ムーンプリズムパワー!メイクアップ!
2019/08/25(日) 22:05:01.03ID:E2o3oeEK
タリスマン
2019/08/25(日) 22:36:09.44ID:heTmUHGD
クリマタスミ
2019/08/28(水) 13:35:52.48ID:AiVdwxrR
ひまだ
572デフォルトの名無しさん
垢版 |
2019/08/28(水) 19:19:16.62ID:lfvHhqTB
サクラエディタがとうの昔にUTF32対応していた事実をいまごろ知った。
2019/08/28(水) 20:04:07.93ID:FG4A80Dg
じっさい32じたいそんな使わないだろw
2019/08/29(木) 18:28:30.40ID:VG5IecJ5
でもUTF-16の「どんな文字でも固定ビット幅」という利点が失われてしまった今,
固定ビット幅が実現できる唯一の規格であるUTF-32は希少では。
2019/08/29(木) 18:42:08.11ID:y3rrvHgi
読むぶんにはナイーブな実装で足りるからいいけど実際使うとなったら00が無駄に思えてきて敬遠しがち
だからもしかすると文字コードでさえ適材適所なのかと考え始めている
576デフォルトの名無しさん
垢版 |
2019/08/29(木) 18:49:00.69ID:1ks18uap
内部表現は32bit単位で固定長の方が楽
ファイル読み書きのときはutf-8で勝利
あとはcps932が滅ぶのを待つだけ
2019/08/29(木) 19:05:33.35ID:VG5IecJ5
OSのインターフェースはUTF-8,内部表現はUTF-32が一番いいのかもね。
UTF-32だとASCIIに比べて単純計算で四倍弱の容量を食ってしまうのが難点。
でもOSの本体くらいならそもそもテキストとして表現されてるファイルも少ないし案外肥大化は防げるのかも。
578デフォルトの名無しさん
垢版 |
2019/08/29(木) 19:09:37.98ID:CAV+1+Xc
という会話を何年も前にこのスレで観た
2019/08/29(木) 19:11:19.48ID:YrWceYNE
複数のコードポイントのシーケンスで一文字を表現するUNICODEだから
UTF-32でも一文字が32bitで収まるとは限らないからUTF-8でも大差ない
580デフォルトの名無しさん
垢版 |
2019/08/29(木) 20:02:33.30ID:jljmwQsV
プログラミング言語C++に関していうと、x64版Linux用gccは既定でwchar_tのサイズが4バイト。
つまりx64版Linux用gccはstd::wstringがUTF-32。誰も使っていないように見えてそうでもない。
2019/08/29(木) 21:00:32.68ID:FJllEP/G
【名案】0〜9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021−65018=3」ってどう書くの?
https://togetter.com/li/1396827
2019/08/29(木) 22:50:02.31ID:azXlKn0W
UTF-16でも8バイト必要なのに、32bit(4バイト)に収まるわけ無いだろうw

漢字1文字が最大8バイト、Unicodeの「IVS」とは?
https://tech.nikkeibp.co.jp/it/article/COLUMN/20100126/343783/
583デフォルトの名無しさん
垢版 |
2019/08/29(木) 23:01:38.50ID:jljmwQsV
UTF-8だけで必要十分という結論に到達せざるをえない現実
2019/08/29(木) 23:09:19.19ID:azXlKn0W
逆なんだよな。
本来UTF-32だけで必要十分だったのにどんどん複雑にしていって、
UTF-32でも不便になったからUTF-8でいいでしょ?
どうせ単純には扱えずライブラリ使うしか無いんだから。
という必要十分な文字コードを捨てたというのが現実
585デフォルトの名無しさん
垢版 |
2019/08/29(木) 23:11:55.32ID:jljmwQsV
宇宙に存在するすべての知的生命体が用いている文字すべてを網羅するのがUnicodeの理念。
たったの32bitで足りるわけがない。
586デフォルトの名無しさん
垢版 |
2019/08/30(金) 00:11:25.73ID:h/StilS8
文字コードのスレッドなのにUnicodeがわかっていないやつらばかりw
2019/08/30(金) 01:01:22.62ID:LpXSw35l
UTF-32じゃなくてUCS4じゃないの?内部コードに便利なのは
2019/08/30(金) 01:29:38.44ID:/ghu33Nb
>>586
ではどうぞ御説明をどうぞw
589デフォルトの名無しさん
垢版 |
2019/08/30(金) 13:00:23.27ID:oVszNH41
>>579
codecvtは糞だ
590デフォルトの名無しさん
垢版 |
2019/08/30(金) 13:03:12.55ID:oVszNH41
>>580
だった
まあどっちでもいいけど
591デフォルトの名無しさん
垢版 |
2019/08/30(金) 15:32:59.58ID:6uSriybI
>>588
UTF-16を16ビットで1文字を表すと思い込んでいる人間がいるが、16ビット単位でデータ扱うだけで、1文字が32ビットのこともある。
2019/08/30(金) 15:56:24.57ID:iPGqG8dk
>>591
それぐらいみんな知ってる
593デフォルトの名無しさん
垢版 |
2019/08/30(金) 17:05:21.42ID:GEn/r+mZ
>>592
それぐらいみんな知ってる
594デフォルトの名無しさん
垢版 |
2019/08/30(金) 17:19:36.31ID:57FOZgRt
ビットサイズ固定でどうにかなると思っていた時期が俺にもありました。
595デフォルトの名無しさん
垢版 |
2019/08/30(金) 17:27:36.02ID:GEn/r+mZ
定期
貼れるんかこれ
https://qiita.com/yumetodo/items/54e1a8230dbf513ea85b
2019/08/31(土) 10:08:53.77ID:0iGUnrw4
>>591
スレの流れみた?UTF-32の話をしてんだぞ?
597デフォルトの名無しさん
垢版 |
2019/08/31(土) 15:33:43.16ID:SHne0DDt
>>596
そのまえ
598デフォルトの名無しさん
垢版 |
2019/08/31(土) 15:35:30.15ID:SHne0DDt
6 仕様書無しさん sage 2019/08/31(土) 11:36:13.12
日本人ならUTF16を掲げるJavaを支持すべきだ
2019/08/31(土) 15:37:04.56ID:3i1dPJsj
>>598
それは理由が書いてないから、読む価値ある?
2019/08/31(土) 15:45:23.47ID:4qIvp+ND
なんで毛唐の決めたコードを支持するのか、意味が分からん
ネットウヨの類は米英には尻の穴まで晒すようだし困ったものだ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況