文字コード総合スレ Part11

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/07/27(金) 22:09:52.68ID:N1oOfHi2
元首の交代に伴って変更される紀年法をまだ使ってる国なんて他にあんのかね
2018/07/27(金) 23:53:13.41ID:G98hsmYh
まず無いだろうけど、もし新元号が現時点でUnicodeに無い漢字を使うものになったら
統合漢字のURO末端に緊急追加になるだろうな。
2018/07/28(土) 01:26:08.91ID:YvWIBfUX
>>566
その前に国内のシステムがおかしくなるよ。
常用漢字から選んでくれないと。
568デフォルトの名無しさん
垢版 |
2018/07/28(土) 14:53:59.34ID:39ICzHjE
M明治
T対象
S昭和
H平成
A麻原
2018/07/28(土) 14:57:49.43ID:gid9j1yM
ゆぁ〜えーびぃ〜すぃ〜ん♪
2018/07/30(月) 00:49:54.80ID:/AsJWau1
>>564
そういえばあれって三代目用の文字もあるのかな?
2018/07/31(火) 17:52:18.88ID:A7NyuH1x
将軍様専用ハングル以外にUnicode未収録文字は縞模様の三角とか謎の記号がいくつかあったな。
北朝鮮で使われてるRed Star OSではUnicodeが使われてるけどこれらはPUAに割り当てられてる。
因みにWindowsの北朝鮮版は無い。

>>570
2012年頃の改訂で追加されたらしい。
2018/07/31(火) 23:58:28.90ID:NbiBz0uu
新元号組み文字はJIS X0213には入れるのかな。
入れるとしたら~の1つ前の1面13区62点、シフトでJIS0x877D辺りか。
2018/08/02(木) 01:17:44.00ID:OU+qDqBT
専用ハングルはなんで「金」とか「日」とか重複する文字を代ごとに別々に入れてるのか謎
2018/08/02(木) 01:31:21.78ID:A1dOXp8b
>>573
謎か?
2018/08/02(木) 04:36:12.48ID:0KRWeg2T
最近の文字コードやばない?
2018/08/02(木) 08:45:58.28ID:XfZDNvg1
文字コードとしては謎だろ
担当は何をしているのか
指摘どころか質問した時点で解雇されるルールでもあるのかよってくらいに謎だわ
2018/08/03(金) 00:21:52.08ID:SeT2nEoR
やっぱおじいちゃんの金とおとうさんの正をを孫に使ったりしたら怒られるのかな。
グリフを見ただけで誰用の金なのかを見比べるスキルが必要になるんだろうな。
2018/08/03(金) 20:44:28.67ID:TC+4ZTQW
nkfコマンドってなにもオプション指定しないでも文字化け直してくれるんだなw
どうやってるのか知らなくて怖いが(普段はiconv(1)を使ってる)
579デフォルトの名無しさん
垢版 |
2018/08/04(土) 01:43:06.83ID:i5vBNvJr
美乳
580デフォルトの名無しさん
垢版 |
2018/08/04(土) 02:59:33.13ID:iDjKbl2c
>>579
今時EUC-jpが生きてるシステムってあるの?
2018/08/04(土) 04:56:17.77ID:iUNKVgUH
文字コードの自動判別は、100% 正確じゃない

間違うこともある
582デフォルトの名無しさん
垢版 |
2018/08/04(土) 09:23:39.15ID:LcV/uUAN
bit 順に意味があるんだろうけど
"\xC8\xFE\xC6\xFD"
なんでこれで自動検出できるかの説明が欲しい
2018/08/04(土) 09:42:12.43ID:eMjkhZRT

http://www.shtml.jp/mojibake/binew.html
2018/08/04(土) 16:00:30.01ID:qslvxdhp
UnicodeはUCS-4を基本形にして
UTF-8はUCS-4の圧縮版のような扱いでいいんじゃないか
UCS-4ならCode Chartsに書かれている値をそのまま使うから分かりやすいし
UTF-16は廃止してもいいと思う
2018/08/04(土) 22:01:13.64ID:TFSU2vbY
わざわざ廃止とかデメリットしかない
2018/08/04(土) 22:35:16.02ID:sXotmGKy
WindowsのAPIがUTF-16ベースなのに廃止とか無理でしょ
2018/08/04(土) 23:38:59.79ID:Xh+3QD0k
pcre はutf8対応が不完全。無理もない話だけど。
文字コードのライブラリを作る人からすればutf8よりも、utf16やutf32の方が便利。
2018/08/04(土) 23:53:51.88ID:9dBFGr/9
そのutf-8の問題は utf-16でもutf-32でも同じなのでは
2018/08/05(日) 03:05:25.66ID:lHG7kQYc
seekがめんどくさいのがUTF-8の問題だと思うんだけど違うの?
2018/08/05(日) 03:36:24.64ID:oEhLV38F
UTF-16はUTF-8とUTF-32のデメリットを兼ね備えていて、
メリットが無いような気がする。
2018/08/05(日) 04:33:54.11ID:kXrZdLCy
このスレに来るような人が、どうしてutf8とutf16/32が同じと思うのか不思議。
自力で文字判定処理をやったことがないスクリプト言語プログラミング一辺倒の人?
2018/08/05(日) 08:22:11.27ID:RknsX4qY
>>591
文字コードに習熟したプログラマしかここに来ちゃいけないのかい?
俺みたいにユニコードとUTFの違いすらよくわからない者が情報を求めて
ここに通うこともあるんだぜ
593デフォルトの名無しさん
垢版 |
2018/08/05(日) 08:42:30.75ID:kXrZdLCy
pythonなんて内部の文字コードutf16だよ。
使う側が意識せずに済んでるってのがむしろ凄いわけで。
utf16要らないとか言ってる人は、事業仕分けでドヤ顔する民主党議員だわ。
2018/08/05(日) 10:13:37.02ID:lHG7kQYc
仕分けしたからモリカケだけで済んでるんじゃないの?
2018/08/05(日) 12:03:49.97ID:LsZm/jJA
本当だよ
無駄な予算にかけようとするこういうバカは消えてほしい
2018/08/05(日) 14:46:05.09ID:mhm3uufJ
UTF-16はいきなり廃止するのは無理でも
新規設計非推奨くらいにはしてほしいよ
2018/08/05(日) 14:49:57.92ID:SfajzAT9
WinAPIでUTF-16使ってるから廃止は無理でしょ
2018/08/05(日) 15:00:37.79ID:mhm3uufJ
UTF-16は世界中の文字を固定長で表せるようにすることが目標だったから
16bitではそれができないと分かった以上32bitに変えるべき
2018/08/05(日) 20:42:38.42ID:kXrZdLCy
linux64bit版gccは、wchar_tやstd::wstringが既定でutf32だし、徐々に変わっていくでしょう。
2018/08/06(月) 11:54:02.02ID:wAAey1Ev
win32->win64のタイミングで変えとけばよかったのに
2018/08/06(月) 12:31:26.13ID:jTWGCXc0
もう一生UTF-16なのかな(´;ω;`)
602デフォルトの名無しさん
垢版 |
2018/08/06(月) 15:04:26.69ID:9QlJsUMm
>>600
ほんそれ
ついでにシステムロケールもUTF8はよ
2018/08/06(月) 19:56:04.82ID:RHl3d08a
必要な時にUTF32を使えればいいだけなのでそんなに深刻がらなくても大丈夫でしょ。
2018/08/06(月) 20:28:33.56ID:JHbMXthk
基本は8で臨時は32で答えが出ているよなあ
日本独自のJIS関係とかもう要らないし
2018/08/06(月) 21:09:19.10ID:J3hEGnZ9
そういえば新元号合字ってJIS X 0213とかCP932とかの系統にも入るのかな?
元号合字使ってるとこはUnicodeじゃない古いとこが多そうだからここに入れないと意味半減な気がするけど
2018/08/06(月) 21:18:55.92ID:RHl3d08a
印刷に使うワープロソフトはすべてunicode対応しているから大丈夫。
607デフォルトの名無しさん
垢版 |
2018/08/07(火) 04:59:39.09ID:OlmXtX1U
JIS改訂汁
2018/08/07(火) 17:57:38.63ID:ym2n+lOO
日本語とか東アジア言語はバイト数の面では
UTF8よりUTF16の方が有利になるのだが。
609デフォルトの名無しさん
垢版 |
2018/08/07(火) 18:02:30.52ID:pTM8y/Ns
そうでもない
2018/08/07(火) 19:58:16.46ID:4kVMfOQG
うむ
日本語などの2バイト圏でも8やで
2018/08/07(火) 21:15:40.62ID:FooseUHS
お経とかならそうかも
でも普通の日本語の文書はUTF-8で1バイトになる字がわりと使われてるよね
改行もバカにならない
2018/08/07(火) 21:38:24.37ID:d4J1pA0H
中国語ならUTF-16のほうが有利?
2018/08/07(火) 23:58:44.52ID:r6gcb8rL
エディタとかUTF-32に対応してないのが多いよな。
まあ、無駄が多いからな。最上位の1バイトは必ず0x00になるから。
2018/08/08(水) 00:28:20.77ID:rL4NvpAX
UTF-16は廃止してUTF-20を策定すべき
2018/08/08(水) 00:34:22.04ID:tqYMmDjs
UTF-24じゃないの
2018/08/08(水) 01:56:39.24ID:00np0Lo5
ランダムアクセスが一番早い文字コードはどれよ
2018/08/08(水) 02:09:19.94ID:kZ99Qrjg
余ってる場所を余計なことに使う奴が絶対出てきて、
それを根絶するのに凄い辛い思いをするからヤメレ。
2018/08/08(水) 04:24:19.86ID:tqYMmDjs
もうこれ人類的に根絶できないんだろうね
一生これなんだろうね
619デフォルトの名無しさん
垢版 |
2018/08/08(水) 04:37:42.38ID:XhOfYtOw
>>615
utf8でいいよ
2018/08/08(水) 08:35:31.20ID:/x3y+p/o
そういえば、utf9というのもあったな。36ビットコンピュータに最適だとか。
2018/08/08(水) 14:09:08.17ID:QoUOzAqb
UTF-7と言う変態も
622デフォルトの名無しさん
垢版 |
2018/08/08(水) 16:40:51.17ID:QemCzjVB
Base64
2018/08/08(水) 18:02:57.82ID:SZpNbR5J
UTF-24を策定するべきだな。
全ての文字を24ビット(3バイト)で表す。
UTF-32の0x00で固定な最上位バイトを省くというので。
BMP外の文字だらけの文章には有利になるだろう。
624デフォルトの名無しさん
垢版 |
2018/08/08(水) 22:53:07.77ID:jNIJWXgx
>>623
だな、固定長はUTF-24、可変長はUTF-8でいいだろう
2018/08/08(水) 23:15:02.85ID:oJrY5QK4
UTF16はいらないとかUTF24がよいとか、変な書き込みする人、同一人物?
CPUのレジスタは32bitまたは64bitなので、1バイトをコピーするのも4バイトをコピーするのも時間コストは同じだよ。
2018/08/08(水) 23:48:28.49ID:EMFNgHK2
1バイトと4バイトとかミクロの性能比較なんか殆ど意味無い
2018/08/08(水) 23:49:21.32ID:SCPSjdZ4
固定長だなんて幻想をまだ見てるの?
2018/08/08(水) 23:50:49.11ID:7IOaw32y
固定長の方が高速で便利ですやん
2018/08/08(水) 23:57:42.55ID:oJrY5QK4
>>626
大ありですよ。

>>627
固定長の方が条件分岐が減るので処理速度が高く、プログラミングもしやすい。
630デフォルトの名無しさん
垢版 |
2018/08/09(木) 01:13:33.46ID:BF3jeRnZ
>>626
ファイルサイズがでかくなればそれだけ処理をする回数が増えるからダイレクトに効いてくる。
631デフォルトの名無しさん
垢版 |
2018/08/09(木) 01:20:56.02ID:BtZU6oOJ
CPUひとつあたりの処理速度は10年前とあまり変わってないけど、搭載できるメモリの量は劇的に増えた。
内部実装がUTF32になって文字列リソースが2〜4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。
2018/08/09(木) 09:34:00.04ID:Z95VMlij
16は全然優しくない
24もアライメントを考えると優しくない
2018/08/09(木) 10:29:52.60ID:4BSOUm1q
よし128だ。
634デフォルトの名無しさん
垢版 |
2018/08/09(木) 10:44:02.84ID:NXkdt6vr
>>625
放っとけば居なくなるのに
2018/08/09(木) 11:03:48.44ID:Z95VMlij
>>633
合成やセレクタを撤廃できるのなら128でいいよ
636デフォルトの名無しさん
垢版 |
2018/08/09(木) 11:05:58.21ID:OVYf9YNp
UNCODEv6
2018/08/10(金) 22:27:21.22ID:GO9W3NJ8
UTF24とかメモリアクセス効率悪すぎるだろ。アライン考えろ。
情報交換用文字コードはエンディアンに依存しないUTF8。
内部用の文字コードはアクセス効率が良いUTF32。
貧乏人専用のUTF16。
それぞれ存在理由があるんだよ。
638デフォルトの名無しさん
垢版 |
2018/08/10(金) 23:01:06.31ID:d4sNno4d
Windowsの場合、プログラムを何も改修することなくUTF16でサロゲートペアの絵文字を使えているでしょ。
もちろん、文字フォントを描画するAPI、つまりマイクロソフトの中の人が頑張っているからだが。
2018/08/10(金) 23:24:23.95ID:d4sNno4d
まぁ、Windowsプログラムで、動的に絵文字の肌色・髪色・性別などを変えようと思ったら、
UTF16のサロゲート処理を自分で行う必要があるけどね。
2018/08/11(土) 00:03:26.88ID:Zp5HrM4G
>>637
24が駄目なら8はもっと駄目なんでないの?
2018/08/11(土) 10:22:26.41ID:/GDyR5Hs
だからUTF8は内部利用じゃなくて情報交換用なんだろ。
2018/08/11(土) 10:45:32.80ID:0HQvSoaX
SJISと取り決めてあるテキストデータにUTF8をぶっこんできた取引先があって
翌朝からの日本社会に大混乱を引き起こしかねない危機に晒された経験がある
UTF8滅ぶべしと俺は本気で思っている
2018/08/11(土) 10:58:00.76ID:kug6FRsz
エンコーディングは関係ないだろ。
決めごとを守れないその取引先と異常データを突っ込まれただけで混乱しちゃうプログラムの問題。
2018/08/11(土) 11:30:16.03ID:dFDFw6X4
何年か前に、地域の緊急速報のテストメールか何かに
エンコーディングを混在させて文字化けを地域住民に送って混乱させたのあったな
メールテンプレートのエンコーディングと、流し込む本文で混在させちゃったみたいな
645デフォルトの名無しさん
垢版 |
2018/08/11(土) 11:51:55.94ID:AWnFhpjF
ないしほてし活復を語本日く書に左らか右どけい良もでき書横
2018/08/11(土) 13:16:33.61ID:uKNQsIii
>>644
去年だぞ
2018/08/11(土) 15:11:54.76ID:uEbn4tPy
546<<
ケォヴわいくにみ読
2018/08/11(土) 15:47:35.74ID:UCIDniLJ
中東の言語は確か右からだったよな
やろうと思えば簡単そう
649デフォルトの名無しさん
垢版 |
2018/08/11(土) 15:56:48.16ID:A8A80vkf
TeXって右から書くのにも対応してるっけ
650デフォルトの名無しさん
垢版 |
2018/08/11(土) 18:33:53.99ID:Yf3CWOMt
sjisの〜とcp932の〜の違いって何?
〜を入力して検索すると、sjisのほうはヒットしないんよね
651デフォルトの名無しさん
垢版 |
2018/08/11(土) 19:10:44.45ID:HdyPScyr
>>650
「入力して検索する」
どうやって入力して何を検索するのか他人に分かるように書いたらどうか
入力側がUNICODEで変換不能とかじゃない
2018/08/12(日) 00:02:17.72ID:ZUsL8uZg
>649

ArabTeX を使えば出来ます
2018/08/12(日) 14:13:27.50ID:pjLEMieq
Draft Emoji Candidates
http://unicode.org/emoji/future/emoji-candidates.html
2018/08/12(日) 14:20:12.48ID:JT/5kO4h
絵文字がんがん増えてるけど、ぱっと見で見分けが付かない微妙なの多いよなぁ
655デフォルトの名無しさん
垢版 |
2018/08/12(日) 14:26:24.04ID:rtSL/abo
馬鹿は同じ過ちを繰り返す
2018/08/12(日) 14:35:29.88ID:x/eO0jlG
そのうち洗練されて象形文字になって、やがて漢字に…あれ?
2018/08/13(月) 14:33:07.24ID:1RU0E1KE
この際1byteを32bitか64bitにしたらどうよ
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる
658デフォルトの名無しさん
垢版 |
2018/08/13(月) 14:58:06.25ID:obMX332h
そうなんか?
16新数で2桁でちょうどいいからだと思ってた
659デフォルトの名無しさん
垢版 |
2018/08/13(月) 14:59:26.97ID:obMX332h
あと 8bit を 1byte というけど
4bit のことをなんていうの?
660デフォルトの名無しさん
垢版 |
2018/08/13(月) 15:02:02.90ID:L5U4GWSY
>>657
8bitや16bitのCPUはどうすんの?
2018/08/13(月) 15:15:08.87ID:fDt52YY1
>>657

32bitでも、64bitでも、好きな長さを「word」と呼べばいい。
これで、エンディアンの問題もなくなって分かりやすくなるんだよな。
2018/08/13(月) 15:19:57.39ID:mSGjli4I
>>659
ニブル - Wikipedia
https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%96%E3%83%AB

> ニブルは4ビットのことである。
663デフォルトの名無しさん
垢版 |
2018/08/13(月) 16:04:07.52ID:obMX332h
Thx!
DNCL
2018/08/14(火) 02:11:13.81ID:uURIoDLa
無理。各コンピュータ内部なら好きなビッド数にすれば良いけど、インターネットのほぼ全ての規格はオクテットが基準になってる。
インターネット全部作り直すくらいやらないと今更変更できない。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況