文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2015/10/25(日) 03:36:16.82ID:fgAWLXG9
>>12
同意
古いのが多すぎるし
2015/10/25(日) 12:49:19.83ID:ekYyyren
>>12
引き継がないとはどういう意味ですか?
2015/10/25(日) 18:50:42.59ID:zgU7ZYeY
3-5と9はもうテンプレから外していいんじゃないかなって話かと

20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ
2015/10/25(日) 19:24:02.31ID:A/UjGnAW
>>3-5はいらないけど、しれっと>>9を紛れ込ませるのは許さん
2015/10/25(日) 19:33:16.94ID:8Ekj0BDy
>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉
2015/10/26(月) 20:48:28.23ID:hvOVpGBH
絵文字馬鹿のOむかつく
とっとと干されりゃいいのに
2015/10/27(火) 07:41:18.41ID:ecThD4uO
ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。
2015/10/27(火) 23:40:44.85ID:b1wh6dDM
Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。
2015/10/28(水) 02:14:09.30ID:6/ByidLc
ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。
2015/10/28(水) 07:10:47.43ID:en6I5N16
>WAVE DASHの問題はMSが独自の変換表を使ってるから

どうしてこういう見え透いた嘘を平気でつけるんだろうか
2015/10/29(木) 20:27:41.85ID:Lz+b+/gX
>>29
無知?それとも俺には問題ないという青年の主張?
2015/11/02(月) 21:17:58.86ID:AsQYV5Wm
>>29
勉強し直そうね
2015/11/02(月) 21:18:31.16ID:AsQYV5Wm
>>28
ほんまそれ
2015/11/03(火) 04:49:27.68ID:i5nTnJv9
逆Sの記号ってなんでないんだろう?
2015/11/03(火) 05:49:15.31ID:zO1n76ez
M?
2015/11/03(火) 07:38:16.60ID:sxF23lrF
Ƨ
2015/11/03(火) 17:26:02.76ID:P1Dl09Tr
クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。
2015/11/04(水) 00:41:30.22ID:L8/5F95r
肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。
2015/11/04(水) 01:28:04.95ID:uMca4o1w
向きが90度ずれない?
S字のを2個連結すれば戻るけど2個使い前提の道具なの?
2015/11/04(水) 16:58:03.51ID:QtO4ndAT
あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか?

>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う
2015/11/05(木) 23:49:21.72ID:clXjiXU8
スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた

これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと?
2015/11/05(木) 23:59:17.68ID:gSAo/oaU
ふつうに考えるとそうだろうな
2015/11/06(金) 06:30:43.46ID:6Ax8SlYK
>>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。
2015/11/07(土) 23:09:16.59ID:NHx999Nj
http://wired.jp/2015/11/07/finland-national-emoji/
2015/11/08(日) 14:35:15.95ID:y8uRNach
お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。
2015/11/08(日) 17:13:00.26ID:BjW4Fik6
絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。
2015/11/09(月) 00:23:08.17ID:loOQ2SCd
作った奴と押し込む奴は往々にして別、
2015/11/09(月) 01:28:50.80ID:9QpSgphP
>>46
?
2015/11/09(月) 07:42:22.13ID:L+fm0eEi
さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか
2015/11/09(月) 09:49:40.58ID:Yjqxj+LL
nokiaの端末に入っちゃったんでしょう?
2015/11/09(月) 14:08:54.96ID:wh2HsxEX
Unicode 10.0あたりになったら収録されるんだろうか?
2015/11/09(月) 22:16:17.29ID:yLbPQAdL
>>49
そうなの?文字として?
2015/11/09(月) 23:44:45.41ID:BJx9eA+t
ビットコインマーク、Unicodeに収録へ | スラド IT
http://it.srad.jp/story/15/11/09/055230/
Bitcoin 'B' Approved By Computer Text Standards Body
http://www.coindesk.com/bitcoin-unicode-symbol-approval/
http://www.unicode.org/L2/L2015/15229-bitcoin-sign.pdf
2015/11/10(火) 12:10:29.99ID:tU9IcOly
ペリカもはよ
54デフォルトの名無しさん
垢版 |
2015/11/11(水) 22:12:58.76ID:mDE1AFdu


55& ◆Pw.ZL0FkaP42
垢版 |
2015/11/11(水) 22:13:45.21ID:mDE1AFdu
s
2015/11/11(水) 22:23:37.04ID:rMaJFptQ
GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。
2015/11/11(水) 23:13:58.34ID:oIjjO58x
シュエエアィサィ的な使い方を想定していたんじゃなかろうか
2015/11/12(木) 23:09:21.24ID:fGMv4NR4
しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。
2015/11/13(金) 14:48:06.39ID:tDbTQZeN
韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。
2015/11/13(金) 16:17:05.05ID:UEuwKYUJ
日本語の文章捏造するために必要だから
2015/11/13(金) 17:57:15.36ID:P1S0o/po
GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した
2015/11/14(土) 12:15:58.19ID:cxUMG3m7
そういうのは嫌韓嫌中スレでやってねw
63デフォルトの名無しさん
垢版 |
2015/11/14(土) 16:21:16.08ID:JBEqdozk
Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない
2015/11/14(土) 16:31:04.02ID:1yIT8GQx
文字コード関係なし
2015/11/18(水) 16:49:52.57ID:UgIpz7zK
すみません
今ISO-IRの資料を収集してるんですが

http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt

の対応表ファイル持ってる方いらっしゃいませんか?
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。
2015/11/19(木) 01:28:49.91ID:Cr0FNu0Z
これ?
https://www.itscj.ipsj.or.jp/iso-ir/232mapping.txt
2015/11/20(金) 02:58:25.44ID:n24r8VSJ
人名漢字など「文字情報基盤」約6万字の暫定私用コードと対応フォント公開 -INTERNET Watch
http://internet.watch.impress.co.jp/docs/news/20151117_731123.html
2015/11/20(金) 16:27:32.87ID:Q3IEXjzg
>>66
そう、これです!
ありがとうございます!

ずっと
http://www.itscj.ipsj.or.jp/

http://kikaku.itscj.ipsj.or.jp/
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。

ありがとうございました。
2015/11/21(土) 03:23:51.12ID:YeqL1+4P
gbkの ひらがな はEUC-JPと互換性がある

ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される
2015/11/21(土) 06:36:56.04ID:GdR6w5S8
お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても
71デフォルトの名無しさん
垢版 |
2015/11/21(土) 14:00:50.43ID:EEYvP2Nj
>>70
EmEditor と 日本語しか対応してないものはすべて同様なんだが

英語圏の方がまとも
2015/11/21(土) 14:57:31.75ID:w+2inzGV
全てって…
具体名を十個挙げてみてくれ。
2015/11/22(日) 15:40:38.08ID:CReeeeGe
仕様と実装をごちゃ混ぜにしないでほしい
2015/11/24(火) 07:50:30.03ID:CRysEeOZ
grepをutf16対応にして欲しいわ
2015/11/24(火) 12:09:48.94ID:BW2JWDBU
>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど

EmEditorはgbk / big5も表示可能だが自動識別はダメ
2015/11/24(火) 16:09:46.89ID:y63rqxtS
EUC系の自動判別には限界があるってだけの話じゃないのそれ
2015/11/24(火) 17:13:28.90ID:AzY4Y1Jb
馬鹿に言ってもしょうがないんだよなあ
2015/11/24(火) 21:06:35.37ID:T8a74y+F
文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください
2015/11/25(水) 13:54:24.53ID:5G4DFNSQ
文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな
80デフォルトの名無しさん
垢版 |
2015/11/25(水) 21:01:53.81ID:Bzkw7eST
>>74
utf-8でガマンガマン
2015/11/26(木) 10:04:26.60ID:esn3xG4v
プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね
2015/11/26(木) 18:52:12.64ID:V1IifTg+
>>81
それな。
動きおかしいと思ったらハイフンついてたとかある。
83デフォルトの名無しさん
垢版 |
2015/11/26(木) 20:23:24.34ID:k6+g+Go3
>>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ

utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな
2015/11/26(木) 22:39:18.80ID:i5VTRdPj
>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。
2015/11/26(木) 22:43:40.69ID:i5VTRdPj
>>83
> ANSI(s-jis)

糞表現w
86デフォルトの名無しさん
垢版 |
2015/11/26(木) 23:24:19.12ID:dmQOYIsX
>>85
悪かったな


糞やろう。
2015/11/26(木) 23:37:04.25ID:o1tgPu22
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ
2015/11/26(木) 23:41:50.71ID:1gB3GczG
お前が馬鹿だ
89デフォルトの名無しさん
垢版 |
2015/11/27(金) 07:32:51.99ID:B8BSEsh/
>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな?
コマンドですか? GUIですか?
コマンドなら、画面の環境に依存したりする
2015/11/27(金) 15:43:44.97ID:ssdfMMFk
>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。
91デフォルトの名無しさん
垢版 |
2015/11/30(月) 21:59:17.66ID:jgXroiuo
「して欲しい」じゃなく自分でやってみればいいのに。
92デフォルトの名無しさん
垢版 |
2015/11/30(月) 22:34:12.03ID:CwTedwfo
UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?

仕事仲間がそう言ってたけど不安。
2015/11/30(月) 22:58:14.64ID:/7/T57pL
そういう曖昧な表現なら答えはyesでありnoでもあるだろう
2015/12/01(火) 02:33:52.32ID:juK8PVcx
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい

# 日本人にとってUTF-8がいいわけない
2015/12/01(火) 02:44:11.35ID:juK8PVcx
ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.

3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.

http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com
2015/12/01(火) 03:51:29.82ID:Ik5f2d1Y
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな

UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった

$ wc -c 1444822140-*
 26775 1444822140-cp932.dat
 40234 1444822140-utf16.dat
 33434 1444822140-utf8.dat

ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない
2015/12/01(火) 10:01:27.63ID:2Tu3vetc
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える

%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93

とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。
2015/12/01(火) 19:29:51.08ID:k1p/Pdr9
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。
2015/12/01(火) 20:03:05.10ID:ampHwdqN
別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ
2015/12/01(火) 20:18:47.62ID:cchxtPU5
>>94
そんな程度のことでutf-8を辞める訳にはいかない。
2015/12/01(火) 20:40:03.81ID:RA+mqEJ1
>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない
2015/12/01(火) 22:44:13.88ID:/t42lLyY
URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ
2015/12/01(火) 23:03:02.39ID:csnzGfyE
なんでやめないといけないぷに?
いいじゃないかぷに。
2015/12/02(水) 01:31:49.86ID:3/uIxAsF
日本語のソート順くらい日本人に決めさせろや
2015/12/02(水) 09:35:48.18ID:wYxvpGTD
人の感覚じゃなくて、機械的な感覚がないと・・・
2015/12/02(水) 10:05:36.38ID:amR8vvu9
>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。
2015/12/02(水) 10:18:22.35ID:wYxvpGTD
JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・

脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・
2015/12/02(水) 13:55:56.97ID:NJ9kFAss
日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。
2015/12/04(金) 12:30:36.89ID:ujmgtERp
最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。
2015/12/04(金) 12:38:17.66ID:kxI+vXrK
シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。
2015/12/04(金) 12:53:33.88ID:gpSQ8UEd
でもJISコードなら希望通りのソートができるわけでもないだろ
112デフォルトの名無しさん
垢版 |
2015/12/04(金) 14:24:16.07ID:616grxEX
何のために仮名文字があると思っているのか。
2015/12/04(金) 18:29:07.64ID:zfbjjPeM
文字コード順でソートしてるアホ
2015/12/04(金) 20:17:25.57ID:urrQLDlj
いつまでたっても文字集合順序バカはいなくならないね。

全てのいじたいに
2015/12/05(土) 09:09:04.31ID:0xZl9ZTr
半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える
2015/12/05(土) 10:43:28.38ID:oE97tTMi
なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?
2015/12/05(土) 11:20:47.89ID:VAg3AW+y
>>116
アメリカ人がバカだから
2015/12/05(土) 19:58:46.22ID:kjmBg6FK
>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。
2015/12/05(土) 20:50:07.85ID:K2AVyHLa
>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。
2015/12/06(日) 00:47:45.72ID:ods/Bdie
英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況