X



文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
0630デフォルトの名無しさん
垢版 |
2019/09/03(火) 10:34:53.29ID:gWEsYspA
JavaだってSunのプロプラ言語だぞ
0631667
垢版 |
2019/09/03(火) 12:40:23.25ID:JzHlK+VD
今は違うけどね
0633デフォルトの名無しさん
垢版 |
2019/09/03(火) 15:40:05.81ID:KovswbEV
Windowsの内部でCP932に依存している。
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる
0634デフォルトの名無しさん
垢版 |
2019/09/03(火) 16:56:31.60ID:MR8tgZNH
>>627
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり,古いカーネルや別の派生版との互換性が,Windowsのそれらに比べてない。
0635デフォルトの名無しさん
垢版 |
2019/09/03(火) 16:58:35.78ID:MR8tgZNH
>>628
当時PDFは国際標準にこそなってなかったが,
オープンフォーマットだったし,様々な場面で使われてた。
ただ描画ソフトがクソ重たいのしかなかった記憶がw
0636デフォルトの名無しさん
垢版 |
2019/09/03(火) 17:26:28.25ID:KovswbEV
>>634
だから多様性を重んじるっていうのは
競合するフォーマットが複数できるってことで
(例えば画像フォーマットや圧縮フォーマット)
Microsoftが独自フォーマットを作るのと同じ思想なんだよ
0637デフォルトの名無しさん
垢版 |
2019/09/03(火) 17:35:15.54ID:KovswbEV
>>635
> オープンフォーマットだったし
PDFはオープンではありませんでした。
プロプライエタリだって言ってるだろ
0638デフォルトの名無しさん
垢版 |
2019/09/03(火) 19:23:12.90ID:i0SweFPn
>>633
いつの知識なのかw

Windowsは表面的にはSJISで、内部ではUTF-16だ。
0639デフォルトの名無しさん
垢版 |
2019/09/03(火) 19:25:28.03ID:KovswbEV
> Windowsは表面的にはSJISで
ほらな、SJISじゃないって言ってんのにSJISだっていう
潜在意識レベルでそう思い込んでるから治しようがないw
0640デフォルトの名無しさん
垢版 |
2019/09/03(火) 19:51:10.42ID:9BNoj6TJ
WindowsというよりWindowsアプリが特定のOEMコードページやANSIコードページに決め打ちして作られてる物があるということだろ
他言語の状況は知らんけど日本語以外でも似たようなものだろうな
0641デフォルトの名無しさん
垢版 |
2019/09/03(火) 21:04:34.10ID:VgehgunL
Linuxの思想自体は多様性を重んじるのかもしれんが、ユーザーはそれに反して
「UTF-8以外死ね」みたいに言う奴多いよな。
0642デフォルトの名無しさん
垢版 |
2019/09/03(火) 21:08:34.33ID:KovswbEV
そうはいってもLinuxはASCIIと互換性がない文字コード(例 UTF-32)は死ねだからw
影響範囲が大きすぎて、LinuxはUTF-16とかUTF-32には事実上対応できないんだよね
0643デフォルトの名無しさん
垢版 |
2019/09/03(火) 21:51:19.99ID:kvsGhJj2
文字集合を符号化するのは、文字の区切れが判断できないからって解釈してんだけどあってる?
0644デフォルトの名無しさん
垢版 |
2019/09/03(火) 22:15:09.34ID:18+sQUYN
>>634
>多様性を重んじる。俺はそっちのほうが好きかな。

ところでホモにつきまとわれたらどうする?
0646デフォルトの名無しさん
垢版 |
2019/09/04(水) 04:00:00.76ID:xGPrnpMI
>>644
ホモであることは否定しないが、ホモは嫌いという俺の感情も尊重していただきたい
これが多様性だ!
0647デフォルトの名無しさん
垢版 |
2019/09/04(水) 09:16:30.39ID:n47u8TF1
>>645
ホモにつきまとわれて困ると友人にこぼしたら、
性癖を暴露されたとか言われて更に嫌がらせで自殺された事件?
ああいうの見てると、ホモの権利拡大とかしちゃいかんよなって思うよなあ
0648デフォルトの名無しさん
垢版 |
2019/09/04(水) 18:11:05.05ID:gX5VYMvu
>>639
Windowsが作るシステムファイルもSJISですよ?
0650デフォルトの名無しさん
垢版 |
2019/09/04(水) 18:52:19.95ID:gX5VYMvu
>>649
延々と嘘を書くのはやめてもらえませんか?
0652デフォルトの名無しさん
垢版 |
2019/09/04(水) 19:24:35.38ID:gX5VYMvu
妄想か
0656デフォルトの名無しさん
垢版 |
2019/09/05(木) 01:09:51.35ID:rtvg+Hab
補足すると、Unicodeは文字列集合で
符号化方式がUTF-16やUTF-8など
どの符号化方式であってもUnicodeといえる

>>655
さて、何か言い返したい言葉は有るかね?
0657デフォルトの名無しさん
垢版 |
2019/09/05(木) 01:11:05.81ID:rtvg+Hab
どうせ言い返す言葉は無いだろうから
待ってても時間の無駄なので先に言っておくと
何も言わない or 捨て台詞はくだけ なら俺に喧嘩売らなければいいのにw
0665デフォルトの名無しさん
垢版 |
2019/09/05(木) 12:58:50.41ID:5R9ffMew
どーしても我流を貫きたいんだなw
まあ他人の人生だから干渉するつもりはないが,そういう生き方は苦労すると思うぞ?
0668デフォルトの名無しさん
垢版 |
2019/09/12(木) 12:43:49.99ID:vEKot6kT
本当に短縮したいところは日本語ページのパーセントエンコードされたところだがうまくいかないもんだな
0670デフォルトの名無しさん
垢版 |
2019/09/13(金) 10:11:35.77ID:wKEqF87n
文字通り文字コードのエンコードを間違えてるんだろう
0674デフォルトの名無しさん
垢版 |
2019/09/14(土) 00:23:57.48ID:FV8dJ/wR
絵文字などサロゲートペアが必要な領域をUTF-7で表現するとUTF-32よりもバイトサイズが大きくなる。まめな。
0675デフォルトの名無しさん
垢版 |
2019/09/14(土) 11:56:27.23ID:mIZ3m5oP
utf-7が使われてる環境とかデータとか出会ったことが無い
0680デフォルトの名無しさん
垢版 |
2019/09/15(日) 10:05:21.58ID:tu3q64lr
>>678
違う

君の理屈だと中国はチベットの一部ということになる
0682デフォルトの名無しさん
垢版 |
2019/09/21(土) 16:46:43.93ID:7QW0JGF+
UTF-8もUTF-7も「ASCII互換にしようと思えばできる」文字符号化方式で
UTF-16/32は端から過去互換性を捨ててるっていう理解OK?
0683デフォルトの名無しさん
垢版 |
2019/09/21(土) 17:12:22.41ID:icgczTg/
互換の意味判ってるか?
0687デフォルトの名無しさん
垢版 |
2019/09/22(日) 12:48:42.82ID:Uxh+z88Q
684デフォルトの名無しさん2019/09/21(土) 17:13:19.94ID:AMltcnvP
>>682
ちゃんと仕様読め

685デフォルトの名無しさん2019/09/22(日) 02:18:18.82ID:tTe+mIIa
>>682
意味がわからない

686デフォルトの名無しさん2019/09/22(日) 11:35:45.78ID:LQCFANDg
>>682
OK

----
どういうことなの…
0690デフォルトの名無しさん
垢版 |
2019/09/22(日) 22:18:40.20ID:sBc79exV
揚げ足取り終了。

質問。皆さんが普段使っている文字コード変換ライブラリでおススメはなんですか。
0691デフォルトの名無しさん
垢版 |
2019/09/22(日) 23:28:10.21ID:JTFkWMft
お勧めもなにもiconvかICUで大体用は足りる
それで満足しなきゃ自分で作るしかない
0692デフォルトの名無しさん
垢版 |
2019/09/23(月) 08:58:26.51ID:10n0KRvd
文字コードの変換だけ?
いまどきのまともな言語環境なら変換元のエンコーディングさえ分かってれば標準機能で出来るだろうに
それとも全角⇔半角の変換みたいなのをやりたいってこと?
0694デフォルトの名無しさん
垢版 |
2019/09/23(月) 14:54:10.02ID:FPxFvDjY
Windows SDK付属のデバッグ用ソースを見たところmbstowcs_sの文字コード変換は、Win32APIであるMultiByteToWideCharを使っているようですね。
0695デフォルトの名無しさん
垢版 |
2019/09/23(月) 15:08:29.22ID:3qdqqJ07
MultiByteToWideChar / WideCharToMultiByte 最強
0697デフォルトの名無しさん
垢版 |
2019/09/23(月) 16:01:34.44ID:51KZjw6P
null-terminatedとそうでない場合の仕様の違いをちゃんと理解してなくて
バグった挙句によけいな1byte追加しちゃったりした思い出。
0700デフォルトの名無しさん
垢版 |
2019/09/24(火) 14:25:04.46ID:oiN+60ax
python3でlogging使ってsyslogに出力すると
ASCIIで出力してもなぜか最後に\0が付いてログが残る
鯖側のsyslogdの方で付いてるのかと思ったが
そうじゃなくてpython3が勝手に付けてるみたい
python3のstringがunicode化したときにバグ入ったんかな
python2のときはそんなこと無かった気がする
0702デフォルトの名無しさん
垢版 |
2019/09/25(水) 13:11:07.39ID:BmMtZLRv
深い闇を垣間見た気がする

handler.log_format_string = '<%d>%s'
だと no attribute

handler.setFormatter(logging.Formatter('%(message)s'))
だと結局 \0 付いたままでした
0703デフォルトの名無しさん
垢版 |
2019/09/25(水) 13:18:01.66ID:BmMtZLRv
コンストラクタ呼ぶ前に
logging.handlers.SysLogHandler.append_nul = False
で解決しました
thx!
0704デフォルトの名無しさん
垢版 |
2019/09/25(水) 14:09:59.51ID:sdHp2tVC
エンコードされた文字のバイト並びが
utf-8 と cp832 で同じ(にみえる)ものってどんなのがあります?
そもそも 3bytes と 2bytes なのは仕方ないのですが
utf-8 だと (xx yy zz)
みたいなのが
cp932 だと (xx yy) 00
逆に
cp932 だと (uu vv) (ww xx) (yy zz)
みたいなのが
utf-8 だと (uu vv ww) (xx yy zz)
みたいなのでも良いです
そもそもありえない?
0706デフォルトの名無しさん
垢版 |
2019/09/25(水) 14:14:32.79ID:sdHp2tVC
出来れば「美乳」みたいなクオリティ高いのが良いです
0707デフォルトの名無しさん
垢版 |
2019/09/25(水) 16:32:05.43ID:vuS5tsH7
美乳ってどういう特長を持ってたんだっけ?
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。
0708デフォルトの名無しさん
垢版 |
2019/09/25(水) 23:44:33.31ID:2M81F3EH
PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト+右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか?
0711デフォルトの名無しさん
垢版 |
2019/09/26(木) 01:58:07.64ID:MW37nPtB
>>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった

どういう目的でそういう例を探してるの?
0713デフォルトの名無しさん
垢版 |
2019/10/08(火) 14:05:40.55ID:yxEiS4UK
ブログラムソースをUTF16やUTF32で書いてる人いるの?
ブログラム内の文字列のデータじゃなくてブログラムの地の部分
0716デフォルトの名無しさん
垢版 |
2019/10/23(水) 21:57:19.58ID:CiGuyy89
まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。
0717デフォルトの名無しさん
垢版 |
2019/10/23(水) 23:42:00.06ID:/s0IRa9G
ICUなんてほぼほぼUTF-16ですよ。
0724デフォルトの名無しさん
垢版 |
2019/11/15(金) 19:48:26.91ID:CD4iEOnB
文を書くときに?や()などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況