X



文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
0321デフォルトの名無しさん
垢版 |
2018/05/28(月) 14:52:12.71ID:AZENlZb2
素晴らしい。こういうちゃんとした情報は歓迎するよ。
そうか、CJK互換文字の利用は「推奨しない」と仕様書に明記されているんだね。覚えておこう。
0322デフォルトの名無しさん
垢版 |
2018/05/28(月) 16:00:24.98ID:OZmKBhwA
「完全なラウンドトリップ互換性の為に提供するものであり、それ以外の使用は推奨しない」
だから問答無用で“should not be used”と言ってる訳じゃないけどね。
0323デフォルトの名無しさん
垢版 |
2018/05/28(月) 22:09:23.88
こまけえこたあいいんだよ
0324デフォルトの名無しさん
垢版 |
2018/05/29(火) 11:31:12.88ID:gAWLYOTz
>>319
お前、その省略酷くないか。わざとか?
ソースちゃんと確認せずに信じる奴が悪いのか。
こうやってネット伝言ゲームでデマが広まるのか。
0325デフォルトの名無しさん
垢版 |
2018/05/29(火) 11:40:21.01ID:QKhV4oKb
伝聞デマの好例
0327デフォルトの名無しさん
垢版 |
2018/05/29(火) 22:34:44.54ID:j6aBPmpG
324は何を怒ってるんだ
319のフレーズは複数回出てきてその都度...の部分の規格書名が変わるだけだろうに
0328デフォルトの名無しさん
垢版 |
2018/05/30(水) 12:07:23.64ID:iPjSEnXB
いやだからUnicode公式が推奨しないと言ってるのは事実なんだろ。デマじゃないじゃん。
なんでもかんでもデマ扱いすれば自分が偉くなったような錯覚になって気分が良いのかもしれないが
迷惑だよ、そういう態度は。
0329デフォルトの名無しさん
垢版 |
2018/05/30(水) 13:24:00.49ID:uOQbJF8C
>>328
CJK互換文字の使用が推奨されないのは事実だけど、ローマ数字が推奨されないのはデマってことなんじゃないの。
それと2行目以降は蛇足だろ。
0331デフォルトの名無しさん
垢版 |
2018/05/30(水) 20:29:52.46ID:+kRmOuNK
>>329
多分違う。
「CJK互換文字の一部には特定目的以外に使用すべきでない文字がある」が正しい。
318 はわざとか天然かは知らんが、CJK互換文字の一部にしか適用されないルールを、適用範囲の部分を抜かして引用して、あたかも全体に適用するルールであるかのように誤解する書き方をしてある。
あとは、それを鵜呑みした迂闊さんが「CJK互換文字は推奨されない(キリッ)」ってデマを広げる構図。
0334デフォルトの名無しさん
垢版 |
2018/05/30(水) 20:55:57.87ID:+kRmOuNK
>>332
限定せずに「ラウンドトリップ用」って書いたらCJK互換文字全体だろ。
「JIS X 0213:2000のためのラウンドトリップ用」はその一部でしかない。
0335デフォルトの名無しさん
垢版 |
2018/05/30(水) 21:06:09.88ID:JjJ1rb8T
気に入らないなら自分で満足の行くように書き直して貼り付ければ?
典拠示されてるんだから。
0336デフォルトの名無しさん
垢版 |
2018/05/31(木) 00:48:48.00ID:Rt4SPplt
そんな中途半端に書き直して貼り付けるからデマの元になるんだろ。反省しろ。
0337デフォルトの名無しさん
垢版 |
2018/05/31(木) 05:31:03.12ID:fKyHNhNo
デマはどっちだよ……「CJK互換文字は」という文脈からは「CJK互換文字に含まれる全ての文字は」という意味しか受け取れないのだが?
「一部」なんていう表現はどっから湧き出てきたんだよ……。
0339デフォルトの名無しさん
垢版 |
2018/05/31(木) 12:04:29.61
ケチ付けるんなら他人を納得させられる論拠と出典を出せよ
それができないんなら『CJK互換文字の利用は「推奨しない」』が正解だ
0340デフォルトの名無しさん
垢版 |
2018/05/31(木) 15:11:25.68ID:LXR1oL3d
南京大虐殺は30万人アルニダ
0342デフォルトの名無しさん
垢版 |
2018/05/31(木) 23:08:01.93ID:CO1u2co/
>>319のリンク先の規格書で、ラウンドトリップ用だから使用を推奨しないとされているのは以下の3種類だけ。
全体を非推奨とはしていないな。
・U+FA30〜U+FA6A (JIS X 0213:2000)
・U+FA6B〜U+FA6D (ARIB STD-B24)
・U+FA70〜U+FAD9 (KPS 10721-2000)
0343デフォルトの名無しさん
垢版 |
2018/06/01(金) 05:30:12.89ID:vog2AnDp
誰が誰かよくわかんないけど少なくともCJK互換漢字の一部に関しては
非推奨の根拠はあったってことでしょ

不正確だと思ったならそうじゃなくてこうだって言えばそれで済んだ話だろうに
そうせずにネチネチ言うばっかだから無駄に荒れる
0346デフォルトの名無しさん
垢版 |
2018/06/01(金) 11:58:37.96
>>342
一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな
0347デフォルトの名無しさん
垢版 |
2018/06/01(金) 12:07:07.22ID:uCsHgk1n
規格書嫁とか無茶言うやつがいます。
あれは暗号で書いてあるので書いた人にも読めません。
0348デフォルトの名無しさん
垢版 |
2018/06/01(金) 12:41:04.24ID:gevSrdmF
あなたの能力の限界が人並み外れて低いからといって他人を同類扱いするのは良くない
0349デフォルトの名無しさん
垢版 |
2018/06/01(金) 14:43:43.87ID:s/+fnCQL
>>346
お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。
0350デフォルトの名無しさん
垢版 |
2018/06/01(金) 22:29:28.35ID:/Zhh/Hrk
>>346
CJK互換漢字 (CJK Compatibility Ideographs) : U+F900〜U+FAFF と
CJK互換用文字 (CJK Compatibility) : U+3300〜U+33FF は別物。
>>319で非推奨とされたのはCJK互換漢字(の一部)で、CJK互換文字ではない。
0351デフォルトの名無しさん
垢版 |
2018/06/01(金) 22:43:44.67
>>349-350
こまけえこたあいいんだよ
逆に覚えたらどうするんだよ
「CJK互換」と付いてる領域は非推奨と覚えれば簡単だろ
0352デフォルトの名無しさん
垢版 |
2018/06/01(金) 23:15:14.57ID:/Zhh/Hrk
>>351
何のためにこんな専門スレにいるんだろうな
いっその事「文字コードの利用は推奨しない」で覚えておけば漏れがなく簡単だな
0353デフォルトの名無しさん
垢版 |
2018/06/01(金) 23:19:16.78ID:d/KZJvqH
既にデマは溢れてるので、今さら少しくらいデマが増えたところで、どうってことないという見方もあるが
規格の話をするなら細かい点を無視するとかありえない。

あえて >>350 にさらに細かい点をつっこむと
U+3300 - U+33FF は CJK互換ブロック(CJK Compatibility Block)
U+F900 - U+FAFF は CJK互換漢字ブロック(CJK Compatibility Ideograph Block)
とするのが正しいはずで「CJK互換文字」というのは表現は規格にはなかったと思う。

他にも
CJK Compatibility Forms (U+FE30 - UFE4F)
CJK Compatibility Ideograph Supplement (U+2F800 - U+2FA1D)
とかもあるので、勝手な名前とか使い始めるのはデマの元。
0354デフォルトの名無しさん
垢版 |
2018/06/02(土) 03:00:41.99
弊社の開発プロジェクトでは「CJK互換」と名の付く文字は一律使用禁止とします
0355デフォルトの名無しさん
垢版 |
2018/06/02(土) 05:43:50.91ID:6Boi961X
Unicodeが公式に「利用を推奨しない」と明言しているのはCJK互換表意文字のそれも一部ってことはデマじゃないよね?
0356デフォルトの名無しさん
垢版 |
2018/06/02(土) 06:07:25.49ID:23A3G5JH
ここまでの議論読ませてもらったが
「利用を推奨しない」

「(他規格)との完全ラウンドトリップ互換を提供すためにユニコード規格に含まれている、それ以外の目的に使用すべきではない」
とだと規格上の意味が全然違う気がするんだが?
前者は利用の否定で、後者は利用目的の限定で利用は否定してない。
0357デフォルトの名無しさん
垢版 |
2018/06/02(土) 08:33:48.72ID:6Boi961X
>>356
「全然」ではなくね?
少なくとも「利用を推奨しない」は後者の意味も含んでるでしょ。完全に数学的な含有じゃないにせよ。
0359デフォルトの名無しさん
垢版 |
2018/06/02(土) 13:52:43.55ID:yUEJ+BJS
Scheduled maintenance on June 2 and June 9 between 5am pst and 6pm pst. Expect down times of up to 5 hours while we upgrade the power feeds in our data center.

5ちゃんねるサーバ群が収容されているデータセンタにおいて給電装置の更新のため閲覧書き込みが出来なくなります
予定されている期間は以下の通りです
2018年6月2日(土)21時から2018年6月3日(日)10時
2018年6月9日(土)21時から2018年6月3日(日)10時
上記時間帯のうち最大5時間程度の停電が発生すると予想されています

不便をお掛けしますがよろしくお願い致します
0360 ◆QZaw55cn4c
垢版 |
2018/06/02(土) 14:10:17.27ID:m4wz3xzo
>>359
?
>2018年6月9日(土)21時から2018年6月3日(日)10時
0361デフォルトの名無しさん
垢版 |
2018/06/04(月) 17:00:48.61ID:pTAw0294
>>342
マジか、マジだ
つまり最初に入ったKS X 1001/Big5/IBMは仕様書上では何も言われてなくて
後から入ったJIS X 0213とかは「ラウンドトリップ以外の使用は推奨しない」と明記なのか。

こんなことならJIS X 0213も無理してBMPに入れずにCNS 11643の残りと一緒にCJK統合漢字拡張Bに入れてもらえばよかったのに
(それが可能だったのかどうかは知らない)。
0362デフォルトの名無しさん
垢版 |
2018/06/04(月) 23:13:57.26ID:M5dk3jbS
後半、ちょっと違うんでは? JIS X 0213 の追加漢字は別に無理して BMP に入ってない。普通に Exntend の方に入ってる。
JIS X 0213 と Unicode の包摂基準の違いから1対多対応の部分があって、ラウンドトリップを保証したかったら互換文字が必要になった。
そして必要な互換漢字は少数で、たまたまBMPのCJK 互換漢字漢字ブロックの後半がガラ空きだったので、そこにつっこまれた。
って話だったと思う。
0363デフォルトの名無しさん
垢版 |
2018/06/04(月) 23:20:06.40ID:M5dk3jbS
規格がいってるのは CJK互換漢字ブロックはもともと複数の文字コードとのラウンドトリップ用なんだけど、
指定した一部の範囲は "JIS X 0213:2000" とのラウンドトリップ専用で、他の文字コードとのラウンドトリップにも使うべきではないということ。
0365デフォルトの名無しさん
垢版 |
2018/06/07(木) 22:48:02.08ID:YXHr2tyJ
Unicode 11.0出たのか、つかもう一年経ったのか……。

> Five urgently needed CJK unified ideographs: three for newly standardized names of chemical elements, and two for Japan's government administration Moji Joho Kiban Project that includes ideographs for personal and place names

へー、これは知らなかった。
0366デフォルトの名無しさん
垢版 |
2018/06/07(木) 23:56:45.77ID:LqY2ZR0d
一昨年末に名称が正式決定したニホニウム等の元素を表す漢字がUROの末尾に追加になったんだな。
0367デフォルトの名無しさん
垢版 |
2018/06/08(金) 00:10:00.49
そんなもんで漢字増やすなや!
0368デフォルトの名無しさん
垢版 |
2018/06/08(金) 14:59:48.37ID:HNv18lZE
去年も書いたけど
Core Specification
Appendix D
Version History of the Standard
の漢字のとこの数字が足した数と合計で合わないんだよなぁ
48違うって何なんだろ。
0369デフォルトの名無しさん
垢版 |
2018/06/08(金) 23:58:07.79ID:ljSzk/l3
CJK統合漢字のUROの空きコードポイントは残り16個か。次でとうとうU+9FF0番台になる。
それらも全部使い切ったらその次の少数の緊急に必要な漢字追加は拡張A末尾の空きU+40B6〜Fを使う事になるのかな。
でそこも使い切ったらBMPへの漢字追加は本当に終わりで拡張BやC、D…の末尾の空きを使用ってことになるんだろうな。
0370デフォルトの名無しさん
垢版 |
2018/06/09(土) 00:37:24.38ID:8sRiN6h8
文字列置換から除外するための一時退避の需要あるでしょ。
unicodeはプログラマが自由に使っていい領域ってどこだろう。
0371デフォルトの名無しさん
垢版 |
2018/06/09(土) 01:02:14.54
「外字」でウィキれ
0376デフォルトの名無しさん
垢版 |
2018/06/10(日) 15:33:08.87ID:mkooDB8i
>>373
中身を見ればわかるけど漢字領域 (4e00 から 9efe) とかは
飛ばしてあるから全然違う。
0380373
垢版 |
2018/06/12(火) 21:57:09.59ID:ZlrY5GZ7
>>376
収録されている全文字を取得するにはどうしたらいいかな…
0381デフォルトの名無しさん
垢版 |
2018/06/13(水) 00:45:51.71
どうなってんのこれ🤔

🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕
0383デフォルトの名無しさん
垢版 |
2018/06/13(水) 06:58:34.14ID:mbRQ9skB
なにか問題でも?
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿
0384デフォルトの名無しさん
垢版 |
2018/06/17(日) 09:04:29.91ID:89kw/R7U
ユニコードとUTF8は何が違うんでしょうか
どちらもユニコード?それとも別のコード?頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・
0387デフォルトの名無しさん
垢版 |
2018/06/17(日) 12:38:22.96
>>384
まずはウィキってこい
その上で分からないことがあれば質問しろ
0388デフォルトの名無しさん
垢版 |
2018/06/17(日) 12:51:10.01ID:usQhZnOB
Shift_JISだって文字集合違ったりベンダ固有拡張あったりで
全然丸く収まってないよ殴り合いだよ
0389デフォルトの名無しさん
垢版 |
2018/06/17(日) 13:31:33.71ID:wUKxAbyR
MSのgithub買収でVSからclone出来ないリポジトリが増えて
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ
0391デフォルトの名無しさん
垢版 |
2018/06/18(月) 01:32:33.22ID:44rsiuEs
linux つかってる俺はUTF8統一で隙はなかった。
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)
0392デフォルトの名無しさん
垢版 |
2018/06/18(月) 15:52:30.27ID:54OwzSMe
sjisはまだ許せる。utf16てめーはダメだ
内部コードに留めてメモリから外に出てこないでくれ
0395デフォルトの名無しさん
垢版 |
2018/06/18(月) 16:32:51.52ID:UtQrM811
ほんそれ
0396デフォルトの名無しさん
垢版 |
2018/06/18(月) 17:04:46.60ID:EvkbZGBx
char32_tのある今、wchar_tの存在価値なんて無いでしょ
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし
0401デフォルトの名無しさん
垢版 |
2018/06/20(水) 01:55:53.31ID:9U83APqd
意味がわからないよな
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww
0402デフォルトの名無しさん
垢版 |
2018/06/20(水) 02:06:06.18ID:xDrhFFX5
日本語が2バイトで済む安心感じゃないの?
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。
0403デフォルトの名無しさん
垢版 |
2018/06/20(水) 06:24:00.33ID:ZRnpXX67
>>402
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった
0404デフォルトの名無しさん
垢版 |
2018/06/20(水) 08:03:37.13ID:Va19lMsb
日本はまだマシで英語しか知らない欧米の連中だと「文字は1バイト」が常識だから
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や(通常全角幅の)絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。
0405デフォルトの名無しさん
垢版 |
2018/06/20(水) 08:52:51.05ID:OmEBDQrT
絵文字どころか10年以上前流行ったような古い日本の全角顔文字発掘してきて使ったりしてるよな最近
0406デフォルトの名無しさん
垢版 |
2018/06/20(水) 15:17:43.40ID:OnxnZInx
>>401
ほんそれ
0407デフォルトの名無しさん
垢版 |
2018/06/20(水) 15:19:01.43ID:OnxnZInx
>>403
なるほど
だとするとEBCDIC対応を求められても不思議じゃないな
0408デフォルトの名無しさん
垢版 |
2018/06/20(水) 17:02:56.44ID:AAtEE73s
utf-8で何も考えずにソートしたら漢字の並びが非直感的になるから
しぶしぶsjis
0411デフォルトの名無しさん
垢版 |
2018/06/20(水) 19:50:25.18ID:FyXniq7l
ほんそれ。
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかw
0412デフォルトの名無しさん
垢版 |
2018/06/20(水) 20:58:05.50ID:Va19lMsb
Windowsの文字コード周りで唯一好きなのは改行コードが\r\nである点。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
  de
↑こうなるべき。
0413デフォルトの名無しさん
垢版 |
2018/06/20(水) 21:28:20.83ID:FyXniq7l
Windowsは互換性のためしょうがない部分はあるが、そういうのは\e[でやってろって感じだな。
0414デフォルトの名無しさん
垢版 |
2018/06/21(木) 01:11:25.06ID:M+oxnni+
>>412
改行コードなんだから当たり前だろ。寝ぼけんな。
CR は改行コードじゃなくて復帰コードな。ラインプリンターに出してるわけじゃないので復帰コードが必要かどうかは仕様依存。
0415デフォルトの名無しさん
垢版 |
2018/06/21(木) 01:29:39.14ID:9yZQgWTf
ラインプリンター由来じゃなくてタイプライター由来じゃないの
キャリッジリターン
ラインフィード
0416デフォルトの名無しさん
垢版 |
2018/06/21(木) 01:34:17.28ID:M+oxnni+
>>415
タイプライターに文字コードは必要ない。
正確にはテレタイプ端末とかテレプリンターとか呼ばれてた奴なんだが、要はラインプリンターだ。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況