Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
探検
文字コード総合スレ part13
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2020/07/03(金) 20:53:47.08ID:elbfDzqw2020/07/03(金) 23:13:42.20ID:uIgOlo/V
「コマンドプロンプトはcp932(SJIS)である」はウソ
Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)
これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。
コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)
Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)
これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。
コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)
2020/07/03(金) 23:16:22.71ID:3O02Rgol
誰か前スレのまとめを
2020/07/03(金) 23:37:05.11ID:8QUz9sdR
>>3
まだpart12を消費して無いので、part12を埋めて下さい。
文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1545032904/
まだpart12を消費して無いので、part12を埋めて下さい。
文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1545032904/
2020/07/03(金) 23:41:16.48ID:ts7cS+ZF
まとめ要らないと思う
前後の文脈読まないと意味不明なの多いし
前後の文脈読まないと意味不明なの多いし
6デフォルトの名無しさん
2020/07/04(土) 00:02:52.75ID:KYM6hePT2020/07/04(土) 00:15:30.02ID:ve9MtcL4
>>6
環境変数が設定されてるだけ
環境変数が設定されてるだけ
8デフォルトの名無しさん
2020/07/04(土) 00:18:36.29ID:KYM6hePT うん同じなのは知ってる
昔のコマンドプロンプトは chcp 65001 してもバグってたけど
今のは chcp 65001 しなくても utf-8 で動くから快適
昔のコマンドプロンプトは chcp 65001 してもバグってたけど
今のは chcp 65001 しなくても utf-8 で動くから快適
9デフォルトの名無しさん
2020/07/04(土) 00:26:20.74ID:KYM6hePT ああバグはあるわ
うっかりバイナリで変なパターン出力すると
コマンド プロンプト は落ちないのに Chrome が落ちたりするんだ
ホントは保護されてないといけないメモリを壊す観たい
うっかりバイナリで変なパターン出力すると
コマンド プロンプト は落ちないのに Chrome が落ちたりするんだ
ホントは保護されてないといけないメモリを壊す観たい
2020/07/04(土) 21:57:15.92ID:0DTN05zS
「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!
--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012
C:\>type k
漢字
C:\>copy k con
・"oW[
1 個のファイルをコピーしました。
C:\>cat k
・"oW[
C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006
C:\>
--
「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!
--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012
C:\>type k
漢字
C:\>copy k con
・"oW[
1 個のファイルをコピーしました。
C:\>cat k
・"oW[
C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006
C:\>
--
「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?
2020/07/04(土) 22:24:59.27ID:pCOzWn8m
2020/07/04(土) 23:32:05.07ID:M3d71N9d
13デフォルトの名無しさん
2020/07/05(日) 12:38:46.50ID:NbYPgepr デフォは /A なんだろ
そんで /A のときは
chcp の値に依存するんだろ
パイプで常に cp932 になると思ったら間違い
そんで /A のときは
chcp の値に依存するんだろ
パイプで常に cp932 になると思ったら間違い
14デフォルトの名無しさん
2020/07/05(日) 12:39:54.58ID:NbYPgepr2020/07/05(日) 21:04:42.33ID:M+BkbwUs
2020/07/05(日) 21:05:40.27ID:M+BkbwUs
2020/07/05(日) 21:10:40.03ID:M+BkbwUs
>>13
> /A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
では画面へは何コードで出力しているでしょうか?
答えはUincode。なぜならUnicode文字が文字化けせずに出力できているから
> /A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
では画面へは何コードで出力しているでしょうか?
答えはUincode。なぜならUnicode文字が文字化けせずに出力できているから
18デフォルトの名無しさん
2020/07/06(月) 01:17:06.10ID:lyDtf+5h ウイーンがしゃ
19デフォルトの名無しさん
2020/07/06(月) 10:52:37.14ID:vjiPzzt6 普通に読んだら結論はこっち
>これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。
圧倒的に国語力が無いか
論理思考が出来ない人なんだろう
>これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。
圧倒的に国語力が無いか
論理思考が出来ない人なんだろう
2020/07/06(月) 15:20:25.67ID:9+hHOd2F
2020/07/06(月) 15:21:22.15ID:9+hHOd2F
最初に結論を書くっていう有名な国語的テクニックを知らないのかな?
22デフォルトの名無しさん
2020/07/09(木) 06:07:26.69ID:uQo6bqoB 「絵文字 知られざる舞台裏」
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。
“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
https://www.nhk.jp/p/wdoc/ts/88Z7X45XZY/episode/te/2QGK3QN6JJ/
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。
“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
https://www.nhk.jp/p/wdoc/ts/88Z7X45XZY/episode/te/2QGK3QN6JJ/
2020/07/09(木) 08:50:19.27ID:TKLTGhB7
>>22
>“世界共通言語”
>アメリカの大手IT企業などからなる団体
NHK的な物言い、いいねw
でも、「言語」 って?
これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw
>“世界共通言語”
>アメリカの大手IT企業などからなる団体
NHK的な物言い、いいねw
でも、「言語」 って?
これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw
2020/07/09(木) 08:55:49.71ID:ah/SMoHN
ドレスデン・コデックス
マドリー・コデックス
パリ・コデックス
グロリア・コデックス
マドリー・コデックス
パリ・コデックス
グロリア・コデックス
25デフォルトの名無しさん
2020/07/09(木) 09:04:12.23ID:vrNDocOm 本編観たけどつまらなさ過ぎて途中で寝てしまった
IBM Apple Microsoft Google Facebook あたりの名前はちゃんと言ってたと思う
IBM Apple Microsoft Google Facebook あたりの名前はちゃんと言ってたと思う
26デフォルトの名無しさん
2020/07/09(木) 09:07:15.41ID:vrNDocOm 一部思い出した
NHKらしくほとんど黒人とLGBTの話ばかりだったんだが
私の造ったEmojiが登録されたって自慢気に中国人研究者っぽいおばさんが出て来て
チベットの旗は候補に出たけど登録は見送られた
チベットの旗が登録されることは今後も無いでしょう
って笑いながらインタビューに答えてた
NHKらしくほとんど黒人とLGBTの話ばかりだったんだが
私の造ったEmojiが登録されたって自慢気に中国人研究者っぽいおばさんが出て来て
チベットの旗は候補に出たけど登録は見送られた
チベットの旗が登録されることは今後も無いでしょう
って笑いながらインタビューに答えてた
2020/07/10(金) 17:30:08.40ID:4InogVIm
チベットの旗は日本の旭日旗がデザインのベース。
2020/07/11(土) 17:41:39.15ID:fgTDqbZy
いろんなところでポリコレの話が出てきて嫌になる
2020/07/11(土) 20:07:36.65ID:LiyD05XT
Unicodeはもうだいぶ前からそういう世界です
30デフォルトの名無しさん
2020/07/12(日) 10:45:57.27ID:NK7E+AG5 赤の▼が投稿禁止用語だとは知らなかったわ
31デフォルトの名無しさん
2020/07/12(日) 10:47:50.51ID:NK7E+AG52020/07/12(日) 14:49:14.50ID:6LAoyHzZ
↑「ナチ強制収容所のバッジ」というページ。他に人が見なくていいように。
33デフォルトの名無しさん
2020/07/17(金) 17:49:02.99ID:zYg36R0O 世界絵文字Dayらしいぞ
知らんけど
知らんけど
2020/07/17(金) 18:21:35.43ID:p55TjBUs
そのうち絵文字が第2エスペラントになりそうな勢いだな
2020/07/17(金) 20:11:36.87ID:zXFMI6BU
言ってもThis is a pen.も表現できないぞ
2020/07/18(土) 00:37:29.47ID:wH8oKg8v
P(P.A.P)
2020/07/18(土) 00:47:07.96ID:/iWSRGfH
👇🖊
余裕だぜ
余裕だぜ
2020/07/18(土) 03:09:52.25ID:LPIx8Uu7
below pen
2020/07/18(土) 10:40:45.89ID:zDePOjuW
アイちゃんと会話できる絵文字ってそろってるのかな
40デフォルトの名無しさん
2020/07/18(土) 13:20:10.73ID:uRU3MGLx 架空発注繰り返してもらえるくらい強力なコネが欲しい
2020/07/18(土) 14:31:48.16ID:usxmbyTV
42デフォルトの名無しさん
2020/08/10(月) 17:37:29.36ID:wInlBSoO 禁止文字なんか?
溢鎰螠塧縊謚搤
溢鎰螠塧縊謚搤
2020/08/10(月) 18:36:25.82ID:bk6is28U
>>42
(@u@ .:;)ノシ
(@u@ .:;)ノシ
44デフォルトの名無しさん
2020/08/11(火) 12:23:17.24ID:2c8mpoZg うざったてーも30歳か
45デフォルトの名無しさん
2021/05/13(木) 16:58:46.99ID:0opMfQ+n てすてすとと
2021/05/13(木) 17:13:23.87ID:bi8pzl4S
瓜皮帽を被った男
👲👲🏻👲🏼👲🏽👲🏾👲🏿👲
👲👲🏻👲🏼👲🏽👲🏾👲🏿👲
47デフォルトの名無しさん
2021/05/13(木) 21:29:00.08ID:39tz2cvT ID:0pD51twu
イキってるねえ〜
イキってるねえ〜
2021/05/14(金) 08:07:05.15ID:ERw3EzI8
2021/05/14(金) 08:10:51.08ID:+o3KrcS5
>>48
punyCode
punyCode
2021/05/14(金) 20:48:59.82ID:G+x0luD+
ここがよみがえったのか
2021/05/14(金) 22:48:47.46ID:XJlzr4U7
2021/05/15(土) 03:51:54.74ID:t/FYGves
決まってないならパーセントを使えばいいじゃない
2021/05/15(土) 11:08:47.44ID:zmWSHBKO
もともと ascii のみ。ascii の中でも一部使えない文字があるので、それは %エンコードする。
だったのが国際化にはUTF-8を使えに拡張された。
文字コードが決まってなかったわけではない。
あとURLにSJISとかUTF-16送ってくるやつは滅びろ。今すぐ滅びろ。
だったのが国際化にはUTF-8を使えに拡張された。
文字コードが決まってなかったわけではない。
あとURLにSJISとかUTF-16送ってくるやつは滅びろ。今すぐ滅びろ。
54デフォルトの名無しさん
2021/05/15(土) 12:50:09.97ID:eYtIld1h URLにBOM導入してればよかったのにな
2021/05/15(土) 12:52:59.23ID:zmWSHBKO
>>54
滅びろ
滅びろ
>>55
WWW
WWW
2021/05/24(月) 19:37:25.20ID:RWCB+vU8
文字コードの勉強中です
Windowsで使われている文字コードはCP932(Shift-JISの拡張版)ということまで分かりました。 IMEパッドで理解を深めようとしているのですが、分からないことがあるのでご教示お願いします。
・IMEパッドの「シフトJIS」はCP932のことを指していると思っていいですか?
・IMEパッドの「JIS X 0208」はCP932の文字集合だと思っていいですか?
・だとすると「JIS X 0208」と「シフトJIS」は一対一で対応すると思いますが、「シフトJIS」にあって「JIS X 0208」に無い文字(@やTなど)があるのはなぜですか?
過疎っているようですがご回答いただけると幸いです
Windowsで使われている文字コードはCP932(Shift-JISの拡張版)ということまで分かりました。 IMEパッドで理解を深めようとしているのですが、分からないことがあるのでご教示お願いします。
・IMEパッドの「シフトJIS」はCP932のことを指していると思っていいですか?
・IMEパッドの「JIS X 0208」はCP932の文字集合だと思っていいですか?
・だとすると「JIS X 0208」と「シフトJIS」は一対一で対応すると思いますが、「シフトJIS」にあって「JIS X 0208」に無い文字(@やTなど)があるのはなぜですか?
過疎っているようですがご回答いただけると幸いです
2021/05/24(月) 22:17:38.35ID:VrK5qnvr
勉強してるなら、理由も考えてみなよ
他人に丸投げするのは勉強とはいわない
他人に丸投げするのは勉強とはいわない
2021/05/24(月) 22:53:01.93ID:ZP3SRefF
>>58
お前も他人さまから教えてもろたくせにw
お前も他人さまから教えてもろたくせにw
2021/05/25(火) 00:01:45.40ID:qVwcwRoW
仮定に対して反例が確認できたんだから仮定が誤ってたということだよ
2021/05/25(火) 08:37:04.98ID:6TyV4LYI
>>57
すごく大まかな説明をすると、
Windowsで使われているShiftJISの文字コードはMicroSoft版方言に侵されてて純正のShiftJISではない
「CP932」という言い方では純正ShiftJISなのかそれともMicroSoft版・Mac版・IBM版その他の方言なのか分からない
(まあ一般にはCP932という言い方をするとMS版のことを指す
明示的にMS版のCP932だということを示す際には、MS932とかWindows31Jとかいう呼び方をする)
なので
1つ目は、その「CP932」が指すものによる、純正ShiftJISを想定しているなら厳密には違う
2つ目は・・・・これもごくごく大まかに言ってしまうと「JIS X 0208」はシフトさせてないおおもとのJIS漢字コードのこと
(なのでShiftJISとはコード体系が違う。計算でシフトさせることで簡単にJIS⇔ShiftJISが導出できるけど)
3つ目のは、違ってる箇所の具体例がまさに丸数字とかの特殊文字に該当してる
というかこれは歴史的経緯によるものだからなあ、後世からみたら理不尽の塊でしかないだろう
理由を考えてみろと言われて分かるわけがないよ
すごく大まかな説明をすると、
Windowsで使われているShiftJISの文字コードはMicroSoft版方言に侵されてて純正のShiftJISではない
「CP932」という言い方では純正ShiftJISなのかそれともMicroSoft版・Mac版・IBM版その他の方言なのか分からない
(まあ一般にはCP932という言い方をするとMS版のことを指す
明示的にMS版のCP932だということを示す際には、MS932とかWindows31Jとかいう呼び方をする)
なので
1つ目は、その「CP932」が指すものによる、純正ShiftJISを想定しているなら厳密には違う
2つ目は・・・・これもごくごく大まかに言ってしまうと「JIS X 0208」はシフトさせてないおおもとのJIS漢字コードのこと
(なのでShiftJISとはコード体系が違う。計算でシフトさせることで簡単にJIS⇔ShiftJISが導出できるけど)
3つ目のは、違ってる箇所の具体例がまさに丸数字とかの特殊文字に該当してる
というかこれは歴史的経緯によるものだからなあ、後世からみたら理不尽の塊でしかないだろう
理由を考えてみろと言われて分かるわけがないよ
2021/05/25(火) 09:29:36.84ID:lUfYCE+Z
文字集合のはなしと、符号化方式のはなしと、符号化文字集合のはなしと、文字コードのはなしを混同している人が多いな。
2021/05/25(火) 11:48:06.96ID:rDgveWWs
JIS X 0208/JIS X 0213の表はJISが決めたやつ
シフト JISの表はMicrosoftが決めたやつ
この二つは歴史的経緯で色々違いがあります
くらいの理解でいいんじゃないか
シフト JISの表はMicrosoftが決めたやつ
この二つは歴史的経緯で色々違いがあります
くらいの理解でいいんじゃないか
2021/05/25(火) 14:38:56.72ID:ZdUybFI8
そういえば、昔の*nixで日本語環境整えるのに、
このあたりが理解できないとまともな日本語表示すら出来なかったような
このあたりが理解できないとまともな日本語表示すら出来なかったような
65デフォルトの名無しさん
2021/05/27(木) 14:53:45.70ID:U0nLnJgd2021/05/27(木) 22:18:14.67ID:ApJEbFpd
違わない
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国「国連安保理の許可なしに日本攻撃可能」 Xで旧敵国条項に言及… [BFU★]
- 高市早苗首相。財務省の経済対策草案を「しょぼすぎる」と一刀両断し自らテコ入れ [バイト歴50年★]
- 立憲・野田代表が主張 台湾有事答弁で「質問者批判は筋違い」「答弁がおかしい」「高市総理迎合のネット世論は危険」★4 [♪♪♪★]
- 日中関係悪化で「日本からもうすぐパンダがいなくなる」 中国SNSでトレンド1位に★2 [♪♪♪★]
- 【STARTO ENTERTAINMENT】timelesz、メンバーの不適切言動を謝罪「不用意かつモラルに反した発言であった」 全員の署名入りでコメント [Ailuropoda melanoleuca★]
- 【旧統一教会】年度内に解散命令請求に結論 教団は最終主張書面を東京高裁に提出 [1ゲットロボ★]
- 【速報】参政党、衆院で231議席※ [369521721]
- 【高市悲報】中国「国連安保理の許可なしに日本を攻撃可能だ」 [115996789]
- 【実況】白銀ノエルと博衣こよりのえちえちパワフルプロ野球
- 【速報】高市早苗「答弁撤回はしない」経済制裁へ★2 [931948549]
- 【んな専🏡】ルーナイトたち~1週間お疲れ様なのらぁ~(・o・🍬)🏰
- 【んな専🏡】華金もんなっしょいとはやれやれなのらね🍬(・o・🍬)🏰
