Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
探検
文字コード総合スレ part14
レス数が1000を超えています。これ以上書き込みはできません。
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
926デフォルトの名無しさん
2024/07/20(土) 14:12:02.51ID:F167yFzL CP65001とは何だったのか
927デフォルトの名無しさん
2024/07/20(土) 17:37:17.64ID:pd3T6vIK928デフォルトの名無しさん
2024/07/20(土) 17:40:52.19ID:pd3T6vIK929デフォルトの名無しさん
2024/07/20(土) 17:47:23.09ID:pd3T6vIK 最近はJISの話題に触れない人間が多いけど、EメールはJIS。
JISのものを日本語環境で開くとSJISに変換されていたりして気づかないだけ。
JISのものを日本語環境で開くとSJISに変換されていたりして気づかないだけ。
930デフォルトの名無しさん
2024/07/20(土) 17:50:24.13ID:pd3T6vIK >>925
CP51932はマイクロソフトがWindows用に用意したEUC-JPで大昔から使えるものだぞ?
CP51932はマイクロソフトがWindows用に用意したEUC-JPで大昔から使えるものだぞ?
931デフォルトの名無しさん
2024/07/20(土) 17:51:47.77ID:pd3T6vIK 日本マイクロソフトと日本IBMはいまだに自社が拡張したキャラクタセットを使ってくるから面倒なんだよない
932デフォルトの名無しさん
2024/07/20(土) 18:05:46.39ID:4S4L7THY 日本語は絶対に ISO-2022-JP でなければならない、ってこともないはず。
今時のメーラーならたいてい UTF-8 も使える。
今時のメーラーならたいてい UTF-8 も使える。
933デフォルトの名無しさん
2024/07/20(土) 18:37:14.92ID:pd3T6vIK >>932
Eメールソフトの世界はUTF-8が標準にはなっていない
Eメールソフトの世界はUTF-8が標準にはなっていない
934デフォルトの名無しさん
2024/07/20(土) 18:38:27.52ID:pd3T6vIK EメールをHTMLにしたがるIT大手はキャラクタセット問題を気にしてHTMLメールに誘導している。
Google社なんてモロにそう。
Google社なんてモロにそう。
935デフォルトの名無しさん
2024/07/20(土) 18:48:31.05ID:s1xOxpka あとはSMTPUTF8を使ってメールヘッダーや本文のUTF8を
Base64などにエンコードしないで送るのが当たり前になったらいいんだけどね
こんな実装になっているメーラーはあるのかな
Base64などにエンコードしないで送るのが当たり前になったらいいんだけどね
こんな実装になっているメーラーはあるのかな
936デフォルトの名無しさん
2024/07/20(土) 18:51:01.47ID:pd3T6vIK 通信プロトコルまでUTF-8でやっていると思うレベルの低下は怖ろしいな
937デフォルトの名無しさん
2024/07/20(土) 19:14:20.90ID:4S4L7THY938デフォルトの名無しさん
2024/07/20(土) 19:36:30.15ID:pd3T6vIK 言葉遊びはしていない
939デフォルトの名無しさん
2024/07/20(土) 19:53:47.49ID:JfCCJ2ok >>886
森鷗外𠮟る
森鷗外𠮟る
940デフォルトの名無しさん
2024/07/20(土) 20:11:01.14ID:pd3T6vIK >>939
専用ブラウザを使ってないの?
専用ブラウザを使ってないの?
941デフォルトの名無しさん
2024/07/20(土) 20:14:02.55ID:4S4L7THY942デフォルトの名無しさん
2024/07/20(土) 20:48:59.49ID:pd3T6vIK UTF-8は「標準」だ。
この文の解釈は難しい。そもそもキャラクタセットそのものが標準化だからだ。
この文の解釈は難しい。そもそもキャラクタセットそのものが標準化だからだ。
943デフォルトの名無しさん
2024/07/20(土) 20:49:41.37ID:pd3T6vIK >>1
もう「文字コード」というタイトルはやめないか?
もう「文字コード」というタイトルはやめないか?
944デフォルトの名無しさん
2024/07/21(日) 02:45:19.34ID:JWUUf2WC >>930
確かに CP51932 は MS の昔ながらの EUC-JP、とされてるようですが、状況的には CP51932 が OS レベルでサポートされたことはなく、.net レベルのサポートに留まっている
というのが結論と思われます。
OS レベルでサポートされているのは CP20932 の方でしょう。
ところでちょっと訂正。
>>923 で、"chcp 20932" が使えるのは Win10 以降と書きましたが、実際は Win2000 から使えるようです。
もっとも Win10 未満のコンソールでは "chcp 20932" すると日本語フォントが選択出来なくなるので、使い物にはなりませんが。
一方で、Win-API の MultiByteToWideChar() は Win2000 以降であれば CP に 20932 を指定して EUC-JP → Unicode 変換が可能のようで (マッピングの詳細は調べてませんが)、JIS X0212 → Unicode も変換出来ました。
SS3 を使わずに X0212 にシフトするという変態仕様も、この頃からだったんですね。
確かに CP51932 は MS の昔ながらの EUC-JP、とされてるようですが、状況的には CP51932 が OS レベルでサポートされたことはなく、.net レベルのサポートに留まっている
というのが結論と思われます。
OS レベルでサポートされているのは CP20932 の方でしょう。
ところでちょっと訂正。
>>923 で、"chcp 20932" が使えるのは Win10 以降と書きましたが、実際は Win2000 から使えるようです。
もっとも Win10 未満のコンソールでは "chcp 20932" すると日本語フォントが選択出来なくなるので、使い物にはなりませんが。
一方で、Win-API の MultiByteToWideChar() は Win2000 以降であれば CP に 20932 を指定して EUC-JP → Unicode 変換が可能のようで (マッピングの詳細は調べてませんが)、JIS X0212 → Unicode も変換出来ました。
SS3 を使わずに X0212 にシフトするという変態仕様も、この頃からだったんですね。
945デフォルトの名無しさん
2024/07/22(月) 21:09:05.44ID:SbBOLwbq >>944
略語が気になって何を言いたいのかわからない
略語が気になって何を言いたいのかわからない
946デフォルトの名無しさん
2024/07/22(月) 21:11:08.05ID:SbBOLwbq 「Windows 10 未満」という表現はわかりにくい。
Windows Serverを無視したWindowsの話はプロっぽくない。
Windows Serverを無視したWindowsの話はプロっぽくない。
947デフォルトの名無しさん
2024/07/22(月) 21:16:43.91ID:SbBOLwbq 日本語環境でEUCが廃れたのはEUCとSJISが混在したシステムで漢字が入れ替わる問題に対処するため、SJISに統一する流れができたからだ。
948デフォルトの名無しさん
2024/07/23(火) 01:12:23.43ID:ZwP44UoN949デフォルトの名無しさん
2024/07/23(火) 01:13:01.03ID:Rfg4Mjqa UTF-8に統一すれば良かったんだよ
950デフォルトの名無しさん
2024/07/23(火) 01:16:32.09ID:7hbLrKM0 後知恵
951デフォルトの名無しさん
2024/07/23(火) 08:31:21.57ID:dFpDHhI5 ついに...
全員日本人のK-POPグループUNICODEが日本デビュー、MV&インタビュー映像公開
https://news.yahoo.co.jp/articles/896e4610ab5244c8ea1be97dcab1d354bddbbf9f
全員日本人のK-POPグループUNICODEが日本デビュー、MV&インタビュー映像公開
https://news.yahoo.co.jp/articles/896e4610ab5244c8ea1be97dcab1d354bddbbf9f
952デフォルトの名無しさん
2024/07/23(火) 09:20:06.98ID:iSDzXJU2 >UTF-8に統一
は可笑しい
UNICODEに統一してencodingをUTF-8にしろ
は可笑しい
UNICODEに統一してencodingをUTF-8にしろ
953デフォルトの名無しさん
2024/07/23(火) 15:46:26.54ID:uXZC6JH8954デフォルトの名無しさん
2024/07/23(火) 17:29:30.59ID:TPPfHQM2955デフォルトの名無しさん
2024/07/23(火) 22:00:07.41ID:ZwP44UoN956デフォルトの名無しさん
2024/07/25(木) 17:53:41.84ID:d36Rq1nw EUC-JPとSJISは漢字のマッピングが微妙に異なるからEUC-JPは使われなくなった。
957デフォルトの名無しさん
2024/07/26(金) 16:30:07.87ID:s0039+ok イマドキEUC-JPで話が通じるのはジジババだけ
958デフォルトの名無しさん
2024/07/26(金) 20:23:31.47ID:JylNHC7t 変なおっさんがWindows 10からとしつこい
959デフォルトの名無しさん
2024/07/26(金) 23:58:48.57ID:4nyZ3kl6 今もメールはISO-2022-JPが40年近く使われ続けているし
ここは文字コードスレだから
それとEUC-JPとシフトJISの三すくみの日本に
ユニコードが来て符号化はUTF8に統一されたといういきさつは知っておいてほしいかな
ここは文字コードスレだから
それとEUC-JPとシフトJISの三すくみの日本に
ユニコードが来て符号化はUTF8に統一されたといういきさつは知っておいてほしいかな
960デフォルトの名無しさん
2024/07/27(土) 00:18:06.34ID:n/2U62/h しつこい
961デフォルトの名無しさん
2024/07/27(土) 00:18:56.15ID:n/2U62/h Eメールの本文ファイルがUTF-8だろ
962デフォルトの名無しさん
2024/07/27(土) 00:26:59.78ID:5C/e4754 プレーンテキストだと、まだISO-2022-JPは使われている
963デフォルトの名無しさん
2024/07/27(土) 02:31:46.73ID:05H92w5k EUC-JP が廃れたのはそれを使っていたUnix系が UTF-8 を採用し置き換えが進んだせい Linux は率先して UTF-8 化された SJIS は全く関係ない
メールに関してはメーラーやその設定によるけどJIS第二水準までの文字までしか使ってなければまだ ISO-2022-JP だがそれ以外の文字があると勝手に UTF-8 の切り替えるのが一般的になってる
メールに関してはメーラーやその設定によるけどJIS第二水準までの文字までしか使ってなければまだ ISO-2022-JP だがそれ以外の文字があると勝手に UTF-8 の切り替えるのが一般的になってる
964デフォルトの名無しさん
2024/07/27(土) 03:23:33.68ID:Wmb0dG6/ そういや区点コードもほとんど使われんようになったな。
965デフォルトの名無しさん
2024/07/27(土) 14:20:48.28ID:MpFjT9ff EUC-JPと区点コードはほぼ同じ
966デフォルトの名無しさん
2024/07/27(土) 14:41:58.45ID:05H92w5k >>965
なんかのギャグ?
なんかのギャグ?
967デフォルトの名無しさん
2024/07/27(土) 15:18:28.80ID:MpFjT9ff ギャグついでに
馬 C7CF 474F
鹿 BCAF 3C2F
馬 C7CF 474F
鹿 BCAF 3C2F
968デフォルトの名無しさん
2024/07/27(土) 15:59:47.68ID:05H92w5k969デフォルトの名無しさん
2024/07/27(土) 16:07:53.77ID:y1baboQ5 +160
970デフォルトの名無しさん
2024/07/28(日) 10:15:58.80ID:E5YepaJ3971デフォルトの名無しさん
2024/07/28(日) 10:17:52.25ID:Z34FztXA >>966
そろそろ逝って観ても良い頃だと思うの
そろそろ逝って観ても良い頃だと思うの
972デフォルトの名無しさん
2024/07/28(日) 15:15:35.75ID:v6kdbv5j >>966
逝ってヨシ
逝ってヨシ
973デフォルトの名無しさん
2024/07/29(月) 08:57:07.69ID:zSUMdBzE >>966
She never eats NONI.
She never eats NONI.
974デフォルトの名無しさん
2024/07/29(月) 13:40:07.07ID:vGDrvFgw 日本語の濁点や半濁点は結合済み文字を使うのが一般的だけど
℃は結合済みのU+2103ではなくU+00B0とU+0043を組み合わせる方が推奨されてるんだね
℃は結合済みのU+2103ではなくU+00B0とU+0043を組み合わせる方が推奨されてるんだね
975デフォルトの名無しさん
2024/07/29(月) 14:02:50.71ID:/aYuByy1 こまけぇこたぁいいんだよ!
976デフォルトの名無しさん
2024/07/29(月) 16:53:10.32ID:DK2y9laS そりゃそうだろ
977デフォルトの名無しさん
2024/07/30(火) 17:20:30.46ID:PmWSmSbC >>974
普通は「度」を使う。
普通は「度」を使う。
978デフォルトの名無しさん
2024/07/30(火) 19:45:24.75ID:WMxG7MZj か に濁点で が だけど
か に◯をつけたい。です
か に◯をつけたい。です
979デフォルトの名無しさん
2024/07/30(火) 20:11:33.85ID:6mlREWKo Unicodeの記号は見た目はほとんど同じでも
意味が違えば違うコードポイントが割り当てられているから
Unicodeに登録されている意味の記号を使いたくなるが
互換文字とかの非推奨の記号もあるんだな
非推奨の理由は文字のルーツが関係してるのか
意味が違えば違うコードポイントが割り当てられているから
Unicodeに登録されている意味の記号を使いたくなるが
互換文字とかの非推奨の記号もあるんだな
非推奨の理由は文字のルーツが関係してるのか
980デフォルトの名無しさん
2024/07/30(火) 21:10:09.15ID:vxw4BH1o か゜
981デフォルトの名無しさん
2024/07/30(火) 21:11:46.15ID:nPiAUXL+ そろそろどうにかならんのかい
PowerAutomateのshift-jis CSV問題は
PowerAutomateのshift-jis CSV問題は
982デフォルトの名無しさん
2024/07/30(火) 21:18:41.51ID:IMwqHlbY >>979
あたりまえだろ
あたりまえだろ
983デフォルトの名無しさん
2024/07/30(火) 21:20:10.53ID:IMwqHlbY UTF-8からUTF-16への変換がうまくできないのが互換性を維持しているWindows
984デフォルトの名無しさん
2024/07/31(水) 09:21:04.13ID:8C2NHXAL985デフォルトの名無しさん
2024/07/31(水) 13:18:27.03ID:Qef+C1SH >>984
話の流れを無視しているようだが、濁点、半濁点付きの仮名文字などは簡単じゃない。
話の流れを無視しているようだが、濁点、半濁点付きの仮名文字などは簡単じゃない。
986デフォルトの名無しさん
2024/07/31(水) 14:51:28.89ID:8C2NHXAL >>985
その辺の条件はUTF8とUTF16で完全一致なので変換自体で問題になる要素はない
その辺の条件はUTF8とUTF16で完全一致なので変換自体で問題になる要素はない
987デフォルトの名無しさん
2024/08/01(木) 19:11:41.47ID:Z3aS5qkf ISO8859投稿テスト
NBSP ¡ ¢ £ ¤ \ ¦ § ¨ © ª « ¬ SHY ® ¯
° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿
À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
à á â ã ä å æ ç è é ê ë ì í î ï
ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
NBSP ¡ ¢ £ ¤ \ ¦ § ¨ © ª « ¬ SHY ® ¯
° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿
À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
à á â ã ä å æ ç è é ê ë ì í î ï
ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
988デフォルトの名無しさん
2024/08/01(木) 19:19:00.54ID:Z3aS5qkf 0xA5が5Cに変換された?
989デフォルトの名無しさん
2024/08/06(火) 11:07:32.22ID:SBxTyrdX ¥
990デフォルトの名無しさん
2024/08/06(火) 11:35:36.48ID:SBxTyrdX なんで28個で折り返してるんだろω
https://i.sstatic.net/7ytba.png
https://i.sstatic.net/7ytba.png
991デフォルトの名無しさん
2024/08/06(火) 22:28:54.15ID:M6OksvyX JISキーボードだとBackSpaceの左のキーは¥で
Shiftの左のキーは\が書かれているのに
どちらを押しても0x5cが入力されるのも変な話だね
Shiftの左のキーは\が書かれているのに
どちらを押しても0x5cが入力されるのも変な話だね
992デフォルトの名無しさん
2024/08/07(水) 14:25:40.64ID:8wBmp3dB >>990
それは28になる歴史的経緯があるんよ
それは28になる歴史的経緯があるんよ
993デフォルトの名無しさん
2024/08/07(水) 19:07:42.92ID:ZGVac6R9 >>991
それは日本語環境だから
それは日本語環境だから
994デフォルトの名無しさん
2024/08/07(水) 20:25:10.83ID:cN0FjkfN フォント依存だものね
995デフォルトの名無しさん
2024/08/07(水) 23:32:09.80ID:MkwAQvti もともとJISキーボード規格にあったのは¥だけなんだけど
IBMが\を追加しちゃったからなんとなく0x5cを割り当てただけ。
IBMが\を追加しちゃったからなんとなく0x5cを割り当てただけ。
996デフォルトの名無しさん
2024/08/09(金) 12:31:50.95ID:7/oyIHAR 最初の素数だから
997デフォルトの名無しさん
2024/08/09(金) 16:03:09.36ID:TQtqhYAu >>995
そもそもキーボードの前に文字コードとしてJIS X 0201 で 0x5c には¥が割り当てられててバックスラッシュは存在していない
JISキーボードはもともと JIS X 0201 入力用なので¥を押したら 0x5c になるのが当然
その後にIBMとかマイクロソフトとかの国外勢が世界標準(アメリカ標準)のバックスラッシュを持ち込んでじわじわと 0x5c を¥記号から奪っていった
そもそもキーボードの前に文字コードとしてJIS X 0201 で 0x5c には¥が割り当てられててバックスラッシュは存在していない
JISキーボードはもともと JIS X 0201 入力用なので¥を押したら 0x5c になるのが当然
その後にIBMとかマイクロソフトとかの国外勢が世界標準(アメリカ標準)のバックスラッシュを持ち込んでじわじわと 0x5c を¥記号から奪っていった
998デフォルトの名無しさん
2024/08/09(金) 18:19:42.95ID:iV50uxYI もじもじ
999デフォルトの名無しさん
2024/08/09(金) 18:20:04.08ID:iV50uxYI もじもじ
もじもじ
もじもじ
1000デフォルトの名無しさん
2024/08/09(金) 18:20:26.33ID:iV50uxYI もじもじ
もじもじ
もじもじ
もじもじ
もじもじ
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 525日 2時間 33分 29秒
新しいスレッドを立ててください。
life time: 525日 2時間 33分 29秒
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 ★4 [ぐれ★]
- 【音楽】Perfume・あ~ちゃんの結婚相手「一般男性」は吉田カバンの社長・吉田幸裕氏(41) 高身長で山本耕史似 [Ailuropoda melanoleuca★]
- 【大分】佐賀関で大規模火災、170棟以上が延焼中 70代男性1人と連絡取れず [ぐれ★]
- 【サッカー】日本代表MF 中村敬斗 ボリビア戦のスーパーゴールに「惚れるわ」「痺れる程のゴールこれでご飯何杯いけるのよ」 [阿弥陀ヶ峰★]
- 【サッカー】U-17日本代表、激闘PK戦制す 北朝鮮撃破で6大会ぶり8強入り U17W杯 [久太郎★]
- 「クマはなるべく山に返す努力を」「クマと戦争は間違っている」動物保護活動家の主張 棲み分けと学習放獣でクマ被害なくなるのか?★7 [ぐれ★]
- アンケート調査で「高市発言は問題なし」 93.5%wwwwwwwwwwwwwwwwwwwwwwwww [279254606]
- 【悲報】大分市佐賀関の火事、20軒→170軒に延焼🔥 [481941988]
- 自閉症が「んなっしょい」と連呼するお🏡
- 日本人の海外旅行したきのマナーよくなったのはいつから
- へそグリグリ
- 結婚しないやつは異性は嫌いなの?
