文字コード総合スレ part14

レス数が950を超えています。1000を超えると書き込みができなくなります。
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
851デフォルトの名無しさん
垢版 |
2024/06/18(火) 10:41:16.55ID:7l1MdKKx
変換候補に出てくる文字の説明がちゃんと出てくるものを使わないと
852デフォルトの名無しさん
垢版 |
2024/06/18(火) 15:04:55.87ID:J2T1cvE/
853デフォルトの名無しさん
垢版 |
2024/06/18(火) 16:01:02.14ID:xFwnxcwf
2024/06/23(日) 18:00:29.64ID:AwO4Mznw
異体字セレクタって、無闇に使うと問題あったりしますか?
例えば対応してないシステムやアプリ上で使うと何か問題が発生するとか
2024/06/23(日) 19:08:28.54ID:E6KcLbxg
検索する時にはまりそう
2024/06/23(日) 19:53:42.52ID:kgoIYSsb
>>855
規格にちゃんと従っていれば検索時には無視してくれるので大丈夫
現時点で規格をちゃんと実装してないやつの方が多いってのは棚に上げておく
857デフォルトの名無しさん
垢版 |
2024/06/27(木) 04:51:42.68ID:mbmQwdn4
見た目が似ている横棒がUTF-8でたくさん定義されてしまって面倒なことになった。
2024/06/27(木) 09:53:57.06ID:OTNDZ+yC
あいつら漢数字の一まで一緒にする気マンマンだったんだぜ
2024/06/27(木) 14:19:43.19ID:R4TfblGO
>>857
データベースないのかな?
0221以外のJISにない文字も含めた奴
860デフォルトの名無しさん
垢版 |
2024/06/27(木) 20:01:38.35ID:GrriFYXz
1(いち)とI(大文字アイ)は、フオントによっては、
見分けは、サッパリなぐらい、そっくり
ていうか、住所全角入力でハイフンの全角が
スマホからダメだった。仕方ないからパソコンで
入力したら上手くいった。
住所全角入力させるシステムってシステムのバグなのかな❓
2024/06/27(木) 21:05:10.39ID:wRIzw+yE
それよりサンセリフの I と l の区別がつかん
欧米人は大雑把でいけない
昔のタイプライターでは Il1を同じ文字、O0を同じ文字で代用していたらしいので伝統文化なのかもしれない
2024/06/28(金) 16:48:54.85ID:/Ex5ZKSC
youtubeのキーは判りにくい
863デフォルトの名無しさん
垢版 |
2024/06/29(土) 14:26:47.39ID:LsytJO7D
>>860
画面はUTF-8なんだろうけど、うしろにメインフレームのシステムがあるんだろう。
一文字に3バイト使う日本語でないとキャラクタセット変換が面倒なんだろうな。
2024/06/29(土) 23:34:00.90ID:PD19M9dI
記号類は見た目が似ているからといって入力しやすい文字で代用しないで
Unicode Code Chartsに書かれている意味を調べて本来の意味の文字を選んだ方がいいよね
だからこそ入力する時に変換候補に文字の意味も出てほしいし
テキストエディターでも文字のコードポイントを表示する機能がほしい
865デフォルトの名無しさん
垢版 |
2024/06/30(日) 03:09:55.21ID:CdZYHoVj
キーパンチャーの頃は単に部品減らしたいから代用したんでしょ
2024/07/02(火) 09:17:58.60ID:7m/fEF9O
いわゆる漢字検定ってありますよね
あれで「標準字体」とか「許容字体」とかあるけど、どういう基準で決められているか
どなたかご存知ですか?
2024/07/02(火) 11:09:41.17ID:CMQfyMum
>>866
検定協会が勝手に決めてて知りたければ協会の出してる本を読めということになってる
いちおう総務省や国語審議会などの文献を参考にしている建前になってるけど詳細は独自基準
2024/07/03(水) 20:09:14.26ID:uNuVLdV8
>>867
なるほど。単純な字形のデザインとしてはあまり統一感のない部分があったりして
少なくともそういう方針ではないんだろうなあと思いました。
2024/07/05(金) 12:08:03.46ID:sk1jYKJ/
記号の意味と言えばWAVE DASH / FULLWIDTH TILDE問題で
日本語で使うのはWAVE DASHの方が正しい意味なのに
FULLWIDTH TILDEの方が普及してしまっているのがあるね
Windowsで[Shift+へ]を押した時に波ダッシュが入力されるように
キーアサインを変える方法はないのかな
2024/07/05(金) 14:03:59.79ID:9HUPbMTA
~ を使え という話でしょ?
2024/07/05(金) 20:15:21.12ID:TlSLATbO
https://i.imgur.com/56sHvt0.jpg
すぐ2500P+2500P手に入ります。
2024/07/05(金) 20:44:07.34ID:91TM1aqr
>>871
コスパは特に良いよな
2024/07/06(土) 22:57:15.51ID:9TLutRVK
記号の意味にこだわる、ですか
例えば歌とかで音を伸ばす記号はWAVE DASHじゃなくて別途なんちゃらSOUND MARK
みたいなのが必要、ということになるのかね

そういえば"-"はハイフンなんかマイナスなんかどっちやねん
同じく"/"もソリダスなのかスラッシュなのか
というわけでそもそもASCIIの時点でグダグダという説は
874デフォルトの名無しさん
垢版 |
2024/07/06(土) 23:42:34.68ID:t6wlluGn
ちんこ文字
875デフォルトの名無しさん
垢版 |
2024/07/08(月) 05:39:56.31ID:CrEpPy17
てゆぅうか、
小文字のエル(l)と、大文字のアイ(I)
見た目、ソックリぢゃーーーん。
てゆぅか、dataURLとdataURI って違う❓
てゆぅか、dataURLとdataURI って同じ❓
てゆぅか、プログラミング言語の
PL1は、PLIらしいけどマジなの❓
てゆぅか、「水」と「木」って似てるぅ。
てゆぅか、UTF-8っていいねー
dataURIてゆうか、dataURLてゆぅか
Base64の文字列は、UTF-8に変換しても
Base64の文字列のままだろう。
容量が増えない。よな❓ 違う❓合ってる❓

てゆぅかさ、UTF-8は廃止してさ、
地球人は、1byte文字は、ASCiiとし、
漢字・🇨🇳語・漢語は、廃止してさ、
絵文字💙🖤🟨🤡🥳🧊を2byteにする
超UTF-4 UTF-4 超UTF-4 を策定しなさーーい

てゆうか、ハンドルネームは絵文字対応してないの❓
876
垢版 |
2024/07/08(月) 05:50:54.64ID:CrEpPy17
えー、875アタマ変ですよ。てか自分だった(⁠・⁠o⁠・⁠;⁠)
❌ 超UTF-4 ◎ 新UTF-16 だろ、ま、新UTF-8でもよいが
ま、ASCiiが8bitで格納されりゃ、何でもUTF8でよいのぢゃ
てゆうか、顔文字(⁠・⁠o⁠・⁠;⁠)とかってアロゲート文字だよな❓
複数の文字で一文字だし、四文字熟語もアロゲート文字❓
てゆうかさ、文字を接着させたのがアロゲート文字ポぃし
アロンアルファ文字って改名しなさーーい
てゆうか、アロンアルファは商標なのかな❓
877876
垢版 |
2024/07/08(月) 05:58:39.48ID:CrEpPy17
あっえけねぇーーー
アロゲート文字ぢゃなくて
サロゲート文字だった。誤字ってしまった
てゆうか、アとサって同じ字体に
しなさーーーい。テへペロッ👅👅👅
878デフォルトの名無しさん
垢版 |
2024/07/09(火) 06:03:06.92ID:7TWYnb2J
ISO-10846-1 と Unicode と UTF16
全部違くアル❓ってゆぅか違くナイ❓
どっちも正しくナイ❓ って優香、
地球の解説書の文章、
プログラミング言語よりイミフ by 🥳

タブン、ゼッタイ、ソレラワ、オナジ
by 👤ジシヨウ∧ウチユウジン
879デフォルトの名無しさん
垢版 |
2024/07/10(水) 09:52:29.65ID:VQ7EHiq/
javascriptの関数てか、オブジェクトてかメソッドてか
String.fromCharCode() なんだけど、引数は
UTF-16 らしい。
で、ですが、今から、引数にUNICODEてかUCS2を指定
してString.fromCharCode()により生成の文字が
化けるか試験、只今実施中
とにかく、地球人の言語イミフだけど
UNICODEとUCS2とUTF16 同じだよな。❓
因みに、引数にSHIFT JISコード指定したら
文字化けちゃったーーーーテヘ👅 BY 🥳
880デフォルトの名無しさん
垢版 |
2024/07/10(水) 10:24:38.13ID:VQ7EHiq/
    🟦🟦
ポクは、🟦🟦ミクロソフト星人 です。
なに、Javascriptのその引数がUTF16っていうルールなのかな?
てかさ、ミクロソフト星人語にUTF16を翻訳すると
単に「コードポイント」もしくは、
単に「UNICODE」だもんねぇーーー
ちなみに、ポクの子孫のエクセル星人は、
EXCEL関数にUNICODE関数があって
それの逆関数だけど、EXCELはJAVASCRIPTじゃないしーー
て、ゆぅか、SHIFT JIS関数なんてのは
存在しないぽぃぞ。んーーー
ANSIとか、今どうなっちゃったの❓
地球から消えてるぞーーー。関数がない。

でも、手元のデータは、SHIFT JISダラケだ。
因みに、JIS X 0208とかいうJISコードの
関数は、今でも存在する。
UNICODE関数ぢゃなくて、単にCODE関数。
てか、SHIFT JISとかUTF8とかグダグダな仕様なのに
なんで、そんな文字が地球のファイルに
沢山有るんだろ。へんなの

BY 🟦🟦🟦🟦 初登場かものミクロ星人でした--ー
881デフォルトの名無しさん
垢版 |
2024/07/10(水) 14:33:40.87ID:VQ7EHiq/
バイナリファイルがShiftJIS なんだけど、普通のJavascriptでそれ表示ダメぢゃーーーん
仕方ないから ShiftJISをUTF16に変換するJAVASCRIPT作るハメになった
ShiftJISからUTF16への変換って規則性がヤバイってyouか
規則性がナイようだ。
ま、第2〜4水準までやるのは面倒なので、
英数字と第1水準とついでにやる程度にサポートを絞り込み
ShiftJISからUTF16への変換するのを作るハメになった
てか、javascri◯tって使えねー
てか、ShiftJISが使えないんだよな。 日本語終わった-ーの❓
882デフォルトの名無しさん
垢版 |
2024/07/10(水) 16:22:45.34ID:2GPD5dJ4
javascriptはオワコン
2024/07/10(水) 20:27:52.97ID:rqrEiEKA
お前がオワコン
2024/07/10(水) 21:16:54.00ID:NYEE55Ev
バイナリファイルがShiftJISってどういう意味よ
そもそも日本人が書いてるかすら怪しいが
885デフォルトの名無しさん
垢版 |
2024/07/11(木) 15:15:53.35ID:Yl73LUiK
🤡チミは地球人だろ
👤オレハ、ウチュ〰ジン
🥳地球人ぢゃないのー❓
👤オレハ、チキュジンだから、オレハ、ウチュ〰ジン
🤡んー、ヒトは動物だけど、チミは❓動物❓
👤ウチュ〰ジンハ、ショクブツデハ、ナイアル
🤡ま、あのファイルのオフセット0〜253byteは、
あのファイルの元となったファイル名で、
ファイル名はテキストだから、それはバイナリとゆうか
テキストで、簡単には、shift jisだ。
👤てか、テキストファイルを暗号化したら、
テキストファイルではなくバイナリファイルだろ
地球人、ニホンゴヘンある。
🥳てか、地球人は言語力は能力は無アルねぇ!
👤ま、あのオフセット0〜253byteㇵ、
1byte文字つまり半角は、0x00を付加して2byteとし、
2byte文字つまり全角は、とにかくansiだな。
それで、全ての文字を2byte/文字としたunicodeだ
uni uni uniコードだ
🥳ウチュ〰ジン、イミフ明。すごいー。
🤡てか、あれ、FAT32 WIN98SE OFFICE97頃に
作成されたファイルだ。
今風に翻訳すると、SHIFT JIS + UTF16 ポぃ感じ
ま、第1水準漢字と半角英数字+α程度しか
使ってないないので、解読は、割と楽勝
🥳絵文字は❓
🤡そもそも、そんなの当時は存在しない
2024/07/11(木) 21:53:13.04ID:haHM85gK
>>832
これって、どうなっちゃってるの?
「異体字には別のコードポイントを与えない」っていうからIVSを作ったのでは
でも結局それを真面目に守っているのは日本だけってこと? 中国は許されてる?
887414
垢版 |
2024/07/11(木) 22:38:44.84ID:K91K+5w2
もうそろそろ、Windowsのテキストファイルの文字コードは
BOM無しUTF-8ということに決定してもよろしいか?
2024/07/11(木) 23:06:16.39ID:6+smHBG9
>>886
中国政府様が載せてくれないなら別の文字コード作って中国国内ではそっちを使うことを強制にするがよろしいか?
という強行姿勢を暗に匂わしたので折れて中国は好きなだけ漢字を申請できる方向になった
さらに一面まるまる使って漢字とは別に甲骨文字登録する方向で検討中
2024/07/11(木) 23:08:05.64ID:6+smHBG9
>>887
Microsoft はとうにその方向に決定している
今は過渡期で古いのが混在している状態
890885
垢版 |
2024/07/13(土) 06:39:23.34ID:TtoT6TUE
あれは、なんとか.caption内の文字を
Asc関数でコード化してファイルに格納。
結果、Shift Jisとなった。ようだ by 👤
よく思い出せたな by 🤡
2024/07/13(土) 15:57:55.69ID:AiAJ265H
>>889
さんくす
892デフォルトの名無しさん
垢版 |
2024/07/14(日) 06:38:37.28ID:ug+Z0Tiq
ちぇっ、あのユニコードが、嫌いなのは、
3byte/文字 というのは、準建て前で
ホントの(嫌いな)理由は、
文字数が決まってもbyte数が変動するから。

て、ゆぅか、UTF8は、可変長だからUNICODE
ですなんて、デマは修正しようよ
てか、SHIFT JISも、半角と全角で
BYTE長が変わるから、UNICODEぢゃないけど
ま、1BYTE文字と2BYTE文字だけだから許してアゲル
て、ゆうか、UTF16のサロゲート、あれ何よ
1文字=2BYTE という機能を喪失してるぢゃーーん。
て、ゆうか、メモ帳UTF8やめて、UTF16かつサロゲートなし
にしてさ、そうだ、第二〜第四水準漢字は、
絵文字を割り当てる、超最新UTF16を策定してよーー

ま、UTF32も惡くないけど、4byte/文字は
容量がデカい。ま、CPU的に今日は、64bitアドレスが
常識な今日おいて、UTF32、UTF64もアリと
言いたいとこだが、ファイル容量的なことを
考慮すれば、UTF32は惡だっちゅーーの
てゆぅか、UTF8にするぐらいなら
メモ帳は、ASCii 7bitだけサポートして
UTF7 にしなよーーー。
サクサク、動くかな。てか現状でも
メモ帳はサクサクだし、変更反対
てか、サロゲートなしUTF16でいいぢゃーん
絵文字は、第二〜第四水準を喪失させて
それに割り当てる。
なんて、なんちゃら真偽会は決断するわけないけどさーー
893デフォルトの名無しさん
垢版 |
2024/07/14(日) 09:14:35.59ID:JssLuzWj
>UTF8は、可変長だからUNICODE

こんなこと言ってる馬鹿は診たことが無い
894デフォルトの名無しさん
垢版 |
2024/07/15(月) 06:09:48.96ID:efndaTNQ
number(Asc("887"))って🇨🇳人ぽぃ
訛の文章だから、ヨイ在る。てyouか、

Windowsのテキストのファイルの
文字のコードのUTF8のBOMの有無は、
無でヨイ、在る

Windowsのテキストのファイルの
文字コードのAnsiのBOMの有無も、
無でヨイ、在る

でも、何でも、BOM無しでも、ヨイ有る

by 🇨🇳チコゴク セジン  アル アル
2024/07/15(月) 22:11:52.14ID:uaTguAFS
U+3316㌖のような単位を1文字にしている組み文字は
新聞で紙面を節約するためにあるのかな
2024/07/16(火) 15:07:23.43ID:+fRn+SCh
>>895
K-JISというやつですか
UnicodeのライブラリでNKFCやNKFDするとちゃんと「キロメートル」になるねえ
そういえば例の「ﷺ」はUTF-8で33バイトにもなった
「キロメートル」は18バイトだからまだまだかわいいものか
2024/07/16(火) 20:56:36.72ID:DctCX4ey
容量の単位が㎇までしかないのが時代を感じる
898デフォルトの名無しさん
垢版 |
2024/07/16(火) 21:05:36.26ID:eiV6OZVR
合字を用意する意味がない
2024/07/17(水) 09:30:17.34ID:Zoa35r67
BOM無しUTF-8がデファクトになってすげえ大迷惑
SJUSと混在で使ってるとVSCodeが文字化けしまくりだし誤って上書き保存すると二度と元に戻せなくなるし
2024/07/17(水) 13:01:23.25ID:LcC42hAA
>>899
では、どういう状況になれば大迷惑でなくなるのか?
2024/07/17(水) 13:11:18.27ID:7vbDx03j
そりゃその話の流れだとbomありutf8でしょ
ま広まらないと思うけど悪くはない
utf8にbomは不要という原理主義は頭固い
2024/07/17(水) 17:18:07.90ID:9XtLz/LP
SJISを無くす努力をしよう
2024/07/17(水) 19:46:49.14ID:z7xnUw2v
>>901
EUCを壊滅させたLinuxや、Appleから「もうSJISなんて面倒見んからな」と念を押した
MacがBOM付UTF-8を採用しなくて、その流れのままマルチOS対応ソースが一般的に
なってWindowsにも降ってきたから諦めろというしか。
 MSはやることやったが、10年以上かけてもGitHubとか使わない大半のユーザが
UTF-8どころかBOM付UTF-8にもそっぽ向いてSJIS使い続けたのが悪い。
2024/07/17(水) 20:36:38.73ID:H6FZvyqh
github とか関係無くて
internet は UTF-8 (BOMなし) で国際化するのが当然という風潮が10年くらい前からできてる
サーバーまわりが Linux に占拠され、クライアントも主流の android や iOS が UTF-8 以外まともにサポートしてないのが大きい
孤立した世界なら良いが他と通信する前提なら他と文字コードを揃えておくのが楽
Windows はもうマイナー環境だということを自覚するべき
905414
垢版 |
2024/07/18(木) 07:11:14.05ID:xqWd8vjt
少し盛り上がって参りましたw
906デフォルトの名無しさん
垢版 |
2024/07/18(木) 19:11:06.46ID:GUg+Zpj4
>>903
日本語と中国語が混ざる現象が新しい問題
907デフォルトの名無しさん
垢版 |
2024/07/18(木) 19:13:00.64ID:GUg+Zpj4
>>904
それは元がマルチバイト文字圏でなかった地域が主導しているからだよ

英語圏ではUTF-8かどうかすら意識せずに文字が書ける
908デフォルトの名無しさん
垢版 |
2024/07/18(木) 19:15:32.19ID:GUg+Zpj4
アスキー文字だけなら、UTF-8の方がいいという判断になった
最低でも16ビットを使って1文字を表現するものが受け入れられないのは、そのひとの使う言語による
2024/07/18(木) 21:24:22.29ID:+pABeDSj
英語圏でファイル名に?や/などのファイル名に使えない記号を入れたい時どうしてるんだろう
英語圏でも全角の?や/で代用してるんだろうか
2024/07/18(木) 22:53:24.17ID:206qXdc9
>>909
?は普通に使えるファイルシステムは多い
/は使えないので諦めて−とか_を使用することが多い
911デフォルトの名無しさん
垢版 |
2024/07/19(金) 05:38:28.69ID:+oFdaKCd
>>909
場違いのスレッドに来てしまったのか?
記号は制御文字に使うので、ファイル名には使えないという前提でコンピューターは進化してきた。

ファイル名にそういう記号なんて使わない。
使っているならその悪習慣はすぐにやめないとトラブルの原因になる。

OSのキャラクタセットに依存するとMacとWindows間だけでもファイル名が同じにならない。
912デフォルトの名無しさん
垢版 |
2024/07/19(金) 05:40:06.80ID:+oFdaKCd
CUIを無視した使い方はさすがにヤバいなw
913デフォルトの名無しさん
垢版 |
2024/07/19(金) 05:40:14.17ID:+oFdaKCd
石丸伸二さん取材の最前線

「取材不足」さんのYouTubeチャンネル
https://youtube.com/@shuzaibusoku

「取材不足」さんのX(ツイッター)
https://x.com/shuzaibusoku7

石丸伸二さんは天才ですね!
914デフォルトの名無しさん
垢版 |
2024/07/19(金) 06:36:09.05ID:vEkULQkh
ファイル名は、windowsは、<は、使えん かつ

ファイル名は、windowsは、<も、使えん かつ
・・・
なので、複数のファイル名をwindowsファイルへ
格納は、したい時は、ポクは、
それぞれのファイル名の区切りで<と>を使ってます。

>や<は、shift jisでもUtf八でもケタ数は、違くは
アルが、値は、同じアルから、shift jis 最好アル

by チゴク🇨🇳人ぽい文章で書き込んでは、みちゃったアル
2024/07/19(金) 08:29:22.60ID:dRmCY6il
>>909
英語圏でも全角ってあるの?フォント何使うの?
2024/07/19(金) 10:51:23.87ID:rRRLxAmX
MS-DOS (FAT)やWindows(NTFS)で使えないからといって全てのOSで使えないとは思うなよ
unix/linux 系とかなら / と nul 以外の全ての文字が使用可能
mac だとこれに : を加えた3文字が使えないだけ
MSの駄目仕様を前提に議論する時点で間違い
2024/07/19(金) 11:09:19.73ID:N0OJ52Uo
現実を間違いと言うのは負けフラグ
918デフォルトの名無しさん
垢版 |
2024/07/19(金) 15:44:59.79ID:uqFOJPw4
地球人たちよ。オレの霊感では、
shift jis code ≧0x7427 となる
文字は、地球には、shift jis にも
utf8 にも存在は、するが
天からのウチュ〰ジンの祟により
とにかくヤバイ。そんなの霊感がある。
by 👤ウチュ〰人の成り済まし

てゆぅか、shift jis code ≧0x7427
の漢字って何なんだろ。てかウチュ〰ジンクレージー
by 🤡

表示するぐらいなら祟られないよ。
なんか、イロイロとテストすると変だけど
by 🥳
2024/07/19(金) 15:51:30.12ID:rRRLxAmX
>>917
MS信者の悲しい「現実」は世間の現実ではない
920デフォルトの名無しさん
垢版 |
2024/07/19(金) 21:01:43.28ID:uqFOJPw4
て、youか、windowsのファイル名って
半角spaceとか、,とか文字ぢゃないのも使える
ような気がする。まったく、ダメな仕様だ
複数のファイル名を ,区切りで
ファイルなりエクセルに保存しようとすると
ヘンになっちゃうぢゃーーーん。
これだから、Micr○S゜ftはダメなんだよな。

ファイル名は、ASCii文字(制御コードは除く)
だけ使えるようにしなさーーい。てゆうか
ファイル名に絵文字とか使えるにはしないでね。

ファイル名を格納するアプリとかバグりそうぢゃーーん。
てか、JIS X0213ってSJISだと思ってたが
どうも勘違いしてた。m(__)m たぶん
単なるJISかも知れん。てかヨクわからん。
ブツブツ・・・
921デフォルトの名無しさん
垢版 |
2024/07/19(金) 23:55:58.28ID:rC6z5NUh
ファイル名の先頭に「-」
922デフォルトの名無しさん
垢版 |
2024/07/19(金) 23:56:41.47ID:rC6z5NUh
>>916
923デフォルトの名無しさん
垢版 |
2024/07/20(土) 05:41:48.89ID:pEI9f13X
ここで質問しても知ってる人はいなさそうな気もするけどダメモトで (長文失礼)。

Win10 以降のコンソールでは (conhost でも WindowsTerminal でも) "chcp 20932" で表示を EUC-JP にすることが出来ます。

この 20932 というコードページ、補助漢字 (JIS X0212) に一応は対応してるものの、切り替えに SS3 を使わない、という MS らしいなんちゃって仕様で、
これを知ったとき そのド変態ぶりに愕然としたものです。

それはまぁいいとして、今回の質問は 20932 ではなく、MS のもう一つの EUC-JP (であるらしい) 51932 についてです。

いくつかのサイトで MS の EUC-JP は 51932 である、という記述が見られるのですが、Win10 や Win11 で "chcp 51932" としてもエラーになります。
10 年以上前と思われる記事にも書かれていて、どうやら 51932 は補助漢字には対応してなかったらしいので、昔は 51932 が使われていたのだけど現在は廃止して、20932 に変更したのかと思ってました。

ところが最近、自宅のマシンに Win95 以降 (WinNT は 3.51 以降) の全ての Windows バージョンを仮想環境に載せたので (このために載せたわけじゃないけど)、
それらのコンソールで片っ端から "chcp 51932" を試して見たのですが、全てエラーになり CP-51932 が使える Win バージョンは一つもありませんでした。
年のため Win-API の MultiByteToWideChar() なども試しましたが結果は同じでした。

とすると、51932 という CP はどこで使われていたのでしょうか?
IE だけで使われていたのか、とも思われるのですが、この辺の経緯をご存知の方いらっしゃいませんか?
2024/07/20(土) 10:31:23.66ID:mfyxJz7D
>>923
過去に IE とか一部アプリで文字コードを EUC-JP に設定した時に使用されていた文字コードが CodePage 51932 だった
EUC-JP といっても正確には文字の種類が CP 932 と同じ(補助漢字がないかわりにNEC拡張漢字とIBM互換NEC拡張漢字がある。要はCP 932を機械的 SJIS → EUC-JP 変換しただけの)ものだった
2024/07/20(土) 12:04:16.22ID:pEI9f13X
>>924
こんなに速くレスもらえるとは! 早速の回答ありがとうございます。

やはり IE で使ってましたか。「一部アプリ」とは C# とか VB などの .net 系言語ということですかね。

前記したように Win-API の MultiByteToWideChar() には 51932 を指定出来なかったのですが、
書かれているように CP932 からの機械的な変換であれば大した処理ではないので、WinAPI を通さずに .net ローカルに実装していたのかも知れませんね。
926デフォルトの名無しさん
垢版 |
2024/07/20(土) 14:12:02.51ID:F167yFzL
CP65001とは何だったのか
927デフォルトの名無しさん
垢版 |
2024/07/20(土) 17:37:17.64ID:pd3T6vIK
>>916
使えるから使うではMacを使っているメリットを失う。

Linux・UNIXと共通のものがCUIで使えるというメリットをつぶすのは狂っている。
928デフォルトの名無しさん
垢版 |
2024/07/20(土) 17:40:52.19ID:pd3T6vIK
>>920
それはWindowsの特徴ではない

自然言語をそのまま使えないかという発想の歴史は古い

エスケープシーケンスの実装というまた別の問題を引き起こしているが
929デフォルトの名無しさん
垢版 |
2024/07/20(土) 17:47:23.09ID:pd3T6vIK
最近はJISの話題に触れない人間が多いけど、EメールはJIS。

JISのものを日本語環境で開くとSJISに変換されていたりして気づかないだけ。
930デフォルトの名無しさん
垢版 |
2024/07/20(土) 17:50:24.13ID:pd3T6vIK
>>925
CP51932はマイクロソフトがWindows用に用意したEUC-JPで大昔から使えるものだぞ?
931デフォルトの名無しさん
垢版 |
2024/07/20(土) 17:51:47.77ID:pd3T6vIK
日本マイクロソフトと日本IBMはいまだに自社が拡張したキャラクタセットを使ってくるから面倒なんだよない
2024/07/20(土) 18:05:46.39ID:4S4L7THY
日本語は絶対に ISO-2022-JP でなければならない、ってこともないはず。
今時のメーラーならたいてい UTF-8 も使える。
933デフォルトの名無しさん
垢版 |
2024/07/20(土) 18:37:14.92ID:pd3T6vIK
>>932
Eメールソフトの世界はUTF-8が標準にはなっていない
934デフォルトの名無しさん
垢版 |
2024/07/20(土) 18:38:27.52ID:pd3T6vIK
EメールをHTMLにしたがるIT大手はキャラクタセット問題を気にしてHTMLメールに誘導している。

Google社なんてモロにそう。
2024/07/20(土) 18:48:31.05ID:s1xOxpka
あとはSMTPUTF8を使ってメールヘッダーや本文のUTF8を
Base64などにエンコードしないで送るのが当たり前になったらいいんだけどね
こんな実装になっているメーラーはあるのかな
936デフォルトの名無しさん
垢版 |
2024/07/20(土) 18:51:01.47ID:pd3T6vIK
通信プロトコルまでUTF-8でやっていると思うレベルの低下は怖ろしいな
2024/07/20(土) 19:14:20.90ID:4S4L7THY
>>933
一つに限定されてはいないってことだ。なんのためにMIMEやなんかの規格でいろいろ定めてると思ってる。
標準というならUTF-8も標準の一つ。
938デフォルトの名無しさん
垢版 |
2024/07/20(土) 19:36:30.15ID:pd3T6vIK
言葉遊びはしていない
939デフォルトの名無しさん
垢版 |
2024/07/20(土) 19:53:47.49ID:JfCCJ2ok
>>886
森鷗外𠮟る
940デフォルトの名無しさん
垢版 |
2024/07/20(土) 20:11:01.14ID:pd3T6vIK
>>939
専用ブラウザを使ってないの?
2024/07/20(土) 20:14:02.55ID:4S4L7THY
>>938
日本語が不自由な人かな

EメールはJIS
UTF-8が標準にはなっていない

というのに反論したつもりだが
942デフォルトの名無しさん
垢版 |
2024/07/20(土) 20:48:59.49ID:pd3T6vIK
UTF-8は「標準」だ。

この文の解釈は難しい。そもそもキャラクタセットそのものが標準化だからだ。
943デフォルトの名無しさん
垢版 |
2024/07/20(土) 20:49:41.37ID:pd3T6vIK
>>1
もう「文字コード」というタイトルはやめないか?
2024/07/21(日) 02:45:19.34ID:JWUUf2WC
>>930
確かに CP51932 は MS の昔ながらの EUC-JP、とされてるようですが、状況的には CP51932 が OS レベルでサポートされたことはなく、.net レベルのサポートに留まっている
というのが結論と思われます。

OS レベルでサポートされているのは CP20932 の方でしょう。

ところでちょっと訂正。
>>923 で、"chcp 20932" が使えるのは Win10 以降と書きましたが、実際は Win2000 から使えるようです。
もっとも Win10 未満のコンソールでは "chcp 20932" すると日本語フォントが選択出来なくなるので、使い物にはなりませんが。

一方で、Win-API の MultiByteToWideChar() は Win2000 以降であれば CP に 20932 を指定して EUC-JP → Unicode 変換が可能のようで (マッピングの詳細は調べてませんが)、JIS X0212 → Unicode も変換出来ました。
SS3 を使わずに X0212 にシフトするという変態仕様も、この頃からだったんですね。
945デフォルトの名無しさん
垢版 |
2024/07/22(月) 21:09:05.44ID:SbBOLwbq
>>944
略語が気になって何を言いたいのかわからない
946デフォルトの名無しさん
垢版 |
2024/07/22(月) 21:11:08.05ID:SbBOLwbq
「Windows 10 未満」という表現はわかりにくい。

Windows Serverを無視したWindowsの話はプロっぽくない。
947デフォルトの名無しさん
垢版 |
2024/07/22(月) 21:16:43.91ID:SbBOLwbq
日本語環境でEUCが廃れたのはEUCとSJISが混在したシステムで漢字が入れ替わる問題に対処するため、SJISに統一する流れができたからだ。
2024/07/23(火) 01:12:23.43ID:ZwP44UoN
>>946
申し訳ないのですが、こちらの仮想環境に Server Edition までは入れてないので検証出来ないです。
とは言えカーネルの対応は付くので、それほど曖昧性はないはずですが。
「Win10 未満」であれば「Windows Server 2016 未満」ということですかね。

もちろん正確な情報が必要な場合は、個別に検証して頂く必要があると思います。

>>945
どの略語が分かりにくかったでしようか?
949デフォルトの名無しさん
垢版 |
2024/07/23(火) 01:13:01.03ID:Rfg4Mjqa
UTF-8に統一すれば良かったんだよ
2024/07/23(火) 01:16:32.09ID:7hbLrKM0
後知恵
2024/07/23(火) 08:31:21.57ID:dFpDHhI5
ついに...

全員日本人のK-POPグループUNICODEが日本デビュー、MV&インタビュー映像公開
https://news.yahoo.co.jp/articles/896e4610ab5244c8ea1be97dcab1d354bddbbf9f
レス数が950を超えています。1000を超えると書き込みができなくなります。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況