X



文字コード総合スレ part13
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
0002デフォルトの名無しさん
垢版 |
2020/07/03(金) 23:13:42.20ID:uIgOlo/V
「コマンドプロンプトはcp932(SJIS)である」はウソ

Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)

これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)
0006デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:02:52.75ID:KYM6hePT
>>2
最近は元々入ってる「コマンド プロンプト」よりも
VSで一緒に入る「開発者コマンド プロンプト for VS 201X」
とか使ってる
同じじゃないかって言われるかも知れないけど違う
0008デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:18:36.29ID:KYM6hePT
うん同じなのは知ってる

昔のコマンドプロンプトは chcp 65001 してもバグってたけど
今のは chcp 65001 しなくても utf-8 で動くから快適
0009デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:26:20.74ID:KYM6hePT
ああバグはあるわ
うっかりバイナリで変なパターン出力すると
コマンド プロンプト は落ちないのに Chrome が落ちたりするんだ
ホントは保護されてないといけないメモリを壊す観たい
0010デフォルトの名無しさん
垢版 |
2020/07/04(土) 21:57:15.92ID:0DTN05zS
「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!

--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012

C:\>type k
漢字

C:\>copy k con
 ・"oW[
     1 個のファイルをコピーしました。

C:\>cat k
 ・"oW[

C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006

C:\>
--

「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?
0012デフォルトの名無しさん
垢版 |
2020/07/04(土) 23:32:05.07ID:M3d71N9d
>>39
cmd /?
/A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
/U 内部コマンドの出力結果を Unicode でパイプまたはファイルに出力します。 
0013デフォルトの名無しさん
垢版 |
2020/07/05(日) 12:38:46.50ID:NbYPgepr
デフォは /A なんだろ
そんで /A のときは
chcp の値に依存するんだろ
パイプで常に cp932 になると思ったら間違い
0014デフォルトの名無しさん
垢版 |
2020/07/05(日) 12:39:54.58ID:NbYPgepr
>>2 の結論は間違いだけど
>「コマンドプロンプトはcp932(SJIS)である」はウソ

ここだけは合ってる
0016デフォルトの名無しさん
垢版 |
2020/07/05(日) 21:05:40.27ID:M+BkbwUs
>>2の結論は一行目。つまりお前が合ってると言った部分だろう?

>「コマンドプロンプトはcp932(SJIS)である」はウソ
0017デフォルトの名無しさん
垢版 |
2020/07/05(日) 21:10:40.03ID:M+BkbwUs
>>13

> /A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。

では画面へは何コードで出力しているでしょうか?

答えはUincode。なぜならUnicode文字が文字化けせずに出力できているから
0018デフォルトの名無しさん
垢版 |
2020/07/06(月) 01:17:06.10ID:lyDtf+5h
ウイーンがしゃ
0019デフォルトの名無しさん
垢版 |
2020/07/06(月) 10:52:37.14ID:vjiPzzt6
普通に読んだら結論はこっち

>これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

圧倒的に国語力が無いか
論理思考が出来ない人なんだろう
0022デフォルトの名無しさん
垢版 |
2020/07/09(木) 06:07:26.69ID:uQo6bqoB
「絵文字 知られざる舞台裏」
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。

“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
https://www.nhk.jp/p/wdoc/ts/88Z7X45XZY/episode/te/2QGK3QN6JJ/
0023デフォルトの名無しさん
垢版 |
2020/07/09(木) 08:50:19.27ID:TKLTGhB7
>>22
>“世界共通言語”
>アメリカの大手IT企業などからなる団体

NHK的な物言い、いいねw
でも、「言語」 って?

これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw
0024デフォルトの名無しさん
垢版 |
2020/07/09(木) 08:55:49.71ID:ah/SMoHN
ドレスデン・コデックス
マドリー・コデックス
パリ・コデックス
グロリア・コデックス
0025デフォルトの名無しさん
垢版 |
2020/07/09(木) 09:04:12.23ID:vrNDocOm
本編観たけどつまらなさ過ぎて途中で寝てしまった
IBM Apple Microsoft Google Facebook あたりの名前はちゃんと言ってたと思う
0026デフォルトの名無しさん
垢版 |
2020/07/09(木) 09:07:15.41ID:vrNDocOm
一部思い出した
NHKらしくほとんど黒人とLGBTの話ばかりだったんだが

私の造ったEmojiが登録されたって自慢気に中国人研究者っぽいおばさんが出て来て
チベットの旗は候補に出たけど登録は見送られた
チベットの旗が登録されることは今後も無いでしょう
って笑いながらインタビューに答えてた
0030デフォルトの名無しさん
垢版 |
2020/07/12(日) 10:45:57.27ID:NK7E+AG5
赤の▼が投稿禁止用語だとは知らなかったわ
0032デフォルトの名無しさん
垢版 |
2020/07/12(日) 14:49:14.50ID:6LAoyHzZ
↑「ナチ強制収容所のバッジ」というページ。他に人が見なくていいように。
0033デフォルトの名無しさん
垢版 |
2020/07/17(金) 17:49:02.99ID:zYg36R0O
世界絵文字Dayらしいぞ
知らんけど
0040デフォルトの名無しさん
垢版 |
2020/07/18(土) 13:20:10.73ID:uRU3MGLx
架空発注繰り返してもらえるくらい強力なコネが欲しい
0042デフォルトの名無しさん
垢版 |
2020/08/10(月) 17:37:29.36ID:wInlBSoO
禁止文字なんか?
溢鎰螠塧縊謚搤
0044デフォルトの名無しさん
垢版 |
2020/08/11(火) 12:23:17.24ID:2c8mpoZg
うざったてーも30歳か
0045デフォルトの名無しさん
垢版 |
2021/05/13(木) 16:58:46.99ID:0opMfQ+n
てすてすとと
0047デフォルトの名無しさん
垢版 |
2021/05/13(木) 21:29:00.08ID:39tz2cvT
ID:0pD51twu
イキってるねえ〜
0048デフォルトの名無しさん
垢版 |
2021/05/14(金) 08:07:05.15ID:ERw3EzI8
>>31
日本語がURLでエンコードされると長いよなあ
日本語1文字がアスキー9文字って... 誰だよこんなの考えたの
あともう一つなんだけ、ぷよぷよみたいな名前の
0051デフォルトの名無しさん
垢版 |
2021/05/14(金) 22:48:47.46ID:XJlzr4U7
次スレはここでいいのかな?

>>48
文字コードが決まってない(なかった)んだから仕方ないじゃない
0053デフォルトの名無しさん
垢版 |
2021/05/15(土) 11:08:47.44ID:zmWSHBKO
もともと ascii のみ。ascii の中でも一部使えない文字があるので、それは %エンコードする。
だったのが国際化にはUTF-8を使えに拡張された。
文字コードが決まってなかったわけではない。
あとURLにSJISとかUTF-16送ってくるやつは滅びろ。今すぐ滅びろ。
0054デフォルトの名無しさん
垢版 |
2021/05/15(土) 12:50:09.97ID:eYtIld1h
URLにBOM導入してればよかったのにな
0057デフォルトの名無しさん
垢版 |
2021/05/24(月) 19:37:25.20ID:RWCB+vU8
文字コードの勉強中です
Windowsで使われている文字コードはCP932(Shift-JISの拡張版)ということまで分かりました。 IMEパッドで理解を深めようとしているのですが、分からないことがあるのでご教示お願いします。
・IMEパッドの「シフトJIS」はCP932のことを指していると思っていいですか?
・IMEパッドの「JIS X 0208」はCP932の文字集合だと思っていいですか?
・だとすると「JIS X 0208」と「シフトJIS」は一対一で対応すると思いますが、「シフトJIS」にあって「JIS X 0208」に無い文字(@やTなど)があるのはなぜですか?

過疎っているようですがご回答いただけると幸いです
0058デフォルトの名無しさん
垢版 |
2021/05/24(月) 22:17:38.35ID:VrK5qnvr
勉強してるなら、理由も考えてみなよ
他人に丸投げするのは勉強とはいわない
0061デフォルトの名無しさん
垢版 |
2021/05/25(火) 08:37:04.98ID:6TyV4LYI
>>57
すごく大まかな説明をすると、
Windowsで使われているShiftJISの文字コードはMicroSoft版方言に侵されてて純正のShiftJISではない
「CP932」という言い方では純正ShiftJISなのかそれともMicroSoft版・Mac版・IBM版その他の方言なのか分からない
(まあ一般にはCP932という言い方をするとMS版のことを指す
明示的にMS版のCP932だということを示す際には、MS932とかWindows31Jとかいう呼び方をする)

なので
1つ目は、その「CP932」が指すものによる、純正ShiftJISを想定しているなら厳密には違う
2つ目は・・・・これもごくごく大まかに言ってしまうと「JIS X 0208」はシフトさせてないおおもとのJIS漢字コードのこと
(なのでShiftJISとはコード体系が違う。計算でシフトさせることで簡単にJIS⇔ShiftJISが導出できるけど)
3つ目のは、違ってる箇所の具体例がまさに丸数字とかの特殊文字に該当してる

というかこれは歴史的経緯によるものだからなあ、後世からみたら理不尽の塊でしかないだろう
理由を考えてみろと言われて分かるわけがないよ
0062デフォルトの名無しさん
垢版 |
2021/05/25(火) 09:29:36.84ID:lUfYCE+Z
文字集合のはなしと、符号化方式のはなしと、符号化文字集合のはなしと、文字コードのはなしを混同している人が多いな。
0063デフォルトの名無しさん
垢版 |
2021/05/25(火) 11:48:06.96ID:rDgveWWs
JIS X 0208/JIS X 0213の表はJISが決めたやつ
シフト JISの表はMicrosoftが決めたやつ
この二つは歴史的経緯で色々違いがあります
くらいの理解でいいんじゃないか
0064デフォルトの名無しさん
垢版 |
2021/05/25(火) 14:38:56.72ID:ZdUybFI8
そういえば、昔の*nixで日本語環境整えるのに、
このあたりが理解できないとまともな日本語表示すら出来なかったような
0065デフォルトの名無しさん
垢版 |
2021/05/27(木) 14:53:45.70ID:U0nLnJgd
>>57
>「JIS X 0208」と「シフトJIS」は一対一で対応する

違う
0068デフォルトの名無しさん
垢版 |
2021/06/01(火) 14:48:43.50ID:SuGQKf4C
行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」 - Togetter
https://togetter.com/li/1721407

十年くらい前に同じ内容聞いた気がするけどまだ直ってないのかこれ
0070デフォルトの名無しさん
垢版 |
2021/06/01(火) 19:28:50.99ID:F3dBNOsH
いまだにどこかの段階でShiftJISでエンコードしてるの?

ってここ(5ch)も人のこと言えんけどw
0072デフォルトの名無しさん
垢版 |
2021/06/02(水) 10:55:13.97ID:qtmfAhQ7
どうみても禿銀行が悪いのに
docomoの皆さん気を付けてくださいって
可笑しくないか?

どうみても武漢ウィルスなのに
世界中が迷惑受けてるのと同じ構図
0073デフォルトの名無しさん
垢版 |
2021/06/02(水) 11:18:23.22ID:BmjFsUtA
アポーが悪いんじゃないのか
0074デフォルトの名無しさん
垢版 |
2021/06/03(木) 10:44:27.32ID:9KAhsr64
💩
ほんとだ
0075デフォルトの名無しさん
垢版 |
2021/06/05(土) 16:48:33.23ID:z5K2FV3a
キャリアメールならそれぞれの絵文字に変換出来るだろうけど
0077デフォルトの名無しさん
垢版 |
2021/06/07(月) 02:14:41.67ID:aeSTySQn
はいじゃないが
0083デフォルトの名無しさん
垢版 |
2021/06/24(木) 22:48:23.94ID:6wlB1k9u
文字コードにうんこの絵文字とか入れた奴らはタヒんで詫びて
0084デフォルトの名無しさん
垢版 |
2021/06/25(金) 03:57:48.28ID:2bfr31Ii
うんこは大事だぞ?
人にもよるが多くの人が毎日これと付きあうことになる
うんこを出したことない人間はいないのだ
うんこは君の健康状態を教えてくれる大切な友達だ
そしてもし君がうんこを出すことを拒否したら、君は死ぬことになる
0085デフォルトの名無しさん
垢版 |
2021/06/25(金) 10:15:49.88ID:Wd+wOk9Z
うんこが分解されて植物や動物の栄養になって
また君らの口に入ってることを忘れてはならない
0086デフォルトの名無しさん
垢版 |
2021/06/26(土) 14:07:44.37ID:RjjpcdnV
分解というのは要するに菌などの微生物がその生物にとっての栄養を吸収し不要になったものを
捨てるというのが繰り返された結果であり、要するに菌のウンコである。この菌のウンコが人間に
とって問題ない場合、それは腐敗とは呼ばれず発酵と呼ばれる。納豆やヨーグルト、またアルコール
などがそれである。人間は直接摂取できないが植物にとっては栄養となる場合は肥料として使われる。
0087デフォルトの名無しさん
垢版 |
2021/06/26(土) 15:25:02.96ID:15vAhO8I
https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E8%82%9B%E9%96%80

コロストミーの場合、排泄方法は自然排便法と洗腸法がある。
自然排便法とは排泄口から自然に排泄される便をパウチで受けて処理する方法であり、
洗腸法とは一定量の微温水をストーマから注入し、強制的に排便を促進させる方法である。

自然排便法は、便意に従った排泄方法であり一般的に負担が少ないことが特長である。
パウチについては、不時の排泄に備えた常時装着が必要なためその使用量が増加し、
粘着剤によりストーマ周辺の皮膚にかぶれやただれを招き易い。
0091デフォルトの名無しさん
垢版 |
2021/06/26(土) 17:46:46.66ID:KFUgiKj4
>>90
ハハッ ってどれだ
0092デフォルトの名無しさん
垢版 |
2021/07/01(木) 01:41:01.03ID:Rr2ioLtp
8bitバイトなんて使ってるの人間くらいのもんだよな
地球生物は全て6bit(64値)でエンコードしてるわけだし、スタンダードに倣うべき
古き良きPDP、DEC SIXBIT
0093デフォルトの名無しさん
垢版 |
2021/07/01(木) 01:58:44.82ID:374nFu/f
もしDNAストレージが実用化&普及したらな
数十年と数億年の資産相互運用性を秤にかけるかもしれない
0096デフォルトの名無しさん
垢版 |
2021/07/02(金) 15:53:07.29ID:fx2NJKSC
素子はATGCの4値で、最小アドレス単位が3塩基コドンで1ワード=64bit(情報量の単位としてのビット)
ということでは
0097デフォルトの名無しさん
垢版 |
2021/07/02(金) 16:24:19.38ID:xu7tv1xS
0098デフォルトの名無しさん
垢版 |
2021/07/02(金) 16:26:27.71ID:xu7tv1xS
>3塩基コドンで1ワード

正解
っていうか実質使えないものもあるんやろ?
武漢コロナには人工物である証拠がーって言ってるのもそのあたりの痕跡が見付かってるから
0099デフォルトの名無しさん
垢版 |
2021/07/04(日) 11:53:43.14ID:9HrdtXiZ
インストラクションコードとして等価なのを数えなければ実質20くらいだけど、大体独自の制御コード、開始、終了、スプライシング(コメントアウト)、プリプロセッサマクロ的な役割を持っててフルに使ってるよ

そろそろスレチ…
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況