X



文字コード総合スレ part13
レス数が1000を超えています。これ以上書き込みはできません。
0001デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
0002デフォルトの名無しさん
垢版 |
2020/07/03(金) 23:13:42.20ID:uIgOlo/V
「コマンドプロンプトはcp932(SJIS)である」はウソ

Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)

これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)
0006デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:02:52.75ID:KYM6hePT
>>2
最近は元々入ってる「コマンド プロンプト」よりも
VSで一緒に入る「開発者コマンド プロンプト for VS 201X」
とか使ってる
同じじゃないかって言われるかも知れないけど違う
0008デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:18:36.29ID:KYM6hePT
うん同じなのは知ってる

昔のコマンドプロンプトは chcp 65001 してもバグってたけど
今のは chcp 65001 しなくても utf-8 で動くから快適
0009デフォルトの名無しさん
垢版 |
2020/07/04(土) 00:26:20.74ID:KYM6hePT
ああバグはあるわ
うっかりバイナリで変なパターン出力すると
コマンド プロンプト は落ちないのに Chrome が落ちたりするんだ
ホントは保護されてないといけないメモリを壊す観たい
0010デフォルトの名無しさん
垢版 |
2020/07/04(土) 21:57:15.92ID:0DTN05zS
「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!

--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012

C:\>type k
漢字

C:\>copy k con
 ・"oW[
     1 個のファイルをコピーしました。

C:\>cat k
 ・"oW[

C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006

C:\>
--

「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?
0012デフォルトの名無しさん
垢版 |
2020/07/04(土) 23:32:05.07ID:M3d71N9d
>>39
cmd /?
/A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
/U 内部コマンドの出力結果を Unicode でパイプまたはファイルに出力します。 
0013デフォルトの名無しさん
垢版 |
2020/07/05(日) 12:38:46.50ID:NbYPgepr
デフォは /A なんだろ
そんで /A のときは
chcp の値に依存するんだろ
パイプで常に cp932 になると思ったら間違い
0014デフォルトの名無しさん
垢版 |
2020/07/05(日) 12:39:54.58ID:NbYPgepr
>>2 の結論は間違いだけど
>「コマンドプロンプトはcp932(SJIS)である」はウソ

ここだけは合ってる
0016デフォルトの名無しさん
垢版 |
2020/07/05(日) 21:05:40.27ID:M+BkbwUs
>>2の結論は一行目。つまりお前が合ってると言った部分だろう?

>「コマンドプロンプトはcp932(SJIS)である」はウソ
0017デフォルトの名無しさん
垢版 |
2020/07/05(日) 21:10:40.03ID:M+BkbwUs
>>13

> /A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。

では画面へは何コードで出力しているでしょうか?

答えはUincode。なぜならUnicode文字が文字化けせずに出力できているから
0018デフォルトの名無しさん
垢版 |
2020/07/06(月) 01:17:06.10ID:lyDtf+5h
ウイーンがしゃ
0019デフォルトの名無しさん
垢版 |
2020/07/06(月) 10:52:37.14ID:vjiPzzt6
普通に読んだら結論はこっち

>これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

圧倒的に国語力が無いか
論理思考が出来ない人なんだろう
0022デフォルトの名無しさん
垢版 |
2020/07/09(木) 06:07:26.69ID:uQo6bqoB
「絵文字 知られざる舞台裏」
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。

“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
https://www.nhk.jp/p/wdoc/ts/88Z7X45XZY/episode/te/2QGK3QN6JJ/
0023デフォルトの名無しさん
垢版 |
2020/07/09(木) 08:50:19.27ID:TKLTGhB7
>>22
>“世界共通言語”
>アメリカの大手IT企業などからなる団体

NHK的な物言い、いいねw
でも、「言語」 って?

これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw
0024デフォルトの名無しさん
垢版 |
2020/07/09(木) 08:55:49.71ID:ah/SMoHN
ドレスデン・コデックス
マドリー・コデックス
パリ・コデックス
グロリア・コデックス
0025デフォルトの名無しさん
垢版 |
2020/07/09(木) 09:04:12.23ID:vrNDocOm
本編観たけどつまらなさ過ぎて途中で寝てしまった
IBM Apple Microsoft Google Facebook あたりの名前はちゃんと言ってたと思う
0026デフォルトの名無しさん
垢版 |
2020/07/09(木) 09:07:15.41ID:vrNDocOm
一部思い出した
NHKらしくほとんど黒人とLGBTの話ばかりだったんだが

私の造ったEmojiが登録されたって自慢気に中国人研究者っぽいおばさんが出て来て
チベットの旗は候補に出たけど登録は見送られた
チベットの旗が登録されることは今後も無いでしょう
って笑いながらインタビューに答えてた
0030デフォルトの名無しさん
垢版 |
2020/07/12(日) 10:45:57.27ID:NK7E+AG5
赤の▼が投稿禁止用語だとは知らなかったわ
0032デフォルトの名無しさん
垢版 |
2020/07/12(日) 14:49:14.50ID:6LAoyHzZ
↑「ナチ強制収容所のバッジ」というページ。他に人が見なくていいように。
0033デフォルトの名無しさん
垢版 |
2020/07/17(金) 17:49:02.99ID:zYg36R0O
世界絵文字Dayらしいぞ
知らんけど
0040デフォルトの名無しさん
垢版 |
2020/07/18(土) 13:20:10.73ID:uRU3MGLx
架空発注繰り返してもらえるくらい強力なコネが欲しい
0042デフォルトの名無しさん
垢版 |
2020/08/10(月) 17:37:29.36ID:wInlBSoO
禁止文字なんか?
溢鎰螠塧縊謚搤
0044デフォルトの名無しさん
垢版 |
2020/08/11(火) 12:23:17.24ID:2c8mpoZg
うざったてーも30歳か
0045デフォルトの名無しさん
垢版 |
2021/05/13(木) 16:58:46.99ID:0opMfQ+n
てすてすとと
0047デフォルトの名無しさん
垢版 |
2021/05/13(木) 21:29:00.08ID:39tz2cvT
ID:0pD51twu
イキってるねえ〜
0048デフォルトの名無しさん
垢版 |
2021/05/14(金) 08:07:05.15ID:ERw3EzI8
>>31
日本語がURLでエンコードされると長いよなあ
日本語1文字がアスキー9文字って... 誰だよこんなの考えたの
あともう一つなんだけ、ぷよぷよみたいな名前の
0051デフォルトの名無しさん
垢版 |
2021/05/14(金) 22:48:47.46ID:XJlzr4U7
次スレはここでいいのかな?

>>48
文字コードが決まってない(なかった)んだから仕方ないじゃない
0053デフォルトの名無しさん
垢版 |
2021/05/15(土) 11:08:47.44ID:zmWSHBKO
もともと ascii のみ。ascii の中でも一部使えない文字があるので、それは %エンコードする。
だったのが国際化にはUTF-8を使えに拡張された。
文字コードが決まってなかったわけではない。
あとURLにSJISとかUTF-16送ってくるやつは滅びろ。今すぐ滅びろ。
0054デフォルトの名無しさん
垢版 |
2021/05/15(土) 12:50:09.97ID:eYtIld1h
URLにBOM導入してればよかったのにな
0057デフォルトの名無しさん
垢版 |
2021/05/24(月) 19:37:25.20ID:RWCB+vU8
文字コードの勉強中です
Windowsで使われている文字コードはCP932(Shift-JISの拡張版)ということまで分かりました。 IMEパッドで理解を深めようとしているのですが、分からないことがあるのでご教示お願いします。
・IMEパッドの「シフトJIS」はCP932のことを指していると思っていいですか?
・IMEパッドの「JIS X 0208」はCP932の文字集合だと思っていいですか?
・だとすると「JIS X 0208」と「シフトJIS」は一対一で対応すると思いますが、「シフトJIS」にあって「JIS X 0208」に無い文字(@やTなど)があるのはなぜですか?

過疎っているようですがご回答いただけると幸いです
0058デフォルトの名無しさん
垢版 |
2021/05/24(月) 22:17:38.35ID:VrK5qnvr
勉強してるなら、理由も考えてみなよ
他人に丸投げするのは勉強とはいわない
0061デフォルトの名無しさん
垢版 |
2021/05/25(火) 08:37:04.98ID:6TyV4LYI
>>57
すごく大まかな説明をすると、
Windowsで使われているShiftJISの文字コードはMicroSoft版方言に侵されてて純正のShiftJISではない
「CP932」という言い方では純正ShiftJISなのかそれともMicroSoft版・Mac版・IBM版その他の方言なのか分からない
(まあ一般にはCP932という言い方をするとMS版のことを指す
明示的にMS版のCP932だということを示す際には、MS932とかWindows31Jとかいう呼び方をする)

なので
1つ目は、その「CP932」が指すものによる、純正ShiftJISを想定しているなら厳密には違う
2つ目は・・・・これもごくごく大まかに言ってしまうと「JIS X 0208」はシフトさせてないおおもとのJIS漢字コードのこと
(なのでShiftJISとはコード体系が違う。計算でシフトさせることで簡単にJIS⇔ShiftJISが導出できるけど)
3つ目のは、違ってる箇所の具体例がまさに丸数字とかの特殊文字に該当してる

というかこれは歴史的経緯によるものだからなあ、後世からみたら理不尽の塊でしかないだろう
理由を考えてみろと言われて分かるわけがないよ
0062デフォルトの名無しさん
垢版 |
2021/05/25(火) 09:29:36.84ID:lUfYCE+Z
文字集合のはなしと、符号化方式のはなしと、符号化文字集合のはなしと、文字コードのはなしを混同している人が多いな。
0063デフォルトの名無しさん
垢版 |
2021/05/25(火) 11:48:06.96ID:rDgveWWs
JIS X 0208/JIS X 0213の表はJISが決めたやつ
シフト JISの表はMicrosoftが決めたやつ
この二つは歴史的経緯で色々違いがあります
くらいの理解でいいんじゃないか
0064デフォルトの名無しさん
垢版 |
2021/05/25(火) 14:38:56.72ID:ZdUybFI8
そういえば、昔の*nixで日本語環境整えるのに、
このあたりが理解できないとまともな日本語表示すら出来なかったような
0065デフォルトの名無しさん
垢版 |
2021/05/27(木) 14:53:45.70ID:U0nLnJgd
>>57
>「JIS X 0208」と「シフトJIS」は一対一で対応する

違う
0068デフォルトの名無しさん
垢版 |
2021/06/01(火) 14:48:43.50ID:SuGQKf4C
行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」 - Togetter
https://togetter.com/li/1721407

十年くらい前に同じ内容聞いた気がするけどまだ直ってないのかこれ
0070デフォルトの名無しさん
垢版 |
2021/06/01(火) 19:28:50.99ID:F3dBNOsH
いまだにどこかの段階でShiftJISでエンコードしてるの?

ってここ(5ch)も人のこと言えんけどw
0072デフォルトの名無しさん
垢版 |
2021/06/02(水) 10:55:13.97ID:qtmfAhQ7
どうみても禿銀行が悪いのに
docomoの皆さん気を付けてくださいって
可笑しくないか?

どうみても武漢ウィルスなのに
世界中が迷惑受けてるのと同じ構図
0073デフォルトの名無しさん
垢版 |
2021/06/02(水) 11:18:23.22ID:BmjFsUtA
アポーが悪いんじゃないのか
0074デフォルトの名無しさん
垢版 |
2021/06/03(木) 10:44:27.32ID:9KAhsr64
💩
ほんとだ
0075デフォルトの名無しさん
垢版 |
2021/06/05(土) 16:48:33.23ID:z5K2FV3a
キャリアメールならそれぞれの絵文字に変換出来るだろうけど
0077デフォルトの名無しさん
垢版 |
2021/06/07(月) 02:14:41.67ID:aeSTySQn
はいじゃないが
0083デフォルトの名無しさん
垢版 |
2021/06/24(木) 22:48:23.94ID:6wlB1k9u
文字コードにうんこの絵文字とか入れた奴らはタヒんで詫びて
0084デフォルトの名無しさん
垢版 |
2021/06/25(金) 03:57:48.28ID:2bfr31Ii
うんこは大事だぞ?
人にもよるが多くの人が毎日これと付きあうことになる
うんこを出したことない人間はいないのだ
うんこは君の健康状態を教えてくれる大切な友達だ
そしてもし君がうんこを出すことを拒否したら、君は死ぬことになる
0085デフォルトの名無しさん
垢版 |
2021/06/25(金) 10:15:49.88ID:Wd+wOk9Z
うんこが分解されて植物や動物の栄養になって
また君らの口に入ってることを忘れてはならない
0086デフォルトの名無しさん
垢版 |
2021/06/26(土) 14:07:44.37ID:RjjpcdnV
分解というのは要するに菌などの微生物がその生物にとっての栄養を吸収し不要になったものを
捨てるというのが繰り返された結果であり、要するに菌のウンコである。この菌のウンコが人間に
とって問題ない場合、それは腐敗とは呼ばれず発酵と呼ばれる。納豆やヨーグルト、またアルコール
などがそれである。人間は直接摂取できないが植物にとっては栄養となる場合は肥料として使われる。
0087デフォルトの名無しさん
垢版 |
2021/06/26(土) 15:25:02.96ID:15vAhO8I
https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E8%82%9B%E9%96%80

コロストミーの場合、排泄方法は自然排便法と洗腸法がある。
自然排便法とは排泄口から自然に排泄される便をパウチで受けて処理する方法であり、
洗腸法とは一定量の微温水をストーマから注入し、強制的に排便を促進させる方法である。

自然排便法は、便意に従った排泄方法であり一般的に負担が少ないことが特長である。
パウチについては、不時の排泄に備えた常時装着が必要なためその使用量が増加し、
粘着剤によりストーマ周辺の皮膚にかぶれやただれを招き易い。
0091デフォルトの名無しさん
垢版 |
2021/06/26(土) 17:46:46.66ID:KFUgiKj4
>>90
ハハッ ってどれだ
0092デフォルトの名無しさん
垢版 |
2021/07/01(木) 01:41:01.03ID:Rr2ioLtp
8bitバイトなんて使ってるの人間くらいのもんだよな
地球生物は全て6bit(64値)でエンコードしてるわけだし、スタンダードに倣うべき
古き良きPDP、DEC SIXBIT
0093デフォルトの名無しさん
垢版 |
2021/07/01(木) 01:58:44.82ID:374nFu/f
もしDNAストレージが実用化&普及したらな
数十年と数億年の資産相互運用性を秤にかけるかもしれない
0096デフォルトの名無しさん
垢版 |
2021/07/02(金) 15:53:07.29ID:fx2NJKSC
素子はATGCの4値で、最小アドレス単位が3塩基コドンで1ワード=64bit(情報量の単位としてのビット)
ということでは
0097デフォルトの名無しさん
垢版 |
2021/07/02(金) 16:24:19.38ID:xu7tv1xS
0098デフォルトの名無しさん
垢版 |
2021/07/02(金) 16:26:27.71ID:xu7tv1xS
>3塩基コドンで1ワード

正解
っていうか実質使えないものもあるんやろ?
武漢コロナには人工物である証拠がーって言ってるのもそのあたりの痕跡が見付かってるから
0099デフォルトの名無しさん
垢版 |
2021/07/04(日) 11:53:43.14ID:9HrdtXiZ
インストラクションコードとして等価なのを数えなければ実質20くらいだけど、大体独自の制御コード、開始、終了、スプライシング(コメントアウト)、プリプロセッサマクロ的な役割を持っててフルに使ってるよ

そろそろスレチ…
0102デフォルトの名無しさん
垢版 |
2021/07/05(月) 11:41:14.25ID:c503ASju
未定義なのか未解明なのかはっきりさせてくれ
0104デフォルトの名無しさん
垢版 |
2021/07/15(木) 13:41:16.83ID:he0y84gJ
あうあうあー
0105デフォルトの名無しさん
垢版 |
2021/07/15(木) 15:07:41.94ID:ygp86UHP
>>103
鮮人で代用出来る罠
0106デフォルトの名無しさん
垢版 |
2021/07/15(木) 17:01:48.57ID:MIyHkZEB
精神障害者だけど精神障害者絵文字もないよね?
どういう図柄にすべきかと問われると困るけど

自治体からは
|+|
|♥|
みたいなキーホルダー貰ったけど誰も認知してないよねきっと

障害者用駐車場だけ空いてたりするけど停めていいか迷う、何故か必ず車椅子マークだし
0111デフォルトの名無しさん
垢版 |
2021/08/01(日) 21:24:22.96ID:z9C0zhgf
>>107
山手線の優先席でそのマークを見せつけて席を譲らせようとした白人がいたな。
0115デフォルトの名無しさん
垢版 |
2021/08/03(火) 15:37:40.00ID:mGGHQh8s
WindowsでシフトJISを廃止する設定があるのだが
開発用PCではこれをオンにしたほうがいいな
シフトJIS廃止するだけで起動しなくなる日本製のアプリや読めなくなるReadmeが山ほどあることに気付ける
0117デフォルトの名無しさん
垢版 |
2021/08/03(火) 23:38:26.66ID:Ucc8C21f
ルミネエスト新宿の感染爆発ワロスω
0118デフォルトの名無しさん
垢版 |
2021/08/04(水) 02:09:15.71ID:bE85vB+i
Macでも似たようなのがあるな。.CFUserTextEncoding
もはやCarbonアプリはないけども、誰か使ってるのかな?
0121デフォルトの名無しさん
垢版 |
2021/08/06(金) 19:59:22.96ID:kQ2vjEwy
>>115
あんたが死んだあとの話になるだろう
マイクロソフトは言い出してから、早くても20年は実行に移さないから。
0122デフォルトの名無しさん
垢版 |
2021/08/07(土) 00:11:41.11ID:rXkekRAR
MACはCRがガン
0126デフォルトの名無しさん
垢版 |
2021/09/04(土) 23:13:26.59ID:4PVPJ8G5
それで言うとMacさんが手術を受けたんではなく
別人の脳に「私はMacだ」という意識を移植したんだと思ってる
0131デフォルトの名無しさん
垢版 |
2021/09/10(金) 11:14:21.72ID:EUHR/7at
このスレでいいいかはわかりませんが、教えてください
購入したDAPの再生順(ファイルの並び順)が、01-10-02-03-...09-11-21-12-22-13-23...というファイル名順になるのですが、
これはどういった文字コード順なのでしょうか
また、正しい順序で再生させるにはどうファイル名を付けるといいでしょうか
なおファイル転送順ではないようです
0134デフォルトの名無しさん
垢版 |
2021/09/10(金) 14:35:19.70ID:EUHR/7at
>>132
メーカーが中国でサポート窓口なさそうなので…
他のフォルダ内も同じ順番なので、ファイル名に関係してそうではあるんですが

>>133
そう思ってUMSSORTというソフトで昇順にしたんですが、それでも同じなんですよね
0136デフォルトの名無しさん
垢版 |
2021/09/10(金) 15:09:19.40ID:us9/OBHL
DAPに限らず、メディアプレーヤーって結構メタ情報見てるぜ?
トラック名とかトラック番号とか。
0137デフォルトの名無しさん
垢版 |
2021/09/10(金) 15:19:50.85ID:EUHR/7at
>>135
困るんですよ…
>>136
MP3Tagで曲順はちゃんと埋め込んでるんですよね
トラック名が何であろうと、別のアルバムでも同じ数字の順序なんです…
0138デフォルトの名無しさん
垢版 |
2021/09/10(金) 15:20:52.85ID:++MWMR1k
どうせ全角半角とか、特殊数字とか使ってるだけでは?
ファイル名の数字付け直してみては?
0139デフォルトの名無しさん
垢版 |
2021/09/10(金) 15:41:18.97ID:EUHR/7at
>>138
すべて半角数字です
同じMP3をfoobarやandroidのpowerampに送った場合は問題なく数字順に再生されるので、ファイル名に問題はないと思います
ダミーで数字だけふったファイルを入れても同じでした
文字コード云々ではなくなにかDAP側での仕様なのかもしれませんね
みなさんスレ違いな話題にお返事くださりありがとうございました
0141デフォルトの名無しさん
垢版 |
2021/09/13(月) 13:11:45.64ID:8JnEfLqC
>>140
おお、わざわざありがとうございます 同じ症状ですね
しかし00と000追加も試しましたがだめでした
0145デフォルトの名無しさん
垢版 |
2021/09/16(木) 20:24:58.42ID:qSJtKW3p
シティポップの野良のzipファイルを開くときに、韓国語のエンコーディングを選ぶと
日本語のファイル名が正しく展開された。その他のレガシーなエンコーディングでは
駄目。これってどうなってるのかな。
ちな韓国語の場合はEUCとMSのエンコーディングが基本的に同じ?

シティポップってやっぱ日本以外でも聴かれてるんだねーって、違うか。
0146デフォルトの名無しさん
垢版 |
2021/09/16(木) 21:14:39.93ID:R13c8C0T
gb2312なのに日本語で書かれたスパムを受け取ったこと無いかい?
ksx1001にも日本の文字は含まれている。
0147デフォルトの名無しさん
垢版 |
2021/09/16(木) 22:55:21.33ID:hrewid4q
あれってなんでなん?
何か使い道あったん?

使わないけど精々100文字程度だから入れとくかーぐらいのこと?
0148デフォルトの名無しさん
垢版 |
2021/09/16(木) 23:46:44.00ID:oYfgSqnP
韓国は日本に併合された状態が30年以上続いてたわけで、その間に日本の文字が広まったんだろ
ksx1001制定時にも使われてたから入れたんじゃないか?
0151デフォルトの名無しさん
垢版 |
2021/09/17(金) 16:12:38.90ID:XepSWu0d
平仮名と片仮名のワ行のウ、片仮名のヤ行のイ、片仮名のヤ行のエ(現代のエと区別する為に作られたイとエが合体したような字)
も追加されたんだな。
0156デフォルトの名無しさん
垢版 |
2021/09/17(金) 19:45:51.29ID:dA6826ix
ぽげむたびげなみょ〜ん
0158デフォルトの名無しさん
垢版 |
2021/09/17(金) 20:31:32.36ID:inv44Tua
わ行は
ゐゑ
ヰヱ

や行のエ?
イとエの合体ってどんな字?
0160デフォルトの名無しさん
垢版 |
2021/09/17(金) 21:25:09.08ID:inv44Tua
ああ変態仮名か
thx
0161デフォルトの名無しさん
垢版 |
2021/09/18(土) 03:29:09.72ID:8cCB5H0x
いや変体仮名と同じKana Extended-Aに押し込まれただけであって変体仮名扱いではない
主流の文字と重複した仮名のことを変体仮名って言ってるわけだから
既登録のやつとかぶってないYI/YE/WUはただの仮名
0162デフォルトの名無しさん
垢版 |
2021/09/18(土) 05:02:10.93ID:IGDtXFiL
越後とか会津あたりの、いとえが混ざった奴を表す平仮名はないの?
鉛筆がインピツになったり駅がイキになったりするやつ
0164デフォルトの名無しさん
垢版 |
2021/09/18(土) 08:20:39.84ID:HKX409mh
WU は見たことあるけどカタカナの YE とか YI って実例があるんだろうか? どの漢字由来か見当がつかない。
0167デフォルトの名無しさん
垢版 |
2021/09/18(土) 11:27:32.09ID:urB35OC7
Wikipediaによると片仮名のヤ行イは「以」に由来、ヤ行エは「延」に由来するらしい。
ヤ行エは現代のエと同じ、ア行の方が違う形でU+1B000の「衣」に由来する字としてた事もあるらしい。
平仮名のヤ行イは「以」を崩した字でU+1B006,HENTAIGANA LETTER I-1と統合っぽい。
0169デフォルトの名無しさん
垢版 |
2021/09/18(土) 18:18:20.29ID:7WQTbyfT
歴史文脈以外での使い方を考えよう

ウェーイ → ヱーイ
みたいに
イエーイに使えるか?
0172デフォルトの名無しさん
垢版 |
2021/09/19(日) 13:02:22.99ID:/yxUr6Cy
恵比寿

恵比須
蛭子


どれが由来だろう
0173デフォルトの名無しさん
垢版 |
2021/09/20(月) 02:00:22.59ID:9dkY59At
変体仮名が思うより変態で感心した。
私はくせ字だが日記を始め手書きも多く残すつもりだから、
遠い未来に自分のくせ字がひとつでも加わればこれ以上ない喜びだな。
0174デフォルトの名無しさん
垢版 |
2021/09/20(月) 05:18:24.33ID:N9cWHXdB
元字が同じただの癖字じゃ無理だろw

それより慶応を广K广Oと書くようなやつのほうがよっぽど収録しがいがある
0177デフォルトの名無しさん
垢版 |
2021/09/20(月) 10:07:43.39ID:z7blcdQn
葬祭の下側がアルファベットになってて


死 タヌ
SO SAI

みたいなやつを見かけたことがあるんだけど
これもう文字じゃなくてロゴタイプじゃねと思った
0178デフォルトの名無しさん
垢版 |
2021/09/20(月) 10:08:04.72ID:rmuhdvcF
OK狭間
0181デフォルトの名無しさん
垢版 |
2021/09/20(月) 17:32:48.55ID:WNFThOB/
??
0182デフォルトの名無しさん
垢版 |
2021/09/20(月) 17:33:17.54ID:WNFThOB/
😀
0183デフォルトの名無しさん
垢版 |
2021/09/20(月) 17:40:06.38ID:59l0WUiK
新しい絵文字出てもAndroidのバージョン古いと見れないのつらいわー
フォントだけなんだから絵文字だけ別枠で配信してくれないかしら
0186デフォルトの名無しさん
垢版 |
2021/09/21(火) 01:32:25.68ID:4TsmTrOH
うっそぴょん
0192デフォルトの名無しさん
垢版 |
2021/09/23(木) 17:59:26.01ID:cmFu96z6
そそ
僕らは直が線対称だったり刃が切れなそうだったり反がハーイしそうでも気にならんよな?
0194ハノン ◆QZaw55cn4c
垢版 |
2021/09/23(木) 18:29:00.18ID:HaJtCNmP
>>192
CJK 漢字統合の悪い後遺症なんですが、なんで CJK 漢字統合とかやってしまったの?
0195デフォルトの名無しさん
垢版 |
2021/09/23(木) 20:01:43.64ID:J2CwG+Vn
でも統合しなかったらしなかったで
「見た目同じだけど検索に引っかからない文字」
がOCRとか素人入力とかで大量に使われてそれはそれでアレだったんだろうなあ
0197デフォルトの名無しさん
垢版 |
2021/09/23(木) 21:13:39.76ID:c1RLqe4u
漢字をあいまい検索するなら同義文字のデータベースを別途用意するのが正しい
CJK漢字統合では中途半端
バイオリンとヴァイオリンのように漢字に限らない問題だし
0198デフォルトの名無しさん
垢版 |
2021/09/23(木) 23:40:21.82ID:aPMb+uTW
正しいのはわかるが未だに
サンプル
サンプル
みたいなのさえ余裕で同一視してくれないやつ多いしなあ
統合なしだと現状と同レベルの利便性は特別な投資をしないと享受できないものになってた気がするんだよな
0199デフォルトの名無しさん
垢版 |
2021/09/23(木) 23:47:24.09ID:8jxjFHXd
プとふ゜を同一視しろと言われてもなあ
0200デフォルトの名無しさん
垢版 |
2021/09/24(金) 01:03:35.59ID:VG+rYv0i
ジャパニーズ絵文字をユニコードに入れまくったのは性犯罪と言える。
反省せよ!
0201デフォルトの名無しさん
垢版 |
2021/09/24(金) 02:32:55.61ID:LQ0rd/n8
>>194
CJK別にすると16bitに収まらなかったから

けどそんなことはもう問題になってない
32bitで扱わないといけないのみんな知ってるし
外部表現はUTF-8だし
0202デフォルトの名無しさん
垢版 |
2021/09/24(金) 02:35:08.29ID:LQ0rd/n8
>>195
そういう目的のためにCJK統合されたわけじゃない
だから役には立たない
そもそも新字旧字さえ同一文字とみなさないCJK統合文字の同一視を嬉しい奴なんか居ない
0203デフォルトの名無しさん
垢版 |
2021/09/24(金) 02:38:51.59ID:LQ0rd/n8
>>200
世界統一基準のルールでやろうとすると実績ベースでやるしかない
Gmailの中の人が日本のキャリア携帯メールの絵文字対応する時に
Google独自の他社非互換の対応をするのではなくて標準に入れたのは英断
数千万人が使ってる文字の流通基盤作った
0204デフォルトの名無しさん
垢版 |
2021/09/24(金) 04:12:12.52ID:xJSRWXwX
ヴィトンとゔぃとんをあいまい検索で同キーワード扱いするにはMecabのような分かちライブラリが必要になる
0207デフォルトの名無しさん
垢版 |
2021/09/24(金) 08:15:48.08ID:QlX8c1rH
システムが英語設定のときに日本語を表示させると、中国語の字形で表示される
ことが多い気がする。Google先生に日本語の漢字を入力して検索しても、中国語の記事が
優先して出てくるような。
これはどういうことなんだ....
0208デフォルトの名無しさん
垢版 |
2021/09/24(金) 09:53:35.98ID:IHKg493W
前半について言えば、日本語環境以外では中文フォントが優先利用されるようになっているからだろう。
0209デフォルトの名無しさん
垢版 |
2021/09/24(金) 11:31:16.82ID:xJSRWXwX
中国人が天安門事件についてググりやすくするための配慮だろjk
0211デフォルトの名無しさん
垢版 |
2021/10/01(金) 00:46:14.94ID:x0Z9nVhd
「直」とかが明らかに日中で形が違うのに同じコードポイントなのが問題で、誤字にしか見えない
許容範囲は「今」くらいまで
0213デフォルトの名無しさん
垢版 |
2021/10/01(金) 01:18:55.05ID:KGbDCwUx
形の問題で論じるとaとかgとかのバリエーションと同列の「字形が違うだけ」になってしまうような
0216デフォルトの名無しさん
垢版 |
2021/10/02(土) 00:21:19.15ID:mWEaacyi
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。
0217デフォルトの名無しさん
垢版 |
2021/10/02(土) 03:12:57.27ID:AUpOKXgX
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。
0220デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:02:15.81ID:lWVjrMOX
だいたいの人の先祖は読み書きできないと思うが
0222デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:30:41.53ID:qz0ghb/n
>>216>>217
異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから
0223デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:36:36.22ID:qz0ghb/n
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
 かちょう
 がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ
0224デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:40:36.25ID:qz0ghb/n
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから
0227デフォルトの名無しさん
垢版 |
2021/10/02(土) 21:51:21.36ID:0KUEFcg9
>>224
「かな漢字変換」ならぬ「漢字カナ変換」を開発ωして
年金情報ぶっ壊したのが厚生省ωω
0228デフォルトの名無しさん
垢版 |
2021/10/03(日) 01:40:13.18ID:7qrVNqxk
>>226
現状では言語によって異なる異体字 (図参照) のようなケースを異体字セレクタで区別することができない。

って書いてあるけど?
0229デフォルトの名無しさん
垢版 |
2021/10/03(日) 01:55:19.75ID:yBYg2wfE
IPAの発音記号あたり、中途半端に特定の文字だけ専用に用意するよりIPA専用記号として全部一式きれいに揃えたほうがわかりやすいんじゃないかって思うわ
どこまで普通のラテンを使っていいのか直感的じゃなさすぎてつらい
0231デフォルトの名無しさん
垢版 |
2021/10/22(金) 23:13:01.81ID:dHIUrNpa
IEコンポーネントブラウザだと絵文字は基本的に白黒で表示されるイメージだったけど、
一部の絵文字はフルカラーになるのね。何が違うんだろう?
なんとなく、追加時期が新しいものがフルカラーになってそうなイメージ。

Unicode 6 😂
Unicode 7 🙂
Unicode 8 🤗
Unicode 9 🤧
Unicode 10 🤮
Unicode 11 🥺
Unicode 12 🥱
Unicode 13 🥲
0234デフォルトの名無しさん
垢版 |
2021/10/23(土) 03:09:26.59ID:3m3aWUug
>>231
こっちではこう表示されているよ。Windows10のPCでjaneStyleで見ている。
https://imgur.com/McdjAOh
0235デフォルトの名無しさん
垢版 |
2021/10/23(土) 03:14:44.86ID:3m3aWUug
Chrome ブラウザだと顔文字が出るな。フルカラー。スマホの Android の ChMate でも同じ。
但しPCの方は Unicode 13 が□で出ている。インストールされているフォントの問題かな。
0237デフォルトの名無しさん
垢版 |
2021/10/23(土) 07:17:11.28ID:TpylJdXD
>>231
PC版Firefox 93、PaleMoonだとおk、
古いFirefox45だとコード番号のある□
PC版Chrome、Edge、絵文字プラグインを入れたJaneStyleだと、Unicode 13(一番下)は□

Edgeがダメとか、MS終わってるだろw

ちなみに、この文字はこれな
🥲 Smiling Face with Tear Emoji
https://emojipedia.org/smiling-face-with-tear/
0239デフォルトの名無しさん
垢版 |
2021/10/23(土) 07:39:19.42ID:TpylJdXD
Firefox系では、TwemojiMozilla.ttf というフォントファイルで表示しているようだ
古いFirefoxにもこれをインストールしたら表示できたけど、その他は相変わらずダメだった
何か他の要因があるのか?
0242デフォルトの名無しさん
垢版 |
2021/10/23(土) 20:05:42.90ID:Ur/BzH1F
IEってかTridentは今後どうなるんだろう
新絵文字対応は更新され続けるのかな
0243デフォルトの名無しさん
垢版 |
2021/10/24(日) 10:33:30.12ID:R+G/mjzT
>>237
フォント指定したらwin10 edgeでもちゃんと表示できてるぞ
文字コードスレなんだからそのくらい試そうぜ
0244デフォルトの名無しさん
垢版 |
2021/10/24(日) 19:01:46.47ID:ZXfUijH1
今は正しいフォントを指定してない場合にも表示可能なフォントがあれば自動で代替フォントで
表示するようになってるのが多いけどね。Win 10の特定のアプリ/APIでは違うということかな。
0246デフォルトの名無しさん
垢版 |
2021/10/24(日) 20:49:14.92ID:ZnySbBud
絵文字系のフォントを指定すれば表示できたとしても
普通の文字はどうするんだ、ということになるな
0249デフォルトの名無しさん
垢版 |
2021/10/28(木) 09:40:10.38ID:fzg5+Gzi
ほんとだ、フォントデベロッパーって(別にシャレのつもりはない)

まあフォントのデザイナーではないだろうから、Notoみたいに各言語のグリフが統合されたような
フォントセットを作るぞーとかそんなノリ?
0250デフォルトの名無しさん
垢版 |
2021/10/28(木) 12:07:23.11ID:5qBTDTYf
Windows11 で(一部の)設定ファイル等が BOM無しUTF-8に変わったみたいな話が聞こえてきてるけど、文字コードまわりはどんな感じ?
お前のマシンは古すぎるので11は無理っていわれて試せないので誰か教えて。
0252デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:32:18.28ID:cISpGEYl
\rはPowerShellの複数行コマンド履歴を履歴ファイルConsoleHost_history.txtに保持するために必要だよ
ConsoleHost_history.txtはWindows10でもBOM無しUTF-8だよ
Powershellを開いて explorer /select,(Get-PSReadLineOption).HistorySavePath で見つかるはず
0253デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:40:01.21ID:cISpGEYl
厳密に言うと、(Get-PSReadLineOption).HistorySavePathでは普通の改行は\r\nで複数行にまたがる時に\nが使われている
\rがあればこそできる使い分け
0254デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:45:59.31ID:nkWZEQ1o
ConsoleHost_history.txt は CRLF だったが
\r を無くせってのは単独の CR を無くせって意味か?
0255デフォルトの名無しさん
垢版 |
2021/10/28(木) 18:48:48.50ID:iKzNpht3
ネットワークプロトコルの世界ではCRLF(\r\n)だから、
改行コードが統一されることはないだろうな
0257デフォルトの名無しさん
垢版 |
2021/10/30(土) 01:27:33.12ID:Bi05tLLs
モニいう組文字がすっかり今までと違う使われ方されるようになったンだわ
0258デフォルトの名無しさん
垢版 |
2021/10/30(土) 10:06:13.76ID:gRDEN/XN
K.駆け落ち
K.結婚
0259デフォルトの名無しさん
垢版 |
2021/10/30(土) 16:30:56.75ID:YeKnQdw3
糞フェミ
きめえ
0260デフォルトの名無しさん
垢版 |
2021/10/31(日) 13:55:05.18ID:sRnAlDBM
「ヒモを育てる」(紐育)と書いてニューヨークと読む
0264デフォルトの名無しさん
垢版 |
2021/11/07(日) 14:55:37.70ID:XJB+ymj6
test
[🏳‍🌈] F09F8FB3 EFB88F E2808D F09F8C88 (Rainbow Flag)
[🏳] F09F8FB3 (U+1F3F3 Flag)
[VS-16] EFB88F (U+FE0F Variation Selector)
[ZWJ] E2808D (U+200D ZERO Width Joiner)
[🌈] F09F8C88 (U+1F308 Rainbow)
0265ハノン ◆QZaw55cn4c
垢版 |
2021/11/07(日) 15:09:59.30ID:IVg5lqh1
>>263
winny や share で exe ファイルを踏ませるために共有するファイルのファイル名に小細工をするやり方として10年前には流行っていたやり方ですね
パクリ論文もいいところ、ケンブリッジも堕ちたものですねえ…
0266デフォルトの名無しさん
垢版 |
2021/11/10(水) 09:56:00.72ID:1JI+/RUQ
堕ちたのは査読者
0267デフォルトの名無しさん
垢版 |
2021/11/10(水) 10:33:35.74ID:53ZSdClf
具体的な手法が各言語にはどのように適用できて、どのエディターが是弱で、どのエディターが対策できてるか、とかはちゃんとした研究だと思うが?
ニュース記事とかはどこが新規なのか曖昧にして、注目を集めたりするので中身を追いかけないと。
0268デフォルトの名無しさん
垢版 |
2021/11/10(水) 11:33:12.67ID:W6E9JaGo
UTF7
0269デフォルトの名無しさん
垢版 |
2021/11/22(月) 12:06:32.94ID:axkd8Lua
初めて正しい情報に遭遇した気がする
https://onihusube.hatenaぶろぐ.com/entry/2020/04/03/211442
0270デフォルトの名無しさん
垢版 |
2021/12/03(金) 02:21:47.01ID:SD21SyVf
Mecab用の新語辞書mecab-ipadic-NEologdを使ってるンだが、mecabコマンドを-Oyomi オプションつきで呼ぶと、komuroが「コームロコーポレーション」に変換されて困るンだわ
0271デフォルトの名無しさん
垢版 |
2021/12/03(金) 02:35:02.96ID:SD21SyVf
komuroが以下のように解析されてしまうンだわ

ko 名詞,固有名詞,人名,一般,*,*,ko,コー,コー
muro 名詞,固有名詞,組織,*,*,*,ムロコーポレーション,ムロコーポレーション,ムロコーポレーション
0274デフォルトの名無しさん
垢版 |
2021/12/09(木) 05:57:45.36ID:FYdAx32Z
>>273
無論、英語力は話すまでもない
とっくにしてるンだわ
komuroのほかにもC++のキーワード「iostream」が「ioストリーム」と変換されたりとか色々厄介なンだわ
0276デフォルトの名無しさん
垢版 |
2021/12/13(月) 16:15:10.59ID:7UKqmZkl
フォルダを意味する絵文字とファイルを意味する絵文字があれば味気ないlsコマンドが少しはにぎやかになると思うんだ
0277デフォルトの名無しさん
垢版 |
2021/12/13(月) 17:26:54.96ID:6Y8EqgkQ
>>276
コマンドラインの出力に emoji 使うのは迷惑極まるのでやめろ。そんなやつは素直にGUIでも使ってろ。
0278デフォルトの名無しさん
垢版 |
2021/12/13(月) 19:51:50.85ID:KrL9uSXh
最近は絵文字使うコマンドラインツールが増えてきた気がする。特にmac
確かに見やすいし仮に表示できなくても豆腐が見えるだけだし別にいいんじゃね
Net-Unicode規格?に従ってるかはよくわからん
0280デフォルトの名無しさん
垢版 |
2021/12/13(月) 22:52:29.78ID:RcHUWzLT
ふと気付いたが豆腐そのものの絵文字ってないんだな

グリフがない文字の通称、あるいはtofu on fireと、豆腐と文字コードは縁が深いのに
0281デフォルトの名無しさん
垢版 |
2021/12/14(火) 02:29:21.85ID:5jyEPH53
ANSI Colorによる強調を使わずに絵文字による強調を使うのが主流になっていきそうな気がするよ
例えば、ビルドログのエラーをパイプリダイレクト先でも強調したい時に気軽に使える
⛔ build failed
0282デフォルトの名無しさん
垢版 |
2021/12/14(火) 02:46:27.66ID:5jyEPH53
以下の文字は、とりあえず色付き絵文字で注目させたい時に使えそう
🔴 🔵 🔶 🔷 🔸 🔹 🟠 🟡 🟢 🟣 🟤 🟥 🟦 🟧 🟨 🟩 🟪 🟫
0285デフォルトの名無しさん
垢版 |
2021/12/14(火) 17:35:31.31ID:5jyEPH53
💮 Build Success
0290デフォルトの名無しさん
垢版 |
2021/12/14(火) 21:25:02.47ID:5jyEPH53
✅ Build Success
💯 Build Success
絵文字の意味よりも色が重要かも
0292デフォルトの名無しさん
垢版 |
2021/12/16(木) 03:24:30.66ID:V72yjyE9
💮 WHITE FLOWER (U+1F4AE)は、macOSとiOSの場合「大変よくできました」って日本語が縦書きされてるんだよな
0294デフォルトの名無しさん
垢版 |
2021/12/17(金) 11:47:44.47ID:gdvv6L1J
>>292
元の絵文字は「花丸」だった。赤ペンでぐるぐる丸を書く感じの。
Mac上でグリフがデザインされたとき、やや拡大解釈気味に「大変よくできました」の花の
スタンプになった。
その後他社はこれに引きずられたのか、赤線で花のイラストにした。結局Unicodeの名前も
White Flowerになってしまった。

これとおんなじかと https://youtu.be/8guQ43WGcjQ?t=268
0295デフォルトの名無しさん
垢版 |
2021/12/18(土) 04:47:18.20ID:RVV3wqFm
ゆうて鉄砲が水鉄砲になるみたいなのもあるからな
規格がどうだろうと大手がこぞって無視したらそうなってしまうのな
0296デフォルトの名無しさん
垢版 |
2021/12/18(土) 05:18:07.09ID:Q1tquPlV
読み手に色で注目を促したいだけならANSI Colorみたいに文字列そのものの色を変える必要ないんだよな
文字列の手前に色付き絵文字を配置するだけでも同じ効果があるので、例えば重要な情報がログが埋もれてしまうのを緩和できる
0299デフォルトの名無しさん
垢版 |
2021/12/18(土) 18:41:26.04ID:BM3dKYv8
以前ログを何かのチャット経由で送ってもらったら、勝手に絵文字に変換するフィルターが
かかっていたようで、えらいことになってた
たとえばdebugという文字列が虫の絵になってたりして、面白くてログの内容が入ってこなかった
0300デフォルトの名無しさん
垢版 |
2021/12/18(土) 21:46:25.14ID:Dpp2XsIq
大昔ここでもそういうやつの話題見たことあるな
Webフォントで、絵文字に対応する英単語ごとに複数文字の合字として入ってるの
やっぱ弊害のほうが大きいよな
0302デフォルトの名無しさん
垢版 |
2021/12/19(日) 01:29:19.44ID:x/beSAiN
絵文字を使ったログというのはこういうやつかな
ttps://spin.atomicobject.com/2019/10/15/faster-debugging-emoji/
0303デフォルトの名無しさん
垢版 |
2021/12/19(日) 08:18:21.32ID:e8cWFHZf
端末の文字列を色付けする従来のANSI Colorだとパイプやリダイレクトや画面テキストコピペで情報が失われてしまうけど
絵文字だと情報が失われない利点がある
0304デフォルトの名無しさん
垢版 |
2021/12/19(日) 08:46:52.31ID:e8cWFHZf
Visual Studioでビルドしてると単色テキストでログが画面に出力されるんだけど、
コマンドプロンプトとかでmsbuild使ってビルドするとテキストが色分けされているのがわかる。
何が言いたいかというと、Visual Studioでさえログから色情報が捨てられて、もったいないことになっているよ、という話
0305デフォルトの名無しさん
垢版 |
2021/12/19(日) 16:04:22.86ID:4oJJoyOR
集計画面があるからでは?
0306デフォルトの名無しさん
垢版 |
2021/12/19(日) 18:00:54.55ID:x/beSAiN
絵文字か... めんどくさい。
文字コードが実質統一されたことで文字化けは減ったかも知れんが、絵文字を下手に触って
文字化け(絵化け?)する場合がありそう。
0307デフォルトの名無しさん
垢版 |
2021/12/19(日) 20:08:53.97ID:e8cWFHZf
>>306
絵文字は実害が出る前に国際化未対応の不具合を見つけるのに役立ってきたよ
ま、絵文字が化けることそれ自体が実害だというなら実害なのかもしれんが

🛠工事中
🛠工事中
0309デフォルトの名無しさん
垢版 |
2021/12/20(月) 02:33:20.46ID:BLcgrP0l
なるほど。まあ国際化というか正しいUnicodeの扱い方? のような気もするが。
え、Unicodeを使うこと=国際化だって? あとはやたら中立を求めてくるやつ? 文化ガーとか
肌の色ガーとか性別ガーとか。

しかし、単に「工事中」と言っても含まれるメッセージには「工事中だから入ってくんな」とか
「工事中なので待っててね)」とかがあるような。
それは後者かな。IDEとかでありがちな。前者は日本由来の🚧はどうでしょう。
0310デフォルトの名無しさん
垢版 |
2021/12/20(月) 02:44:04.59ID:BLcgrP0l
ま確かに最近はいかにICUを正しく使うかみたいな感じはある... 自分の界隈では
0311デフォルトの名無しさん
垢版 |
2021/12/20(月) 06:43:37.99ID:TszysAyf
Windows10だとU+1F6E0とU+FE0Fの連続で以下画像と似た絵文字が表示されるはず
https://uc-emoji.azureedge.net/orig/18/83d86f5c30039ddf01bcb271f219a2.png
2chの挙動なんか怪しい、とりあえず
🛠 U+1F6E0(ハンマーとレンチ) U+FE0F(バリエーションセレクター16) の組み合わせでハンマーとレンチ絵文字を表示するテスト
🛠
0312311
垢版 |
2021/12/20(月) 06:45:57.85ID:TszysAyf
再現した
どうも5ch(2chじゃなかった)に投稿する時にU+FE0F(バリエーションセレクター16)が捨てられてしまうようだ
0313311
垢版 |
2021/12/20(月) 06:58:14.29ID:TszysAyf
以下サイトは、U+FE0F(バリエーションセレクター16が付随したハンマーとレンチの絵文字をクリップボードにコピーできる
https://emojigraph.org/ja/hammer-and-wrench/

ちなみにWindows10標準機能の「Win+.(ドット)」ショートカットキーで利用可能な絵文字パッドで選択できるハンマーとレンチは、なぜかU+FE0Fが捨てられた状態で取得される
0315デフォルトの名無しさん
垢版 |
2021/12/20(月) 11:37:43.26ID:TszysAyf
>>314
macOSやiOSの場合は、U+FE0Fなしでも色付き絵文字として見かけ上まったく同じに表示されるので区別がつきにくいね
0316デフォルトの名無しさん
垢版 |
2021/12/20(月) 16:28:50.79ID:TszysAyf
AndroidもmacOS,iOSと同じく「バリエーションセレクター16」なしでも「ハンマーとレンチ」を色付き表示できている
「バリエーションセレクター16」の有無で「ハンマーとレンチ」の表示が異なることを確認できているのはWindows10のみ
他のOSは手元にないのでわからない
0318デフォルトの名無しさん
垢版 |
2021/12/21(火) 03:59:02.76ID:tfb/wfWf
>>315
ちな逆にVS15(U+FE0E)でテキストスタイルにできるけど、これはならないな、俺環では。
これに関しては絵文字でしか持っていないということかな?
テキストスタイルで持ってるフォントをインストールしたら違うとか。
0320デフォルトの名無しさん
垢版 |
2021/12/21(火) 07:31:46.91ID:QziEyx5H
色付き絵文字のデザインは各ベンダーが独自性にこだわってくれても構わないんだが、
色付き絵文字になるかどうかの規則性だけは統一してほしい
0321デフォルトの名無しさん
垢版 |
2021/12/21(火) 07:40:59.61ID:QziEyx5H
OSベンダーとは別にFireFoxなどWebブラウザベンダーも独自に絵文字対応しており、以下の文字列が国旗で表示される
🇦🇨 🇦🇩 🇦🇪 🇦🇫 🇦🇬 🇦🇮 🇦🇱 🇦🇲
0323デフォルトの名無しさん
垢版 |
2021/12/23(木) 14:43:01.09ID:hHuia8wK
Windowsシステムでの国旗の絵文字はアルファベットで示すのはなぜ?
https://www.emojiall.com/ja/blog/321

すべての「国」が国際的に承認されるわけではなく、地域の旗も公式と非公式に分ける場合があります。Microsoftは国際テック企業として、政治的な問題や紛争を避けるため、いっそそれらの旗の絵文字を地域インジケーターシンボルで表示すると決定しました。
0324デフォルトの名無しさん
垢版 |
2021/12/23(木) 15:13:05.23ID:PGj8Lcl5
>>304
vscodeに関しては知らんけど、コンソールへ出力吐いたりフィルタ的なプログラムは大体オプションで選べるようになってるはず
出力先がターミナルならスルーして、それ以外なら落とすのがデフォルト動作であることが多い
0325デフォルトの名無しさん
垢版 |
2021/12/24(金) 04:25:34.61ID:sUGzc1Je
なんか下位区分の地域コードってイギリスだけなん?
日本の都道府県も使えるようになれば神奈川県旗とかいろいろ使い勝手がよさそうだと思うんだけど
0333デフォルトの名無しさん
垢版 |
2022/01/01(土) 01:18:33.10ID:LVCCviz2
🎍あけましておめでとうございます🎍

意外と鏡餅の絵文字ってないのですね🤔
0336デフォルトの名無しさん
垢版 |
2022/01/06(木) 07:59:23.44ID:+LKZGTi+
絵文字でやたら日本ぽいものは一番最初のときに入ったやつだろうなあ。
めんことか、ローカル文化的な絵文字を入れるのは今ってどうなんだろう。

そういえばベーゴマは形を変えベイブレードという名前になりアニメ化され
日本以外にも広まりつつあるので、いつか絵文字になる可能性が??
0338デフォルトの名無しさん
垢版 |
2022/01/06(木) 10:35:57.05ID:TQRXE+kb
何せUnicodeの絵文字の名前は日本語読みの emoji だもんな。英語圏ではちょっと誤解されてるようではあるが。
https://youpouch.com/2017/06/20/440108/
0339デフォルトの名無しさん
垢版 |
2022/01/06(木) 11:54:37.73ID:4VMA3TxB
オフィス系アプリでフィルタの意味で使われることが多い漏斗の絵文字があってもよさそうなのにないね、漏斗
0341デフォルトの名無しさん
垢版 |
2022/01/08(土) 05:10:39.79ID:P7CWxZ67
💾を「保存」メニューで見ても意味不明のまま使っている人も多いんだろうなあ。
他にもあるだろうか。
0345デフォルトの名無しさん
垢版 |
2022/01/08(土) 19:23:00.43ID:avCCFsXx
理科の実験でろ過やるでしょ
今どきのナウなヤングは、やらないの?
0346デフォルトの名無しさん
垢版 |
2022/01/08(土) 20:50:34.15ID:Xno0wVzc
>>341
ちょっと話それるけど小中学生ぐらいの頃ずっと
「ダイアログ」は「選択肢がある小さいウィンドウ」、
「ウィザード」は「順番に設定させる仕組み」を表す英語なんだと思ってたわ
0347デフォルトの名無しさん
垢版 |
2022/01/09(日) 01:13:06.70ID:NH/8fLHJ
もしかして日本ってもうIRGの会議に参加してない?
https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg58/IRG58.htm
去年はActivity Report用に割り当てられた文書番号IRGN2455は結局使われずじまい
今年は番号割り当て自体がされていない状態
0354デフォルトの名無しさん
垢版 |
2022/01/31(月) 12:44:12.35ID:rgTNIYKD
互換漢字とか合成順序とかあるので重複コーディングがあるといえばある。規格を正しく運用すれば対応できる(例外あり)
一方でUTF8も規格が改定されて最短表現のみが正当とされることになったので、規格を正しく運用すれば対応できる。
0355デフォルトの名無しさん
垢版 |
2022/01/31(月) 19:15:59.02ID:yx3TsyxS
やがてストレージはPB単位が普通になりメインメモリはTBが当たり前になると、1文字が4バイトでも誰も気にしなくなる。
その時組み込み用の小さいマイコンはメモリがGB単位。SSDのストレージがTB単位。32TBで800円ぐらい。
0357デフォルトの名無しさん
垢版 |
2022/01/31(月) 22:38:52.91ID:sMW2SYQR
>>353
当分の間は問題化しないというだけであり、理論上は問題がある
time_t型が64bitになったことで桁あふれが起きる時期が先送りされたのと似た問題
0358デフォルトの名無しさん
垢版 |
2022/02/01(火) 21:11:53.44ID:jUZPBG7K
>>357
Unicodeコードポイントの最大値は未来永劫U+10FFFFであると定められているので
32bitで足りなくなることはあり得ない。
0359デフォルトの名無しさん
垢版 |
2022/02/01(火) 21:16:16.71ID:00qxkD7h
未来永劫ではなく現時点でしょ
未来なんて誰にもわからない
👽地球外生命体とコンタクトすれば全人類だけではなく地球外生命体の文字コードも網羅しなければならなくなる
0361デフォルトの名無しさん
垢版 |
2022/02/01(火) 21:38:13.10ID:00qxkD7h
コンソーシアムがとち狂って個人のポートレートや企業ロゴを文字コードに採用したらあっという間に枯渇できる
0363デフォルトの名無しさん
垢版 |
2022/02/01(火) 23:15:37.24ID:00qxkD7h
過去・現在・未来の人類ひとりひとりに固有Unicode文字を割り当てたらあっという間に枯渇できるから安心してほしい
つまり歴代天皇や君も僕も人柱だ
0366デフォルトの名無しさん
垢版 |
2022/02/02(水) 06:08:48.50ID:Y6+HxZQE
すべての人がUTF文字コードとして記録されていくなんてすばらしいじゃないか
お墓いらずだ
0369デフォルトの名無しさん
垢版 |
2022/02/03(木) 00:02:44.44ID:mIHwLL5k
Unicodeが共同墓地として利用される日が来ないと言い切れるか?
0370デフォルトの名無しさん
垢版 |
2022/02/03(木) 08:37:22.23ID:wMyMehRo
👱🏿‍♀
すでに32bitに収まってないやんけ
フルカラー&ゲーミング肌色も遠くないかもねー
0372デフォルトの名無しさん
垢版 |
2022/02/04(金) 00:59:27.52ID:lO1pHc5T
可変長に耐えられる仕様にしろ、がFAだよ
0373デフォルトの名無しさん
垢版 |
2022/02/04(金) 01:00:35.02ID:lO1pHc5T
あ、理論上無限な可変長って意味ね
0375デフォルトの名無しさん
垢版 |
2022/02/11(金) 16:39:52.03ID:/9lD9ir1
vimにcocプラグイン入れて:CocUpdateコマンド使うと、
以下のような点字図形文字を使った待機アニメーションが出力されるね
⠇⠋⠙⠸⠴⠦

なるほど上手いなと思ったんだけど、既知?
0376デフォルトの名無しさん
垢版 |
2022/02/11(金) 18:35:39.64ID:27OdIczy
マルチプラットフォームなツールなのにMac版だけ点字クルクルアニメなのを見た気がする。何だったかな
0378デフォルトの名無しさん
垢版 |
2022/02/11(金) 21:33:05.23ID:/9lD9ir1
U+2572を使えばMSゴシックなどバックスラッシュが円マークで表示されるフォントでもそれらしく表示できるので以下のように待機アニメーションが可能
╲|/-
0379デフォルトの名無しさん
垢版 |
2022/02/11(金) 21:36:04.16ID:/9lD9ir1
あー思い出した、日本ファルコムの「ザナドゥ」って名前の昔のPCゲームで魔法Needleがまさに >>378 だった
魔法の描画が特殊な文字フォントとして表示される不思議なゲームだった
0381デフォルトの名無しさん
垢版 |
2022/02/12(土) 02:08:09.53ID:MORw/gx6
TeraTerm でフォントを MSゴシックにして送受信UTF-8にして LANG=ja_JP.UTF-8 になっている Linux から

perl -e 'binmode STDOUT,":utf8";print "\x{2572}\n"'

をやったら "?" が出た。

TeraTerm いまいちだな。
0382デフォルトの名無しさん
垢版 |
2022/02/12(土) 05:58:06.53ID:6+IJgpfD
記憶補正されてたみたいなので修正。ニードルの描画はバーティカルバーとハイフンを使わない。
╲/のみ。以下が実際のゲーム画面
[PC-88] Dragon Slayer II - Xanadu (1985) (Nihon Falcom)
https://youtu.be/QcQpec98nCA?t=397
0383デフォルトの名無しさん
垢版 |
2022/02/12(土) 15:46:35.31ID:8ted8XK+
Tera Pad も、新し目の文字には対応していない

だから漏れは、サクラエディタに移行した
0386デフォルトの名無しさん
垢版 |
2022/02/13(日) 16:46:47.29ID:JPo1zqMd
デバッグ機能をもちいてnppを開くようにしているので、
メモ帳を見ることもない(できない)
0387デフォルトの名無しさん
垢版 |
2022/02/16(水) 15:51:43.42ID:1NX6gMDY
Oo ← オー
Οο ← オミクロン
0394デフォルトの名無しさん
垢版 |
2022/02/19(土) 21:56:34.84ID:WK46JgnA
>>389
Oracleになって一瞬でオワコンになったねOOo。
0396デフォルトの名無しさん
垢版 |
2022/03/26(土) 20:09:02.80ID:O3+9n+yo
今日の某クイズ系YouTuberの問題。
俺らなら朝飯前だよな?

U+25CBは何の記号?
0399デフォルトの名無しさん
垢版 |
2022/04/02(土) 19:11:52.31ID:TBdum5+v
>>383
>Tera Pad も、新し目の文字には対応していない
あれは新しい文字とかの区分でなく表示の仕様上の理由で使えるフォントが制限されてるだけ
テキストエディタの使い勝手の思想そのものが古いツール
0406デフォルトの名無しさん
垢版 |
2022/04/02(土) 22:48:46.74ID:BnrUb276
>>400
どうなんだろうね
幅が半分で長い名前を表示ときに便利ということで使われてるほうが多いんじゃないかな
数字も個々の商品の価格は半角、合計額は全角で表示してたり
0407デフォルトの名無しさん
垢版 |
2022/04/02(土) 23:50:05.15ID:qrUGLqMu
国際化意識してない日本語環境においては、
表示、印字された日本語を見て全角とか半角になってるとか言うのは特におかしいことはないよ
JIS規格(「日本語文書の組版方法」)上、正しい表現
0409デフォルトの名無しさん
垢版 |
2022/04/03(日) 07:38:29.92ID:UTZR2EX5
>>408
例えば「小田急線に乗りたい」と息子が言ったとする。そしていざ、小田急線のホームにつくと「違う」と言い出し、乗ろうとしない。よくよく聞いてみると息子の希望は、「小田急3000型の急行小田原行きに、新宿から小田原まで乗りたい」ということだったりする。

わかるかぁ!と思ったのを思い出した
0410デフォルトの名無しさん
垢版 |
2022/04/03(日) 11:41:24.29ID:YOg/TQMm
>>403
規格にもhalfwidthあるじゃん
明らかに半角からとった名前だしそれを半角と呼ぶのはおかしくないだろ
0411デフォルトの名無しさん
垢版 |
2022/04/03(日) 11:55:34.75ID:Yvm2gL+J
じゃー聞くがそもそもその半角の角て何よ
0413デフォルトの名無しさん
垢版 |
2022/04/03(日) 13:00:55.07ID:sHDa++yb
>>412
君、頭悪いってよく言われるでしょ?
0414デフォルトの名無しさん
垢版 |
2022/04/03(日) 13:40:57.13ID:hBoszYQw
>>406
近所のコンビニのレシートでは所在地に全角数字、電話番号に半角数字が使われ
ドラッグストアのレシートでは所在地に半角数字、電話番号に全角数字が使われてる
0416デフォルトの名無しさん
垢版 |
2022/04/03(日) 14:07:53.41ID:CJTxuxUG
「半角」は元々は活字の半分の面積を意味する印刷業界用語だよ
0418デフォルトの名無しさん
垢版 |
2022/04/03(日) 15:51:29.35ID:CJTxuxUG
活字における四角形の4つの角すべてを使用するから全角
0419デフォルトの名無しさん
垢版 |
2022/04/03(日) 19:33:49.94ID:FH+2XgVa
C勉強初心者なのだが文字コードの壁にぶち当たった
日本語使わなきゃいいだけなんだろうが例題は原文が日本語だし
それを英語に直して打ち込んで、出力結果の確認も英語でやるとかしんどすぎる
0421デフォルトの名無しさん
垢版 |
2022/04/03(日) 19:49:40.68ID:CJTxuxUG
間違ってC++相談室スレに書き込んでしまったので改めて書き込む

半角全角使うな厨が絶滅しますように (AA略
0422デフォルトの名無しさん
垢版 |
2022/04/03(日) 19:58:36.84ID:FH+2XgVa
>>420
そうです。英語があまり得意ではありません。
日本語の入門書で学習しているのですが、その本が特に開発環境を指定しておらず、
自分が準備した開発環境(エディタがShift-JISらしいです)で例題を打ち込むと問題が起こります。
特定の文字に対処する方法はあるようなのですが、環境を変えて根本的な解決ができないか、と調べておりましたが、
そちらも色々ややこしそうで、結局全部英語でやらなきゃいけないのかなぁ、と。
0424デフォルトの名無しさん
垢版 |
2022/04/03(日) 20:28:35.14ID:ay8H5C1D
半角カナ使う人に理由をきいてみたら、1バイトでもファイルサイズを減らすためと言われたのには色々驚いた
ちなみに文字コードはUTF-8
0425デフォルトの名無しさん
垢版 |
2022/04/04(月) 00:40:27.15ID:39SIV1sh
>>422
真っ当なエディタ使え
フリーでいいものがいくらでもあるぞ
0426デフォルトの名無しさん
垢版 |
2022/04/04(月) 07:21:12.86ID:aBZOo9DH
>>425
ありがとうございます。
もう少し調べて設定を変えてみたら、作成済のexeファイル起動したときコマンドプロンプトで文字化けが起こったので、今のままじゃ対応できなさそうな感じです。
世の中の全ソフトがUTFなら問題は起こらないんだろうなあ。
0427デフォルトの名無しさん
垢版 |
2022/04/04(月) 12:19:56.00ID:A2Pzpe07
CP932 とか、ファイルパスにUTF-16 ? とか使っているのは、Windows だけでしょ?
Linux は、UTF-8 で統一されている

全言語はLinux用

Windows用言語は、C# のみ。
特殊なのは、Windows用のネイティブアプリを作る場合だけ。

普通にウェブ開発する場合は、Linux。
サーバー・クラウド・Docker も、すべてLinuxだから

開発者がLinuxしかいない。
それでWindowsでも、WSL2 でLinuxが使えるようにした
0428デフォルトの名無しさん
垢版 |
2022/04/04(月) 12:30:01.86ID:aBZOo9DH
真面目にやりたいならwindowsしか持ってないってのはまずいってわけか
初心者向けの学習ならごまかしつつ進められるところはあるのかもしれないが
0429デフォルトの名無しさん
垢版 |
2022/04/04(月) 12:53:56.30ID:F+M9/rKi
>>400
レシートに印字できる文字数やレジに登録できる文字数に制限がある
全角で表示しきれればいいけどだいたい足りないので半角で登録する
店舗名や住所などは3行とか4行表示できたりするのでスペース文字とかで調整して印字させたりした
10年ぐらい前の話だけどな
0430デフォルトの名無しさん
垢版 |
2022/04/04(月) 13:33:42.39ID:0mSmJ0PC
Shift JISであればWindowsのコマンドプロンプトで文字化けはしない
全てが文字化けするのか"表"のように特定の文字だけ化けるのか
コンパイラは何を使っているのか等々もう少し詳しく書かないとわからん
0431427
垢版 |
2022/04/04(月) 13:55:29.24ID:A2Pzpe07
WSL2, Ubuntu 18.04 で、Ruby の1-liner なら、これで日本語文字列が表示される。
ファイルパスに日本語が含まれていても、WSL2 が変換して正常に処理される

/mnt/c は、Windows 側のCドライブ

chomp で末尾の改行を削除して、1行ずつ処理する。
:encoding "extenc:intenc" の形で、外部/内部エンコーディングを指定する

ファイルがUTF-8 の場合
ruby -e 'File.foreach( "/mnt/c/Users/Owner/Documents/ファイル.txt", chomp: true ) { |line| puts line; break }'

ファイルがCP932 の場合
ruby -e 'File.foreach( "/mnt/c/Users/Owner/Documents/ファイル.txt", encoding: "CP932:UTF-8", chomp: true ) { |line| puts line; break }'
0432デフォルトの名無しさん
垢版 |
2022/04/04(月) 14:42:22.56ID:aBZOo9DH
>>430
特定の文字だけアウトです
本格的なのは別にあるのは知ってますが勉強用なら見やすいのがいいかなと思ってEasyIDECで始めたのでコンパイラはTinyCかと思います
対策調べてたらShiftJISで書くのがそもそもの間違いみたいな話があり困っておりました
0433デフォルトの名無しさん
垢版 |
2022/04/04(月) 15:48:39.38ID:A2Pzpe07
Windows 専用の環境依存文字じゃないの?

@、丸で囲まれた1とか、
、はしご高とか

CP932 の文字かも。
たぶん、sjis に含まれていないのかも

Shift_JIS, CP932(Windows-31J)の違いを調べてみれば?
0434デフォルトの名無しさん
垢版 |
2022/04/04(月) 19:24:33.26ID:0mSmJ0PC
>>432
多分ダメ文字だね
ソ噂浬欺圭構蚕十申曾箪貼能表暴予禄兔喀媾彌拿杤歃濬畚秉綵臀藹觸軆鐔饅鷭
は2byte目が0x5cなのでエスケープ文字と誤認識して文字化けする
ダメ文字の後に半角¥を入れることで回避はできる
printf("表\示");
Borland C++のフリーの日本語版はもう手に入らないんだっけ
0436デフォルトの名無しさん
垢版 |
2022/04/04(月) 20:00:31.30ID:0mSmJ0PC
あとはソースをUTF-8で編集してビルドしてコマンドプロンプトでchcp 65001としてUTF-8に切り替えてから実行するとか
コマンドプロンプトのフォントはMSゴシックとかにしておいた方がいいと思う
0439デフォルトの名無しさん
垢版 |
2022/04/05(火) 00:45:07.42ID:TsqsF2oT
>>434の方法でも同じエラーが発生する
Shift-JISがゴミであることが分かった
コマンドプロンプトからいじるの面倒だしPC買い直す余裕ないしプログラム学習おわり
0440デフォルトの名無しさん
垢版 |
2022/04/05(火) 00:59:13.18ID:TsqsF2oT
PC買い直す必要まではないのか
しかし先が思いやられるのでプログラム学習はやめにするよ
特に目標があったわけでもないし
ありがとう
0441デフォルトの名無しさん
垢版 |
2022/04/05(火) 01:02:33.14ID:iD4mxYU0
SJISのような日本ローカルのキャラクタセットを外国が意識してくれると思っている方がおかしい。
0442デフォルトの名無しさん
垢版 |
2022/04/05(火) 01:07:26.62ID:TsqsF2oT
それはそうなんだが英語力を専門書読めるレベルに上げるなんて今更無理
日本語を母語として20年生きてきた普通の人がプログラミングやるなんて無理なんじゃない?
0443デフォルトの名無しさん
垢版 |
2022/04/05(火) 01:09:38.64ID:TsqsF2oT
全てを英語で学習するのが最良なのは間違いなさそうだが
全ての日本人プログラマーがそうしてる訳ではないよな?
どこかに道はあるような気はするが…もうどうでもいいわ
0447デフォルトの名無しさん
垢版 |
2022/04/05(火) 14:23:19.00ID:6a13xz8Z
ダメ文字って、20〜30年前の話じゃないの?

sjis が鬼門だから、日本人開発者は皆、Mac を使う。
プログラミング学校もMac限定

Windows 10 Home 版で、
VSCode, WSL2, Linux, Docker Desktop などが出来たのは、ここ2〜3年

これでようやく、WindowsがMacと争えるようになった

Microsoft がLinux技術者を大量に採用して、WindowsからLinuxへ移行したから
0448427
垢版 |
2022/04/05(火) 14:39:26.06ID:6a13xz8Z
>>427
に書いたけど、全言語がBOM無しUTF-8 で、Linux 用

だから、これ以外の物がダメ。
つまり、Windows と、sjis がダメ

クラウドのすべての基幹技術が、Docker で、
AWS, Kubernetes, CircleCI などで使われている。

DockerはLinux の技術だから、
Microsoft も、Linux Foundation に入っている

Linuxを使わないと、インターネット・コンピューターが動かない
0449デフォルトの名無しさん
垢版 |
2022/04/05(火) 14:51:52.85ID:TsqsF2oT
・日本語でプログラミングの勉強しようと思ったら基本的にwindowsは使ってはいけない
・ここ数年はwindowsでもやれないことはない
ってこと?
とはいえ未だにコマンドプロンプトは良くなさそうだし学習ストップが無難か
0450デフォルトの名無しさん
垢版 |
2022/04/05(火) 14:55:24.52ID:TsqsF2oT
自分みたいな年寄りはともかく、家にwindowsしかない普通の家庭の子どもが何かのきっかけでプログラミングに興味を持ったとき、そこから先に進む可能性を閉ざしてしまうのが日本ってことになるな
0451デフォルトの名無しさん
垢版 |
2022/04/05(火) 15:24:31.00ID:tzt3NmkL
日本語で得られる範囲は対したことが無いので、将来への不安とか考えなくても良いよ
0452デフォルトの名無しさん
垢版 |
2022/04/05(火) 15:28:13.39ID:TsqsF2oT
プログラミングの勉強する前に英語の勉強しろってことだな
手遅れ感が否めないけど
0453427
垢版 |
2022/04/05(火) 16:07:16.53ID:6a13xz8Z
すべてのシステムは、インターネット・クラウドにあるから、
それを作っているのがLinux なので、全言語はLinux用に作ってある。
だから、全言語BOM無しUTF-8 を使っている

Windows(C#), iPhone(Swift), Android(Dart)など各端末用の言語は、特殊な部類

特にWindowsは、sjis 正確にはCP932 を使っていて、
こういうエンコードを知っている外人は、まずいない

だから、外人が作ったUTF-8, Linux用のコードを、
Windows用にコンパイルしても、日本語でバグる

だから、Ruby on Rails でも、Cloud 9 でクラウド開発するか、Mac を使う。
プログラミング学校もそう

YouTube のRailsの動画でも、
Windows 10, VSCode, WSL2, Linux, Docker Desktop などは、つい最近
0454427
垢版 |
2022/04/05(火) 16:18:30.45ID:6a13xz8Z
Microsoft(MS)のCEO・バルマーが「Linux はガン」と言って毛嫌いしていたけど、
すべてのシステムがクラウド・Linux へ移行して、世の中に取り残されてしまった

MSに残ったのは、Office だけ

それで、MSはLinux技術者を大量に雇い、
Linux Foundation にも入って、Linuxに貢献することにした

それと取り残されているのが、CP932。
世界はUTF-8になっている
0455デフォルトの名無しさん
垢版 |
2022/04/05(火) 16:25:00.78ID:TsqsF2oT
バルマーって昔壇上で叫んでた変なおっさんか

それはともかく
自分が英語できなさすぎるからかも知れんがMacのUI苦手でな…
もし学習するなら普段使い用とはPC自体分けたほうが良いのかもしれんな
そんな金はないが
0456427
垢版 |
2022/04/05(火) 16:39:15.87ID:6a13xz8Z
Ruby on Rails みたいなウェブ開発は、Linux だから、
Cloud 9 みたいなクラウド開発を勧められる

ローカルPC なら、Mac 上に、Virtual Box でLinuxを入れる。
どこのプログラミング学校でもそう

Windows 10 Home, VSCode, WSL2, Linux, Docker Desktop は、つい最近

ローカル開発では、Mac/Windows上に、Linuxを入れるから、
2つのOS が動くから、メモリ16GB 以上は欲しい。
32GBが推奨

初心者は必ず、Linux, Dockerを学ぶ

Windows(C#), iPhone(Swift), Android(Dart)など各端末用の言語・アプリは、特殊な部類
0458デフォルトの名無しさん
垢版 |
2022/04/05(火) 18:55:29.40ID:lZ0ctM/K
1990年に補助漢字が制定されたときに
シフトJISを置き換えようとする動きは全く無かったのかな
0459デフォルトの名無しさん
垢版 |
2022/04/05(火) 19:12:08.71ID:E5ZUVyu6
>>458
当時は無かった。PCにもプリンターにも漢字ROMとか積んでたような時代なのでコストに合わないと思われたのかもしれん。
ちなみに DOS/V は補助漢字と同じ年、1990年の年末に登場。
0460デフォルトの名無しさん
垢版 |
2022/04/05(火) 22:02:53.74ID:tEc3t7ZA
>>439
同じエラーって具体的にどんなエラーが出てるの?
でダメ文字の所で出るのかね
上にも書いてる人がいるけどかなりの初心者っぽいのでVisualStudioCommunity使った方がいいんじゃない
あとC以外の言語から始めた方がいいと思う
あと変な人が力説してますがLinuxの方が敷居が高いですよ
いままでの書き込みみてもLinux入れてターミナルでソース編集してコンパイルまで到達できそうにない

cp932は互換性のために残ってるだけで内部はWindowsNTの時点でUnicodeです
コマンドプロンプトもUTF8に出来るしWindoesTerminalとか出てきてるしメモ帳すらUTF8対応してるというのに
0461デフォルトの名無しさん
垢版 |
2022/04/05(火) 22:22:26.20ID:TsqsF2oT
>>460
\を入れようが何しようが、ダメ文字入ってるプログラムはコンパイルできませんと言われますね

あとLinuxのターミナルの表示は学生時代に見たことがあって、
ああいうのに首突っ込むのは後でいいのかな、と思った
もっと分かりやすいところから始めようとした
それでEasyIDECなんぞ入れてしまったんですが…

VisualStudioCommunity、Windowsでは一般的らしいですね
全工程でShiftJISが介在しないようにするには色々いじらないといけないらしく
自分のPCで可能なのか問題が起こらないのか調べてみてます
0462デフォルトの名無しさん
垢版 |
2022/04/05(火) 22:37:00.82ID:WTnH7dBF
ずぶの素人は文字コードのことなんか忘れて素直にVisualStudio使う正道いけば何ら問題ないんだ
0463デフォルトの名無しさん
垢版 |
2022/04/05(火) 22:57:36.93ID:tEc3t7ZA
>>461
ダメ文字ごときでコンパイルできないってのも変な話だね
EazyIDECでざっと検索したけどコンパイラが日本語非対応かつ規格古いからお薦めしないみたいな回答がいくつも出てきたよ
まあVisualStudioがいいんじゃね
基本的に日本語版と銘打っている開発環境であれば文字化けは発生しません
あとプログラム言語の勉強をしたいんであればC言語はやめた方がいいと思う
0466デフォルトの名無しさん
垢版 |
2022/04/06(水) 00:39:28.57ID:WyxjzJ2Q
>>463
VisualStudioを試してみた結果

問題のプログラムをShift-JISにしたプロジェクトとUTF-8にしたプロジェクトが、両方普通にデバッグ可能なので
VisualStudioの設定がどうなってるのか分からない
というかVisualStudioの各ウィンドウの表示や設定項目の意味が分からない
教科書を先に進めることは可能になりそうなのは良いが、上記問題をどこまで放置して良いのやら…

色々アドバイス頂きありがとうございます。
0468デフォルトの名無しさん
垢版 |
2022/04/06(水) 15:56:14.27ID:N8xSXOwY
文字コードスレでやる話じゃない
その程度の判断すら出来ないピーマンに
ドキュメントを読むなんて発想があったら
そっちの方がビックリしてしまう
0473デフォルトの名無しさん
垢版 |
2022/05/01(日) 01:05:28.24ID:GLFip81w
     ______
    `=、;;;;;,,,,,,,:::,,,,,;;;;;,,,,`""''';;;;,, 、__
     ,.-'゙''''',='";;;;;;;;",-,,;;;;;;゙;;;;;;;;;l;;;;`,、
   /   `ー-...,;;;;;;;;;;;;,-‐/;;;;;;';;;;;;;;;;;;
  ./             `''''''""i;;;;;;;;ヽ
  l  ■  |,,,____/           |;;;;}  カシワモーチ!
  |     |.:::::/  ■        ノ;;;;}
  ヽ、   |:::/          _,/;;;'゛
    `ヽ、_ |/        _,,.,;‐';;;;゛゛
      "'''=ー;‐---‐‐'';';"-''"゛
          ~~~~ ̄´

   -、,,;;;、;;,、
   (・∀・ };;) カシワモーチ!
0474デフォルトの名無しさん
垢版 |
2022/05/01(日) 09:47:27.40ID:++MYoEcJ
     /\⌒ヽペタン
   /  /⌒)ノ ペタン
  ∧_∧ \ (( ∧_∧
 (; ´Д`))' ))(・∀・ ;)
 /  ⌒ノ ( ⌒ヽ⊂⌒ヽ
.(O   ノ ) ̄ ̄ ̄()__   )
 )_)_) (;;;;;;;;;;;;;;;;;;;)(_(
0476デフォルトの名無しさん
垢版 |
2022/05/18(水) 04:12:02.62ID:6EUcjmyx
 
 __     __  ___ _____  _____     ___ ___    ___
 |   |    /  /  |  //       | /__  __/ [][] _| |_| |__ _| |_
 |   |.   /  /  /  / /   / ̄ ̄|. l    / /     |    _  | |_  レ'~ ̄|
 |   |  /  /  /  / /   /.  / /    |  |___      ̄|  | / / /   /| |
 |   |  /  /  /  / /    ̄ ̄ /     \__|     |  |  ̄ /_  /  | |_
 |   |. /  /  /  / /   / ̄ ̄ ̄                |_|     |__|   \/
 |   |/  /  /  /. /   /  
 |.     /  /  /  /   / 
 |    /. /   | ./   /  
  ̄ ̄ ̄   ̄ ̄ ̄.  ̄ ̄ 
0480デフォルトの名無しさん
垢版 |
2022/06/29(水) 23:00:04.36ID:ycG9kzJQ
今、一般的に利用できる技術で詰め込むとして
300dpi 10point くらいのサイズだとマイクロQRコードM4 つかって35バイト当たりが正解か。
0482デフォルトの名無しさん
垢版 |
2022/07/01(金) 12:40:19.55ID:U5ME1fTg
媒体は紙でも画面でも木簡だろうと。
一般人の購入・所持してるレベルの普通の技術で、普通の文字サイズの全角文字(縦横比1:1)に情報を入れるとして、どれくらいまで実用的だろうかという考察。
0484デフォルトの名無しさん
垢版 |
2022/07/02(土) 01:12:18.87ID:cS0BsC4l
ハレーションてにじみ効果のことなのに、さもすごいことのように使うよね
破裂とハレーションがごっちゃになってるのかな
0489デフォルトの名無しさん
垢版 |
2022/07/14(木) 22:48:13.56ID:i26mvtWu
そもそも文字コードに色とか必要?
HTMLとかのプレゼンテーション層でやるべきだろ。
0491デフォルトの名無しさん
垢版 |
2022/07/15(金) 00:59:26.68ID:o79mkU7V
必要でしょ
中央アジアで使われていた紋章タムガもUnicode登録すべきだと思うよ
それなら貴族や大名の家紋も登録しろみたいな話になるかもしれんが、タムガは別
0492デフォルトの名無しさん
垢版 |
2022/07/15(金) 01:46:43.92ID:o79mkU7V
タムガは中国の漢字を元に考案されたという説がある
漢字からして絵文字のようなものだから、絵文字がダメなら漢字もダメだろう
さらに突き詰めれば、漢字を含む表意文字は広義の絵文字だから、表意文字も禁止しなければならなくなる
0494デフォルトの名無しさん
垢版 |
2022/07/15(金) 04:48:32.08ID:o79mkU7V
色付き絵文字は、従来のANSI Colorのように色情報を捨てられる恐れがないという利点もある
わかりやすい例を挙げると、コピペすると色情報はあっさりと失われたりするけど、絵文字ならその心配がない
0495デフォルトの名無しさん
垢版 |
2022/07/15(金) 06:51:07.79ID:LI/vBnI5
絵文字は表意文字の発展形のようなものだと思えば
漢字は特定の物や概念を共通の文字で表現できる、この機能が進展したと
0496デフォルトの名無しさん
垢版 |
2022/07/15(金) 20:43:12.57ID:eDVqQDWt
漢字と違うのは、書体がまだ確立されてないところかなあ

00年代の絵文字入りメールを今見るとガラケーでの表示とは別物に見える
今から20年後も、今のiOSやAndroidの絵文字デザインとは別物になってるだろう
アイコンとかのUIパーツは5年ぐらいのスパンで流行が変わっていってるし
0499デフォルトの名無しさん
垢版 |
2022/07/15(金) 22:47:55.23ID:C1BojQ1G
妛とか袮は架空の文字じゃないんか
0501デフォルトの名無しさん
垢版 |
2022/07/15(金) 23:09:06.29ID:1VgG+0ON
ダンサーがオルガになったり汗が射精だったりして
あくまでも絵としか捉えられていないのが現実
0502デフォルトの名無しさん
垢版 |
2022/07/15(金) 23:39:46.47ID:uuTe8dv5
文字として使われていなかったものを、勝手に作って文字と強弁して登録した罪。
それが絵文字。
だったら俺もクリンゴン文字とか山田文字とか作って登録できるし、CJK分離漢字も登録できる。
0504デフォルトの名無しさん
垢版 |
2022/07/16(土) 00:10:50.08ID:V+kaf7mC
ソビエト連邦旗の☭「鎌と槌」U+262Dがとっくの昔に絵文字登録されているのだから、クリミア・ハン国旗のタムガも絵文字登録されてしかるべき
https://en.wikipedia.org/wiki/Crimean_Khanate
0507デフォルトの名無しさん
垢版 |
2022/07/16(土) 04:22:29.98ID:6TWzUKaQ
その界隈の人はクスリとくるジョークなのだろうけど理解できないのがもどかしいな
0508デフォルトの名無しさん
垢版 |
2022/07/16(土) 04:47:30.81ID:V+kaf7mC
>>507
確かにそうかも
オデッサ作戦が始まる5日前、ブライトに塩の不足を訴え出たのはタムガではなくタムラだし
0509デフォルトの名無しさん
垢版 |
2022/07/20(水) 00:36:57.71ID:DKmMEeXx
UIのテキストで「情報」を意味する小文字のiに○を使いたいんだけど、
U+1F6C8というのがどうもそれらしい。けどBMPじゃないし文字化けとかするかな?

BMPだとU+24D8がほぼ同じ文字だけど、やっぱ意味的にはU+1F6C8を使うべきかな?
さらにU+2139も"Information Source"という名で、VSのU+FE0Fを付けると四角で囲った
やつになるようだけど、絵文字に頼るのもあれかなあ
0510デフォルトの名無しさん
垢版 |
2022/07/20(水) 01:21:44.91ID:CPw89lWI
Tcl/TkはBMP外つまりサロゲートペア領域に対応してないので移植時は要注意
0514509
垢版 |
2022/07/21(木) 08:12:01.75ID:CyzMM+7q
>>509
UIは実はAlexaだったのですが、U+1F6C8を使ってみたら見事にトーフが。ちょっと意外
テキストエンジンは何なんだろう。グリフをあまり持ってないとか?
とりあえずU+24D8は化けないようなのでこれでしのぎます
0516デフォルトの名無しさん
垢版 |
2022/07/21(木) 14:40:53.86ID:GvcP+xtO
アレクサ 「Echo Showシリーズは、これまで作られた中で最も信頼のおける
スマートスピーカーです。 ミスなどありえません。」
0520デフォルトの名無しさん
垢版 |
2022/07/22(金) 18:39:43.30ID:iaUAG8EO
鮑文字欲しい
0522デフォルトの名無しさん
垢版 |
2022/07/23(土) 11:19:33.99ID:tvAp0xTn
泡置いとくね
🫧
0528デフォルトの名無しさん
垢版 |
2022/07/26(火) 00:17:39.57ID:ca5jRqNv
いつの間にか全板で絵文字(や他のUnicode文字)が書き込めるようになってたのね
0530デフォルトの名無しさん
垢版 |
2022/07/26(火) 08:31:24.57ID:s47lqlR6
文字コードがSJISなので文字化けしてたってだけで、禁止されていたわけではなかったような
0532デフォルトの名無しさん
垢版 |
2022/07/26(火) 21:24:04.84ID:NQP/SI2g
>>530
SETTING.TXTでBBS_UNICODE=changeと指定されてる板はサーバが同じでも絵文字使えなかったんだよ
今はこの設定が無視されてるみたい
0533デフォルトの名無しさん
垢版 |
2022/07/28(木) 01:01:11.47ID:yk9J+ZKC
どの板でもスレタイに絵文字入れれるのかな
絵文字入ってるとかわいいよね
0536デフォルトの名無しさん
垢版 |
2022/07/28(木) 12:38:16.73ID:rQVl/Liz
全文字、全単語に絵文字を作って割り当てるとどうなる
よく使われる単語ほどいい絵文字になるようにする
0537デフォルトの名無しさん
垢版 |
2022/07/29(金) 10:39:19.93ID:nIcw6oQb
スレタイに
森鷗外𠮟る
入れてみるか
0540デフォルトの名無しさん
垢版 |
2022/07/30(土) 14:15:47.77ID:qUEsvGfx
>>526
真珠貝のように見える
0545デフォルトの名無しさん
垢版 |
2022/07/31(日) 16:03:34.57ID:7/NlTuud
・フリーランスに立ちはだかる「常駐」の壁。慣例を打ち壊し、
“テレワーク”案件3割→8割へと成長を遂げた「クラウドテック」の軌跡
・リモートワーク求人専門サイト「プロリモート」がリニューアルオープン、
 業務委託契約の求職者と企業をマッチング 
・1/3以上が採用につながる高マッチング率、リモートワーク×エンジニア・デザイナー専門の
 人材紹介サービス「ReworkerAgent」正式リリース場所からも時間からも自由な働き方を実現!
・『ReWorks(リワークス)』リモートワーク特化型転職サイトとして 3月5日 リニューアル
・副業・兼業マッチングサービス「クラウドリンクス」登録者数2万人突破
 中小企業で進む副業人材の採用、96%が継続採用を希望
・フリーランスが活用できる「最大1,000〜3,000万円・補助率50%〜75%」の
『ものづくり・商業・サービス補助金』とは?概要や条件を解説
・茨城県日立市、県外からの「テレワーク移住者」に最大151万円の助成金
・長野市、市内に移転・事業所設置し、移住することで最大550万円の支援金を支給
0548デフォルトの名無しさん
垢版 |
2022/08/07(日) 06:58:57.67ID:VW3DKuJ5
絵文字というのは象形文字への先祖返りみたいなものかもしれない

古代においては象形文字は書くのが大変で簡略化されて漢字になったが
その結果抽象的になりネイティブな言語利用者以外には理解しにくいものに
今なら絵文字のままの利用も可能で、ノンネイティブでも意味がわかるようなものに
なったり... しないか
0549デフォルトの名無しさん
垢版 |
2022/08/07(日) 11:47:28.30ID:DjsjW1Lz
視認性・可読性を無視してやたら細部に拘ってる辺り、象形文字未満だな
並べてみても中々違いが分からないような微妙なのが増えすぎ
子供が落書きを楽しんでる段階に見える
0551デフォルトの名無しさん
垢版 |
2022/08/08(月) 08:46:52.76ID:2vuqHINW
絵文字と象形文字は違うものだよ。
象形文字は本物の文字なので意味だけでなく音を兼ね備えてていて、言葉や文章を一意に表現できる。
絵文字は名前に文字って入ってるけど、本物の文字としては不十分で絵文字だけ文章を表現するのは困難。
絵文字は象形文字以前の状態といえる。
0553デフォルトの名無しさん
垢版 |
2022/08/08(月) 19:54:01.68ID:2vuqHINW
少なくとも三大古代文字の漢字、楔形文字、ヒエログリフのいずれも、そして意味が解読できているその他の象形文字も音と意味の両方から作られていることが明らかになっている。
0554デフォルトの名無しさん
垢版 |
2022/08/10(水) 01:56:45.84ID:iD4Y1SYW
絵文字って漢字かななりアルファベットなりと組み合わせて使うわけだから単独で使えるかで評価する必要はなくない?
0555デフォルトの名無しさん
垢版 |
2022/08/10(水) 23:31:45.45ID:nFYY+AJe
>>553
数の概念を忘れていませんか?
0556デフォルトの名無しさん
垢版 |
2022/08/10(水) 23:56:08.44ID:YW3nD3Rk
ユニコードで文字コードを割り当てられるのは最大何文字で
現在割り当て済みなのは何文字で
どれくらいのペースで増え続けてるの?
0559デフォルトの名無しさん
垢版 |
2022/08/11(木) 12:57:15.04ID:dClyCDz9
Unicode - Wikipedia
https://ja.m.wikipedia.org/wiki/Unicode#%E5%90%84%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%9D%E3%81%AE%E7%89%B9%E5%BE%B4

Unicode14.0(2021.10) - 144,697/1,112,064文字 (登録済み:約13%)
年平均4584文字増えていて、面を考慮せず単純な文字数ベースで考える且つこのままのペースで増え続けると仮定した場合、210年後(2231年)に全領域が埋まる計算になる
0560デフォルトの名無しさん
垢版 |
2022/08/11(木) 13:44:05.70ID:MGah5dOT
未収録のマイナー文字体系が210年後まで続くかっていうとなさそう
絵文字とかもあと10年ぐらいしてめぼしいものが埋まると「もうさすがにいらんやろ」みたいな空気になって新設は細っていくんじゃね
0561デフォルトの名無しさん
垢版 |
2022/08/11(木) 14:55:22.55ID:E9I00ai5
ほとんどが漢字だからな
0562デフォルトの名無しさん
垢版 |
2022/08/11(木) 15:09:43.16ID:/k5aJ7yS
「こんだけ余裕がありゃあ大丈夫だろう」と思ってたものがあっという間に埋まってしまうことは良くある。歴史は繰り返す。
0564デフォルトの名無しさん
垢版 |
2022/08/11(木) 21:05:06.87ID:AMbuyrkD
配色じゃないの
ハートはいろんな色あるけど他はまだ色ないし
あとは肌の色のバリエーションがもっと細かく定義されるようになるとか
0566デフォルトの名無しさん
垢版 |
2022/08/12(金) 01:25:52.90ID:ijOecH2p
GB18030が国際標準になるだけでは?
0567デフォルトの名無しさん
垢版 |
2022/08/14(日) 11:22:08.74ID:VI2zLni0
UTF-8は可変長だからもう拡張する必要は無い
0569デフォルトの名無しさん
垢版 |
2022/08/14(日) 18:33:41.24ID:YzvfyuVN
UTF-8 は同じ方式でバイト数増やすとしたら6バイトまでで、6バイトにした場合は31bitまでしかビット数がない。
(第一バイトが 1111110x、第二バイト以降が 10xxxxxx なので 1+6*5 = 31)
素直にそのままの値を使うとしたら U+7FFFFFFF が限界になる。

幾らなんでもこんだけありゃ大丈夫だろう。

という考えは甘い。
0571デフォルトの名無しさん
垢版 |
2022/08/14(日) 21:48:08.99ID:VaUKKWtN
今の21bitですら使いきれずに持て余しているからあんな糞絵文字ばっかり追加しているわけだろう。
0572デフォルトの名無しさん
垢版 |
2022/08/14(日) 22:37:52.07ID:KLzUuJOo
>>569
うっ
UTF-8 を展開した結果を32ビット長に格納しているが足りないのか、痛いところを突かれてしまった
0575デフォルトの名無しさん
垢版 |
2022/08/15(月) 09:07:29.00ID:5M5NpGCa
UTF8だけならUTF16のサロゲート領域がまるまる空きなのでそこを先導バイトに使えば4000倍以上にはできる。
あとはUTF16とUTF32は捨ててUTF64を導入で。
0577デフォルトの名無しさん
垢版 |
2022/08/15(月) 09:34:53.03ID:5M5NpGCa
先頭のバイトで長さが判別できる特徴を残したいなら長くなるけど、先頭0xFEで12バイト、先頭0xFFで24バイト長とかにすれば、138ビットまで拡張できるな。
0578デフォルトの名無しさん
垢版 |
2022/08/15(月) 09:47:13.51ID:5M5NpGCa
>>576
心配するな現時点で今の21ビットが足りなくなる可能性は皆無。使用されている全部の文字を登録しても足りる。
絵文字増やしても個々の違いが判別できなくなるので文字として役に立たなくなるし、新たに創作文字を大量導入とか、単語に文字コード割当とか、アホなことしないと当面埋まることはない。
よし甲骨文字と金文と篆書と隷書の字体やその変化にも個別文字コード割当だとかやれば埋まりそうだが。
0579デフォルトの名無しさん
垢版 |
2022/08/15(月) 11:16:15.31ID:q8rBpYTm
U+1D400..U+1D7FFみたいなのが収録されてるんだから
なんか理屈をでっち上げれば、明朝とゴシックと丸ゴシックと教科書体それぞれ3ウェイトずつぐらいはいけるのでは?
0580デフォルトの名無しさん
垢版 |
2022/08/16(火) 11:08:43.06ID:2x3mrzZQ
地球外の惑星人の言語が見つかりだしたらあっという間に埋まるだろう
0581デフォルトの名無しさん
垢版 |
2022/08/16(火) 16:32:26.25ID:Yjigu+Lf
>>579
明朝体とゴシック体を丸ごと登録はありえないけど、甲骨文字、金文、篆書あたりの楷書より古い字体は古代文字扱いで丸ごと登録とか、可能性がゼロではないんだよな。
現在の漢字では失われて甲骨・金文にしかない文字とかもあるので。
0582デフォルトの名無しさん
垢版 |
2022/08/17(水) 01:36:20.68ID:0f27vmNE
音が出るコードが U+0007 以外にも沢山作られて・・・
0583デフォルトの名無しさん
垢版 |
2022/08/17(水) 01:41:52.37ID:9A/D6zoB
>>582
よし、パパ全ての音階を符号化しちゃうぞ。
といっても半音単位で人間の耳に聞こえる音と楽譜にある長さ全部登録しても余裕そうだが。楽器ごとに別の符号を準備するか?
0584デフォルトの名無しさん
垢版 |
2022/08/17(水) 01:47:12.74ID:afBzuANT
日本の変体仮名もマイナー過ぎるもの以外はあらかた登録されことを踏まえると、第三漢字面は甲骨文字等で埋まることになりそう(実際に登録された場合、今後数百年で最後の大規模登録になるはず)
0585デフォルトの名無しさん
垢版 |
2022/08/17(水) 08:36:52.62ID:SBuYxxsF
どれだけ文字が増えてもASCIIとの互換性は維持しなきゃいけないんだろうなぁ
0586デフォルトの名無しさん
垢版 |
2022/08/17(水) 09:04:59.81ID:9A/D6zoB
甲骨文字はまだ研究中できちんと体系化できてなくて、これとあれは同じ文字だと思っていたが実は別の文字だったとか、見た目全然違うけど同じ文字とか、いまだにやってるし、研究者によって意見が違ったりする。
登録するとなるとかなり先になりそう、もしくは見切り発車的に現状の字形の見た目だけで登録するか。
0587デフォルトの名無しさん
垢版 |
2022/08/17(水) 12:03:40.31ID:75soL8XV
>>577
スマートやね
0589デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:24:45.92ID:73/TEJ+c
>>562
文字に関しては、時代が進めば解析できていない古代文字がわかるようになるわけではない。

宇宙人が現れないかぎりは、絵文字が増える程度。
0590デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:27:00.88ID:73/TEJ+c
可能性としてはフォントごとに文字が登録されることになると収まらなくなるな。
0591デフォルトの名無しさん
垢版 |
2022/08/20(土) 12:56:39.98ID:2oOKxcfG
>>589
いや、古代文字の解析はちょっとづつでも進んでるよ。それで埋まったりしないだろうけど。
あとユニコードには意味不明のまま形だけで登録されている古代文字もあるので、解析されてなくても良いという。
0593デフォルトの名無しさん
垢版 |
2022/08/21(日) 02:25:17.60ID:03eMfefm
>>591
はっきり言ってわからないことはわからない。遠い過去のことを必死に解明しようとなんてしない。
0596デフォルトの名無しさん
垢版 |
2022/08/21(日) 21:12:42.94ID:jEZBoNvk
🐟
0599デフォルトの名無しさん
垢版 |
2022/08/22(月) 19:13:20.22ID:x6NjRtAl
巧言令色鮮し仁
こうげんれいしょくすくなしじん
(「論語‐学而」にみえる孔子の説いたことば)
ことば巧みで表情をとりつくろっている人は、かえって仁の心が欠けているものだの意。
0602デフォルトの名無しさん
垢版 |
2022/08/23(火) 00:11:38.72ID:HsBE5KO1
澁→渋みたいに3つ並んでるやつの下2つを><で省略するのって日本ローカル?
0603デフォルトの名無しさん
垢版 |
2022/08/23(火) 12:27:00.71ID:IsFqNvj1
......🐟............

䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜
0604デフォルトの名無しさん
垢版 |
2022/08/23(火) 12:27:52.24ID:IsFqNvj1
..凹..凹..凹..凹..

..........凸......
0606デフォルトの名無しさん
垢版 |
2022/08/24(水) 09:32:11.96ID:8fOu5lGq
murataのCMかよ
0608デフォルトの名無しさん
垢版 |
2022/08/26(金) 09:51:20.37ID:i2SIEm4o
うざったてー
0612デフォルトの名無しさん
垢版 |
2022/09/17(土) 06:46:26.46ID:48becwit
絵文字の文字数はあまり増えてないけど、合成パターンが派手に増えて、面倒過ぎることに。
0616デフォルトの名無しさん
垢版 |
2022/09/17(土) 22:02:20.28ID:5IxZNZbc
絵文字はいいから
歩と香杏桂圭銀全金飛龍角馬王玉
の逆さ文字を登録してほしい
0620デフォルトの名無しさん
垢版 |
2022/09/18(日) 00:02:30.98ID:fKsdepJz
>>619
環境によって逆向きにされるかもしれないのはだめじゃない?
逆だと意味がひっくり返るんだから
0623デフォルトの名無しさん
垢版 |
2022/09/18(日) 02:21:35.78ID:6CSHq2xc
>>620
確かにそうなんだよね。。。ただ、年次のUnicode規格が社会に浸透していく過渡期には常に付きまとう問題であって異字体に限った話ではないように思える
それと同時に、異字体(少なくとも漢字の異字体)に意味の違いを含めてしまう(意味の違いを見出す運用を前提としてしまう)と問題が生じることのわかりやすいモデルケースでもあるとも思った
0626デフォルトの名無しさん
垢版 |
2022/09/18(日) 02:38:02.45ID:T2t4IoSB
>>623
異議を唱えます
本来漢字に正字と異字という区別はなく、どの漢字も平等であるべきなんですよ
Unicode はすべての字(letter and character) を収録する、という建前である以上、異字体コレクターの存在自体が自己矛盾と考えます
CJK 漢字統合など、ダメリカ様の都合で決まった醜悪な存在、でも、結局 16 ビットに収まらなかったという体たらくになりましたよね…
0629デフォルトの名無しさん
垢版 |
2022/09/18(日) 09:50:27.91ID:vR9F1V2O
異体字セレクターでも新コードポイントでもフォント作ってくれれば問題ないよ。
それより同じ漢字を複数箇所に登録するのをやめてくれ。基本漢字はあれだけ無理矢理ユニファイしたくせに、その後はチェック甘くて完全に同じ字形が新規登録されることがある。
0631デフォルトの名無しさん
垢版 |
2022/09/18(日) 11:28:41.95ID:vR9F1V2O
閉て
>>630
どれくらい近年を求めてるのかは知らんが
私が気づいたのは U+3588 と U+439B の(老/口)とか。
これどう見ても同じ漢字を口部と老部に二重登録しただけやろ。
U+29FCE と U+29FD7 の(予鳥)の違いとかもわからん。
0632デフォルトの名無しさん
垢版 |
2022/09/18(日) 13:19:58.23ID:GdLzv1yo
>>631
20年以上前に追加された文字同士を例にとって「チェックが甘くて...新規登録されることが"ある"」と表現するのはどうかと思うよ(「あった」ならまだしも...)
当時と現在のチェック体制を事実上同一視した上で「やめてくれ」と懇願する姿勢も同様
0633デフォルトの名無しさん
垢版 |
2022/09/18(日) 13:32:38.16ID:vR9F1V2O
>>632
基本漢字とその後って言ってるのに、最近って言いかえるお前の定義ってどうなってるの?
問題は問題だろ、それともお前全チェックして、俺がたまたま気づいたこの2つ以外は問題がないと言い切れるの?
0635デフォルトの名無しさん
垢版 |
2022/10/07(金) 06:10:39.92ID:sxH3tiDQ
>>634
よくある言語の優先順位ってどういうときに役立つのかよく知らなかったりw

例えば 1.英語 2.日本語としていても、英語と日本語が混ざったドキュメントの場合に
日本語部分が中国フォントで処理されたり。この挙動には関係ない設定なのかな?

中国語のフォントもひらがなとか持ってるから、フォントのコードセットだけ見て
その中国語のフォントが日本語もおkとされて使われてたりする?
(たしかfontconfigとかそんな挙動だった記憶が)
日本語と認識してるが中国フォントで表示しているのか日本語と認識してもいないのか
0636デフォルトの名無しさん
垢版 |
2022/10/07(金) 09:05:35.88ID:GHAO4XK1
>>635
アプリが対応しているかとか、フォントが対応しているかとか色々ある。
最近のオープンタイプ形式のフォントとかだと同じ文字コードに複数の字形を持っていて、アプリが対応していれば言語設定に従って字体を自動的に切り替えてくれたりする。アプリが対応してなければデフォルトの字形が使われる。
0637デフォルトの名無しさん
垢版 |
2022/10/08(土) 05:58:47.54ID:pd+cWRBO
結局>>634に書いてあることのうち、ユーザー側の言語情報というのはあまり重要じゃ
なくてデータ側の言語情報というのがより大事なのかなと

ぶっちゃけコンピュータの利用というのは圧倒的に向こうからやってくるデータの
処理だし。ユーザの言語設定が日本語でも、中国語のテキストが来たらそれは
中国語のフォントで処理してほしい
0638デフォルトの名無しさん
垢版 |
2022/10/08(土) 06:16:01.16ID:qNYwj5bN
>>637
データ側に言語情報があったあら、レンダリングやレイアウトにその言語情報を使うのは基本中の基本で、当たり前過ぎて議論の対象にならんのでは。
データに言語情報がない場合にどのようにするかという問題。手抜きアプリだとフォントのデフォルトを使う。そしてフォントのデフォルトが中国字形になってるとか良くある。
0639デフォルトの名無しさん
垢版 |
2022/10/08(土) 12:17:20.96ID:pd+cWRBO
>>638
言語情報が付いてなかったら本当は言語推定とかした方がいいと思うけどね
文字コードで言語統合してしまった分、分離のコストを支払う必要があるということ
ユーザーの設定は推定できなかった場合の最後の手段かな
普通は言語推定とかいちいちしないからユーザー設定頼みのみと
0640デフォルトの名無しさん
垢版 |
2022/10/08(土) 12:24:41.42ID:qNYwj5bN
>>639
言語タグが英語で文章も英語でその中に漢字で「骨」の一文字だけ含まれてる場合はどの国の字体で表示すベき?
言語推定とか無意味、字体推定とかできれば別だが、そんなの論理的に不可能。
0641デフォルトの名無しさん
垢版 |
2022/10/10(月) 20:05:36.45ID:rCP6G7hl
>>635みたいに優先順位の設定がある場合は
一度英語と判定した文書中でも漢字が出てきたらそれに立ち返って参考にすべきかもしれない、
みたいな考え方はあり得るかも。
0643デフォルトの名無しさん
垢版 |
2022/10/11(火) 08:25:59.56ID:XLmWzK3A
>>640
もちろん最後の手段に近い話だよ
Unicode自体は、マルチリンガルはあまり考えてないわけでしょ。事実上
一つのコードセットをいろんなモノリンガルで使うのが基本。だからUnicodeだけで
マルチリンガルがいけてなくても当た前
Unicodeの英語の中に一個だけ「骨」とかもうね、責めるならUnicodeの中の人をw
その上で、多少はどうにかするなら、という話
0644デフォルトの名無しさん
垢版 |
2022/10/11(火) 09:09:02.40ID:Wi4OH2RZ
今から unicode を何とかするのなら完全 IVS化かなあ。
IVS の登録を全面拡大して、漢字を書く際には著者が使用した字体のIVSをつける。
IVSのついていない漢字は「著者が字体にこだわりは無く読者の好み字体で表示することを指定した」というルールにする。
字体にこだわるとテキストのサイズが増えるけど今の環境なら特に問題にはならないだろ。
0645デフォルトの名無しさん
垢版 |
2022/10/11(火) 20:10:00.97ID:JrNqb+g1
1文字ずつつけるんじゃなくて新たに囲み用の言語指定マーク作ってもいいんでは?
既にLTR/RTL指定とか「ここからここまでルビ」みたいなマークがあるんだから。

どっちの方法でも実効性が現れるかどうかは「メジャーな環境が(入力ユーザーが気にしていなくても)デフォルトで付けるかどうか」次第だけど、
完全IVS化だと漢字圏のテキストがほぼ倍になる、そんなのをデフォルトにする判断を各社が果たしてするんだろうか?
0646デフォルトの名無しさん
垢版 |
2022/10/11(火) 21:16:13.21ID:Wi4OH2RZ
>>645
普通の人は字体にこだわらないから付けないだろうし、字体にこだわる著者はサイズが倍以上になってもつけるだろうし選択権が著者側にあるのが良いと思うんだよな。もはやテキストサイズとか誤差の範囲でけちる理由ないし。
日本語と中国語が混じった国際的な文章を書きたい場合とか、1文字単位で指定できるのが重要というか。
0647デフォルトの名無しさん
垢版 |
2022/10/11(火) 21:31:15.03ID:OJo3NOQw
>>644
たしかにそうすればCJK混在のテキストであっても、文字単位でそれぞれ正確に字体を表示できるね

ただし、そのままでは視覚的に「1. 完全IVS化仕様に基づいてIVSで修飾された漢字」と「2. 既存の個別コードポイントの漢字」の区別ができないが故に、テキスト作成時にIMEやエディタ側でその違いを視認できるような仕組みが必要になる気がする
それから、上記1,2双方の漢字を検索等で相互にマッチさせるにはUNICODE正規化仕様に手を入れればよいのだろうか?あまり詳しくないけど、その実現手段がない場合は色々とカオスな状況を招きそう

当たり前だけど、当該仕様を必要とする漢字圏のテキストサイズが倍近くなってしまう点もなかなかにキツい(それでも非漢字圏の言語に対する圧倒的な情報密度は揺るぎないが...)
0651デフォルトの名無しさん
垢版 |
2022/10/12(水) 00:57:28.78ID:cxB5MEih
>>650
異体字セレクタは正規化の対象外である一方で無視可能な結合クラス0の結合文字なので、表示/検索系での無視する/しない、個別に可視化する/しないのような制御の対象にできる。
規格本体には手を入れなくても、そのままでも大丈夫だろうという意味。もちろんアプリの対応はいるし、IVDの大幅拡張がいるのだけど。
0652デフォルトの名無しさん
垢版 |
2022/10/12(水) 01:14:40.26ID:dVrAKJBj
>>646
普通の人がつけなかったら今回の元の話の解決(緩和)にならないと思う。
日本語IMEで入力したらデフォで日本語書体指定になっている、というのが必要かと。
0654デフォルトの名無しさん
垢版 |
2022/10/12(水) 10:12:03.10ID:cxB5MEih
>>652
元の話で言えば、利用者はレンダリングの際に言語情報ではなく、好みの字形情報を渡すようにしようということになるだけだよ。
著者が特定の字形を指定している場合はその字形で表示される。著者が字形を指定しない場合は読者の好みの字形で表示される。
字形情報と言語情報は別ベクトルなので一緒くたに扱うのはやめようとい話。
もしこの方法が普及したら字形にこだわりの強い日本人は、緩やかに差異のある漢字全てにIVSをつけるように移行して行くと思う。(サイズが小さいメリットより字形の指定が出来るメリットが上回ると考える人が多くなりそうという予想)
0656デフォルトの名無しさん
垢版 |
2022/10/12(水) 14:15:20.45ID:cxB5MEih
>>655
ゲームがユーザ情報の好みの字体を使用するようになれば良いのにねという意味だけど。何か矛盾してる?
0657デフォルトの名無しさん
垢版 |
2022/10/12(水) 17:59:58.38ID:jX8nchty
>>654>>656
「ユーザ情報」ってのがわからんがその枠組みだとユーザーじゃなくてゲーム製作(日本語版製作)側がIVS付けるかどうかにかかってくるんじゃないの?
で、ユーザーの声を聴いてIVS付けてくれるような体制のとこは現時点でも日本語フォント指定ぐらいできるんでIVSの出る幕はないような。
0658デフォルトの名無しさん
垢版 |
2022/10/12(水) 18:06:05.49ID:jX8nchty
字形と言語は固定の関係ではない、という思想が根っこにあるのは理解したけど、20世紀後半以降の各国の漢字政策を経て固まった今現在の現実に即した思想かどうかは正直疑問。
増殖してしまった異体字について「本来は同じもの」と言ったところでどうしようもないのと似た理想論な感じがする。
0659デフォルトの名無しさん
垢版 |
2022/10/12(水) 18:34:29.78ID:cxB5MEih
>>658
でもな、日本国内でも古い本や文献を引用したり、人名地名とかだと台湾と同じ字体が出てきたりするんだよ。これに中国繁体字のタグ付けるのは間違ってると思わないか?
0660デフォルトの名無しさん
垢版 |
2022/10/12(水) 18:53:53.43ID:7A0U4gRF
そういうのはIVSつければいいんじゃね?
0662デフォルトの名無しさん
垢版 |
2022/10/13(木) 18:18:17.03ID:0FZf3Jvb
どの方式にしろ、この問題の解消のためには入力環境側がデフォルトで字形情報を埋め込まないとだめなのよ。
受け手になる現代の日本語話者にとって許容範囲外の字形に化ける可能性があるのに入力者にはそれが見通せないんだから。
0663デフォルトの名無しさん
垢版 |
2022/12/01(木) 05:16:11.16ID:Df9C+tST
今どきのEメールのエンコーディングって何が標準ですか?
gmailで試したら、MIMEでUTF-8 + Base64になりましたけど(かつテキストの属性の有無で
htmlかplainのマルチパートになる)、これって「標準」?
ISO-2022-JPとかあまり使わない感じ?
0664デフォルトの名無しさん
垢版 |
2022/12/01(木) 08:59:44.12ID:kV+28pNv
GmailもThunderbirdもUTF-8だけになってしまいましたね。デファクトスタンダードなのかな?
0667デフォルトの名無しさん
垢版 |
2022/12/02(金) 09:35:18.27ID:q48B2P2f
今でも7ビットの制約とかあるんだっけ
いずれにせよMIMEのエンコードをするから別にISO-2022-JPじゃなくてもいいと
0668デフォルトの名無しさん
垢版 |
2022/12/02(金) 11:55:24.27ID:u/9H+2Gz
実は7bit制約もインターネットの場合は存在しない。
昔ながらの個別メール網とメール交換する際の互換性のために7bitが必要だっただけだが、そういうのは滅びたかゲートウェイで7−8変換するようになったので。
そういう意味で生UTF8で十分。
0669デフォルトの名無しさん
垢版 |
2022/12/02(金) 17:25:39.59ID:q48B2P2f
えっと、RFC(現在は何番かな... 5322でおk?)に書いてあるUS-ASCII、というのは
生きてるわけですよね?
その上でMIMEを使えと
0670デフォルトの名無しさん
垢版 |
2022/12/02(金) 18:40:42.32ID:u/9H+2Gz
>>669
そうだよ。US-ASCII 以外の文字コードを使用する場合は原則MIMEヘッダーで本文の文字コードを指定しなければならない。

原則というのは
・送信者と受信者の間で暗黙もしくは明示の合意がある場合は例外。
・多くのメール・クライアントは文字コードを自動推定をする機能があるのでMIMEヘッダーを省略してもたいてい機能する。
・その後に、RFC6531 で SMTPUTF8 が導入され、RFC6532でメールヘッダーもUTF8対応に拡張されている。

要はデフォルトを US-ASCII から UTF8 に置き換える方向で進んでいる。
インターネットは一気に全体が更新されるわけではないので従来的なやり方が安全といえるけど、ユーザーがメールクライアントを更新したら裏で勝手にUTF8になっている可能性がある。
0672デフォルトの名無しさん
垢版 |
2022/12/04(日) 08:41:14.63ID:lnrwP0JB
>>671
ASCIIに関しては便利なやつね。それ以外は効率が落ちるという
まるでUTF-8のようなw
基本的な日本語が2バイトで収まるエンコーディングは無理かのう... ってUTF-16かw
いえ、UTF-8とUTF-16のいいとこ取りはできないかなあと
0677デフォルトの名無しさん
垢版 |
2022/12/11(日) 17:16:35.20ID:uBZHdTYF
文字コードの、それもパーセントエンコードに詳しい方教えてください。

たとえば、π(pi)をパーセントエンコードすると、%CF%80ですが、このCF、80を生成するプログラムが本に掲載されていたので
解読しています。

πに対応するコードである、960を64で割った商15をさらに、15 Or 192で論理和を求めると207となって、
207を16進数で表すと、CFを求められるとする過程はわかったのですが、
最後の論理和を求めるところで、なぜ論理和が使われるのかということと、相手に192という値が選ばれているのかが
皆目わかりません。

論理和と論理積を解説するサイトを見ても、True と False のペアを評価するのみで
この手の応用について解説されるサイトは無さそうでした。

コードはNo.128 〜 No.2047 (0080〜07FF)の範囲でお願いします。
0679デフォルトの名無しさん
垢版 |
2022/12/11(日) 19:07:45.94ID:PbQUrDfd
>>677
パーセントエンコードの仕様はよく分からんけど、対象のコードポイントをUTF8で符号化した値そのまんまっぽい気がする
UTF8のバイト表現は可変長なので、各バイト毎に「桁」を示すbitパターンがある
0680デフォルトの名無しさん
垢版 |
2022/12/11(日) 19:55:31.82ID:uBZHdTYF
>>679
ありがとうございます。
各バイト毎に「桁」を示すbitパターンが、110X XXXX と 10XX XXXX のことだと思いますが、
論理和、論理積を 適用すると、前者の場合、X XXXX がどんなビットが来ようとも
110X XXXX が損なわれずに出てくる感じですかね?
まだ全容がわかったわけではないですが、上記イメージで捉えるようにしてみます。
0681デフォルトの名無しさん
垢版 |
2022/12/11(日) 20:52:21.59ID:GglWfKZ4
Wikipedia のUTF-8 の所に、ビットパターンの規則が書いてある

1バイト目について、
先頭ビットが0なら、1バイト文字
110なら、2バイト文字
1110なら、3バイト文字
1111なら、4バイト文字

2バイト目以降は、先頭ビットが10で始まる
0682デフォルトの名無しさん
垢版 |
2022/12/14(水) 21:33:02.33ID:XhtdH9iq
エイリアスも造れてしまうま
0684デフォルトの名無しさん
垢版 |
2023/01/01(日) 02:08:29.39ID:2MmdlFyQ
🎍あけましておめでとう🎍
0686デフォルトの名無しさん
垢版 |
2023/01/03(火) 16:08:11.22ID:qWO3SNRU
全身verと顔verがある動物と無い動物があるのはどういうわけなんだぜ🦖🦕?
0687デフォルトの名無しさん
垢版 |
2023/01/04(水) 14:20:36.08ID:s5vEki4C
履歴書にバストアップ写真貼付
っていうの観て豊胸写真貼るくらいおばかなレス
0690デフォルトの名無しさん
垢版 |
2023/02/09(木) 01:12:33.38ID:CT5MmAYO
>>689
完全に推測だけど、UTF16 にCP1292用とかの特殊処理をしたとか?
そのせいで 0x92 や 0x94 などを含む一部の文字が使えなくなった。
0693デフォルトの名無しさん
垢版 |
2023/02/09(木) 05:00:43.74ID:UWV0mqex
うーん不思議だな
0695デフォルトの名無しさん
垢版 |
2023/02/11(土) 04:28:29.30ID:QY9lSOJI
だからSJISを英語版Windows用のライブラリかフレームワークで処理しちゃったんだろ。
例に上がってるのがどれも該当文字。
0696デフォルトの名無しさん
垢版 |
2023/02/11(土) 19:52:44.79ID:eerDWvKt
なるほろ
0698デフォルトの名無しさん
垢版 |
2023/02/11(土) 21:17:49.94ID:FZgft1te
LinuxもUnicode文字のパースにはUTF32使ってるでしょ。じゃないと基本多言語面以外の文字を正しく使えないから。
0699デフォルトの名無しさん
垢版 |
2023/02/12(日) 02:18:07.45ID:UD1CAstg
パースパースってここは西オーストラリア州かよ🐨🇦🇺🏴󠁡󠁵󠁷󠁡󠁿🦘
0700デフォルトの名無しさん
垢版 |
2023/02/12(日) 12:22:59.98ID:2oU17ty6
Linux は内部的には、UTF32 も使っているけど、外には出ない。
外部とはUTF8 で統一されている

Windows のCP 何々みたいなものは地獄。
他国語のCPを誰も知らない

例えば日本人だと、CP932 しか知らない。
逆に外人は、誰もCP932を知らない

つまり、外人同士が意思疎通できないシステム

ただし、Linuxでも、iconv を使うけど、
Ruby では非推奨になって、NKF を使う

今では、CP932とか日本語を扱えるのは、Rubyだけだろ。
外人は誰も、CP932など知らない
0701デフォルトの名無しさん
垢版 |
2023/02/13(月) 13:42:49.90ID:B5eUc1df
中 9286 ← 判る
朝 92a9 ← 判る
住 8f5a ← 判らん
今 8da1 ← 判らん
荻 89ac ← 判らん
塚 92cb ← 判る
0702デフォルトの名無しさん
垢版 |
2023/02/13(月) 16:52:17.70ID:JDbZ3Ijk
荻は 948b では?
cp1252 の 0x81 0x8d 0x8f 0x90 0x9d の5文字は未定義文字なので、ライブラリによってはエラーになる。
0x92 と 0x94 はクォートで特殊処理される可能性がある。
0703デフォルトの名無しさん
垢版 |
2023/02/14(火) 01:45:05.11ID:8zO3UUTI
互換性を簡単に切り捨てられたLinuxと、互換性を維持しなくてはならないMS-DOSとWindowsを比べるのはただの阿呆。
0704デフォルトの名無しさん
垢版 |
2023/02/14(火) 08:08:42.98ID:XLVypbdR
当時ISO2022 という規格があったのに
CP932 などというふざけた規格を作ったのが悪い
0705デフォルトの名無しさん
垢版 |
2023/02/14(火) 15:06:25.61ID:5oc02QiB
別にふざけてたわけじゃない
当時の日本のPCはJIS X 0201との互換性のほうが重要だったってだけ
0707デフォルトの名無しさん
垢版 |
2023/02/14(火) 19:37:48.59ID:vjcTtMHg
シフトJISの主目的はバイト数の節約なので、ISO2022系は許容できなかったんだよ。
当時のPCとしては1バイトでさえ貴重な資源だった。
メモリの容量が100万倍になった現在から見たら笑い話だけど。
0709デフォルトの名無しさん
垢版 |
2023/02/15(水) 22:31:23.74ID:rksMQLqK
>>706
マイクロソフトは悪くいうのに、IBMは悪くいわないのか?
0710デフォルトの名無しさん
垢版 |
2023/02/15(水) 22:32:45.87ID:rksMQLqK
>>706
日本語がマルチバイトの先駆けだったので、中国は何もかも楽だった。
0715デフォルトの名無しさん
垢版 |
2023/02/17(金) 22:53:38.58ID:ZaUKSTn6
>>712
IBM932は問題ないのか?

SJISは拡張部分の定義がバラバラ。

JISはもっとひどかったから、まだいいんだが、UTF-8とUTF-16の混在という問題はまだ解決していない。

マイクロソフトのSJISは日本語キャラクタセットの統一という成功を収めたが、UTF-8とSJISの相性が悪いのはどうにもならない。

日本人が日本語のキャラクタセットを決められない状況では、中国人が決める日本語キャラクタセットに日本人は従うしかない。
0716デフォルトの名無しさん
垢版 |
2023/02/17(金) 23:31:54.88ID:kr6q/udY
SJIS は時代遅れ。結論が出てるんだから捨てれば良い。
何が統一なんだか。一瞬足りとも統一されたことなんて無かった。
0717デフォルトの名無しさん
垢版 |
2023/02/18(土) 00:27:33.20ID:g6xF0Ha1
>>716
SJISで統一して成功したシステムは多い。
UNIXとWindowsの組み合わせではSJISでの統一が正解だった。
0720デフォルトの名無しさん
垢版 |
2023/02/18(土) 06:39:14.59ID:1+BLOhrf
>>715
時系列が無茶苦茶
CP932が作られたかIBM932が生まれた
何故わざわざ空けてあるC1領域を使ってしまったのか
0721デフォルトの名無しさん
垢版 |
2023/02/18(土) 12:24:41.58ID:ExpzrYMf
>>717
UTF-8以前の話なら
UNIXとWindows混在ならEUCが正解
0722デフォルトの名無しさん
垢版 |
2023/02/18(土) 12:26:20.12ID:ExpzrYMf
>>720
IBMは昔からわざとちょっと変な仕様追加するのが好きで
M$と不仲になってさらにその傾向が増長したのでは
0723デフォルトの名無しさん
垢版 |
2023/02/18(土) 13:59:14.80ID:g6xF0Ha1
>>721
それは逆だ。Windowsを使っていると無意識にSJISになるので、UNIX側をSJISにすればポンコツがいても問題は発生しにくい。
0724デフォルトの名無しさん
垢版 |
2023/02/18(土) 16:21:02.46ID:PB2jCVVO
UTF8出来てから30年、RFCになってから20年にもなるのに未だにSJISとかアホか
お前らもう20世紀に帰れ。今の時代に不要な人材
0726デフォルトの名無しさん
垢版 |
2023/02/19(日) 13:36:16.30ID:F5EkyCpB
そう言えば eucjp-open と Unicode にはあるのに windows--31j に無い文字って結構沢山あるのな。
0727デフォルトの名無しさん
垢版 |
2023/02/19(日) 13:38:43.70ID:F5EkyCpB
Windows では環境依存文字扱いになってメモ帳に入力できるが UTF-8 にしないと保存出来ない。
0728デフォルトの名無しさん
垢版 |
2023/02/19(日) 15:08:09.17ID:mdwW7xFX
>>724
Windowsは表面がSJIS、内部がUTF-16だ。

これをUTF-8にすべて置き換えるには、あと数十年はかかる。
0729デフォルトの名無しさん
垢版 |
2023/02/19(日) 15:10:04.88ID:mdwW7xFX
>>727
メモ帳を進化させて、環境依存文字がないようにUTF-8の文字を使うようにしたから、自動的にUTF-8になる。
0730デフォルトの名無しさん
垢版 |
2023/02/20(月) 14:20:15.29ID:gWCCmRg9
これから先Windows上でテキストファイル作る時には
文字コード何にするのが一番いいの?BOM無しUTF-8?
0732デフォルトの名無しさん
垢版 |
2023/02/20(月) 14:38:38.30ID:yWl6H2Py
これから先って言うならBOM無しUTF-8だろうな
メモ帳も前はUTF-8にするとBOMを強制的に付けてきたけど、今はBOM無しUTF-8が標準になったし
0734デフォルトの名無しさん
垢版 |
2023/02/20(月) 15:57:49.57ID:iLGtEctg
SJISでしか動かないツールをメインに使ってるんじゃなければUTF-8に全面移行するのが正解。
当然BOMとかも不要。
0735デフォルトの名無しさん
垢版 |
2023/02/20(月) 18:35:55.10ID:ssy6UqTn
Windows環境でBOMを付けて困ることなんてないんだから、付けられるなら付けておいた方がいいでしょ
むしろBOMなしのメリットが思いつかない
ExcelとかBOMつけないとcsvが文字化けしたりするし
0737デフォルトの名無しさん
垢版 |
2023/02/20(月) 19:42:17.34ID:XGJQq71T
令和になってもう5年になるのにいまだにsjisなんてありえない
あとbomつきutfも2010年代ならともかくWin81もIE11も死に絶えてる現代で許されるわけがない

結論:BOMなしUTF8以外の選択肢はありえない
0738デフォルトの名無しさん
垢版 |
2023/02/20(月) 19:44:40.63ID:XGJQq71T
UTF16も内部処理コードとしての賞味期限は切れてるしな
2030年位には世の中すべてUTF8で統一されるだろう
0739デフォルトの名無しさん
垢版 |
2023/02/20(月) 20:07:00.66ID:HgTGLFxo
>>737
日本語や中国語はUTF-8だと処理が面倒なんだよな

UTF-8は将来、UTF-32に置き換わるだろう。
0740デフォルトの名無しさん
垢版 |
2023/02/20(月) 21:29:57.22ID:iLGtEctg
日本語とか中国語が特にめんどうという話は聞いたことがない。どういうこと?
0741デフォルトの名無しさん
垢版 |
2023/02/20(月) 22:49:24.50ID:eS5XTp7S
UTF-16が持て囃されたのももはや4半世紀以上前なんだが

日本語も中国語もUTF-16の範疇で何ら問題なく処理できるはずなのに
どんな処理系でいまだに扱いが面倒なのか教えてほしいな
まあ具体例を聞いたら「そんなゴミとっとと廃棄処分しろ」という乾燥にしかならない気もするけど
0742デフォルトの名無しさん
垢版 |
2023/02/20(月) 23:56:20.10ID:ssy6UqTn
UTF32にはUTF16同様にエンディアンの問題があるから入出力形式には向かない
まぁ、UTF8にはUTF8で冗長コードの問題があるわけだが……UTF8をコードポイント単位で読み込んで処理するのが一番確実と思う
0743デフォルトの名無しさん
垢版 |
2023/02/21(火) 19:33:57.30ID:VTx8hARX
>>740
UTF-8は文字によって1バイトで済むなら1バイトで表現する。

これはアルファベットを使用している欧米人には都合がいいが、漢字を使っている日本人、中国人などでは、その漢字は何バイトなのか常に意識しなくてはならなくなる。

近い将来、4バイトで統一した方が楽という話になる。
特に中国が世界の中心になると、中華人民共和国が推奨しているキャラクタセット GB2312は2バイトで一文字をあらわすキャラクタセット。

日本語のように1~2バイトで表現するから、UTF-8のように1バイト文字、2バイト文字、3バイト文字、4バイト文字、5バイト文字と何バイト使うのかわからないキャラクタセットは嫌う。

中国語EUCとUTF-8は相性が悪い。
0744デフォルトの名無しさん
垢版 |
2023/02/21(火) 19:35:15.90ID:VTx8hARX
GB2312をUTF-8に置き換えようとしても、面倒くせえだけだと思うは中華人民共和国も同じ。
0745730
垢版 |
2023/02/21(火) 20:03:36.31ID:bx2YVvOk
みんな言うことバラバラw 結局なにが良いんだよう?
0746デフォルトの名無しさん
垢版 |
2023/02/21(火) 20:04:41.27ID:NFhPk2T2
>>743
寝ぼけるな。
欧米でもアクセント付きの文字やちゃんとしたクォートとか使えばバイト数増える。
さらに合成アクセント、合成文字、異体字セレクタ、絵文字合成、国旗とかもろもろあって固定長にはならない。UTF32使っても可変長。
0748デフォルトの名無しさん
垢版 |
2023/02/21(火) 20:11:40.47ID:KCRD8vTD
>>746
UTF-32は一文字が32ビットで、4バイト単位で文字を表現するから、漢字一文字を4バイトで表現している中国のキャラクタセットと相性がいい。

UTF-8は一文字が何バイトなのかわからないから困るんだぞ?

日本語や中国語は、UTF-8だと2バイト文字というものがほぼ存在しない。

1バイト文字か3~4バイト文字の混合だったから、UTF-8よりUTF-32の方がシンプルになる。

さすがに32ビットではなく、64ビットにしようというのは、かなり未来の話だろう。
0749デフォルトの名無しさん
垢版 |
2023/02/21(火) 20:13:32.50ID:KCRD8vTD
>>746
話が矛盾しているぞ。UTF-8もUTF-32も同じ批判ができるなら、UTF-32の方がシンプルだろ?
0750デフォルトの名無しさん
垢版 |
2023/02/21(火) 20:59:48.85ID:6Lh94JJt
うわあ「GB2312」ときたかあ
2000年以前の知識からアップデートできてないゴミ以下の化石の認識なら、
まあ>743みたいなことを言い出すのも納得だわ
当の中国政府すら「GB2312までしか対応できないようなソフトウェア製品は流通禁止」なんて言い出してから
すでに15年以上経過してるのにいったいお前はどれだけぼーっと生きてきたんだ?

>>745 繰り返すけどBOMなしUTF8以外もはやありえない
0751デフォルトの名無しさん
垢版 |
2023/02/21(火) 22:10:48.02ID:6Lh94JJt
おそらくだけど>743は知識が古すぎて
>>746が挙げてる用語がそれぞれどういう意味を持ってるのか何一つ理解できていないだろう
これでは会話が成立しない
もしくは知識があるうえで>748や>749みたいなことを言い出してる可能性もないわけではないが
仮にそうであったとすれば頭が悪すぎてなおのこと会話が成立しないと思われる
0753730
垢版 |
2023/02/22(水) 09:59:50.26ID:xbNdqyen
>>750
わかった、あなたとマイクロソフトのメモ帳を信じることにするw
0757デフォルトの名無しさん
垢版 |
2023/02/23(木) 03:19:42.48ID:sj7+9G1y
これからは UTF−8 に統一されるんだから BOM は不要
過去の遺物になることが確定してるんだがら、可能な限り早く BOM 無しに移行せよ
0759デフォルトの名無しさん
垢版 |
2023/02/23(木) 10:27:37.47ID:4H8fy78d
UTF-8にBOMは要らんし付けてはいけない
未だにBOM言うてるのは老害ゴミ
異体字セレクタとか観たら卒倒して死んじゃうんじゃないか
0761デフォルトの名無しさん
垢版 |
2023/02/23(木) 11:04:10.21ID:9YiKsc0f
Excelにutf8食わすときに必要だし、Windows Searchもutf-8はBOM付き前提で、この状況は未だにかわってない
BOMなし教の人はWindow使ってないんじゃないの?w
0762デフォルトの名無しさん
垢版 |
2023/02/23(木) 12:50:39.71ID:WqT6xFqM
最終的にはBOM無しUTF-8に統一されるべきだと思うけど
移行期の今はまだBOM付きの方が現実的で無難
まずはWindowsやOffice等主要ツールがBOM無しUTF-8前提になってくれないと
0763デフォルトの名無しさん
垢版 |
2023/02/23(木) 13:56:15.28ID:QgGws+lN
>>762
天下のMicrosoft様がメモ帳の初期値をBOM無しUTF-8になさっておられる
ExcelとかWindows Searchとかもいずれ追随するんじゃねーの?
0764デフォルトの名無しさん
垢版 |
2023/02/23(木) 14:40:49.03ID:9YiKsc0f
>>763
世の中から既存のものを含めた全てのSJISテキストファイルが消えてなくなればBOMなし対応になるだろうが、果たして何年かかるかな
0765デフォルトの名無しさん
垢版 |
2023/02/23(木) 14:42:16.10ID:TD+FtAmO
レジストリスクリプトなど、windowsのユニコードが未だutf16leという現状で
utf8w/obomに統一とか時期尚早でしょ
0767デフォルトの名無しさん
垢版 |
2023/02/23(木) 17:00:14.57ID:sj7+9G1y
Windows のシステムロケールをUTF8に設定すればExcellとかOffice系もBOM無しでいけるんじゃないの?
0768デフォルトの名無しさん
垢版 |
2023/02/23(木) 17:55:58.87ID:PPu7W9/5
Excel の先頭BOMとかいう愚かな仕様も早く無くなってほしい
テキスト開くときにエンコーディングを指定できればいいだけだよね
0769デフォルトの名無しさん
垢版 |
2023/02/23(木) 19:31:24.94ID:sj7+9G1y
>>768
だからシステム・ロケール UTF8 に変更すれば BOM いらない。
お前らがシステム・ローケルをSJISに設定してSJIS優先にしてるから、それに従ってBOM無しをSJISとみなしてるだけ。
単に設定の問題。エクセルは悪くない
0770デフォルトの名無しさん
垢版 |
2023/02/23(木) 22:06:54.24ID:lGgWFFZW
BOMがあって困った経験はJavaしかないなあ
BOM付きを標準していいくらいじゃないかな
0771デフォルトの名無しさん
垢版 |
2023/02/23(木) 22:09:58.66ID:lGgWFFZW
Windowsの古い資源と共存するためにもUTF-8/16/32はBOM付きを必須にしたほうがいい
BOMを廃止して良いことなど何もないのが現実。今どきにBOMに対応してないほうがおかしい
0772デフォルトの名無しさん
垢版 |
2023/02/23(木) 22:30:34.98ID:sj7+9G1y
そもそもネットの通信でも、MacでもLinuxでもUTF-8にBOMつけたりしない。
UTF-8にBOMつけたのは過去のWindowsだけって時点でゴミなのわかるだろ。そのWindowsだってデフォルトでは付けない方向に舵を切った。
今時BOM必要って言ってるのは時代の変化についてこれなくて、過去の環境に生き続けたいロートルだけ。
0773デフォルトの名無しさん
垢版 |
2023/02/23(木) 22:59:31.84ID:lGgWFFZW
>>772
BOMがついているファイルを扱えないと機会損失にしかならない。
これは純粋なビジネス上の問題。LinuxとMacが少数派であることの理由のひとつにもなってる
0774デフォルトの名無しさん
垢版 |
2023/02/23(木) 23:04:51.37ID:SB4P+kzn
>>772
UTF-8なんて使っているのが過去の環境に生き続けたい(ASCIIが素通しになる)ロートルだけだろ。
0775デフォルトの名無しさん
垢版 |
2023/02/23(木) 23:09:41.34ID:lGgWFFZW
エンジン開発での競争に敗れた国がこぞってEV化を推進しようとするのと似た構図。
シェアを持っているWindowsには業務アプリケーション遺産に対する責任がある。負け組のLinuxとMacにはそれがない。
0776デフォルトの名無しさん
垢版 |
2023/02/23(木) 23:55:53.12ID:DZ2N6cRC
うわあ頭がおかしいのが複数湧いてる(ひょっとして同一人物の別IDだったりして)
意図的に間違ったことをあえて逆張りで言ってるのか本気で信じてるのかどっちなんだろう

UTF8を使うのがロートルって、こいつの言ってる「過去」ってまさかWindows以前のMS-DOSの時代のことか

あとUTF-16やUTF-32のテキストファイルなんて
規格上定義されてることは知ってるけど現物にお目にかかったことなんかないし
そもそもUTF-16やUTF-32なんて元々BOM必須だろうよ
過去の負の遺産がある以上アプリケーションとしてはBOMありファイルの読み込みには対応しなきゃダメだろうけどさ
今後作成するファイルでUTF-16/32を選ぶのは論外だし、UTF-8で保存するならBOMをつける必要などどこにもないだろうよ
0778デフォルトの名無しさん
垢版 |
2023/02/24(金) 00:17:46.23ID:/JDec9CR
> UTF-8で保存するならBOMをつける必要などどこにもないだろうよ
BOMをつけないと他の文字コードとの区別ができなくて
文字化けしてしまう
0780デフォルトの名無しさん
垢版 |
2023/02/24(金) 00:22:30.88ID:/JDec9CR
LinuxとかmacOSとかUnixはUnicodeの対応が遅れていて
LANG=C.UTF-8でさえPOSIXで標準化されていない
Unicodeを正しく扱えないコマンドがある
0781デフォルトの名無しさん
垢版 |
2023/02/24(金) 00:50:08.17ID:rqUoHIRk
>>780
いったいいつの時代の話をしてるんだ
具体的なコマンド名とディストリビューションを挙げてみろや
0782デフォルトの名無しさん
垢版 |
2023/02/24(金) 01:46:20.35ID:MU0HtYsa
>>768 >>769
Mac上のExcelは、どうするのが正解?
以前「CSVで日本語が化けるぞ」と言われて、よくわからなかったからググったら「UTF-16なら
大丈夫」とあったので、そうしたら文句を言われなくなったのでよかったらしいw
Excel以外でCSVを使うとき、例えばpandasとかUTF-16でも大丈夫なんだっけ?
0783デフォルトの名無しさん
垢版 |
2023/02/24(金) 03:29:22.76ID:zsYMclLz
今後はファイルや外部通信はUTF-8がデフォルトになる
逆にいうとBOMついてないのは全てUTF-8とみなされる
よってUTF-8にBOMは不要
この単純なロジックが理解できないやつはかわいそう
0784デフォルトの名無しさん
垢版 |
2023/02/24(金) 06:23:20.57ID:BmT/WJ86
>>783
> 今後はファイルや外部通信はUTF-8がデフォルトになる

ならないよ。
誤った認識を前提に議論するのは意味がない。
スレのレベルが低下して無駄な書き込みが増えるだけなので、この話題はもうやめてくれ。
0785デフォルトの名無しさん
垢版 |
2023/02/24(金) 08:06:25.11ID:liuYehNm
文字コードを自動判別するためにBOMを使うってのがダメだな
BOMと思ったコードが違うエンコーディングの可能性があるんだから
Windows だけで閉じておいてほしいから、通信回線には流さないで
0786デフォルトの名無しさん
垢版 |
2023/02/24(金) 08:34:34.48ID:b+y25Gbd
>>777
> Windowsは内部的にはUTF16で統一されてるよ
ワイドキャラクタがUTF-16で統一されているという意味なら
Linuxも20年以上前のglibc-2.0からUTF-32で統一されているよ

ワイドキャラクタ以外アプリ等が独自に他の符号化方式を
採用している場合があるのも同じ
0787デフォルトの名無しさん
垢版 |
2023/02/24(金) 08:58:55.21ID:BmT/WJ86
>>785
そもそも誰も自動判別の正確性を担保できないからBOMがあるんだろ
Windowsを除外したビジネスで成り立つならそれでいいが、現実はそうじゃない。
他人が対応するのを待つのは無能な人のすることだよ。
0788デフォルトの名無しさん
垢版 |
2023/02/24(金) 09:04:15.26ID:BmT/WJ86
過去にプログラミングやったことない人が急にスマホ開発に配属されて、自分が対応するのではなく他人が対応するのを待ってるあたりに頭悪いのが伝わってくる。
プログラミングの才能ないし、むいてないからプログラミングから離れたほうがいいと思う。
0790デフォルトの名無しさん
垢版 |
2023/02/24(金) 12:49:37.23ID:8I4EMiY9
Windows プログラマってほんとどうしてこんなに喧嘩を売るの?
世の中の文字コードがCP932 とUTF-16しかないと思っているよね
0791デフォルトの名無しさん
垢版 |
2023/02/24(金) 13:06:47.37ID:8I4EMiY9
もう少し正確にいうと,テキストファイルから
文字のエンコーディングを推測することはほとんど不可能
文字のエンコーディングはアウトオブバンドで送る必要がある
ISO2022 はエスケープシーケンスというアウトオブバンド転送を定義していた
ちゃんと定義するなら,UTF-8も Byte order mark ではなく
エンコーディングを指定するアウトオブバンドシーケンスを定義すべきという話
なんか議論が噛み合ってなかったので
0792デフォルトの名無しさん
垢版 |
2023/02/24(金) 13:10:51.59ID:8I4EMiY9
それで,Windows は先頭にBOM を入れるというのをアウトオブバンドで決めてる訳
だから,Windows で勝手にしてね。Windows 以外には送らないでって話
0794デフォルトの名無しさん
垢版 |
2023/02/24(金) 13:24:26.82ID:5Y5XlszR
もうさ、結論出ないからこうしたら?

今後新たに作成するテキストファイルはBOM無しUTF-8で書く
今後のソフトはBOM有りBOM無し両方のUTF-8を読めるように作る
0795デフォルトの名無しさん
垢版 |
2023/02/24(金) 13:53:37.06ID:BmT/WJ86
急にスレのレベルが下がった感じ。同じ人がID変えて書き込んでるんだろうか。
このスレに独り善がりな理想論を書き込む人は、プログラマ適性がないから転職しなさい。
0796デフォルトの名無しさん
垢版 |
2023/02/24(金) 13:59:12.56ID:zsYMclLz
>>792
Windowsではとか言ってる時点で国際化とか文字コードのこと全く知らない無知だろ。単に「日本語Windows」で使われてたCP932がUTF-8のBOMとかぶってなかっただけ。
英語Windowsで使われてたCP1252とかは EF BB BF にもそれぞれ文字が割当れらてるのでBOMとかあっても区別できばない。他の多くの文字コードもそうだし、CP932/SJIS なんかより断然現有の資産も多い。
おま国事情でたまたまうまくいってるだけなんて、一般化や標準化されるわけないだろ
0797デフォルトの名無しさん
垢版 |
2023/02/24(金) 14:02:43.91ID:zsYMclLz
>>796
792の返信にしたけど、792を批判したいわけではなくて、WindowsではBOMが便利という一般論を否定したかっただけ。
それは単なる日本しか知らない蛙仕草。
0798デフォルトの名無しさん
垢版 |
2023/02/24(金) 14:02:58.25ID:BmT/WJ86
「ぼくのかんがえたさいきょうの文字コード処理パッチ適用」を自腹で開発して、自腹ですべての顧客のデバイスに入れればいいだけ。
すべてはカネ次第。カネを出す人が仕様を決めればいい。それだけ。
0799デフォルトの名無しさん
垢版 |
2023/02/24(金) 14:42:29.80ID:dKpgt1DZ
海外ではこうとか、本来こうあるべきとか、どうでも良いんだよ
日本語のテキストファイルを読み込むプログラムの仕様としてSJIS/UTF8自動判別にした場合、
確実に文字化けしないのはBOM付きUTF-8だけという事実は考慮すべき
0800デフォルトの名無しさん
垢版 |
2023/02/24(金) 15:02:03.28ID:xSIwGcb9
>>796
CP1252でEF BB BFって文字はあっても意味を成さない謎の文字列だし、極稀なパターン
完璧ではなくとも、実用上ほぼ問題ない精度で判別出来るでしょ
とうのWindowsがそういう風に利用してるのだし
0801デフォルトの名無しさん
垢版 |
2023/02/24(金) 15:30:37.37ID:BmT/WJ86
ïÿ¿を有意な先頭文字列とする利点と欠点を考えて決断すればいいだけのこと
0802デフォルトの名無しさん
垢版 |
2023/02/24(金) 16:49:11.30ID:3Zj7Ci+m
WindowsやエクセルとBOMは関係ないとおもうんだが
とくにマイクロソフトが開発したり、始めたわけではなく
採用前からBOMありのユニコードがあってたまたまBOMありフォーマットを使っただけでは?
ちがうのか?
0803デフォルトの名無しさん
垢版 |
2023/02/24(金) 18:05:09.63ID:zsYMclLz
>>799
そもそも自動判別は悪という流れになってることすら知らないんだな。
セキュリティホールやバグの温床になるので文字コードの自動判別はなくすのが世界の流れ。特に確実性のない自動判別は害悪でしかない。
0805デフォルトの名無しさん
垢版 |
2023/02/24(金) 19:12:21.37ID:/JDec9CR
>>786
> Linuxも20年以上前のglibc-2.0からUTF-32で統一されているよ
それでマウントとったつもりだろうが
Windows NTがUnicodeに対応したのは30年前だ
0807デフォルトの名無しさん
垢版 |
2023/02/24(金) 19:20:45.75ID:/JDec9CR
>>783
> 逆にいうとBOMついてないのは全てUTF-8とみなされる
> よってUTF-8にBOMは不要
あのー、Unicode以外の全ての文字コードにはBOMがついてないんですけど?
0808デフォルトの名無しさん
垢版 |
2023/02/24(金) 19:22:18.48ID:/JDec9CR
>>781
> 具体的なコマンド名とディストリビューションを挙げてみろや

echo あいうえお | mawk '{ print length($0) }'
15
0812デフォルトの名無しさん
垢版 |
2023/02/24(金) 19:28:28.37ID:3Zj7Ci+m
UTF-8はPlan 9かららしい

Linuxに勝てなかったPlan 9 2009/02/09
「Plan 9」はUNIXが生まれたベル研究所で、次世代UNIXとして開発されていた分散OSだ。
UNIXやC言語を生み出したケン・トンプソン、デニス・リッチー、ロブ・パイクらのチームが、当時UNIXが抱えていた限界を打ち破るために、ネットワークやGUIを最初からUNIXの設計思想に基づいて取り入れた先進的なOSだった。

UNIXの大きな特徴として、デバイスをファイルにマッピングして抽象化するというものがある。ところが、こうした初期設計時の抽象化から漏れるAPIが増えた。
そうして漏れつつあった各種リソースを、再びUNIX的なファイルシステムのツリーにマップし、抽象度と統一性の高いインターフェイスを用意したのがPlan 9だった。

ファイルとして扱えるのは一般に想像するようなハードウェアデバイスだけではなく、あらゆるリソースが対象となった。
TCP/IPなどのネットワーク関連の操作も「/net」というディレクトリを使って行うなど徹底していた。

Plan 9はなぜ失敗したのか?
マーケティングに熱心でなかったからとか、さまざまな理由付けが可能だが、Plan 9が普及しなかった理由は結局のところ、旧来のUNIXを置き換えるほどには先進的ではなかったからだ、というのがレイモンド氏の答えだ。
Plan 9に比べれば、確かにUNIXはきしみ音が聞こえてガタピシいうし、明らかにさび付いたところもあるのだが、そのポジションを維持するために必要な仕事はちゃんとこなせていた、という。

LinuxやBSD系UNIXには、Plan 9由来の機能がいくつか取り込まれている。
稼働中のプロセスをモニタしたり操作するための「/proc」と呼ばれるファイルシステムは、Plan 9のものだし、
Linuxでスレッドを生成するシステムコール「clone」は、レイモンド氏によればPlan 9の「rfork」をモデルにしているという。
すべてをファイルのように扱うという意味でいえば、LinuxのFUSEもPlan 9の影響下にある。
現在、FUSEを使ったファイルシステムには、ftpfsはもちろん、flickrfsやBloggerFS、TracFSなどさまざまな実装がある。
今やOSばかりかインターネット全体にも利用範囲を広げた感があるUTF-8も、Plan 9のために考案されたエンコーディングだという。
https://atmarkit.itmedia.co.jp/news/analysis/200902/09/future.html
0819デフォルトの名無しさん
垢版 |
2023/02/24(金) 22:24:35.19ID:zsYMclLz
>>814
そもそも -c オプションは現在 -b (バイト指定)と同じ動きというのが仕様なので文字コードもくそもない。
マニュアル嫁。
0820デフォルトの名無しさん
垢版 |
2023/02/24(金) 22:30:50.23ID:zsYMclLz
>>815
いや、このスレは素人が跋扈してるだけに過ぎないと思うが。
文字コードやネット・プロトコルの専門家で、「今後は外部は UTF-8 がデフォルト」って以外の意見は聞いたことがない。
0822デフォルトの名無しさん
垢版 |
2023/02/24(金) 23:18:05.18ID:/JDec9CR
>>819
どこにも同じ動きとは書いていない

https://pubs.opengroup.org/onlinepubs/9699919799/utilities/cut.html

-b list
Cut based on a list of bytes. Each selected byte shall be output unless the -n option is also specified.
It shall not be an error to select bytes not present in the input line.

-c list
Cut based on a list of characters. Each selected character shall be output.
It shall not be an error to select characters not present in the input line.
0824デフォルトの名無しさん
垢版 |
2023/02/25(土) 00:00:07.97ID:dveJDxzx
>>823
お前か誰かしらんが、どのディストリでUnicodeに
対応してないって聞かれたから
Linuxは全て対応してないと答えたんだが?

Linuxは対応してないといった俺の指摘に対して
Linuxは対応してないのが仕様だと答えるアホ

macOSのcutはちゃんとUnicodeに対応してる
対応してないディストリを聞かれたから答えただけだ
0825デフォルトの名無しさん
垢版 |
2023/02/25(土) 00:01:38.57ID:dveJDxzx
それにmawkやdashが対応してないという話からも逃げてるな
Unicodeに完全対応してねーんだよ
0827デフォルトの名無しさん
垢版 |
2023/02/25(土) 01:34:53.03ID:pcyV0/Fb
macOSはUNIXといってるからawkもちゃんとロケール対応してるべき? SUSのバージョンにもよる?
gawkは対応してるみたいね
0830デフォルトの名無しさん
垢版 |
2023/02/25(土) 08:48:27.98ID:dveJDxzx
現実的っていうのはEUC-JPで書かれた
ウェブサイトが見れなくなるってこと?
0831デフォルトの名無しさん
垢版 |
2023/02/25(土) 10:28:54.79ID:+wSAdwQP
文字のエンコーディングは通信相手同士で取り決めろということ
相手がEUC-JPで送ってくるならこっちもEUC-JPで受け取れば良いこと
0832デフォルトの名無しさん
垢版 |
2023/02/25(土) 10:44:41.98ID:IGzyIaR2
今後はファイルや外部通信はUTF-8がデフォルトになる
デフォルトの意味が理解できないド素人がいるみたいなので書いておくと
「アプリは特に文字コードの指定が無かった場合はUTF-8で出力するべき、指定が無かった場合はUTF-8として読み込むべきである」ということ

つまりBOMが無くてもUTF-8とみなすべきなので、UTF-8にBOMは不要
0833デフォルトの名無しさん
垢版 |
2023/02/25(土) 12:47:05.63ID:PU7vc6R3
>>832
お前が気まぐれに「不要」と宣言したら、他人は良きように計らってくれるとでも思っているのか?
BOM付き文字列が送り込まれた時にどのように処理するかを決めないことには、なにも進まないぞ
0834デフォルトの名無しさん
垢版 |
2023/02/25(土) 14:33:50.87ID:mpikKEOw
通信はともかく、問題は過去に作成された膨大な数のUTF-8以外のファイルだ
とりあえず開いてみて、文字化けしたらエンコードを指定して開き直してみろ?
そんな対応じゃクレームが大量に来るし、PC苦手な人じゃ教わっても対応出来ないだろ
0835デフォルトの名無しさん
垢版 |
2023/02/25(土) 15:16:11.43ID:k0PvGKB9
ロバストネス原則(ポステルの法則)
https://makitani.net/shimauma/robustness-principle

ロバストネス原則(robustness principle)とは、「あなたがすることは厳密に、あなたが他人から受けることには寛容に (be conservative in what you do, be liberal in what you accept from others.)」というシステムやソフトウェアの開発における考え方、開発指針のこと。「送信は厳密に、受信は寛容に」とも言い換えられる。「堅牢性原則」。

他のシステムとの間で通信を行う際、処理をして送信する側は厳格なデータの仕様に準拠するべきだが、利用するユーザー側には入力データの多様性を許容して使い勝手を損なわないようにするべきである、というものである。

アメリカのコンピューター科学者でインターネットの創始者の1人であるジョン・ポステル(Jonathan Bruce Postel)が初期のTCPを規定したRFC 793において示した一節であり、それが一般化され知られるようになったものである。ジョン・ポステルにちなんで「ポステルの法則 (Postel’s law)」とも呼ばれる。
0836デフォルトの名無しさん
垢版 |
2023/02/25(土) 15:34:51.75ID:+JwPKi/T
禿丸最強でFA
0838デフォルトの名無しさん
垢版 |
2023/02/25(土) 16:52:21.29ID:dveJDxzx
>>832
> 今後はファイルや外部通信はUTF-8がデフォルトになる

だーかーら、既存のHTMLとかでEUC-JPとかが使われてるから
UTF-8以外を切り捨てられないっての
0839デフォルトの名無しさん
垢版 |
2023/02/25(土) 18:25:42.81ID:p5DpNAy5
アップデートされずEUC-JPのまま捨て置かれたドキュメントの価値などもはや「歴史的な」価値しかない
Webブラウザで閲覧できれば十分、新しく作るシステムでいまさら対応する必要性など皆無

2000年前後の知識しか持ち合わせていない老害がいくらギャーギャー騒ごうとも
時代遅れなエンコーディングに対応するような愚を犯してはならない
毅然としてUTF-8以外を切り捨てるべし
0840デフォルトの名無しさん
垢版 |
2023/02/25(土) 19:05:12.59ID:PU7vc6R3
>>839みたいに「切り捨てる」とか強い表現を使う人は、既得権からあぶれた失うものがない負け組が好んで使う言葉。
ネットでは威勢が良く見えても現実世界では切り捨てる側ではなく切り捨てられる側。ルサンチマンを抱えている。
0841デフォルトの名無しさん
垢版 |
2023/02/25(土) 19:12:22.66ID:PU7vc6R3
「~べき」とか語っていいのはカネを出す側であって、「~べき」はカネで雇われる側にすぎない技術者が使っていい表現ではない。
0845デフォルトの名無しさん
垢版 |
2023/02/25(土) 22:09:35.17ID:SbO0y0c6
ユニコード規格 Unicode Standard にも UTF-8 の BOM は付けても良い(may)けど、非推奨(not recommended)って明記されてるのに、どうしても付けさせたいや奴がいるのはわかった
0848デフォルトの名無しさん
垢版 |
2023/02/25(土) 22:52:11.76ID:IGzyIaR2
>>847
だから、お前が一人でつける分には勝手にしろ
つけるべきか聞かれたら、「非推奨なのでつけるな」が正解。
0851デフォルトの名無しさん
垢版 |
2023/02/26(日) 05:45:33.47ID:6avgaEJx
>>843
逆にShift_JISでも文字参照さえ使えれば問題ないという

それに言語タグみたいのもあると便利だし、もうプレーンテキストを廃止して
マークアップ系で情報のやり取りをすればいいとか
0852デフォルトの名無しさん
垢版 |
2023/02/26(日) 06:00:29.38ID:5w3etrkl
ドレスコードを守らない客を門前払いするかを判断するのは雇われコックではない。経営者や管理人だ。
0854デフォルトの名無しさん
垢版 |
2023/02/26(日) 15:37:46.70ID:iPWFNko4
付けるなと規定されているところなら付けないし
付けろと規定されているところならつける
指定が無ければ俺は付ける
0855デフォルトの名無しさん
垢版 |
2023/02/26(日) 16:12:00.59ID:5w3etrkl
コロナ禍でマスクするのは世間体のためばかりとは限らない。
マスクしてないと入店拒否されかねないからね。
マスクしている人を入店拒否するのは反ワクチンかな。
0856デフォルトの名無しさん
垢版 |
2023/02/26(日) 16:23:35.39ID:5w3etrkl
>>853みたいにクライアントとサーバーの切り分けできてない人、頭悪そうに見えてしまうから良く考えてから書き込んだほうがいい
BOMのせいで挙動がおかしくなることはないので、みなBOMをつけるようになる。それが現実。
0857デフォルトの名無しさん
垢版 |
2023/02/26(日) 19:04:25.66ID:cEWS884H
>>856
ねえよ。規格で非推奨ってなってるの出力して誤動作したら出力した方の責任。業務プログラムなら非推奨を理由に改修要求や損害賠償請求できる。規格の非推奨にはそれだけの効力がある。
趣味でやる分に好きにすれば良いけど、実務にはかかわるな。
0859デフォルトの名無しさん
垢版 |
2023/02/26(日) 20:41:34.15ID:BRhyzl+u
>>856
>>BOMのせいで挙動がおかしくなることはないので
少なくとも linux のシェルスクリプト、perl, python スクリプト等は BOM つけるとエラーになって起動できない。
0860デフォルトの名無しさん
垢版 |
2023/02/26(日) 22:10:02.37ID:5w3etrkl
Windows環境はどんどんBOMつきが当たり前になっていくから、サービス提供者はBOM対応が事実上必須になる
非推奨だからとかつけるなとか、およそ現実を見てないね
0861デフォルトの名無しさん
垢版 |
2023/02/26(日) 22:12:16.04ID:cEWS884H
>>860
そのマイクロソフトがBOM無しをデフォに変更したんだがな。
妄想と現実の区別がついてないんじゃないか?
0862デフォルトの名無しさん
垢版 |
2023/02/26(日) 22:18:29.81ID:5w3etrkl
>>861
許容するようになっただけで、規定ではない。規定はあくまでシステムコードページ。
技術板だから嘘つくのは慎め
0863デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:13:02.63ID:cEWS884H
>>862
じゃあメモ帳のデフォルトがBOM無しに変更された理由は何?
妄想くんには説明できんだろw
0864デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:31:02.55ID:K7TElpTY
>>863
Windows Subsystem for Linuxのためじゃないかな?
上にもあるとおりunix系のアプリの中にはutf8のBOM未対応のまま(というか今更いじれない?)の状態になっているからな
良くも悪しくも歴史的にメモ帳は機能がしょぼすぎてその他の一般業務向けでの影響力はほとんどない状態だから、
Excelとかに比べれば変更しやすいという後ろ向きな理由もあるだろう
0866デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:40:56.18ID:K7TElpTY
ていうかあれか、パイプを使ったテキストのやりとり等とBOMの相性が悪そうだから、コンソール系のアプリでBOM対応は面倒だわな
0868デフォルトの名無しさん
垢版 |
2023/02/27(月) 00:05:34.15ID:Y3EgytEI
リンク貼った人がいるので正解は
Microsoft の主張は「WEBの標準はASCIIと互換性のある BOM 無しの UTF-8 だから、それに合わせるため変更した。これは重要な改善である。後方互換性のためにBOMつきも可能にしといた」

BOMなしは改善、BOMつき後方互換性って明言してる。
0869デフォルトの名無しさん
垢版 |
2023/02/27(月) 00:50:48.43ID:gqYK4M5Z
ASCIIのような化石との互換性は要らない。UTF16以上を推奨し、UTF8はASCII文字出現率が
99.5%以上のファイルに限り許容するのが良い。
0870デフォルトの名無しさん
垢版 |
2023/02/27(月) 01:16:54.16ID:ILzwYPjj
Windows10では、デバッグ機能で別のエディタを起動してるから
メモ帳を使ったことないというか、どんなだったかも思い出せない
0871デフォルトの名無しさん
垢版 |
2023/02/27(月) 01:28:41.06ID:JGGw5pJY
MSはデフォルトを変更しただけで
BOMにも対応している
つまり完璧にUnicodeに対応している
0873デフォルトの名無しさん
垢版 |
2023/02/27(月) 02:59:07.83ID:BI+QMK6X
もうUTF−16にはWindowsの内部コード以外の役割はないんだ
文字コード戦争はとっくにUTF-8の勝利で終結したんだ ネットの普及が決め手だった
残念ながら負け犬がどんだけ吠えても現実は変わらないんだ
ほら、どんどん吠えて、(愉悦
0875デフォルトの名無しさん
垢版 |
2023/02/27(月) 05:48:11.01ID:FhIHw4p1
>>873
UTF-16でどうやって絵文字処理してるのか不思議なんだよなあ
サロゲート処理必要なのに 🪟🍎🐧
0877デフォルトの名無しさん
垢版 |
2023/02/27(月) 06:45:46.85ID:FhIHw4p1
>>868
>これは重要な改善である。

甘いなあ
文字コードの自動判定を入れた、ということは、今後はUTF-8と認識できない可能性が生じる事を意味する
皮肉な話だが、文字コード自動判定のせいで事実上、BOM必須になる
0878デフォルトの名無しさん
垢版 |
2023/02/27(月) 06:46:52.69ID:jlyK/+pC
JavaのStringとか、もう開き直っちゃってる感じで「文字とはUTF-16のバイトのことでーす」
って感じじゃん。ただの16ビットの配列と何が違うんだっけあれ
まともな文字列処理をするには別途ライブラリが確実にいる。面倒じゃのう
0879デフォルトの名無しさん
垢版 |
2023/02/27(月) 06:48:51.24ID:FhIHw4p1
BOMは文字コード自動判定をスキップする顔パスのようなもの。BOMを無くしたいという意向とは裏腹に、今後BOMは益々増える。
それが現実。
0880デフォルトの名無しさん
垢版 |
2023/02/27(月) 06:51:35.24ID:FhIHw4p1
関所を沢山作ったせいで、ますます関所破りのバッドノウハウが普及する
0881デフォルトの名無しさん
垢版 |
2023/02/27(月) 08:02:36.27ID:71jbPN3e
>>874
通りすがりだが、お前は論外
ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、BOMつけるか論争をしている人達割り込むツッコミ方じゃねぇw
他人を煽る前に自身の読解力と理解力を見直して出直してこいw
0882デフォルトの名無しさん
垢版 |
2023/02/27(月) 10:24:39.27ID:Y3EgytEI
外部コードは自動認識うんぬんより ASCII との互換性が重要なのだ
Linux だの Mac だのの Unix 系は ASCII との互換性が必須なので BOM 無し UTF-8 以外に選択肢がないし
RFC とかネットの標準もそれに引きずられて るし
Windows 外部コードの unicode 化はこれから本番だけど、今まで CP932, CP1252 みたいにASCII互換は大前提で来たので互換維持した方がトータルのコストは低い
結局ASCIIと互換性のないBOM付きのUTF-8だの、UTF-16だのが外部コードとして主流になる世界は来ないのだよ
0883デフォルトの名無しさん
垢版 |
2023/02/27(月) 15:06:03.61ID:ILzwYPjj
UTF-8を使い始めたのは、
Fedora 1でデフォルトのシステム・ロケールになったときだから、
もう19年か、早いもんだ
RedHatの頃のEUC-JPに戻す誘惑にも負けずに苦労したことを思い出す
0884デフォルトの名無しさん
垢版 |
2023/02/27(月) 17:19:48.75ID:WKLLShCH
>>881
> ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、

それはお前だろw
JavaやJavaScriptがUTF-16を使っていることなんか
ちょっと昔のことを知ってりゃ誰だってわかることなんだよ
そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
0885デフォルトの名無しさん
垢版 |
2023/02/27(月) 17:50:44.38ID:XtLZSXQF
そもそもUnicodeといえばUTF-16のことで、いまでもUTF-16のことをUnicodeと呼ぶことが多い。

Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。

UTF-8も一長一短があって、容量とマシンスペックの問題がなんとかなってきたから、UTF-8に向かっているが、この面倒くさいキャラクタセットは、1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。

2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。
0886デフォルトの名無しさん
垢版 |
2023/02/27(月) 17:55:19.17ID:WKLLShCH
> Windows、JavaなどはUTF-16を先進的だと思って取り入れたから、UTF-8への対応が難しい。
いや難しくはないぞw
Windowsは現にUTF-8に対応している
0887デフォルトの名無しさん
垢版 |
2023/02/27(月) 18:08:52.64ID:Y3EgytEI
>>885
>1バイト文字がどのキャラクタセットなのかわからないというデメリットがある。
>2バイト以上使う文字では、何のメリットもなく、言葉を表現するには明らかに退化している。

全く意味がわからない。誰か理解できる人いる?
0889デフォルトの名無しさん
垢版 |
2023/02/27(月) 18:20:09.01ID:hsotX699
配列の添え字での文字編集はUTF32でもだめな場合があるから諦めるべき
可変長なコードとして扱うようにしないどこかで破綻するよ
まぁ、そういう文字列操作のライブラリでこれ使えみたいのはたぶんないから、自前で用意する必要があると思うが
0890デフォルトの名無しさん
垢版 |
2023/02/27(月) 18:39:55.97ID:Y3EgytEI
>>888
でも、どうせちゃんとした説明できないんでしょ。規格の用語使って技術的に正確に言える?
文字集合(chatacter set)と符号化(encoding)の違い理解してる?
0891デフォルトの名無しさん
垢版 |
2023/02/27(月) 19:07:19.57ID:miAOVMfk
ちょっと前まで文字コード総合スレは名ばかりの実質絵文字スレだったのに
今は文字コード総合スレは名ばかりの実質BOMスレになったのか
0892デフォルトの名無しさん
垢版 |
2023/02/27(月) 19:12:40.37ID:hpJa9B57
>>884
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース
0894デフォルトの名無しさん
垢版 |
2023/02/27(月) 21:08:05.40ID:FhIHw4p1
単純なUTF-32配列だとEMOJI MODIFIERなどに対処できない。すでにUTF-32でも可変長に対応必須が前提になってる。
0900デフォルトの名無しさん
垢版 |
2023/02/27(月) 22:57:56.43ID:+0iiKFkK
utf8-bomで保存するソフトもutf8-bomを受け付けないソフトもそういう仕様だと謳えばどっちもありだろう。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。
0901デフォルトの名無しさん
垢版 |
2023/02/27(月) 22:59:30.26ID:Y3EgytEI
>>897
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ
0902デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:03:56.05ID:hpJa9B57
>>896
UTF-8がUnicodeに入ったのはUTF-16と同じ1996年だけど
UTF-8がJavaやJavaScriptより前から存在していたことに
変わりはないぞ
0903デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:08:26.08ID:hpJa9B57
規格に入ったことを基準にするならShiftJISは1997年に
生まれたことになるんだけど、それでいいの?
0904デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:08:41.53ID:WKLLShCH
>>901
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね


やれやれw
UTF-16の前身のUCS-2のことも知らないようだ

> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw
0905デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:09:42.74ID:Y3EgytEI
>>901
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。
0909デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:17:27.33ID:Y3EgytEI
>>907
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
0912デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:52:22.36ID:0XbN/TTN
先に英語の勉強した方がいいんじゃない?
いや日本語の読解力を鍛える方が先か
0913デフォルトの名無しさん
垢版 |
2023/02/27(月) 23:54:30.47ID:hpJa9B57
>>904
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した

UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した

どっちも実装が先
0914デフォルトの名無しさん
垢版 |
2023/02/28(火) 00:05:34.32ID:RiXy5X63
そろそろ議論を終わろう。テンプレに
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。
0916デフォルトの名無しさん
垢版 |
2023/02/28(火) 03:25:44.83ID:TvT0Tpcw
>>909
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?

何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?
0918デフォルトの名無しさん
垢版 |
2023/02/28(火) 18:09:24.12ID:iD64SDKM
>>916
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ
0920デフォルトの名無しさん
垢版 |
2023/02/28(火) 22:51:31.47ID:arzeasWt
>>918
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。
0922デフォルトの名無しさん
垢版 |
2023/03/01(水) 00:21:41.81ID:OaPBPWBe
>>918

お前のいう喩えはおかしい

× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨

赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない

頭悪いならレスバ仕掛けてくるなよw
0923デフォルトの名無しさん
垢版 |
2023/03/01(水) 01:31:29.23ID:XRlhYtl4
>>922
規格には「BOM使って良い」とは書かれないぞ。
規格に書かれてるのは「不要かつ非推奨だがBOMに遭遇するかもしれない」だけだぞ。
0925デフォルトの名無しさん
垢版 |
2023/03/01(水) 07:32:03.44ID:ewnrwQ6k
その仕様書の130ページ
UTF-8 encoding scheme に
While there is obviously no need for a byte order signature when using UTF-8,
の項目を読んでみたら?
0926デフォルトの名無しさん
垢版 |
2023/03/01(水) 07:51:50.58ID:OaPBPWBe
>>925
許可(BOM Allowed)は書いてありますが、禁止とは書かれてませんね。
非推奨は禁止という意味ではないですね
0927デフォルトの名無しさん
垢版 |
2023/03/01(水) 07:56:52.79ID:OaPBPWBe
翻訳しときますよ

While there is obviously no need for a byte order signature when using UTF-8,
there are occasions when processes convert UTF-16 or UTF-32 data containing a byte order mark into UTF-8.

UTF-8を使用する場合、バイトオーダー署名は明らかに不要(訳注 禁止ではない)であるが、
プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
(訳注 つまり UTF-8 に BOM が含まれることがある)

Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.

UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)

Identification of the <EF BB BF> byte sequence at the beginning of a data stream can, however,
be taken as a near-certain indication that the data stream is using the UTF-8 encoding scheme.

データストリームの先頭の<EF BB BF>バイト列の識別は、そのデータストリームがUTF-8エンコーディング方式を
使用していることをほぼ確実に示すものと見なすことができる。
(訳注 UTF-8を使用していると確実に示すという意味だから使っていいということ)
0928デフォルトの名無しさん
垢版 |
2023/03/01(水) 09:10:35.41ID:XRlhYtl4
結局
禁止とも使えとも明記されてない
書かれているには「不要で非推奨」だな。
0929デフォルトの名無しさん
垢版 |
2023/03/01(水) 09:12:03.02ID:GQlAPTkO
Unicodeの仕様としてはBOMは合法
もし禁止してるとしたらそれはそのアプリやサービスの独自仕様
0930デフォルトの名無しさん
垢版 |
2023/03/01(水) 09:17:42.66ID:XRlhYtl4
>>929
合法とはまた変な表現を出して来たな。規格の準拠性に影響を与えないと言いたいのならそれは正しい。
でも「不要で非推奨」な。つまり「利用者や通信相手の許可無く使うこうとは
0931デフォルトの名無しさん
垢版 |
2023/03/01(水) 10:03:24.48ID:68s28u+f
>>923
+1
0932デフォルトの名無しさん
垢版 |
2023/03/01(水) 10:07:23.21ID:68s28u+f
>>927
>プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
>(訳注 つまり UTF-8 に BOM が含まれることがある)

訳注を善意的に解釈すると
間抜けな変換ツールによる変換時にそのまま先頭のBOMが残ることはあるかも知れないが
新たなプレーンテキストにはBOMは入れないでくれって読めるな
0933デフォルトの名無しさん
垢版 |
2023/03/01(水) 10:10:47.18ID:68s28u+f
>>627
>Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
>の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
>(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)

漏れは改行コードは LF だけ派なんだけど
君は CR+LF 必須だと思ってる?
0935デフォルトの名無しさん
垢版 |
2023/03/01(水) 11:54:30.89ID:VYfkavGa
読み手がBOM付きデータをどう扱うかは、経営の話であって技術の話ではない。
サービスサポートするファイル形式を減らすことで生じる機会損失の軽重を判断するのは経営の領分であって技術の領分ではないから。
0936デフォルトの名無しさん
垢版 |
2023/03/01(水) 12:40:14.45ID:XRlhYtl4
>>935
規格書の話してるのに経営とか言い出すアホ。規格書に「BOMは不要」って書かれてたのがよっぽど悔しいのかね。
規格は法律じゃないんだから、お前は経営判断wで無視してもいいよ。利用者や通信相手が納得してるのなら規格なんて読まなくて良い。オレオレ実装でOK。
ただし技術の話しないんならスレチ、よそでやれ。
0937デフォルトの名無しさん
垢版 |
2023/03/01(水) 14:20:00.05ID:VYfkavGa
>>936
逆だよ。
「BOMをつけるな」は経営の話。
BOMつきにうまく対処することは技術の話。
0938デフォルトの名無しさん
垢版 |
2023/03/01(水) 15:32:04.65ID:lE31oeIj
技術的に対応できるのであれば、
それに対応するのに割くリソースというかコストをどう考えるかが問題になるもんな
BOMなしで統一しているところにBOM付きが紛れ込めば、
必然的にそれに対応しなければならない
その対応分のリソースを他に振り分けることが有用であるから、
「BOMをつけるな」というのはコストの話ではある
0939デフォルトの名無しさん
垢版 |
2023/03/01(水) 15:47:34.03ID:VYfkavGa
切符を買わずに乗ってきた客がいた場合、切符を売ることなく摘まみだすかどうかは鉄道会社や車掌が決めることであって、技術者である機関士の領分じゃないんだよ
0942デフォルトの名無しさん
垢版 |
2023/03/01(水) 19:22:22.84ID:VBsu1zb7
「非推奨のものを他人に勧めるな。隠れてこっそり使う分には誰も困らないので、こっそりやれ、ここに書き込むな」
ここまでの結論。
0947デフォルトの名無しさん
垢版 |
2023/03/02(木) 01:19:24.89ID:SYo8L+Nt
もともと BOM をつけろというやつと BOM は不要というやつがいて、規格に BOM は不要で非推奨と書かれていることが判明した。
BOM をつけろと言ってた側が互換性のために BOM を付けても規格準拠というのを理由に土俵際でねばってる。
どうやっても BOM は不要という結論にしかならないのに。
0948デフォルトの名無しさん
垢版 |
2023/03/02(木) 01:26:38.91ID:w/H+Tpf4
つけろ派と不要派じゃなくて
つけてもいい派とつけるな派の争いに見えるんだけど
0949デフォルトの名無しさん
垢版 |
2023/03/02(木) 01:39:10.27ID:SYo8L+Nt
>>948
つけろ派は押されてトーンダウンした。
勝手につける分には一人も反対していない。
人に推奨して良いかどうかが今の境界線
0951デフォルトの名無しさん
垢版 |
2023/03/02(木) 02:12:10.89ID:SYo8L+Nt
>>950
技術的に何が正しいか議論してるのに、話を逸して誤魔化そうとしてるやつがいるだけ。技術的には
「規格では不要、ついでに非推奨。非推奨のものを他人に勧めるな。勝手に使う分には好きにしろ」
で合意が取れるはずなんだが。
0952デフォルトの名無しさん
垢版 |
2023/03/02(木) 03:43:37.41ID:l6zpHt6k
>>947
> 規格に BOM は不要で非推奨と書かれていることが判明した。
ちゃんと基礎知識を身につけろ

BOMはバイトオーダーマークの略で、UTF-16などのために作られた仕様
互換性のためじゃねーよ。Unicodeで必要だからBOMが作られたんだろ

でUTF-8は1バイト単位の可変長だから、BOMはいらないはずだって主張するやつが出てきた
ところがどっこいBOMにははUnicode Signatureの意味があることが判明した
(知っている人にとっては常識)

そしてUTF-8でBOMは仕様違反だとか禁止とか言ってるやつのトーン下がって
「非推奨だから付けたらだめ」みたいな屁理屈を言い始めたが
PDFにBOM Allowed?: yesという文言が見つかって、ゲームオーバーっていうのが
これまでの流れだ
0953デフォルトの名無しさん
垢版 |
2023/03/02(木) 03:44:43.31ID:l6zpHt6k
>>951
ちゃんと「規格で許可されている」って書こうね
これは事実なんだから
それができないから、嘲笑されてる
0954デフォルトの名無しさん
垢版 |
2023/03/02(木) 04:24:23.36ID:0lgr0WAt
お前ら何もわかってないな
各サービスに複雑な文字コード自動判定処理が追加されたことで、
UTF-8/16/32であることをオレオレ自己申告して複雑な文字コード自動判定をスキップするBOMの存在価値はかえって高まったのだ
0955デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:28:49.86ID:eRjCsfKd
>>952
脳内で歪んだか?
過去レス見直しても「規格に禁止と書いてある」と主張してるやつは一人もいないぞ
「規格に不要かつ非推奨って書いてある」と主張してるやつは多数いる
0956デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:31:59.48ID:eRjCsfKd
>>953
だから勝手につける分にはつけていいだろ。
「許可、不要、非推奨」なのは認めるんだな? 復唱してみろ。
0957デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:35:25.95ID:l6zpHt6k
>>955
だからなんで「規格で許可されている」を消すんだよ?
「規格で許可されているが、必須ではなく推奨もしていないと書いてある」だろうが

Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.

UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。


neither required nor recommended
→ neither 必須 nor 推奨
→ 必須ではなく、推奨でもない

不要は unnecessary だ
訳ぐらい間違えんな
0958デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:36:34.26ID:l6zpHt6k
>>956
「許可されている。必須ではない。推奨されていない。」と認めるわけだぞ。

BOM Allowed?: yes
neither required nor recommended

書いてあるとおりだ。
0959デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:51:49.99ID:rYHGX+R7
>>946
付けろとは描いてないだろ
それがすべてだ
0960デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:53:53.57ID:SYo8L+Nt
>>958
それでいいよ。技術的には不要でも必須でもないでも同じ意味だ。
必須でなくて非推奨なものの他人につけろっていったり、対応を要求したりしなければOK。
0961デフォルトの名無しさん
垢版 |
2023/03/02(木) 09:54:35.67ID:rYHGX+R7
>>948
つけてもいいということはつけなくてもいいということだ
要らないものをつけるためには理由が必要
その理由があまりにもくらだんから全部却下されてるのが今の流れ
0962デフォルトの名無しさん
垢版 |
2023/03/02(木) 10:17:01.49ID:l6zpHt6k
> 要らないものをつけるためには理由が必要

だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな
0963デフォルトの名無しさん
垢版 |
2023/03/02(木) 10:50:40.57ID:/D1s32sE
文字コードが統一されているシステムなら(意味が無いから)BOMは付けない
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん
0965963
垢版 |
2023/03/02(木) 12:05:55.59ID:/D1s32sE
書き忘れた
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない

BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに
0968デフォルトの名無しさん
垢版 |
2023/03/02(木) 13:08:38.21ID:i0CU6OJ9
いや、そこまでしてBOMを避ける理由がわからん
BOMでなければなんでもいいのかよw
0969デフォルトの名無しさん
垢版 |
2023/03/02(木) 13:36:36.77ID:SYo8L+Nt
>>968
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ
0971デフォルトの名無しさん
垢版 |
2023/03/02(木) 15:35:38.23ID:j9aKoD1k
・移行期だからこそBOMで他のエンコーディングと区別できるようにしておきたい場合がある
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない
0972デフォルトの名無しさん
垢版 |
2023/03/02(木) 15:58:33.33ID:0lgr0WAt
すべてはカネ次第。カネを出す人が決めればいいだけ。つまり経営マターってこと。
0973デフォルトの名無しさん
垢版 |
2023/03/02(木) 16:21:08.46ID:H1OYjGZw
> ・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい

BOM付けてリスク変わる?
0975デフォルトの名無しさん
垢版 |
2023/03/02(木) 17:19:23.19ID:H1OYjGZw
BOM見てUTF-8だってのは自動判定の一要素でしかないしBOMなし対応いらなくなるわけじゃないから変わらないと思うんだけどな
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし
0976デフォルトの名無しさん
垢版 |
2023/03/02(木) 17:51:26.36ID:0lgr0WAt
>>975
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ
0977デフォルトの名無しさん
垢版 |
2023/03/02(木) 18:28:28.35ID:l6zpHt6k
>>975
BOMは99.999%正しく判定できる自動判定だよ
実質完全に判定できるといっても過言じゃない。
0978デフォルトの名無しさん
垢版 |
2023/03/02(木) 18:43:46.01ID:SYo8L+Nt
>>977
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。
0979デフォルトの名無しさん
垢版 |
2023/03/02(木) 19:12:41.37ID:/D1s32sE
>>978
BOMによる自動判定だけなら先頭の数バイトの固定パターンを見るだけの単純なものだから
バグの入り込む余地はかなり小さくなるだろ
0981デフォルトの名無しさん
垢版 |
2023/03/02(木) 19:30:13.68ID:H1OYjGZw
仕様で文字コードが固定されていようがBOMで判断しようが
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか
0982デフォルトの名無しさん
垢版 |
2023/03/02(木) 20:53:06.62ID:YeVHKr55
「文字コードの自動判定にはセキュリティリスクがある」

BOMによる判定も自動判定だ

だからBOMにセキュリティリスクがある

なにこの三段論法w
0984デフォルトの名無しさん
垢版 |
2023/03/02(木) 21:44:42.19ID:H1OYjGZw
BOMがあればデータチェックをスキップしていいと考えるやつがいることを想定するなら確かに心理的セキュリティリスクが存在することにはなる
でもそんな話はしていないんだよなあ
俺の起点は>>971に対するものでこれは>>969を受けてのものだから最初からBOMによる自動判定の話だし
0986デフォルトの名無しさん
垢版 |
2023/03/03(金) 00:03:50.07ID:GXuOSZhF
>>984
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。
0987デフォルトの名無しさん
垢版 |
2023/03/03(金) 01:54:41.66ID:BY62yhT8
>>971
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。
0989デフォルトの名無しさん
垢版 |
2023/03/03(金) 02:55:06.26ID:NQKxEL/3
>>987
まずお前の言う「入力処理系」が何なのか説明しろ
「あれが困る」みたいな曖昧な言い方をするな
0990デフォルトの名無しさん
垢版 |
2023/03/03(金) 05:11:52.34ID:Utd2ywhQ
バイナリとして扱ったとしてもデータとして使うのか?
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな
0991デフォルトの名無しさん
垢版 |
2023/03/03(金) 09:15:08.54ID:oC7cFOXy
I hate Windows.
0993デフォルトの名無しさん
垢版 |
2023/03/03(金) 09:24:55.04ID:oC7cFOXy
>>980
ついでにSJIS対応もISO2022JP対応も削除で
0994デフォルトの名無しさん
垢版 |
2023/03/03(金) 09:26:04.28ID:oC7cFOXy
>>982 が稀に観る白雉
0996デフォルトの名無しさん
垢版 |
2023/03/03(金) 11:33:14.61ID:NQKxEL/3
お前だろ

ってかBOMは許可されてるのに
そういう例外を持ってきてわーわー騒ごうとするのは頭が悪い
0997デフォルトの名無しさん
垢版 |
2023/03/03(金) 12:02:55.61ID:oC7cFOXy
シェルスクリプトが万が一BOM付きshebangを解釈するようになったとしても
catはどう処理されるんだろ
面倒だから止めてるんだろうな
0998デフォルトの名無しさん
垢版 |
2023/03/03(金) 12:46:30.84ID:NnDpncr7
昔のmsysのcat.exeは0x0Aを勝手に0x0D0x0Aに変換して出力する仕様だったので、人知れず泣いた人多かったんじゃないかと思う

>>997
BOMをスキップするオプションとか追加すれば対処できるんじゃまいか
0999デフォルトの名無しさん
垢版 |
2023/03/03(金) 12:50:33.85ID:oC7cFOXy
binaryオプション付けなければwin上で0d0aにされても文句言えない罠
しかしデフォでbom無であるべきで
デフォがbom付になるのは許すまじ
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 972日 15時間 57分 1秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況