文字コード総合スレ part14

レス数が900を超えています。1000を超えると表示できなくなるよ。
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
2024/06/04(火) 17:15:26.05ID:8TlGJtZv
>>805
CSV の利点は制御文字(cc)ではなく表示文字を使っている点。TAB はccなので表示系によっては見た目で区別できない場合がある。典型的にはスペースと見間違える(1文字TABはスペースと同じアキになる可能性
常にTABとスペースが正確に区別できる環境ならTSVの方がだんぜん便利だと思うが TAB は普通の文字じゃないことも文字コード設計として念頭においておくべき
あと unicode にはスペース類似文字もカンマに似た文字も多過ぎるので、どのみち見た目で区別は駄目という話はある、酷い話だ。
809デフォルトの名無しさん
垢版 |
2024/06/04(火) 17:46:25.88ID:1kTV4q2T
すげーな
職場でもあんま話通じない人なのかな
2024/06/04(火) 22:21:43.51ID:GNPHSdGp
「慶応」も「コンクリート」も漢字1文字で 〜Unicode標準に新しいブロックが提案中
手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1597030.html
811デフォルトの名無しさん
垢版 |
2024/06/04(火) 23:02:09.29ID:k5yNkVnV
>>810
そういうのは合字といって昔からある
812デフォルトの名無しさん
垢版 |
2024/06/04(火) 23:04:13.30ID:k5yNkVnV
UTF-8は日本語だと明確に指示していないと、漢字が中国の漢字が入り込んでしまう。
813デフォルトの名無しさん
垢版 |
2024/06/04(火) 23:06:31.80ID:k5yNkVnV
UTF-8で記号がたくさん追加定義されて、MS-IMEがめちゃくちゃだから、変な記号を使う日本人が激増した。
2024/06/04(火) 23:12:43.53ID:A0JJZg9T
変体仮名で限界

用例を見たが、それ以上の歴史的重要資料が大量にあって
デジタル化の必要性があるとは到底思えない

英字アルファベットも代表的なカリグラフィーを収めて終了
unicode標準は局所的な特定小集団のおもちゃじゃない
2024/06/05(水) 07:49:52.75ID:Ex4xeIUM
>>810
従来の漢字、特に中国の簡体字等、読みの同じ部首やつくりで置き換えて文字を
作ったりとかはあるので、発想としては近いものを感じる
2024/06/05(水) 09:34:19.11ID:TjOdfiQ/
UnicodeData.txtをあたらないと何を表してるのかさっぱり分からん絵文字よりは
まだその手の略字のほうが有意義な気はする
2024/06/05(水) 10:21:36.77ID:xv3Pbp+3
>>808
Firefoxだと表示できない文字は□の中に16進コードが書かれた文字が表示されるから
同じようにテキストエディターでも制御文字と空白に見える文字は空白を表示する代わりに
16進のコードが表示されれば分かりやすくなるね
2024/06/05(水) 13:38:49.33ID:XaSaDlvd
>>810
標準に滑り込ませて既成事実化するよりも、
草の根で外字フォントを配るのが良いと思う
819デフォルトの名無しさん
垢版 |
2024/06/05(水) 15:08:16.04ID:lcx/EjsX
>>818
草の根で外字フォントを配ってなんとかなることだったらわざわざ標準化する必要なくね?
外字フォントを配るぐらいにとどめておいた方がいい以上の根拠なし意見でしかないぞ。それ。
2024/06/06(木) 09:50:50.05ID:GV7aCOF9
>>818
それを全国の市町村の役所でやって既成事実化できずただただ氾濫して手に負えなくなったんよ
2024/06/06(木) 10:38:50.99ID:qz5pj6nB
役所は文系ばかりなのでとんでもないことを平気でやらかす
2024/06/06(木) 10:46:53.59ID:qz5pj6nB
>>793
98に限らず
hjklで←↓↑→替わりにしてる環境は割とある
2024/06/06(木) 16:26:25.10ID:nRDHkFIj
unicodeだと同じ文字に見えても違うコードポイントの文字が多いから
テキストエディタにもコードポイントを表示する機能と
バイナリではどう記録されているのか表示する機能が欲しい
バイナリエディタでは折り返しが16バイト毎の固定で文章入力しにくいから
折り返しを16バイト毎ではなく0x0D0Aにできるバイナリエディタのような感じかな
2024/06/07(金) 00:30:00.98ID:KQ6L7vRD
絵文字とか異体字セレクタとかもあるし、とりえあえず文字(グラフィームってやつ?)の
境界を見つけるのが面倒だよね
文字境界を探すライブラリとか、今ってそこら辺もちゃんと動く感じ?
2024/06/07(金) 02:08:04.46ID:4C4NoraV
>>823
サクラエディタにそんな機能があるな
2024/06/07(金) 20:02:28.27ID:f1gRwXGz
Ruby では、

https://qiita.com/QUANON/items/2539feed89cee2290664

couple = '👨‍👩'
p couple.length #=> 3

# \X Unicode 結合文字シーケンス (eXtended grapheme cluster) (?>\P{M}\p{M}*)
p couple.scan(/\X/).length #=> 1

# \u{0308} はウムラウト
p euml = "e\u{0308}" # "ë"。"〜"で囲む
p /\X/.match(euml) #=> #<MatchData "ë"> ウムラウト有り
p $&.codepoints #=> [101, 776]

# \w 単語構成文字 [a-zA-Z0-9_]
# \W 非単語構成文字 [^a-zA-Z0-9_]
p /\w/.match(euml) #=> #<MatchData "e"> ウムラウト無し
p $&.codepoints #=> [101]

p couple.chars #=> ["👨", "‍", "👩"]
p couple.grapheme_clusters #=> ["👨‍👩"] 書記素クラスタ

# U+200D は、Zero Width Joiner (ZWJ: ゼロ幅接合子)
couple.each_char { |chr| puts(format('U+%04X', chr.ord)) }
# U+1F468, U+200D, U+1F469

(euml + couple).each_grapheme_cluster { |chr| puts(format('U+%04X', chr.ord)) }
# U+0065, U+1F468
# つまり先頭文字である、'e👨' だけになる
827デフォルトの名無しさん
垢版 |
2024/06/07(金) 21:53:54.62ID:8MnTJRoZ
Macなんて日本語でも英語のUTF-8と決めつけるから、SJISですらうまく打てない。
828デフォルトの名無しさん
垢版 |
2024/06/07(金) 22:04:15.54ID:8MnTJRoZ
>>810
その記事は時代に逆行している変な人間の記事だな

手書き文字を登録しろと言い出すと無限に定義するはめになり、見た目の区別もつかなくなる。
2024/06/07(金) 22:06:42.14ID:NZ6fOaVt
JavaScriptの識別子に中黒が使えるようになった
https://nanto.asablo.jp/blog/2024/06/07/9690975

JavaScriptの識別子(変数名、関数名、プロパティ名など)の2文字目以降に中黒「・」(U+30FB KATAKANA MIDDLE DOT)が使えるようになりました。以下のコードはChrome 124では構文エラーになりますが、Chrome 125では問題なく実行できます。

const シン・ゴジラ = 2016;

中黒が使えるようになったのは、JavaScript(ECMAScript)の仕様が変わったからではありません。変わったのはUnicodeの仕様のほうです。Unicode 15.1.0(2023年9月)においてOther_ID_Continueプロパティ(を持つ文字の集まり)に中黒が追加されました。
830デフォルトの名無しさん
垢版 |
2024/06/07(金) 22:34:26.74ID:8MnTJRoZ
>>829
表記の揺れの原因になりやすい記号
2024/06/07(金) 23:59:44.50ID:2VgcMGPt
>>828
異体字はこんな風に生まれたんだろうけど
と高みたいに両方ともUnicodeで基底文字として扱われてる文字と
異体字として扱われる文字の違いは何なんだろうな
2024/06/08(土) 01:05:00.06ID:mxKAN8QR
>>831
中国人/台湾人の辞書や文字コード表に記載されているかどうか。はしご高は台湾漢字由来だったか
日本の異字体はIVS使うことにしたので最近は登録申請すらほとんどしてないけど、中華人民共和国は今もがんがん本体に追加要請してる
833デフォルトの名無しさん
垢版 |
2024/06/08(土) 01:39:00.68ID:h1Q0ar53
>>832
「異体字」を「異字体」と間違っている時点で説得力なしw
2024/06/08(土) 10:12:44.74ID:mxKAN8QR
>>833
この場合は「異−字体」であってるんだよ。「異体−字」は個々の文字を指す。
2024/06/08(土) 13:27:19.23ID:QJis2zSF
そういえば、斉藤なんかの「さい」の異体字はすごい数あるな
もともと難しい字で、戸籍登録の際の書き間違いが原因らしいけど
2024/06/08(土) 21:42:22.14ID:b6OQAhB4
異体字と異字体
https://www.ytv.co.jp/announce/kotoba/back/2001-2100/2036.html#:~:text=%E3%81%AE%E8%A9%B12038%E3%80%8C-,%E7%95%B0%E4%BD%93%E5%AD%97%E3%81%A8%E7%95%B0%E5%AD%97%E4%BD%93,-%E3%80%8D%0A%0A%E6%96%B0%E8%81%9E%E7%94%A8%E8%AA%9E
837デフォルトの名無しさん
垢版 |
2024/06/15(土) 21:59:47.39ID:1hp9WHhR
すげーのを引っ張りだしたなw
2024/06/17(月) 09:21:34.95ID:TtAe0wMx
CJK統合漢字拡張もいつの間にかI(アイ)まで来てるのかあ
どこまで行くんでしょう
2024/06/17(月) 18:15:03.85ID:BtZF1kb5
>>838
中国さんが飽きるまで
とはいえ中国さんは、日式異体字とか辞書に載せて、辞書に載ってるから申請とか、留まるところを知らない
840デフォルトの名無しさん
垢版 |
2024/06/17(月) 23:07:05.19ID:4L+665Jw
>>834
それさ、同じ漢字と、字体違いの漢字を同一だと思っているでしょ?

同じ意味の漢字と、見た目違いの同じ意味の漢字は別物だよ
2024/06/18(火) 00:34:22.90ID:4d4deoVm
>>840
異体字≡異体文字
異字体≡異体
この2つは当然べつもの
842デフォルトの名無しさん
垢版 |
2024/06/18(火) 02:46:10.52ID:7l1MdKKx
>>841
漢字の話をしているだぞ?
漢字は意味が違ったけど同じになったもの、新しい漢字を作るときに位置が違ったもの、わざと創作した存在しない漢字などがあり、字体違いだけでなく書体違いもあり、あなたのこだわりは漢字そのものをわかっていない。
843デフォルトの名無しさん
垢版 |
2024/06/18(火) 02:47:11.32ID:7l1MdKKx
>>841
「異字体」というのは中国語
2024/06/18(火) 03:01:03.27ID:4d4deoVm
「漢字Aと漢字Bは〇〇の関係にある」
この〇〇には異体や異字体は入るが、異体字や異体文字は入らない。異体字は字体の関係性ではなく個々の文字を指す用語。
「異なる字体」と言いたい場合は「異体/異字体」を使用する。
「字体」とは文字の骨格となる構成を言う。「字形」や「書体」とは違う概念
845デフォルトの名無しさん
垢版 |
2024/06/18(火) 05:09:10.23ID:7l1MdKKx

846デフォルトの名無しさん
垢版 |
2024/06/18(火) 05:09:59.04ID:7l1MdKKx
>>844
漢数字のゼロを丸印だと思っている方に言われたくない
2024/06/18(火) 07:20:08.45ID:4d4deoVm
>>846
すまん。アンドロイドで「まるまる」で変換しただけで思ってるとか無関係。
848デフォルトの名無しさん
垢版 |
2024/06/18(火) 07:55:46.38ID:7l1MdKKx
Google日本語入力を使った方がいい
2024/06/18(火) 09:14:05.74ID:4d4deoVm
>>848
俺の使ってる google 日本語入力だと「まるまる」の候補は〇〇、丸々、丸丸、円円 (カナやローマ字以外だと)4つだけだな。
この謎の漢数字の〇〇って「ひとふたまるまる」とかの軍隊時間呼称とか用なんだろうか? でも「人蓋〇〇」とかになるな
850デフォルトの名無しさん
垢版 |
2024/06/18(火) 10:39:53.14ID:7l1MdKKx
中国が日本語を担当しているせいで、日本人が「まる」と入力したときに零だと勘違いしているだけだ。

大日本帝国の末期の用語みたいになっている。
851デフォルトの名無しさん
垢版 |
2024/06/18(火) 10:41:16.55ID:7l1MdKKx
変換候補に出てくる文字の説明がちゃんと出てくるものを使わないと
852デフォルトの名無しさん
垢版 |
2024/06/18(火) 15:04:55.87ID:J2T1cvE/
853デフォルトの名無しさん
垢版 |
2024/06/18(火) 16:01:02.14ID:xFwnxcwf
2024/06/23(日) 18:00:29.64ID:AwO4Mznw
異体字セレクタって、無闇に使うと問題あったりしますか?
例えば対応してないシステムやアプリ上で使うと何か問題が発生するとか
2024/06/23(日) 19:08:28.54ID:E6KcLbxg
検索する時にはまりそう
2024/06/23(日) 19:53:42.52ID:kgoIYSsb
>>855
規格にちゃんと従っていれば検索時には無視してくれるので大丈夫
現時点で規格をちゃんと実装してないやつの方が多いってのは棚に上げておく
857デフォルトの名無しさん
垢版 |
2024/06/27(木) 04:51:42.68ID:mbmQwdn4
見た目が似ている横棒がUTF-8でたくさん定義されてしまって面倒なことになった。
2024/06/27(木) 09:53:57.06ID:OTNDZ+yC
あいつら漢数字の一まで一緒にする気マンマンだったんだぜ
2024/06/27(木) 14:19:43.19ID:R4TfblGO
>>857
データベースないのかな?
0221以外のJISにない文字も含めた奴
860デフォルトの名無しさん
垢版 |
2024/06/27(木) 20:01:38.35ID:GrriFYXz
1(いち)とI(大文字アイ)は、フオントによっては、
見分けは、サッパリなぐらい、そっくり
ていうか、住所全角入力でハイフンの全角が
スマホからダメだった。仕方ないからパソコンで
入力したら上手くいった。
住所全角入力させるシステムってシステムのバグなのかな❓
2024/06/27(木) 21:05:10.39ID:wRIzw+yE
それよりサンセリフの I と l の区別がつかん
欧米人は大雑把でいけない
昔のタイプライターでは Il1を同じ文字、O0を同じ文字で代用していたらしいので伝統文化なのかもしれない
2024/06/28(金) 16:48:54.85ID:/Ex5ZKSC
youtubeのキーは判りにくい
863デフォルトの名無しさん
垢版 |
2024/06/29(土) 14:26:47.39ID:LsytJO7D
>>860
画面はUTF-8なんだろうけど、うしろにメインフレームのシステムがあるんだろう。
一文字に3バイト使う日本語でないとキャラクタセット変換が面倒なんだろうな。
2024/06/29(土) 23:34:00.90ID:PD19M9dI
記号類は見た目が似ているからといって入力しやすい文字で代用しないで
Unicode Code Chartsに書かれている意味を調べて本来の意味の文字を選んだ方がいいよね
だからこそ入力する時に変換候補に文字の意味も出てほしいし
テキストエディターでも文字のコードポイントを表示する機能がほしい
865デフォルトの名無しさん
垢版 |
2024/06/30(日) 03:09:55.21ID:CdZYHoVj
キーパンチャーの頃は単に部品減らしたいから代用したんでしょ
2024/07/02(火) 09:17:58.60ID:7m/fEF9O
いわゆる漢字検定ってありますよね
あれで「標準字体」とか「許容字体」とかあるけど、どういう基準で決められているか
どなたかご存知ですか?
2024/07/02(火) 11:09:41.17ID:CMQfyMum
>>866
検定協会が勝手に決めてて知りたければ協会の出してる本を読めということになってる
いちおう総務省や国語審議会などの文献を参考にしている建前になってるけど詳細は独自基準
2024/07/03(水) 20:09:14.26ID:uNuVLdV8
>>867
なるほど。単純な字形のデザインとしてはあまり統一感のない部分があったりして
少なくともそういう方針ではないんだろうなあと思いました。
2024/07/05(金) 12:08:03.46ID:sk1jYKJ/
記号の意味と言えばWAVE DASH / FULLWIDTH TILDE問題で
日本語で使うのはWAVE DASHの方が正しい意味なのに
FULLWIDTH TILDEの方が普及してしまっているのがあるね
Windowsで[Shift+へ]を押した時に波ダッシュが入力されるように
キーアサインを変える方法はないのかな
2024/07/05(金) 14:03:59.79ID:9HUPbMTA
~ を使え という話でしょ?
2024/07/05(金) 20:15:21.12ID:TlSLATbO
https://i.imgur.com/56sHvt0.jpg
すぐ2500P+2500P手に入ります。
2024/07/05(金) 20:44:07.34ID:91TM1aqr
>>871
コスパは特に良いよな
2024/07/06(土) 22:57:15.51ID:9TLutRVK
記号の意味にこだわる、ですか
例えば歌とかで音を伸ばす記号はWAVE DASHじゃなくて別途なんちゃらSOUND MARK
みたいなのが必要、ということになるのかね

そういえば"-"はハイフンなんかマイナスなんかどっちやねん
同じく"/"もソリダスなのかスラッシュなのか
というわけでそもそもASCIIの時点でグダグダという説は
874デフォルトの名無しさん
垢版 |
2024/07/06(土) 23:42:34.68ID:t6wlluGn
ちんこ文字
875デフォルトの名無しさん
垢版 |
2024/07/08(月) 05:39:56.31ID:CrEpPy17
てゆぅうか、
小文字のエル(l)と、大文字のアイ(I)
見た目、ソックリぢゃーーーん。
てゆぅか、dataURLとdataURI って違う❓
てゆぅか、dataURLとdataURI って同じ❓
てゆぅか、プログラミング言語の
PL1は、PLIらしいけどマジなの❓
てゆぅか、「水」と「木」って似てるぅ。
てゆぅか、UTF-8っていいねー
dataURIてゆうか、dataURLてゆぅか
Base64の文字列は、UTF-8に変換しても
Base64の文字列のままだろう。
容量が増えない。よな❓ 違う❓合ってる❓

てゆぅかさ、UTF-8は廃止してさ、
地球人は、1byte文字は、ASCiiとし、
漢字・🇨🇳語・漢語は、廃止してさ、
絵文字💙🖤🟨🤡🥳🧊を2byteにする
超UTF-4 UTF-4 超UTF-4 を策定しなさーーい

てゆうか、ハンドルネームは絵文字対応してないの❓
876
垢版 |
2024/07/08(月) 05:50:54.64ID:CrEpPy17
えー、875アタマ変ですよ。てか自分だった(⁠・⁠o⁠・⁠;⁠)
❌ 超UTF-4 ◎ 新UTF-16 だろ、ま、新UTF-8でもよいが
ま、ASCiiが8bitで格納されりゃ、何でもUTF8でよいのぢゃ
てゆうか、顔文字(⁠・⁠o⁠・⁠;⁠)とかってアロゲート文字だよな❓
複数の文字で一文字だし、四文字熟語もアロゲート文字❓
てゆうかさ、文字を接着させたのがアロゲート文字ポぃし
アロンアルファ文字って改名しなさーーい
てゆうか、アロンアルファは商標なのかな❓
877876
垢版 |
2024/07/08(月) 05:58:39.48ID:CrEpPy17
あっえけねぇーーー
アロゲート文字ぢゃなくて
サロゲート文字だった。誤字ってしまった
てゆうか、アとサって同じ字体に
しなさーーーい。テへペロッ👅👅👅
878デフォルトの名無しさん
垢版 |
2024/07/09(火) 06:03:06.92ID:7TWYnb2J
ISO-10846-1 と Unicode と UTF16
全部違くアル❓ってゆぅか違くナイ❓
どっちも正しくナイ❓ って優香、
地球の解説書の文章、
プログラミング言語よりイミフ by 🥳

タブン、ゼッタイ、ソレラワ、オナジ
by 👤ジシヨウ∧ウチユウジン
879デフォルトの名無しさん
垢版 |
2024/07/10(水) 09:52:29.65ID:VQ7EHiq/
javascriptの関数てか、オブジェクトてかメソッドてか
String.fromCharCode() なんだけど、引数は
UTF-16 らしい。
で、ですが、今から、引数にUNICODEてかUCS2を指定
してString.fromCharCode()により生成の文字が
化けるか試験、只今実施中
とにかく、地球人の言語イミフだけど
UNICODEとUCS2とUTF16 同じだよな。❓
因みに、引数にSHIFT JISコード指定したら
文字化けちゃったーーーーテヘ👅 BY 🥳
880デフォルトの名無しさん
垢版 |
2024/07/10(水) 10:24:38.13ID:VQ7EHiq/
    🟦🟦
ポクは、🟦🟦ミクロソフト星人 です。
なに、Javascriptのその引数がUTF16っていうルールなのかな?
てかさ、ミクロソフト星人語にUTF16を翻訳すると
単に「コードポイント」もしくは、
単に「UNICODE」だもんねぇーーー
ちなみに、ポクの子孫のエクセル星人は、
EXCEL関数にUNICODE関数があって
それの逆関数だけど、EXCELはJAVASCRIPTじゃないしーー
て、ゆぅか、SHIFT JIS関数なんてのは
存在しないぽぃぞ。んーーー
ANSIとか、今どうなっちゃったの❓
地球から消えてるぞーーー。関数がない。

でも、手元のデータは、SHIFT JISダラケだ。
因みに、JIS X 0208とかいうJISコードの
関数は、今でも存在する。
UNICODE関数ぢゃなくて、単にCODE関数。
てか、SHIFT JISとかUTF8とかグダグダな仕様なのに
なんで、そんな文字が地球のファイルに
沢山有るんだろ。へんなの

BY 🟦🟦🟦🟦 初登場かものミクロ星人でした--ー
881デフォルトの名無しさん
垢版 |
2024/07/10(水) 14:33:40.87ID:VQ7EHiq/
バイナリファイルがShiftJIS なんだけど、普通のJavascriptでそれ表示ダメぢゃーーーん
仕方ないから ShiftJISをUTF16に変換するJAVASCRIPT作るハメになった
ShiftJISからUTF16への変換って規則性がヤバイってyouか
規則性がナイようだ。
ま、第2〜4水準までやるのは面倒なので、
英数字と第1水準とついでにやる程度にサポートを絞り込み
ShiftJISからUTF16への変換するのを作るハメになった
てか、javascri◯tって使えねー
てか、ShiftJISが使えないんだよな。 日本語終わった-ーの❓
882デフォルトの名無しさん
垢版 |
2024/07/10(水) 16:22:45.34ID:2GPD5dJ4
javascriptはオワコン
2024/07/10(水) 20:27:52.97ID:rqrEiEKA
お前がオワコン
2024/07/10(水) 21:16:54.00ID:NYEE55Ev
バイナリファイルがShiftJISってどういう意味よ
そもそも日本人が書いてるかすら怪しいが
885デフォルトの名無しさん
垢版 |
2024/07/11(木) 15:15:53.35ID:Yl73LUiK
🤡チミは地球人だろ
👤オレハ、ウチュ〰ジン
🥳地球人ぢゃないのー❓
👤オレハ、チキュジンだから、オレハ、ウチュ〰ジン
🤡んー、ヒトは動物だけど、チミは❓動物❓
👤ウチュ〰ジンハ、ショクブツデハ、ナイアル
🤡ま、あのファイルのオフセット0〜253byteは、
あのファイルの元となったファイル名で、
ファイル名はテキストだから、それはバイナリとゆうか
テキストで、簡単には、shift jisだ。
👤てか、テキストファイルを暗号化したら、
テキストファイルではなくバイナリファイルだろ
地球人、ニホンゴヘンある。
🥳てか、地球人は言語力は能力は無アルねぇ!
👤ま、あのオフセット0〜253byteㇵ、
1byte文字つまり半角は、0x00を付加して2byteとし、
2byte文字つまり全角は、とにかくansiだな。
それで、全ての文字を2byte/文字としたunicodeだ
uni uni uniコードだ
🥳ウチュ〰ジン、イミフ明。すごいー。
🤡てか、あれ、FAT32 WIN98SE OFFICE97頃に
作成されたファイルだ。
今風に翻訳すると、SHIFT JIS + UTF16 ポぃ感じ
ま、第1水準漢字と半角英数字+α程度しか
使ってないないので、解読は、割と楽勝
🥳絵文字は❓
🤡そもそも、そんなの当時は存在しない
2024/07/11(木) 21:53:13.04ID:haHM85gK
>>832
これって、どうなっちゃってるの?
「異体字には別のコードポイントを与えない」っていうからIVSを作ったのでは
でも結局それを真面目に守っているのは日本だけってこと? 中国は許されてる?
887414
垢版 |
2024/07/11(木) 22:38:44.84ID:K91K+5w2
もうそろそろ、Windowsのテキストファイルの文字コードは
BOM無しUTF-8ということに決定してもよろしいか?
2024/07/11(木) 23:06:16.39ID:6+smHBG9
>>886
中国政府様が載せてくれないなら別の文字コード作って中国国内ではそっちを使うことを強制にするがよろしいか?
という強行姿勢を暗に匂わしたので折れて中国は好きなだけ漢字を申請できる方向になった
さらに一面まるまる使って漢字とは別に甲骨文字登録する方向で検討中
2024/07/11(木) 23:08:05.64ID:6+smHBG9
>>887
Microsoft はとうにその方向に決定している
今は過渡期で古いのが混在している状態
890885
垢版 |
2024/07/13(土) 06:39:23.34ID:TtoT6TUE
あれは、なんとか.caption内の文字を
Asc関数でコード化してファイルに格納。
結果、Shift Jisとなった。ようだ by 👤
よく思い出せたな by 🤡
2024/07/13(土) 15:57:55.69ID:AiAJ265H
>>889
さんくす
892デフォルトの名無しさん
垢版 |
2024/07/14(日) 06:38:37.28ID:ug+Z0Tiq
ちぇっ、あのユニコードが、嫌いなのは、
3byte/文字 というのは、準建て前で
ホントの(嫌いな)理由は、
文字数が決まってもbyte数が変動するから。

て、ゆぅか、UTF8は、可変長だからUNICODE
ですなんて、デマは修正しようよ
てか、SHIFT JISも、半角と全角で
BYTE長が変わるから、UNICODEぢゃないけど
ま、1BYTE文字と2BYTE文字だけだから許してアゲル
て、ゆうか、UTF16のサロゲート、あれ何よ
1文字=2BYTE という機能を喪失してるぢゃーーん。
て、ゆうか、メモ帳UTF8やめて、UTF16かつサロゲートなし
にしてさ、そうだ、第二〜第四水準漢字は、
絵文字を割り当てる、超最新UTF16を策定してよーー

ま、UTF32も惡くないけど、4byte/文字は
容量がデカい。ま、CPU的に今日は、64bitアドレスが
常識な今日おいて、UTF32、UTF64もアリと
言いたいとこだが、ファイル容量的なことを
考慮すれば、UTF32は惡だっちゅーーの
てゆぅか、UTF8にするぐらいなら
メモ帳は、ASCii 7bitだけサポートして
UTF7 にしなよーーー。
サクサク、動くかな。てか現状でも
メモ帳はサクサクだし、変更反対
てか、サロゲートなしUTF16でいいぢゃーん
絵文字は、第二〜第四水準を喪失させて
それに割り当てる。
なんて、なんちゃら真偽会は決断するわけないけどさーー
893デフォルトの名無しさん
垢版 |
2024/07/14(日) 09:14:35.59ID:JssLuzWj
>UTF8は、可変長だからUNICODE

こんなこと言ってる馬鹿は診たことが無い
894デフォルトの名無しさん
垢版 |
2024/07/15(月) 06:09:48.96ID:efndaTNQ
number(Asc("887"))って🇨🇳人ぽぃ
訛の文章だから、ヨイ在る。てyouか、

Windowsのテキストのファイルの
文字のコードのUTF8のBOMの有無は、
無でヨイ、在る

Windowsのテキストのファイルの
文字コードのAnsiのBOMの有無も、
無でヨイ、在る

でも、何でも、BOM無しでも、ヨイ有る

by 🇨🇳チコゴク セジン  アル アル
2024/07/15(月) 22:11:52.14ID:uaTguAFS
U+3316㌖のような単位を1文字にしている組み文字は
新聞で紙面を節約するためにあるのかな
2024/07/16(火) 15:07:23.43ID:+fRn+SCh
>>895
K-JISというやつですか
UnicodeのライブラリでNKFCやNKFDするとちゃんと「キロメートル」になるねえ
そういえば例の「ﷺ」はUTF-8で33バイトにもなった
「キロメートル」は18バイトだからまだまだかわいいものか
2024/07/16(火) 20:56:36.72ID:DctCX4ey
容量の単位が㎇までしかないのが時代を感じる
898デフォルトの名無しさん
垢版 |
2024/07/16(火) 21:05:36.26ID:eiV6OZVR
合字を用意する意味がない
2024/07/17(水) 09:30:17.34ID:Zoa35r67
BOM無しUTF-8がデファクトになってすげえ大迷惑
SJUSと混在で使ってるとVSCodeが文字化けしまくりだし誤って上書き保存すると二度と元に戻せなくなるし
2024/07/17(水) 13:01:23.25ID:LcC42hAA
>>899
では、どういう状況になれば大迷惑でなくなるのか?
2024/07/17(水) 13:11:18.27ID:7vbDx03j
そりゃその話の流れだとbomありutf8でしょ
ま広まらないと思うけど悪くはない
utf8にbomは不要という原理主義は頭固い
2024/07/17(水) 17:18:07.90ID:9XtLz/LP
SJISを無くす努力をしよう
2024/07/17(水) 19:46:49.14ID:z7xnUw2v
>>901
EUCを壊滅させたLinuxや、Appleから「もうSJISなんて面倒見んからな」と念を押した
MacがBOM付UTF-8を採用しなくて、その流れのままマルチOS対応ソースが一般的に
なってWindowsにも降ってきたから諦めろというしか。
 MSはやることやったが、10年以上かけてもGitHubとか使わない大半のユーザが
UTF-8どころかBOM付UTF-8にもそっぽ向いてSJIS使い続けたのが悪い。
2024/07/17(水) 20:36:38.73ID:H6FZvyqh
github とか関係無くて
internet は UTF-8 (BOMなし) で国際化するのが当然という風潮が10年くらい前からできてる
サーバーまわりが Linux に占拠され、クライアントも主流の android や iOS が UTF-8 以外まともにサポートしてないのが大きい
孤立した世界なら良いが他と通信する前提なら他と文字コードを揃えておくのが楽
Windows はもうマイナー環境だということを自覚するべき
905414
垢版 |
2024/07/18(木) 07:11:14.05ID:xqWd8vjt
少し盛り上がって参りましたw
906デフォルトの名無しさん
垢版 |
2024/07/18(木) 19:11:06.46ID:GUg+Zpj4
>>903
日本語と中国語が混ざる現象が新しい問題
907デフォルトの名無しさん
垢版 |
2024/07/18(木) 19:13:00.64ID:GUg+Zpj4
>>904
それは元がマルチバイト文字圏でなかった地域が主導しているからだよ

英語圏ではUTF-8かどうかすら意識せずに文字が書ける
レス数が900を超えています。1000を超えると表示できなくなるよ。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況