文字コード総合スレ part15

1デフォルトの名無しさん
垢版 |
2024/08/17(土) 11:18:00.01ID:VHa7+i59
文字コードについて語り合うスレです
2024/08/17(土) 11:23:28.13ID:VHa7+i59
前スレ埋まってたので立てといた
テンプレとか過去スレを張るとNGワードで弾かれたので省略した
可能な人がいたら適当に補完しといて
2024/08/17(土) 11:32:03.55ID:4RGMPEY4
しゃぶれよ
2024/08/18(日) 02:47:53.12ID:NcMT6XUt
Q. UTF-8にBOMは必要ですか?
A. Unicode規格ではUTF-8にBOMを付けることは非推奨と明記されています
LinuxやMacやInternetの各規格ではUTF-8にBOMをつける文化はありません
Microsoftはかつて技術者向けにBOMを付けることを推奨しておりWindowsのツールはデフォルトでBOMを付加していましたが新しいバージョンではBOMを追加しないよう変更されていっています
現時点でも文字コードの自動判別にBOMを使用しているアプリはあるのでそいうソフトウェアの使用に限って便利なこともあります
5デフォルトの名無しさん
垢版 |
2024/08/18(日) 14:23:47.18ID:tu42Sbmi
14 https://mevius.5ch.net/test/read.cgi/tech/1677826018/
13 https://mevius.5ch.net/test/read.cgi/tech/1593777227/
12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
6デフォルトの名無しさん
垢版 |
2024/08/18(日) 19:18:59.30ID:zbSOXgFa
ms-vcでまだs_jisを使ってる人はただちに辞める方法

ms-vcでutf-8を使う方法
https://learn.microsoft.com/ja-jp/cpp/build/reference/utf-8-set-source-and-executable-character-sets-to-utf-8?view=msvc-170
7デフォルトの名無しさん
垢版 |
2024/08/18(日) 19:19:42.01ID:zbSOXgFa
https://learn.microsoft.com/ja-jp/cpp/build/reference/source-charset-set-source-character-set?view=msvc-170
https://learn.microsoft.com/ja-jp/cpp/build/reference/execution-charset-set-execution-character-set?view=msvc-170
8デフォルトの名無しさん
垢版 |
2024/08/20(火) 06:33:10.98ID:LmqpP+1d
UTF8は、BOMは、非推奨の意味は、
1)UTF8はBOMは法的には🈲
2)UTF8はBOMは私的には🈲
3)UTF8はBOMは使っても🆗
4)SHIFT JISにはBOMは使おう

きっと、3)だな
だってBOMっていきなり先頭バイト
からしてUTF8に存在しないよな?
てか、UTF8は🈲にして
UTF16ビッグエディアンのみ🆗とし
ポクの大好きな笑文字☺とかは
第四水準漢字を削除して笑文字に
割当なさーーーーーい。
てか、第3水準とか第2水準の
割当た場所ってグダグダで
変更は無理ぢゃーーーん。
てか、第四水準はスッキリした
とこに割当られてるし
ドンドンサロゲートは廃止し
第四の場所に絵文字🥳とか割り当てて

超新型UTF16 旧UTF16とは、
第四水準と絵文字以外は
相互に完璧互換性在るハズ

俺って極超々天才だろぉーーぅ
9デフォルトの名無しさん
垢版 |
2024/08/20(火) 13:55:10.92ID:7gW0oenX
v=RiMT0r8f8aY
2024/08/23(金) 22:33:12.33ID:MSi6WCPm
ASCII文字以外を使っているならアスキーアートではなく
シフトJISアートやユニコードアートと呼ぶべき
11デフォルトの名無しさん
垢版 |
2024/08/23(金) 23:11:16.91ID:2ix4xWvO
そんなの25年以上前の日本人に言えよ!
2024/08/23(金) 23:40:41.57ID:cmdpMWs7
ターミネーターの姉はターミネーちゃん
13デフォルトの名無しさん
垢版 |
2024/08/24(土) 01:25:39.89ID:Ou5o/VfJ
終端抵抗
2024/08/29(木) 08:02:28.17ID:xXLtcRNN
スレがターミネートしそうになってるやないかい!
15デフォルトの名無しさん
垢版 |
2024/08/30(金) 16:05:00.99ID:+R5e+PNr
もう丸囲み数字はやめようよ。
日本人はなんで打ちにくい①、②、③を書くのかな?

手間しかかからない。
2024/08/30(金) 16:58:48.30ID:G4y5i48u
>>15
かわりに何を書くの?
(1)って打って①に変換するんなら手間は一緒だと思うが
単に使ってる日本語入力環境の問題じゃね?
2024/08/30(金) 17:56:41.94ID:sr/ASeNj
数字の1を変換したら候補に①はあるから打ちにくいとは思わないな
18デフォルトの名無しさん
垢版 |
2024/08/31(土) 10:12:54.19ID:oPSFGvVw
毛頭はIIやIIIを好むけど同じ問題だな
19デフォルトの名無しさん
垢版 |
2024/08/31(土) 19:43:43.53ID:rCss6Stj
>>17
物理的なQueryキーの話じゃないぞ?
20デフォルトの名無しさん
垢版 |
2024/09/01(日) 05:48:48.48ID:NvwjG4ve
「いち」の変換の候補は、一、位置、市、イチ、一部、壱、1
、1、T、@ とかいろいろ、色とりどり、どれにしような
どれを使用しような。
てゆうーーか、「まるいち」って打ち込めば、丸一 だ
ま、「まるいち」って打ち込んでも、候補に@はでるが
単に、「いち」でも@が出てくる。てゆうか、
学習機能により、「いち」と打ち込むだけで
@が2番に出るようになった。ちなみに、第1候補は、
無変換である いち のままだ。学習機能ヤバイ。スゴい。ありえない
2120
垢版 |
2024/09/01(日) 05:51:10.12ID:NvwjG4ve
@が?に化けちゃってる。
@は使用🈲を推奨を、推奨しようよ
2024/09/01(日) 10:03:06.38ID:J4xaQJqz
25年以上前からUnicodeに含まれてる文字が化けるソフトを使用禁止にしろよ
2024/09/01(日) 13:23:41.75ID:iI4Ho9Ek
すまん5chで文字コードバグが起きてるんだがどういう事態になってんの?
2024/09/01(日) 14:36:43.89ID:MnUgJTxK
bugってるのは君の頭だ
2024/09/01(日) 15:05:05.84ID:MmIh9kGJ
>>23
直ったみたいだよ
ブラウザが変換・送信した数値文字参照をぶっ壊していた模様

サンプル
https://kes.5ch.net/test/read.cgi/operatex/1724088826/94-103n
https://greta.5ch.net/test/read.cgi/poverty/1725160810/
2024/09/01(日) 21:44:20.22ID:4u39F89u
「いち」なんて打たなくても「1」だけで良いんだけどな
27デフォルトの名無しさん
垢版 |
2024/09/02(月) 20:00:21.60ID:Mm7rASpk
UTF-8で見た目が同じものを二重に定義してしまった。

①~⑩までは昔からあるが、丸0と丸11以降を作り出してしまい、環境依存がさらに進んでいる。
28デフォルトの名無しさん
垢版 |
2024/09/02(月) 20:47:47.09ID:nqMgjBbq
IMEで変換する時に環境依存文字と出る文字は
CP932に無い文字ということ?
29デフォルトの名無しさん
垢版 |
2024/09/03(火) 16:12:49.13ID:/Ve5otW6
>@〜Iまでは昔からあるが、丸0と丸11以降を作り出してしまい

しかも文字コードで丸内数字の大小比較出来ないんだぜ
2024/09/04(水) 06:51:59.10ID:rihkE3nT
>>29
あれ、大小比較駄目なんだっけ?
31デフォルトの名無しさん
垢版 |
2024/09/05(木) 00:09:14.51ID:/oUqYYg3
大小比較は出来るけど連続性は全く出鱈目
しかもskipしてるし場所もバラバラ
2024/09/06(金) 03:04:08.53ID:MqTwQYNn
>>27
>環境依存
この場合の「環境」って何?
2024/09/07(土) 00:11:00.57ID:AfmpIPHK
今って皆Unicode環境じゃん
2024/09/07(土) 07:34:15.21ID:G5zNb7Sx
がフォントに全ての文字含まれているわけではない
2024/09/07(土) 16:32:15.98ID:8Mdqns08
今は標準のフォントで結構文字が入ってない?
そこにNotoあたりでも足せば... No Tofuというぐらいで
2024/09/08(日) 01:58:10.59ID:ZMDGTsRQ
市販の日本語フォントはProフォントでも Adobe-Japan1-7 にある文字どまりで2万3千文字程度
Noto も国ごと文字種ごとにファイル分割されているのでフォント切り替えないと全ての文字は表示できない(あと新しく追加された文字はない
いろいろ都合があって一つのフォントファイルに入れるのは最大でも6万字程度に抑えられてるのが実情
2024/09/08(日) 02:50:32.22ID:sAB3C2kg
なんでたまに中国の漢字が混ざるんかね
普通に使ってても混ざった事ないけど
2024/09/08(日) 05:25:42.70ID:JPjEWE8J
CJK統合漢字という黒歴史
中国が文句言ったせいで
2024/09/08(日) 05:27:48.50ID:vgBqrjWA
>>36
囲み文字の話だろこれ。無理に話広げんなっちゅーの
40デフォルトの名無しさん
垢版 |
2024/09/08(日) 06:41:46.56ID:VzCs41gF
文字列"c9" と"c10" 大小比較考察に、
数値9と10は、後者は、デカい有。さて
文字列のそれは、後者はデカく無アル?
てか、wind○wsは、ファイル名並替順は
ロジックは、意味は、ワカラン有る。
てか、豆腐文字□ぽぃのとか?はやめて、👻
に、豆腐文字ぽぃのは、統一してよ。
2024/09/08(日) 09:04:47.02ID:2kAAelOS
文字コードに国境がないと想像してみよう  そんなに難しいことじゃない
争いや宗教がなくなり  全世界の人が平和に暮らせる
僕のことを夢想家だと言うかもしれないね
2024/09/08(日) 09:41:19.87ID:KGpMdTK5
とんでとんでとんでとんで まわってまわってまわってまわる
2024/09/08(日) 10:09:45.56ID:kvPGcLQN
日本語のソートはJISコード順じゃないと使い物にならないから内部でUnicodeからJISに変換しているという本末転倒感。
2024/09/08(日) 15:01:05.20ID:AApwAY5I
何で今までと順番が違うんだとか言われても面倒だからね
文句言う連中は文字コード云々なんて知らないだろうし
2024/09/08(日) 16:55:41.96ID:kvPGcLQN
今までと違うとか言う以前に、Unicodeのコードポイント順に整列しても意味不明だしね。
はっきり言って使い物にならない。
2024/09/08(日) 19:11:11.78ID:We5vf4ux
Unicodeで数字とアルファベットはフォント違いや上付きや下付きの文字があって
丸囲みでもデザインの違いが何種類もあるよね
こういう装飾的な物は文字コードの方でやるのか
HTMLなどの別の規格でやるのかどっちがいいんだろうね
文字コードの方でやるとプレーンテキストでも
文を見やすくできるけど文字の検索がしづらくなるんだよね
2024/09/09(月) 00:03:34.55ID:7afCe/O3
>>46
最近は記号や絵文字とかまでを登録するようなってるので普通の文字じゃなかたりするのも多数ある
一見アラビア数字に見えても実際は飾り記号(dingbat)だったり数学記号(math symbol)だったりするのも多い
(フォント違いに見えるのは数学記号)
(同じ丸数字が複数あるように見えるのは修飾数字と飾り記号)
日本からだと全角数字とかフォントによって見かけだけ違うのもあるし
48デフォルトの名無しさん
垢版 |
2024/09/09(月) 18:01:55.88ID:XsanjNXu
>>37
日本語とはっきり設定していないから
2024/09/09(月) 18:21:03.10ID:zvC05GrM
そういやアップル圏のアプリの実装って
濁点半濁点付きの平仮名片仮名はちゃんと表示できてるの?
折り返し処理だとかそういう所で
50デフォルトの名無しさん
垢版 |
2024/09/10(火) 13:15:25.32ID:KGjTz1X0
アップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリ
2024/09/11(水) 22:23:26.91ID:3H08skAT
「Unicode 16.0」が公開 〜エジプト象形文字、レガシーコンピューティング記号を大量追加
5,185の新たな文字が追加。総計で154,998文字に
https://forest.watch.impress.co.jp/docs/news/1622857.html
2024/09/15(日) 16:25:59.88ID:FHCue4HF
Windows環境では〜記号が波ダッシュより全角チルダの方で普及しているからなのか
日本語フォントでもフォントによっては全角チルダは表示できても波ダッシュは表示できなくて
波ダッシュが指定したフォントにならないなんて事がある
2024/09/15(日) 17:44:02.92ID:sX///73B
>>52
駄目フォントじゃのぉ

全角チルダをちゃんとチルダっぽくして波ダッシュと全角チルダを見た目で区別つくようにして欲しいって言ったら
全角チルダを波ダッシュ代わりにしてるWindowsユーザーからクレームが来るから面倒って言われた記憶
2024/09/16(月) 01:40:24.33ID:oxExUg4f
>>51
キャラクタベースの画面でインベーダーやパックマンができるようになるのか、胸熱
2024/09/16(月) 01:40:40.50ID:oxExUg4f
しかしこのレガシーコンピューティングの部分の多角形とかって持ってるフォントある?
https://en.wikipedia.org/wiki/Symbols_for_Legacy_Computing

以前アプリを作ってた時にこの手のマークがあるなら是非使いたかったのだが
なさそうだったので自前でアイコンを作って表示した記憶が
2024/09/16(月) 12:43:55.30ID:nhODMZRh
>>54
キャラジェネなんか?
57デフォルトの名無しさん
垢版 |
2024/09/16(月) 15:24:54.46ID:KZuryTv7
無能な働き者の集まり
2024/09/28(土) 18:32:55.92ID:1d8NABxz
>>51
Game spritesやIconsのリファレンス元が知りたい

Symbols for Legacy Computing Supplement
ttps://www.unicode.org/charts/PDF/Unicode-16.0/U160-1CC00.pdf
2024/09/30(月) 10:07:18.32ID:4t7Lwjtc
>>58
インベーダーっぽいのは「ALIEN CRAB」(異星カニ)、パックマンっぽいのは
「SNAKE」(ヘビ)等、固有名を避けあくまでも一般的なものとして逃げようとする
姿勢が見える
60デフォルトの名無しさん
垢版 |
2024/10/02(水) 19:07:49.51ID:C0WilfCa
ソリッドスネーク
2024/10/05(土) 09:08:51.82ID:WFnL/JH1
ソリッドステートサバイバー + スネークマンショー
2024/10/06(日) 11:23:06.85ID:BDyILJJL
なんつーか、PCGだなあ。
今更だけど。
2024/10/06(日) 17:40:48.86ID:ALnpv1f2
横1列のドットパターンでコード割り当てて
合成も拡張して縦に並べられるとええかも
2024/10/10(木) 12:19:57.72ID:bwO1aVtU
YMOと描いてイモと読む
2024/10/13(日) 00:25:25.74ID:VNPRmq36
YMO欽トリオ... テクノな曲あったよな
66デフォルトの名無しさん
垢版 |
2024/11/08(金) 16:40:13.45ID:M93pzeOZ
「U+〜」の表記法って正式な名称ないの?「Short Identifier」?
2024/11/08(金) 17:06:55.65ID:TFeZf1kn
https://www.unicode.org/versions/Unicode16.0.0/core-spec/appendix-a/#G12668
ないんでコードポイント表記とか
68デフォルトの名無しさん
垢版 |
2024/11/08(金) 18:20:23.07ID:y8v+DuF6
>>66
そもそもUTF-8はその表記が正式な表記だから、表記の名称が存在しない。
2024/11/09(土) 19:37:18.98ID:otPYdJdQ
天皇に名字がないようのなものか? って違うか
2024/11/09(土) 20:43:59.20ID:UMsfYHki
回答ありがとう。表記法や表現自体には特には名前ないんか。

正規表現のグループに名前を付けようとして
「(?<UnicodeCodePoint>(?<Prefix>U\+)(?<Hex>[0-9A-F]{4,6}))」
みたいにしたんだけど、
「U+HHHH」全体をコードポイントって呼んでいいのか、
「HHHH」部分だけがコードポイントと呼べるものなのか、
っていう疑問が湧いたんだよね。
調べたらすぐ分かるかと思ったら全然分からなくてモヤモヤしてた。
2024/11/09(土) 23:09:52.15ID:OjNPz0/0
>>70
xxxx がコードポイント(code point)
U+xxxx がコードポイント表記 (code point notation)
とかで良いんじゃね
知らんけど
2024/11/09(土) 23:59:10.46ID:aDTWwhb+
0xBEEFとBEEFは表現は違うけどどちらも16進表記で指してる値は同じ
10進表記の48879も同じ値を指す
Unicodeのコードポイントってのは値を指してる
だからなんやねんだけど
73デフォルトの名無しさん
垢版 |
2024/11/10(日) 02:50:29.80ID:NcxfIIMm
>>70
「U+」の部分はUTF-8だという意味
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況