X

文字コード総合スレ part13

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
2021/09/20(月) 18:04:52.52ID:MIWZTagi
>>183
>フォントだけなんだから
そいつはどうかな
2021/09/20(月) 18:13:01.74ID:onLWFfgA
ふぉんとだよ
186デフォルトの名無しさん
垢版 |
2021/09/21(火) 01:32:25.68ID:4TsmTrOH
うっそぴょん
2021/09/21(火) 01:32:42.06ID:uT0Ufo0J
そういやandroidはフォント入れ替えたり足したりできないのかな?
2021/09/21(火) 15:56:07.39ID:9G4WCotR
どう思う?
2021/09/23(木) 14:38:45.46ID:+1CY5Q9Y
おれのMeiryo UIを見てくれ
どう思う?
2021/09/23(木) 17:05:48.69ID:d3rXCYAz
時代はYu Gothic UIだろjk
2021/09/23(木) 17:17:37.59ID:s356ZNcw
字形なんて個人の好みに過ぎんよそでやれ( 文字コード原理主義)
2021/09/23(木) 17:59:26.01ID:cmFu96z6
そそ
僕らは直が線対称だったり刃が切れなそうだったり反がハーイしそうでも気にならんよな?
2021/09/23(木) 18:01:40.49ID:73nshz3+
さすがにそれは字体の違いじゃすまん
2021/09/23(木) 18:29:00.18ID:HaJtCNmP
>>192
CJK 漢字統合の悪い後遺症なんですが、なんで CJK 漢字統合とかやってしまったの?
2021/09/23(木) 20:01:43.64ID:J2CwG+Vn
でも統合しなかったらしなかったで
「見た目同じだけど検索に引っかからない文字」
がOCRとか素人入力とかで大量に使われてそれはそれでアレだったんだろうなあ
2021/09/23(木) 20:51:24.74ID:8jxjFHXd
>>194
黄色い猿の使ってる文字の区別なんかできねーよ
ということだろう
197デフォルトの名無しさん
垢版 |
2021/09/23(木) 21:13:39.76ID:c1RLqe4u
漢字をあいまい検索するなら同義文字のデータベースを別途用意するのが正しい
CJK漢字統合では中途半端
バイオリンとヴァイオリンのように漢字に限らない問題だし
2021/09/23(木) 23:40:21.82ID:aPMb+uTW
正しいのはわかるが未だに
サンプル
サンプル
みたいなのさえ余裕で同一視してくれないやつ多いしなあ
統合なしだと現状と同レベルの利便性は特別な投資をしないと享受できないものになってた気がするんだよな
199デフォルトの名無しさん
垢版 |
2021/09/23(木) 23:47:24.09ID:8jxjFHXd
プとふ゜を同一視しろと言われてもなあ
200デフォルトの名無しさん
垢版 |
2021/09/24(金) 01:03:35.59ID:VG+rYv0i
ジャパニーズ絵文字をユニコードに入れまくったのは性犯罪と言える。
反省せよ!
2021/09/24(金) 02:32:55.61ID:LQ0rd/n8
>>194
CJK別にすると16bitに収まらなかったから

けどそんなことはもう問題になってない
32bitで扱わないといけないのみんな知ってるし
外部表現はUTF-8だし
2021/09/24(金) 02:35:08.29ID:LQ0rd/n8
>>195
そういう目的のためにCJK統合されたわけじゃない
だから役には立たない
そもそも新字旧字さえ同一文字とみなさないCJK統合文字の同一視を嬉しい奴なんか居ない
2021/09/24(金) 02:38:51.59ID:LQ0rd/n8
>>200
世界統一基準のルールでやろうとすると実績ベースでやるしかない
Gmailの中の人が日本のキャリア携帯メールの絵文字対応する時に
Google独自の他社非互換の対応をするのではなくて標準に入れたのは英断
数千万人が使ってる文字の流通基盤作った
204デフォルトの名無しさん
垢版 |
2021/09/24(金) 04:12:12.52ID:xJSRWXwX
ヴィトンとゔぃとんをあいまい検索で同キーワード扱いするにはMecabのような分かちライブラリが必要になる
2021/09/24(金) 04:21:14.03ID:xJSRWXwX
Mecab用の新語辞書mecab-ipadic-NEologdの更新が2020年9月で止まってる
https://github.com/neologd/mecab-ipadic-neologd
2021/09/24(金) 07:16:32.42ID:LQ0rd/n8
>>205
Twitterも止まってるな
2021/09/24(金) 08:15:48.08ID:QlX8c1rH
システムが英語設定のときに日本語を表示させると、中国語の字形で表示される
ことが多い気がする。Google先生に日本語の漢字を入力して検索しても、中国語の記事が
優先して出てくるような。
これはどういうことなんだ....
2021/09/24(金) 09:53:35.98ID:IHKg493W
前半について言えば、日本語環境以外では中文フォントが優先利用されるようになっているからだろう。
209デフォルトの名無しさん
垢版 |
2021/09/24(金) 11:31:16.82ID:xJSRWXwX
中国人が天安門事件についてググりやすくするための配慮だろjk
2021/10/01(金) 00:29:21.14ID:hXpOAmOJ
中国語って言っても繁体字でしょ?
フォールバック先としては適切では?
2021/10/01(金) 00:46:14.94ID:x0Z9nVhd
「直」とかが明らかに日中で形が違うのに同じコードポイントなのが問題で、誤字にしか見えない
許容範囲は「今」くらいまで
2021/10/01(金) 01:14:25.98ID:C9iYF2oS
もはや「安」と「あ」を同じ文字だって言ってるレベルだもんな
2021/10/01(金) 01:18:55.05ID:KGbDCwUx
形の問題で論じるとaとかgとかのバリエーションと同列の「字形が違うだけ」になってしまうような
2021/10/01(金) 01:50:49.08ID:q6100VNR
>>210
簡体字だけど
2021/10/01(金) 02:22:30.83ID:Sv6vlKr2
泣いた
2021/10/02(土) 00:21:19.15ID:mWEaacyi
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。
2021/10/02(土) 03:12:57.27ID:AUpOKXgX
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。
2021/10/02(土) 15:31:50.03ID:a5sjMDOS
>>217
お前の先祖が字をちゃんと覚えて無かっただけだろが
と言ってやりたい
2021/10/02(土) 15:59:11.18ID:Sj1tG4Pu
先祖が字をちゃんと書かなかったせい
220デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:02:15.81ID:lWVjrMOX
だいたいの人の先祖は読み書きできないと思うが
2021/10/02(土) 16:28:43.87ID:qz0ghb/n
>>216
CJK統合が困るならサロゲートペアを使いなさい
2021/10/02(土) 16:30:41.53ID:qz0ghb/n
>>216>>217
異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから
2021/10/02(土) 16:36:36.22ID:qz0ghb/n
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
 かちょう
 がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ
2021/10/02(土) 16:40:36.25ID:qz0ghb/n
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから
2021/10/02(土) 17:54:38.90ID:9xd0my2s
>>221
どゆこと?
サロゲートペアでCJKの字形の使い分けができるってこと?
2021/10/02(土) 18:15:27.71ID:bUVac9NO
異体字セレクタ
https://ja.m.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF#:~:text=%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF%20(%E8%8B%B1%3A%20Variation,(%E9%81%B8%E6%8A%9E%E5%AD%90)%20%E3%81%A7%E3%81%82%E3%82%8B%E3%80%82
227デフォルトの名無しさん
垢版 |
2021/10/02(土) 21:51:21.36ID:0KUEFcg9
>>224
「かな漢字変換」ならぬ「漢字カナ変換」を開発ωして
年金情報ぶっ壊したのが厚生省ωω
2021/10/03(日) 01:40:13.18ID:7qrVNqxk
>>226
現状では言語によって異なる異体字 (図参照) のようなケースを異体字セレクタで区別することができない。

って書いてあるけど?
2021/10/03(日) 01:55:19.75ID:yBYg2wfE
IPAの発音記号あたり、中途半端に特定の文字だけ専用に用意するよりIPA専用記号として全部一式きれいに揃えたほうがわかりやすいんじゃないかって思うわ
どこまで普通のラテンを使っていいのか直感的じゃなさすぎてつらい
2021/10/14(木) 22:08:20.62ID:4U8G8uJ7
IJ
2021/10/22(金) 23:13:01.81ID:dHIUrNpa
IEコンポーネントブラウザだと絵文字は基本的に白黒で表示されるイメージだったけど、
一部の絵文字はフルカラーになるのね。何が違うんだろう?
なんとなく、追加時期が新しいものがフルカラーになってそうなイメージ。

Unicode 6 😂
Unicode 7 🙂
Unicode 8 🤗
Unicode 9 🤧
Unicode 10 🤮
Unicode 11 🥺
Unicode 12 🥱
Unicode 13 🥲
2021/10/22(金) 23:14:04.66ID:dHIUrNpa
>>231だと7まで白黒で8からフルカラーに見える
2021/10/23(土) 00:04:46.92ID:pYmoDx9D
8以降は別のフォントが読み込まれてるんじゃないの
234デフォルトの名無しさん
垢版 |
2021/10/23(土) 03:09:26.59ID:3m3aWUug
>>231
こっちではこう表示されているよ。Windows10のPCでjaneStyleで見ている。
https://imgur.com/McdjAOh
2021/10/23(土) 03:14:44.86ID:3m3aWUug
Chrome ブラウザだと顔文字が出るな。フルカラー。スマホの Android の ChMate でも同じ。
但しPCの方は Unicode 13 が□で出ている。インストールされているフォントの問題かな。
2021/10/23(土) 06:25:40.37ID:fIXVDCqg
フォントとフォントのレンダリングライブラリ(含Unicodeの処理)的な
2021/10/23(土) 07:17:11.28ID:TpylJdXD
>>231
PC版Firefox 93、PaleMoonだとおk、
古いFirefox45だとコード番号のある□
PC版Chrome、Edge、絵文字プラグインを入れたJaneStyleだと、Unicode 13(一番下)は□

Edgeがダメとか、MS終わってるだろw

ちなみに、この文字はこれな
🥲 Smiling Face with Tear Emoji
https://emojipedia.org/smiling-face-with-tear/
2021/10/23(土) 07:20:35.53ID:TpylJdXD
>>237
全部Unicode 13(>>231 一番下)の文字の話ね
2021/10/23(土) 07:39:19.42ID:TpylJdXD
Firefox系では、TwemojiMozilla.ttf というフォントファイルで表示しているようだ
古いFirefoxにもこれをインストールしたら表示できたけど、その他は相変わらずダメだった
何か他の要因があるのか?
2021/10/23(土) 16:38:57.04ID:fIXVDCqg
>>236 および >>231 で表示できてる≒そのUnicodeバージョンに対応している
で説明できる感じ?
2021/10/23(土) 18:50:50.60ID:YfcjxJKz
昔はEmojiOneMozilla.ttfだったのに
2021/10/23(土) 20:05:42.90ID:Ur/BzH1F
IEってかTridentは今後どうなるんだろう
新絵文字対応は更新され続けるのかな
2021/10/24(日) 10:33:30.12ID:R+G/mjzT
>>237
フォント指定したらwin10 edgeでもちゃんと表示できてるぞ
文字コードスレなんだからそのくらい試そうぜ
2021/10/24(日) 19:01:46.47ID:ZXfUijH1
今は正しいフォントを指定してない場合にも表示可能なフォントがあれば自動で代替フォントで
表示するようになってるのが多いけどね。Win 10の特定のアプリ/APIでは違うということかな。
2021/10/24(日) 19:26:38.50ID:kICQ0wde
win10でもフォールバックするけど
2021/10/24(日) 20:49:14.92ID:ZnySbBud
絵文字系のフォントを指定すれば表示できたとしても
普通の文字はどうするんだ、ということになるな
2021/10/24(日) 23:53:02.47ID:W7UJj/SL
フォールバックするんやろ(適当
2021/10/28(木) 01:13:38.65ID:IGQz8dMU
Ken先生は8月付けでApple所属になったのか
2021/10/28(木) 09:40:10.38ID:fzg5+Gzi
ほんとだ、フォントデベロッパーって(別にシャレのつもりはない)

まあフォントのデザイナーではないだろうから、Notoみたいに各言語のグリフが統合されたような
フォントセットを作るぞーとかそんなノリ?
2021/10/28(木) 12:07:23.11ID:5qBTDTYf
Windows11 で(一部の)設定ファイル等が BOM無しUTF-8に変わったみたいな話が聞こえてきてるけど、文字コードまわりはどんな感じ?
お前のマシンは古すぎるので11は無理っていわれて試せないので誰か教えて。
2021/10/28(木) 14:22:37.40ID:nHrB5pfo
\rもなくしてホスィ…
252デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:32:18.28ID:cISpGEYl
\rはPowerShellの複数行コマンド履歴を履歴ファイルConsoleHost_history.txtに保持するために必要だよ
ConsoleHost_history.txtはWindows10でもBOM無しUTF-8だよ
Powershellを開いて explorer /select,(Get-PSReadLineOption).HistorySavePath で見つかるはず
253デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:40:01.21ID:cISpGEYl
厳密に言うと、(Get-PSReadLineOption).HistorySavePathでは普通の改行は\r\nで複数行にまたがる時に\nが使われている
\rがあればこそできる使い分け
2021/10/28(木) 14:45:59.31ID:nkWZEQ1o
ConsoleHost_history.txt は CRLF だったが
\r を無くせってのは単独の CR を無くせって意味か?
2021/10/28(木) 18:48:48.50ID:iKzNpht3
ネットワークプロトコルの世界ではCRLF(\r\n)だから、
改行コードが統一されることはないだろうな
2021/10/29(金) 19:45:33.13ID:NPFwBT43
>>254
単独のやつはいらんな
257デフォルトの名無しさん
垢版 |
2021/10/30(土) 01:27:33.12ID:Bi05tLLs
モニいう組文字がすっかり今までと違う使われ方されるようになったンだわ
258デフォルトの名無しさん
垢版 |
2021/10/30(土) 10:06:13.76ID:gRDEN/XN
K.駆け落ち
K.結婚
259デフォルトの名無しさん
垢版 |
2021/10/30(土) 16:30:56.75ID:YeKnQdw3
糞フェミ
きめえ
260デフォルトの名無しさん
垢版 |
2021/10/31(日) 13:55:05.18ID:sRnAlDBM
「ヒモを育てる」(紐育)と書いてニューヨークと読む
2021/11/01(月) 02:13:53.02ID:3svUgfPn
夜露死苦は夜の露は死ぬほど苦しいという意味
2021/11/02(火) 00:54:58.45ID:7U+acwnO
辛苦了
2021/11/02(火) 20:43:57.92ID:k6b2gzuo
ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表
https://www.itmedia.co.jp/news/articles/2111/02/news155.html
2021/11/07(日) 14:55:37.70ID:XJB+ymj6
test
[🏳‍🌈] F09F8FB3 EFB88F E2808D F09F8C88 (Rainbow Flag)
[🏳] F09F8FB3 (U+1F3F3 Flag)
[VS-16] EFB88F (U+FE0F Variation Selector)
[ZWJ] E2808D (U+200D ZERO Width Joiner)
[🌈] F09F8C88 (U+1F308 Rainbow)
2021/11/07(日) 15:09:59.30ID:IVg5lqh1
>>263
winny や share で exe ファイルを踏ませるために共有するファイルのファイル名に小細工をするやり方として10年前には流行っていたやり方ですね
パクリ論文もいいところ、ケンブリッジも堕ちたものですねえ…
266デフォルトの名無しさん
垢版 |
2021/11/10(水) 09:56:00.72ID:1JI+/RUQ
堕ちたのは査読者
2021/11/10(水) 10:33:35.74ID:53ZSdClf
具体的な手法が各言語にはどのように適用できて、どのエディターが是弱で、どのエディターが対策できてるか、とかはちゃんとした研究だと思うが?
ニュース記事とかはどこが新規なのか曖昧にして、注目を集めたりするので中身を追いかけないと。
268デフォルトの名無しさん
垢版 |
2021/11/10(水) 11:33:12.67ID:W6E9JaGo
UTF7
269デフォルトの名無しさん
垢版 |
2021/11/22(月) 12:06:32.94ID:axkd8Lua
初めて正しい情報に遭遇した気がする
https://onihusube.hatenaぶろぐ.com/entry/2020/04/03/211442
270デフォルトの名無しさん
垢版 |
2021/12/03(金) 02:21:47.01ID:SD21SyVf
Mecab用の新語辞書mecab-ipadic-NEologdを使ってるンだが、mecabコマンドを-Oyomi オプションつきで呼ぶと、komuroが「コームロコーポレーション」に変換されて困るンだわ
271デフォルトの名無しさん
垢版 |
2021/12/03(金) 02:35:02.96ID:SD21SyVf
komuroが以下のように解析されてしまうンだわ

ko 名詞,固有名詞,人名,一般,*,*,ko,コー,コー
muro 名詞,固有名詞,組織,*,*,*,ムロコーポレーション,ムロコーポレーション,ムロコーポレーション
2021/12/05(日) 20:59:02.28ID:0Vo7DxQV
Regional Indicator (国旗絵文字)
https://ufcpp.net/blog/2021/12/regional-indicator/
2021/12/08(水) 09:58:49.76ID:UtSp9Lmv
>>271
辞書を自分で編集したらいいんじゃないの?
274デフォルトの名無しさん
垢版 |
2021/12/09(木) 05:57:45.36ID:FYdAx32Z
>>273
無論、英語力は話すまでもない
とっくにしてるンだわ
komuroのほかにもC++のキーワード「iostream」が「ioストリーム」と変換されたりとか色々厄介なンだわ
2021/12/09(木) 17:55:46.28ID:avLi8yHB
それって文字コード関係あるの?
276デフォルトの名無しさん
垢版 |
2021/12/13(月) 16:15:10.59ID:7UKqmZkl
フォルダを意味する絵文字とファイルを意味する絵文字があれば味気ないlsコマンドが少しはにぎやかになると思うんだ
2021/12/13(月) 17:26:54.96ID:6Y8EqgkQ
>>276
コマンドラインの出力に emoji 使うのは迷惑極まるのでやめろ。そんなやつは素直にGUIでも使ってろ。
2021/12/13(月) 19:51:50.85ID:KrL9uSXh
最近は絵文字使うコマンドラインツールが増えてきた気がする。特にmac
確かに見やすいし仮に表示できなくても豆腐が見えるだけだし別にいいんじゃね
Net-Unicode規格?に従ってるかはよくわからん
2021/12/13(月) 21:15:32.31ID:2mlv93aV
📁
📂
2021/12/13(月) 22:52:29.78ID:RcHUWzLT
ふと気付いたが豆腐そのものの絵文字ってないんだな

グリフがない文字の通称、あるいはtofu on fireと、豆腐と文字コードは縁が深いのに
281デフォルトの名無しさん
垢版 |
2021/12/14(火) 02:29:21.85ID:5jyEPH53
ANSI Colorによる強調を使わずに絵文字による強調を使うのが主流になっていきそうな気がするよ
例えば、ビルドログのエラーをパイプリダイレクト先でも強調したい時に気軽に使える
⛔ build failed
282デフォルトの名無しさん
垢版 |
2021/12/14(火) 02:46:27.66ID:5jyEPH53
以下の文字は、とりあえず色付き絵文字で注目させたい時に使えそう
🔴 🔵 🔶 🔷 🔸 🔹 🟠 🟡 🟢 🟣 🟤 🟥 🟦 🟧 🟨 🟩 🟪 🟫
2021/12/14(火) 08:38:06.25ID:W8qbVS9S
>>280
notoは名前変えなきゃいけなくなるじゃん
■ このスレッドは過去ログ倉庫に格納されています