文字コード総合スレ part13

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
2021/09/17(金) 18:24:50.47ID:EkFg3TOf
誰かぽげむたマーク申請して
156デフォルトの名無しさん
垢版 |
2021/09/17(金) 19:45:51.29ID:dA6826ix
ぽげむたびげなみょ〜ん
2021/09/17(金) 19:51:42.61ID:RINTXLOW
がびんちょんぶー
158デフォルトの名無しさん
垢版 |
2021/09/17(金) 20:31:32.36ID:inv44Tua
わ行は
ゐゑ
ヰヱ

や行のエ?
イとエの合体ってどんな字?
2021/09/17(金) 20:59:29.69ID:MfIJx2+6
これかな
https://www.unicode.org/charts/PDF/Unicode-14.0/U140-1B100.pdf
160デフォルトの名無しさん
垢版 |
2021/09/17(金) 21:25:09.08ID:inv44Tua
ああ変態仮名か
thx
2021/09/18(土) 03:29:09.72ID:8cCB5H0x
いや変体仮名と同じKana Extended-Aに押し込まれただけであって変体仮名扱いではない
主流の文字と重複した仮名のことを変体仮名って言ってるわけだから
既登録のやつとかぶってないYI/YE/WUはただの仮名
2021/09/18(土) 05:02:10.93ID:IGDtXFiL
越後とか会津あたりの、いとえが混ざった奴を表す平仮名はないの?
鉛筆がインピツになったり駅がイキになったりするやつ
2021/09/18(土) 06:03:15.06ID:iNoegsL2
変態かな?
2021/09/18(土) 08:20:39.84ID:HKX409mh
WU は見たことあるけどカタカナの YE とか YI って実例があるんだろうか? どの漢字由来か見当がつかない。
2021/09/18(土) 09:10:43.24ID:KkDV+CVs
昔の文献
2021/09/18(土) 09:48:46.78ID:owvkbREO
Hentaiganaとはちゃんと区別されてHistoric Hiragana/Katakanaなんだな。
2021/09/18(土) 11:27:32.09ID:urB35OC7
Wikipediaによると片仮名のヤ行イは「以」に由来、ヤ行エは「延」に由来するらしい。
ヤ行エは現代のエと同じ、ア行の方が違う形でU+1B000の「衣」に由来する字としてた事もあるらしい。
平仮名のヤ行イは「以」を崩した字でU+1B006,HENTAIGANA LETTER I-1と統合っぽい。
2021/09/18(土) 18:15:34.30ID:7WQTbyfT
ARCHAICでは?
2021/09/18(土) 18:18:20.29ID:7WQTbyfT
歴史文脈以外での使い方を考えよう

ウェーイ → ヱーイ
みたいに
イエーイに使えるか?
2021/09/18(土) 19:00:28.80ID:9jLHXaUE
高島忠夫のはそっちかな
2021/09/18(土) 20:03:19.72ID:0hOLMEcn
誰か今のうちに使っといて
172デフォルトの名無しさん
垢版 |
2021/09/19(日) 13:02:22.99ID:/yxUr6Cy
恵比寿

恵比須
蛭子


どれが由来だろう
2021/09/20(月) 02:00:22.59ID:9dkY59At
変体仮名が思うより変態で感心した。
私はくせ字だが日記を始め手書きも多く残すつもりだから、
遠い未来に自分のくせ字がひとつでも加わればこれ以上ない喜びだな。
2021/09/20(月) 05:18:24.33ID:N9cWHXdB
元字が同じただの癖字じゃ無理だろw

それより慶応を广K广Oと書くようなやつのほうがよっぽど収録しがいがある
2021/09/20(月) 06:31:16.91ID:cwn/oiro
广マ法とか?
2021/09/20(月) 06:32:35.49ID:onLWFfgA
W
x
Y
2021/09/20(月) 10:07:43.39ID:z7blcdQn
葬祭の下側がアルファベットになってて


死 タヌ
SO SAI

みたいなやつを見かけたことがあるんだけど
これもう文字じゃなくてロゴタイプじゃねと思った
178デフォルトの名無しさん
垢版 |
2021/09/20(月) 10:08:04.72ID:rmuhdvcF
OK狭間
2021/09/20(月) 16:33:01.86ID:MIWZTagi
あ𛀙よろし
生𛁛𛂦゙
2021/09/20(月) 17:25:19.97ID:fWw3zdgc
びろーん🏴󠁪󠁰󠀱󠀴󠁿
181デフォルトの名無しさん
垢版 |
2021/09/20(月) 17:32:48.55ID:WNFThOB/
??
182デフォルトの名無しさん
垢版 |
2021/09/20(月) 17:33:17.54ID:WNFThOB/
😀
2021/09/20(月) 17:40:06.38ID:59l0WUiK
新しい絵文字出てもAndroidのバージョン古いと見れないのつらいわー
フォントだけなんだから絵文字だけ別枠で配信してくれないかしら
2021/09/20(月) 18:04:52.52ID:MIWZTagi
>>183
>フォントだけなんだから
そいつはどうかな
2021/09/20(月) 18:13:01.74ID:onLWFfgA
ふぉんとだよ
186デフォルトの名無しさん
垢版 |
2021/09/21(火) 01:32:25.68ID:4TsmTrOH
うっそぴょん
2021/09/21(火) 01:32:42.06ID:uT0Ufo0J
そういやandroidはフォント入れ替えたり足したりできないのかな?
2021/09/21(火) 15:56:07.39ID:9G4WCotR
どう思う?
2021/09/23(木) 14:38:45.46ID:+1CY5Q9Y
おれのMeiryo UIを見てくれ
どう思う?
2021/09/23(木) 17:05:48.69ID:d3rXCYAz
時代はYu Gothic UIだろjk
2021/09/23(木) 17:17:37.59ID:s356ZNcw
字形なんて個人の好みに過ぎんよそでやれ( 文字コード原理主義)
2021/09/23(木) 17:59:26.01ID:cmFu96z6
そそ
僕らは直が線対称だったり刃が切れなそうだったり反がハーイしそうでも気にならんよな?
2021/09/23(木) 18:01:40.49ID:73nshz3+
さすがにそれは字体の違いじゃすまん
2021/09/23(木) 18:29:00.18ID:HaJtCNmP
>>192
CJK 漢字統合の悪い後遺症なんですが、なんで CJK 漢字統合とかやってしまったの?
2021/09/23(木) 20:01:43.64ID:J2CwG+Vn
でも統合しなかったらしなかったで
「見た目同じだけど検索に引っかからない文字」
がOCRとか素人入力とかで大量に使われてそれはそれでアレだったんだろうなあ
2021/09/23(木) 20:51:24.74ID:8jxjFHXd
>>194
黄色い猿の使ってる文字の区別なんかできねーよ
ということだろう
197デフォルトの名無しさん
垢版 |
2021/09/23(木) 21:13:39.76ID:c1RLqe4u
漢字をあいまい検索するなら同義文字のデータベースを別途用意するのが正しい
CJK漢字統合では中途半端
バイオリンとヴァイオリンのように漢字に限らない問題だし
2021/09/23(木) 23:40:21.82ID:aPMb+uTW
正しいのはわかるが未だに
サンプル
サンプル
みたいなのさえ余裕で同一視してくれないやつ多いしなあ
統合なしだと現状と同レベルの利便性は特別な投資をしないと享受できないものになってた気がするんだよな
199デフォルトの名無しさん
垢版 |
2021/09/23(木) 23:47:24.09ID:8jxjFHXd
プとふ゜を同一視しろと言われてもなあ
200デフォルトの名無しさん
垢版 |
2021/09/24(金) 01:03:35.59ID:VG+rYv0i
ジャパニーズ絵文字をユニコードに入れまくったのは性犯罪と言える。
反省せよ!
2021/09/24(金) 02:32:55.61ID:LQ0rd/n8
>>194
CJK別にすると16bitに収まらなかったから

けどそんなことはもう問題になってない
32bitで扱わないといけないのみんな知ってるし
外部表現はUTF-8だし
2021/09/24(金) 02:35:08.29ID:LQ0rd/n8
>>195
そういう目的のためにCJK統合されたわけじゃない
だから役には立たない
そもそも新字旧字さえ同一文字とみなさないCJK統合文字の同一視を嬉しい奴なんか居ない
2021/09/24(金) 02:38:51.59ID:LQ0rd/n8
>>200
世界統一基準のルールでやろうとすると実績ベースでやるしかない
Gmailの中の人が日本のキャリア携帯メールの絵文字対応する時に
Google独自の他社非互換の対応をするのではなくて標準に入れたのは英断
数千万人が使ってる文字の流通基盤作った
204デフォルトの名無しさん
垢版 |
2021/09/24(金) 04:12:12.52ID:xJSRWXwX
ヴィトンとゔぃとんをあいまい検索で同キーワード扱いするにはMecabのような分かちライブラリが必要になる
2021/09/24(金) 04:21:14.03ID:xJSRWXwX
Mecab用の新語辞書mecab-ipadic-NEologdの更新が2020年9月で止まってる
https://github.com/neologd/mecab-ipadic-neologd
2021/09/24(金) 07:16:32.42ID:LQ0rd/n8
>>205
Twitterも止まってるな
2021/09/24(金) 08:15:48.08ID:QlX8c1rH
システムが英語設定のときに日本語を表示させると、中国語の字形で表示される
ことが多い気がする。Google先生に日本語の漢字を入力して検索しても、中国語の記事が
優先して出てくるような。
これはどういうことなんだ....
2021/09/24(金) 09:53:35.98ID:IHKg493W
前半について言えば、日本語環境以外では中文フォントが優先利用されるようになっているからだろう。
209デフォルトの名無しさん
垢版 |
2021/09/24(金) 11:31:16.82ID:xJSRWXwX
中国人が天安門事件についてググりやすくするための配慮だろjk
2021/10/01(金) 00:29:21.14ID:hXpOAmOJ
中国語って言っても繁体字でしょ?
フォールバック先としては適切では?
2021/10/01(金) 00:46:14.94ID:x0Z9nVhd
「直」とかが明らかに日中で形が違うのに同じコードポイントなのが問題で、誤字にしか見えない
許容範囲は「今」くらいまで
2021/10/01(金) 01:14:25.98ID:C9iYF2oS
もはや「安」と「あ」を同じ文字だって言ってるレベルだもんな
2021/10/01(金) 01:18:55.05ID:KGbDCwUx
形の問題で論じるとaとかgとかのバリエーションと同列の「字形が違うだけ」になってしまうような
2021/10/01(金) 01:50:49.08ID:q6100VNR
>>210
簡体字だけど
2021/10/01(金) 02:22:30.83ID:Sv6vlKr2
泣いた
2021/10/02(土) 00:21:19.15ID:mWEaacyi
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。
2021/10/02(土) 03:12:57.27ID:AUpOKXgX
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。
2021/10/02(土) 15:31:50.03ID:a5sjMDOS
>>217
お前の先祖が字をちゃんと覚えて無かっただけだろが
と言ってやりたい
2021/10/02(土) 15:59:11.18ID:Sj1tG4Pu
先祖が字をちゃんと書かなかったせい
220デフォルトの名無しさん
垢版 |
2021/10/02(土) 16:02:15.81ID:lWVjrMOX
だいたいの人の先祖は読み書きできないと思うが
2021/10/02(土) 16:28:43.87ID:qz0ghb/n
>>216
CJK統合が困るならサロゲートペアを使いなさい
2021/10/02(土) 16:30:41.53ID:qz0ghb/n
>>216>>217
異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから
2021/10/02(土) 16:36:36.22ID:qz0ghb/n
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
 かちょう
 がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ
2021/10/02(土) 16:40:36.25ID:qz0ghb/n
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから
2021/10/02(土) 17:54:38.90ID:9xd0my2s
>>221
どゆこと?
サロゲートペアでCJKの字形の使い分けができるってこと?
2021/10/02(土) 18:15:27.71ID:bUVac9NO
異体字セレクタ
https://ja.m.wikipedia.org/wiki/%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF#:~:text=%E7%95%B0%E4%BD%93%E5%AD%97%E3%82%BB%E3%83%AC%E3%82%AF%E3%82%BF%20(%E8%8B%B1%3A%20Variation,(%E9%81%B8%E6%8A%9E%E5%AD%90)%20%E3%81%A7%E3%81%82%E3%82%8B%E3%80%82
227デフォルトの名無しさん
垢版 |
2021/10/02(土) 21:51:21.36ID:0KUEFcg9
>>224
「かな漢字変換」ならぬ「漢字カナ変換」を開発ωして
年金情報ぶっ壊したのが厚生省ωω
2021/10/03(日) 01:40:13.18ID:7qrVNqxk
>>226
現状では言語によって異なる異体字 (図参照) のようなケースを異体字セレクタで区別することができない。

って書いてあるけど?
2021/10/03(日) 01:55:19.75ID:yBYg2wfE
IPAの発音記号あたり、中途半端に特定の文字だけ専用に用意するよりIPA専用記号として全部一式きれいに揃えたほうがわかりやすいんじゃないかって思うわ
どこまで普通のラテンを使っていいのか直感的じゃなさすぎてつらい
2021/10/14(木) 22:08:20.62ID:4U8G8uJ7
IJ
2021/10/22(金) 23:13:01.81ID:dHIUrNpa
IEコンポーネントブラウザだと絵文字は基本的に白黒で表示されるイメージだったけど、
一部の絵文字はフルカラーになるのね。何が違うんだろう?
なんとなく、追加時期が新しいものがフルカラーになってそうなイメージ。

Unicode 6 😂
Unicode 7 🙂
Unicode 8 🤗
Unicode 9 🤧
Unicode 10 🤮
Unicode 11 🥺
Unicode 12 🥱
Unicode 13 🥲
2021/10/22(金) 23:14:04.66ID:dHIUrNpa
>>231だと7まで白黒で8からフルカラーに見える
2021/10/23(土) 00:04:46.92ID:pYmoDx9D
8以降は別のフォントが読み込まれてるんじゃないの
234デフォルトの名無しさん
垢版 |
2021/10/23(土) 03:09:26.59ID:3m3aWUug
>>231
こっちではこう表示されているよ。Windows10のPCでjaneStyleで見ている。
https://imgur.com/McdjAOh
2021/10/23(土) 03:14:44.86ID:3m3aWUug
Chrome ブラウザだと顔文字が出るな。フルカラー。スマホの Android の ChMate でも同じ。
但しPCの方は Unicode 13 が□で出ている。インストールされているフォントの問題かな。
2021/10/23(土) 06:25:40.37ID:fIXVDCqg
フォントとフォントのレンダリングライブラリ(含Unicodeの処理)的な
2021/10/23(土) 07:17:11.28ID:TpylJdXD
>>231
PC版Firefox 93、PaleMoonだとおk、
古いFirefox45だとコード番号のある□
PC版Chrome、Edge、絵文字プラグインを入れたJaneStyleだと、Unicode 13(一番下)は□

Edgeがダメとか、MS終わってるだろw

ちなみに、この文字はこれな
🥲 Smiling Face with Tear Emoji
https://emojipedia.org/smiling-face-with-tear/
2021/10/23(土) 07:20:35.53ID:TpylJdXD
>>237
全部Unicode 13(>>231 一番下)の文字の話ね
2021/10/23(土) 07:39:19.42ID:TpylJdXD
Firefox系では、TwemojiMozilla.ttf というフォントファイルで表示しているようだ
古いFirefoxにもこれをインストールしたら表示できたけど、その他は相変わらずダメだった
何か他の要因があるのか?
2021/10/23(土) 16:38:57.04ID:fIXVDCqg
>>236 および >>231 で表示できてる≒そのUnicodeバージョンに対応している
で説明できる感じ?
2021/10/23(土) 18:50:50.60ID:YfcjxJKz
昔はEmojiOneMozilla.ttfだったのに
2021/10/23(土) 20:05:42.90ID:Ur/BzH1F
IEってかTridentは今後どうなるんだろう
新絵文字対応は更新され続けるのかな
2021/10/24(日) 10:33:30.12ID:R+G/mjzT
>>237
フォント指定したらwin10 edgeでもちゃんと表示できてるぞ
文字コードスレなんだからそのくらい試そうぜ
2021/10/24(日) 19:01:46.47ID:ZXfUijH1
今は正しいフォントを指定してない場合にも表示可能なフォントがあれば自動で代替フォントで
表示するようになってるのが多いけどね。Win 10の特定のアプリ/APIでは違うということかな。
2021/10/24(日) 19:26:38.50ID:kICQ0wde
win10でもフォールバックするけど
2021/10/24(日) 20:49:14.92ID:ZnySbBud
絵文字系のフォントを指定すれば表示できたとしても
普通の文字はどうするんだ、ということになるな
2021/10/24(日) 23:53:02.47ID:W7UJj/SL
フォールバックするんやろ(適当
2021/10/28(木) 01:13:38.65ID:IGQz8dMU
Ken先生は8月付けでApple所属になったのか
2021/10/28(木) 09:40:10.38ID:fzg5+Gzi
ほんとだ、フォントデベロッパーって(別にシャレのつもりはない)

まあフォントのデザイナーではないだろうから、Notoみたいに各言語のグリフが統合されたような
フォントセットを作るぞーとかそんなノリ?
2021/10/28(木) 12:07:23.11ID:5qBTDTYf
Windows11 で(一部の)設定ファイル等が BOM無しUTF-8に変わったみたいな話が聞こえてきてるけど、文字コードまわりはどんな感じ?
お前のマシンは古すぎるので11は無理っていわれて試せないので誰か教えて。
2021/10/28(木) 14:22:37.40ID:nHrB5pfo
\rもなくしてホスィ…
252デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:32:18.28ID:cISpGEYl
\rはPowerShellの複数行コマンド履歴を履歴ファイルConsoleHost_history.txtに保持するために必要だよ
ConsoleHost_history.txtはWindows10でもBOM無しUTF-8だよ
Powershellを開いて explorer /select,(Get-PSReadLineOption).HistorySavePath で見つかるはず
253デフォルトの名無しさん
垢版 |
2021/10/28(木) 14:40:01.21ID:cISpGEYl
厳密に言うと、(Get-PSReadLineOption).HistorySavePathでは普通の改行は\r\nで複数行にまたがる時に\nが使われている
\rがあればこそできる使い分け
2021/10/28(木) 14:45:59.31ID:nkWZEQ1o
ConsoleHost_history.txt は CRLF だったが
\r を無くせってのは単独の CR を無くせって意味か?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況