Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2020/07/03(金) 20:53:47.08ID:elbfDzqw603デフォルトの名無しさん
2022/08/23(火) 12:27:00.71ID:IsFqNvj1 ......🐟............
䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜
604デフォルトの名無しさん
2022/08/23(火) 12:27:52.24ID:IsFqNvj1 ..凹..凹..凹..凹..
..........凸......
..........凸......
605デフォルトの名無しさん
2022/08/23(火) 17:31:29.10ID:xo++wuEw 0208で表現可能じゃないかw
606デフォルトの名無しさん
2022/08/24(水) 09:32:11.96ID:8fOu5lGq murataのCMかよ
607デフォルトの名無しさん
2022/08/25(木) 22:40:43.43ID:de5K8FcC だれかマヨビームして
608デフォルトの名無しさん
2022/08/26(金) 09:51:20.37ID:i2SIEm4o うざったてー
609デフォルトの名無しさん
2022/09/14(水) 05:33:42.06ID:wQIidQ/U ここ人がいなくなるとばたっといなくなるな
610デフォルトの名無しさん
2022/09/16(金) 15:08:56.61ID:z5XcLMe6 Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加
https://gihyo.jp/article/2022/09/unicode15
https://gihyo.jp/article/2022/09/unicode15
611デフォルトの名無しさん
2022/09/17(土) 05:27:23.56ID:7WGI1OIf 毎回絵文字で話題を呼ぶ戦略もそろそろネタ切れか
612デフォルトの名無しさん
2022/09/17(土) 06:46:26.46ID:48becwit 絵文字の文字数はあまり増えてないけど、合成パターンが派手に増えて、面倒過ぎることに。
613デフォルトの名無しさん
2022/09/17(土) 12:44:09.49ID:sxCWjXQc 次は動いたり光ったりする絵文字
614デフォルトの名無しさん
2022/09/17(土) 18:58:46.03ID:w2OodHnN それはガラケーが15年ぐらい前に通った道だ
615デフォルトの名無しさん
2022/09/17(土) 19:43:06.21ID:ZRyqS070 次は飛び出す絵文字とお喋りする絵文字だよ
616デフォルトの名無しさん
2022/09/17(土) 22:02:20.28ID:5IxZNZbc 絵文字はいいから
歩と香杏桂圭銀全金飛龍角馬王玉
の逆さ文字を登録してほしい
歩と香杏桂圭銀全金飛龍角馬王玉
の逆さ文字を登録してほしい
617デフォルトの名無しさん
2022/09/17(土) 22:19:44.75ID:ZRyqS070 とりあえず一個作ったよ
つ王
つ王
618デフォルトの名無しさん
2022/09/17(土) 22:30:43.46ID:JsbK4qtQ 肌色や性別より反転や回転が欲しい
619デフォルトの名無しさん
2022/09/17(土) 22:37:03.11ID:9HUFVGar >>616
つ異字体セレクタ
つ異字体セレクタ
620デフォルトの名無しさん
2022/09/18(日) 00:02:30.98ID:fKsdepJz621デフォルトの名無しさん
2022/09/18(日) 01:19:36.82ID:H3LLIMIG ちゃんと盤面が表示される保証がないといけないですよね
622デフォルトの名無しさん
2022/09/18(日) 01:21:24.86ID:H4pPDpp4 >>617
王は逆向きに配置されることはありえません、無駄な仕事ご苦労なことです
王は逆向きに配置されることはありえません、無駄な仕事ご苦労なことです
623デフォルトの名無しさん
2022/09/18(日) 02:21:35.78ID:6CSHq2xc >>620
確かにそうなんだよね。。。ただ、年次のUnicode規格が社会に浸透していく過渡期には常に付きまとう問題であって異字体に限った話ではないように思える
それと同時に、異字体(少なくとも漢字の異字体)に意味の違いを含めてしまう(意味の違いを見出す運用を前提としてしまう)と問題が生じることのわかりやすいモデルケースでもあるとも思った
確かにそうなんだよね。。。ただ、年次のUnicode規格が社会に浸透していく過渡期には常に付きまとう問題であって異字体に限った話ではないように思える
それと同時に、異字体(少なくとも漢字の異字体)に意味の違いを含めてしまう(意味の違いを見出す運用を前提としてしまう)と問題が生じることのわかりやすいモデルケースでもあるとも思った
624デフォルトの名無しさん
2022/09/18(日) 02:24:07.74ID:6CSHq2xc >>622
古のドラクエで使われた「り」メソッドであって、実は何もしていないという
古のドラクエで使われた「り」メソッドであって、実は何もしていないという
625デフォルトの名無しさん
2022/09/18(日) 02:33:42.02ID:T2t4IoSB >>624
んなことわかってんだよ、アホンダラ、死ね
んなことわかってんだよ、アホンダラ、死ね
626デフォルトの名無しさん
2022/09/18(日) 02:38:02.45ID:T2t4IoSB >>623
異議を唱えます
本来漢字に正字と異字という区別はなく、どの漢字も平等であるべきなんですよ
Unicode はすべての字(letter and character) を収録する、という建前である以上、異字体コレクターの存在自体が自己矛盾と考えます
CJK 漢字統合など、ダメリカ様の都合で決まった醜悪な存在、でも、結局 16 ビットに収まらなかったという体たらくになりましたよね…
異議を唱えます
本来漢字に正字と異字という区別はなく、どの漢字も平等であるべきなんですよ
Unicode はすべての字(letter and character) を収録する、という建前である以上、異字体コレクターの存在自体が自己矛盾と考えます
CJK 漢字統合など、ダメリカ様の都合で決まった醜悪な存在、でも、結局 16 ビットに収まらなかったという体たらくになりましたよね…
627デフォルトの名無しさん
2022/09/18(日) 03:18:17.32ID:fKsdepJz 同じ人相手でレスごとに態度豹変するの笑う
628デフォルトの名無しさん
2022/09/18(日) 03:19:36.25ID:fKsdepJz629デフォルトの名無しさん
2022/09/18(日) 09:50:27.91ID:vR9F1V2O 異体字セレクターでも新コードポイントでもフォント作ってくれれば問題ないよ。
それより同じ漢字を複数箇所に登録するのをやめてくれ。基本漢字はあれだけ無理矢理ユニファイしたくせに、その後はチェック甘くて完全に同じ字形が新規登録されることがある。
それより同じ漢字を複数箇所に登録するのをやめてくれ。基本漢字はあれだけ無理矢理ユニファイしたくせに、その後はチェック甘くて完全に同じ字形が新規登録されることがある。
630デフォルトの名無しさん
2022/09/18(日) 10:01:21.85ID:GdLzv1yo >>629
もし良ければ、近年の具体例を教えて欲しい
もし良ければ、近年の具体例を教えて欲しい
631デフォルトの名無しさん
2022/09/18(日) 11:28:41.95ID:vR9F1V2O 閉て
>>630
どれくらい近年を求めてるのかは知らんが
私が気づいたのは U+3588 と U+439B の(老/口)とか。
これどう見ても同じ漢字を口部と老部に二重登録しただけやろ。
U+29FCE と U+29FD7 の(予鳥)の違いとかもわからん。
>>630
どれくらい近年を求めてるのかは知らんが
私が気づいたのは U+3588 と U+439B の(老/口)とか。
これどう見ても同じ漢字を口部と老部に二重登録しただけやろ。
U+29FCE と U+29FD7 の(予鳥)の違いとかもわからん。
632デフォルトの名無しさん
2022/09/18(日) 13:19:58.23ID:GdLzv1yo >>631
20年以上前に追加された文字同士を例にとって「チェックが甘くて...新規登録されることが"ある"」と表現するのはどうかと思うよ(「あった」ならまだしも...)
当時と現在のチェック体制を事実上同一視した上で「やめてくれ」と懇願する姿勢も同様
20年以上前に追加された文字同士を例にとって「チェックが甘くて...新規登録されることが"ある"」と表現するのはどうかと思うよ(「あった」ならまだしも...)
当時と現在のチェック体制を事実上同一視した上で「やめてくれ」と懇願する姿勢も同様
633デフォルトの名無しさん
2022/09/18(日) 13:32:38.16ID:vR9F1V2O >>632
基本漢字とその後って言ってるのに、最近って言いかえるお前の定義ってどうなってるの?
問題は問題だろ、それともお前全チェックして、俺がたまたま気づいたこの2つ以外は問題がないと言い切れるの?
基本漢字とその後って言ってるのに、最近って言いかえるお前の定義ってどうなってるの?
問題は問題だろ、それともお前全チェックして、俺がたまたま気づいたこの2つ以外は問題がないと言い切れるの?
634デフォルトの名無しさん
2022/10/02(日) 09:38:14.71ID:nwLm/7GS Unicode をレンダリングするときは言語情報を渡しましょう
https://blog.8-p.info/ja/2022/09/30/unicode/
https://blog.8-p.info/ja/2022/09/30/unicode/
635デフォルトの名無しさん
2022/10/07(金) 06:10:39.92ID:sxH3tiDQ >>634
よくある言語の優先順位ってどういうときに役立つのかよく知らなかったりw
例えば 1.英語 2.日本語としていても、英語と日本語が混ざったドキュメントの場合に
日本語部分が中国フォントで処理されたり。この挙動には関係ない設定なのかな?
中国語のフォントもひらがなとか持ってるから、フォントのコードセットだけ見て
その中国語のフォントが日本語もおkとされて使われてたりする?
(たしかfontconfigとかそんな挙動だった記憶が)
日本語と認識してるが中国フォントで表示しているのか日本語と認識してもいないのか
よくある言語の優先順位ってどういうときに役立つのかよく知らなかったりw
例えば 1.英語 2.日本語としていても、英語と日本語が混ざったドキュメントの場合に
日本語部分が中国フォントで処理されたり。この挙動には関係ない設定なのかな?
中国語のフォントもひらがなとか持ってるから、フォントのコードセットだけ見て
その中国語のフォントが日本語もおkとされて使われてたりする?
(たしかfontconfigとかそんな挙動だった記憶が)
日本語と認識してるが中国フォントで表示しているのか日本語と認識してもいないのか
636デフォルトの名無しさん
2022/10/07(金) 09:05:35.88ID:GHAO4XK1 >>635
アプリが対応しているかとか、フォントが対応しているかとか色々ある。
最近のオープンタイプ形式のフォントとかだと同じ文字コードに複数の字形を持っていて、アプリが対応していれば言語設定に従って字体を自動的に切り替えてくれたりする。アプリが対応してなければデフォルトの字形が使われる。
アプリが対応しているかとか、フォントが対応しているかとか色々ある。
最近のオープンタイプ形式のフォントとかだと同じ文字コードに複数の字形を持っていて、アプリが対応していれば言語設定に従って字体を自動的に切り替えてくれたりする。アプリが対応してなければデフォルトの字形が使われる。
637デフォルトの名無しさん
2022/10/08(土) 05:58:47.54ID:pd+cWRBO 結局>>634に書いてあることのうち、ユーザー側の言語情報というのはあまり重要じゃ
なくてデータ側の言語情報というのがより大事なのかなと
ぶっちゃけコンピュータの利用というのは圧倒的に向こうからやってくるデータの
処理だし。ユーザの言語設定が日本語でも、中国語のテキストが来たらそれは
中国語のフォントで処理してほしい
なくてデータ側の言語情報というのがより大事なのかなと
ぶっちゃけコンピュータの利用というのは圧倒的に向こうからやってくるデータの
処理だし。ユーザの言語設定が日本語でも、中国語のテキストが来たらそれは
中国語のフォントで処理してほしい
638デフォルトの名無しさん
2022/10/08(土) 06:16:01.16ID:qNYwj5bN >>637
データ側に言語情報があったあら、レンダリングやレイアウトにその言語情報を使うのは基本中の基本で、当たり前過ぎて議論の対象にならんのでは。
データに言語情報がない場合にどのようにするかという問題。手抜きアプリだとフォントのデフォルトを使う。そしてフォントのデフォルトが中国字形になってるとか良くある。
データ側に言語情報があったあら、レンダリングやレイアウトにその言語情報を使うのは基本中の基本で、当たり前過ぎて議論の対象にならんのでは。
データに言語情報がない場合にどのようにするかという問題。手抜きアプリだとフォントのデフォルトを使う。そしてフォントのデフォルトが中国字形になってるとか良くある。
639デフォルトの名無しさん
2022/10/08(土) 12:17:20.96ID:pd+cWRBO >>638
言語情報が付いてなかったら本当は言語推定とかした方がいいと思うけどね
文字コードで言語統合してしまった分、分離のコストを支払う必要があるということ
ユーザーの設定は推定できなかった場合の最後の手段かな
普通は言語推定とかいちいちしないからユーザー設定頼みのみと
言語情報が付いてなかったら本当は言語推定とかした方がいいと思うけどね
文字コードで言語統合してしまった分、分離のコストを支払う必要があるということ
ユーザーの設定は推定できなかった場合の最後の手段かな
普通は言語推定とかいちいちしないからユーザー設定頼みのみと
640デフォルトの名無しさん
2022/10/08(土) 12:24:41.42ID:qNYwj5bN641デフォルトの名無しさん
2022/10/10(月) 20:05:36.45ID:rCP6G7hl642デフォルトの名無しさん
2022/10/11(火) 07:48:39.31ID:/cMVl5Xy 青空文庫がCP932しばり(Shift_JISではない)なのはなぜなんだぜ?
643デフォルトの名無しさん
2022/10/11(火) 08:25:59.56ID:XLmWzK3A >>640
もちろん最後の手段に近い話だよ
Unicode自体は、マルチリンガルはあまり考えてないわけでしょ。事実上
一つのコードセットをいろんなモノリンガルで使うのが基本。だからUnicodeだけで
マルチリンガルがいけてなくても当た前
Unicodeの英語の中に一個だけ「骨」とかもうね、責めるならUnicodeの中の人をw
その上で、多少はどうにかするなら、という話
もちろん最後の手段に近い話だよ
Unicode自体は、マルチリンガルはあまり考えてないわけでしょ。事実上
一つのコードセットをいろんなモノリンガルで使うのが基本。だからUnicodeだけで
マルチリンガルがいけてなくても当た前
Unicodeの英語の中に一個だけ「骨」とかもうね、責めるならUnicodeの中の人をw
その上で、多少はどうにかするなら、という話
644デフォルトの名無しさん
2022/10/11(火) 09:09:02.40ID:Wi4OH2RZ 今から unicode を何とかするのなら完全 IVS化かなあ。
IVS の登録を全面拡大して、漢字を書く際には著者が使用した字体のIVSをつける。
IVSのついていない漢字は「著者が字体にこだわりは無く読者の好み字体で表示することを指定した」というルールにする。
字体にこだわるとテキストのサイズが増えるけど今の環境なら特に問題にはならないだろ。
IVS の登録を全面拡大して、漢字を書く際には著者が使用した字体のIVSをつける。
IVSのついていない漢字は「著者が字体にこだわりは無く読者の好み字体で表示することを指定した」というルールにする。
字体にこだわるとテキストのサイズが増えるけど今の環境なら特に問題にはならないだろ。
645デフォルトの名無しさん
2022/10/11(火) 20:10:00.97ID:JrNqb+g1 1文字ずつつけるんじゃなくて新たに囲み用の言語指定マーク作ってもいいんでは?
既にLTR/RTL指定とか「ここからここまでルビ」みたいなマークがあるんだから。
どっちの方法でも実効性が現れるかどうかは「メジャーな環境が(入力ユーザーが気にしていなくても)デフォルトで付けるかどうか」次第だけど、
完全IVS化だと漢字圏のテキストがほぼ倍になる、そんなのをデフォルトにする判断を各社が果たしてするんだろうか?
既にLTR/RTL指定とか「ここからここまでルビ」みたいなマークがあるんだから。
どっちの方法でも実効性が現れるかどうかは「メジャーな環境が(入力ユーザーが気にしていなくても)デフォルトで付けるかどうか」次第だけど、
完全IVS化だと漢字圏のテキストがほぼ倍になる、そんなのをデフォルトにする判断を各社が果たしてするんだろうか?
646デフォルトの名無しさん
2022/10/11(火) 21:16:13.21ID:Wi4OH2RZ >>645
普通の人は字体にこだわらないから付けないだろうし、字体にこだわる著者はサイズが倍以上になってもつけるだろうし選択権が著者側にあるのが良いと思うんだよな。もはやテキストサイズとか誤差の範囲でけちる理由ないし。
日本語と中国語が混じった国際的な文章を書きたい場合とか、1文字単位で指定できるのが重要というか。
普通の人は字体にこだわらないから付けないだろうし、字体にこだわる著者はサイズが倍以上になってもつけるだろうし選択権が著者側にあるのが良いと思うんだよな。もはやテキストサイズとか誤差の範囲でけちる理由ないし。
日本語と中国語が混じった国際的な文章を書きたい場合とか、1文字単位で指定できるのが重要というか。
647デフォルトの名無しさん
2022/10/11(火) 21:31:15.03ID:OJo3NOQw >>644
たしかにそうすればCJK混在のテキストであっても、文字単位でそれぞれ正確に字体を表示できるね
ただし、そのままでは視覚的に「1. 完全IVS化仕様に基づいてIVSで修飾された漢字」と「2. 既存の個別コードポイントの漢字」の区別ができないが故に、テキスト作成時にIMEやエディタ側でその違いを視認できるような仕組みが必要になる気がする
それから、上記1,2双方の漢字を検索等で相互にマッチさせるにはUNICODE正規化仕様に手を入れればよいのだろうか?あまり詳しくないけど、その実現手段がない場合は色々とカオスな状況を招きそう
当たり前だけど、当該仕様を必要とする漢字圏のテキストサイズが倍近くなってしまう点もなかなかにキツい(それでも非漢字圏の言語に対する圧倒的な情報密度は揺るぎないが...)
たしかにそうすればCJK混在のテキストであっても、文字単位でそれぞれ正確に字体を表示できるね
ただし、そのままでは視覚的に「1. 完全IVS化仕様に基づいてIVSで修飾された漢字」と「2. 既存の個別コードポイントの漢字」の区別ができないが故に、テキスト作成時にIMEやエディタ側でその違いを視認できるような仕組みが必要になる気がする
それから、上記1,2双方の漢字を検索等で相互にマッチさせるにはUNICODE正規化仕様に手を入れればよいのだろうか?あまり詳しくないけど、その実現手段がない場合は色々とカオスな状況を招きそう
当たり前だけど、当該仕様を必要とする漢字圏のテキストサイズが倍近くなってしまう点もなかなかにキツい(それでも非漢字圏の言語に対する圧倒的な情報密度は揺るぎないが...)
648デフォルトの名無しさん
2022/10/11(火) 23:02:41.36ID:Wi4OH2RZ >>647
検索に関しては今の正規化検索が仕様通り実装されてれば、そのままでいけると思う。
検索に関しては今の正規化検索が仕様通り実装されてれば、そのままでいけると思う。
649デフォルトの名無しさん
2022/10/11(火) 23:13:45.33ID:OJo3NOQw >>64
そのまま、とは?
そのまま、とは?
650デフォルトの名無しさん
2022/10/11(火) 23:14:14.94ID:OJo3NOQw651デフォルトの名無しさん
2022/10/12(水) 00:57:28.78ID:cxB5MEih >>650
異体字セレクタは正規化の対象外である一方で無視可能な結合クラス0の結合文字なので、表示/検索系での無視する/しない、個別に可視化する/しないのような制御の対象にできる。
規格本体には手を入れなくても、そのままでも大丈夫だろうという意味。もちろんアプリの対応はいるし、IVDの大幅拡張がいるのだけど。
異体字セレクタは正規化の対象外である一方で無視可能な結合クラス0の結合文字なので、表示/検索系での無視する/しない、個別に可視化する/しないのような制御の対象にできる。
規格本体には手を入れなくても、そのままでも大丈夫だろうという意味。もちろんアプリの対応はいるし、IVDの大幅拡張がいるのだけど。
652デフォルトの名無しさん
2022/10/12(水) 01:14:40.26ID:dVrAKJBj653デフォルトの名無しさん
2022/10/12(水) 01:15:05.77ID:dVrAKJBj 書体よりも字形のほうがいいか
654デフォルトの名無しさん
2022/10/12(水) 10:12:03.10ID:cxB5MEih >>652
元の話で言えば、利用者はレンダリングの際に言語情報ではなく、好みの字形情報を渡すようにしようということになるだけだよ。
著者が特定の字形を指定している場合はその字形で表示される。著者が字形を指定しない場合は読者の好みの字形で表示される。
字形情報と言語情報は別ベクトルなので一緒くたに扱うのはやめようとい話。
もしこの方法が普及したら字形にこだわりの強い日本人は、緩やかに差異のある漢字全てにIVSをつけるように移行して行くと思う。(サイズが小さいメリットより字形の指定が出来るメリットが上回ると考える人が多くなりそうという予想)
元の話で言えば、利用者はレンダリングの際に言語情報ではなく、好みの字形情報を渡すようにしようということになるだけだよ。
著者が特定の字形を指定している場合はその字形で表示される。著者が字形を指定しない場合は読者の好みの字形で表示される。
字形情報と言語情報は別ベクトルなので一緒くたに扱うのはやめようとい話。
もしこの方法が普及したら字形にこだわりの強い日本人は、緩やかに差異のある漢字全てにIVSをつけるように移行して行くと思う。(サイズが小さいメリットより字形の指定が出来るメリットが上回ると考える人が多くなりそうという予想)
655デフォルトの名無しさん
2022/10/12(水) 13:50:34.84ID:BtGOdvhN たどればわかるが元の話は海外産ゲームの日本語とかの話題だよ
656デフォルトの名無しさん
2022/10/12(水) 14:15:20.45ID:cxB5MEih >>655
ゲームがユーザ情報の好みの字体を使用するようになれば良いのにねという意味だけど。何か矛盾してる?
ゲームがユーザ情報の好みの字体を使用するようになれば良いのにねという意味だけど。何か矛盾してる?
657デフォルトの名無しさん
2022/10/12(水) 17:59:58.38ID:jX8nchty >>654>>656
「ユーザ情報」ってのがわからんがその枠組みだとユーザーじゃなくてゲーム製作(日本語版製作)側がIVS付けるかどうかにかかってくるんじゃないの?
で、ユーザーの声を聴いてIVS付けてくれるような体制のとこは現時点でも日本語フォント指定ぐらいできるんでIVSの出る幕はないような。
「ユーザ情報」ってのがわからんがその枠組みだとユーザーじゃなくてゲーム製作(日本語版製作)側がIVS付けるかどうかにかかってくるんじゃないの?
で、ユーザーの声を聴いてIVS付けてくれるような体制のとこは現時点でも日本語フォント指定ぐらいできるんでIVSの出る幕はないような。
658デフォルトの名無しさん
2022/10/12(水) 18:06:05.49ID:jX8nchty 字形と言語は固定の関係ではない、という思想が根っこにあるのは理解したけど、20世紀後半以降の各国の漢字政策を経て固まった今現在の現実に即した思想かどうかは正直疑問。
増殖してしまった異体字について「本来は同じもの」と言ったところでどうしようもないのと似た理想論な感じがする。
増殖してしまった異体字について「本来は同じもの」と言ったところでどうしようもないのと似た理想論な感じがする。
659デフォルトの名無しさん
2022/10/12(水) 18:34:29.78ID:cxB5MEih >>658
でもな、日本国内でも古い本や文献を引用したり、人名地名とかだと台湾と同じ字体が出てきたりするんだよ。これに中国繁体字のタグ付けるのは間違ってると思わないか?
でもな、日本国内でも古い本や文献を引用したり、人名地名とかだと台湾と同じ字体が出てきたりするんだよ。これに中国繁体字のタグ付けるのは間違ってると思わないか?
660デフォルトの名無しさん
2022/10/12(水) 18:53:53.43ID:7A0U4gRF そういうのはIVSつければいいんじゃね?
661デフォルトの名無しさん
2022/10/13(木) 00:52:39.79ID:bGOejmD/ >>660
だから、そういう話だよ。いまのところ IVD が不十分なので役に立たないけど。
だから、そういう話だよ。いまのところ IVD が不十分なので役に立たないけど。
662デフォルトの名無しさん
2022/10/13(木) 18:18:17.03ID:0FZf3Jvb どの方式にしろ、この問題の解消のためには入力環境側がデフォルトで字形情報を埋め込まないとだめなのよ。
受け手になる現代の日本語話者にとって許容範囲外の字形に化ける可能性があるのに入力者にはそれが見通せないんだから。
受け手になる現代の日本語話者にとって許容範囲外の字形に化ける可能性があるのに入力者にはそれが見通せないんだから。
663デフォルトの名無しさん
2022/12/01(木) 05:16:11.16ID:Df9C+tST 今どきのEメールのエンコーディングって何が標準ですか?
gmailで試したら、MIMEでUTF-8 + Base64になりましたけど(かつテキストの属性の有無で
htmlかplainのマルチパートになる)、これって「標準」?
ISO-2022-JPとかあまり使わない感じ?
gmailで試したら、MIMEでUTF-8 + Base64になりましたけど(かつテキストの属性の有無で
htmlかplainのマルチパートになる)、これって「標準」?
ISO-2022-JPとかあまり使わない感じ?
664デフォルトの名無しさん
2022/12/01(木) 08:59:44.12ID:kV+28pNv GmailもThunderbirdもUTF-8だけになってしまいましたね。デファクトスタンダードなのかな?
665デフォルトの名無しさん
2022/12/01(木) 18:25:26.50ID:GbXAC3uj まあ、絵文字使いたいよね
666デフォルトの名無しさん
2022/12/02(金) 08:15:06.11ID:PSw8yx+p 孫は歴史的偉人
667デフォルトの名無しさん
2022/12/02(金) 09:35:18.27ID:q48B2P2f 今でも7ビットの制約とかあるんだっけ
いずれにせよMIMEのエンコードをするから別にISO-2022-JPじゃなくてもいいと
いずれにせよMIMEのエンコードをするから別にISO-2022-JPじゃなくてもいいと
668デフォルトの名無しさん
2022/12/02(金) 11:55:24.27ID:u/9H+2Gz 実は7bit制約もインターネットの場合は存在しない。
昔ながらの個別メール網とメール交換する際の互換性のために7bitが必要だっただけだが、そういうのは滅びたかゲートウェイで7−8変換するようになったので。
そういう意味で生UTF8で十分。
昔ながらの個別メール網とメール交換する際の互換性のために7bitが必要だっただけだが、そういうのは滅びたかゲートウェイで7−8変換するようになったので。
そういう意味で生UTF8で十分。
669デフォルトの名無しさん
2022/12/02(金) 17:25:39.59ID:q48B2P2f えっと、RFC(現在は何番かな... 5322でおk?)に書いてあるUS-ASCII、というのは
生きてるわけですよね?
その上でMIMEを使えと
生きてるわけですよね?
その上でMIMEを使えと
670デフォルトの名無しさん
2022/12/02(金) 18:40:42.32ID:u/9H+2Gz >>669
そうだよ。US-ASCII 以外の文字コードを使用する場合は原則MIMEヘッダーで本文の文字コードを指定しなければならない。
原則というのは
・送信者と受信者の間で暗黙もしくは明示の合意がある場合は例外。
・多くのメール・クライアントは文字コードを自動推定をする機能があるのでMIMEヘッダーを省略してもたいてい機能する。
・その後に、RFC6531 で SMTPUTF8 が導入され、RFC6532でメールヘッダーもUTF8対応に拡張されている。
要はデフォルトを US-ASCII から UTF8 に置き換える方向で進んでいる。
インターネットは一気に全体が更新されるわけではないので従来的なやり方が安全といえるけど、ユーザーがメールクライアントを更新したら裏で勝手にUTF8になっている可能性がある。
そうだよ。US-ASCII 以外の文字コードを使用する場合は原則MIMEヘッダーで本文の文字コードを指定しなければならない。
原則というのは
・送信者と受信者の間で暗黙もしくは明示の合意がある場合は例外。
・多くのメール・クライアントは文字コードを自動推定をする機能があるのでMIMEヘッダーを省略してもたいてい機能する。
・その後に、RFC6531 で SMTPUTF8 が導入され、RFC6532でメールヘッダーもUTF8対応に拡張されている。
要はデフォルトを US-ASCII から UTF8 に置き換える方向で進んでいる。
インターネットは一気に全体が更新されるわけではないので従来的なやり方が安全といえるけど、ユーザーがメールクライアントを更新したら裏で勝手にUTF8になっている可能性がある。
671デフォルトの名無しさん
2022/12/03(土) 18:46:41.61ID:FpUu83Sy ぼくはquoted-printableちゃん
672デフォルトの名無しさん
2022/12/04(日) 08:41:14.63ID:lnrwP0JB >>671
ASCIIに関しては便利なやつね。それ以外は効率が落ちるという
まるでUTF-8のようなw
基本的な日本語が2バイトで収まるエンコーディングは無理かのう... ってUTF-16かw
いえ、UTF-8とUTF-16のいいとこ取りはできないかなあと
ASCIIに関しては便利なやつね。それ以外は効率が落ちるという
まるでUTF-8のようなw
基本的な日本語が2バイトで収まるエンコーディングは無理かのう... ってUTF-16かw
いえ、UTF-8とUTF-16のいいとこ取りはできないかなあと
673デフォルトの名無しさん
2022/12/04(日) 10:24:48.68ID:mks6KinJ >>672
みんな大好きシフトJISなんてどうですか
みんな大好きシフトJISなんてどうですか
674デフォルトの名無しさん
2022/12/04(日) 10:55:56.31ID:5yzeU/In 絵文字のない文字コードなんて今更
675デフォルトの名無しさん
2022/12/04(日) 11:12:22.45ID:XVXofR3d >>672
まあ ISO-2022-JP
まあ ISO-2022-JP
676デフォルトの名無しさん
2022/12/04(日) 17:49:01.09ID:+sGd2msW >>674
ドコモかauかソフバンの拡張を正式採用したらいくらかは入ったことにできる
ドコモかauかソフバンの拡張を正式採用したらいくらかは入ったことにできる
677デフォルトの名無しさん
2022/12/11(日) 17:16:35.20ID:uBZHdTYF 文字コードの、それもパーセントエンコードに詳しい方教えてください。
たとえば、π(pi)をパーセントエンコードすると、%CF%80ですが、このCF、80を生成するプログラムが本に掲載されていたので
解読しています。
πに対応するコードである、960を64で割った商15をさらに、15 Or 192で論理和を求めると207となって、
207を16進数で表すと、CFを求められるとする過程はわかったのですが、
最後の論理和を求めるところで、なぜ論理和が使われるのかということと、相手に192という値が選ばれているのかが
皆目わかりません。
論理和と論理積を解説するサイトを見ても、True と False のペアを評価するのみで
この手の応用について解説されるサイトは無さそうでした。
コードはNo.128 〜 No.2047 (0080〜07FF)の範囲でお願いします。
たとえば、π(pi)をパーセントエンコードすると、%CF%80ですが、このCF、80を生成するプログラムが本に掲載されていたので
解読しています。
πに対応するコードである、960を64で割った商15をさらに、15 Or 192で論理和を求めると207となって、
207を16進数で表すと、CFを求められるとする過程はわかったのですが、
最後の論理和を求めるところで、なぜ論理和が使われるのかということと、相手に192という値が選ばれているのかが
皆目わかりません。
論理和と論理積を解説するサイトを見ても、True と False のペアを評価するのみで
この手の応用について解説されるサイトは無さそうでした。
コードはNo.128 〜 No.2047 (0080〜07FF)の範囲でお願いします。
678デフォルトの名無しさん
2022/12/11(日) 18:25:00.06ID:g5mEJWYI >>677
UTF8 で検索してみ
UTF8 で検索してみ
679デフォルトの名無しさん
2022/12/11(日) 19:07:45.94ID:PbQUrDfd >>677
パーセントエンコードの仕様はよく分からんけど、対象のコードポイントをUTF8で符号化した値そのまんまっぽい気がする
UTF8のバイト表現は可変長なので、各バイト毎に「桁」を示すbitパターンがある
パーセントエンコードの仕様はよく分からんけど、対象のコードポイントをUTF8で符号化した値そのまんまっぽい気がする
UTF8のバイト表現は可変長なので、各バイト毎に「桁」を示すbitパターンがある
680デフォルトの名無しさん
2022/12/11(日) 19:55:31.82ID:uBZHdTYF >>679
ありがとうございます。
各バイト毎に「桁」を示すbitパターンが、110X XXXX と 10XX XXXX のことだと思いますが、
論理和、論理積を 適用すると、前者の場合、X XXXX がどんなビットが来ようとも
110X XXXX が損なわれずに出てくる感じですかね?
まだ全容がわかったわけではないですが、上記イメージで捉えるようにしてみます。
ありがとうございます。
各バイト毎に「桁」を示すbitパターンが、110X XXXX と 10XX XXXX のことだと思いますが、
論理和、論理積を 適用すると、前者の場合、X XXXX がどんなビットが来ようとも
110X XXXX が損なわれずに出てくる感じですかね?
まだ全容がわかったわけではないですが、上記イメージで捉えるようにしてみます。
681デフォルトの名無しさん
2022/12/11(日) 20:52:21.59ID:GglWfKZ4 Wikipedia のUTF-8 の所に、ビットパターンの規則が書いてある
1バイト目について、
先頭ビットが0なら、1バイト文字
110なら、2バイト文字
1110なら、3バイト文字
1111なら、4バイト文字
2バイト目以降は、先頭ビットが10で始まる
1バイト目について、
先頭ビットが0なら、1バイト文字
110なら、2バイト文字
1110なら、3バイト文字
1111なら、4バイト文字
2バイト目以降は、先頭ビットが10で始まる
682デフォルトの名無しさん
2022/12/14(水) 21:33:02.33ID:XhtdH9iq エイリアスも造れてしまうま
683デフォルトの名無しさん
2022/12/16(金) 23:16:00.71ID:iTKBT5gs ぃぇぃ
684デフォルトの名無しさん
2023/01/01(日) 02:08:29.39ID:2MmdlFyQ 🎍あけましておめでとう🎍
685デフォルトの名無しさん
2023/01/03(火) 15:41:42.10ID:oAfmTpf4 🐇🐰
686デフォルトの名無しさん
2023/01/03(火) 16:08:11.22ID:qWO3SNRU 全身verと顔verがある動物と無い動物があるのはどういうわけなんだぜ🦖🦕?
687デフォルトの名無しさん
2023/01/04(水) 14:20:36.08ID:s5vEki4C 履歴書にバストアップ写真貼付
っていうの観て豊胸写真貼るくらいおばかなレス
っていうの観て豊胸写真貼るくらいおばかなレス
688デフォルトの名無しさん
2023/01/04(水) 20:35:29.99ID:tq9Pt7xT 何それ
689デフォルトの名無しさん
2023/02/08(水) 21:44:37.67ID:SRtB9YNx au PAYプリペイドカードで取引履歴が表示されない不具合 中、朝、住、今、荻、塚などが含まれる加盟店で
https://www.itmedia.co.jp/news/articles/2302/08/news159.html
これはどういう原理?
https://www.itmedia.co.jp/news/articles/2302/08/news159.html
これはどういう原理?
690デフォルトの名無しさん
2023/02/09(木) 01:12:33.38ID:CT5MmAYO691デフォルトの名無しさん
2023/02/09(木) 01:16:30.66ID:CT5MmAYO >>690
訂正、UTF16じゃなくてSJIS/CP932だな。
訂正、UTF16じゃなくてSJIS/CP932だな。
692デフォルトの名無しさん
2023/02/09(木) 01:22:16.09ID:CT5MmAYO >>690
もいっこミス、CP1292はCP1252のタイポ。英語Windowsで使われるやつのつもり。
もいっこミス、CP1292はCP1252のタイポ。英語Windowsで使われるやつのつもり。
693デフォルトの名無しさん
2023/02/09(木) 05:00:43.74ID:UWV0mqex うーん不思議だな
694デフォルトの名無しさん
2023/02/11(土) 01:16:35.62ID:jExU8kfL マスターカード側(?)ってのがよくわからんね
695デフォルトの名無しさん
2023/02/11(土) 04:28:29.30ID:QY9lSOJI だからSJISを英語版Windows用のライブラリかフレームワークで処理しちゃったんだろ。
例に上がってるのがどれも該当文字。
例に上がってるのがどれも該当文字。
696デフォルトの名無しさん
2023/02/11(土) 19:52:44.79ID:eerDWvKt なるほろ
697デフォルトの名無しさん
2023/02/11(土) 21:12:31.28ID:a+HD9nM9 Windows, CP932, UTF16 を使っているシステムは、ヤバイ
その点、Linux はUTF8 だけ
その点、Linux はUTF8 だけ
698デフォルトの名無しさん
2023/02/11(土) 21:17:49.94ID:FZgft1te LinuxもUnicode文字のパースにはUTF32使ってるでしょ。じゃないと基本多言語面以外の文字を正しく使えないから。
699デフォルトの名無しさん
2023/02/12(日) 02:18:07.45ID:UD1CAstg パースパースってここは西オーストラリア州かよ🐨🇦🇺🏴🦘
700デフォルトの名無しさん
2023/02/12(日) 12:22:59.98ID:2oU17ty6 Linux は内部的には、UTF32 も使っているけど、外には出ない。
外部とはUTF8 で統一されている
Windows のCP 何々みたいなものは地獄。
他国語のCPを誰も知らない
例えば日本人だと、CP932 しか知らない。
逆に外人は、誰もCP932を知らない
つまり、外人同士が意思疎通できないシステム
ただし、Linuxでも、iconv を使うけど、
Ruby では非推奨になって、NKF を使う
今では、CP932とか日本語を扱えるのは、Rubyだけだろ。
外人は誰も、CP932など知らない
外部とはUTF8 で統一されている
Windows のCP 何々みたいなものは地獄。
他国語のCPを誰も知らない
例えば日本人だと、CP932 しか知らない。
逆に外人は、誰もCP932を知らない
つまり、外人同士が意思疎通できないシステム
ただし、Linuxでも、iconv を使うけど、
Ruby では非推奨になって、NKF を使う
今では、CP932とか日本語を扱えるのは、Rubyだけだろ。
外人は誰も、CP932など知らない
701デフォルトの名無しさん
2023/02/13(月) 13:42:49.90ID:B5eUc1df 中 9286 ← 判る
朝 92a9 ← 判る
住 8f5a ← 判らん
今 8da1 ← 判らん
荻 89ac ← 判らん
塚 92cb ← 判る
朝 92a9 ← 判る
住 8f5a ← 判らん
今 8da1 ← 判らん
荻 89ac ← 判らん
塚 92cb ← 判る
702デフォルトの名無しさん
2023/02/13(月) 16:52:17.70ID:JDbZ3Ijk 荻は 948b では?
cp1252 の 0x81 0x8d 0x8f 0x90 0x9d の5文字は未定義文字なので、ライブラリによってはエラーになる。
0x92 と 0x94 はクォートで特殊処理される可能性がある。
cp1252 の 0x81 0x8d 0x8f 0x90 0x9d の5文字は未定義文字なので、ライブラリによってはエラーになる。
0x92 と 0x94 はクォートで特殊処理される可能性がある。
703デフォルトの名無しさん
2023/02/14(火) 01:45:05.11ID:8zO3UUTI 互換性を簡単に切り捨てられたLinuxと、互換性を維持しなくてはならないMS-DOSとWindowsを比べるのはただの阿呆。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【サッカー】U-17日本代表、激闘PK戦制す 北朝鮮撃破で6大会ぶり8強入り U17W杯 [久太郎★]
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 ★3 [ぐれ★]
- 【サッカー】日本代表、ボリビアに3発快勝 森保監督通算100試合目を飾る…鎌田、町野、中村がゴール [久太郎★]
- XやChatGPTで広範囲の通信障害 投稿や閲覧できず [蚤の市★]
- 【芸能】日中関係悪化でエンタメ業界に大ダメージ… JO1の中国でのイベント中止、邦画は公開延期、STARTOアイドルへの影響も [冬月記者★]
- 【インバウンド】中国人観光客の日本での消費額は年間約2兆円超…中国政府は公務員の出張取り消し [1ゲットロボ★]
- 青銅聖闘士のパンチは音速←わかる 白銀聖闘士はその数倍←まぁわかる 黄金聖闘士は光速←は?
- 4時だから窓から4回ちんこ出した
- クマどもが冬眠拒否
- さわやかって
- 生活保護を受けている私だけど、おはようございます。
- 【朗報】ローソン「Мサイズのカップを購入してLサイズのコーヒーを入れてくださいね」 [455031798]
