>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい
探検
文字コード総合スレ part15
451デフォルトの名無しさん
2025/08/23(土) 12:45:02.17ID:0WleoknD452デフォルトの名無しさん
2025/08/23(土) 14:58:11.95ID:/wnxORck あ、すみません
> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首(補助)に登場するのは事実ですが
> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首(補助)に登場するのは事実ですが
453デフォルトの名無しさん
2025/08/23(土) 15:25:52.11ID:0WleoknD >>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形
454デフォルトの名無しさん
2025/08/23(土) 15:38:45.17ID:/wnxORck455デフォルトの名無しさん
2025/08/23(土) 15:54:04.18ID:/wnxORck456デフォルトの名無しさん
2025/08/25(月) 08:21:51.64ID:y+b0tsbW 今回の話はほぼ部首由来だけど、そうでないのも少しありそう
U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」
ここらへんの文字がちゃんと扱えるのかのテストでもある
U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」
ここらへんの文字がちゃんと扱えるのかのテストでもある
457デフォルトの名無しさん
2025/08/25(月) 08:51:42.49ID:y+b0tsbW ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか
まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか
まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある
458デフォルトの名無しさん
2025/08/25(月) 08:56:46.72ID:4e0IOAiN そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる(IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる
459デフォルトの名無しさん
2025/08/25(月) 15:28:01.56ID:WuqY0NEW460デフォルトの名無しさん
2025/08/25(月) 18:00:18.28ID:4e0IOAiN >>459
U+6B05 は旁の下部が手なのでおいておいて
もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる
IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる
U+6B05 は旁の下部が手なのでおいておいて
もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる
IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる
461デフォルトの名無しさん
2025/08/26(火) 15:23:22.74ID:yhOjjAzx462デフォルトの名無しさん
2025/08/26(火) 17:54:44.18ID:Bsu3S+Ad463デフォルトの名無しさん
2025/09/10(水) 21:44:22.92ID:UOM2W4Ny Unicode 17.0 Release Announcement
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース 〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース 〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html
464デフォルトの名無しさん
2025/09/10(水) 22:23:52.97ID:I5buXTbc465デフォルトの名無しさん
2025/09/10(水) 23:25:55.02ID:qn6dqRwx466デフォルトの名無しさん
2025/09/11(木) 14:48:21.23ID:/BCensIn >>464
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw
絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw
絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった
467デフォルトの名無しさん
2025/09/11(木) 15:09:06.69ID:UUDIZIcP468デフォルトの名無しさん
2025/09/15(月) 20:12:18.82ID:oqgL1+ac >>464
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?
469デフォルトの名無しさん
2025/09/16(火) 03:15:46.45ID:HhaKFttb470デフォルトの名無しさん
2025/09/17(水) 13:27:21.24ID:JKPLurCd >>469
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね
ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね
ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ
471デフォルトの名無しさん
2025/11/07(金) 08:24:41.35ID:Su4lsdFM macOS 26 Tahoeアップグレード後に、正規化形式(NFD/NFC)の不具合により日本語環境でNASに接続されたTime Machineバックアップが行えない問題はmacOS 26.1でも修正されていないので注意を。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html
Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html
Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。
472デフォルトの名無しさん
2025/11/10(月) 05:32:30.23ID:CxzRdolU >>471
macOSの正規化の問題はもはや定期
macOSの正規化の問題はもはや定期
473デフォルトの名無しさん
2025/11/18(火) 16:46:15.76ID:MyYbum19 なんかMac上のAdobeのアプリが動かなくなってるらしいけどけどパス関連
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある
474デフォルトの名無しさん
2025/11/19(水) 19:08:44.33ID:ZdmqM0ve475デフォルトの名無しさん
2025/11/27(木) 22:04:02.60ID:GJJrzAsD AIにテキストが読み取られるのを防ぐために目に見えないUnicode文字を挿入する「Gibberifier」
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/
文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。
Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/
文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。
Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です
476デフォルトの名無しさん
2025/11/27(木) 22:14:49.16ID:iCPj88WE HTMLや画像でも文章認識できるのは前処理してるからで
こんなもん瞬で対策されておわりでしょ
こんなもん瞬で対策されておわりでしょ
477デフォルトの名無しさん
2025/12/10(水) 11:51:06.42ID:yiGhfSNm 皆さんUTF-8 code pageでのテストしましょう
Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234
Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234
478デフォルトの名無しさん
2025/12/10(水) 12:14:52.51ID:bincyYU2 Windows で BOM 付き UTF-8 使った時にバグるのか。
ちゃんと実装できないんなら滅んでしまえ
ちゃんと実装できないんなら滅んでしまえ
479デフォルトの名無しさん
2025/12/10(水) 21:28:59.81ID:iFFXWT3a NPP v8.8.6 32bitでは再現出来なかった
480デフォルトの名無しさん
2025/12/11(木) 00:51:43.45ID:Y1AYgkFO >>479
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど
481デフォルトの名無しさん
2025/12/11(木) 04:34:26.04ID:m6irsJON そういえば少し前ベンダーから送られてくるログがやたら文字化けしていて
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ
482デフォルトの名無しさん
2025/12/11(木) 06:20:41.73ID:Dn+T9u5Z ちゃんと見て原因を特定しないお前のような奴がいる限り無理だろ
レスを投稿する
ニュース
- アメリカ、入国時に「日本人を含む外国人観光客の最大5年分のSNS履歴の提出」義務化 過去10年間に使用のメールアドレスや電話番号等も [Hitzeschleier★]
- 【おこめ】「有能だったんじゃ」おこめ券で批判殺到の鈴木農水大臣…ネットでは前任の“進次郎再評価” [ぐれ★]
- 【今年の漢字】吉村維新代表「成」 万博成功、連立で政策成す [蚤の市★]
- 「もうキモくてキモくて…」29歳女性が語る“おぢアタック”の実態。「俺ならイケるかも」年下女性を狙う勘違い中年男性に共通点が★3 [Hitzeschleier★]
- 【中国外務省】日本への渡航自粛を再度呼びかけ 今度は「地震発生」を理由に [ぐれ★]
- 日本語が話せない「外国籍」の子が急増中、授業がストップ、教室から脱走も…先生にも大きな負担「日本語支援」追いつかず★3 [七波羅探題★]
- 日本人、世界で最もブランドに興味なし🇯🇵 [462275543]
- 息子の名前を「大帝(かーる)」にしようと思うんだけど
- 【悲報】たぬかなが渡邊渚を壮絶バッシング 「グラビア出したあたりから臭いな~と思ってたが激臭になってたわ。中居は悪くない」 [455031798]
- 日本に旅行来てる中国人減ったとか言ったの誰だよ
- 【悲報】高市、長期金利上昇よりも補正予算成立の方が大事と言い放ってしまうWWWWWWWWWWWWWWWWWWWWWW
- 【悲報】鈴木農水大臣、国民から「こいつひょっとしてアホなんじゃね?」と思われ始めてしまうwww [793117252]
