>>450
> 「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな
なるほど、そんな感じですかね
文字コード総合スレ part15
454デフォルトの名無しさん
2025/08/23(土) 15:38:45.17ID:/wnxORck455デフォルトの名無しさん
2025/08/23(土) 15:54:04.18ID:/wnxORck456デフォルトの名無しさん
2025/08/25(月) 08:21:51.64ID:y+b0tsbW 今回の話はほぼ部首由来だけど、そうでないのも少しありそう
U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」
ここらへんの文字がちゃんと扱えるのかのテストでもある
U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」
ここらへんの文字がちゃんと扱えるのかのテストでもある
457デフォルトの名無しさん
2025/08/25(月) 08:51:42.49ID:y+b0tsbW ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか
まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか
まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある
458デフォルトの名無しさん
2025/08/25(月) 08:56:46.72ID:4e0IOAiN そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる(IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる
459デフォルトの名無しさん
2025/08/25(月) 15:28:01.56ID:WuqY0NEW460デフォルトの名無しさん
2025/08/25(月) 18:00:18.28ID:4e0IOAiN >>459
U+6B05 は旁の下部が手なのでおいておいて
もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる
IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる
U+6B05 は旁の下部が手なのでおいておいて
もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる
IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる
461デフォルトの名無しさん
2025/08/26(火) 15:23:22.74ID:yhOjjAzx462デフォルトの名無しさん
2025/08/26(火) 17:54:44.18ID:Bsu3S+Ad463デフォルトの名無しさん
2025/09/10(水) 21:44:22.92ID:UOM2W4Ny Unicode 17.0 Release Announcement
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース 〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース 〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html
464デフォルトの名無しさん
2025/09/10(水) 22:23:52.97ID:I5buXTbc465デフォルトの名無しさん
2025/09/10(水) 23:25:55.02ID:qn6dqRwx466デフォルトの名無しさん
2025/09/11(木) 14:48:21.23ID:/BCensIn >>464
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw
絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw
絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった
467デフォルトの名無しさん
2025/09/11(木) 15:09:06.69ID:UUDIZIcP468デフォルトの名無しさん
2025/09/15(月) 20:12:18.82ID:oqgL1+ac >>464
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?
469デフォルトの名無しさん
2025/09/16(火) 03:15:46.45ID:HhaKFttb470デフォルトの名無しさん
2025/09/17(水) 13:27:21.24ID:JKPLurCd >>469
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね
ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね
ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ
471デフォルトの名無しさん
2025/11/07(金) 08:24:41.35ID:Su4lsdFM macOS 26 Tahoeアップグレード後に、正規化形式(NFD/NFC)の不具合により日本語環境でNASに接続されたTime Machineバックアップが行えない問題はmacOS 26.1でも修正されていないので注意を。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html
Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。
https://applech2.com/archives/20251106-time-machine-bug-still-unresolved-on-macos-26-1-tahoe.html
Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。
472デフォルトの名無しさん
2025/11/10(月) 05:32:30.23ID:CxzRdolU >>471
macOSの正規化の問題はもはや定期
macOSの正規化の問題はもはや定期
473デフォルトの名無しさん
2025/11/18(火) 16:46:15.76ID:MyYbum19 なんかMac上のAdobeのアプリが動かなくなってるらしいけどけどパス関連
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある
474デフォルトの名無しさん
2025/11/19(水) 19:08:44.33ID:ZdmqM0ve475デフォルトの名無しさん
2025/11/27(木) 22:04:02.60ID:GJJrzAsD AIにテキストが読み取られるのを防ぐために目に見えないUnicode文字を挿入する「Gibberifier」
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/
文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。
Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です
https://gigazine.net/news/20251126-gibberifier-stun-llm-random-unicode/
文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。
Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です
476デフォルトの名無しさん
2025/11/27(木) 22:14:49.16ID:iCPj88WE HTMLや画像でも文章認識できるのは前処理してるからで
こんなもん瞬で対策されておわりでしょ
こんなもん瞬で対策されておわりでしょ
477デフォルトの名無しさん
2025/12/10(水) 11:51:06.42ID:yiGhfSNm 皆さんUTF-8 code pageでのテストしましょう
Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234
Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
https://github.com/notepad-plus-plus/notepad-plus-plus/issues/17234
478デフォルトの名無しさん
2025/12/10(水) 12:14:52.51ID:bincyYU2 Windows で BOM 付き UTF-8 使った時にバグるのか。
ちゃんと実装できないんなら滅んでしまえ
ちゃんと実装できないんなら滅んでしまえ
479デフォルトの名無しさん
2025/12/10(水) 21:28:59.81ID:iFFXWT3a NPP v8.8.6 32bitでは再現出来なかった
480デフォルトの名無しさん
2025/12/11(木) 00:51:43.45ID:Y1AYgkFO >>479
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど
481デフォルトの名無しさん
2025/12/11(木) 04:34:26.04ID:m6irsJON そういえば少し前ベンダーから送られてくるログがやたら文字化けしていて
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ
482デフォルトの名無しさん
2025/12/11(木) 06:20:41.73ID:Dn+T9u5Z ちゃんと見て原因を特定しないお前のような奴がいる限り無理だろ
483デフォルトの名無しさん
2025/12/13(土) 06:14:20.73ID:HDRAHpzv >>482
自分がメンテしているソフトウェアで文字化けが発生しているのではなく
ベンダーがログのデータの扱い中になんかやらかしている
ログのデータをそのまんま送るだけでいいのに余計なことすんなと
そんなものに付き合ってるほど暇じゃない
自分がメンテしているソフトウェアで文字化けが発生しているのではなく
ベンダーがログのデータの扱い中になんかやらかしている
ログのデータをそのまんま送るだけでいいのに余計なことすんなと
そんなものに付き合ってるほど暇じゃない
レスを投稿する
ニュース
- 中国・ロシア両軍の爆撃機が東京方面へ向かう「異例のルート」を共同飛行…核も搭載可能、連携して威嚇か [ぐれ★]
- 高市首相の答弁書に「台湾有事答えない」と明記 存立危機発言当時 ★8 [蚤の市★]
- 「中国人の訪日熱は冷めた」 人気旅行先から日本外れる 14日で自粛呼びかけ1カ月 ★3 [蚤の市★]
- 京都のホテル大幅値下げ 訪日中国人客、年1000万人目前で急ブレーキ [蚤の市★]
- 「1800万円の売り上げゼロに…」中国インバウンドに特化の宿の今 ★3 [蚤の市★]
- 【福岡】「50歳くらいの男性が倒れている」血を吐いた状態で歩道に倒れている女性見つかる 女性はその後死亡 事件と事故の両面で捜査 [ぐれ★]
- 議員定数削減法案、廃案へwmwmwmmwmwmwmw [834922174]
- 【悲報】高市早苗、天皇末裔説wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww [904880432]
- 【悲報】高市首相「閣僚時代は怖くて政治資金パーティーを企画できなかった」⇒やってました [115996789]
- 日本人、株高により消費マインドが旺盛になる!今日の買い物は明日の株高で実質ゼロ円! [782460143]
- 保育士、勤務する保育園のお着替えタイムを撮影し逮捕。レッサーパンダ並みの知能しかなさそう [389326466]
- 【悲報】高齢者、マルチコピー機で自分の逮捕状を印刷してしまう [394133584]
