Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
文字コード総合スレ part14
■ このスレッドは過去ログ倉庫に格納されています
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
507デフォルトの名無しさん
2023/12/19(火) 23:28:13.27ID:39X2u1HU それだけあれば十分だな!
508デフォルトの名無しさん
2023/12/20(水) 14:46:55.65ID:YarW/zxr >>506
>しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対
デフォルトで中華フォントを表示させるのに成功した
適当なサンプル
https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/3524120/e95e7364-7f46-9c34-a037-330f229ac823.png
https://qiita.com/kominato_slj/items/bbe0ae1445d8394d95bf
>しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対
デフォルトで中華フォントを表示させるのに成功した
適当なサンプル
https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/3524120/e95e7364-7f46-9c34-a037-330f229ac823.png
https://qiita.com/kominato_slj/items/bbe0ae1445d8394d95bf
509デフォルトの名無しさん
2023/12/20(水) 14:57:22.31ID:bsiqnAom デフォでCJKフォントになるのまじで敗北
いちいち手をいれるの面倒なのはわかるけど
チラシやオフィス文書で頻繁にみかけるし気分悪い
いちいち手をいれるの面倒なのはわかるけど
チラシやオフィス文書で頻繁にみかけるし気分悪い
510デフォルトの名無しさん
2023/12/20(水) 16:44:38.02ID:qByD057F ChatGPTに頼ってもFlutterでは中華フォント対策コードにはならない
て言うか明らかにフォントがおかしいのが気にならないのかよ
https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/215011/72c9d7de-2c2b-44c8-7981-52080d8fb313.png
https://qiita.com/asasigure/items/ea751ec73689e5fc7a41
https://github.com/asasigure1209/my-memo-app/blob/82a89d1fceec4a793294eaffc396e2d1432daa38/lib/main.dart#L19
て言うか明らかにフォントがおかしいのが気にならないのかよ
https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/215011/72c9d7de-2c2b-44c8-7981-52080d8fb313.png
https://qiita.com/asasigure/items/ea751ec73689e5fc7a41
https://github.com/asasigure1209/my-memo-app/blob/82a89d1fceec4a793294eaffc396e2d1432daa38/lib/main.dart#L19
511デフォルトの名無しさん
2023/12/22(金) 12:48:42.21ID:aQcDRAHL 奴ら平仮名も持ってるから日本語のフォントに来ないってことかな
最初の優先順位はどうやって決まるんだっけ。文字数?
最初の優先順位はどうやって決まるんだっけ。文字数?
512デフォルトの名無しさん
2023/12/22(金) 17:48:45.93ID:EF50Jr08 Flutter民「おもちゃアプリで細かい事を言われても困ります」(真顔)
513デフォルトの名無しさん
2023/12/23(土) 02:14:34.25ID:BVNJrzoJ 台湾行ったら看板とかでたまにひらがな使ってた。日本でちょっと英語を使うようなノリなのか?
ということは台湾のフォントにひらがなが入っていることもあるか
日本語のフォントだって英語が入ってるものなあ
ということは台湾のフォントにひらがなが入っていることもあるか
日本語のフォントだって英語が入ってるものなあ
514デフォルトの名無しさん
2023/12/23(土) 17:37:20.90ID:O5/zwK5J515デフォルトの名無しさん
2023/12/24(日) 15:05:39.67ID:cW5CG4wL CJK一緒くたにされてるからUnicode用のフォントなら一般的にひらがな入ってる
いまとなっては日本だけフォントグリフがローカルで特殊
これであってる?
いまとなっては日本だけフォントグリフがローカルで特殊
これであってる?
516デフォルトの名無しさん
2023/12/25(月) 03:12:48.56ID:BLDGJCrU 日本語のテキストに日本語のフォントが使われるには
1) テキストが日本語だと判定されて 2) 日本語にはこのフォントを使うという情報
が必要。だけどこの場合そうなってない
で、例えばテキスト中の文字をサポートできるフォントを選ぶ、だけのロジックだと
テキストは日本語でも中国や台湾のフォントにも行っちゃう
というわけで
Flutterのフォントシステムというのは1)と2)はどうなってるんかなと
あるいはそれはFlutterが走ってるOSの役割なのかな、とかちょっと気になったのですが
1) テキストが日本語だと判定されて 2) 日本語にはこのフォントを使うという情報
が必要。だけどこの場合そうなってない
で、例えばテキスト中の文字をサポートできるフォントを選ぶ、だけのロジックだと
テキストは日本語でも中国や台湾のフォントにも行っちゃう
というわけで
Flutterのフォントシステムというのは1)と2)はどうなってるんかなと
あるいはそれはFlutterが走ってるOSの役割なのかな、とかちょっと気になったのですが
517デフォルトの名無しさん
2023/12/25(月) 07:58:07.34ID:bSYpeLlg HTMLならlang属性を指定している範囲がその言語
HTMLの英語使用部分にはlang=en
日本語使用部分にはlang=jaを指定する
入れ子も可能で<html lang=ja>と全体を日本語に指定しつつ
一部のパラグラフを<p lang=zh-CN>と中国語簡体字にすることも可能
全くlangが無指定ならunknownとなりそのHTMLを取り扱っている環境に委ねられる
HTMLを生成する側はその部分が例えば日本語かどうか認識できるためlang=jaを指定するべきである
HTMLの英語使用部分にはlang=en
日本語使用部分にはlang=jaを指定する
入れ子も可能で<html lang=ja>と全体を日本語に指定しつつ
一部のパラグラフを<p lang=zh-CN>と中国語簡体字にすることも可能
全くlangが無指定ならunknownとなりそのHTMLを取り扱っている環境に委ねられる
HTMLを生成する側はその部分が例えば日本語かどうか認識できるためlang=jaを指定するべきである
518デフォルトの名無しさん
2023/12/25(月) 13:20:40.37ID:0Mvm6Xuj Unicode 以前の古い時代の、中国、台湾、韓国の国家規格の文字コードにも平仮名、片仮名は入っていて向こうの MS-DOS とかでも使えてた。
JIS の文字コードにキリル文字(ロシアの文字)とか入ってるのと同じようなもんだ。
JIS の文字コードにキリル文字(ロシアの文字)とか入ってるのと同じようなもんだ。
519デフォルトの名無しさん
2023/12/25(月) 13:22:55.99ID:0Mvm6Xuj 当然、大昔の中国フォントや韓国フォントにも平仮名や片仮名がはいっている
520デフォルトの名無しさん
2023/12/25(月) 18:36:31.84ID:hM8jXSPc >>515
Flutter民「日本だけフォントグリフがローカルで特殊」(迫真)
Flutter民「日本だけフォントグリフがローカルで特殊」(迫真)
521デフォルトの名無しさん
2023/12/25(月) 22:38:31.42ID:BLDGJCrU 例えばロシアの人もキリル文字に日本語フォントが使われてしまいコレジャナイ感を
感じることがあったりするんだろうか
(日本語フォントに入っているのは全角文字とのバランスを意識したデザインだったりする)
感じることがあったりするんだろうか
(日本語フォントに入っているのは全角文字とのバランスを意識したデザインだったりする)
522デフォルトの名無しさん
2023/12/26(火) 10:43:12.38ID:gc47Sdem523デフォルトの名無しさん
2023/12/26(火) 22:03:56.06ID:AOFB3Nmz Flutterは言語が他で馴染みの薄いDartだから横一線での再スタート感があった。
一部を除いて、そんな動機で参加する再初心者が増えただけだから、
結局は一般知識の差や意識の低さがそこかしこで露になる。
一部を除いて、そんな動機で参加する再初心者が増えただけだから、
結局は一般知識の差や意識の低さがそこかしこで露になる。
524デフォルトの名無しさん
2024/01/01(月) 09:42:44.69ID:uj2mjMNR https://qiita.com/ko1nksm/items/4907c1c88d478cac0be5
POSIX では Unicode を含むマルチバイトのロケールの文字に対応することになっていますが、現実的には対応していないコマンドがあります。商用 Unix はおそらく対応しているはずですが、Linux(GNU コマンド)や BSD 系 Unix では対応していない場合があります。Linux や BSD 系 Unix は POSIX に準拠していると主張してないので、完全対応していなくてもそういうものとして扱うしかありません。
さらに Unicode は数年おきにバージョンアップされます。最初のバージョンは 1991 年の 1.0 で収録されている文字は 7,129 文字です。現在の最新バージョンは 2023 年の 15.1 で収録されている文字は 149,813 文字です。収録されている文字の違いはソート順などに影響します。
それぞれの環境で Unicode への対応は異なり、ロケールに従えば環境ごとで結果が異なる可能性があり、ロケールに従わなければ(C ロケールでバイナリとして扱う)、一文字を一文字として扱うことができません。これを解決すると思われる C.UTF-8 ロケールは環境によって対応していない場合がありますし、話を最初に戻すと環境によってマルチバイトのロケールに対応していないコマンドがあります。
UNIX コマンドはマルチバイトという概念がなかった頃から互換性を保ちながら存在し続けており、その結果 Unicode への対応は中途半端で一貫性がない状態です。
POSIX では Unicode を含むマルチバイトのロケールの文字に対応することになっていますが、現実的には対応していないコマンドがあります。商用 Unix はおそらく対応しているはずですが、Linux(GNU コマンド)や BSD 系 Unix では対応していない場合があります。Linux や BSD 系 Unix は POSIX に準拠していると主張してないので、完全対応していなくてもそういうものとして扱うしかありません。
さらに Unicode は数年おきにバージョンアップされます。最初のバージョンは 1991 年の 1.0 で収録されている文字は 7,129 文字です。現在の最新バージョンは 2023 年の 15.1 で収録されている文字は 149,813 文字です。収録されている文字の違いはソート順などに影響します。
それぞれの環境で Unicode への対応は異なり、ロケールに従えば環境ごとで結果が異なる可能性があり、ロケールに従わなければ(C ロケールでバイナリとして扱う)、一文字を一文字として扱うことができません。これを解決すると思われる C.UTF-8 ロケールは環境によって対応していない場合がありますし、話を最初に戻すと環境によってマルチバイトのロケールに対応していないコマンドがあります。
UNIX コマンドはマルチバイトという概念がなかった頃から互換性を保ちながら存在し続けており、その結果 Unicode への対応は中途半端で一貫性がない状態です。
525デフォルトの名無しさん
2024/01/01(月) 15:59:51.88ID:rZ1QEI03 ほとんどのコマンドがUTF-8をバイトストリーム扱いして実害ないのもある
文字列捕捉するときもASCIIで区切れれば十分だし
文字列捕捉するときもASCIIで区切れれば十分だし
526デフォルトの名無しさん
2024/01/04(木) 12:49:20.33ID:Ci8pMMwx 最初の節だけでも書いてる人間の質の低さが読み取れるけど、閉じようとして横のスクロールバーを見たらさらに驚いた
>>524もこんなもん張ってないでもうちょいマシな事せーよ
>>524もこんなもん張ってないでもうちょいマシな事せーよ
527デフォルトの名無しさん
2024/01/15(月) 10:21:35.41ID:lmEiIC90 ガムランとかフォルクローレを聴いてる女子小学生とか渋すぎやろ
まあ俺も小学生の頃に、渡辺貞夫、日野皓正、高中正義、阿川泰子
カシオペア、喜多郎、ヒロシマ、坂本龍一、姫神、ラリー・カールトン
なんか聴いてたが
まあ俺も小学生の頃に、渡辺貞夫、日野皓正、高中正義、阿川泰子
カシオペア、喜多郎、ヒロシマ、坂本龍一、姫神、ラリー・カールトン
なんか聴いてたが
528デフォルトの名無しさん
2024/01/15(月) 10:22:10.79ID:lmEiIC90 誤爆
529デフォルトの名無しさん
2024/01/25(木) 15:00:29.08ID:J/hIWPaa 漢数字の〇に親を殺されました。憎くて仕方がないのでunicodeから消してください
530デフォルトの名無しさん
2024/01/28(日) 08:46:58.18ID:P/o+j6FX ○を打とうとして〇を打ち込む国民が大半になってしまった。
中国人が日本語のIMEを作っているからこうなる。
日本の日本人にやらせろよ、マイクロソフトのクソは。
中国人が日本語のIMEを作っているからこうなる。
日本の日本人にやらせろよ、マイクロソフトのクソは。
531デフォルトの名無しさん
2024/01/28(日) 21:48:45.91ID:2It1lSCU IMEは中国開発ってホント? 修正プログラムで賢くなった? Office IME 2007 6の疑問
https://ascii.jp/elem/000/000/195/195021/
Q2
日本語IMEの開発は中国で行なわれているって本当?
A2
日本語IMEの開発は、日本で行なわれている。同社インプット メソッド テクノロジー シニアマネージャの佐藤良治氏によると、IME 2007以前のプロトタイプ開発の際には、日本だけでなく米国レドモントと中国北京にあるMicrosoft Researchとの共同作業が行なわれたという。それが誤解して伝わっているようだ。
日本でのIME開発は専任チームを置いて、ほかのアプリケーション開発と同じように独自に行なっているという。IME開発は日本のほかに、韓国、中国、台湾にチームがあって、各言語に依存しない要素(OSとのインターフェースなど)の開発は、これら4チームによる共同作業で行なわれている。専任チームの規模は日本が最も大きいとのことだ。
https://ascii.jp/elem/000/000/195/195021/
Q2
日本語IMEの開発は中国で行なわれているって本当?
A2
日本語IMEの開発は、日本で行なわれている。同社インプット メソッド テクノロジー シニアマネージャの佐藤良治氏によると、IME 2007以前のプロトタイプ開発の際には、日本だけでなく米国レドモントと中国北京にあるMicrosoft Researchとの共同作業が行なわれたという。それが誤解して伝わっているようだ。
日本でのIME開発は専任チームを置いて、ほかのアプリケーション開発と同じように独自に行なっているという。IME開発は日本のほかに、韓国、中国、台湾にチームがあって、各言語に依存しない要素(OSとのインターフェースなど)の開発は、これら4チームによる共同作業で行なわれている。専任チームの規模は日本が最も大きいとのことだ。
532デフォルトの名無しさん
2024/02/06(火) 23:59:02.95ID:KyZjavzD メールでもヘッダーと本文でSMTPUTF8を使い、添付ファイルもBINARYMIMEを使って
8bitのデータをBase64などでエンコードせずにそのまま送れるのが当たり前になったらいいと思うが
この方式で送るメーラーはあるんだろうか?
メールの容量を小さくできる利点があるのに
互換性のために8bitデータは従来通りMIMEとBase64でエンコードしているメーラーが多いんじゃないだろうか
8bitのデータをBase64などでエンコードせずにそのまま送れるのが当たり前になったらいいと思うが
この方式で送るメーラーはあるんだろうか?
メールの容量を小さくできる利点があるのに
互換性のために8bitデータは従来通りMIMEとBase64でエンコードしているメーラーが多いんじゃないだろうか
533デフォルトの名無しさん
2024/02/07(水) 01:54:51.06ID:56hk09Wt Eメールアドレスのアカウント部分に「smtp」という文字列を使ったEメールが最近、届いたわ。
534デフォルトの名無しさん
2024/02/07(水) 01:57:32.65ID:56hk09Wt >>531
Windows 10よりも前は、固有名詞は頑なに変換候補に出さなかったぞ。
Windows 10よりも前は、固有名詞は頑なに変換候補に出さなかったぞ。
535デフォルトの名無しさん
2024/02/07(水) 12:10:40.26ID:y0HVimwG 出さなかったでなく出せなかった
海外製だったので
海外製だったので
536デフォルトの名無しさん
2024/02/07(水) 14:45:22.80ID:QiUY0uKk >>534
どうやったらそんなウソがつけるんだよいくらか脳ミソ欠損してんのか?w
どうやったらそんなウソがつけるんだよいくらか脳ミソ欠損してんのか?w
537デフォルトの名無しさん
2024/02/08(木) 18:57:22.19ID:T36ggrXR538デフォルトの名無しさん
2024/02/08(木) 21:27:00.01ID:uc+wYlaj IMEの話はIMEスレでどうぞ
【Microsoft IME】MS-IME Part15【Office IME】
https://mevius.5ch.net/test/read.cgi/win/1502601208/
【Microsoft IME】MS-IME Part15【Office IME】
https://mevius.5ch.net/test/read.cgi/win/1502601208/
539デフォルトの名無しさん
2024/02/08(木) 22:08:35.18ID:BRY6swFg 文を書くとき濁点や半濁点は結合済み文字にするか通常の文字と濁点・半濁点を結合して使うかということと
()?などの記号類をASCII文字にするか全角文字にするか悩む
()?などの記号類をASCII文字にするか全角文字にするか悩む
540デフォルトの名無しさん
2024/02/09(金) 00:11:16.67ID:tjbjc/kZ 結合済み文字で良いのでは?
普通は一々、結合しないよね
普通は一々、結合しないよね
541デフォルトの名無しさん
2024/02/09(金) 01:31:39.40ID:rkpBAVYi たまにWindows上の古いアプリに用事があるのだけど、ファイル名に絵文字が入って
たりすると駄目なのがある。エクスプローラーでは特に問題ないようでも
Windowsは全然わからんのだけど、どこかの時点でファイル名のエンコーディングとか
文字セットとか変わったりしたんですか?
たりすると駄目なのがある。エクスプローラーでは特に問題ないようでも
Windowsは全然わからんのだけど、どこかの時点でファイル名のエンコーディングとか
文字セットとか変わったりしたんですか?
542デフォルトの名無しさん
2024/02/09(金) 01:44:08.30ID:9MJgMFXC 単にUNICODE非対応なだけでは?
新しくても英語圏のソフトだとだめなのもありそう
新しくても英語圏のソフトだとだめなのもありそう
543デフォルトの名無しさん
2024/02/11(日) 18:02:55.68ID:wZuVdUkS ↵の改行マークは下に行ってから左に行くから
LFCRを表しているように見えるが改行コードがLFCRの機種は無いんだよね
CRLFなら左に行ってから下に行く┏のようなマークにするのが正しいのではないだろうか
LFCRを表しているように見えるが改行コードがLFCRの機種は無いんだよね
CRLFなら左に行ってから下に行く┏のようなマークにするのが正しいのではないだろうか
544デフォルトの名無しさん
2024/02/11(日) 18:42:08.50ID:ffsIt6XU リターン(enter)キーに印字されてる記号との兼ね合いもあるだろうし
545デフォルトの名無しさん
2024/02/12(月) 19:50:05.96ID:iH1NbwmP プリンタ端末が遅いから、本当はLFCRだけど、CRを先に送出したんじゃなかったけ?
546デフォルトの名無しさん
2024/02/12(月) 20:47:13.82ID:xjQTASu4 もともとは、タイプライターの動作から来てるからな。
文字をタイプして行末まできたら、送りレバーを右に動かすんだけど、
まず、レバーを押した瞬間に紙を送るドラムが回転して行送り(Line Feed)、
そのままレバーを送ればドラムの載ったキャリッジが右側に移動する(Carriage Return)。
(LFなしのCRのみの動作も可能なモードもある)
この2つを合わせたLFCRが本来の形で、
↵が改行マークなのはこれが影響していると思われる。
改行コードでCRLF(\r\n)になった経緯は、>>545 ということみたいだね。
文字をタイプして行末まできたら、送りレバーを右に動かすんだけど、
まず、レバーを押した瞬間に紙を送るドラムが回転して行送り(Line Feed)、
そのままレバーを送ればドラムの載ったキャリッジが右側に移動する(Carriage Return)。
(LFなしのCRのみの動作も可能なモードもある)
この2つを合わせたLFCRが本来の形で、
↵が改行マークなのはこれが影響していると思われる。
改行コードでCRLF(\r\n)になった経緯は、>>545 ということみたいだね。
547デフォルトの名無しさん
2024/02/13(火) 05:49:18.51ID:qAigZXFI 正規表現だと/nがLFだけではなく改行全般(CR/CRLF/LFの全て)を指している場合があるよね
548デフォルトの名無しさん
2024/02/13(火) 20:51:09.58ID:rkd9ZwON >>541
WindowsはSJISとUTF-16の世界だからな。
WindowsはSJISとUTF-16の世界だからな。
549デフォルトの名無しさん
2024/02/14(水) 02:41:15.71ID:nEDLgv5/ いやWindowsはsjis残ってるけどmultibyteはもうutf8が主流と言っていいでしょ
550デフォルトの名無しさん
2024/02/14(水) 13:25:50.83ID:MjsO/GDn >>549
WindowsはデフォルトがUTF-16だから、BOMがないとUTF-8をUTF-16として扱うことが多い。
WindowsはデフォルトがUTF-16だから、BOMがないとUTF-8をUTF-16として扱うことが多い。
551デフォルトの名無しさん
2024/02/14(水) 14:21:18.91ID:J37aOx7P BOMってことは交換用データの話だとおもうけど
だいぶ前からUTF-8推奨じゃね?
内部データとは別の話
だいぶ前からUTF-8推奨じゃね?
内部データとは別の話
552デフォルトの名無しさん
2024/02/14(水) 19:34:50.64ID:ba/U1l5L 最初APIの話で当然内部コードの話だったんだけど違う話はじめたからな
553デフォルトの名無しさん
2024/02/15(木) 18:14:47.71ID:ecDgnIbp >>551
Windowsそのものの話
Windowsそのものの話
554デフォルトの名無しさん
2024/02/17(土) 21:31:39.77ID:919I6L0E 絵文字同士を結合した文字はOSによっては結合して表示されないから新たな機種依存文字になってるよね
555デフォルトの名無しさん
2024/02/17(土) 21:49:18.90ID:5TKLtUC1 機種?
556デフォルトの名無しさん
2024/02/18(日) 00:28:41.00ID:JX7gxI3D 文字幅が実行時にやってみないと確定しないのはマジで困るし非効率すぎるよな
557デフォルトの名無しさん
2024/02/19(月) 14:52:55.18ID:DKEFCHRN 市民への郵送物、JISコード外の氏名が文字化け さいたま市が謝罪
https://www.itmedia.co.jp/news/articles/2402/19/news091.html
発送した12万通のうち4438通で、JIS規格の文字コードに含まれない外字を含む氏名について、正しい漢字が適用されなかったという。
対象の郵送物は「さいたま市物価高騰対応重点支援給付金のお知らせ」。
給付金に関する事務を受託している事業者が、外字を適正に印字する設定を誤ったため文字化けが起きたという。
https://www.itmedia.co.jp/news/articles/2402/19/news091.html
発送した12万通のうち4438通で、JIS規格の文字コードに含まれない外字を含む氏名について、正しい漢字が適用されなかったという。
対象の郵送物は「さいたま市物価高騰対応重点支援給付金のお知らせ」。
給付金に関する事務を受託している事業者が、外字を適正に印字する設定を誤ったため文字化けが起きたという。
558デフォルトの名無しさん
2024/02/19(月) 15:01:56.94ID:W0+AhDGC 書き間違いで大量に発生したニセ漢字は今後使用禁止とするのがいいのかな
外字も必要なくなり皆がハッピー
外字も必要なくなり皆がハッピー
559デフォルトの名無しさん
2024/02/19(月) 15:09:57.93ID:nUsGqOzK 文字化けと言っても記号列の様な感じじゃなく中華フォントになったのだろう
普段から一部の粗悪アプリで中華フォントを見させれれてる弊害だな
普段から一部の粗悪アプリで中華フォントを見させれれてる弊害だな
560デフォルトの名無しさん
2024/02/19(月) 15:17:29.77ID:W0+AhDGC 外字とあるから
書き間違いで戸籍などに登録された、
書き間違いニセ漢字のことだと思うよ
書き間違いで戸籍などに登録された、
書き間違いニセ漢字のことだと思うよ
561デフォルトの名無しさん
2024/02/19(月) 15:31:19.40ID:rXkcKh1e Unicodeも振られていない「外字」が4%弱の人名に使われてるとは思わないけどね
どうなの?
どうなの?
562デフォルトの名無しさん
2024/02/19(月) 16:04:50.11ID:Z5993mnd > 2月9日(金曜日)に委託事業者から納品された通知を、郵便局に差し出すために仕分けをしている際に、
> 市職員が外字が正しく適用できていない通知を発見したことで覚知しました。
記号列(◇の中に?等)タイプだと委託業者や印刷所が気が付く可能性が高いから
ワタナベやサイトウ等のIVSを反映してなかった、と言う可能性はあるかも
チェックした職員はGJだな、普段から外字を気に掛けてるのだろう
> 市職員が外字が正しく適用できていない通知を発見したことで覚知しました。
記号列(◇の中に?等)タイプだと委託業者や印刷所が気が付く可能性が高いから
ワタナベやサイトウ等のIVSを反映してなかった、と言う可能性はあるかも
チェックした職員はGJだな、普段から外字を気に掛けてるのだろう
563デフォルトの名無しさん
2024/02/19(月) 16:29:42.83ID:wagphOU/ 右から左に字を書く文化圏でもBackSpaceやEnterキーの矢印は右から左なんだよね
564デフォルトの名無しさん
2024/02/20(火) 00:03:22.85ID:HesmWnzZ そりゃそうだろうよ
565デフォルトの名無しさん
2024/02/20(火) 08:17:36.44ID:72vUKQN+ >>563
え? 某OS上の某キーボードの中の人だったが、逆向きにしたぞ
UIは基本的に左右が逆
あと、括弧や不等号を入力すると逆向きになったりする
おかげで一時期頭がアラビア語脳だった
しかし、日本も戦争に負けなければ「右から左に文字を書く文化圏」なんて
他人事じゃなかったはず
アメ公のせいじゃけんのう。くやしいのう
え? 某OS上の某キーボードの中の人だったが、逆向きにしたぞ
UIは基本的に左右が逆
あと、括弧や不等号を入力すると逆向きになったりする
おかげで一時期頭がアラビア語脳だった
しかし、日本も戦争に負けなければ「右から左に文字を書く文化圏」なんて
他人事じゃなかったはず
アメ公のせいじゃけんのう。くやしいのう
566デフォルトの名無しさん
2024/02/21(水) 00:09:55.88ID:Tatd9Vu2 あれ、でも実はそうかな?
念の為、競合の某大手のもチェック.... OK,、仲間発見。
焦るじゃないか。いい加減なこと言うんじゃない
念の為、競合の某大手のもチェック.... OK,、仲間発見。
焦るじゃないか。いい加減なこと言うんじゃない
567デフォルトの名無しさん
2024/02/21(水) 00:24:01.03ID:Tatd9Vu2 ああ、OSによってはリターンキーのデザインとかキーボードの言語でなく
UIの言語で決めていたのもあったような気がするな
くそっ、俺にとって今はどうでもいい事なのに気になるじゃないかw
UIの言語で決めていたのもあったような気がするな
くそっ、俺にとって今はどうでもいい事なのに気になるじゃないかw
568デフォルトの名無しさん
2024/02/23(金) 13:32:00.44ID:y/vtB73j569デフォルトの名無しさん
2024/02/23(金) 14:11:14.91ID:zZg+pKnE 文字は右から左だけど、数字は左から右だったような
日本語で表現すると「すーまりいはータッリ30ンリソガ」みたいな感じ
日本語で表現すると「すーまりいはータッリ30ンリソガ」みたいな感じ
570デフォルトの名無しさん
2024/02/23(金) 14:21:21.57ID:7PfXlp3P 数字をリトルエンディアンで表記していると考えると自然。
571デフォルトの名無しさん
2024/02/23(金) 23:20:37.86ID:ZR6D6MGM 日本語は中国語と同様に元々縦書きで右から左に行が移る言語なので、横書きした場合は右から左に書いていた。1行の長さが1文字になったみたいな感覚だ。だから戦前戦中は横書きというと右から左に書いてあるのが多い。
これが左から右の英語と同じようにした理由は戦後英語から翻訳した文を下に書く時に見易いから。
これが左から右の英語と同じようにした理由は戦後英語から翻訳した文を下に書く時に見易いから。
572デフォルトの名無しさん
2024/02/23(金) 23:36:24.87ID:BOi6B7hI 左から右の横書きは戦後ではなくそれよりもずっと前からだよ
あくまで右から左がなくなったのが戦後というだけの話
あくまで右から左がなくなったのが戦後というだけの話
573デフォルトの名無しさん
2024/02/24(土) 21:11:27.48ID:hGTo+fc5574デフォルトの名無しさん
2024/02/25(日) 21:12:56.55ID:Cch9zGyp575デフォルトの名無しさん
2024/02/25(日) 23:52:14.62ID:IA0XC+Pj >>574
アラビア文字のおハナシ
アラビア文字のおハナシ
576デフォルトの名無しさん
2024/02/27(火) 11:38:12.52ID:EbapOQdH >>575
もちろんそうですが何か? というか右->左の言語一般かな。ヘブライとかも
難しいのは言語の境界で、例えば「ガソリン30はいりまーす」だとして、
「ガソリン」が英語、「30はいりまーす」が日本語(右->左)だと思えば
「すーまりいは30ガソリン」となるが、「ガソリン30」で区切れると判断してしまうと
「すーまりいはガソリン30」と、違う結果になってしまう
あるあるだよね〜
もちろんそうですが何か? というか右->左の言語一般かな。ヘブライとかも
難しいのは言語の境界で、例えば「ガソリン30はいりまーす」だとして、
「ガソリン」が英語、「30はいりまーす」が日本語(右->左)だと思えば
「すーまりいは30ガソリン」となるが、「ガソリン30」で区切れると判断してしまうと
「すーまりいはガソリン30」と、違う結果になってしまう
あるあるだよね〜
577デフォルトの名無しさん
2024/02/27(火) 14:32:58.93ID:0J04Un9A 縦日
に本
書語
けな
ら
に本
書語
けな
ら
578デフォルトの名無しさん
2024/02/28(水) 01:29:44.98ID:anWSvM2g MS-IMEのせいで丸印が、漢数字の零(ゼロ)に置き換わってしまった。
日本マイクロソフトは常に中国人に日本語を担当させているから、取り返しのつかない事態になってしまった。
日本マイクロソフトは常に中国人に日本語を担当させているから、取り返しのつかない事態になってしまった。
579デフォルトの名無しさん
2024/02/28(水) 15:41:15.50ID:lyPNcJHE 嘘も百回言えば真実となるってやつか
580デフォルトの名無しさん
2024/02/28(水) 19:33:10.15ID:anWSvM2g 漢数字はフォントによっては真円じゃないからな。
潰れた丸印だと何これと思う未来がみえる。
潰れた丸印だと何これと思う未来がみえる。
581デフォルトの名無しさん
2024/03/05(火) 01:45:14.40ID:7S/8Mxza 区切り文字としてHorizontal Tabは使われているが
Vertical TabはTSV形式でも使われていないよね
他にも0x1C-0x1FのFS GS RS USも区切り文字として想定されているのに使われていない
Vertical TabはTSV形式でも使われていないよね
他にも0x1C-0x1FのFS GS RS USも区切り文字として想定されているのに使われていない
582デフォルトの名無しさん
2024/03/05(火) 18:49:24.75ID:AgmV2Z5M oO0◯○。゜❍〇⁰
583デフォルトの名無しさん
2024/03/07(木) 05:14:15.03ID:bENjjFCg UTF-8で記号がたくさん登録されてしまったのも問題だよな
ハイフンのような横棒は種類がたくさんあって、文字フォントの見た目では区別できなようなものもある。
ハイフンのような横棒は種類がたくさんあって、文字フォントの見た目では区別できなようなものもある。
584デフォルトの名無しさん
2024/03/07(木) 16:55:28.90ID:vq4kvo+w それよりもはるかに深刻なのはスペースに見える文字がたくさんあって
スペースを取り除くプログラムを書くのが不可能に近い
スペースを取り除くプログラムを書くのが不可能に近い
585デフォルトの名無しさん
2024/03/07(木) 17:41:11.51ID:Km2D9ufH \s \p{Zs}以外は知りませんではダメ?
586デフォルトの名無しさん
2024/03/08(金) 17:23:14.35ID:LipF0GJv >>584
近いだけで不可能ではないので大丈夫
近いだけで不可能ではないので大丈夫
587デフォルトの名無しさん
2024/03/09(土) 19:20:37.58ID:xWVzZbl0 Unicodeの正規表現でいける?
588デフォルトの名無しさん
2024/03/09(土) 20:38:58.52ID:v2bDUg3+ 正規表現じゃ無理に近い
素直にブラックリストです
素直にブラックリストです
589デフォルトの名無しさん
2024/03/09(土) 21:24:45.91ID:HJGXBhOf >>587
正規表現はASCII文字くらしか想定していないが、UTF-8のASCII文字限定であれば問題ない。
正規表現はASCII文字くらしか想定していないが、UTF-8のASCII文字限定であれば問題ない。
590デフォルトの名無しさん
2024/03/09(土) 23:16:58.67ID:fHpY/2ik UnicodeProperty「...
591デフォルトの名無しさん
2024/03/10(日) 02:07:22.30ID:XyA7TYUn まだこんなレベルが複数いるとはな
585はなんだとおもってるんだろうか
585はなんだとおもってるんだろうか
592デフォルトの名無しさん
2024/03/15(金) 23:58:29.83ID:AJ1aqVjx FS GS RS USを区切り文字にしている形式はあるんだろうか
593デフォルトの名無しさん
2024/03/16(土) 12:13:18.07ID:YNOid1to 文字列の16進コードでも正規表現できればわかりやすくなる
何語でもよくなる
何語でもよくなる
594デフォルトの名無しさん
2024/03/16(土) 13:00:35.09ID:g4+az/43 わかりやすいか?
595デフォルトの名無しさん
2024/03/22(金) 23:58:21.79ID:3jp6lodI Unicodeのコードポイントが7FFFFFFFではなく10FFFFまでになったのはUTF-16で表せるのが10FFFFまでだから?
596デフォルトの名無しさん
2024/03/23(土) 00:18:21.28ID:2nTsjVrr597デフォルトの名無しさん
2024/03/23(土) 01:10:47.92ID:IkaEn615 >>596
UTF-8 で表現可能な上限が 0x7fffffff だな。
UCS-4 すなわち UTF-32 だと 0xffffffff
UCS-2 だと 0xffff
UTF-16 の上限に合わせているというの合ってる。
UTF-8 で表現可能な上限が 0x7fffffff だな。
UCS-4 すなわち UTF-32 だと 0xffffffff
UCS-2 だと 0xffff
UTF-16 の上限に合わせているというの合ってる。
598デフォルトの名無しさん
2024/03/23(土) 02:34:19.03ID:Wb02QQTi 微妙にかみあってなくて笑う
599デフォルトの名無しさん
2024/03/23(土) 07:47:34.76ID:RuIB3JhE 仮にUTF-8のビットパターンで1バイト目に11111111を使っていいとしたら
その後は10******が8バイト続くことになり48bitまで表現できることになるね
その後は10******が8バイト続くことになり48bitまで表現できることになるね
600デフォルトの名無しさん
2024/03/23(土) 09:10:32.39ID:mSx3lxAx >>593
マルチバイト文字に [] が使えなくて | で書かなきゃならんから少し面倒にはなるな。
マルチバイト文字に [] が使えなくて | で書かなきゃならんから少し面倒にはなるな。
601デフォルトの名無しさん
2024/03/23(土) 11:39:26.85ID:IkaEn615 >>599
未定義なので定義次第。6バイトの次が7バイトや8バイトは限らないので10バイトとか定義すればそのまま64ビットをカバーすることできるし、拡張の余地は残してある。
未定義なので定義次第。6バイトの次が7バイトや8バイトは限らないので10バイトとか定義すればそのまま64ビットをカバーすることできるし、拡張の余地は残してある。
602デフォルトの名無しさん
2024/03/24(日) 09:08:35.50ID:BJcMo4Na >>595
当初UCS-4は最上位ビットをエスケープなどの用途に使い
それを除いた7FFFFFFFまで使用可能にする計画だったはず
しかしUnicodeの上限が10FFFFと決まったためにUCS-4もそれに合わせて10FFFFになったのでは
当初UCS-4は最上位ビットをエスケープなどの用途に使い
それを除いた7FFFFFFFまで使用可能にする計画だったはず
しかしUnicodeの上限が10FFFFと決まったためにUCS-4もそれに合わせて10FFFFになったのでは
603デフォルトの名無しさん
2024/03/30(土) 15:01:07.51ID:7t7x8zZ+ C: \のようにディレクトリの区切りが円マークなのは文字化けの結果なんだよね
C:\のようにバックスラッシュが本来の文字なのに
円マークの方が見慣れていてバックスラッシュだと違和感を感じてしまう
なぜディレクトリ区切りにスラッシュではなくバックスラッシュを採用したんだろうか
C:\のようにバックスラッシュが本来の文字なのに
円マークの方が見慣れていてバックスラッシュだと違和感を感じてしまう
なぜディレクトリ区切りにスラッシュではなくバックスラッシュを採用したんだろうか
604603
2024/03/30(土) 15:05:16.11ID:7t7x8zZ+ 603の1行目でC:の後に0xA5を入れたらバックスラッシュになってしまった・・・
605デフォルトの名無しさん
2024/03/30(土) 15:07:21.72ID:NUhOM3sH 別に文字化けでもないでしょ
バクスラなのはオプションがスラッシュだから
バクスラなのはオプションがスラッシュだから
606デフォルトの名無しさん
2024/03/30(土) 15:16:04.30ID:bmf5qOAu Win32のファイル関連APIはスラッシュでOK
NT APIを直接使う時にはスラッシュはNG
GUIコントロール、ダイアログなどで独自処理してる箇所はスラッシュの考慮漏れ多数
NT APIを直接使う時にはスラッシュはNG
GUIコントロール、ダイアログなどで独自処理してる箇所はスラッシュの考慮漏れ多数
■ このスレッドは過去ログ倉庫に格納されています
ニュース
