文字コード総合スレ part14

**デフォルトの名無しさん** · 2023/03/03(金) 15:46:58.08

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2023/10/15(日) 01:20:23.94

>>460
Windows は文字コードの指定がないとシステムロカールに設定されている文字コード（日本語WiIndows11だとCP932=SJIS)という約束になっていて、これを変更せずに UTF－8 を使いたいがための苦肉の策だった(過去形）。
最近はマイクロソフトはこの約束を破棄して標準を UTF－8 にするよう要請してるし、将来システムロケールのデフォルトを UTF－8 に変更することは確実なので、単なる経過措置。

**デフォルトの名無しさん** · 2023/10/15(日) 01:39:21.51

メモ帳のデフォルトの文字コードは、BOM付きUTF-8

**デフォルトの名無しさん** · 2023/10/15(日) 02:16:16.57

>>462
もう今は BOM なしがデフォ
BOM 付にする場合は格納する時に明示的に選ぶ

**デフォルトの名無しさん** · 2023/10/15(日) 10:20:43.11

「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に～「Windows 10 19H1」
https://forest.watch.impress.co.jp/docs/news/1157696.html

**デフォルトの名無しさん** · 2023/10/15(日) 11:24:00.22

「UTF8はBOMを付けない」
これでWindows以外は統一されている
WindowsでもBOMなしが標準になりつつある
大勢は決した

**デフォルトの名無しさん** · 2023/10/15(日) 12:36:43.97

ExcelがBOM無しCSV/TSVを文字化けせずに読み込んでくれたら解決しそうw
自慢？のcopilot使ってもいいからさっさと解決しろやーw

**デフォルトの名無しさん** · 2023/10/15(日) 13:03:46.10

>>466
今でもシステムロカールを UTF8 に切り替ええると BOM なしで読める。システムのデフォルトを SJIS に設定しているから BOM なしを SJIS とみなしてるだけ。

**デフォルトの名無しさん** · 2023/10/15(日) 14:10:15.45

>>467
今のExcelの挙動の方がOSの設定を反映してて行儀良いとも言える
WindowsがUTF-8で統一されるには、まずはWindowsのシステムロケールの規定値がUTF-8にならないことにはな

**デフォルトの名無しさん** · 2023/10/15(日) 15:48:50.38

>>468
その通りなんだが、マイクロソフト自身がそこを翻して、今後は外部文字コードはシステム設定にかかわらず UTF8 にするようにプログラマー向けのガイドで推奨している。
時代は変わったというやつだな。

**デフォルトの名無しさん** · 2023/10/15(日) 21:43:34.82

General Unicode requirement in INF files
https://learn.microsoft.com/en-us/windows-hardware/drivers/display/general-unicode-requirement

INF files should be saved and encoded as Unicode (UTF-16 LE); they must not be ANSI or UTF-8.

**デフォルトの名無しさん** · 2023/10/15(日) 23:29:04.23

話してるのは交換用のデータ
そういうレガシーな閉じたデータは困んないし関係ないよ

**デフォルトの名無しさん** · 2023/10/16(月) 00:06:18.56

Microsoft は、UTF-8 BOM 無しを推奨する理由として「Web アプリや Unix 系の OS が UTF8 BOM 無しなので、文字コード関連のバグを最低限にするためには UTF8 は BOM なしである必要がある」と主張している。
この主張を元に PowerShell とかの基幹アプリもデフォルトを BOM 無しに移行した。
今はもう UTF-8 BOM つきを推奨するメジャー組織は存在しない。

**デフォルトの名無しさん** · 2023/10/16(月) 00:53:41.28

ハナっから「推奨」していた組織など存在しない

**デフォルトの名無しさん** · 2023/10/16(月) 09:54:20.88

Windows/MS がさっさと間違いを認めれば良いだけ

**デフォルトの名無しさん** · 2023/10/16(月) 11:23:36.19

>>473
マイクロソフトは昔はプログラマ向けにBOMつけることを推奨してたんだよ。ツールとかも勝手にBOMを追加していた。
そもそもユニコード規格で UTF8 のBOMが文字コード判別用として規定されたのもマイクロソフトの主張によるもの。
他の企業とかは反対だったけどMSが強く主張するので、妥協として非推奨という形で規格に取り入れられた。

**デフォルトの名無しさん** · 2023/10/16(月) 15:03:12.56

RFC3629の日本語訳
UTF-8, ISO 10646 を変換したフォーマット
https://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt

プロトコルはが常にUTF-8であるなら、そのような場合シグネチャ機能は完全に無駄であるので、そのプロトコルが命令するそれらの原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁止【すべき】(SHOULD)である。

プロトコルは、それらの原文のプロトコル要素、プロトコルの実装が常に適切にメカニズムを使う立場にあることが予測されるとき、そのプロトコルが文字符号識別メカニズムを供給するためのシグネチャとしてのU+FEFFの使用を同じく【禁じるべき】(SHOULD)である。これは、プロトコル要素がそれらの作成時からそれらの適切に分類される伝送の時間まで実装の制御下にきつく維持されるケースであろう。

禁止が不可能、あるいはプロトコルの実装がメカニズムを常に適切に使う立場にないことが予測される時には、プロトコルは、文字符号化識別メカニズムを提供しないそれら原文のプロトコル要素のためのシグネチャとしてU+FEFFの使用を禁じる【べきではない】(SHOULD NOT)。後者2ケースでは、特にプロトコルの実装が、そのような要素を、ファイルシステム、ペイロード(FTPなど)のための符号化識別メカニズムを持たないプロトコル、または文字符号化の適切な識別を保証しない他のプロトコルから得る時のMIME要素(HTTPなど)など、より大きいプロトコル要素で起こりそうだ。

**デフォルトの名無しさん** · 2023/10/16(月) 22:51:46.46

>>472
UTF8のBOM付きは古いローカル環境のファイルを除いて世の中から消滅だね

**デフォルトの名無しさん** · 2023/10/17(火) 21:20:13.70

いずれ消滅はするだろうね。今すぐにではないだろうけど。

**デフォルトの名無しさん** · 2023/10/20(金) 01:51:40.88

以下のウェブページ、ちゃんと表示されます? 自分の環境ではところどころ文字化けが

新JIS漢字で包摂の扱いが変わる文字
https://www.aozora.gr.jp/newJIS-Kanji/gokan_henkou_list.html

**デフォルトの名無しさん** · 2023/10/20(金) 02:19:51.80

Shift_JIS-2004にするとemacsでは見れるっぽいな

**デフォルトの名無しさん** · 2023/10/20(金) 02:31:11.04

>>479
ページのデコード（文字コード）の問題っぽいので、現代のブラウザでそれらの文字を正しく表示するのは不可能な気がする
少なくともChromiumにはページの文字コードを指定して読み込む機能はない（かなり前に失われた）

**デフォルトの名無しさん** · 2023/10/20(金) 05:05:07.19

>>481
なるほど
試しにソースをUTF-8に変換してみたら問題ないっぽいので、そこに書かれているような
UCSのコードポイントがないだとか拡張されたフォントが必要だとかそういうのも
昔話くさいですね。関係者の皆様(?)ご苦労様でした

**デフォルトの名無しさん** · 2023/10/20(金) 05:40:00.05

ちなみに当の青空文庫、チラ見すると今でも基本はJIS X 0208/ShiftJISのようで
なかなかストイックですな。結局「包摂の扱いが変わ」らなかったのかな

**デフォルトの名無しさん** · 2023/10/21(土) 08:53:53.52

>>481
https://chrome.google.com/webstore/detail/set-character-encoding/bpojelgakakmcfmjfilgdlmhefphglae

**デフォルトの名無しさん** · 2023/10/21(土) 12:16:38.09

永青文庫といつも間違う

**デフォルトの名無しさん** · 2023/10/22(日) 23:34:06.39

中々に興味深い内容だった

我々の著書はなぜ誤植まみれに？出版業界と標準規格は相容れない世界。【文字ヶｮデ2】#95 - YouTube
https://youtu.be/zSuD9DRzxYk?si=n55RbOykxZLOtTXB

**デフォルトの名無しさん** · 2023/10/23(月) 07:04:22.11

>使わざる終えない

こういう誤字ってる香具師をよく観かけた

**デフォルトの名無しさん** · 2023/10/23(月) 10:59:00.60

>>486
流し見したけど、若いなあ。若い視聴者向けにあえて歴史的な部分を嘘で誤魔化したのかもしれないけど。
印刷業界の正字文化も、おおもとはフォントの都合。コンピュターのフォントじゃなくてフォント(物理)。
金属活字は高価なのでマイナーな漢字は種類揃えることができなきて正字しか存在しなかった。それで作家がどんな漢字を手書きで書いてこようが、植字職人が問答無用で正字に直していた。
作家に文句いわれても、これが正しい漢字だとうちは正しい漢字で出版すると言い訳してきたのが伝授されていくうちに文化として定着した。

**デフォルトの名無しさん** · 2023/10/23(月) 15:38:39.38

常用漢字も公務員ωの都合だしな

**デフォルトの名無しさん** · 2023/10/23(月) 17:57:09.35

>>484
元の文書はShift_JISx0213なんですよね。チラ見した感じではリストになさそうなので
単にメニューを追加しただけでは無理そう
さらに今は名前がShift_JIS-2004に変わっているという
ただ、Shift_JIS-2004にしてもIANAには登録されてないようですが

このウェブ文書が書かれたときにはどうやって見ていたのだろう
ブラウザにエンコーディングメニューがあった時代にもShift_JISx0213はなかったような

**デフォルトの名無しさん** · 2023/10/23(月) 21:46:58.87

>>488
昭和期の小説なんて送り仮名すら適当だからなあ
昔はいい加減だったものが編集その他の介入が厳格になってかっちりしたのもありそう

**デフォルトの名無しさん** · 2023/10/24(火) 03:15:10.80

>>491
送り仮名や当て字は昔は作家の作風の一部だったので出版社が勝手にいじるのは厳禁だった。あくまで正字に直すだけ、あとは校正校閲で指摘して作家本人に直すか確認。
最近は出版社どうのこうのの前にかな漢字変換先生が“正しい”送り仮名をつけるし、わざわざ選ばない限り当て字にもならないので差がほぼ消滅した

**デフォルトの名無しさん** · 2023/12/08(金) 16:57:00.72

ついにWindows 11のメモ帳に文字数カウント機能が追加される - GIGAZINE
https://gigazine.net/news/20231208-windows-11-notepad-character-count/

**デフォルトの名無しさん** · 2023/12/09(土) 18:16:22.88

メモ帳とワードパッドどこで差が付いたのか

**デフォルトの名無しさん** · 2023/12/09(土) 18:53:06.75

ワードパッドはプアマンズワードみたいなもんだったから、あらゆる意味で中途半端だった
エディタとして基本的なものだけでよかったメモ帳とはわけが違うな

**デフォルトの名無しさん** · 2023/12/09(土) 23:47:37.80

>>493
合成絵文字とか国旗とかは何文字扱いなんだろう？

**デフォルトの名無しさん** · 2023/12/12(火) 08:19:11.85

>>470
NVIDIA Windows 10 (64 bit) Display INF file
普通にUTF-8で草生えた

**デフォルトの名無しさん** · 2023/12/12(火) 21:14:09.31

そういえば、Windowsのレジストリスクリプト、
v.4はANSI
v.5はUTF-16LE
だったな

**デフォルトの名無しさん** · 2023/12/17(日) 01:04:51.64

時代のあだはなって奴か

**デフォルトの名無しさん** · 2023/12/17(日) 02:48:49.64

「世界の全部の文字は16ビットに収まる。16ビット固定長なら全世界の人が幸せになる。」

マイクロソフトの発想は面白かったんだが前提が間違っていたのでどうにもならないな。
韓国がワガママ言ってハングルだけでBMPの1/5の1万2千字持って行くとか、中国や台湾が漢字を5万字追加してBMPに入らなくなるとか想定できないのが悪い。
絵文字は同情の余地がある。Google がandroid携帯で携帯市場に参入するとかは当時は予想し難いだろう。

**デフォルトの名無しさん** · 2023/12/17(日) 05:27:58.87

想定が甘かったのでなく、もともとISOで32bitで文字を表す規格化が進んでいたけど16bitに収めたい企業のゴリ押しで16bitになったんだよ

**デフォルトの名無しさん** · 2023/12/17(日) 13:09:37.31

>>501
その前の話だよ。ISOとかとの調整以前の動き

**デフォルトの名無しさん** · 2023/12/17(日) 13:11:41.67

じゃあマイクロソフトを持ち出すのはおかしい

**デフォルトの名無しさん** · 2023/12/17(日) 18:20:50.82

ISOの多言語化とは別に、マイクロソフトがIBMと多言語文字コードの研究開発してたの知らずに文句言ってるだけか。

**デフォルトの名無しさん** · 2023/12/18(月) 00:12:33.22

おれは歴史を知ってるふう装っても
その上に歴史に基づかない妄想を書いたことは取り消せないよな

**デフォルトの名無しさん** · 2023/12/19(火) 10:06:38.46

https://ja.wikipedia.org/?curid=1999

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。

**デフォルトの名無しさん** · 2023/12/19(火) 23:28:13.27

それだけあれば十分だな！

**デフォルトの名無しさん** · 2023/12/20(水) 14:46:55.65

>>506
>しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対
デフォルトで中華フォントを表示させるのに成功した

適当なサンプル
https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/3524120/e95e7364-7f46-9c34-a037-330f229ac823.png
https://qiita.com/kominato_slj/items/bbe0ae1445d8394d95bf

**デフォルトの名無しさん** · 2023/12/20(水) 14:57:22.31

デフォでCJKフォントになるのまじで敗北
いちいち手をいれるの面倒なのはわかるけど
チラシやオフィス文書で頻繁にみかけるし気分悪い

**デフォルトの名無しさん** · 2023/12/20(水) 16:44:38.02

ChatGPTに頼ってもFlutterでは中華フォント対策コードにはならない
て言うか明らかにフォントがおかしいのが気にならないのかよ

https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/215011/72c9d7de-2c2b-44c8-7981-52080d8fb313.png
https://qiita.com/asasigure/items/ea751ec73689e5fc7a41
https://github.com/asasigure1209/my-memo-app/blob/82a89d1fceec4a793294eaffc396e2d1432daa38/lib/main.dart#L19

**デフォルトの名無しさん** · 2023/12/22(金) 12:48:42.21

奴ら平仮名も持ってるから日本語のフォントに来ないってことかな
最初の優先順位はどうやって決まるんだっけ。文字数?

**デフォルトの名無しさん** · 2023/12/22(金) 17:48:45.93

Flutter民「おもちゃアプリで細かい事を言われても困ります」(真顔)

**デフォルトの名無しさん** · 2023/12/23(土) 02:14:34.25

台湾行ったら看板とかでたまにひらがな使ってた。日本でちょっと英語を使うようなノリなのか?
ということは台湾のフォントにひらがなが入っていることもあるか
日本語のフォントだって英語が入ってるものなあ

**デフォルトの名無しさん** · 2023/12/23(土) 17:37:20.90

>>513
何故ひらがなに着目するのかな？
ひらがなが台湾に根付いて独自の使用形態に進化していたとしたら別コードを割り当てたら良いと思う
漢字のオフショア版とはレベルが違うのでは

**デフォルトの名無しさん** · 2023/12/24(日) 15:05:39.67

CJK一緒くたにされてるからUnicode用のフォントなら一般的にひらがな入ってる
いまとなっては日本だけフォントグリフがローカルで特殊
これであってる？

**デフォルトの名無しさん** · 2023/12/25(月) 03:12:48.56

日本語のテキストに日本語のフォントが使われるには
1) テキストが日本語だと判定されて 2) 日本語にはこのフォントを使うという情報
が必要。だけどこの場合そうなってない

で、例えばテキスト中の文字をサポートできるフォントを選ぶ、だけのロジックだと
テキストは日本語でも中国や台湾のフォントにも行っちゃう

というわけで
Flutterのフォントシステムというのは1)と2)はどうなってるんかなと
あるいはそれはFlutterが走ってるOSの役割なのかな、とかちょっと気になったのですが

**デフォルトの名無しさん** · 2023/12/25(月) 07:58:07.34

HTMLならlang属性を指定している範囲がその言語
HTMLの英語使用部分にはlang=en
日本語使用部分にはlang=jaを指定する
入れ子も可能で<html lang=ja>と全体を日本語に指定しつつ
一部のパラグラフを<p lang=zh-CN>と中国語簡体字にすることも可能
全くlangが無指定ならunknownとなりそのHTMLを取り扱っている環境に委ねられる
HTMLを生成する側はその部分が例えば日本語かどうか認識できるためlang=jaを指定するべきである

**デフォルトの名無しさん** · 2023/12/25(月) 13:20:40.37

Unicode 以前の古い時代の、中国、台湾、韓国の国家規格の文字コードにも平仮名、片仮名は入っていて向こうの MS-DOS とかでも使えてた。
JIS の文字コードにキリル文字（ロシアの文字）とか入ってるのと同じようなもんだ。

**デフォルトの名無しさん** · 2023/12/25(月) 13:22:55.99

当然、大昔の中国フォントや韓国フォントにも平仮名や片仮名がはいっている

**デフォルトの名無しさん** · 2023/12/25(月) 18:36:31.84

>>515
Flutter民「日本だけフォントグリフがローカルで特殊」(迫真)

**デフォルトの名無しさん** · 2023/12/25(月) 22:38:31.42

例えばロシアの人もキリル文字に日本語フォントが使われてしまいコレジャナイ感を
感じることがあったりするんだろうか
（日本語フォントに入っているのは全角文字とのバランスを意識したデザインだったりする）

**デフォルトの名無しさん** · 2023/12/26(火) 10:43:12.38

>>521
変って言われたことはあるよ。
А細い文字も全角なので

**デフォルトの名無しさん** · 2023/12/26(火) 22:03:56.06

Flutterは言語が他で馴染みの薄いDartだから横一線での再スタート感があった。
一部を除いて、そんな動機で参加する再初心者が増えただけだから、
結局は一般知識の差や意識の低さがそこかしこで露になる。

**デフォルトの名無しさん** · 2024/01/01(月) 09:42:44.69

https://qiita.com/ko1nksm/items/4907c1c88d478cac0be5

POSIX では Unicode を含むマルチバイトのロケールの文字に対応することになっていますが、現実的には対応していないコマンドがあります。商用 Unix はおそらく対応しているはずですが、Linux(GNU コマンド)や BSD 系 Unix では対応していない場合があります。Linux や BSD 系 Unix は POSIX に準拠していると主張してないので、完全対応していなくてもそういうものとして扱うしかありません。

さらに Unicode は数年おきにバージョンアップされます。最初のバージョンは 1991 年の 1.0 で収録されている文字は 7,129 文字です。現在の最新バージョンは 2023 年の 15.1 で収録されている文字は 149,813 文字です。収録されている文字の違いはソート順などに影響します。

それぞれの環境で Unicode への対応は異なり、ロケールに従えば環境ごとで結果が異なる可能性があり、ロケールに従わなければ(C ロケールでバイナリとして扱う)、一文字を一文字として扱うことができません。これを解決すると思われる C.UTF-8 ロケールは環境によって対応していない場合がありますし、話を最初に戻すと環境によってマルチバイトのロケールに対応していないコマンドがあります。

UNIX コマンドはマルチバイトという概念がなかった頃から互換性を保ちながら存在し続けており、その結果 Unicode への対応は中途半端で一貫性がない状態です。

**デフォルトの名無しさん** · 2024/01/01(月) 15:59:51.88

ほとんどのコマンドがUTF-8をバイトストリーム扱いして実害ないのもある
文字列捕捉するときもASCIIで区切れれば十分だし

**デフォルトの名無しさん** · 2024/01/04(木) 12:49:20.33

最初の節だけでも書いてる人間の質の低さが読み取れるけど、閉じようとして横のスクロールバーを見たらさらに驚いた
>>524もこんなもん張ってないでもうちょいマシな事せーよ

**デフォルトの名無しさん** · 2024/01/15(月) 10:21:35.41

ガムランとかフォルクローレを聴いてる女子小学生とか渋すぎやろ

まあ俺も小学生の頃に、渡辺貞夫、日野皓正、高中正義、阿川泰子
カシオペア、喜多郎、ヒロシマ、坂本龍一、姫神、ラリー・カールトン
なんか聴いてたが

**デフォルトの名無しさん** · 2024/01/15(月) 10:22:10.79

誤爆

**デフォルトの名無しさん** · 2024/01/25(木) 15:00:29.08

漢数字の〇に親を殺されました。憎くて仕方がないのでunicodeから消してください

**デフォルトの名無しさん** · 2024/01/28(日) 08:46:58.18

○を打とうとして〇を打ち込む国民が大半になってしまった。

中国人が日本語のIMEを作っているからこうなる。
日本の日本人にやらせろよ、マイクロソフトのクソは。

**デフォルトの名無しさん** · 2024/01/28(日) 21:48:45.91

IMEは中国開発ってホント？　修正プログラムで賢くなった？　Office IME 2007 6の疑問
https://ascii.jp/elem/000/000/195/195021/

Q2
日本語IMEの開発は中国で行なわれているって本当？

A2
日本語IMEの開発は、日本で行なわれている。同社インプットメソッドテクノロジーシニアマネージャの佐藤良治氏によると、IME 2007以前のプロトタイプ開発の際には、日本だけでなく米国レドモントと中国北京にあるMicrosoft Researchとの共同作業が行なわれたという。それが誤解して伝わっているようだ。

日本でのIME開発は専任チームを置いて、ほかのアプリケーション開発と同じように独自に行なっているという。IME開発は日本のほかに、韓国、中国、台湾にチームがあって、各言語に依存しない要素(OSとのインターフェースなど)の開発は、これら4チームによる共同作業で行なわれている。専任チームの規模は日本が最も大きいとのことだ。

**デフォルトの名無しさん** · 2024/02/06(火) 23:59:02.95

メールでもヘッダーと本文でSMTPUTF8を使い、添付ファイルもBINARYMIMEを使って
8bitのデータをBase64などでエンコードせずにそのまま送れるのが当たり前になったらいいと思うが
この方式で送るメーラーはあるんだろうか？
メールの容量を小さくできる利点があるのに
互換性のために8bitデータは従来通りMIMEとBase64でエンコードしているメーラーが多いんじゃないだろうか

**デフォルトの名無しさん** · 2024/02/07(水) 01:54:51.06

Eメールアドレスのアカウント部分に「smtp」という文字列を使ったEメールが最近、届いたわ。

**デフォルトの名無しさん** · 2024/02/07(水) 01:57:32.65

>>531
Windows 10よりも前は、固有名詞は頑なに変換候補に出さなかったぞ。

**デフォルトの名無しさん** · 2024/02/07(水) 12:10:40.26

出さなかったでなく出せなかった
海外製だったので

**デフォルトの名無しさん** · 2024/02/07(水) 14:45:22.80

>>534
どうやったらそんなウソがつけるんだよいくらか脳ミソ欠損してんのか?w

**デフォルトの名無しさん** · 2024/02/08(木) 18:57:22.19

>>536
珍しい名字はずっと排除していたのがMS-IME

Google日本語入力が登場してから焦って対応したが、体制が貧弱だったせいでもはや追いつけない。

**デフォルトの名無しさん** · 2024/02/08(木) 21:27:00.01

IMEの話はIMEスレでどうぞ

【Microsoft IME】MS-IME Part15【Office IME】
https://mevius.5ch.net/test/read.cgi/win/1502601208/

**デフォルトの名無しさん** · 2024/02/08(木) 22:08:35.18

文を書くとき濁点や半濁点は結合済み文字にするか通常の文字と濁点・半濁点を結合して使うかということと
()?などの記号類をASCII文字にするか全角文字にするか悩む

**デフォルトの名無しさん** · 2024/02/09(金) 00:11:16.67

結合済み文字で良いのでは？

普通は一々、結合しないよね

**デフォルトの名無しさん** · 2024/02/09(金) 01:31:39.40

たまにWindows上の古いアプリに用事があるのだけど、ファイル名に絵文字が入って
たりすると駄目なのがある。エクスプローラーでは特に問題ないようでも
Windowsは全然わからんのだけど、どこかの時点でファイル名のエンコーディングとか
文字セットとか変わったりしたんですか?

**デフォルトの名無しさん** · 2024/02/09(金) 01:44:08.30

単にUNICODE非対応なだけでは？
新しくても英語圏のソフトだとだめなのもありそう

**デフォルトの名無しさん** · 2024/02/11(日) 18:02:55.68

↵の改行マークは下に行ってから左に行くから
LFCRを表しているように見えるが改行コードがLFCRの機種は無いんだよね
CRLFなら左に行ってから下に行く┏のようなマークにするのが正しいのではないだろうか

**デフォルトの名無しさん** · 2024/02/11(日) 18:42:08.50

リターン(enter)キーに印字されてる記号との兼ね合いもあるだろうし

**デフォルトの名無しさん** · 2024/02/12(月) 19:50:05.96

プリンタ端末が遅いから、本当はLFCRだけど、CRを先に送出したんじゃなかったけ？

**デフォルトの名無しさん** · 2024/02/12(月) 20:47:13.82

もともとは、タイプライターの動作から来てるからな。

文字をタイプして行末まできたら、送りレバーを右に動かすんだけど、
まず、レバーを押した瞬間に紙を送るドラムが回転して行送り（Line Feed）、
そのままレバーを送ればドラムの載ったキャリッジが右側に移動する（Carriage Return）。
（LFなしのCRのみの動作も可能なモードもある）

この2つを合わせたLFCRが本来の形で、
↵が改行マークなのはこれが影響していると思われる。

改行コードでCRLF（\r\n）になった経緯は、>>545 ということみたいだね。

**デフォルトの名無しさん** · 2024/02/13(火) 05:49:18.51

正規表現だと/nがLFだけではなく改行全般(CR/CRLF/LFの全て)を指している場合があるよね

**デフォルトの名無しさん** · 2024/02/13(火) 20:51:09.58

>>541
WindowsはSJISとUTF-16の世界だからな。

**デフォルトの名無しさん** · 2024/02/14(水) 02:41:15.71

いやWindowsはsjis残ってるけどmultibyteはもうutf8が主流と言っていいでしょ

**デフォルトの名無しさん** · 2024/02/14(水) 13:25:50.83

>>549
WindowsはデフォルトがUTF-16だから、BOMがないとUTF-8をUTF-16として扱うことが多い。

**デフォルトの名無しさん** · 2024/02/14(水) 14:21:18.91

BOMってことは交換用データの話だとおもうけど
だいぶ前からUTF-8推奨じゃね？
内部データとは別の話

**デフォルトの名無しさん** · 2024/02/14(水) 19:34:50.64

最初APIの話で当然内部コードの話だったんだけど違う話はじめたからな

**デフォルトの名無しさん** · 2024/02/15(木) 18:14:47.71

>>551
Windowsそのものの話

**デフォルトの名無しさん** · 2024/02/17(土) 21:31:39.77

絵文字同士を結合した文字はOSによっては結合して表示されないから新たな機種依存文字になってるよね

**デフォルトの名無しさん** · 2024/02/17(土) 21:49:18.90

機種？

**デフォルトの名無しさん** · 2024/02/18(日) 00:28:41.00

文字幅が実行時にやってみないと確定しないのはマジで困るし非効率すぎるよな

**デフォルトの名無しさん** · 2024/02/19(月) 14:52:55.18

市民への郵送物、JISコード外の氏名が文字化け　さいたま市が謝罪
https://www.itmedia.co.jp/news/articles/2402/19/news091.html

発送した12万通のうち4438通で、JIS規格の文字コードに含まれない外字を含む氏名について、正しい漢字が適用されなかったという。

対象の郵送物は「さいたま市物価高騰対応重点支援給付金のお知らせ」。

給付金に関する事務を受託している事業者が、外字を適正に印字する設定を誤ったため文字化けが起きたという。

**デフォルトの名無しさん** · 2024/02/19(月) 15:01:56.94

書き間違いで大量に発生したニセ漢字は今後使用禁止とするのがいいのかな
外字も必要なくなり皆がハッピー

**デフォルトの名無しさん** · 2024/02/19(月) 15:09:57.93

文字化けと言っても記号列の様な感じじゃなく中華フォントになったのだろう
普段から一部の粗悪アプリで中華フォントを見させれれてる弊害だな

**デフォルトの名無しさん** · 2024/02/19(月) 15:17:29.77

外字とあるから
書き間違いで戸籍などに登録された、
書き間違いニセ漢字のことだと思うよ