文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/01/22(月) 23:00:45.76

■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JIS X 4061
日本語文字列照合順番
http://www.jisc.go.jp/

**デフォルトの名無しさん** · 2018/01/22(月) 23:02:39.42

■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

**デフォルトの名無しさん** · 2018/01/22(月) 23:08:33.67

・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

**デフォルトの名無しさん** · 2018/01/22(月) 23:09:29.38

・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

**デフォルトの名無しさん** · 2018/01/22(月) 23:10:23.31

もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは？
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは？　その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは？　その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/

**デフォルトの名無しさん** · 2018/01/22(月) 23:11:09.62

■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/

**デフォルトの名無しさん** · 2018/01/22(月) 23:12:46.87

■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。

**デフォルトの名無しさん** · 2018/01/22(月) 23:13:41.58

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/

**デフォルトの名無しさん** · 2018/01/22(月) 23:15:56.35

取り敢えず復活させてみた
テンプレ？多すぎサーバ重すぎ

**デフォルトの名無しさん** · 2018/01/23(火) 00:19:04.68

>>1
U+4E59

**デフォルトの名無しさん** · 2018/01/24(水) 16:48:24.78

>>1
U+30B9 U+30EC U+7ACB U+3066 U+4E59

**デフォルトの名無しさん** · 2018/01/25(木) 15:27:10.59

>>1　乙π

＜前スレのおさらい＞
ユニコードにきちんと対応してほしいフリーソフトは多い

IrfanView
Lhaz
FileSum

**デフォルトの名無しさん** · 2018/01/25(木) 15:31:46.52

tar

**デフォルトの名無しさん** · 2018/01/25(木) 23:49:25.62

Irvineがそんな感じで困る

**デフォルトの名無しさん** · 2018/01/28(日) 03:46:07.34

Irvineはファイル名はスクリプトでなんとかなるけど階層フォルダは化けたままなんだよね

IrfanView 64bit はユニコード未対応
IrfanView 32bit はユニコード部分対応 (難有)

**デフォルトの名無しさん** · 2018/01/30(火) 12:29:18.25

IPAmj明朝最新バージョンキター
変体仮名も使えるようになってた。

**デフォルトの名無しさん** · 2018/01/30(火) 17:01:26.26

(´‥∀‥`)ほう

**デフォルトの名無しさん** · 2018/01/30(火) 17:14:44.90

そばですか

**デフォルトの名無しさん** · 2018/01/30(火) 21:38:00.04

IPAmjはcmapを足しただけかな
濁点半濁点つき変体仮名のグリフを追加したわけではなさげ

**デフォルトの名無しさん** · 2018/01/30(火) 22:58:48.17

きの𛀁【甲】
ひの𛀁【丙】
つちの𛀁【戊】
かの𛀁【庚】
みづの𛀁【壬】

**デフォルトの名無しさん** · 2018/01/31(水) 12:22:08.15

IPAmjのゴシック版って出ないのかな。

**デフォルトの名無しさん** · 2018/01/31(水) 13:35:09.89

えとって𛀁戸なのか

**デフォルトの名無しさん** · 2018/02/01(木) 01:34:12.20

そういえば変体仮名って絶対漢字のフォントバリエーションとして使われるな。

ラテン文字のところをキリル文字ギリシャ文字でちょっと異国情緒出したりするのと同じように

**デフォルトの名無しさん** · 2018/02/01(木) 12:26:52.61

OS標準のフォントに変体仮名が入るのはまだ先の話かな。

**デフォルトの名無しさん** · 2018/02/01(木) 21:02:21.65

Mac/iOSはAJ1準拠のフォントをバンドルしてるだけだから変体仮名のサポートもAJ1次第だろうな
AndroidもNoto CJKをバンドルしてるだけだからこっちもやはりフォントを作ってるAdobe次第か

Winはゴシック系フォントはUnicodeをフルカバーしようとしているようなんで可能性ありそうだけど
明朝系は1B000～1もスルーしてるんで変体仮名も放置と予想

**デフォルトの名無しさん** · 2018/02/02(金) 00:29:26.12

メイリオの変体仮名が来るのか

**デフォルトの名無しさん** · 2018/02/02(金) 07:09:07.07

変態さんかな？

**デフォルトの名無しさん** · 2018/02/02(金) 12:26:25.48

変体仮名がOS標準のフォントに入ったら
ハンドルネームとかAAに使われるかな

**デフォルトの名無しさん** · 2018/02/02(金) 13:12:45.95

よく有料フォントに正規版とお試し版があるけど
この２つのフォントファイルってシステム的に共存できるの？
それとも後から入れたほうに上書きされちゃう？

**デフォルトの名無しさん** · 2018/02/03(土) 01:07:32.21

Windowsの場合フォントの内部名が違えば共存
同じなら上書き

**デフォルトの名無しさん** · 2018/02/03(土) 04:35:56.44

>>31
ありがと
いろいろなのね

**デフォルトの名無しさん** · 2018/02/03(土) 04:52:04.58

名前変えてインスコするだけ

**デフォルトの名無しさん** · 2018/02/03(土) 23:36:52.87

上書きできたっけ?
先に入ってる方を消せって言われた気がする

**デフォルトの名無しさん** · 2018/02/04(日) 14:42:43.04

上書きしますかか更新しますかって聞かれる気がする

**デフォルトの名無しさん** · 2018/02/04(日) 16:58:59.50

http://nixeneko.hatenablog.com/entry/2015/12/29/231141
http://hyoromo.hatenablog.com/entry/2015/03/03/164225
https://www.mirucon.com/2016/02/09/trance-type/

**デフォルトの名無しさん** · 2018/02/04(日) 17:57:43.36

馬耳東風って本当に存在する現象なんだな

**デフォルトの名無しさん** · 2018/02/04(日) 18:01:22.90

それを言うなら馬のシカに念仏

**デフォルトの名無しさん** · 2018/02/08(木) 08:34:15.23

Unicode Emoji 11.0 characters now final for 2018
http://blog.unicode.org/2018/02/unicode-emoji-110-characters-now-final.html
First look: All 150+ Emojis for 2018
https://www.youtube.com/watch?v=5qLDBQ583Y8

**デフォルトの名無しさん** · 2018/02/08(木) 13:08:04.59

思いついた絵文字を定期的に追加する文字コードになってしまったな

**デフォルトの名無しさん** · 2018/02/08(木) 16:58:39.51

http://www.unicode.org/L2/L2018/18056-future-adds.pdf

日本の新元号はU+32FFに入れてもらえそう？

**デフォルトの名無しさん** · 2018/02/09(金) 18:02:52.35

そのコードポイントは昔、□デを入れる事が提案されたが
○ンとか他の重要な文字の為にとっておくべきとかでSMPに追いやられたなんて事があったな。
元号組文字が重要な文字だと認められればそこになるだろうけど。

**デフォルトの名無しさん** · 2018/02/09(金) 18:32:17.19

元号エリア用意して連番にするとして
何文字用意すれば良い？

**デフォルトの名無しさん** · 2018/02/09(金) 19:31:27.80

>>43
とりあえず127個もあれば人類滅亡まで持つと思う

**デフォルトの名無しさん** · 2018/02/09(金) 20:00:03.04

既に250弱あるのに何言ってんだ

**デフォルトの名無しさん** · 2018/02/09(金) 20:02:34.92

U+32FF ??
U+337B 平成
U+337C 昭和
U+337D 大正
U+337E 明治

ここに入れるとコードポイント逆順でソートできるという利点が

**デフォルトの名無しさん** · 2018/02/09(金) 20:33:41.59

合成文字定義するんじゃないのか

**デフォルトの名無しさん** · 2018/02/09(金) 22:26:47.14

あくまでもあれらは他の規格との互換用で通常は使用する事が推奨されていないのだがな。
たとえば平成はU+337B(㍻)を使うのではなくU+5E73(平)とU+6210(成)を並べる事が推奨されている。
最近では昭和時代～平成初期とは違ってワープロソフト等で任意の組み文字を表示、印刷するのが容易になったし、
使用出来る容量も多くなって1文字分のバイト数でも減らしたいなんて事は少なくなったし次の元号の組み文字は入るだろうか?
JIS X0213とかに入ればUnicodeにも追加せざるを得なくなるだろうが。

**デフォルトの名無しさん** · 2018/02/09(金) 23:58:38.13

そういえば康熙部首とIDCに挟まれたU+2FE0～U+2FEFって空いてたよな。
どうしてもBMPがいいならそこを元号専用ブロックにするのはダメなのかな?
名称はJapanese Era NameとかGengoとかで。
16個あればよほどの事が無い限り今生きてる世代が生きてる間は大丈夫だろう。

**デフォルトの名無しさん** · 2018/02/10(土) 01:04:36.42

絵文字の一種としてなら完全に新しい組文字でもすんなり入れられそうな雰囲気ある

**デフォルトの名無しさん** · 2018/02/10(土) 05:35:14.43

>>49
次の代で終わる鴨試練

**デフォルトの名無しさん** · 2018/02/10(土) 14:28:40.69

BMPの必要性ないわな

**デフォルトの名無しさん** · 2018/02/10(土) 23:46:14.13

そもそも元号に限らず組文字のコードはあまり使われないよな。
昔から機種依存文字(環境依存文字)だから使うな言われてきたのもあるけど。
でも明治、大正、昭和、平成の組文字㍾㍽㍼㍻はあるのに、
○○(新元号)が無いのはおかしい。UnicodeではBMPでないといかん。なんてゴネる人が出てくるのかな。

**デフォルトの名無しさん** · 2018/02/11(日) 01:09:40.03

そういうひとは明治以前の元号をスルーしてる

**デフォルトの名無しさん** · 2018/02/11(日) 01:37:38.13

チョン国人：慰安婦文字はまだですか？

**デフォルトの名無しさん** · 2018/02/11(日) 02:58:01.54

DNAの二重らせんがついに絵文字に…！→イラストの深刻なミスが発見される - Togetter
https://togetter.com/li/1197708

**デフォルトの名無しさん** · 2018/02/11(日) 06:42:49.06

>>53
Unicodeの日本部隊はルール無視してでもねじ込みたがりだからな
今後も考えた上で場所を決めてほしい

過去のがないのは元々がJIS定義の字を収録してるだけだから
JISがこれからどうするかに歩調を合わせるべきだと思うけどね

**デフォルトの名無しさん** · 2018/02/11(日) 13:29:49.03

>>56
そもそもなんでこんなもの入れたんだ

**デフォルトの名無しさん** · 2018/02/11(日) 23:57:18.38

CJK統合漢字拡張GはSIPに入り切らなくなったからTIP(第3面)になるんだな。
古代漢字等がU+30000～に提案されてたが、それらはずれる事になるようだ。
で一昨年末に正式名称が決定したあのニホニウムを含む4元素の中国語名の漢字のうち
現時点でUnicode未収録なのは拡張GでなくURO末端部に追加する方針らしい。

**デフォルトの名無しさん** · 2018/02/14(水) 16:24:24.38

>>58
http://www.unicode.org/L2/L2017/17113-science-emoji.pdf

科学ファンサイト“I Fucking Love Science”のFacebookにはフォロワーが2500万人いるだの
3月のFacebookの科学グループには84万人のメンバーが活動してるだの書かれてるから
結局「Facebookで使ってみたかった」なのでは。

**デフォルトの名無しさん** · 2018/02/15(木) 04:48:41.13

test

**デフォルトの名無しさん** · 2018/02/15(木) 04:52:15.83

test

**デフォルトの名無しさん** · 2018/02/15(木) 06:09:58.19

test2

**デフォルトの名無しさん** · 2018/02/15(木) 06:10:24.31

test2

**デフォルトの名無しさん** · 2018/02/15(木) 06:10:28.38

test2

**デフォルトの名無しさん** · 2018/02/15(木) 06:14:40.45

hage

**デフォルトの名無しさん** · 2018/02/15(木) 06:27:48.90

テストてすと漢字

**デフォルトの名無しさん** · 2018/02/18(日) 09:20:31.63

合字なんて百害あって一利なしと判明

**デフォルトの名無しさん** · 2018/02/19(月) 14:39:31.27

macOS 10.13.3/iOS 11.2.5でアプリが特定のテルグ語でクラッシュするバグはゼロ幅非接合子の処理の不具合によるもので、iOS 10にも影響。
ttps://applech2.com/archives/20180216-macos-and-ios-telugu-crash.html

**デフォルトの名無しさん** · 2018/02/20(火) 00:53:22.06

たかが文字のために複雑な処理を強いるからこういうことになる
合字なんてやめてビットマップで用意すりゃいいだろ
今の時代、そのくらいのリソースの余裕はあるだろう

**デフォルトの名無しさん** · 2018/02/20(火) 21:44:08.47

いやアニメーションGIFの方がいい

**デフォルトの名無しさん** · 2018/02/20(火) 23:42:25.88

base64エンコードしとけ

**デフォルトの名無しさん** · 2018/02/21(水) 16:48:25.28

単純な絵文字ならLINEスタンプの如く画像でもいいけど
そのテルグ語というのは文字を画像にしたところでどれほど処理が簡便になるのやら

**デフォルトの名無しさん** · 2018/02/26(月) 14:48:48.25

L2/18-063
Proposal to remove the UCS2003 representative glyphs from the Extension B code charts
Ken Lunde
2018-02-22
http://www.unicode.org/L2/L2018/18063-remove-ucs2003-ext-b.pdf

**デフォルトの名無しさん** · 2018/02/28(水) 08:11:48.96

うにコードって何でいっぱいあるの？

どれで保存しますかとか言われても知らんがな

http://www.geocities.jp/kwx50/bk/img_tips2/save_as_.jpg

**デフォルトの名無しさん** · 2018/02/28(水) 10:19:54.78

UTF-16があれば十分だと思ったこともありました

**デフォルトの名無しさん** · 2018/02/28(水) 11:10:39.29

>>76
UTF-32 でも全漢字を収録するわけではない
(文献学・学術用途には足りない）
のが悲しいところです

**デフォルトの名無しさん** · 2018/02/28(水) 15:09:53.47

UTF-8だけで結構。

**デフォルトの名無しさん** · 2018/02/28(水) 16:24:29.00

UTF-8でもUTF-16でもUTF-32でも表せる文字数は同じはずだが
UTF-16の限界に合わせてUTF-8とUTF-32を途中から制限したというべきか。

**デフォルトの名無しさん** · 2018/02/28(水) 17:38:48.54

>>75
BOMなしのUTF-8が選べればベスト
無理ならbigendian

**デフォルトの名無しさん** · 2018/02/28(水) 21:23:27.95

>>79
ハァ？
UTF-32ならUTF-8の4倍の文字を表せるはずだろ

**デフォルトの名無しさん** · 2018/02/28(水) 21:38:05.83

>>81
なにをトンチンカンなことを言っている
https://ja.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E6%96%B9%E5%BC%8F#%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E5%BD%A2%E5%BC%8F%E3%81%A8%E6%96%87%E5%AD%97%E7%AC%A6%E5%8F%B7%E5%8C%96%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%A0

**デフォルトの名無しさん** · 2018/02/28(水) 21:51:42.35

わざわざID消してくれてる荒らしに構うな

**デフォルトの名無しさん** · 2018/03/01(木) 10:30:25.87

>>80
あんがとー

＞　Windows付属のメモ帳では標準でBOMが追加されてしまうらしい

うにコード詰んどるやんけ…

**デフォルトの名無しさん** · 2018/03/01(木) 19:03:52.79

詰んでるのはメモ帳の方で
うんコード自体はまだ希望ある

**デフォルトの名無しさん** · 2018/03/01(木) 21:13:43.25

ゆうてBOMついてて困るってどれぐらいある？

**デフォルトの名無しさん** · 2018/03/02(金) 05:14:51.39

>>76>>77
語りたくてしょうがない具合がキモいな

**デフォルトの名無しさん** · 2018/03/02(金) 08:24:39.34

wchar_t楽チンでいいんだけどなあ
UTF8なんてアメリカ人はASCIIと区別してないだろ

**デフォルトの名無しさん** · 2018/03/02(金) 13:34:30.39

>>88
+1

**デフォルトの名無しさん** · 2018/03/03(土) 21:08:37.51

ビルマ文字の文字コードを何とかしてくれ

**デフォルトの名無しさん** · 2018/03/09(金) 21:41:02.61

教育漢字(小学校で習う漢字)しか入ってないお試しフォントを時々見かけるけど
http://forest.watch.impress.co.jp/article/2002/07/24/motoyafont.html

こういうフォントはインスコしたらそこそこ役に立つんだろうか？
人名は色々引っかかるから名簿には使えないだろうけど

**デフォルトの名無しさん** · 2018/03/10(土) 10:32:38.62

官公庁でも使えないのか

**デフォルトの名無しさん** · 2018/03/10(土) 10:33:43.40

ああ要するに撒き餌記事だな
誘導されたら負け

**デフォルトの名無しさん** · 2018/03/10(土) 22:09:21.47

いつの記事やねん

**デフォルトの名無しさん** · 2018/03/10(土) 22:32:59.43

教育漢字フォントはわりと色んなメーカーから出てるが
>>92-94の反応を見ると知らない奴は知らない模様

**デフォルトの名無しさん** · 2018/03/10(土) 22:47:02.21

吉野家が打てないからな＞教育漢字

**デフォルトの名無しさん** · 2018/03/17(土) 13:54:50.47

IPA
プレス発表　「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了
https://www.ipa.go.jp/about/press/20171225.html

**デフォルトの名無しさん** · 2018/03/17(土) 14:07:56.36

いつの記事やねん

**デフォルトの名無しさん** · 2018/03/17(土) 14:54:51.30

申し訳ない。

**デフォルトの名無しさん** · 2018/03/17(土) 15:29:10.27

IPAなんてまぎらわしい名前付けやがって大迷惑だわ