文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/17(月) 16:48:24.47

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2021/01/21(木) 00:18:54.31

来月からUnicode 14に向けた準備が始まるそうだけど
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか

**デフォルトの名無しさん** · 2021/01/21(木) 12:01:56.27

改行コード間違うのってたいてい改行コードが混在してるのが原因じゃないの？

**342** · 2021/01/21(木) 17:12:51.59

>>471
一行目の改行コードで充分では？

**デフォルトの名無しさん** · 2021/01/22(金) 23:50:53.67

eメールは8bitの文字を7bitに変換して送るのが一般的だけど
今でも7bitしか扱えないメールサーバーってあるんだろうか

**デフォルトの名無しさん** · 2021/01/25(月) 20:49:52.31

前に件名を=?ISO-2022-JP?B?の形式でエンコードせずに直接ShiftJISを書きこみ
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと

**デフォルトの名無しさん** · 2021/01/25(月) 20:59:52.42

8bitを化けさせるようなメールサーバーが今でも存在するのかという質問であって、お前の化けなかった経験は何の解答にもなってない。

**デフォルトの名無しさん** · 2021/01/25(月) 22:50:52.28

そりゃあ、存在しないという解答は解答にならなくて存在しているという解答だけが解答になるわけだ。

**デフォルトの名無しさん** · 2021/01/26(火) 00:14:38.98

現れないのが透明人間です
みたいな話

**デフォルトの名無しさん** · 2021/01/29(金) 22:30:48.89

規格上はオプションではあるがSMTP POP3 IMAP4全てでUTF-8をそのまま送受信できるから
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな

**デフォルトの名無しさん** · 2021/01/30(土) 00:20:35.73

>>480
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。

**デフォルトの名無しさん** · 2021/01/30(土) 01:48:16.96

先賢の方々が何処かの頃合いで8bitクリーンに作り直しておいてくれればなぁ

**デフォルトの名無しさん** · 2021/01/30(土) 04:51:50.38

問題になるのはTAB,SP,BS,ESC,DELとかの制御コードなのでBase64等は必須でしょうね
行頭の'.'も気にしなくて良くなる

**デフォルトの名無しさん** · 2021/02/01(月) 15:56:04.61

どうしてメールは7bitが基本になったんだろうね
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか

**デフォルトの名無しさん** · 2021/02/01(月) 19:54:24.08

もともとインターネットでメールがやり取りされるようになる以前から
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。

**デフォルトの名無しさん** · 2021/02/01(月) 19:58:08.39

SMTPが出来たは40年ちかく昔だからなあ
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう

**デフォルトの名無しさん** · 2021/02/01(月) 21:54:37.95

コマンド以外は全て8bitのバイナリデータとして扱ってエンコードしないで
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない

◆QZaw55cn4c · 2021/02/01(月) 22:00:08.44

>>484
>8bit目をパリティとして使う
でしょうね、欧米はそれで足りるから

**デフォルトの名無しさん** · 2021/02/02(火) 00:59:48.46

binarymimeって使われてないの？

**デフォルトの名無しさん** · 2021/02/02(火) 13:36:00.69

>>486
>日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
シフトするJISはあったでしょ

**デフォルトの名無しさん** · 2021/02/03(水) 21:38:48.49

記号以外のASCII文字はエンコード後も変化しないという意味でUTF-8を7bitにエンコードするなら
quoted printableがbase64より合っていると思うんだけど
メールでのUTF-8の普及に合わせてquoted printableも普及しないかな

**デフォルトの名無しさん** · 2021/02/03(水) 22:02:22.02

そういえばUTF7なんてのもあったね
どこで使ってたんだろう？と思ってググったらIMAP4とかだと2010年前後でも当たり前に使われていたらしい
メールはかなり最近まで（今も？）7bitを大事にする文化みたいだね

**デフォルトの名無しさん** · 2021/02/03(水) 22:21:53.66

本当はもう無いのに「読めないぞ」というクレームが怖くて残ってるんじゃ。
残ってても、そもそもそんなところに8bitのメールは送られないような。

**デフォルトの名無しさん** · 2021/02/04(木) 01:36:54.71

今現在のメールの良さって汎用性・後方互換性に尽きるからなあ

**デフォルトの名無しさん** · 2021/02/04(木) 18:23:08.62

https://www.janog.gr.jp/meeting/janog31/resume/janog31-i18nmail-fujiwara-01.pdf#page=10
この形式でメールを送れるメールソフトがどのくらいあるのか分からないけど
今はこの形式でメールを送って、問題が出たら従来の形式で送るというくらいでもいいんじゃないの

**デフォルトの名無しさん** · 2021/02/08(月) 21:58:11.42

UTF-16がunicodeをややこしくさせる原因になってるよね
unicodeのコードポイントがU+7FFFFFFFからU+10FFFFまでに制限されたのも
サロゲートペアも考慮しないといけない所もUTF-16のせいなんだし

**デフォルトの名無しさん** · 2021/02/12(金) 05:28:51.22

麻雀牌が全部登録されたのに🀄だけ先行だから見た目が違うのどうにかならんのか…

**デフォルトの名無しさん** · 2021/02/12(金) 08:42:44.00

フォント次第だろ

**デフォルトの名無しさん** · 2021/02/12(金) 08:54:47.22

>>498
大抵のフォントでも🀄だけは違うよ

**デフォルトの名無しさん** · 2021/02/12(金) 14:05:54.17

Ninja Catは新たな機種依存文字といえるだろうか

**デフォルトの名無しさん** · 2021/02/12(金) 16:22:53.75

>>496
というかそれはUnicodeの歴史とむすびついてるわけだし。
当初16ビットでということでWindowsやMacがそれを採用、しかしリリース後に16ビット
では足りないことが判明。もうその時点ではサロゲートペア的なものでどうにかする
のは仕方ないかも。

というわけでややこしいのはUnicodeそのものw

**デフォルトの名無しさん** · 2021/02/12(金) 23:39:41.89

♡
💙

**デフォルトの名無しさん** · 2021/02/12(金) 23:59:30.90

16ビットで足りない事が判明した時点でUTF-32に移行できればよかったんだけど
未だにUTF-32に対応したソフトは少ないんだよね

**デフォルトの名無しさん** · 2021/02/13(土) 06:00:35.89

理論上は、UTF-32でも足りない。無限に増えるユニコード表に対応するには、UTF-32にもサロゲートが必要。

**デフォルトの名無しさん** · 2021/02/13(土) 06:02:18.96

歯磨き粉買ってくる

**デフォルトの名無しさん** · 2021/02/13(土) 09:04:37.07

無限に増える理屈を詳しく

**デフォルトの名無しさん** · 2021/02/13(土) 10:43:02.72

宇宙文明

**デフォルトの名無しさん** · 2021/02/13(土) 11:01:30.65

ぼくのかんがえたさいきょうの文字が追加されても耐えられる仕様でなければならぬ。
よしんば絵文字の可能性は無限。

**デフォルトの名無しさん** · 2021/02/14(日) 11:44:24.49

🐼🐼🍞🍞🐼🍞🐼

**デフォルトの名無しさん** · 2021/02/14(日) 23:59:32.09

>>497-499
同じ種類の文字なのに一部だけ先行して登録されて
他の文字は後から全く違うポイントに登録されている物もあるから
フォントだけで済んでるならまだマシじゃないかと

**デフォルトの名無しさん** · 2021/02/15(月) 03:09:13.69

>>510
いや🀄だけ違うのはちょっとモヤるんだよなぁ
unicodeに送ろうと思ったら有料会員じゃないとだめだったorz

**デフォルトの名無しさん** · 2021/02/15(月) 16:03:14.56

unicode に送っても仕方ないやろ
フォントメーカーに送れ。
内蔵フォントなら機器メーカーに送れ。

**デフォルトの名無しさん** · 2021/02/15(月) 16:39:10.57

何送り付けるつもりなの

**デフォルトの名無しさん** · 2021/02/15(月) 17:18:57.69

ヷヸヹヺセ゚ツ゚ト゚の合字ではない平仮名は無いんだよな
「ゔ」を入れたのなら他の文字も平仮名版を入れればいいのに

**デフォルトの名無しさん** · 2021/02/15(月) 20:05:59.00

ユニコードはウィルスなので送らないでください。

**デフォルトの名無しさん** · 2021/02/16(火) 08:25:02.10

>>512
Unicodeで決まってるんじゃなくて？

**デフォルトの名無しさん** · 2021/02/16(火) 09:08:45.11

>>516
図柄を決めてるのはフォント屋。
Unicode的にはコードポイントが離れてても同じような図柄にすることを想定してるけど、フォントがそうなってないだけ。

**デフォルトの名無しさん** · 2021/02/16(火) 16:32:28.02

文字のバイト数が可変長のコードを作れば、弱い暗号に使えないのかな
１，２，３，４バイト不規則に混在、たまに７バイトや１０バイトも混ざる

**デフォルトの名無しさん** · 2021/02/16(火) 17:46:12.13

もしかしてutf-8？

**デフォルトの名無しさん** · 2021/02/16(火) 20:48:18.23

>>496
UTF-8の4バイトに合わせてU+1FFFFFまでにしてくれればよかったのにとはちょっと思った。

**デフォルトの名無しさん** · 2021/02/16(火) 21:51:25.16

可変長の究極は1文字ごとに
文字の切れ目を表すためのエスケープ文字とunicodeの登録名（HIRAGANA LETTER Aなど）
をテキストファイルに記録する事かもね。
コードポイントの概念を無くして16進数の番号で管理しないから
後から追加された文字でもコードポイントが飛んでいる事はなくなるし。
ただし文字によっては1文字に50バイト以上使うこともある。

**デフォルトの名無しさん** · 2021/02/16(火) 23:05:15.94

>496
Unicodeの当初の16bit（最大65536文字）あれば
十分だろうという考えがそもそもの原因なんだから
UnicodeをややこしくさせてるのはUnicode自身だよ

最初の段階で16bitで足りないと認めていれば
今頃はUTF-32が主流になっていただろう
もっともUnixは互換性のためにUTF-32をネイティブで扱うのが
難しいのでUTF-8は生まれていたかもしれないがね

**デフォルトの名無しさん** · 2021/02/17(水) 01:57:41.63

枻（木へんに世）って、シフトJIS（のバリエーション）的にはどうなんだっけ。
というかこれ自体もテストだったり。

**デフォルトの名無しさん** · 2021/02/17(水) 02:17:54.79

ちなみに自分はMacなんだが、0xFAE2を書き込んだ模様。
皆さんには見えてますでしょうか。
HTMLでcharset=Shift_JISのときってどうするのか揉めた記憶が。

**デフォルトの名無しさん** · 2021/02/17(水) 02:44:16.94

５ちゃんねるの仕様は文字コードと何の関係もない

**デフォルトの名無しさん** · 2021/02/17(水) 03:22:07.19

っ https://encoding.spec.whatwg.org/shift_jis.html
今のブラウザはこの辺に従ってるで終了じゃねの?

**デフォルトの名無しさん** · 2021/02/17(水) 08:12:07.90

>>525
5chをブラウザで見るとHTMLがcharset=Shift_JISなんだけど、それは関係ないってこと?

そもそもテキストデータのやり取りで文字コードの指定がない仕様というのは... もしかして
適当にデータを送受信して適当な文字コードを指定して見れたらラッキー、的な仕様?

そもそも5chの仕様ってどこかにあるんでしょうか。

**デフォルトの名無しさん** · 2021/02/17(水) 09:42:15.24

やれやれ頭が固いなｗ
SJISでUnicodeが表示できないと思いこんでる

**デフォルトの名無しさん** · 2021/02/17(水) 18:28:41.76

もりおうがいしかる
森鷗外𠮟る
森鴎外叱る

**デフォルトの名無しさん** · 2021/02/17(水) 19:54:41.88

森鳩ﾀﾄﾛﾋる

**デフォルトの名無しさん** · 2021/02/17(水) 20:00:49.86

>>521
そこまで行くと文字コードというか最早マーク付け言語みたいだな
てかHTML (SGML/XML)の文字実体参照まんまでは

**デフォルトの名無しさん** · 2021/02/17(水) 22:24:44.47

sjis には、Windows CP932 特有の環境依存文字がある

それで、バグルか、フォントが無いとか

**デフォルトの名無しさん** · 2021/02/18(木) 00:08:48.51

>>523-524
世に出てるブラウザの殆どはcharset=Shift_JISな文書をWindows-31Jとして解釈するだろうから
IBM拡張文字として表示されるんでない？
というか、何を疑問に感じてのレスなのかが分からないんだけど。

**デフォルトの名無しさん** · 2021/02/18(木) 10:20:55.82

不知佛

**デフォルトの名無しさん** · 2021/02/18(木) 16:35:44.79

>>533
>charset=Shift_JISな文書をWindows-31Jとして解釈するだろうから

まさにそこ。本来はこの両者は違うから、正しく解釈すれば文字化けする。
しかし事情を知らないユーザーから見たら、文字化けするソフトウェアの方が劣ると
思われそうで悔しいw

そもそもShit_JISとWindows-31Jをごちゃ混ぜにして大量に垂れ流したWindowsのプラット
フォームないしユーザーに責任があると言えるが、それに迎合しないといけないのがw

**デフォルトの名無しさん** · 2021/02/18(木) 17:36:53.61

>>535
なんでもかんでもWindowsのせいにするな

もともとSJISはMicrosoftがメインで策定したもので
その仕様はMicrosoftが一番知ってる

Microsoftが想定外だったのは、拡張性を持たせるための領域を
NECやIBMが拡張しまくってSJISとして広めてしまったことにある
ごちゃまぜにしたのはNECやIBMにすぎない

Microsoftはそれじゃデータの相互運用に困るから
Windowsでそれらを統合しただけ
MicrosoftのおかげでSJISはほぼ統一されたんだよ

例外は互換性がない形でSJISを確証したMacJapaneseだけ
Appleは独自拡張のうえ既存のSJISを無視して同じ領域に
別の文字を割り当てやがったアホ

**デフォルトの名無しさん** · 2021/02/18(木) 18:09:37.01

Tower of Babel

**デフォルトの名無しさん** · 2021/02/18(木) 18:54:47.31

C言語の/r/nなどのエスケープシーケンスは制御文字に対するアルファベットの割り当てを
キャレット記法と同じにした方がよかったんじゃないかと思う

**デフォルトの名無しさん** · 2021/02/18(木) 20:15:29.49

キャレットって^Cの^（CTRLという意味）のこと？

**デフォルトの名無しさん** · 2021/02/18(木) 22:08:13.73

Ruby は、数十種類もの日本語の方言を変換できる。
方言同士の変換パスを作っている

最大6パスで変換できる方言もあるらしい

でも、今でも、NEC・ドコモ方言などを使うかどうか疑問

**デフォルトの名無しさん** · 2021/02/18(木) 22:29:52.06

>>539
例えばCRLFなら^M^JだからC言語でも\r\nではなく\m\jの方がよかったんじゃないかと

**デフォルトの名無しさん** · 2021/02/18(木) 23:13:37.69

あらゆる文字コードでCR=0x0D,LF=0x0Aだと本当に保証されているのか？
を考えてみれば答えが出るんじゃないかと

**デフォルトの名無しさん** · 2021/02/19(金) 10:43:19.20

>>536
うむー確かに各ベンダーのせいはあるか。
しかし、このSJISの混乱があったにも関わらず、ガラケーでは各ベンダーが勝手な絵文字の
コードを割り当ててえらいことになりかけてたよね。
で今度はGoogleが中心になって事態を収拾した。
歴史は繰り返すってか。あるいは日本企業の変わらない体質?

**デフォルトの名無しさん** · 2021/02/19(金) 11:24:24.47

最近はもうこんな感じのコードを必ず最初に入れるようにしてるなぁ。
$Text = preg_replace("/(\r\n|\r|\n)/" , "\n" , $Text );

**デフォルトの名無しさん** · 2021/02/19(金) 21:20:37.86

絵文字はユーザーの利便性に直結する、最も重要な要素

絵文字でシェアが変わるから、他社よりも先に、魅力的な絵文字を作らないといけない。
Line は、絵文字・スタンプでシェアを不動のものにした

**デフォルトの名無しさん** · 2021/02/19(金) 23:58:34.63

\nだとLFを指している場合と
CR単独、CRLF、LF単独に関係なく改行を指している場合の両方があって
ソフトによって違うから困る
前者と後者を区別できるようにしてほしいね

**デフォルトの名無しさん** · 2021/02/20(土) 14:22:35.85

米アップル、注射器の絵文字を微調整　「血のしずく」を削除
https://www.cnn.co.jp/tech/35166607.html

**デフォルトの名無しさん** · 2021/02/20(土) 16:11:25.88

あきらめないで

**デフォルトの名無しさん** · 2021/02/20(土) 20:02:11.54

>>545
じゃあLineはどうしてるの、という疑問が。

探してみるととりあえず... https://developers.line.biz/media/messaging-api/emoji-list.pdf
これに関してはUnicodeの私用領域を使ってるみたいね。

確か絵文字が表示されないときに (laugh) みたいにちゃんと置き換わるやつがあった気が
するが... あれはHTML的なもの（か、そのもの）なのかな。

**デフォルトの名無しさん** · 2021/02/20(土) 23:07:01.67

調べてみると点字にも文字コードと同じ問題があるんだな
6bitだから仮名と数字とアルファベットを全て1文字で表せないから
数字とアルファベットはエスケープ文字を付けて対応しているし
漢点字だと8bitで可変長になっている

**デフォルトの名無しさん** · 2021/02/21(日) 02:25:03.18

>>550
そういえばUnicode上の点字はなぜか8個の点で例示してあり、実際256パターンある。
点字のUnucode化? 8bitで十分かは知らんけどw
でも8個以上は指で触って読むのが難しいかもしれない。

**デフォルトの名無しさん** · 2021/02/21(日) 05:02:36.24

>>546
\n は、LF だけど、

Python みたいに、global new line を設定すると、
CR単独・CRLF・LF単独と、OS によって改行コードを切り替える、言語がある

**デフォルトの名無しさん** · 2021/02/21(日) 05:15:52.00

>>552
テキストモードって知らんのか？
どのOSでも持ってる機能だぞ

**デフォルトの名無しさん** · 2021/02/21(日) 05:33:13.41

テキストモードという概念はOSというよりプログラミング言語じゃないかな。

◆QZaw55cn4c · 2021/02/21(日) 09:02:39.59

>>553
テキストモード（正式にはクックドモードcooked mode／ローモード raw mode）は Micro Soft 社限定のような気が

**デフォルトの名無しさん** · 2021/02/21(日) 14:27:37.46

Terminal mode
https://en.wikipedia.org/wiki/Terminal_mode

A terminal mode is one of a set of possible states of a terminal or pseudo terminal character device in Unix-like systems and determines how characters written to the terminal are interpreted.
In cooked mode data is preprocessed before being given to a program, while raw mode passes the data as-is to the program without interpreting any of the special characters.

◆QZaw55cn4c · 2021/02/21(日) 16:39:18.84

>>556
thx

**デフォルトの名無しさん** · 2021/02/21(日) 20:28:19.64

たぶん、ascii・テキスト伝送は、Microsoft の規格だろ

基本、データはバイナリしかない。
バイナリを送っているだけ

それを、バイナリかテキストなのか、2種類に分けた

データベースと同じ。
バイナリしかないのに、各列を、バイナリ・テキスト・数値などに分類してる

**デフォルトの名無しさん** · 2021/02/22(月) 03:41:51.59

Unix の raw-mode とういのはバイナリとかASCII とかじゃくて入力されたキーボードの文字を生のまま受け取るモード。
たとえばリターンキーを押すと 0x0D がバックスペースを押すと 0x08 がバイト単位でそのまま渡される。実際のコードは端末次第。
cooked-mode というのは端末の設定に従って行単位でバッファしながら入力を加工するモード。
端末設定で「改行文字入力」が 0x0D に設定されていて、キーボードから 0x0D が入力されたら
改行の入力とみなしてunixの内部的な改行 0x0A に変換して、それまでのバッファを渡す。
端末設定で「前の一文字削除」が 0x08 に設定されていて、キーボードから 0x08 がきたらバッファー内の最後の一文字を削除する。
Ctrl-C で割り込み中断とかも cooked の機能。

**デフォルトの名無しさん** · 2021/02/22(月) 17:39:30.14

>>533
>世に出てるブラウザの殆どはcharset=Shift_JISな文書をWindows-31Jとして解釈するだろうから

ちなiOSのSafariはそうじゃないっぽい。macOSの方はそうなんだが。

とりあえずiPhone買って、付いてきたSafariでウェブを見る、みたいなユーザーは多いんじゃない
かと思うんだが.. というわけで「殆ど」という言い方はできないかもしれない。

**デフォルトの名無しさん** · 2021/02/22(月) 20:36:22.30

>>551
バイナリコードに親しんでいる人が点字を覚えるなら従来の6点の点字より8点の点字で
そのままバイナリコードを表した方が分かりやすいって人はいるだろうね
昔は穿孔テープの穴を見て何が書いてあるか分かる人は多かったようだし

**デフォルトの名無しさん** · 2021/02/23(火) 03:23:29.15

後から穴の数が増えたのも出てくるけど、もともとの紙テープは5穴なので10分も練習すれば誰でも読めた。ただし会社ごとに個別に覚える必要があった。

このスレ的に言えば、各社バラバラだった5穴、6穴の規格を統一するために作られた7穴の共通規格が ASCII の始まり。

**デフォルトの名無しさん** · 2021/02/23(火) 08:57:17.31

もうさ32ドット×32ドットぐらいの点字を作りなよ
そうすりゃかなりの文字を表現できるやろ？

**デフォルトの名無しさん** · 2021/02/23(火) 12:06:09.45

32x32でいけると思ったのですが、森羅万象を表現するに全然足りないことが判明したので、サロゲート点字を導入します

**デフォルトの名無しさん** · 2021/02/23(火) 16:52:17.61

有史から遠い未来まで全人類の顔を絵文字として登録できる、という前提で文字コード規格を作らないとダメでしょ。

**デフォルトの名無しさん** · 2021/02/23(火) 18:23:04.03

漢字には一画のぞくとか、わざと間違えるとかいう字もあるからなあ

**デフォルトの名無しさん** · 2021/02/24(水) 15:37:09.38

「信長の野望」の家康画像みたいに元服前の顔、青年期の顔、老年期の顔をそれぞれ登録するようにしたらますます文字コードが増える。

**デフォルトの名無しさん** · 2021/02/24(水) 15:43:59.66

同じ顔は同一の文字コードにすればOK

**デフォルトの名無しさん** · 2021/02/24(水) 16:00:01.95

>>545
そうなんだ。
ということはSJISのバリエーションに関しても、似たような経緯があったのかな?
「ウチのOSではこんな文字も使えますよ」的な?

**デフォルトの名無しさん** · 2021/02/24(水) 16:13:32.49

IPv6では宇宙誕生から消滅に至るまでの全宇宙のデバイスにIPアドレスを割り当てることはできない。勝手に最大量を決めてはダメってことだ。

**デフォルトの名無しさん** · 2021/02/24(水) 16:25:49.69

>>569
OSじゃなくてハードウェアの問題

まずSJISの文字コード自体はMicrosoftとほか団体が協力して作ったが
SJISという文字コードと基本的な文字集合を定義したが、
当時のOSであるMS-DOSには文字集合という概念そのものがなかった

そもそもMS-DOSにはフォントというものが搭載されておらず
MS-DOSは単にSJISの文字コードに対応した出力機能を備えていたに過ぎない
そしてその文字コードに対応した文字（つまりフォント）はハードウェアの漢字ROMに搭載されていた

当時はPCの速度が遅く、ハードウェアにフォントを搭載しなければ
日本語はまともな速度が出なかった

そして漢字ROMを作っていたのはNECなどのパソコン屋。拡張領域に文字を入れることで
NEC「うちのパソコンは、こういう漢字にも対応していますよ。」ということが出来た

例えば PC-9801の初代は漢字ROMボードを搭載せず、
・JIS第一水準漢字ROMボード
・JIS第ニ水準漢字ROMチップ
・どちらにも含まれていない拡張漢字ROMチップ
がそれぞれ別売りされていた