文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2018/12/17(月) 16:48:24.47ID:Pfqpaohb
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
2020/07/05(日) 21:04:09.52ID:M+BkbwUs
>>44
それはコマンドプロンプトがUTF-16なので、
mingwのcatやgrepがUTF-8で出力すると文字化けするからだね
2020/07/05(日) 23:20:17.80ID:jQ41esUI
>>45
コマンドプロンプトがUTF-16なので、
mingwのcatやgrepがSJISで出力すると文字化けするからだね

という論法も成り立つが。
2020/07/06(月) 01:59:06.09ID:T074ZQpk
mingwのcatやgrepでSJISにない文字も表示できるので
その論法は成り立たない
48デフォルトの名無しさん
垢版 |
2020/07/06(月) 10:35:57.48ID:vjiPzzt6
SJISちゃんのことは早く忘れろ
2020/07/07(火) 00:26:29.24ID:wqab1oeP
やだーExcelのマクロファイルSJISだもん
50デフォルトの名無しさん
垢版 |
2020/07/08(水) 17:17:18.70ID:h0xUNipw
Office文書自体はOOXMLでUTF-8になったのに
マクロは未だにShift_JISなのか。
2020/07/09(木) 09:25:45.33ID:vrNDocOm
唐突かつ広範な主張
マウントスタート
主観的な理由
地に足のつかない結論

わずかな文章に愚かさが詰め込まれていて揶揄せずにおれない
52デフォルトの名無しさん
垢版 |
2020/07/18(土) 13:33:37.82ID:uRU3MGLx
知られざる顔文字の世界
https://www.hottolink.co.jp/blog/20161114_66202/
2020/07/20(月) 21:19:31.88ID:SNT5szCU
AppleとGoogle、世界絵文字デーに新絵文字を披露
https://www.itmedia.co.jp/news/articles/2007/20/news053.html
54デフォルトの名無しさん
垢版 |
2020/07/21(火) 11:54:04.73ID:+OCbOnRh
絵文字の話題鹿無いのか
2020/07/21(火) 11:57:01.74ID:SHIoqAPz
もうそろそろ音文字もできてほしいよね
2020/07/21(火) 19:48:37.21ID:yq9jKXcW
昔懐かしMIDI復活
2020/07/22(水) 01:25:29.84ID:u6QrHnkl
いつかはアニメ文字も作られるのかな?
2020/07/22(水) 03:14:08.06ID:WLvtiBEO
>>57
iモードにあったような無かったような
2020/07/22(水) 03:39:38.34ID:IIwMuy9z
<MARQUEE><BLINK>動きがあるのは気が散るからやめてほしいな</BLINK></MARQUEE>
2020/07/22(水) 07:25:55.44ID:IySnQNum
懐かしのって
初音ミクとかMIDIで出来てるだろ
2020/07/22(水) 11:49:19.63ID:J4Vacr3k
>>59
<ITALIC><BIG>旧タグなら書き込めるんだw</BIG></ITALIC>
2020/07/24(金) 03:27:13.24ID:6ZonvnML
音文字か。そう言えば Ctrl+G (7) は BELL だったような。
ASCIIだけか? Unicode だと決まってないんだっけ?
2020/07/24(金) 03:43:48.92ID:5ghYNMX+
マザボのブザーでも鳴るの?
2020/07/24(金) 05:05:05.45ID:6ZonvnML
さあ? 処理するプログラムに寄るんだろうな。
Windows のコマンドプロンプトで 7 のコード出力してみたら音が出たよ。
2020/07/24(金) 05:05:33.57ID:6ZonvnML
BIOSのビープ音ではなく Windows 側のサウンドの設定が関係しているんだろうと思う。
2020/07/24(金) 10:07:32.92ID:gSKUw3+G
UnicodeでもU+0007はBELL CHARACTER
67デフォルトの名無しさん
垢版 |
2020/07/24(金) 10:53:36.75ID:qMgm686n
printf("\x7\n");
2020/07/24(金) 11:02:13.19ID:kTZ1cNqr
マザボのビープスピーカではなくサウンドデバイスで鳴らすようになったのはwin7以降だっけ
2020/07/24(金) 11:14:24.17ID:f4UMJCtp
2000ジャマイカ
2020/07/24(金) 17:43:05.10ID:YBlLKE+B
2000の時代に練習した時はprintfでビープ鳴ってた
2020/07/24(金) 18:43:29.22ID:sQG3RcOn
>>68
普通に考えりゃvista以降からでしょう
7かvistaかで本体beep鳴らすapi叩いたらpcmでがっかりだったのは覚えてる
apiだとATのbios同様周波数や長さ指定できて遊べたんだがな
同時にいじられるとよくないから切られたんでしょう
2020/07/24(金) 19:01:43.86ID:vNSj5xVg
なついなぁ。

Win32API Beep()
https://docs.microsoft.com/en-us/windows/win32/api/utilapiset/nf-utilapiset-beep
2020/07/24(金) 19:18:02.12ID:yBBtjj2V
beep用スピーカーがマザーボードから省略され始めたんだよ。
2020/07/24(金) 19:22:19.50ID:7vmGBdx3
昔は音を鳴らせるアプリは一つだけだった。
いつからか複数のアプリが同時に鳴らせるようになったんだが
いつからだっけな
2020/07/25(土) 00:55:48.04ID:W2vK2AQR
うろ覚えだが、ビープスピーカーで力業で音楽演奏するソフトがあったような気がする
2020/07/30(木) 04:08:23.78ID:y8VtuE5G
>>66
Unicode では ALERT
または BEL
77デフォルトの名無しさん
垢版 |
2020/07/30(木) 16:30:24.90ID:EPvquY9v
tab は \t
だから
bell は \b
と思ってた時期がある
78デフォルトの名無しさん
垢版 |
2020/07/30(木) 16:41:49.22ID:TNnZNpws
合わせると
食べる
2020/07/31(金) 22:29:23.92ID:j/9/9lyu
>>77
\bの本当の意味ってなんだっけ。
2020/07/31(金) 22:33:31.30ID:LZrfPAZb
バックスペース
2020/07/31(金) 22:42:27.48ID:LZrfPAZb
しかしこういうのってティッカーテープとかテレタイプの時代にさかのぼるらしいね。
現物を見たことはないが用語だけはいろいろ残っているという。
2020/08/01(土) 01:00:50.03ID:WNKlelSF
遠隔で物理CR/LFは夢がある
2020/08/01(土) 18:43:21.40ID:6JQgXAfu
一番夢があるのは肯定応答とかかな。
というのも,改行やエスケープとかはもちろん,場合によっては警鈴なんかも
未だに現役なのに対して,「肯定応答」という意味で^Fが使われているのを見たことがないから。
^Fはもう,各ベンダーごとに都合の良い,全く違う制御シーケンスになっちゃってる。
2020/08/01(土) 19:03:29.73ID:hFu7PbvL
NAK
2020/08/26(水) 16:48:18.06ID:P4l77+uM
毎日新聞ニュースさんはTwitterを使っています 「天皇陛下即位のお祝い品のリストと写真を㏋で公開 宮内庁」 / Twitter
https://
twi
tter.com/
mainichijpnews/status/1297833742753439744

HPが合字の㏋ (U+33CB)に
2020/08/26(水) 17:29:56.14ID:tn5jjKWE
正規化のせいやな。
知らんけど。
2020/08/27(木) 00:37:34.21ID:Jx+0/WN9
いまだに手書き、あるいは印刷した紙で原稿を入れてくる記者がいて、
入稿をOCRで文字起こししたらHPをその合字の方に認識、そのまま放置、とか?

ちなみにこれってHorse Powerでよかったですか?
2020/08/27(木) 11:49:50.52ID:igmT7d/I
馬力
2020/09/02(水) 16:48:23.22ID:wDhsuzOT
そう言えば中国のGB 18030が改訂されるって話はどうなったんだろう?
何年か前にKenが最終原案を見たよって言ってた気がしたけど、続報がない。
2020/09/02(水) 23:24:39.67ID:jWdQ7Iud
その後Kenの姿を見た者はいないという
2020/09/03(木) 15:58:49.10ID:ACS7FND0
13対応の花園もマダー?
2020/09/20(日) 08:14:38.84ID:BIMERbR5
Emoji 13.1 - Now final, to be widely available in 2021
http://blog.unicode.org/2020/09/emoji-131-now-final-to-be-widely.html
2020/09/20(日) 18:04:46.19ID:j6+bQw5M
Androidの絵文字追加がOSバージョンアップ前提だから取り残される環境が多すぎるんだよな
どうにかアプリ枠で配信してくれたらいいのに
94デフォルトの名無しさん
垢版 |
2020/09/20(日) 18:46:29.19ID:RjVJO5D2
woman with beard
誰得?
95デフォルトの名無しさん
垢版 |
2020/09/20(日) 18:47:31.92ID:RjVJO5D2
https://www.unicode.org/announcements/emoji-13-1-annc-couples.jpg
最初から顔に色なんか付けなきゃ良かったのに
2020/09/20(日) 20:32:09.64ID:69fdZo9j
だっぷるがつけちゃったんだもん
97デフォルトの名無しさん
垢版 |
2020/09/21(月) 00:08:08.68ID:fGf6DMu1
顔に色が無いと全部白人に観えるんだろ
黒い顔だけ造っておけばよかった
2020/09/21(月) 09:05:25.63ID:apXLM6YN
そもそも文字コードになんで色情報なんか含めたんだろ
あれも発端はPCがらみだっけ?
2020/09/21(月) 10:33:58.83ID:13UcesYH
俺は良かったと思うけどな。おかげで文章としての表現力が上がった。
2020/09/21(月) 10:35:23.80ID:13UcesYH
一夫多妻を表す絵文字はつくらないのかね?
101デフォルトの名無しさん
垢版 |
2020/09/21(月) 10:44:58.40ID:M8W5JifW


2020/09/21(月) 17:50:51.21ID:ttv6HIBF
>>95
そっか、これコードを結合していくと作れるんだ。面白い。
男+白肌+ハート+男+黒肌 みたいな。

仕組みは面白いが、処理する側は大変そうw
あとキーボードの絵文字パレットとか、全パターン表示しないといけないのかな?
2020/09/21(月) 18:17:56.53ID:fI5zzMAW
> 仕組みは面白いが、処理する側は大変そうw

うん。だから個々の人が処理するんじゃなくて
OS標準のテキスト処理として実装されたから素晴らしいんだよ
普通に文字を出力すれば、絵文字対応になるから
2020/09/21(月) 18:45:37.15ID:ttv6HIBF
>>103
OSレベルでテキストのレンダリングとかめんどくさくなったはいうまでもなく、
一般のデベロッパもユニコード文字列をうかつに処理できなくなった罠。
ま、 ちゃんとAPIを使えとか、そういうことで、それはいいことなのかもしれないけど。
2020/09/21(月) 19:08:16.33ID:sDzSgcbr
ユニコードはウィルスなので送らないでください
2020/09/21(月) 19:45:05.95ID:LKcGYABn
>>104
それは絵文字以前の話だけどね。

Unicodeの当初の目標でも16bit固定=C言語の終端文字である\0が1文字の中に
含まれる事があるので、文字はUnicodeとして扱わなければいけないことが決定していた。

Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが
可変長バイトだから、これもUnicodeとして扱わなければいけない。

どちらにしろちゃんとAPIを使えという話は避けられなかったんだよ。
そして絵文字のおかげでサロゲートペアが必要となる文字への対応が進むといういい結果をもたらしたw
2020/09/21(月) 21:02:01.32ID:XIYZJxnC
想定しないといけない1文字の長さを具体的有限にしてくれないかなあ
2020/09/21(月) 21:15:43.93ID:GxzcHgtD
アキラメロン
最終的には複数の文字を組み合わせて64 x 64 ドットに
自由なアイコンを作れるようになるだろう
2020/09/21(月) 23:04:34.98ID:dVFtF0fU
今時ピクセルは無いだろ。
SVG埋め込みの方が可能性がある。
110デフォルトの名無しさん
垢版 |
2020/09/22(火) 03:30:53.25ID:EwzeVKsQ
>Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが

これは違うんじゃまいか
結果的にそうなっただけであって
意図してそうした訳じゃない
2020/09/22(火) 03:34:39.51ID:Ab752W48
>>110
意図してUTF-8を作ったんだよ
本来はUnicodeにはUTF-16しか無かった。
外部機関があとから作り出したもの。それがUnicode本家に採用された
2020/09/22(火) 05:08:49.52ID:w/6Y1Cd5
UTF8の方がUTF16より歴史が古いよ。
ユニコードが国際規格になる前からある。
2020/09/22(火) 11:24:31.43ID:X1mK+PSm
>>98
NTTDoCoMo・au・Softbankの絵文字の時点でカラーになってたじゃん
互換性を保つために必要
2020/09/22(火) 11:58:02.00ID:UY6+hZuP
>>112
> UTF8の方がUTF16より歴史が古いよ。
> ユニコードが国際規格になる前からある。

いちいちすぐバレる適当なウソつくんじゃねーよ

https://ja.wikipedia.org/wiki/Unicode#%E6%AD%B4%E5%8F%B2
1991年10月 Unicode 1.0.0 7,161文字 初期バージョン、16ビットの文字コード
1992年6月 Unicode 1.0.1 28,359文字 CJK統合漢字を導入


https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

> UTF-8 was designed, in front of my eyes, on a
> placemat in a New Jersey diner one night in September or so 1992.
UTF-8は1992年9月に私の目の前で設計された

> We had used the original UTF from ISO 10646
> to make Plan 9 support 16-bit characters, but we hated it.
Plan 9で16ビット文字をサポートするためにISO 10646の
オリジナルのUTFを使用していた が私たちはそれを嫌っていました。

> However, UCS and its UTF variant do not protect
> null bytes and/or the ASCII slash ("/") making these character encodings
> incompatible with existing Unix implementations.

しかしUCSとその亜種であるUTFはヌル文字とスラッシュを保護せず
存在するUnixの実装と互換性がありません。
2020/09/22(火) 12:07:37.87ID:EwzeVKsQ
それは単にカラーで表示していただけで色情報を持っていたわけじゃないだろ。

発端はやっぱり肌色の問題だったらしい。
https://internet.watch.impress.co.jp/docs/special/670150.html
116デフォルトの名無しさん
垢版 |
2020/09/22(火) 14:22:08.65ID:iCejn/78
ナメック星人用に緑の肌もあるの?
2020/09/22(火) 15:07:13.30ID:pk1eyzkq
>>114
わかっていないのはお前

UCS-2≠UTF-16

1991年のUnicode 1.0.0の時点ではUnicodeの符号化文字は2バイトのみだったから2バイト固定長符号化
文字集合や符号化方式のUCS-2は当然存在していたが、サロゲートペアを使って1文字を2バイトまたは
4バイトで表現する符号化方式のUTF-16はこの時点では存在していない(存在できない)

Unicode 1.1.0より前にFSS-UTFという名称でファイルシステム安全な符号化方式として現在のUTF-8が
Plan9向けに策定され1993年のUnicode 1.1.0で導入

ttps://www.unicode.org/versions/Unicode1.1.0/appF.pdf

1996年のUnicode 2.0.0でサロゲートペアが導入されたのでサロゲートペアを利用する符号化方式の
UTF-16が概念として登場(まだ概念のみでUTF-16という名称はついていないはず)

ttp://unicode.org/versions/Unicode2.0.0/

FSS-UTFがUTF-2を経てUTF-8という名称になったのは同じくUnicode 2.0.0
ttp://www.unicode.org/versions/Unicode2.0.0/appA.pdf

ISO/IEC 10646としてはUTF-16もUTF-8も1996/10/15発行のAMD 1とAMD 2で策定
2020/09/22(火) 15:35:18.08ID:6o8of7S0
>>117
UTF-16という名称はついてないはずとかお前の希望はいらん
証拠もってこいや
2020/09/22(火) 15:37:16.35ID:6o8of7S0
> UTF8の方がUTF16より歴史が古いよ。
> ユニコードが国際規格になる前からある。

ユニコードってなにか知ってますか?
Unicode 1.0もユニコードなんですがw
2020/09/22(火) 15:37:46.01ID:6o8of7S0
さてユニコードが国際規格になる前とはいつのことでしょうかねw
2020/09/22(火) 16:12:08.88ID:uF0JvJPV
TkライブラリがいまだにUCS-2のままなのはなぜなんだぜ?
2020/09/22(火) 22:03:17.96ID:72aYjsjv
>>98
文字の色が意味を持つトンパ文字なんてのもあるから
どのみち色情報は必要になったんじゃない?
2020/09/22(火) 22:08:31.29ID:6VKGlvlr
utf8の歴史は知らんけど7zやrar5のヘッダの64bit値の可変長は影響されて出てきたもんだと思ってるわ
2020/09/22(火) 22:17:21.12ID:qhIXHkhL
可変長の数値といえばMIDIかなー
2020/09/23(水) 03:28:56.77ID:mCjrd8MP
答え出てるじゃん
UTF8方式が発明されたのは1992年
UTF16方式は1995年
国際規格(ISO)になったのは1996年
2020/09/23(水) 08:26:01.74ID:+jrDbaEU
Unicode 1.0.0 (October, 1991)
http://www.unicode.org/versions/components-1.0.0.html
2020/09/23(水) 08:34:33.77ID:7Cl+Ulja
Unicodeは業界規格であって国際規格ではない
国際規格なのはISO/IEC 10646で初版は1993年

文字コード関係で専門用語を雑に扱うと議論が混乱するから正確に用語を使え
2020/09/23(水) 09:04:10.27ID:mCjrd8MP
さらに ISO 10646 の 1993 年版は Unicode とは厳密には異なる文字コード規格。
1996年版と Unicode 2.0 で両者が統一された。
2020/09/23(水) 09:07:37.04ID:irsqaiS+
>>125
UCS-2はUTF-8より前からあったんだが?
話理解してる?UTF-8はUCS-2(UTF-16)で困ったから
外部機関が作り出したものって話をしてる
2020/09/23(水) 09:08:10.50ID:irsqaiS+
この話

110 名前:デフォルトの名無しさん[] 投稿日:2020/09/22(火) 03:30:53.25 ID:EwzeVKsQ [1/2]
>Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが

これは違うんじゃまいか
結果的にそうなっただけであって
意図してそうした訳じゃない

111 名前:デフォルトの名無しさん[sage] 投稿日:2020/09/22(火) 03:34:39.51 ID:Ab752W48
>>110
意図してUTF-8を作ったんだよ
本来はUnicodeにはUTF-16しか無かった。
外部機関があとから作り出したもの。それがUnicode本家に採用された
2020/09/23(水) 09:10:39.13ID:irsqaiS+
> UTF8方式が発明されたのは1992年
当時はUTF8という名前ではなかった。UTF-16と同時につけられた名前
最初はUTF-1という名前があった。
これの改良版としてPlan9が考えたものを採用しUTF-8と名付けた
132デフォルトの名無しさん
垢版 |
2020/09/23(水) 09:47:37.94ID:hJkRvCZv
>>124
この板では ruby だろ常考
2020/09/23(水) 12:40:50.21ID:mCjrd8MP
かなり誤解しているやつがいるので業界規格(Unicode)と国際規格(ISO-10646)の反発と協調の歴史をまとめた細い部分は間違ってるかもしれないので、捕捉よろしく。
U: 業界規格(Unicode) およびその源流、I: 国際規格(ISO-10646)およびその源流

U:(0) 1980年、Xerox が独自の統一文字コードを作る
- XCCS: Xerox Character Code Standard
- 16-bit 固定長
- 漢字は日本漢字(JIS X 0208),(この時点で GB2313 とか無かった)
- Unicode とは互換性はないが、アイデアの元となった

I:(1) 1983年、国際標準規格(ISO)として統合文字コードの検討開始
- この時点では 16 bit の文字コードを想定していた

I:(2) 1984年、ISO で統一文字コード用の専用ワーキンググループ設置
- IOO-10646 という番号が決まる

I:(3) 1985年、ISO 10646 の検討案(DP 10646)が出される
- 16 bit で漢字は非統合
- 主に漢字国から拡張性(収容可能な文字数)の不足についてクレームが出る

U:(4) 1987年 Xerox の Becker と Collins が統一文字コードの研究を開始
- これが後の Unicode になる
- 16 bit 固定長で各国の漢字を統合

U:(5) 1989年 Unicode Draft 1 〜 Final Draft が発表される
- 16 bit の文字コードで最大約6万字が収容可能

I:(6) 1990年、ISO-10646 の最初の草案(DIS 10646-1)が発表される
- この時点では Unicode とは全く異なる文字コード
- 16 bit では文字数が明らかに足りないので 32bit 文字コードに
- それに合わせて基本多言語面(BMP)という考え方を導入
(続く)
2020/09/23(水) 12:41:36.26ID:mCjrd8MP
U:(7) 1991年、業界団体として The Unicode Consortium が結成
- Unicode を業界共通規格にすることを目指す業界団体
- 初期メンバーは Xerox, Apple, IBM, Microsoft, など

U:(8) 1991年、The Unicode Consortium によって Unicode 1.0 vol.1 が策定
- 16ビット固定長文字コード
- 厳密にいえば結合文字とかあるので可変長だけど、約6万字しか実装できない

I:(9) 1992年、 ISO-10646 の第二の草案(DIS 10646-2)が発表
- 改良して Unicode と親和性を高くしたもの
- 31bit 文字コード (UCS: Universal Coded Character Set)
- 基本多言語面(BMP)に Unicode をそのまま採用
- 基本は4バイト文字コードとして実装(UCS-4 と命名)
- Unicode 部分(当時)のみの 2バイトの実装水準も許可(UCS-2 と命名)

I:(10) 1992年、UCS-4 の ASCII との互換性のある可変長符号化方式が考案
- UCS Transfomation Format (UTF)と呼ばれ、後に UTF-1 と呼ばれる

I:(11) 1992年、Plan9/Unix のファイルシステムで使用できる別の UTF が考案
- File System Safe UTF と名付けられ、UTF-2 とも呼ばれる。
- これが後に UTF-8 と呼ばれるようになる

I:(12) 1993年、ISO/IEC 10646-1:1993 が正式に国際規格化
- BMP に Unicode 1.1 を採用しているため Unicode の上位互換
- あくまで 31bit の文字コード規格で、16 bit の Unicode とは別の文字規格
- Unicode側へも 32bitへの拡張を打診したが領域を食い過ぎといって断わられた
- UTF-1 は規格の付録に採用されているが、UTF-8 はまだ採用されてない
(続く)
2020/09/23(水) 12:43:30.64ID:mCjrd8MP
U:(13) 1995年、サロゲートペアの考案
- Unicode 側でもあいつぐ文字の追加要求で 16 bit では破綻することが明らかに
- 現行の 2バイト方式と互換性のある拡張方式が必要
- これが後に UTF-16 と呼ばれる

X:(14) 1995年、Unicode と ISO で協調していくことに合意
- BMP 以外の面も Unicode と ISO-10646 で同じ文字を採用する
- 最大文字数はサロゲートペアで表現可能な 16面までとする

U:(15) 1996年、Unicode2.0 を発表
- 2面以降を採用
- 2面以降を符号化にサロゲートペア(UTF-16)方式を採用
- UTF-8 方式も 付録A にて記載

I:(16) 1996年、ISO-10646 を追補(Amendment)で改訂
- あくまで 31 bit だが 17面以降を永久に実装しないことに
- (13)の方式を UTF-16 という名前で採用(Amd1)
- (11)の方式を UTF-8 という名前で採用(Amd2)
- UTF-1 を廃止
- その他文字の追加/変更の追補によって Unicode 2.0 と完全互換に

その後も協調しながらアップデート
(以上)
136デフォルトの名無しさん
垢版 |
2020/09/23(水) 12:50:04.51ID:YfY3TQQ4
>補足よろしく

わろす
2020/09/23(水) 12:51:35.74ID:irsqaiS+
つまり>>106は正しいということ

> Unicodeの当初の目標でも16bit固定=C言語の終端文字である\0が1文字の中に
> 含まれる事があるので、文字はUnicodeとして扱わなければいけないことが決定していた。

> Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが
> 可変長バイトだから、これもUnicodeとして扱わなければいけない。
2020/09/23(水) 13:42:18.16ID:mCjrd8MP
>>137
厳密には違う。
UTF-1 の時点で 0x00 は入らないくて C言語で使用可能。
でも / が 2バイト目以降にが入ってるので Unix 等のファイルシステムで使えない欠点があった。
これを改良するために考案されたのが FSS-UTF (UTF-2)、のちに UTF-8 と命名。
2020/09/23(水) 13:50:08.66ID:BgUeNus/
>>137
業界規格としてのUnicodeは符号化方式(今のUTF-16)について,
Cやシェルのことを考えていなかったけど,
それが国際標準になる時に,
符号化方式の一つとしてUTF-8を採用してCやシェルを考慮した,
ってこと?
2020/09/23(水) 13:59:02.67ID:mCjrd8MP
重要なのは FSS-UTF (後のUTF-8) は 16 bit の業界 Unicode を符号化するために考案されたのではなくて、31 bit の国際規格 UCS-4 を符号化するために考案されたということ。
その後、Unicode が 17 bit 以上に拡張される時にサロゲートペアが考案されて、それを国際規格側では UTF-16 と名付けた。
だから UTF-8 にサロゲートペア入れるやつは×ね。
141デフォルトの名無しさん
垢版 |
2020/09/23(水) 15:18:09.77ID:7/mhYxCT
ルーピー儲であふれてるスレ
2020/09/23(水) 20:40:55.14ID:FfABxMH0
>>125
で、UTF-8が国際標準に入ったのは何時なの?
なんで開発された年と標準化された年を比較してるの?
2020/09/24(木) 01:15:56.19ID:2TpuCg1t
>>142
だれもそんな比較してない。よく読め
UTF8方式が提案された年とUTF16方式が提案された年を比較してる。
2020/09/24(木) 01:22:18.61ID:27/WCIy4
>>143
え?なんでそんな話してるの?
それの何が重要なの?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況