文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/17(月) 16:48:24.47

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2018/12/17(月) 16:49:24.92

■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JIS X 4061
日本語文字列照合順番
http://www.jisc.go.jp/

**デフォルトの名無しさん** · 2018/12/17(月) 16:50:24.77

■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

**デフォルトの名無しさん** · 2018/12/17(月) 16:51:24.91

・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

**デフォルトの名無しさん** · 2018/12/17(月) 16:52:24.56

・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

**デフォルトの名無しさん** · 2018/12/17(月) 16:53:24.65

もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは？
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは？　その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは？　その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/

**デフォルトの名無しさん** · 2018/12/17(月) 16:54:24.71

■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/

**デフォルトの名無しさん** · 2018/12/17(月) 16:55:24.40

■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。

**デフォルトの名無しさん** · 2018/12/17(月) 16:56:24.69

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/

**デフォルトの名無しさん** · 2018/12/17(月) 16:58:24.64

前スレが終了間近だったので立てました。
追加するサイトなどあればよろしくお願いします。

**デフォルトの名無しさん** · 2018/12/17(月) 20:17:00.51

文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1544931495/

**デフォルトの名無しさん** · 2018/12/18(火) 10:08:11.45

>>1
U+30B9 U+30EC U+7ACB U+3066 U+4E59

**デフォルトの名無しさん** · 2018/12/18(火) 11:22:14.11

>>11 の本スレ推奨

Part 13 になったら起こしてくれ

**デフォルトの名無しさん** · 2019/03/08(金) 14:51:30.23

一応メモ
https://qiita.com/yumetodo/items/54e1a8230dbf513ea85b

森& ◆XzWbLuCZuZlZ · 2019/03/09(土) 06:47:26.73

C++17
非推奨の詳細
wstring_convert<...>
codecvt_utf8_utf16<...>
codecvt_utf8<...>
codecvt<...>
Unicodeの文字コード変換を行うこれらのクラスは、不正なコードポイントに対する
安全なエラー処理の方法を提供していなかったため、セキュリティ上の欠陥があった。
仕様もあいまいであったため、不正なコードポイントに対してどのように振る舞うかも
不明であった。
Unicode以外のShift_JISやBig5といった文字コードの利用が急激に減少している。
標準ライブラリでの現代的なUnicodeの変換機能は非常に必要とされているが、
<codecvt>とそれに関連する機能の設計はお粗末なものだった。
将来より良いものを作るために、これらの機能は非推奨とする。
標準ライブラリにUnicodeの文字コード変換をする代替機能はないため、
他の専門特化した文字コード変換のライブラリを使用すること。
https://cpprefjp.github.io/reference/locale/wstring_convert
https://ja.cppreference.com/w/cpp/locale/codecvt_utf8_utf16
どれ使えばええの？
森鷗外𠮟る

**デフォルトの名無しさん** · 2019/03/09(土) 07:24:12.96

C++自体が非推奨

**デフォルトの名無しさん** · 2019/03/09(土) 16:56:18.99

C++11の糞仕様がずっと放置されてる

本スレ消費はよ

**デフォルトの名無しさん** · 2019/03/10(日) 00:54:02.53

C++の次の改訂ではC++の全ての仕様が削除されるべき

**デフォルトの名無しさん** · 2019/03/10(日) 17:40:35.50

CJKが頑張って苦情入れたら非推奨にされましたとさ
https://twitter.com/theoridetech/status/933329866392444929
https://twitter.com/5chan_nel (5ch newer account)

**デフォルトの名無しさん** · 2019/03/10(日) 17:47:41.69

リョウくんにお返事貰ってるな。

**デフォルトの名無しさん** · 2019/03/10(日) 18:01:51.00

非推奨というより使用禁止レベルの糞やでcodecvt

**さまよえる蟻人間** ◆T6xkBnTXz7B0 · 2019/03/10(日) 18:05:00.62

https://github.com/katahiromz/iconv_wrap
使ってね。

**デフォルトの名無しさん** · 2019/03/11(月) 04:49:49.14

本当に怖い文字コードの話

なんか貼れないので分割
heppoko.
hatenadiary.
jp/
entry/
2018/04/28/184559

**デフォルトの名無しさん** · 2019/03/11(月) 08:44:07.99

ツイッターで#テクノロジー犯罪と検索して、まじでやばいことを四代目澄田会の幹部がやってる
被害者に対して暴力団以外にタゲそらしをしてるがやってるのは暴力団で普段外に出ることが少ないため遊びで公共の電波と同じような電波を使って殺人をしてる
統失はほとんどが作られた病気で実際は電波によって音声送信や思考盗聴ができることが最近明らかになりつつある
警察や病院では病気としてマニュアル化されてしまっているのが現状で被害者は泣き寝入りしてる
被害者がリアルタイムで多い現状を知って、被害者間でしか本当の事だと認知できていない
実際にできると思われていない事だから、ただの幻聴ではない実際に頭の中で会話ができる
できないことだと思われているからこそ真面目に被害を訴えてる
海外でも周知されつつあることを知ってほしい。
このままだとどんどん被害が広がる一方

#テクノロジー犯罪
#四代目澄田会

**デフォルトの名無しさん** · 2019/03/11(月) 13:01:21.07

>>218
ㇹ゚ン゚'ㇳ̃ヴ゙ニ゙コ゚ヮヰ文̂字̠コ゚−ト゚ノ゙ㇵナ゚ㇱ

**デフォルトの名無しさん** · 2019/03/11(月) 14:24:48.05

char_traits の length って信用していいの？

**デフォルトの名無しさん** · 2019/03/12(火) 03:51:12.13

若干違和感ある部分も

絵文字がある種のUnicodeバグを世界から一掃しつつある件について
note.mu/
ruiu/n/nc9d93a45c2ec

**デフォルトの名無しさん** · 2019/07/12(金) 14:43:41.63

Unicodeが出してるiconvみたいな変換ライブライあるじゃん？
あれどうなん？

**デフォルトの名無しさん** · 2019/12/25(水) 20:38:30.91

なんか文字追加されたね。
https://unicode.org/charts/beta/nameslist/

**デフォルトの名無しさん** · 2019/12/27(金) 08:43:18.71

と思ったらUnicode 13発行されるのか。

**デフォルトの名無しさん** · 2020/04/11(土) 19:22:36.64

またUnicode.orgのサーバー落ちてる……

**デフォルトの名無しさん** · 2020/06/17(水) 21:52:52.20

https://abs-0.twimg.com/emoji/v2/svg/1f6f8.svg

**デフォルトの名無しさん** · 2020/07/03(金) 16:13:30.65

文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1544931495/
が1000行ったけどこっち再利用するのかな?

**デフォルトの名無しさん** · 2020/07/03(金) 20:55:14.32

重複スレが残ってたのか
Part13立てちゃった

**デフォルトの名無しさん** · 2020/07/03(金) 23:14:01.31

「コマンドプロンプトはcp932（SJIS）である」はウソ

Windows NTの標準の文字コードであるUnicode（UTF16-LE）の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね？
（フォントがない場合は表示されないがそれ以外は問題ない）

これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。

コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
（根拠なしにcp932にきまってるだろ！みたいなものは一言で潰しますのでよろしく）
　　　

**デフォルトの名無しさん** · 2020/07/03(金) 23:59:01.41

>>34
責任持って誘導しろ
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2020/07/04(土) 00:12:44.08

ヒラキ゛ノ角コ゛シック

**デフォルトの名無しさん** · 2020/07/04(土) 02:05:01.27

MS Gothic = ＭＳゴシック
MS PGothic = ＭＳＰゴシック
MS UI Gothic = MS UI Gothic

**デフォルトの名無しさん** · 2020/07/04(土) 21:58:35.22

「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了！

--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012

C:\>type k
漢字

C:\>copy k con
　・"oW[
　　　　 1 個のファイルをコピーしました。

C:\>cat k
　・"oW[

C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006

C:\>
--

「あれれ？ ID:uIgOlo/V 君、なんかおかしいよ？どうして？
「“「コマンドプロンプトはcp932（SJIS）である」はウソ”なんだよね？

**デフォルトの名無しさん** · 2020/07/04(土) 22:21:02.22

cmd /U /C echo Hello | od -t x1

**デフォルトの名無しさん** · 2020/07/04(土) 23:31:46.91

>>39
cmd /?
/A 内部コマンドの出力結果を ANSI でパイプまたはファイルに出力します。
/U 内部コマンドの出力結果を Unicode でパイプまたはファイルに出力します。

**デフォルトの名無しさん** · 2020/07/05(日) 12:27:30.05

>>39
chcp 65001

**デフォルトの名無しさん** · 2020/07/05(日) 13:58:13.31

というか、コマンドプロンプトにCP932にない文字を貼り付けて普通に出力できている時点で
コマンドプロンプトが特定のコードページに依存していないと気づくだろ。

echo 六四清场

**デフォルトの名無しさん** · 2020/07/05(日) 14:04:49.45

mingwのcatやgrepをコマンドプロンプトから呼び出すと一時的にchcp 65001な状態になって画面出力される。

**デフォルトの名無しさん** · 2020/07/05(日) 21:04:09.52

>>44
それはコマンドプロンプトがUTF-16なので、
mingwのcatやgrepがUTF-8で出力すると文字化けするからだね

**デフォルトの名無しさん** · 2020/07/05(日) 23:20:17.80

>>45
コマンドプロンプトがUTF-16なので、
mingwのcatやgrepがSJISで出力すると文字化けするからだね

という論法も成り立つが。

**デフォルトの名無しさん** · 2020/07/06(月) 01:59:06.09

mingwのcatやgrepでSJISにない文字も表示できるので
その論法は成り立たない

**デフォルトの名無しさん** · 2020/07/06(月) 10:35:57.48

SJISちゃんのことは早く忘れろ

**デフォルトの名無しさん** · 2020/07/07(火) 00:26:29.24

やだーExcelのマクロファイルSJISだもん

**デフォルトの名無しさん** · 2020/07/08(水) 17:17:18.70

Office文書自体はOOXMLでUTF-8になったのに
マクロは未だにShift_JISなのか。

**デフォルトの名無しさん** · 2020/07/09(木) 09:25:45.33

唐突かつ広範な主張
マウントスタート
主観的な理由
地に足のつかない結論

わずかな文章に愚かさが詰め込まれていて揶揄せずにおれない

**デフォルトの名無しさん** · 2020/07/18(土) 13:33:37.82

知られざる顔文字の世界
https://www.hottolink.co.jp/blog/20161114_66202/

**デフォルトの名無しさん** · 2020/07/20(月) 21:19:31.88

AppleとGoogle、世界絵文字デーに新絵文字を披露
https://www.itmedia.co.jp/news/articles/2007/20/news053.html

**デフォルトの名無しさん** · 2020/07/21(火) 11:54:04.73

絵文字の話題鹿無いのか

**デフォルトの名無しさん** · 2020/07/21(火) 11:57:01.74

もうそろそろ音文字もできてほしいよね

**デフォルトの名無しさん** · 2020/07/21(火) 19:48:37.21

昔懐かしMIDI復活

**デフォルトの名無しさん** · 2020/07/22(水) 01:25:29.84

いつかはアニメ文字も作られるのかな?

**デフォルトの名無しさん** · 2020/07/22(水) 03:14:08.06

>>57
iモードにあったような無かったような

**デフォルトの名無しさん** · 2020/07/22(水) 03:39:38.34

<MARQUEE><BLINK>動きがあるのは気が散るからやめてほしいな</BLINK></MARQUEE>

**デフォルトの名無しさん** · 2020/07/22(水) 07:25:55.44

懐かしのって
初音ミクとかMIDIで出来てるだろ

**デフォルトの名無しさん** · 2020/07/22(水) 11:49:19.63

>>59
<ITALIC><BIG>旧タグなら書き込めるんだw</BIG></ITALIC>

**デフォルトの名無しさん** · 2020/07/24(金) 03:27:13.24

音文字か。そう言えば Ctrl+G (7) は BELL だったような。
ASCIIだけか? Unicode だと決まってないんだっけ？

**デフォルトの名無しさん** · 2020/07/24(金) 03:43:48.92

マザボのブザーでも鳴るの？

**デフォルトの名無しさん** · 2020/07/24(金) 05:05:05.45

さあ? 処理するプログラムに寄るんだろうな。
Windows のコマンドプロンプトで 7 のコード出力してみたら音が出たよ。

**デフォルトの名無しさん** · 2020/07/24(金) 05:05:33.57

BIOSのビープ音ではなく Windows 側のサウンドの設定が関係しているんだろうと思う。

**デフォルトの名無しさん** · 2020/07/24(金) 10:07:32.92

UnicodeでもU+0007はBELL CHARACTER

**デフォルトの名無しさん** · 2020/07/24(金) 10:53:36.75

printf("\x7\n");

**デフォルトの名無しさん** · 2020/07/24(金) 11:02:13.19

マザボのビープスピーカではなくサウンドデバイスで鳴らすようになったのはwin7以降だっけ

**デフォルトの名無しさん** · 2020/07/24(金) 11:14:24.17

2000ジャマイカ

**デフォルトの名無しさん** · 2020/07/24(金) 17:43:05.10

2000の時代に練習した時はprintfでビープ鳴ってた

**デフォルトの名無しさん** · 2020/07/24(金) 18:43:29.22

>>68
普通に考えりゃvista以降からでしょう
7かvistaかで本体beep鳴らすapi叩いたらpcmでがっかりだったのは覚えてる
apiだとATのbios同様周波数や長さ指定できて遊べたんだがな
同時にいじられるとよくないから切られたんでしょう

**デフォルトの名無しさん** · 2020/07/24(金) 19:01:43.86

なついなぁ。

Win32API Beep()
https://docs.microsoft.com/en-us/windows/win32/api/utilapiset/nf-utilapiset-beep

**デフォルトの名無しさん** · 2020/07/24(金) 19:18:02.12

beep用スピーカーがマザーボードから省略され始めたんだよ。

**デフォルトの名無しさん** · 2020/07/24(金) 19:22:19.50

昔は音を鳴らせるアプリは一つだけだった。
いつからか複数のアプリが同時に鳴らせるようになったんだが
いつからだっけな

**デフォルトの名無しさん** · 2020/07/25(土) 00:55:48.04

うろ覚えだが、ビープスピーカーで力業で音楽演奏するソフトがあったような気がする

**デフォルトの名無しさん** · 2020/07/30(木) 04:08:23.78

>>66
Unicode では ALERT
または BEL

**デフォルトの名無しさん** · 2020/07/30(木) 16:30:24.90

tab は \t
だから
bell は \b
と思ってた時期がある

**デフォルトの名無しさん** · 2020/07/30(木) 16:41:49.22

合わせると
食べる

**デフォルトの名無しさん** · 2020/07/31(金) 22:29:23.92

>>77
\bの本当の意味ってなんだっけ。

**デフォルトの名無しさん** · 2020/07/31(金) 22:33:31.30

バックスペース

**デフォルトの名無しさん** · 2020/07/31(金) 22:42:27.48

しかしこういうのってティッカーテープとかテレタイプの時代にさかのぼるらしいね。
現物を見たことはないが用語だけはいろいろ残っているという。

**デフォルトの名無しさん** · 2020/08/01(土) 01:00:50.03

遠隔で物理CR/LFは夢がある

**デフォルトの名無しさん** · 2020/08/01(土) 18:43:21.40

一番夢があるのは肯定応答とかかな。
というのも，改行やエスケープとかはもちろん，場合によっては警鈴なんかも
未だに現役なのに対して，「肯定応答」という意味で^Fが使われているのを見たことがないから。
^Fはもう，各ベンダーごとに都合の良い，全く違う制御シーケンスになっちゃってる。

**デフォルトの名無しさん** · 2020/08/01(土) 19:03:29.73

NAK

**デフォルトの名無しさん** · 2020/08/26(水) 16:48:18.06

毎日新聞ニュースさんはTwitterを使っています「天皇陛下即位のお祝い品のリストと写真を㏋で公開　宮内庁」 / Twitter
https://
twi
tter.com/
mainichijpnews/status/1297833742753439744

HPが合字の㏋ (U+33CB)に

**デフォルトの名無しさん** · 2020/08/26(水) 17:29:56.14

正規化のせいやな。
知らんけど。

**デフォルトの名無しさん** · 2020/08/27(木) 00:37:34.21

いまだに手書き、あるいは印刷した紙で原稿を入れてくる記者がいて、
入稿をOCRで文字起こししたらHPをその合字の方に認識、そのまま放置、とか?

ちなみにこれってHorse Powerでよかったですか?

**デフォルトの名無しさん** · 2020/08/27(木) 11:49:50.52

馬力

**デフォルトの名無しさん** · 2020/09/02(水) 16:48:23.22

そう言えば中国のGB 18030が改訂されるって話はどうなったんだろう？
何年か前にKenが最終原案を見たよって言ってた気がしたけど、続報がない。

**デフォルトの名無しさん** · 2020/09/02(水) 23:24:39.67

その後Kenの姿を見た者はいないという

**デフォルトの名無しさん** · 2020/09/03(木) 15:58:49.10

13対応の花園もﾏﾀﾞｰ?

**デフォルトの名無しさん** · 2020/09/20(日) 08:14:38.84

Emoji 13.1 - Now final, to be widely available in 2021
http://blog.unicode.org/2020/09/emoji-131-now-final-to-be-widely.html

**デフォルトの名無しさん** · 2020/09/20(日) 18:04:46.19

Androidの絵文字追加がOSバージョンアップ前提だから取り残される環境が多すぎるんだよな
どうにかアプリ枠で配信してくれたらいいのに

**デフォルトの名無しさん** · 2020/09/20(日) 18:46:29.19

woman with beard
誰得？

**デフォルトの名無しさん** · 2020/09/20(日) 18:47:31.92

https://www.unicode.org/announcements/emoji-13-1-annc-couples.jpg
最初から顔に色なんか付けなきゃ良かったのに

**デフォルトの名無しさん** · 2020/09/20(日) 20:32:09.64

だっぷるがつけちゃったんだもん

**デフォルトの名無しさん** · 2020/09/21(月) 00:08:08.68

顔に色が無いと全部白人に観えるんだろ
黒い顔だけ造っておけばよかった

**デフォルトの名無しさん** · 2020/09/21(月) 09:05:25.63

そもそも文字コードになんで色情報なんか含めたんだろ
あれも発端はPCがらみだっけ？

**デフォルトの名無しさん** · 2020/09/21(月) 10:33:58.83

俺は良かったと思うけどな。おかげで文章としての表現力が上がった。

**デフォルトの名無しさん** · 2020/09/21(月) 10:35:23.80

一夫多妻を表す絵文字はつくらないのかね？

**デフォルトの名無しさん** · 2020/09/21(月) 10:44:58.40

姦
嬲
嫐

**デフォルトの名無しさん** · 2020/09/21(月) 17:50:51.21

>>95
そっか、これコードを結合していくと作れるんだ。面白い。
男＋白肌＋ハート＋男＋黒肌みたいな。

仕組みは面白いが、処理する側は大変そうw
あとキーボードの絵文字パレットとか、全パターン表示しないといけないのかな?

**デフォルトの名無しさん** · 2020/09/21(月) 18:17:56.53

> 仕組みは面白いが、処理する側は大変そうw

うん。だから個々の人が処理するんじゃなくて
OS標準のテキスト処理として実装されたから素晴らしいんだよ
普通に文字を出力すれば、絵文字対応になるから

**デフォルトの名無しさん** · 2020/09/21(月) 18:45:37.15

>>103
OSレベルでテキストのレンダリングとかめんどくさくなったはいうまでもなく、
一般のデベロッパもユニコード文字列をうかつに処理できなくなった罠。
ま、ちゃんとAPIを使えとか、そういうことで、それはいいことなのかもしれないけど。

**デフォルトの名無しさん** · 2020/09/21(月) 19:08:16.33

ユニコードはウィルスなので送らないでください

**デフォルトの名無しさん** · 2020/09/21(月) 19:45:05.95

>>104
それは絵文字以前の話だけどね。

Unicodeの当初の目標でも16bit固定＝C言語の終端文字である\0が1文字の中に
含まれる事があるので、文字はUnicodeとして扱わなければいけないことが決定していた。

Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが
可変長バイトだから、これもUnicodeとして扱わなければいけない。

どちらにしろちゃんとAPIを使えという話は避けられなかったんだよ。
そして絵文字のおかげでサロゲートペアが必要となる文字への対応が進むといういい結果をもたらしたｗ

**デフォルトの名無しさん** · 2020/09/21(月) 21:02:01.32

想定しないといけない1文字の長さを具体的有限にしてくれないかなあ

**デフォルトの名無しさん** · 2020/09/21(月) 21:15:43.93

アキラメロン
最終的には複数の文字を組み合わせて64 x 64 ドットに
自由なアイコンを作れるようになるだろう

**デフォルトの名無しさん** · 2020/09/21(月) 23:04:34.98

今時ピクセルは無いだろ。
SVG埋め込みの方が可能性がある。

**デフォルトの名無しさん** · 2020/09/22(火) 03:30:53.25

>Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが

これは違うんじゃまいか
結果的にそうなっただけであって
意図してそうした訳じゃない

**デフォルトの名無しさん** · 2020/09/22(火) 03:34:39.51

>>110
意図してUTF-8を作ったんだよ
本来はUnicodeにはUTF-16しか無かった。
外部機関があとから作り出したもの。それがUnicode本家に採用された

**デフォルトの名無しさん** · 2020/09/22(火) 05:08:49.52

UTF8の方がUTF16より歴史が古いよ。
ユニコードが国際規格になる前からある。

**デフォルトの名無しさん** · 2020/09/22(火) 11:24:31.43

>>98
NTTDoCoMo・au・Softbankの絵文字の時点でカラーになってたじゃん
互換性を保つために必要

**デフォルトの名無しさん** · 2020/09/22(火) 11:58:02.00

>>112
> UTF8の方がUTF16より歴史が古いよ。
> ユニコードが国際規格になる前からある。

いちいちすぐバレる適当なウソつくんじゃねーよ

https://ja.wikipedia.org/wiki/Unicode#%E6%AD%B4%E5%8F%B2
1991年10月　Unicode 1.0.0 7,161文字　初期バージョン、16ビットの文字コード
1992年6月　Unicode 1.0.1　28,359文字　CJK統合漢字を導入

https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

> UTF-8 was designed, in front of my eyes, on a
> placemat in a New Jersey diner one night in September or so 1992.
UTF-8は1992年9月に私の目の前で設計された

> We had used the original UTF from ISO 10646
> to make Plan 9 support 16-bit characters, but we hated it.
Plan 9で16ビット文字をサポートするためにISO 10646の
オリジナルのUTFを使用していたが私たちはそれを嫌っていました。

> However, UCS and its UTF variant do not protect
> null bytes and/or the ASCII slash ("/") making these character encodings
> incompatible with existing Unix implementations.

しかしUCSとその亜種であるUTFはヌル文字とスラッシュを保護せず
存在するUnixの実装と互換性がありません。

**デフォルトの名無しさん** · 2020/09/22(火) 12:07:37.87

それは単にカラーで表示していただけで色情報を持っていたわけじゃないだろ。

発端はやっぱり肌色の問題だったらしい。
https://internet.watch.impress.co.jp/docs/special/670150.html

**デフォルトの名無しさん** · 2020/09/22(火) 14:22:08.65

ナメック星人用に緑の肌もあるの？

**デフォルトの名無しさん** · 2020/09/22(火) 15:07:13.30

>>114
わかっていないのはお前

UCS-2≠UTF-16

1991年のUnicode 1.0.0の時点ではUnicodeの符号化文字は2バイトのみだったから2バイト固定長符号化
文字集合や符号化方式のUCS-2は当然存在していたが、サロゲートペアを使って1文字を2バイトまたは
4バイトで表現する符号化方式のUTF-16はこの時点では存在していない(存在できない)

Unicode 1.1.0より前にFSS-UTFという名称でファイルシステム安全な符号化方式として現在のUTF-8が
Plan9向けに策定され1993年のUnicode 1.1.0で導入

ttps://www.unicode.org/versions/Unicode1.1.0/appF.pdf

1996年のUnicode 2.0.0でサロゲートペアが導入されたのでサロゲートペアを利用する符号化方式の
UTF-16が概念として登場(まだ概念のみでUTF-16という名称はついていないはず)

ttp://unicode.org/versions/Unicode2.0.0/

FSS-UTFがUTF-2を経てUTF-8という名称になったのは同じくUnicode 2.0.0
ttp://www.unicode.org/versions/Unicode2.0.0/appA.pdf

ISO/IEC 10646としてはUTF-16もUTF-8も1996/10/15発行のAMD 1とAMD 2で策定

**デフォルトの名無しさん** · 2020/09/22(火) 15:35:18.08

>>117
UTF-16という名称はついてないはずとかお前の希望はいらん
証拠もってこいや

**デフォルトの名無しさん** · 2020/09/22(火) 15:37:16.35

> UTF8の方がUTF16より歴史が古いよ。
> ユニコードが国際規格になる前からある。

ユニコードってなにか知ってますか？
Unicode 1.0もユニコードなんですがｗ

**デフォルトの名無しさん** · 2020/09/22(火) 15:37:46.01

さてユニコードが国際規格になる前とはいつのことでしょうかねｗ

**デフォルトの名無しさん** · 2020/09/22(火) 16:12:08.88

TkライブラリがいまだにUCS-2のままなのはなぜなんだぜ？

**デフォルトの名無しさん** · 2020/09/22(火) 22:03:17.96

>>98
文字の色が意味を持つトンパ文字なんてのもあるから
どのみち色情報は必要になったんじゃない？

**デフォルトの名無しさん** · 2020/09/22(火) 22:08:31.29

utf8の歴史は知らんけど7zやrar5のヘッダの64bit値の可変長は影響されて出てきたもんだと思ってるわ

**デフォルトの名無しさん** · 2020/09/22(火) 22:17:21.12

可変長の数値といえばMIDIかなー

**デフォルトの名無しさん** · 2020/09/23(水) 03:28:56.77

答え出てるじゃん
UTF8方式が発明されたのは1992年
UTF16方式は1995年
国際規格(ISO)になったのは1996年

**デフォルトの名無しさん** · 2020/09/23(水) 08:26:01.74

Unicode 1.0.0 (October, 1991)
http://www.unicode.org/versions/components-1.0.0.html

**デフォルトの名無しさん** · 2020/09/23(水) 08:34:33.77

Unicodeは業界規格であって国際規格ではない
国際規格なのはISO/IEC 10646で初版は1993年

文字コード関係で専門用語を雑に扱うと議論が混乱するから正確に用語を使え

**デフォルトの名無しさん** · 2020/09/23(水) 09:04:10.27

さらに ISO 10646 の 1993 年版は Unicode とは厳密には異なる文字コード規格。
1996年版と Unicode 2.0 で両者が統一された。

**デフォルトの名無しさん** · 2020/09/23(水) 09:07:37.04

>>125
UCS-2はUTF-8より前からあったんだが？
話理解してる？UTF-8はUCS-2（UTF-16）で困ったから
外部機関が作り出したものって話をしてる

**デフォルトの名無しさん** · 2020/09/23(水) 09:08:10.50

この話

110 名前：デフォルトの名無しさん[] 投稿日：2020/09/22(火) 03:30:53.25 ID:EwzeVKsQ [1/2]
>Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが

これは違うんじゃまいか
結果的にそうなっただけであって
意図してそうした訳じゃない

111 名前：デフォルトの名無しさん[sage] 投稿日：2020/09/22(火) 03:34:39.51 ID:Ab752W48
>>110
意図してUTF-8を作ったんだよ
本来はUnicodeにはUTF-16しか無かった。
外部機関があとから作り出したもの。それがUnicode本家に採用された

**デフォルトの名無しさん** · 2020/09/23(水) 09:10:39.13

> UTF8方式が発明されたのは1992年
当時はUTF8という名前ではなかった。UTF-16と同時につけられた名前
最初はUTF-1という名前があった。
これの改良版としてPlan9が考えたものを採用しUTF-8と名付けた

**デフォルトの名無しさん** · 2020/09/23(水) 09:47:37.94

>>124
この板では ruby だろ常考

**デフォルトの名無しさん** · 2020/09/23(水) 12:40:50.21

かなり誤解しているやつがいるので業界規格(Unicode)と国際規格(ISO-10646)の反発と協調の歴史をまとめた細い部分は間違ってるかもしれないので、捕捉よろしく。
U: 業界規格(Unicode) およびその源流、I: 国際規格(ISO-10646)およびその源流

U:(0) 1980年、Xerox が独自の統一文字コードを作る
- XCCS: Xerox Character Code Standard
- 16-bit 固定長
- 漢字は日本漢字(JIS X 0208),(この時点で GB2313 とか無かった)
- Unicode とは互換性はないが、アイデアの元となった

I:(1) 1983年、国際標準規格(ISO)として統合文字コードの検討開始
- この時点では 16 bit の文字コードを想定していた

I:(2) 1984年、ISO で統一文字コード用の専用ワーキンググループ設置
- IOO-10646 という番号が決まる

I:(3) 1985年、ISO 10646 の検討案(DP 10646)が出される
- 16 bit で漢字は非統合
- 主に漢字国から拡張性(収容可能な文字数)の不足についてクレームが出る

U:(4) 1987年 Xerox の Becker と Collins が統一文字コードの研究を開始
- これが後の Unicode になる
- 16 bit 固定長で各国の漢字を統合

U:(5) 1989年 Unicode Draft 1 〜 Final Draft が発表される
- 16 bit の文字コードで最大約6万字が収容可能

I:(6) 1990年、ISO-10646 の最初の草案(DIS 10646-1)が発表される
- この時点では Unicode とは全く異なる文字コード
- 16 bit では文字数が明らかに足りないので 32bit 文字コードに
- それに合わせて基本多言語面(BMP)という考え方を導入
(続く)

**デフォルトの名無しさん** · 2020/09/23(水) 12:41:36.26

U:(7) 1991年、業界団体として The Unicode Consortium が結成
- Unicode を業界共通規格にすることを目指す業界団体
- 初期メンバーは Xerox, Apple, IBM, Microsoft, など

U:(8) 1991年、The Unicode Consortium によって Unicode 1.0 vol.1 が策定
- 16ビット固定長文字コード
- 厳密にいえば結合文字とかあるので可変長だけど、約6万字しか実装できない

I:(9) 1992年、 ISO-10646 の第二の草案(DIS 10646-2)が発表
- 改良して Unicode と親和性を高くしたもの
- 31bit 文字コード (UCS: Universal Coded Character Set)
- 基本多言語面(BMP)に Unicode をそのまま採用
- 基本は4バイト文字コードとして実装(UCS-4 と命名)
- Unicode 部分(当時)のみの 2バイトの実装水準も許可(UCS-2 と命名)

I:(10) 1992年、UCS-4 の ASCII との互換性のある可変長符号化方式が考案
- UCS Transfomation Format (UTF)と呼ばれ、後に UTF-1 と呼ばれる

I:(11) 1992年、Plan9/Unix のファイルシステムで使用できる別の UTF が考案
- File System Safe UTF と名付けられ、UTF-2 とも呼ばれる。
- これが後に UTF-8 と呼ばれるようになる

I:(12) 1993年、ISO/IEC 10646-1:1993 が正式に国際規格化
- BMP に Unicode 1.1 を採用しているため Unicode の上位互換
- あくまで 31bit の文字コード規格で、16 bit の Unicode とは別の文字規格
- Unicode側へも 32bitへの拡張を打診したが領域を食い過ぎといって断わられた
- UTF-1 は規格の付録に採用されているが、UTF-8 はまだ採用されてない
(続く)

**デフォルトの名無しさん** · 2020/09/23(水) 12:43:30.64

U:(13) 1995年、サロゲートペアの考案
- Unicode 側でもあいつぐ文字の追加要求で 16 bit では破綻することが明らかに
- 現行の 2バイト方式と互換性のある拡張方式が必要
- これが後に UTF-16 と呼ばれる

X:(14) 1995年、Unicode と ISO で協調していくことに合意
- BMP 以外の面も Unicode と ISO-10646 で同じ文字を採用する
- 最大文字数はサロゲートペアで表現可能な 16面までとする

U:(15) 1996年、Unicode2.0 を発表
- 2面以降を採用
- 2面以降を符号化にサロゲートペア(UTF-16)方式を採用
- UTF-8 方式も付録A にて記載

I:(16) 1996年、ISO-10646 を追補(Amendment)で改訂
- あくまで 31 bit だが 17面以降を永久に実装しないことに
- (13)の方式を UTF-16 という名前で採用(Amd1)
- (11)の方式を UTF-8 という名前で採用(Amd2)
- UTF-1 を廃止
- その他文字の追加/変更の追補によって Unicode 2.0 と完全互換に

その後も協調しながらアップデート
(以上)

**デフォルトの名無しさん** · 2020/09/23(水) 12:50:04.51

>補足よろしく

わろす

**デフォルトの名無しさん** · 2020/09/23(水) 12:51:35.74

つまり>>106は正しいということ

> Unicodeの当初の目標でも16bit固定＝C言語の終端文字である\0が1文字の中に
> 含まれる事があるので、文字はUnicodeとして扱わなければいけないことが決定していた。

> Unix/Linux系ではC言語の終端文字である\0を避けるためにUTF-8を採用したが
> 可変長バイトだから、これもUnicodeとして扱わなければいけない。

**デフォルトの名無しさん** · 2020/09/23(水) 13:42:18.16

>>137
厳密には違う。
UTF-1 の時点で 0x00 は入らないくて C言語で使用可能。
でも / が 2バイト目以降にが入ってるので Unix 等のファイルシステムで使えない欠点があった。
これを改良するために考案されたのが FSS-UTF (UTF-2)、のちに UTF-8 と命名。

**デフォルトの名無しさん** · 2020/09/23(水) 13:50:08.66

>>137
業界規格としてのUnicodeは符号化方式（今のUTF-16）について，
Cやシェルのことを考えていなかったけど，
それが国際標準になる時に，
符号化方式の一つとしてUTF-8を採用してCやシェルを考慮した，
ってこと？

**デフォルトの名無しさん** · 2020/09/23(水) 13:59:02.67

重要なのは FSS-UTF (後のUTF-8) は 16 bit の業界 Unicode を符号化するために考案されたのではなくて、31 bit の国際規格 UCS-4 を符号化するために考案されたということ。
その後、Unicode が 17 bit 以上に拡張される時にサロゲートペアが考案されて、それを国際規格側では UTF-16 と名付けた。
だから UTF-8 にサロゲートペア入れるやつは×ね。

**デフォルトの名無しさん** · 2020/09/23(水) 15:18:09.77

ルーピー儲であふれてるスレ

**デフォルトの名無しさん** · 2020/09/23(水) 20:40:55.14

>>125
で、UTF-8が国際標準に入ったのは何時なの？
なんで開発された年と標準化された年を比較してるの？

**デフォルトの名無しさん** · 2020/09/24(木) 01:15:56.19

>>142
だれもそんな比較してない。よく読め
UTF8方式が提案された年とUTF16方式が提案された年を比較してる。

**デフォルトの名無しさん** · 2020/09/24(木) 01:22:18.61

>>143
え？なんでそんな話してるの？
それの何が重要なの？

**デフォルトの名無しさん** · 2020/09/24(木) 01:26:57.76

UTF16がUCS2と違うというのなら、サロゲートペアの話でもしてるんだろうが
サロゲートペアが登場してるなら16bitでは収まらないと諦めた後であるということ
だからUCS4がすでに登場している
そしてUCS4があるからこそ、UTF-8からUCS4に変換するロジックを作ることができる
つまりUTF-8があるなら、UCS4がありUTF-16もあったことになる

**デフォルトの名無しさん** · 2020/09/24(木) 01:48:26.24

>>145
何？その超理論、詳しく教えて？
どうやったらサロゲートペアより前に UTF16が存在できるの？
どの規格書に書いてある用語使ってるの？

**デフォルトの名無しさん** · 2020/09/24(木) 08:50:32.68

>>112 のツッコミ方が完全に間違ってるんだよな。
Unicodeには16bitエンコーディングしかなかったところに
後から8bitエンコーディングが追加されたって話なんだから
そこでツッコむべきはUTF-16という用語を使うのが間違っているという点。
それなのにあさっての方向にツッコむもんだから話がこじれる。

**デフォルトの名無しさん** · 2020/09/24(木) 09:22:54.19

>>147
だから、それも違うんだ。
Unicode に固定長エンコーディングしか無かったのは正しい。
一方で UTF-8 は Unicode のために作られらのでは無くて国際規格の UCS-4 のために作られた。
その後に Unicode と国際規格が事実上統合された。

**デフォルトの名無しさん** · 2020/09/24(木) 10:38:14.21

UTFがUCSにTransformするフォーマットの略って知らないのかな？

**デフォルトの名無しさん** · 2020/09/24(木) 11:57:01.94

>>149
細かいこ指摘だけど UCS に Tranmsform するのではなくて、UCS から Transform がより正確だよ。

**デフォルトの名無しさん** · 2020/09/24(木) 12:55:17.64

簡単な用語定義 (※元々は ISO における用語、後に Unicode にも取り入れられた)
ユニコード・コンソーシアムが定めている文字コードを「Unicode」という
国際規格委員会が ISO-10646 で定めている文字コードを「UCS」という
国際規格 UCS を 32 bit 固定長で符号化したものを「UCS-4」と呼ぶ
国際規格 UCS の BMP だけを 16 bit 固定長で符号化した簡易実装を「UCS-2」と呼ぶ(後に廃止)
第一次国際規格(1993年)の付録に定められた UCS の 8-bit 可変長符号化を「UTF」(UCS 変形フォーマットの意味)と呼ぶ(後に廃止)
国際規格の追補(1996年)で追加された UCS の 8-bit 可変長符号化を「UTF-8」と呼ぶ
国際規格の追補(1996年)で追加された UCS のサロゲートペアを用いた 16-bit 可変長フォーマットを「UTF-16」と呼ぶ

備考
UCS-2 は Unicode 1.1 とほぼ互換になるように定められた
UTF-16 は Unicode 2.0 (サロゲートペア有)と互換になるように定められた
後に定められた「UTF-32 」と UCS-4 は実質的に同じもの
UTF は UTF-8 と区別するために UTF-1 と呼ばれるようになった
UTF-8 は規格化される前は FSS-UTF とか UTF-2 などと呼ばれていた

**デフォルトの名無しさん** · 2020/09/24(木) 13:18:02.55

以上の用語定義で UTF-8 導入の経緯は

Unicode はもともと内部 16 bit、外部 16 bit の使用法を前提にしていたが、国際規格では内部 32 bit、外部 8 bit可変長で実装することも想定していた。

このための外部用 8 bit 可変長文字コードとして最初に提案されたのが、UTF (UTF-1) 方式。

だだこの UTF-1 方式は Unix のファイル名等に使えないという欠点があっったので、すぐに改良版の FSS-UTF (UTF-8) 方式が提案され、そっちで実装が進んだ。

第一次規格(1993年)では時間的に変更が間に合わなくて UTF-1 方式の方が規格書の付録に記載されたが、後から追補(1996年)によって UTF-1 方式と UTF-8 方式を入れ換えた。

**デフォルトの名無しさん** · 2020/09/24(木) 20:34:57.66

UTF-8の祖先にUTF-1があるから歴史が古いんだと言えるなら、同じ論理で
UTF-16の祖先にUCS-2を直接使用する原ユニコードがあるとも言えるんじゃね？

**デフォルトの名無しさん** · 2020/09/24(木) 23:00:01.78

UTF-1 があるから歴史が古いなんて言ってる人いないけど、どこ見てるの。
UTF-1 のすぐ後に UTF-8 が提案されてて間は1年もないよ。寝惚けてるの？

**デフォルトの名無しさん** · 2020/09/24(木) 23:04:21.45

論点はそこじゃなくてUTF-8はUnix系でUTF-16に対応できなかったから
しかたなく作ったものだって話だろ
外部が作って後からUnicodeに追加された仕様

**デフォルトの名無しさん** · 2020/09/24(木) 23:19:57.03

あきらめろ。
UTF-8 は Unicode ではなく UCS 用に作られた。
UTF-8 は欠陥のある UTF−1 の代わりにするために作られた。
UTF-8 が考案された時には UTF-16 は影も形も無かった。

**デフォルトの名無しさん** · 2020/09/24(木) 23:22:52.82

>>155
だから、それが間違いって指摘してるんだが

**デフォルトの名無しさん** · 2020/09/24(木) 23:31:22.25

>>157
UTF-8が開発された経緯

https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

> UTF-8 was designed, in front of my eyes, on a
> placemat in a New Jersey diner one night in September or so 1992.
UTF-8は1992年9月に私の目の前で設計された

> We had used the original UTF from ISO 10646
> to make Plan 9 support 16-bit characters, but we hated it.
Plan 9で16ビット文字をサポートするためにISO 10646の
オリジナルのUTFを使用していたが私たちはそれを嫌っていました。

> However, UCS and its UTF variant do not protect
> null bytes and/or the ASCII slash ("/") making these character encodings
> incompatible with existing Unix implementations.

しかしUCSとその亜種であるUTFはヌル文字とスラッシュを保護せず
存在するUnixの実装と互換性がありません。

**デフォルトの名無しさん** · 2020/09/25(金) 01:42:25.42

>>158
そこに書かれている original UTF というのは UTF-1 のことで UTF-16 のことじゃないぞ。
ちゃんと理解できてるか？

**デフォルトの名無しさん** · 2020/09/25(金) 02:18:28.45

だからUnicodeに対応するためにUCS-2ではなくてUTF-1を使ってたんだろ
UnixがUCS-2に対応するのは現実的に不可能だったから

**デフォルトの名無しさん** · 2020/09/25(金) 02:46:48.42

>>156
> UTF-8 が考案された時には UTF-16 は影も形も無かった。

UTF16の直接の先祖のUnicode1.0の符号化方式が厳然と存在してるのに影も形もないはないな

**デフォルトの名無しさん** · 2020/09/25(金) 02:48:35.22

>>160
だから、それ、お前の妄想だろ。不可能とかどこにも書かれてない。

実際やろうと思えばできる。素人じゃあるまいし。Ken って誰だか知ってるか？
ただ、互換性がないから嫌っていたという話。
Windows とかはしょちゅう非互換な変更を加えるけど、Unix とかは文化として相互の協調動作を重視するんだ。
それで、可能な限り非互換な変更を避けようとする、仕方がない場合にはやるけど。
実際問題 Plan-9 には UCS-2 と UTF-1 の両方が既に開発済みで、リリース間近だった。
ちょうど、その時に X/Open comitee の人から電話がかかって来て、UTF の改良について相談されたので、速攻でより互換性の高い新しい符号((UTF-8)を設計して提案したという話。

**デフォルトの名無しさん** · 2020/09/25(金) 02:51:32.21

>>161
そんな見苦しい言い分けしても、お前の間違いはごまかせないんだぜ。

**デフォルトの名無しさん** · 2020/09/25(金) 03:18:37.40

お前の間違いってどれよ、挙げてみｗｗｗお前が思ってるお前の発言は多分俺の発言じゃないから
一人を相手にしてると思ってるなら大間違い

**デフォルトの名無しさん** · 2020/09/25(金) 03:20:48.06

>>162
書いてある

> However, UCS and its UTF variant do not protect
> null bytes and/or the ASCII slash ("/") making these character encodings
> incompatible with existing Unix implementations.

しかしUCSとその亜種であるUTFはヌル文字とスラッシュを保護せず
存在するUnixの実装と互換性がありません。

**デフォルトの名無しさん** · 2020/09/25(金) 04:05:10.29

>>165
互換性がないとしか書いてないようだが？

**デフォルトの名無しさん** · 2020/09/25(金) 08:01:55.95

だからOSの方を書き換えるのが現実的に不可能だったんだろ

**デフォルトの名無しさん** · 2020/09/25(金) 08:06:49.98

>>162
＞ Windows とかはしょちゅう非互換な変更を加える

これって何のギャグよ

**デフォルトの名無しさん** · 2020/09/25(金) 08:14:51.08

互換性がないから嫌いとしか読めん
現実に各社 Unix でも Linux でも UTF-16 実装してるんだよなあ。
不可能とは？

**デフォルトの名無しさん** · 2020/09/25(金) 08:19:51.13

不可能なのは各コマンドをUTF-16対応にすること

**デフォルトの名無しさん** · 2020/09/25(金) 09:16:58.00

なんで？
プログラムと API を書き換えれば、普通にできるよ。
実際 Windows はそれをやったわけだし。

**デフォルトの名無しさん** · 2020/09/25(金) 09:28:26.81

>>171
Mivrosoft は愚直に全てのプログラムを書き換えた。
UNIX陣営は UTF-8 を発明して、その手間を大幅に省いた、天才。って話だわな。

**デフォルトの名無しさん** · 2020/09/25(金) 09:31:02.93

>>171
永遠の時間があればできるだろうなって話
Windows NTは最初のバージョンからUnicode対応だった

**デフォルトの名無しさん** · 2020/09/25(金) 09:36:14.75

逆だろ、Unicode 対応のために DOS-FAT から NTFS に非互換な変更したってだけだろ。
DOS-FAT はあまりにもダメダメなので、他の理由でも置き換えるのが必須だったので決断は簡単だった。
一方 UNIX 系の FS は FAT に比べれば良くできてたので、置き換える意欲に乏しかった。

**デフォルトの名無しさん** · 2020/09/25(金) 10:34:03.53

DOSは最初からSJISなんていう、これまたUnix系では（完全に）対応することができない
文字コードに対応してるわけでその理屈はおかしい

更に言うなら1995年に発売されたNT3.5（NT系としては2つ目のバージョン）に
搭載されているFATは長いファイル名をサポートし文字コードはUTF-16を使う

https://en.wikipedia.org/wiki/File_Allocation_Table#Long_file_names
> One of the user experience goals for the designers of Windows 95 was
> the ability to use long filenames (LFNs?up to 255 UTF-16 code units long)

**デフォルトの名無しさん** · 2020/09/25(金) 11:53:51.78

DOS-FATなんて使われてない用語を使ってるのは、印象操作でも目論んでるようにしか見えないが
FATの正統後継であるexFATは今も使われてるしSDカードの標準のファイルシステムとして公式採用されてる
だめだめの部分がなにか知らんがとっくに改良されておりよくできたファイルの一つとなってる

**デフォルトの名無しさん** · 2020/09/25(金) 11:57:18.65

お前はネットで検索した情報を知ったかする前に、まずは時系列順に並べ替えてみろ。

**デフォルトの名無しさん** · 2020/09/25(金) 12:43:52.40

>>177
それはお前がやるべきことだ
　　
なぜ俺が不利になる（？）ようなことを
俺がわざわざ調べないといけないんだｗ

反論があるならお前がしろ
自分が反論できないからって相手に反論の
材料を探させるという間抜けをするな
やるわけねーだろアホｗ

**デフォルトの名無しさん** · 2020/09/25(金) 14:19:51.56

ちゃんと調べれば自分が間違っていることに気づくぞ、というアドバイスなんだが。
不都合な真実は知りたくないというのなら、永遠に間違って理解してろ。
残念ながらお前は技術者には向いてないんだろうと思う。

**デフォルトの名無しさん** · 2020/09/25(金) 14:27:52.78

ANSI文字列を扱うAPIをいまだに保守し続けているWindows
デフォルトエンコーディングをEUCから突然UTF-8に切り替えたunix

互換性を軽視しているのはどちらでしょう

**デフォルトの名無しさん** · 2020/09/25(金) 14:29:21.59

>>179
調べてた結果正しかったです。調べたくない人が事実を知りたくないだと思います（笑）

**デフォルトの名無しさん** · 2020/09/25(金) 16:02:35.34

調べなくても、その辺の時系列はよく知ってるんだよ。当時、リアルタイムでおっかけてたので。
時系列誤解して、知ってるやつなら絶対に間違えないレベルの主張してるのがいたので指摘しとこうかと思っただけ。
お前は知りたくなければ知らなくて良いよ。
十分に事実は書いたので、後から奇特にもこのスレ覗きに来て、お前の妄言に惑わされる奴もいないだろうし。
p.s. 上から目線なのはジジイなので許せ。

◆QZaw55cn4c · 2020/09/25(金) 21:10:47.40

>>180
その unix とやらの具体的で正式な OS の名称を教えてください…

**デフォルトの名無しさん** · 2020/09/25(金) 21:18:32.55

しょっちゅう非互換な変更を加えるWindowsって具体的にはどれの事よ

**デフォルトの名無しさん** · 2020/09/25(金) 21:22:39.15

https://docs.microsoft.com/ja-jp/archive/blogs/nakama/win10waas-part5a

カーネル依存性のないデスクトップアプリの場合、少なくとも「まったく動作しなくなる」といった致命的な問題はほとんど出ないと思います。
Windows 7 で動作していた .NET 3.5 のアプリのほとんどは、Windows 10 上の .NET 3.5 でもまず十中八九動作するはずで、
先行検証しているあるお客様からは、「まるで非互換問題が出てこないんだけれども、名前だけ変えてお金稼ごうとしてない？」とか言われたことがあるぐらいです；。

**デフォルトの名無しさん** · 2020/09/25(金) 21:53:11.91

>>185
マイクロソフトは互換性が高いと主張しています。それは事実だと思いますが
それでも断定はできないし保証はできないので検証は必要です。

ただしお客様の方で検証していただければお金は不要です。
問題があった場合は有償でサポートしますが対応に時間がかかることがあるので
余裕を持ったスケジュールで行ってください。

って言えば良いんかな？

**デフォルトの名無しさん** · 2020/09/26(土) 04:29:55.57

>>183
そんなUNIXは存在しない。
Unix系の OS は Unicode よりずっと前に複数文字コード対応終わってるので。
MacOS を Unix だと主張するなら、違うかもしれない。解釈次第。

**デフォルトの名無しさん** · 2020/09/26(土) 05:50:51.04

> Unix系の OS は Unicode よりずっと前に複数文字コード対応終わってるので。
それはASCIIと互換性がある文字コードだけ

LinuxはSJISに対応しようと頑張ったやつがあるが
ASCIIと互換性がないので不完全なまま終了した

http://ossforum.jp/jossfiles/Linux_SJIS_Support.pdf
> なぜ Linux で Shift JIS ロケールがサポートされない
> 現在、日本で利用されている多くの Linux ディストリビューションでも、Unicode 系の UTF-8 がデ
> フォルトとされ、Shift JIS ロケールが用意されているケースでも、利用は推奨されていない。

> 1. Ｌｉｎｕｘの文字処理ライブラリ関数は、Unicode を扱うことを基本としているため、本ライブラリ
> 関数を使ってインプリメントされた Linux システムコマンドでは、ファイルデータの中の文字
> 処理や、ファイル名の処理で、Unicode は正しく扱えても、Shift JIS は扱えないことがある。

> 2. Shift JIS データの処理は、「特別」な扱いとなり、メールクライアント Thunderbird など、個々
> のミドルウェアに多大な開発負担を負わせている。

> 3. 特に、正統 Shift JIS ロケール sjis では、 0x5C=U+00A5 というマッピングのために、オープ
> ン系プログラム（Ｃ言語、Java など）の動作が保証されない。cp932 などでは問題ない。

**デフォルトの名無しさん** · 2020/09/26(土) 05:52:24.09

ちなみにWindows NTは最初のバージョンから複数文字コード対応が終わっている
UTF-16（初期はUCS-2）がOSの標準文字コードだからね

**デフォルトの名無しさん** · 2020/09/26(土) 08:35:16.23

その定義だと WindowsNT は ShiftJIS に対応してないんだなこれが。
あくまで対応しているのは CP932 なんだ。
Linux は正しく ShiftJIS を規格書どおりに実装している。
問題は CP932 と ShiftJIS を後出しで別物にしちゃったマイクロソフトにある。
だから Linux でMS互換の文字コードを使いたい場合、ShiftJIS ではなく CP932 と設定する必要がある。

**デフォルトの名無しさん** · 2020/09/26(土) 09:57:54.54

>>190
だからLinuxはCP932に完全対応できずに終わったって言ってるじゃん
話すり替えるなよ

**デフォルトの名無しさん** · 2020/09/26(土) 10:55:23.76

そういえば CP932 は ASCII 互換だったな。
（互換だったということにマイクロソフトがした）

**デフォルトの名無しさん** · 2020/09/26(土) 11:00:49.52

https://shellscript.sunone.me/character_code.html
＞古くから UNIX の日本語環境では EUC-JP が標準の文字コードとして使用されてきた

https://gihyo.jp/lifestyle/serial/01/ganshiki-soushi/0069
＞EUC-JPはUNIX系OSに採用されてワークステーションに，ISO-2022-JP(の前身であるJUNETコード)は電子メールやネットニュースなどインターネットを中心に広まっていきました。

https://codeaid.jp/blog/exchange-utf8/
＞UnixはEUC、WindowsはShift_JIS、MacはMacJapaneseやUTF-8など異なったエンコードタイプでテキストを扱います。

http://www.monyo.com/technical/samba/docs/Japanese-HOWTO-3.0.ja.txt
＞オープンソースの Linux、FreeBSD や、Solaris、IRIX、Tru64 UNIX といった商用 UNIX では、日本語のロケールとして通常 EUC-JP を利用しています

あとどれだけの情報を出せば納得するのかな？ww

**デフォルトの名無しさん** · 2020/09/26(土) 11:16:52.56

>>191
話そらしてるようにしか読めないのなら、それがお前の知識の限界ってやつだ。

**デフォルトの名無しさん** · 2020/09/26(土) 11:18:06.83

>>193
ちなみに Sony の NEWS とか知ってる？

**デフォルトの名無しさん** · 2020/09/26(土) 14:37:10.24

plamoっって久々に観たわ

**デフォルトの名無しさん** · 2020/09/26(土) 15:20:39.47

>>192
マイクロソフトはCP932がASCII互換なんて言ってないよ
それもあってかWindowsではANSIという呼び方をしている

**デフォルトの名無しさん** · 2020/09/26(土) 15:23:26.93

>>194
話をそらしてるのはお前でしょ。Linux および Unix が CP932 または ShiftJIS に対応してないって話なのに
Windowsがー、ShiftJISじゃなくてー、CP932なんだーってWindowsの話にすり替えてる

Linux および Unix の話に戻しましょう。

Linux および Unix が CP932 または ShiftJIS に完全対応してない
>>193にも書いてあるように日本語はASCII互換のEUC-JPを使っていた

**デフォルトの名無しさん** · 2020/09/26(土) 15:35:39.57

AIXはCP932系のCP943がデフォルトだったしSolarisも一応PCKというのを提供していた。
使うコマンド全てちゃんとlocaleに従う国際化していればできる話。

**デフォルトの名無しさん** · 2020/09/26(土) 15:56:41.68

どんどんボロが出るな。
お前のういう ANSI と ASCII の違いって何。
Linux において Shift_JIS と CP932 の違いはわかる？
Sony の NEWS って知ってる？