文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/11/28(水) 02:59:23.88

FULL WIDTH

**デフォルトの名無しさん** · 2018/11/28(水) 04:06:11.10

>>926
全てにおいて角こそが至上であると妄信する一種のトランス状態
一例をだすと漫画「おれは直角」の主人公がそうである

**デフォルトの名無しさん** · 2018/11/28(水) 09:49:40.91

横方向に Full Width 全角
縦方向に Full Width 倍角
？

**デフォルトの名無しさん** · 2018/11/28(水) 12:51:43.14

ワープロ専用機時代、横倍角なんていう気持ち悪いのがあったな

**デフォルトの名無しさん** · 2018/11/28(水) 15:08:09.04

〴
〵

気持ち悪いってもこれよりはマシやろ

**デフォルトの名無しさん** · 2018/11/29(木) 01:40:08.15

HALF WIDTH　　(^-^)
FULL WIDTH　　（　　　　＾　　　　＿　　　　＾　　　　）

**デフォルトの名無しさん** · 2018/11/29(木) 14:33:52.79

iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。

**デフォルトの名無しさん** · 2018/11/30(金) 13:11:19.56

>>933
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。

EUC-JIS-2004 - Wikipedia
https://ja.wikipedia.org/wiki/EUC-JIS-2004

EUC-JISX0213 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/EUC-JISX0213

**デフォルトの名無しさん** · 2018/11/30(金) 14:13:45.09

廃止されたんか…

**デフォルトの名無しさん** · 2018/11/30(金) 14:42:42.21

廃止されたんよ

**デフォルトの名無しさん** · 2018/11/30(金) 14:59:53.47

そうなんかい…

**デフォルトの名無しさん** · 2018/12/01(土) 01:50:51.78

EUCで0213したいときはどうすればいいんだ…

**デフォルトの名無しさん** · 2018/12/01(土) 02:27:14.32

普通にEUC-JIS-2004を使え

**デフォルトの名無しさん** · 2018/12/01(土) 02:33:51.02

えぇ…

**デフォルトの名無しさん** · 2018/12/01(土) 04:17:45.98

なんで廃止するんだ…

**デフォルトの名無しさん** · 2018/12/01(土) 15:43:51.59

よう分からん。
EUC-JISX0213（JIS X 0213:2000ベース）は廃止されて、EUC-JIS-2004（JIS X 0213:2004ベース）になったってことでいいのか？

**デフォルトの名無しさん** · 2018/12/01(土) 16:34:03.50

改訂のタイミングでX0213から-2004に名前が変わっただけってこと？

**デフォルトの名無しさん** · 2018/12/03(月) 16:03:32.93

>>942
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、

>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。

とのことなので、ほぼ同じものと思ってよい。

**デフォルトの名無しさん** · 2018/12/04(火) 00:06:31.38

なあんだ

**デフォルトの名無しさん** · 2018/12/05(水) 23:26:18.07

JISの漢字コードってたまにそういうのあるよね
２文字増えただけのJIS0208-1990とか

**デフォルトの名無しさん** · 2018/12/07(金) 11:12:03.49

日本マイクロソフトやAdobeが改元対応を説明
https://pc.watch.impress.co.jp/docs/news/1157118.html

同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。

フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。

**デフォルトの名無しさん** · 2018/12/07(金) 16:19:20.12

え、これってひょっとして新元号合字が使えるのはUnicode系統だけで、
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと？

元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…

**デフォルトの名無しさん** · 2018/12/07(金) 16:48:04.41

独自の文字セットで運用すりゃいいだけ

**デフォルトの名無しさん** · 2018/12/07(金) 21:50:22.19

JIS X 0213に入ったら
当然Shift_JISにもいれるべき
㍻　2D5F
㍼　2D6F
㍽　2D6E
㍾　2D6D

2D5Eが空いてる

**デフォルトの名無しさん** · 2018/12/07(金) 22:22:10.91

和田研細丸ゴシックのU+32FFのグリフ

平成
の次

で吹いたｗ

**デフォルトの名無しさん** · 2018/12/07(金) 22:28:33.61

しかし年号の余裕も言うほどないよな
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし

**デフォルトの名無しさん** · 2018/12/07(金) 23:44:21.45

そんなにしょっちゅう変わったらさすがに文字コード需要のほうがなくなりそうだが

**デフォルトの名無しさん** · 2018/12/08(土) 01:15:36.39

どのみち継承者を今後10年で10人確保するのは無理なので…

**デフォルトの名無しさん** · 2018/12/08(土) 02:21:31.30

赤ちゃんでもいいので可能性はある

**デフォルトの名無しさん** · 2018/12/08(土) 03:58:41.86

既にある文字を組み合わせた合字が増え続けるとわかっているなら次の文字が半分の大きさであることを
表すコントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか？
そうしないと延々と文字が増え続ける。

**デフォルトの名無しさん** · 2018/12/08(土) 05:46:24.58

なんかプレッシャーに耐えかねてホモに走って断絶なんてことになりそうな気もするけどなあ

**デフォルトの名無しさん** · 2018/12/08(土) 08:49:48.25

縦書きも考慮しなきゃいけないとか面倒くさすぎだな

新元号対応について
https://citpc.jp/download/2018-12-06%20CITPC%20Seminar_Ken%20Tamaru.pdf

**デフォルトの名無しさん** · 2018/12/09(日) 20:48:07.44

>>948
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。

http://www.jepa.or.jp/jepa_cms/wp-content/uploads/2010/05/jepa0000518783.pdf
https://www.itscj.ipsj.or.jp/hasshin_joho/unei/files/unei21-Kajisa.pdf

**デフォルトの名無しさん** · 2018/12/10(月) 08:46:40.86

Unifontだと、32FFは

３２
ＦＦ　　(undefined)

だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか？

**デフォルトの名無しさん** · 2018/12/10(月) 13:28:03.68

Firefoxとかはフォントにない文字は自動でその表示になるよね。

まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。

**デフォルトの名無しさん** · 2018/12/10(月) 17:39:24.58

未収録のままにして他のフォントで表示してくれたほうがありがたいからなあ

**デフォルトの名無しさん** · 2018/12/10(月) 19:51:03.00

それだな
グリフがあると自動フォールバックが利かなくなる

**デフォルトの名無しさん** · 2018/12/10(月) 22:52:22.99

U+32FFは初期のUnicodeでは現在U+3004にあるJISマークだったんだな。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。

**デフォルトの名無しさん** · 2018/12/10(月) 23:18:14.27

新元号はM/T/S/H以外が実用上望ましいんだよな。

Jか…いけるなあ。

**デフォルトの名無しさん** · 2018/12/11(火) 13:17:12.25

放送大学のUnicodeの番組わかりやすかった

**デフォルトの名無しさん** · 2018/12/11(火) 16:17:48.41

地上波で映らなくなったから見れない…

**デフォルトの名無しさん** · 2018/12/11(火) 18:11:21.44

残念だ

**デフォルトの名無しさん** · 2018/12/11(火) 20:34:24.45

囲みCJK文字/月ブロックは平成の次で全て埋まると思ったが、U+321Fがまだ空いてるな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。

**デフォルトの名無しさん** · 2018/12/11(火) 21:42:40.13

>>960
フォントサイズが増えるからでしょ？

**デフォルトの名無しさん** · 2018/12/15(土) 07:05:36.47

>>966
紹介サイトのURLとか貼れます？

**デフォルトの名無しさん** · 2018/12/15(土) 13:39:28.60

シラバス
https://www.ouj.ac.jp/hp/kamoku/2019/kyouyou/C/joho/index.html

この前見たのはこれだったかな
情報理論とデジタル表現（’１９）
の第11回　テキストの符号化

これもおすすめ
デジタル情報の処理と認識（’１８）
通信概論（’１４）

https://www.ouj.ac.jp/hp/bangumi/year_tv.html

公開番組もあり
https://vod.ouj.ac.jp/view/ouj/#/navi/vod?ca=489
https://www.youtube.com/channel/UCd8zAzjHkIcPbnTDyn-q50w/videos

**デフォルトの名無しさん** · 2018/12/15(土) 14:24:01.62

Windows 10 Insider Preview、メモ帳でBOMなしのUTF-8が選択可能に | スラドデベロッパー
https://developers.srad.jp/story/18/12/14/0345249/

ついに

**デフォルトの名無しさん** · 2018/12/15(土) 14:46:24.79

BOMカットするのなんてマなら簡単だろ

**デフォルトの名無しさん** · 2018/12/15(土) 15:14:00.77

マジかよ圧倒的シェアのWindowsがBOM付きだからという理由で自分は全部BOM月にしてたのに梯子外されたのかよ

**デフォルトの名無しさん** · 2018/12/15(土) 15:21:32.65

SJIS絶滅はよ

**デフォルトの名無しさん** · 2018/12/15(土) 15:27:12.87

>>975
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと

◆QZaw55cn4c · 2018/12/15(土) 15:27:58.81

>>975
そもそも Byte Order Mark の必要のない UTF-8 に BOM を付けていることが論理的に矛盾していますよね

**デフォルトの名無しさん** · 2018/12/15(土) 15:44:04.63

>>978
UTF-8の使用によると、BOMは文書がUnicodeであることを
自動判定するためにも用いられるらしい
だから名前がおかしいってのはあるけど、機能的には仕様どおりの使い方

◆QZaw55cn4c · 2018/12/15(土) 20:22:50.48

>>979
＞UTF-8の仕様によると、BOMは文書がUnicodeであることを自動判定するためにも用いられる

＞らしい
らしい、ですか…
本当にそうなのか確かめてみました。RFC3629 https://tools.ietf.org/html/rfc3629　の記述は

The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM").

BOM は本来は「ゼロ長割り込みなしスペース」という意味らしいですね…
ながながとあれやこれは書いてあったのですが結論はよくわからないです、誰か英語のできる人、どこを読めばいいか教えてください…

**デフォルトの名無しさん** · 2018/12/15(土) 21:51:17.49

ISO10646では誤解を受けそうなBOMという呼び名は使われていなくてSignatureと言うらしい。
現在ではU+FEFFは専らSignatureを表すものとして、もともとのゼロ幅ノーブレークスペースの意味で
使用することは推奨されていない。代わりにU+2060 WORD JOINERを使用することになっている。

**デフォルトの名無しさん** · 2018/12/15(土) 23:06:31.96

やはり頭悪いのはunicodeと符号化を混同してる
文書は符号化されたunicodeということになる

2つ以上のｵｸﾃｯﾄを使う符号単位で
BOM入れないﾔﾂは池沼だからな

**デフォルトの名無しさん** · 2018/12/16(日) 00:59:01.64

WindowsがなぜUTF-16のことをUnicodeといっているかというと、
Windows NT 初代の3.1（1994年）当時は世界中の文字は16bitで
全て表現できると思われていたからだよ。

Windows NTは最初からUnicodeに対応したOSなのだが、
当時はUnicode = 16bit = UTF-16が成り立っていた

それが間違っているとわかってUnicodeが21bitに拡張されたのが
Unicode 2.0 （1996年7月）

メモ帳がUTF-16をUnicodeと表現するのはその名残りだよ
そういう歴史を知らないで語ると恥をかく

**デフォルトの名無しさん** · 2018/12/16(日) 02:37:42.34

その当時の話をするならUCS-2じゃないの？

**デフォルトの名無しさん** · 2018/12/16(日) 05:34:39.63

寿司と言えば江戸だったから江戸前って名前になった、まで読んだ。

**デフォルトの名無しさん** · 2018/12/16(日) 11:01:00.63

時すでにお寿司

**デフォルトの名無しさん** · 2018/12/16(日) 12:33:16.52

>>985
��

**デフォルトの名無しさん** · 2018/12/16(日) 12:35:57.48

寿司と言えば江戸ではなかったから、
江戸の寿司と強調したいときは、わざわざ江戸前寿司というようになった
ではないのか？

**デフォルトの名無しさん** · 2018/12/16(日) 13:50:47.39

寿司食いねえ! 🍣

**デフォルトの名無しさん** · 2018/12/16(日) 15:02:40.57

押し寿司とかなれ寿司が寿司だよな。
酢で酸っぱくした寿司なんかフェイク寿司もいいところ。

**デフォルトの名無しさん** · 2018/12/16(日) 18:49:12.48

押し寿司も酢飯使ってるよ

**デフォルトの名無しさん** · 2018/12/16(日) 20:12:23.42

火縄銃といえば種子島だから種子島って名前になった、まで読んだ

**デフォルトの名無しさん** · 2018/12/16(日) 20:40:53.56

違うぞ。種子島の種とは、
子種のことだぞ。

種子島＝子種島＝ザーメン島

**デフォルトの名無しさん** · 2018/12/16(日) 21:01:19.88

だから鉄砲はぴゅぴゅっと出るんですね

**デフォルトの名無しさん** · 2018/12/16(日) 21:10:12.52

>>987
日本語でok

**デフォルトの名無しさん** · 2018/12/17(月) 16:59:55.19

新スレ

文字コード総合スレ Part12
http://mevius.5ch.net/test/read.cgi/tech/1545032904/

**デフォルトの名無しさん** · 2018/12/17(月) 21:10:45.75

ドイツ語だと植物の種子も同じだからどうでもいい。

**デフォルトの名無しさん** · 2018/12/17(月) 21:18:37.04

次スレ

文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1544931495/

**デフォルトの名無しさん** · 2018/12/17(月) 22:43:33.00

>>996
thanx

**デフォルトの名無しさん** · 2018/12/18(火) 01:01:53.52

次スレなぜか分裂

**1001** · Over 1000

このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 329日 2時間 3分 30秒