X



文字コード総合スレ Part11

レス数が1000を超えています。これ以上書き込みはできません。
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
952デフォルトの名無しさん
垢版 |
2018/12/07(金) 22:28:33.61ID:Z7Pkiqbl
しかし年号の余裕も言うほどないよな
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし
2018/12/07(金) 23:44:21.45ID:Sv6zm0b9
そんなにしょっちゅう変わったらさすがに文字コード需要のほうがなくなりそうだが
2018/12/08(土) 01:15:36.39ID:7zz08Xs4
どのみち継承者を今後10年で10人確保するのは無理なので…
2018/12/08(土) 02:21:31.30ID:nIDZ4yFF
赤ちゃんでもいいので可能性はある
2018/12/08(土) 03:58:41.86ID:xmV4OmOO
既にある文字を組み合わせた合字が増え続けるとわかっているなら次の文字が半分の大きさであることを
表すコントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか?
そうしないと延々と文字が増え続ける。
2018/12/08(土) 05:46:24.58ID:4O5fRXD5
なんかプレッシャーに耐えかねてホモに走って断絶なんてことになりそうな気もするけどなあ
2018/12/08(土) 08:49:48.25ID:VbRdNM0/
縦書きも考慮しなきゃいけないとか面倒くさすぎだな

新元号対応について
https://citpc.jp/download/2018-12-06%20CITPC%20Seminar_Ken%20Tamaru.pdf
2018/12/09(日) 20:48:07.44ID:NLNV6qg6
>>948
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。

http://www.jepa.or.jp/jepa_cms/wp-content/uploads/2010/05/jepa0000518783.pdf
https://www.itscj.ipsj.or.jp/hasshin_joho/unei/files/unei21-Kajisa.pdf
2018/12/10(月) 08:46:40.86ID:S9fSc6ei
Unifontだと、32FFは

32
FF  (undefined)

だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか?
2018/12/10(月) 13:28:03.68ID:7KZwr80a
Firefoxとかはフォントにない文字は自動でその表示になるよね。

まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。
2018/12/10(月) 17:39:24.58ID:A+rv6wMQ
未収録のままにして他のフォントで表示してくれたほうがありがたいからなあ
2018/12/10(月) 19:51:03.00ID:hinx2Zbo
それだな
グリフがあると自動フォールバックが利かなくなる
2018/12/10(月) 22:52:22.99ID:N5SCf3O2
U+32FFは初期のUnicodeでは現在U+3004にあるJISマークだったんだな。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。
2018/12/10(月) 23:18:14.27ID:hinx2Zbo
新元号はM/T/S/H以外が実用上望ましいんだよな。

Jか…いけるなあ。
966デフォルトの名無しさん
垢版 |
2018/12/11(火) 13:17:12.25ID:eQLW3H68
放送大学のUnicodeの番組わかりやすかった
2018/12/11(火) 16:17:48.41ID:gC3VOuLX
地上波で映らなくなったから見れない…
2018/12/11(火) 18:11:21.44ID:uSURGRNJ
残念だ
2018/12/11(火) 20:34:24.45ID:ku/Zz2dV
囲みCJK文字/月ブロックは平成の次で全て埋まると思ったが、U+321Fがまだ空いてるな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。
2018/12/11(火) 21:42:40.13ID:Hrs/4e8e
>>960
フォントサイズが増えるからでしょ?
2018/12/15(土) 07:05:36.47ID:LC13wD1r
>>966
紹介サイトのURLとか貼れます?
972デフォルトの名無しさん
垢版 |
2018/12/15(土) 13:39:28.60ID:ciQUdpOi
シラバス
https://www.ouj.ac.jp/hp/kamoku/2019/kyouyou/C/joho/index.html

この前見たのはこれだったかな
情報理論とデジタル表現(’19)
の 第11回 テキストの符号化

これもおすすめ
デジタル情報の処理と認識(’18)
通信概論(’14)

https://www.ouj.ac.jp/hp/bangumi/year_tv.html

公開番組もあり
https://vod.ouj.ac.jp/view/ouj/#/navi/vod?ca=489
https://www.youtube.com/channel/UCd8zAzjHkIcPbnTDyn-q50w/videos
973デフォルトの名無しさん
垢版 |
2018/12/15(土) 14:24:01.62ID:/xz8BzsC
Windows 10 Insider Preview、メモ帳でBOMなしのUTF-8が選択可能に | スラド デベロッパー
https://developers.srad.jp/story/18/12/14/0345249/

ついに
974デフォルトの名無しさん
垢版 |
2018/12/15(土) 14:46:24.79ID:Sg9amITu
BOMカットするのなんてマなら簡単だろ
2018/12/15(土) 15:14:00.77ID:+6LwXb2C
マジかよ圧倒的シェアのWindowsがBOM付きだからという理由で自分は全部BOM月にしてたのに梯子外されたのかよ
976デフォルトの名無しさん
垢版 |
2018/12/15(土) 15:21:32.65ID:Sg9amITu
SJIS絶滅はよ
2018/12/15(土) 15:27:12.87ID:EyhC0X8P
>>975
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと
2018/12/15(土) 15:27:58.81ID:jYtCORiK
>>975
そもそも Byte Order Mark の必要のない UTF-8 に BOM を付けていることが論理的に矛盾していますよね
2018/12/15(土) 15:44:04.63ID:EyhC0X8P
>>978
UTF-8の使用によると、BOMは文書がUnicodeであることを
自動判定するためにも用いられるらしい
だから名前がおかしいってのはあるけど、機能的には仕様どおりの使い方
2018/12/15(土) 20:22:50.48ID:jYtCORiK
>>979
>UTF-8の仕様によると、BOMは文書がUnicodeであることを自動判定するためにも用いられる

>らしい
らしい、ですか…
本当にそうなのか確かめてみました。RFC3629 https://tools.ietf.org/html/rfc3629 の記述は

The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM").

BOM は本来は「ゼロ長割り込みなしスペース」という意味らしいですね…
ながながとあれやこれは書いてあったのですが結論はよくわからないです、誰か英語のできる人、どこを読めばいいか教えてください…
2018/12/15(土) 21:51:17.49ID:px2y3yP7
ISO10646では誤解を受けそうなBOMという呼び名は使われていなくてSignatureと言うらしい。
現在ではU+FEFFは専らSignatureを表すものとして、もともとのゼロ幅ノーブレークスペースの意味で
使用することは推奨されていない。代わりにU+2060 WORD JOINERを使用することになっている。
982デフォルトの名無しさん
垢版 |
2018/12/15(土) 23:06:31.96ID:8aRCy95z
やはり頭悪いのはunicodeと符号化を混同してる
文書は符号化されたunicodeということになる

2つ以上のオクテットを使う符号単位で
BOM入れないヤツは池沼だからな
2018/12/16(日) 00:59:01.64ID:0WbTxJge
WindowsがなぜUTF-16のことをUnicodeといっているかというと、
Windows NT 初代の3.1(1994年)当時は世界中の文字は16bitで
全て表現できると思われていたからだよ。

Windows NTは最初からUnicodeに対応したOSなのだが、
当時はUnicode = 16bit = UTF-16が成り立っていた

それが間違っているとわかってUnicodeが21bitに拡張されたのが
Unicode 2.0 (1996年7月)

メモ帳がUTF-16をUnicodeと表現するのはその名残りだよ
そういう歴史を知らないで語ると恥をかく
2018/12/16(日) 02:37:42.34ID:/e3hQGaS
その当時の話をするならUCS-2じゃないの?
2018/12/16(日) 05:34:39.63ID:oz52hRFm
寿司と言えば江戸だったから江戸前って名前になった、まで読んだ。
2018/12/16(日) 11:01:00.63ID:0qV7OEGg
時すでにお寿司
2018/12/16(日) 12:33:16.52ID:GapmNYlr
>>985
��������������
2018/12/16(日) 12:35:57.48ID:VlX3xGEw
寿司と言えば江戸ではなかったから、
江戸の寿司と強調したいときは、わざわざ江戸前寿司というようになった
ではないのか?
2018/12/16(日) 13:50:47.39ID:52dtexo8
寿司食いねえ! 🍣
2018/12/16(日) 15:02:40.57ID:/e3hQGaS
押し寿司とかなれ寿司が寿司だよな。
酢で酸っぱくした寿司なんかフェイク寿司もいいところ。
2018/12/16(日) 18:49:12.48ID:A6SlBDUO
押し寿司も酢飯使ってるよ
2018/12/16(日) 20:12:23.42ID:oz52hRFm
火縄銃といえば種子島だから種子島って名前になった、まで読んだ
2018/12/16(日) 20:40:53.56ID:Ux2imWCY
違うぞ。種子島の種とは、
子種のことだぞ。

種子島=子種島=ザーメン島
2018/12/16(日) 21:01:19.88ID:/e3hQGaS
だから鉄砲はぴゅぴゅっと出るんですね
2018/12/16(日) 21:10:12.52ID:oz52hRFm
>>987
日本語でok
2018/12/17(月) 16:59:55.19ID:Pfqpaohb
新スレ

文字コード総合スレ Part12
http://mevius.5ch.net/test/read.cgi/tech/1545032904/
997デフォルトの名無しさん
垢版 |
2018/12/17(月) 21:10:45.75ID:ncIi/eoH
ドイツ語だと植物の種子も同じだからどうでもいい。
2018/12/17(月) 21:18:37.04ID:lO+98ZHR
次スレ

文字コード総合スレ Part12
https://mevius.5ch.net/test/read.cgi/tech/1544931495/
2018/12/17(月) 22:43:33.00ID:iPWzsOu1
>>996
thanx
1000デフォルトの名無しさん
垢版 |
2018/12/18(火) 01:01:53.52ID:dCapM8E2
次スレなぜか分裂
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 329日 2時間 3分 30秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。