文字コード総合スレ Part12

レス数が950を超えています。1000を超えると書き込みができなくなります。
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2020/02/05(水) 20:43:09.91ID:f5dE3Mu+
>>853
詳しい解説サンクス
2020/02/05(水) 23:12:39.17ID:zWcxLf4u
>>853
あざす
やっぱり混沌としてるのですね
とりあえず一度ターミナルの中を追ってみようかな
2020/02/06(木) 00:00:39.94ID:SQAVqXtr
>>844うちでも見れた
2020/02/07(金) 22:23:32.71ID:DCA95dh2
継ぎ接ぎだらけの一貫してない仕様だからな
2020/02/08(土) 17:47:47.28ID:hv0txQ7A
Unicodeの時代に今更だけど、
シフトJISの第2バイトがA0〜FFでなく
40〜FCにしたのは何でだろう
2020/02/08(土) 17:48:29.82ID:hv0txQ7A
訂正
×A0〜FF
〇80〜FF
2020/02/08(土) 18:36:07.73ID:zjMP9HD4
JISの区点は1区あたり94点
0x40開始で0x7Fを避けて2区分取ると0xFCになる
2020/02/09(日) 12:59:57.61ID:tCetl5aZ
やっぱ漢字1文字は2バイトの方がいい
2020/02/09(日) 15:51:09.68ID:gml78nRc
>>858
半角カナのせいで80〜FFでは足りないから
2020/02/09(日) 19:30:21.11ID:tCetl5aZ
シフトJISはもう少し工夫すれば
JISコードの変換式もより簡単にでき
2バイト目もASCII領域を使わずにダメ文字も発生せず
補助漢字も全て入れられた
2020/02/09(日) 19:32:13.43ID:tCetl5aZ
補助漢字は半角カナと排他だけど
865デフォルトの名無しさん
垢版 |
2020/02/10(月) 16:27:01.61ID:TGcYvj29
EUCで良かったんよ
2020/02/10(月) 19:14:50.21ID:hRmPfOYI
EUCだと半角カナも補助漢字もバイト数が増えるからな...
2020/02/10(月) 21:20:39.00ID:3bnN/FFY
>>863
あのスペースの狭さでは、それは無理だったのでは?
どうするのがよかったのですか?具体的にいってみてよ
2020/02/11(火) 08:36:25.76ID:K5Jxm44G
非漢字_:[81-98] [80-9F]
第1水準:[80-9F] [A1-FE]
第2水準:[E0-FF] [A1-FE],[E0-EB] [80-9F]
補助漢字:[A0-DD] [A1-FE],[A4-C1] [80-9F]
補助漢字は半角カナと排他利用
2020/02/11(火) 17:40:51.63ID:Sh/x76Zj
>>868
それは結局半角カナを潰しただけのことでは?
2020/02/11(火) 18:51:44.66ID:K5Jxm44G
>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字(JIS X 0212)が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON/OFFコマンドを追加し、半角カナ/補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる
2020/02/11(火) 19:27:04.32ID:Sh/x76Zj
>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね
2020/02/12(水) 01:19:59.31ID:l8Pmdafn
いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる
2020/02/12(水) 02:15:22.28ID:H21UjGBC
なくならない
合成文字はなくせない
2020/02/12(水) 05:02:58.88ID:K3E1Z6OS
>>871
コンテンツ側でなくユーザー側
875デフォルトの名無しさん
垢版 |
2020/02/12(水) 10:06:52.88ID:a1w2Xqz0
1文字=64bitやろ
2020/02/12(水) 13:30:20.44ID:KzEjZzkq
>>875
イングランドの旗はUnicodeで7コードポイント必要なので64bitでは無理
128bitで
2020/02/12(水) 13:32:59.34ID:yKNbCROk
👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須
2020/02/12(水) 20:36:54.81ID:ytylQgpT
>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの
2020/02/12(水) 21:06:37.28ID:Kml/rCmZ
>>878がおもしろいことを言った
2020/02/13(木) 15:10:18.42ID:Xqo24CtP
ウェールズ「俺は?」
2020/02/13(木) 21:26:26.80ID:KYt0SeFn
Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
https://www.itmedia.co.jp/news/articles/2002/13/news068.html
2020/02/14(金) 11:14:07.77ID:SoYJxWJg
そんな文字要らんわ
2020/02/14(金) 13:42:19.65ID:4TN7y+1I
グーグルってしょっちゅう意味のわからんことするよな
884デフォルトの名無しさん
垢版 |
2020/02/14(金) 14:22:25.49ID:WtuYdkw5
MSやAppleだって訳判らんことするときもある
2020/02/14(金) 14:26:10.19ID:MCgyW5To
実行ファイルがテキストとデータで構成されるように、絵文字表現もテキストとデータを組み合わせた文法が出てきそう。
886デフォルトの名無しさん
垢版 |
2020/02/14(金) 17:14:21.07ID:CPLKNT1n
顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。
2020/02/14(金) 21:11:02.23ID:qxpoECq4
(.*_*)
2020/02/14(金) 22:37:55.75ID:cKxgCMj+
そのメタ文字にマッチしたい正規表現を書く日が来るぞ
2020/02/15(土) 00:14:12.35ID:W/mb2gir
\��
2020/02/15(土) 05:28:54.23ID:uhBKJdO0
規格名:JIS X 0215
文字数:15000字超(非漢字:1700字超,漢字:13300字超)
区点域:0〜127区,0〜127点(最大16384字収納)
通 称:いちごJIS
2020/02/21(金) 14:33:03.02ID:MAyK0RyJ
https://twitter.com/akinomyoga/status/1230127240806985728

修正の入った Cygwin 3.1.4 のリリースノートが来て、見てみたら @cjksingle という不穏な locale が発明されてる。
何かと思ったら「CJK文字も全て半角にすれば文字幅問題解決じゃん」という欧米人(東欧系?)の思いつきで、これは新しい悪夢なのでは…。mintty は仕事が早すぎ
https://gitlab.freedesktop.org/terminal-wg/specifications/issues/9#note_406682

因みにこの東欧人を追うともっと面白い(?)ものが。。漢字や絵文字が行末に収まらない時は左半分はその行に右半分は次の行に表示するのが合理的だと Windows Terminal に赴いて主張してる。
曰く、殆どの漢字は偏(へん)と旁(つくり)から成るので分断しても意味を失わないとか…
https://github.com/microsoft/terminal/issues/4345#issuecomment-578434025
https://twitter.com/5chan_nel (5ch newer account)
892デフォルトの名無しさん
垢版 |
2020/02/21(金) 15:07:53.93ID:5cQWFY2c





2020/02/21(金) 20:47:45.26ID:cxQoHGS6
半角と全角の区別付かなくなると困るから元の半角文字はさらに半分で表示したらどうかな
2020/02/21(金) 22:45:17.77ID:gYJx2Nw8
まぁ、全部全角にすれば万事解決なんだけどな。
2020/02/22(土) 03:15:16.13ID:s2EVAxz+
絵文字っていわゆる全角よね
2020/03/02(月) 02:11:23.28ID:dBpw1NjL
いわゆるって何を指してる?
2020/03/02(月) 16:54:16.25ID:HI7PDIWr
公式定義ではなく現実によく目にする幅、かな
898デフォルトの名無しさん
垢版 |
2020/03/02(月) 17:38:15.13ID:glnmwhpK
最近は倍角とか4倍角とか聴かなくなったな
2020/03/07(土) 16:24:06.57ID:dtD2Xrrp
Microsoft、Shift_JISや外字からUnicodeへの移行を呼びかけ | スラド
https://srad.jp/story/20/03/06/1237211/

Windows と日本語のテキストについて - Windows Blog for Japan
https://blogs.windows.com/japan/2020/02/20/about-windows-and-japanese-text/
2020/03/07(土) 18:02:03.37ID:8MkGFgNt
外字というと丸囲みの数字が@〜S以外にもほしくて
21以降も外字で作ってしまっていた事務所を思い出す

何度かPCを入れ替えるうちに使わなくなり、忘れ去られ、
久々に古い文書を引っ張り出して来たら謎の文字化けで外字の存在が発覚
外字が何故かSから始まってたり途中に別の字が挟まってたりしてもはや解読作業
2020/03/08(日) 21:08:48.53ID:LYEGO22Q
2020/03/08(日) 22:48:15.28ID:NQM2xZbu
今は㊿まであるんだな、知らんかったわ
2020/03/09(月) 05:26:10.28ID:z9inAChS
(0)とか黒丸の小文字英字とか白丸のンとか黒丸の仮名とかは
Unicodeですら未だに無いんだよな...
2020/03/09(月) 14:12:03.27ID:A2Epg0dL
それはわいせつだからでは
2020/03/09(月) 14:20:33.44ID:o76Az6W+
わいせつだって文字情報じゃないか!
それともなにか君は辞書から陰茎とか陰核という単語を削除せよというのか!
2020/03/09(月) 16:04:20.40ID:5ouitKt0
��
907デフォルトの名無しさん
垢版 |
2020/03/09(月) 17:52:27.97ID:T4gz2l9R
>>903
◎と字形が同じとかで一緒にされそう

あと将棋の駒(上下とか白黒)も欲しいとか言ってた人?
2020/03/09(月) 20:31:39.39ID:D+UZfSM4
お城マークってある?
凸の下辺がないようなやつ
2020/03/09(月) 21:26:52.19ID:bpMBC8cG
>>902
50まで作るんだったら、99まで作れば良かったのに。
できれば、100まで欲しかった。
2020/03/09(月) 22:01:13.14ID:d9MHF8Nm
>>908
2020/03/09(月) 23:06:46.00ID:5OM/DcPa
ゴリッパだな
2020/03/10(火) 07:55:14.17ID:LhHy3+ze
>>900
Unicodeがまさにそんな感じだよ
符号位置なんて空いてりゃなんでも詰め込んでくる
2020/03/10(火) 09:32:00.64ID:Ae1RdIX3
一方場所が足りない云々でCJK統合漢字爆誕
2020/03/10(火) 12:18:50.37ID:QGyf5BSI
アレはUNICODEが16ビットだったときの産物だからなー

囲み付き文字は合字でなんぼでも表示できるんじゃなかったのか?
黒字に白抜きはないか。
2020/03/11(水) 00:27:59.48ID:GChSseC+
⓿と🄌は何が違うのこれ
2020/03/12(木) 14:56:02.24ID:PErtSW6n
Announcing The Unicode$#174; Standard, Version 13.0
https://home.unicode.org/announcing-the-unicode-standard-version-13-0/
2020/03/13(金) 04:51:42.81ID:XfurYgbf
要らん文字ばっか増えていくな
2020/03/13(金) 07:25:49.78ID:YqqN4LBM
う、うん…
2020/03/13(金) 20:00:06.77ID:gnCwby5S
Unicode 13.0.0
http://www.unicode.org/versions/Unicode13.0.0/
Components of Unicode 13.0.0
http://www.unicode.org/versions/components-13.0.0.html
Core Specification (PDF)
http://www.unicode.org/versions/Unicode13.0.0/UnicodeStandard-13.0.pdf
Code Charts (PDF・110 MB)
http://www.unicode.org/Public/13.0.0/charts/CodeCharts.pdf
2020/03/13(金) 20:29:09.67ID:No4fNSBg
でっかいPDFだなあ
2020/03/13(金) 22:24:02.25ID:4HcCQorc
あれ、もうUnicode 13.0.0出たの?
改訂するのは確か毎年6月ねって決めたんじゃ……と思ったら去年から3月だった。
2020/03/14(土) 04:49:42.78ID:vXPyxgSI
Win10は頻繁にバージョンアップしてるけど、
使ってるUnicodeは2015年に出た8.0のままなんだよな...
2020/03/14(土) 05:08:58.28ID:3vkWqFOe
そーそー
新しいフォント入れてもリンクが効かんという...
全部入りフォント作るにゃ16bitの壁
2020/03/14(土) 16:17:25.81ID:Vl0/NIrd
え、そうなんだ
そんな罠が
2020/03/18(水) 09:00:29.25ID:z60BWivb
高松もキャンセルなのかな
それともISO/IECはまた別の判断か
https://www.iso.org/covid-19.html
2020/04/09(木) 14:28:17.94ID:+HIZu5X+
Unicode 14.0 Delayed for 6 Months
http://blog.unicode.org/2020/04/unicode-140-delayed-for-6-months.html

Due to COVID-19, the Unicode Consortium has decided to postpone the release of version 14.0 of the Unicode Standard by 6 months, from March to September of 2021.
This delay will also impact related specifications and data, such as new emoji characters.

This announcement does not affect the new emoji included in Unicode Standard version 13.0 announced on March 10, 2020.
2020/04/09(木) 17:31:08.32ID:gZ/Igrwb
せっかくだから細菌��とは別にウイルスの絵文字つくってくれ
2020/04/09(木) 23:42:25.68ID:V4nj16/7
コロナ菌入れるの?
2020/04/10(金) 03:17:26.49ID:8l6zYGEZ
��マスク
��トイレットペーパー
2020/04/10(金) 14:38:09.67ID:4/xjxgO5
細菌の絵文字なんてあるのか
🦠
2020/04/10(金) 15:29:18.32ID:CRpi4reg
最近出来た
2020/04/11(土) 06:13:53.13ID:AQJyoftj
外人が絵文字大好きなのは勝手だけど、既存コードの部分もちゃんとして欲しい
2020/04/11(土) 16:23:43.45ID:c2aeXPYf
e門司
934デフォルトの名無しさん
垢版 |
2020/04/18(土) 12:50:14.52ID:VYQrLT4k
最近出来た細菌の絵文字・・・
2020/04/18(土) 14:58:29.31ID:7V75MQ+C
なるほど、最近と細菌がかかってる、とこういうわけですな
2020/05/07(木) 16:04:22.09ID:yKMQxEI8
するってえと何かい?
最近と細菌がかかってるというわけかい?
2020/05/08(金) 15:47:36.35ID:5Vn36V2D
ウィルスの絵文字も頼むわ
2020/05/09(土) 15:44:09.31ID:c4xb28ev
corona emoji ��
2020/05/20(水) 21:19:51.18ID:KtsKIWM6
https://lister.tokyo/emoji/unicode_emoji.php?emoji=%F0%9F%A6%A0

絵文字
🦠

意味
微生物
【類似・説明】細菌、ウイルス、アメーバなどを表す
2020/05/21(木) 14:54:55.41ID:iHD0We8W
ちょっといくらなんでも雑やな
2020/05/22(金) 00:52:38.66ID:JDT7oTvt
ウィルスを生物扱いする悪い子はここか?
2020/05/22(金) 21:40:13.82ID:Olq8ijH/
ゴブリン��&オーガ��
2020/06/20(土) 20:24:55.95ID:vzEBoOvQ
>>891
超遅レスだが、全角半角問題の亡霊が絵文字とかで再燃してる感じ?

そっか絵文字ってサロゲートの領域のやつ以外にVSを使ってるのもあるのか。面倒だな。

>>897
Unicodeには公式定義があるでしょ

話は違うが、外人は絵文字をEmotional Iconかなんかの略だと思ってる感があって
そこはどうなんだという。
2020/06/20(土) 20:46:42.29ID:p75lHsHl
ひらがなの'あ'よりも'W'のほうが幅広だったり、
★マークが半角幅だったりするフォントが溢れてるのに、
半角全角区別しても仕方ないだろ
2020/06/20(土) 21:34:59.63ID:IMDB9vKB
まあだからそこはターミナルとか限られた環境の話で。
フォントもそれ用のを選ぶし。

そろそろ全角半角なんてのをやめて、文字のカラム位置を揃えたいならフォントの
メトリックスの方で調整すればいいだけ、かもしれないけど。
2020/06/21(日) 00:33:45.74ID:MWbXBJfF
>>943
絵文字の幅って公式定義があるの?
2020/06/21(日) 14:21:00.23ID:la0O1Akk
>>946
Unicodeに収録された文字には文字幅のプロパティがある、という意味で。
2020/06/22(月) 00:32:43.95ID:DUn6aEuN
>>947
かみ合ってないやん
>>894からの流れなんだから
2020/06/22(月) 19:13:13.28ID:Y25pVs1y
>>894 ? 知らんがなw
そもそも「全部」ってどういう意味だ? 全部の文字? 全部のターミナルに関わるソフトの挙動?
2020/06/22(月) 20:41:37.97ID:NxxL+RwQ
発端は>>891だろう
2020/06/23(火) 00:16:31.95ID:regXwJpa
既存定義とは違う新しい定義の話題に
「既存定義があるぞ」は全然かみ合ってないし
知らんがなと笑われてもそれこそ知らんがな
952デフォルトの名無しさん
垢版 |
2020/06/23(火) 10:14:55.66ID:4kHZmTBE
倍角と2倍角は違うんだっけ
4倍角もあったような
2020/06/24(水) 00:49:18.29ID:U0shKhxD
倍角って横だよね
縦倍角ってのもあった気がする
レス数が950を超えています。1000を超えると書き込みができなくなります。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況