X



文字コード総合スレ Part12

レス数が950を超えています。1000を超えると書き込みができなくなります。
0001デフォルトの名無しさん
垢版 |
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
0870デフォルトの名無しさん
垢版 |
2020/02/11(火) 18:51:44.66ID:K5Jxm44G
>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字(JIS X 0212)が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON/OFFコマンドを追加し、半角カナ/補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる
0871◆QZaw55cn4c
垢版 |
2020/02/11(火) 19:27:04.32ID:Sh/x76Zj
>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね
0872デフォルトの名無しさん
垢版 |
2020/02/12(水) 01:19:59.31ID:l8Pmdafn
いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる
0875デフォルトの名無しさん
垢版 |
2020/02/12(水) 10:06:52.88ID:a1w2Xqz0
1文字=64bitやろ
0877デフォルトの名無しさん
垢版 |
2020/02/12(水) 13:32:59.34ID:yKNbCROk
👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須
0878デフォルトの名無しさん
垢版 |
2020/02/12(水) 20:36:54.81ID:ytylQgpT
>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの
0884デフォルトの名無しさん
垢版 |
2020/02/14(金) 14:22:25.49ID:WtuYdkw5
MSやAppleだって訳判らんことするときもある
0885デフォルトの名無しさん
垢版 |
2020/02/14(金) 14:26:10.19ID:MCgyW5To
実行ファイルがテキストとデータで構成されるように、絵文字表現もテキストとデータを組み合わせた文法が出てきそう。
0886デフォルトの名無しさん
垢版 |
2020/02/14(金) 17:14:21.07ID:CPLKNT1n
顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。
0890デフォルトの名無しさん
垢版 |
2020/02/15(土) 05:28:54.23ID:uhBKJdO0
規格名:JIS X 0215
文字数:15000字超(非漢字:1700字超,漢字:13300字超)
区点域:0〜127区,0〜127点(最大16384字収納)
通 称:いちごJIS
0891デフォルトの名無しさん
垢版 |
2020/02/21(金) 14:33:03.02ID:MAyK0RyJ
https://twitter.com/akinomyoga/status/1230127240806985728

修正の入った Cygwin 3.1.4 のリリースノートが来て、見てみたら @cjksingle という不穏な locale が発明されてる。
何かと思ったら「CJK文字も全て半角にすれば文字幅問題解決じゃん」という欧米人(東欧系?)の思いつきで、これは新しい悪夢なのでは…。mintty は仕事が早すぎ
https://gitlab.freedesktop.org/terminal-wg/specifications/issues/9#note_406682

因みにこの東欧人を追うともっと面白い(?)ものが。。漢字や絵文字が行末に収まらない時は左半分はその行に右半分は次の行に表示するのが合理的だと Windows Terminal に赴いて主張してる。
曰く、殆どの漢字は偏(へん)と旁(つくり)から成るので分断しても意味を失わないとか…
https://github.com/microsoft/terminal/issues/4345#issuecomment-578434025
https://twitter.com/5chan_nel (5ch newer account)
0892デフォルトの名無しさん
垢版 |
2020/02/21(金) 15:07:53.93ID:5cQWFY2c





0893デフォルトの名無しさん
垢版 |
2020/02/21(金) 20:47:45.26ID:cxQoHGS6
半角と全角の区別付かなくなると困るから元の半角文字はさらに半分で表示したらどうかな
0898デフォルトの名無しさん
垢版 |
2020/03/02(月) 17:38:15.13ID:glnmwhpK
最近は倍角とか4倍角とか聴かなくなったな
0900デフォルトの名無しさん
垢版 |
2020/03/07(土) 18:02:03.37ID:8MkGFgNt
外字というと丸囲みの数字が@〜S以外にもほしくて
21以降も外字で作ってしまっていた事務所を思い出す

何度かPCを入れ替えるうちに使わなくなり、忘れ去られ、
久々に古い文書を引っ張り出して来たら謎の文字化けで外字の存在が発覚
外字が何故かSから始まってたり途中に別の字が挟まってたりしてもはや解読作業
0903デフォルトの名無しさん
垢版 |
2020/03/09(月) 05:26:10.28ID:z9inAChS
(0)とか黒丸の小文字英字とか白丸のンとか黒丸の仮名とかは
Unicodeですら未だに無いんだよな...
0905デフォルトの名無しさん
垢版 |
2020/03/09(月) 14:20:33.44ID:o76Az6W+
わいせつだって文字情報じゃないか!
それともなにか君は辞書から陰茎とか陰核という単語を削除せよというのか!
0907デフォルトの名無しさん
垢版 |
2020/03/09(月) 17:52:27.97ID:T4gz2l9R
>>903
◎と字形が同じとかで一緒にされそう

あと将棋の駒(上下とか白黒)も欲しいとか言ってた人?
0914デフォルトの名無しさん
垢版 |
2020/03/10(火) 12:18:50.37ID:QGyf5BSI
アレはUNICODEが16ビットだったときの産物だからなー

囲み付き文字は合字でなんぼでも表示できるんじゃなかったのか?
黒字に白抜きはないか。
0921デフォルトの名無しさん
垢版 |
2020/03/13(金) 22:24:02.25ID:4HcCQorc
あれ、もうUnicode 13.0.0出たの?
改訂するのは確か毎年6月ねって決めたんじゃ……と思ったら去年から3月だった。
0922デフォルトの名無しさん
垢版 |
2020/03/14(土) 04:49:42.78ID:vXPyxgSI
Win10は頻繁にバージョンアップしてるけど、
使ってるUnicodeは2015年に出た8.0のままなんだよな...
0923デフォルトの名無しさん
垢版 |
2020/03/14(土) 05:08:58.28ID:3vkWqFOe
そーそー
新しいフォント入れてもリンクが効かんという...
全部入りフォント作るにゃ16bitの壁
0926デフォルトの名無しさん
垢版 |
2020/04/09(木) 14:28:17.94ID:+HIZu5X+
Unicode 14.0 Delayed for 6 Months
http://blog.unicode.org/2020/04/unicode-140-delayed-for-6-months.html

Due to COVID-19, the Unicode Consortium has decided to postpone the release of version 14.0 of the Unicode Standard by 6 months, from March to September of 2021.
This delay will also impact related specifications and data, such as new emoji characters.

This announcement does not affect the new emoji included in Unicode Standard version 13.0 announced on March 10, 2020.
0932デフォルトの名無しさん
垢版 |
2020/04/11(土) 06:13:53.13ID:AQJyoftj
外人が絵文字大好きなのは勝手だけど、既存コードの部分もちゃんとして欲しい
0934デフォルトの名無しさん
垢版 |
2020/04/18(土) 12:50:14.52ID:VYQrLT4k
最近出来た細菌の絵文字・・・
0943デフォルトの名無しさん
垢版 |
2020/06/20(土) 20:24:55.95ID:vzEBoOvQ
>>891
超遅レスだが、全角半角問題の亡霊が絵文字とかで再燃してる感じ?

そっか絵文字ってサロゲートの領域のやつ以外にVSを使ってるのもあるのか。面倒だな。

>>897
Unicodeには公式定義があるでしょ

話は違うが、外人は絵文字をEmotional Iconかなんかの略だと思ってる感があって
そこはどうなんだという。
0944デフォルトの名無しさん
垢版 |
2020/06/20(土) 20:46:42.29ID:p75lHsHl
ひらがなの'あ'よりも'W'のほうが幅広だったり、
★マークが半角幅だったりするフォントが溢れてるのに、
半角全角区別しても仕方ないだろ
0945デフォルトの名無しさん
垢版 |
2020/06/20(土) 21:34:59.63ID:IMDB9vKB
まあだからそこはターミナルとか限られた環境の話で。
フォントもそれ用のを選ぶし。

そろそろ全角半角なんてのをやめて、文字のカラム位置を揃えたいならフォントの
メトリックスの方で調整すればいいだけ、かもしれないけど。
0949デフォルトの名無しさん
垢版 |
2020/06/22(月) 19:13:13.28ID:Y25pVs1y
>>894 ? 知らんがなw
そもそも「全部」ってどういう意味だ? 全部の文字? 全部のターミナルに関わるソフトの挙動?
0951デフォルトの名無しさん
垢版 |
2020/06/23(火) 00:16:31.95ID:regXwJpa
既存定義とは違う新しい定義の話題に
「既存定義があるぞ」は全然かみ合ってないし
知らんがなと笑われてもそれこそ知らんがな
0952デフォルトの名無しさん
垢版 |
2020/06/23(火) 10:14:55.66ID:4kHZmTBE
倍角と2倍角は違うんだっけ
4倍角もあったような
0955デフォルトの名無しさん
垢版 |
2020/06/24(水) 12:14:26.52ID:deVcUtEo
>>951
というかどういうレベルの話をしているのか掴みかねてね。

「絵文字にはUnicodeで文字幅が定義されている」これは大雑把に正しいぞ。

リンク先の元ネタをフォローしてみようか? U+2764 U+FE0F はどうするか、という話。
ここでは誰もフォローしてなかったのでこのレベルの話はしてないと理解した。
でもフォローしてみよう。
0958デフォルトの名無しさん
垢版 |
2020/06/24(水) 19:38:46.76ID:e6Wuxio/
というか、既存の定義とは何かもはっきりしてなかったのに新しい定義?
なので既存の定義(の一つ)を示してみたのだが。

全角半角というのは、SJISとかEUCとか使ってた頃の化石の概念だが、ターミナルでの
文字表示にナニゲに悪くはないので、むやみに廃止せず、Unicodeの種類が増殖していく中
如何にサポートできるか? それとも廃止した方がいいのか? あるいはターミナル自体が化石w?
みたいな問題意識を共有? できるならば話はできるかもw
0960デフォルトの名無しさん
垢版 |
2020/06/25(木) 18:59:45.90ID:xHxuQznk
>>959
なんだそれを「再」定義というのか。だったらその前の「定義」って何? どれのこと?
SJISやEUCで、文字のバイト数=幅という「慣習」はあったと思うが。大昔に。

で、U+2764 U+FE0Fはその再定義では駄目なので再々定義しないといけないw

個人的な意見ではU+2764 U+FE0Fは半角でいい(せざるを得ない)と判断する。
その根拠は... 省略w
ただ、ターミナルの特殊性 vs フォントのデザイン vs 文字コードで幅を決定 等、
いろいろと無理がある中で妥協点を見つけるとすると、そうなるかな、という感じ。
0962デフォルトの名無しさん
垢版 |
2020/06/26(金) 13:02:51.64ID:PjbtVFt+
%s の文字数とかで文字列の幅調整出来ないんだよな
0963デフォルトの名無しさん
垢版 |
2020/06/26(金) 20:34:46.91ID:gjCuj5Av
しかし絵文字の力はすごい。
これを使いたいがために外人共もUnicodeを以前よりはるかに意識するようになってきてる。
VSとか、漢字の字形の微妙な差とかの用途より、もはや絵文字がメインユーザー。

同様なことが「文字幅」にも起きつつあるようだ。もはや東アジアだけの問題ではないのかもw
0964デフォルトの名無しさん
垢版 |
2020/06/26(金) 20:59:35.95ID:7oUp4uPe
そして線がごちゃごちゃしてる漢字はいらなくね?って話になって排除されるんでしょう?
白人のやることはいつもそうだ
0965◆QZaw55cn4c
垢版 |
2020/06/26(金) 21:31:32.20ID:9IxUvn/4
>>964
それはグレートチャイナ様が抵抗してくださるのでは?
0966デフォルトの名無しさん
垢版 |
2020/06/26(金) 22:11:14.85ID:7oUp4uPe
彼らも漢字から線減らしてるじゃん
そのうち中共の悪事を次世代に隠すために漢字を扱えるのは中共の上の方だけになりかねない気もする
そのとき中国の一般人民が使ってるのが絵文字だよ
0967◆QZaw55cn4c
垢版 |
2020/06/26(金) 22:22:00.35ID:9IxUvn/4
>>966
それは失策だったという評判です、実際、現行である第一次案は通りましたが、第二次漢字簡化方案は失敗しました
0968デフォルトの名無しさん
垢版 |
2020/06/27(土) 00:33:35.05ID:swJlVBV3
簡字体は半角でも行けそう感あるな
0969デフォルトの名無しさん
垢版 |
2020/06/27(土) 01:47:56.80ID:9wE9An+g
斎と斉と齊と齋は一緒だから一つにしろとかな
渡辺渡邊渡邉もどうせ一緒だろうとか
レス数が950を超えています。1000を超えると書き込みができなくなります。

ニューススポーツなんでも実況