文字コード総合スレ Part12

レス数が900を超えています。1000を超えると表示できなくなるよ。
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2019/12/06(金) 14:18:04.16ID:CxS2VDwU
>>805
IMEってMS-IMEのこと?
それともかな漢字変換全般?
807デフォルトの名無しさん
垢版 |
2019/12/06(金) 23:32:11.23ID:Ob0T3VF2
SKK使ってるからだけどそんな印象は全く無い
2019/12/10(火) 22:31:10.24ID:zD6aLrgM
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。
809デフォルトの名無しさん
垢版 |
2020/01/01(水) 02:03:31.89ID:ZBRDXVGi
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!����������
810デフォルトの名無しさん
垢版 |
2020/01/01(水) 11:19:22.03ID:tqBP4ADq
字にはヒラギノ〜ル♪
811デフォルトの名無しさん
垢版 |
2020/01/01(水) 22:58:15.38ID:fGGzsdYV
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな〜?
812デフォルトの名無しさん
垢版 |
2020/01/03(金) 06:32:52.61ID:wMN1Z8Zd
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。
813デフォルトの名無しさん
垢版 |
2020/01/03(金) 10:33:29.05ID:lHIykz7y
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ
814デフォルトの名無しさん
垢版 |
2020/01/03(金) 22:33:53.11ID:wMN1Z8Zd
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。
815デフォルトの名無しさん
垢版 |
2020/01/07(火) 14:48:29.36ID:lPDbYu1J
どのアプリの絵文字が「実際に使えるはさみの絵文字」なのか? - GIGAZINE
https://gigazine.net/news/20200106-which-emoji-scissors-close/

面白い
816デフォルトの名無しさん
垢版 |
2020/01/07(火) 15:01:40.99ID:2Dq0zKSW
左利き用のはさみも用意汁ωωω
2020/01/07(火) 15:12:21.25ID:dfBogwvq
ちなみによく切れるはさみはここが曲線
https://bungu.plus.co.jp/product/cut/img/fcc_smart_03.jpg
2020/01/07(火) 16:36:04.95ID:g+gnVlWv
はさみディレクションセレクター
2020/01/18(土) 12:49:25.00ID:jQMC+jX5
ぷにコードに関するチラ裏

localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた
2020/01/24(金) 09:35:27.22ID:jBJ9cIqM
6月のWG2は高松になったのか
また国外から来にくそうな
2020/01/26(日) 00:45:55.40ID:C+NhYhXj
道後温泉に行くか
2020/01/30(木) 14:46:03.72ID:WswUNrPx
Unicode Emoji 13.0 - Now final for 2020
http://blog.unicode.org/2020/01/unicode-emoji-130-now-final-for-2020.html
2020/01/30(木) 16:08:26.17ID:m1itn91m
今更タピ岡かい
2020/01/31(金) 12:43:23.65ID:G4fIlptF
Unicodeは完全にコンソーシアムのおもちゃになってんな
2020/01/31(金) 15:08:09.88ID:OCbveUqO
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。
2020/01/31(金) 19:55:14.24ID:tTpxWp9S
>>825
詰将棋用に上下逆の漢字を入れて欲しかった
2020/01/31(金) 22:55:44.99ID:GHfVRZCY
G入れるのまじやめて
2020/02/01(土) 00:49:18.17ID:6vnUAWit
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる
2020/02/02(日) 00:50:49.11ID:wzqxdRGo
将棋の駒は多分誰も提案書を出さないせい
2020/02/02(日) 01:02:15.43ID:0w4OLLiX
それ通ったらドンジャラ提案するわ
2020/02/02(日) 01:17:07.29ID:Vi9q8JVy
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・
2020/02/03(月) 01:41:22.43ID:qflv74w2
テスト٩( 'ω' )و
2020/02/03(月) 08:57:05.26ID:uSBWqXrE
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。
834デフォルトの名無しさん
垢版 |
2020/02/03(月) 11:59:58.53ID:62FLJlST
解説本だと普通に使われてるよな
2020/02/03(月) 13:40:49.09ID:yHobSnyY
タピオカが使われているのかと誤読
836デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:47:35.80ID:62FLJlST
読み手のリテラシーが問われます
837デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:54:08.64ID:eKPmxfCz
天使を天便と読み取ったまま放置するとか割とマジ。
2020/02/03(月) 22:56:08.65ID:KZTuy2Ys
架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。
2020/02/03(月) 22:59:18.31ID:wgq762c2
漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる
2020/02/03(月) 23:33:42.55ID:s4V/Vj8i
そのうち抽象化が進んでいくのか
2020/02/04(火) 13:26:51.57ID:gTERf/2s
政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ
2020/02/04(火) 13:28:31.24ID:c6iCZcrL
コーヒー、お茶、タクシー、台風もほしい
843デフォルトの名無しさん
垢版 |
2020/02/04(火) 20:12:02.43ID:U7azh68T
>>841
政治的に正しい仏教徒とは何ですかね?

アホな創価学会員が言いそうな発言ですが。
2020/02/04(火) 21:29:49.71ID:t1/0lpTx
絵文字ってここにどう書き込めばいいんです?
&#9784;&#65039;


専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆状態でうまく表示されない…
2020/02/05(水) 08:47:40.80ID:fZOBAWLP
>>842
全部あるぞ。お茶は「湯呑み」として。検索の仕方が足りない。
2020/02/05(水) 10:08:51.00ID:So1jciyU
🍵 you know me.
2020/02/05(水) 10:23:19.19ID:MS9bo9CR
固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか?
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが
2020/02/05(水) 10:24:42.24ID:MS9bo9CR
固定フォントじゃなくて等幅フォントでした
849デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:23:36.59ID:2rKdW1Ec
てすと
850デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:24:56.28ID:2rKdW1Ec
>>844
うちのChromeはちゃんと出てる
ffでも問題なし
851デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:28:36.97ID:2rKdW1Ec
>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う
2020/02/05(水) 16:30:38.68ID:So1jciyU
☸ 法輪ラブ ☸
2020/02/05(水) 18:34:07.02ID:qBm/0cTb
>>847

・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1

・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)

・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる

・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)

・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)

・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる
2020/02/05(水) 20:43:09.91ID:f5dE3Mu+
>>853
詳しい解説サンクス
2020/02/05(水) 23:12:39.17ID:zWcxLf4u
>>853
あざす
やっぱり混沌としてるのですね
とりあえず一度ターミナルの中を追ってみようかな
2020/02/06(木) 00:00:39.94ID:SQAVqXtr
>>844うちでも見れた
2020/02/07(金) 22:23:32.71ID:DCA95dh2
継ぎ接ぎだらけの一貫してない仕様だからな
2020/02/08(土) 17:47:47.28ID:hv0txQ7A
Unicodeの時代に今更だけど、
シフトJISの第2バイトがA0〜FFでなく
40〜FCにしたのは何でだろう
2020/02/08(土) 17:48:29.82ID:hv0txQ7A
訂正
×A0〜FF
〇80〜FF
2020/02/08(土) 18:36:07.73ID:zjMP9HD4
JISの区点は1区あたり94点
0x40開始で0x7Fを避けて2区分取ると0xFCになる
2020/02/09(日) 12:59:57.61ID:tCetl5aZ
やっぱ漢字1文字は2バイトの方がいい
2020/02/09(日) 15:51:09.68ID:gml78nRc
>>858
半角カナのせいで80〜FFでは足りないから
2020/02/09(日) 19:30:21.11ID:tCetl5aZ
シフトJISはもう少し工夫すれば
JISコードの変換式もより簡単にでき
2バイト目もASCII領域を使わずにダメ文字も発生せず
補助漢字も全て入れられた
2020/02/09(日) 19:32:13.43ID:tCetl5aZ
補助漢字は半角カナと排他だけど
865デフォルトの名無しさん
垢版 |
2020/02/10(月) 16:27:01.61ID:TGcYvj29
EUCで良かったんよ
2020/02/10(月) 19:14:50.21ID:hRmPfOYI
EUCだと半角カナも補助漢字もバイト数が増えるからな...
2020/02/10(月) 21:20:39.00ID:3bnN/FFY
>>863
あのスペースの狭さでは、それは無理だったのでは?
どうするのがよかったのですか?具体的にいってみてよ
2020/02/11(火) 08:36:25.76ID:K5Jxm44G
非漢字_:[81-98] [80-9F]
第1水準:[80-9F] [A1-FE]
第2水準:[E0-FF] [A1-FE],[E0-EB] [80-9F]
補助漢字:[A0-DD] [A1-FE],[A4-C1] [80-9F]
補助漢字は半角カナと排他利用
2020/02/11(火) 17:40:51.63ID:Sh/x76Zj
>>868
それは結局半角カナを潰しただけのことでは?
2020/02/11(火) 18:51:44.66ID:K5Jxm44G
>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字(JIS X 0212)が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON/OFFコマンドを追加し、半角カナ/補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる
2020/02/11(火) 19:27:04.32ID:Sh/x76Zj
>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね
2020/02/12(水) 01:19:59.31ID:l8Pmdafn
いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる
2020/02/12(水) 02:15:22.28ID:H21UjGBC
なくならない
合成文字はなくせない
2020/02/12(水) 05:02:58.88ID:K3E1Z6OS
>>871
コンテンツ側でなくユーザー側
875デフォルトの名無しさん
垢版 |
2020/02/12(水) 10:06:52.88ID:a1w2Xqz0
1文字=64bitやろ
2020/02/12(水) 13:30:20.44ID:KzEjZzkq
>>875
イングランドの旗はUnicodeで7コードポイント必要なので64bitでは無理
128bitで
2020/02/12(水) 13:32:59.34ID:yKNbCROk
👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須
2020/02/12(水) 20:36:54.81ID:ytylQgpT
>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの
2020/02/12(水) 21:06:37.28ID:Kml/rCmZ
>>878がおもしろいことを言った
2020/02/13(木) 15:10:18.42ID:Xqo24CtP
ウェールズ「俺は?」
2020/02/13(木) 21:26:26.80ID:KYt0SeFn
Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
https://www.itmedia.co.jp/news/articles/2002/13/news068.html
2020/02/14(金) 11:14:07.77ID:SoYJxWJg
そんな文字要らんわ
2020/02/14(金) 13:42:19.65ID:4TN7y+1I
グーグルってしょっちゅう意味のわからんことするよな
884デフォルトの名無しさん
垢版 |
2020/02/14(金) 14:22:25.49ID:WtuYdkw5
MSやAppleだって訳判らんことするときもある
2020/02/14(金) 14:26:10.19ID:MCgyW5To
実行ファイルがテキストとデータで構成されるように、絵文字表現もテキストとデータを組み合わせた文法が出てきそう。
886デフォルトの名無しさん
垢版 |
2020/02/14(金) 17:14:21.07ID:CPLKNT1n
顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。
2020/02/14(金) 21:11:02.23ID:qxpoECq4
(.*_*)
2020/02/14(金) 22:37:55.75ID:cKxgCMj+
そのメタ文字にマッチしたい正規表現を書く日が来るぞ
2020/02/15(土) 00:14:12.35ID:W/mb2gir
\��
2020/02/15(土) 05:28:54.23ID:uhBKJdO0
規格名:JIS X 0215
文字数:15000字超(非漢字:1700字超,漢字:13300字超)
区点域:0〜127区,0〜127点(最大16384字収納)
通 称:いちごJIS
2020/02/21(金) 14:33:03.02ID:MAyK0RyJ
https://twitter.com/akinomyoga/status/1230127240806985728

修正の入った Cygwin 3.1.4 のリリースノートが来て、見てみたら @cjksingle という不穏な locale が発明されてる。
何かと思ったら「CJK文字も全て半角にすれば文字幅問題解決じゃん」という欧米人(東欧系?)の思いつきで、これは新しい悪夢なのでは…。mintty は仕事が早すぎ
https://gitlab.freedesktop.org/terminal-wg/specifications/issues/9#note_406682

因みにこの東欧人を追うともっと面白い(?)ものが。。漢字や絵文字が行末に収まらない時は左半分はその行に右半分は次の行に表示するのが合理的だと Windows Terminal に赴いて主張してる。
曰く、殆どの漢字は偏(へん)と旁(つくり)から成るので分断しても意味を失わないとか…
https://github.com/microsoft/terminal/issues/4345#issuecomment-578434025
https://twitter.com/5chan_nel (5ch newer account)
892デフォルトの名無しさん
垢版 |
2020/02/21(金) 15:07:53.93ID:5cQWFY2c





2020/02/21(金) 20:47:45.26ID:cxQoHGS6
半角と全角の区別付かなくなると困るから元の半角文字はさらに半分で表示したらどうかな
2020/02/21(金) 22:45:17.77ID:gYJx2Nw8
まぁ、全部全角にすれば万事解決なんだけどな。
2020/02/22(土) 03:15:16.13ID:s2EVAxz+
絵文字っていわゆる全角よね
2020/03/02(月) 02:11:23.28ID:dBpw1NjL
いわゆるって何を指してる?
2020/03/02(月) 16:54:16.25ID:HI7PDIWr
公式定義ではなく現実によく目にする幅、かな
898デフォルトの名無しさん
垢版 |
2020/03/02(月) 17:38:15.13ID:glnmwhpK
最近は倍角とか4倍角とか聴かなくなったな
2020/03/07(土) 16:24:06.57ID:dtD2Xrrp
Microsoft、Shift_JISや外字からUnicodeへの移行を呼びかけ | スラド
https://srad.jp/story/20/03/06/1237211/

Windows と日本語のテキストについて - Windows Blog for Japan
https://blogs.windows.com/japan/2020/02/20/about-windows-and-japanese-text/
2020/03/07(土) 18:02:03.37ID:8MkGFgNt
外字というと丸囲みの数字が@〜S以外にもほしくて
21以降も外字で作ってしまっていた事務所を思い出す

何度かPCを入れ替えるうちに使わなくなり、忘れ去られ、
久々に古い文書を引っ張り出して来たら謎の文字化けで外字の存在が発覚
外字が何故かSから始まってたり途中に別の字が挟まってたりしてもはや解読作業
2020/03/08(日) 21:08:48.53ID:LYEGO22Q
2020/03/08(日) 22:48:15.28ID:NQM2xZbu
今は㊿まであるんだな、知らんかったわ
2020/03/09(月) 05:26:10.28ID:z9inAChS
(0)とか黒丸の小文字英字とか白丸のンとか黒丸の仮名とかは
Unicodeですら未だに無いんだよな...
2020/03/09(月) 14:12:03.27ID:A2Epg0dL
それはわいせつだからでは
2020/03/09(月) 14:20:33.44ID:o76Az6W+
わいせつだって文字情報じゃないか!
それともなにか君は辞書から陰茎とか陰核という単語を削除せよというのか!
レス数が900を超えています。1000を超えると表示できなくなるよ。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況