X



文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
0754デフォルトの名無しさん
垢版 |
2019/11/22(金) 22:42:29.42ID:+ybPmekP
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道
0756デフォルトの名無しさん
垢版 |
2019/11/23(土) 09:52:15.28ID:StIP5iHr
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。
0758デフォルトの名無しさん
垢版 |
2019/11/23(土) 10:53:20.31ID:cBKKqL2b
>>749-750
今年の漢字の季節ですね
0760デフォルトの名無しさん
垢版 |
2019/11/23(土) 14:20:31.57ID:Lev/ciM6
金とか何回か選ばれてるのはあるな
二年連続とかは知らん
0762デフォルトの名無しさん
垢版 |
2019/11/23(土) 16:40:21.39ID:l4WHmfnE
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?
0763◆QZaw55cn4c
垢版 |
2019/11/23(土) 16:48:42.87ID:bse8qODO
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね
0764デフォルトの名無しさん
垢版 |
2019/11/23(土) 17:45:30.08ID:ExB3uxT/
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由
0766デフォルトの名無しさん
垢版 |
2019/11/23(土) 18:05:22.65ID:Lev/ciM6
今のところ32bitっつってもスカスカだろ
0770デフォルトの名無しさん
垢版 |
2019/11/23(土) 20:53:37.67ID:x1VOKq1M
固定長好きな人が定期的に出てくるのはなんでなの?

セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに
0771デフォルトの名無しさん
垢版 |
2019/11/23(土) 21:03:09.45ID:pGKd1Nh3
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。
0772デフォルトの名無しさん
垢版 |
2019/11/23(土) 21:12:47.43ID:LYBJTBw0
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった
0774デフォルトの名無しさん
垢版 |
2019/11/24(日) 00:15:00.98ID:daL/rw2X
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな
0775デフォルトの名無しさん
垢版 |
2019/11/24(日) 07:48:18.59ID:wAZlnZnW
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。
0776デフォルトの名無しさん
垢版 |
2019/11/24(日) 11:58:02.36ID:bBACDgxb
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし
0778デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:07:46.48ID:bBACDgxb
QZさんからレスもらえるとは思わなかった
0779デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:30:57.16ID:4a4z1fkQ
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと
0780デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:43:02.24ID:iwyjZSbL
質問じゃなくて、馬鹿にしてるんだろ

え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味
0782◆QZaw55cn4c
垢版 |
2019/11/24(日) 13:04:27.62ID:oHJXyQoT
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました
0783◆QZaw55cn4c
垢版 |
2019/11/24(日) 13:05:00.77ID:oHJXyQoT
>>781
なぜ韓国人だとおもったのですか?
0785デフォルトの名無しさん
垢版 |
2019/11/24(日) 13:13:33.28ID:BlMs70wA
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。
0787デフォルトの名無しさん
垢版 |
2019/11/24(日) 17:10:15.65ID:5wTOyTy7
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念
0793デフォルトの名無しさん
垢版 |
2019/12/01(日) 17:02:36.55ID:zxgavQqm
今年の漢字は天
0795デフォルトの名無しさん
垢版 |
2019/12/03(火) 02:50:32.39ID:TSc17kJh
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
https://www3.nhk.or.jp/news/html/20191202/k10012198561000.html
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声
0796デフォルトの名無しさん
垢版 |
2019/12/03(火) 12:56:42.44ID:dBsSbed7
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?
0797デフォルトの名無しさん
垢版 |
2019/12/03(火) 14:48:10.41ID:32eP5DBa
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか
0799デフォルトの名無しさん
垢版 |
2019/12/03(火) 15:35:57.78ID:IUIY88nX
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw
0801デフォルトの名無しさん
垢版 |
2019/12/04(水) 16:24:48.77ID:IlQO2KEp
黒板太字 - Wikipedia
https://ja.wikipedia.org/wiki/黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?
0803デフォルトの名無しさん
垢版 |
2019/12/04(水) 20:23:19.21ID:bwCWk38v
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ
0804デフォルトの名無しさん
垢版 |
2019/12/05(木) 15:53:38.96ID:1Yvcqq3b
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。
0805デフォルトの名無しさん
垢版 |
2019/12/05(木) 16:32:04.91ID:IbmhSLeW
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ
0807デフォルトの名無しさん
垢版 |
2019/12/06(金) 23:32:11.23ID:Ob0T3VF2
SKK使ってるからだけどそんな印象は全く無い
0808デフォルトの名無しさん
垢版 |
2019/12/10(火) 22:31:10.24ID:zD6aLrgM
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。
0809デフォルトの名無しさん
垢版 |
2020/01/01(水) 02:03:31.89ID:ZBRDXVGi
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!����������
0810デフォルトの名無しさん
垢版 |
2020/01/01(水) 11:19:22.03ID:tqBP4ADq
字にはヒラギノ〜ル♪
0811デフォルトの名無しさん
垢版 |
2020/01/01(水) 22:58:15.38ID:fGGzsdYV
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな〜?
0812デフォルトの名無しさん
垢版 |
2020/01/03(金) 06:32:52.61ID:wMN1Z8Zd
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。
0813デフォルトの名無しさん
垢版 |
2020/01/03(金) 10:33:29.05ID:lHIykz7y
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ
0814デフォルトの名無しさん
垢版 |
2020/01/03(金) 22:33:53.11ID:wMN1Z8Zd
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。
0816デフォルトの名無しさん
垢版 |
2020/01/07(火) 15:01:40.99ID:2Dq0zKSW
左利き用のはさみも用意汁ωωω
0819デフォルトの名無しさん
垢版 |
2020/01/18(土) 12:49:25.00ID:jQMC+jX5
ぷにコードに関するチラ裏

localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた
0825デフォルトの名無しさん
垢版 |
2020/01/31(金) 15:08:09.88ID:OCbveUqO
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。
0826◆QZaw55cn4c
垢版 |
2020/01/31(金) 19:55:14.24ID:tTpxWp9S
>>825
詰将棋用に上下逆の漢字を入れて欲しかった
0828デフォルトの名無しさん
垢版 |
2020/02/01(土) 00:49:18.17ID:6vnUAWit
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる
0831デフォルトの名無しさん
垢版 |
2020/02/02(日) 01:17:07.29ID:Vi9q8JVy
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・
0833デフォルトの名無しさん
垢版 |
2020/02/03(月) 08:57:05.26ID:uSBWqXrE
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。
0834デフォルトの名無しさん
垢版 |
2020/02/03(月) 11:59:58.53ID:62FLJlST
解説本だと普通に使われてるよな
0836デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:47:35.80ID:62FLJlST
読み手のリテラシーが問われます
0837デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:54:08.64ID:eKPmxfCz
天使を天便と読み取ったまま放置するとか割とマジ。
0838デフォルトの名無しさん
垢版 |
2020/02/03(月) 22:56:08.65ID:KZTuy2Ys
架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。
0839デフォルトの名無しさん
垢版 |
2020/02/03(月) 22:59:18.31ID:wgq762c2
漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる
0841デフォルトの名無しさん
垢版 |
2020/02/04(火) 13:26:51.57ID:gTERf/2s
政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ
0843デフォルトの名無しさん
垢版 |
2020/02/04(火) 20:12:02.43ID:U7azh68T
>>841
政治的に正しい仏教徒とは何ですかね?

アホな創価学会員が言いそうな発言ですが。
0844デフォルトの名無しさん
垢版 |
2020/02/04(火) 21:29:49.71ID:t1/0lpTx
絵文字ってここにどう書き込めばいいんです?
&#9784;&#65039;


専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆状態でうまく表示されない…
0847デフォルトの名無しさん
垢版 |
2020/02/05(水) 10:23:19.19ID:MS9bo9CR
固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか?
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが
0849デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:23:36.59ID:2rKdW1Ec
てすと
0850デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:24:56.28ID:2rKdW1Ec
>>844
うちのChromeはちゃんと出てる
ffでも問題なし
0851デフォルトの名無しさん
垢版 |
2020/02/05(水) 16:28:36.97ID:2rKdW1Ec
>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う
0853デフォルトの名無しさん
垢版 |
2020/02/05(水) 18:34:07.02ID:qBm/0cTb
>>847

・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1

・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)

・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる

・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)

・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)

・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況