文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
401デフォルトの名無しさん
垢版 |
2019/06/02(日) 20:57:42.19ID:gW1x1cZy
NHKの情報番組によると、最近スマホに移行した役者の役所広司さんはガラケーの絵文字が好きでスマホの絵文字が不満らしい。
402デフォルトの名無しさん
垢版 |
2019/06/02(日) 21:05:37.93ID:A9OZ+7QR
>>400
テレビ番組表で使われる記号[字]、[ニ]、[多]、[声]、[吹]、[演]など ([ ]は正方形囲み文字) は
Enclosed Ideographic Supplement (U+1F2xx) として収録されたから、同じブロックの
空き領域に辞書用の記号も追加してもらいたい。
2019/06/02(日) 21:16:20.35ID:GqRagKZH
よくわからん
合成文字ではいけない理由って今時ある?
404デフォルトの名無しさん
垢版 |
2019/06/02(日) 21:22:49.71ID:gW1x1cZy
池江 璃花子さんのツイート
https://twitter.com/rikakoikee/status/1135127518258667520
 ポップコーンが美味しかった。
 美味しいチャーハン食べたい。
 チーズドックもマックのポテトも食べたい…🍟
 美味しいお寿司🍣アボカド🥑
 と、からみチキン
 食べたいものと行きたいとこが多すぎる🐭🏰
https://twitter.com/5chan_nel (5ch newer account)
405デフォルトの名無しさん
垢版 |
2019/06/03(月) 12:00:01.49ID:ZJy6OnVg
絵文字専用スレの分離独立を提案します
2019/06/03(月) 12:14:25.26ID:C5QZ8dlg
それはよくない
407デフォルトの名無しさん
垢版 |
2019/06/03(月) 17:14:50.77ID:9GoUaP2A
さもる。とは?
2019/06/03(月) 18:10:06.92ID:waosREqi
この板に絵文字スレを別に作るのはいい案だとは思えない。一緒に扱ったほうがいい。
他の、スマホ系やネット文化系の板で絵文字スレを立てるのはそっちの文脈での必要に応じてやればいいが。
409デフォルトの名無しさん
垢版 |
2019/06/04(火) 04:29:34.76ID:34q0LBOl
板的には絵文字禁止で
2019/06/04(火) 09:25:30.78ID:mdhyHdfA
絵文字はただのコードポイントだからなあ
411デフォルトの名無しさん
垢版 |
2019/06/04(火) 10:53:27.04ID:uvNmGZET
このスレが絵文字の話題で埋まるのは勘弁
2019/06/04(火) 11:53:04.76ID:mdhyHdfA
これまでのところ埋まってないぞ
413デフォルトの名無しさん
垢版 |
2019/06/04(火) 20:23:40.45ID:gwjuh1zM
>>403
それを言ったら、漢字も合字で構わなくないか? 1文字ずつコードを割り当てずに、
パーツ(部首など)に分解し、パーツと配置方法をコードで指定するIDS方式にする。
ハングルも音素に分解する。そうすれば、CJKが占めていた膨大なコード領域が
明け渡され、Unicodeを16ビットに戻せる。非CJK圏の人々はそれを望んでいそう。

漢字は情報伝達効率がとても良くて、字 2バイトで character 18バイトと同等の
情報を伝達できる。IDS上下, ウ冠, 子 の6バイトで表しても、18バイトの3分の1しか
まだない。
2019/06/04(火) 20:34:02.28ID:XXr8i2SB
shit


そうか?
2019/06/04(火) 20:35:22.41ID:XXr8i2SB
バイトでいうならそうか…
画数で無駄だなぁって思っちゃった
2019/06/04(火) 22:15:09.20ID:S8UlmLic
>>413
それを言ったら、がよくわからんが
現状で漢字は個別、>>399の仮名は合成で表現する仕組みになってるもんをそれぞれわざわざややこしくするメリットある?
あと今更ひっくり返して形だけ16bitとか言語圏関係なく望んでないと思う
2019/06/04(火) 23:31:18.83ID:sg371bFW
>>399で書かれてる辞書で使われるような丸囲みとか四角囲みはU+20DDやU+20DEと組み合わせて表せばいい。
例えば[名]はU+540D U+20DE、(単)はU+5358 U20DDで表せる。
2019/06/05(水) 21:51:36.51ID:uJguGtrO
>>413
俺もそういうのがいいとは思うけど
同じ手偏でも幅が微妙に違ったりするじゃん。
そういうのって計算というより正直 美的感覚に基づくものだから,
結局 一字一字に「手偏の幅」とかいったパラメータを与える必要が出てきそう。
419デフォルトの名無しさん
垢版 |
2019/06/05(水) 22:43:55.33ID:U4lYdkMb
>>413
字形まで自動合成する必要はないだろ。字形は1字ずつデザインするが、それを呼び出すのに
IDSコードを使うだけ。
2019/06/06(木) 11:04:53.81ID:NifDLxm9
>>419
418だがそれはいいね。
2019/06/06(木) 13:09:21.77ID:V+RhrtBc
正直IPAmjにだけ入ってるクラスの漢字見てるとこれIDSでどうすんのって思うよ。今更どうしようもないと思う。
2019/06/06(木) 13:32:02.81ID:8KYXjatA
台湾に漢字の部首を組み合わせてフォントを合成する技術があるらしい。
2019/06/06(木) 19:13:54.79ID:NifDLxm9
>>422
それってソフトウェアやライブラリとして提供されてたりする?
もしよければ教えてほしい
2019/06/06(木) 19:56:27.90ID:W0KBfnTD
https://www.dynacw.co.jp/about/about_history.aspx
これ。
2019/06/06(木) 23:21:56.20ID:mU5eCwwC
技術も何もメイリオあたりもそういうのじゃなかったっけ
結局調整が必要になるっぽいけど
2019/06/07(金) 08:07:16.78ID:rFfmCjQx
なんか思ってた技術と違うわ。
IDSの組合せをそれが表現する漢字と対応させるんかと思ってた。
427デフォルトの名無しさん
垢版 |
2019/06/07(金) 11:40:10.92ID:nJu+ZeI9
糸冬

2019/06/09(日) 18:38:42.78ID:+hAUN3Ld
漢字構成記述文字列って複数の記述文字の組み合わせとそもそもの複数の文字とをどうやって区別するんだろう。
「⿰山⿱上下」という並びが「峠」を意味するのか「山𠧗」を意味するのか区別できなくね?
429デフォルトの名無しさん
垢版 |
2019/06/09(日) 20:33:00.79ID:SSgQq8CW
頻出度?
2019/06/09(日) 22:49:36.82ID:lml609nH
1文字になる以外の解釈が可能な定義にはなってないように見えるが
2019/06/10(月) 00:45:55.32ID:/7QyuKh+
というかもともとそういうもんじゃない?
あれは人間が読むことを前提にした文中で説明を簡素にするために使う記号であって
合成とか機械処理とかをやることははなから考えてないと思う。
432デフォルトの名無しさん
垢版 |
2019/06/10(月) 11:07:15.11ID:g6tidy/F
⿰山⿱上下 → 山𠧗

⿰⿱山上下 → 峠
433デフォルトの名無しさん
垢版 |
2019/06/10(月) 11:10:17.22ID:g6tidy/F
違うな
>>430 が正しい

⿰山⿱上下 → 峠 (正しい)
⿰山⿱上下 → 山𠧗 (不正)
山⿱上下 → 山𠧗 (正しい)

⿰⿱山上下 → 峠 (知らんがな)
2019/06/10(月) 11:14:02.36ID:DwfAnHcn
>>433
最後のは不正では。
⿰⿱山上下なら
↓こんな文字になっちゃう
2019/06/10(月) 13:25:56.68ID:ujTvUCPf
カッコなしで誤解釈の余地なくやるにはRPNにすればよいのでは?
2019/06/10(月) 14:05:24.64ID:DwfAnHcn
括弧なしでも漢字構成記述文字列は一意に定まるぞ。
曖昧さの余地はない筈。
2019/06/10(月) 14:06:48.56ID:DwfAnHcn
ていうかそもそも漢字構成記述文字列自体がポーランド記法っぽい性格を持ってる。
⿰⿱山上下なら⿰(⿱(山, 上), 下)みたいな関数表示になって↑>>434みたいな字形になる。
438デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:17:40.77ID:g6tidy/F
同じ文字を二通り以上の表現方法があるのはセキュリティ上やばいと爺さんが言ってた
UTF-8みたいなやつ
439デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:19:52.70ID:g6tidy/F
例えば

⿰男⿰女男

⿰⿰男女男
2019/06/10(月) 14:43:12.52ID:VjrzvIQA
男女 男

右端は俺orz
2019/06/10(月) 14:45:35.90ID:AYc4wpPC
全然関係ないが男女男男女女男女男女を思い出した。おっさんだな、俺。
2019/06/10(月) 14:55:32.08ID:DwfAnHcn
>>439
嬲は「⿲男女男」じゃないの?
443デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:56:33.42ID:g6tidy/F
だから複数あるっていう意味で書いたんだが

正規化で一つにっていうのは判る
2019/06/10(月) 20:42:06.03ID:QC59E/Dz
表現意図としては比が2:1:1と1:1:2と1:1:1で違いがあるような
2019/06/10(月) 23:11:41.70ID:rO86gbFX
>>399-400
鼻濁音付き仮名文字は日本NBから提案したけど蹴られて今の姿になった。
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n2092.pdf

仮名文字に限らずシーケンスで表現可能な文字に単体の文字コードを割り振ってもらうのは
相当説得力のある理由が要る。

逆に辞書用の記号は提案書を出せば通る可能性ありそう。
2019/06/11(火) 01:59:35.04ID:SK3ydrDR
ぽげむたは?
2019/06/11(火) 04:13:44.44ID:Yb3f0IhW
>>443
いや、>>444も言っている通り嬲は「⿲男女男」以外で表わせないと思うよ。
2019/06/11(火) 08:44:46.66ID:GW+sQhXS
将棋好きのおいらとしては、ひっくり返った「玉」「飛」「歩」とかも
登録してほしいと思うのだが。
2019/06/11(火) 10:41:29.12ID:Yb3f0IhW
>>448
Unicodeってそもそも将棋の駒 全部登録されてないんじゃ?
450デフォルトの名無しさん
垢版 |
2019/06/11(火) 11:48:29.98ID:9Qw6sZwd
笑→ケケ夭
とか
禁→木木示
とか
哭→口口犬
とか

畿→糸糸田戈
は同じ表現?
2019/06/11(火) 12:18:11.06ID:Yb3f0IhW
>>450
まあ機械処理向けの言語じゃないから
人が「分解できる」と思うかどうかだよね
ちなみに「畿」の部首って「田」なんだな。すげー意外。
2019/06/11(火) 12:35:42.68ID:GW+sQhXS
>>449

ないよ。黒塗り五角形と白ヌキ五角形だけ。
453デフォルトの名無しさん
垢版 |
2019/06/11(火) 14:57:42.64ID:Y18rXsQw
文字表現ってことで
●●構えっていうと門しか思い出せないし
●●囲いっていうと口しか思い出せないけど
将棋の駒の白抜き五角形は囲いなんだろうか
2019/06/11(火) 17:55:27.24ID:Yb3f0IhW
いっそのことCombining Diacritical Marks for Symbolsあたりに将棋の駒の枠線を登録してもらえればいい
2019/06/12(水) 00:03:22.24ID:82Q6hISi
>>424
そこ日本の会社
2019/06/12(水) 01:16:49.13ID:ynCJAfYS
>>454
枠線の中に複数文字入れるのどうするとか
中に「と」みたいなのを表示したい場合それは本当に「と」で表現するのかとかいろいろややこしくなりそう
将棋みたいに中身が決まってるやつは一通り個別に並べてもらったほうがシンプルじゃないのかな…
2019/06/12(水) 01:57:37.00ID:qj/fM2VI
https://www.unicode.org/L2/L2018/18170-shogi.pdf

逆さのまではなくてもいいと思うがなあ
2019/06/12(水) 07:01:32.61ID:XwhNnAHz
あ、すでに議論の対象にはなってるのか。
2019/06/12(水) 08:39:27.70ID:QJXYMRLU
>>453
黒と白で、先手と後手を表しているだけだよ。
2019/06/12(水) 09:02:03.43ID:om/mzkP2
文章中に書くなら白黒五角形で十分だと思うが、なんで盤面まで表現したがるかな。
461デフォルトの名無しさん
垢版 |
2019/06/12(水) 11:21:19.79ID:tqvE0DW+
歩の裏の「と」があるべき位置に
「テ」だったか「〒EL」みたいな
意味不明な文字が書いてある駒セットを
観たことがあるけど
あれはなんだったんだろう
朝鮮語か?
2019/06/12(水) 12:54:03.65ID:QJXYMRLU

三 みたいなやつ?

全ての「成金」の文字は「金」を崩した文字だよ。
「と金」も、本当は「と」と書いてあるわけではなく、
「金」を崩した結果、「と」みたいになっているだけだよ。
463デフォルトの名無しさん
垢版 |
2019/06/12(水) 13:18:58.92ID:tqvE0DW+
Tも三も金なんですね
2019/06/12(水) 17:24:29.90ID:XwhNnAHz
どうでもいいけどそのレスを見て
その内 崩し字も登録されそう…とか思ったw
太字のaとかがなぜか「文字」として登録されてるんだから金の崩し字が登録されてもおかしくない
2019/06/12(水) 17:54:37.18ID:o59LDmQW
歩兵の裏は金と同じ読みの今(きん)の崩し字をあてたので
「と」と極めて似た文字になったという説がある
466デフォルトの名無しさん
垢版 |
2019/06/12(水) 23:56:15.89ID:4S3+zhe0
T



なんでこれで金になるのかさっぱり判らん
https://blogimg.goo.ne.jp/user_image/50/8a/03ddf56cb868756327fb330bdd9e5231.jpg

あと
|
とか

とか
謎のが多すぎ
2019/06/13(木) 01:03:53.78ID:WD6Kvaf7
崩し字はむずかしうてわからん
2019/06/13(木) 01:05:01.31ID:WD6Kvaf7
崩し字というかバラし字?
2019/06/13(木) 01:11:22.08ID:uH0MzXQS
>>457
どうなったか調べてみた。L2/18-170は2018年8月開催のUTC #156で議論され、
議事録には提案者にfeedbackを返したとだけ記録されている。
http://www.unicode.org/L2/L2018/18183.htm のe.5

で、この文書番号で検索すると同じ提案者の出したL2/18-342が引っかかって
そこにこう書いてある。
> Shogi proposal. The proposal I am talking about is (L2/18-170), the committee's
> rationale for rejection was that: “the symbols in question were not attested in
> lines of text”.

インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
2019/06/13(木) 01:32:11.84ID:domb7+if
なるほどなあ。
チェストーはインラインで使ったりするもんなんだろうか
2019/06/13(木) 06:29:39.15ID:IV8IxRGq
日本NBが後押しすれば10646に入りそうな気がするけどね
漢字以外は興味持たないだろうって見透かされてるんだろうな
2019/06/14(金) 11:32:49.03ID:BMAIfRwQ
まあ言いたかないけど 欧米が制定した企画だからね……。
あきらかに文化的な偏りはあると思う。
この間もモンゴル文字かなんかを文字の結合方式とかをほとんど考慮しないで登録してしまった
という旨でUnicode共同体を批判してるブログ見掛けたし。
2019/06/14(金) 12:45:36.88ID:AVMOMmmV
https://nixeneko.hatenablog.com/entry/2018/03/04/140000
モンゴル文字のことはよくわからんが、ここに書いてあることによると、

> モンゴル文字は、語の中のどの位置にくるかによって、また母音調和等によって形が変化する。

> 中国・モンゴル国の両国ともに現状と地続きの音声アプローチの方を支持しているようであるが、
> 最終的にどの方式が選ばれるにしろ、相互運用性が確保されることは期待できそうである。

ということだから、現状の規格は、中国・モンゴル国が希望したものであって
欧米人が悪いというわけではないと思う。
2019/06/14(金) 12:54:39.24ID:AVMOMmmV
ただ、似たようなものは英文にもあるわけで、fish や office のように、
f,i,j,l が続く場合は、文字を合字(リガチャ)にする場合が多い。

しかし、MSword も TeX も、「合字にせよ」という指定を入れなくても、
勝手に合字にしてくれるわけで、モンゴル文字も(よく解らんけど)
同じようにできないのかな、とは思う。
2019/06/14(金) 13:00:53.97ID:AVMOMmmV
ごめん。誤り。MSwordは指定しない限り、合字にはならなかった。
2019/06/14(金) 21:13:23.45ID:bakZpKUF
ガチャーン合体!
2019/06/15(土) 12:06:26.17ID:s4HbSmAb
>>466
筆で金とうい字を1000回くらい書くとわかるようになるよ。ようは手抜き。
2019/06/15(土) 21:00:26.68ID:dgVxOSWc
わけわからんまで崩していくのは日本独特?
479デフォルトの名無しさん
垢版 |
2019/06/16(日) 11:45:02.01ID:NdAq/MEw
これもなんで金になるのか判らんやつ

でいいのに
https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRN0np1ZmeG8ZgXTV8K1Vjx-yF9KCNZgu3AKkiOYyYxdnnl-wk7
2019/06/16(日) 13:03:35.22ID:8f8EXiHl
木天火土水で6人目のゴールドは光です・・・
2019/06/16(日) 17:16:00.47ID:UaT4ATnR
>>479-480
わらったw
482デフォルトの名無しさん
垢版 |
2019/06/18(火) 06:18:41.06ID:3nOE2mBA
プログラム板にキチガイ降臨中!botに一晩も反応する異常さ
一般人(学校恩師)に殺害予告をしているのでスレ建て通報してください。
https://mevius.5ch.net/test/read.cgi/tech/1559872586/

142 名前:a4 ◆700L1Efzuv 投稿日:2019/06/18(火) 05:29:55 ID://qVkzO
>>141
名古屋の人な 俺ね、君の問題を大橋先生と混ぜないことにする。つまりね、
片桐孝洋のことをボコろうと思う。普通に顎の骨を折る。これくらいで警察来るか?
一般市民とかさ、普通にさ、俺らの秘密なんだけどさ、日本人なんて復活ねーから。
2019/06/22(土) 01:57:21.14ID:t+lz7b+S
>>482
釣られて そのスレ見に行ったけど
寧ろそのa4っていう小手の人が被害に遭ってるように思えたけどな
2019/06/25(火) 03:50:40.53ID:wcrPNuwW
ヲシテ文字って使えないの?
2019/06/25(火) 05:40:01.35ID:DXMPLOPq
Unicode協会が配布してるプログラムでシェルスクリプトでUTF-8文字列を扱えるデータってないかな。
入力されたUTF-8文字列が何文字かを判定したりするのに都合の良いスクリプト。
2019/06/25(火) 06:09:39.19ID:1JIWmrxD
にほんごでおk
2019/06/25(火) 06:42:32.78ID:DXMPLOPq
CLDR for shellみたいなのがないかなと。
2019/06/25(火) 13:49:53.45ID:takEpFxW
Unicode協会って書かれると、アグネスがやってるパチモンに見えてくる
2019/06/28(金) 22:59:11.92ID:NkHCwivq
使えないよ
その手の文字が登録されたことはあるのかな
2019/06/29(土) 01:02:31.02ID:P81PdZpf
Dohentaiyagana
2019/06/29(土) 01:49:55.29ID:LWdOpl9S
神代VSでまとめてしまおう
2019/06/29(土) 02:20:12.41ID:g9Pe6ky6
最近Kenのツイートが酷い
LunaticとかAdobe的にいいのか
2019/06/30(日) 02:04:42.75ID:1ALBmyOB
絵文字をリガチャとして実装するという話を聞いたことがあるが
良いアイデアだと思う。
これ以上貴重な符号位置を占有しないで欲しい。
2019/06/30(日) 02:44:42.35ID:KxegnpZe
絵文字ガチャに見えた
2019/06/30(日) 18:46:20.88ID:1ALBmyOB
https://symbolset.com/
これとか。素晴しい発想だと思いませんこと?(お嬢様風)
2019/06/30(日) 19:55:14.68ID:VWoLS78P
全然
2019/06/30(日) 20:32:53.74ID:MkBgWLvD
見る側の環境によって、絵文字を使った側の人が意図しなかった単語に化ける現象が発生してしまう
2019/06/30(日) 21:02:05.57ID:1ALBmyOB
>>497
実はそれを意図しているんだな、これが。
Webフォントが使えなかった場合に,意味不明な私的領域のコードポイントではなくその絵文字の「意味」の単語になるっていうフェールセーフ。
この発想はアクセシビリティの面からしてすごいと思う。
今までも↑こういうことを実現する手段はあったが(aria-*とか::beforeとかを活用する),
いささかハックじみた手法だったのに対して,この方法はほとんど何のひねりもないし,かつ
高いアクセシビリティを誇る。
2019/06/30(日) 21:31:19.26ID:2juPiYlp
なんか公式ページの説明が簡素すぎてよく分からん。
素晴らしさを伝える記事とかないの?
2019/06/30(日) 22:16:35.89ID:MkBgWLvD
>>498
全然意図してないと思うぞ。>使った側の人が意図しなかった単語に化ける現象
これがアクセシビリティ向上になるのは入力者が単語と絵文字の対応を把握している場合だけで、
把握してない場合は入力者が知らない結果が出力される謎フォールバックになる。

入力者が絵文字パレットから選ぶ仕組みなら単語を把握してない可能性が高まるし、
個別に校正かけるなら元々あるimg altとかではなくWebフォントを使う強みは何?ってなるし
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況