文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2019/05/08(水) 16:59:08.16ID:hW7QTTE+
2011年に改訂されて三代目の文字が追加されたと言われているな。
去年L2に文書が出てた。

http://www.unicode.org/L2/L2018/18011-info-kps9566-2011.pdf
2019/05/08(水) 17:50:08.89ID:+GcC1zVN
いきなり?で草
外に向けて公式発表とかはしてないのか
2019/05/08(水) 19:23:31.67ID:D1yI4PRN
令和の合字(U+32FF)は結局シフトJIS環境では使えないし、
まだこれを含むフォントがインストールされてなく表示出来ない事がある環境依存文字だから使うなとか
そもそも互換文字だから使うな、「令」(U+4EE4)と「和」(U+548C)を並べて書けとか言われるんやろ
2019/05/08(水) 23:41:31.32ID:g6pGEhqR
どうせ、利用するフォントによって、どの文字まで表示できるか?決まるんだから
変な文字は使わず、90年までの規格で止めとくほうが正解かもね。
2019/05/09(木) 12:49:52.00ID:MGsavNMK
今回はそういう話じゃないぞ
2019/05/09(木) 23:57:50.74ID:2Upif9A1
令和組み文字はCP932には入れないようだが、
JISX0213には入れるのだろうか?
2019/05/10(金) 00:24:53.97ID:jEyv0NCa
つーかそろそろ日本工業規格も令和に対応すべきだと思うのだが。
JIX X 0213だけじゃなくてJIS X 0301とかも。
2019/05/10(金) 08:46:20.50ID:ObISzXw3
CP932に追加は無いだろうけど最近の過去互換の軽視ぷりからするとやらかす可能性が完全0じゃないのが怖い
361デフォルトの名無しさん
垢版 |
2019/05/10(金) 10:21:33.96ID:6UVTgwma
半角カタカナも滅べば良いし
年号の合字も無限に増やすのは無理だから
常に二文字表記で文字幅で調整すれば良い
天皇陛下万歳
千代に八千代に
2019/05/10(金) 14:53:16.98ID:CKiiAb8j
Android Qに絵文字64種類が追加。うち53種類が男女区別あいまいな人物のデザイン
https://japanese.engadget.com/2019/05/09/android-q-64-53/
2019/05/10(金) 18:18:29.29ID:mVkH2fqp
das emoji
2019/05/11(土) 22:48:01.24ID:+ReHs7Ms
絵文字とかと同じ 令[ZWJ]和 でいいのにな
専用の文字コードが必要なのかと
2019/05/12(日) 01:19:24.51ID:ki3sPmcj
漢字のジョイントって意図が不明瞭にならないか?
偏旁に配置した新字を創字したいのかなと思ってしまう
2019/05/12(日) 13:36:08.25ID:VATOmp33
ほとんど見掛けないけど漢字位置記述文字みたいなの使えば?
2019/05/12(日) 16:00:08.02ID:Pj0ORKPL
あれは人間への説明用であって合成して表示させるものじゃないから違うような

> the reader can then create a mental picture of the ideographs from the description.

> In particular, support for the characters in the Ideographic Description block does not require the rendering engine to recreate the graphic appearance of the described character.
2019/05/12(日) 19:33:59.77ID:VATOmp33
あ,そうなのか。
あれを適切に設定すれば,対応したビューアで自由に漢字が表現できるもんだとばかり……。
教えてくれてありがとう。
2019/05/12(日) 21:21:35.48ID:3Fo18FOg
あれだと縦書きと横書きで並び変えられないしね
欲しいのは組み文字ジョインター

キ[KMJ]ジ[KMJ]マア[KMJ]パ[KMJ]ー[KMJ]ト

これで

キジアパ
マ ート

マキ
 ジ
│ア
トパ

をつくりたい
2019/05/12(日) 21:26:39.48ID:C+tli6s4
ジョインター?
ジョイナーでは?w
2019/05/12(日) 22:42:17.83ID:7HEr7+9q
ジョイナス
2019/05/13(月) 13:30:46.64ID:Dlu9US9y
女医
茄子
2019/05/13(月) 14:31:34.73ID:iR6Bb+jK
へへ
のの

へじ
2019/05/14(火) 01:37:14.88ID:M5HaQ5Df
>>369
そういうのは「文字」じゃなくてCSSとかで実装すればいいじゃん
……って思っちゃうなw
2019/05/14(火) 03:18:02.18ID:j93RjJXe
でも令和合字入れちゃったからなあ
先行規格がない生まれながらの互換文字ってかわいそうじゃない?
376デフォルトの名無しさん
垢版 |
2019/05/14(火) 11:34:15.69ID:HHew+yI/
同じ失敗を繰り返すタイプ

数百年先を見通せない政策
2019/05/14(火) 11:58:39.59ID:ThbRtqnv
理論上は文字コードを無限に増やせる仕様じゃないとダメでしょ。
2019/05/14(火) 13:44:33.88ID:bepTC+/0
次の次で途絶えそうだし大丈夫じゃね?
2019/05/14(火) 17:50:04.82ID:kz8JbfNJ
はい、不敬罪。
2019/05/14(火) 19:19:08.26ID:ThbRtqnv
不経済
2019/05/15(水) 08:08:31.21ID:cTm8l9eF
不敬罪ではないでしょうw
実際女子しか生まれていない皇家も有るし
何らかの対策をしないと途絶える可能性は有るよ
継続させたいなら
本気で対策しないと拙いよ実際
2019/05/15(水) 08:35:40.27ID:nWHAKFhQ
>>345
今日の定例アップデートで修正入ったみたい
2019/05/15(水) 08:43:30.54ID:n5xZGXi9
だから今のうちに隠し子を作っておけと
結婚してから外で子供を作るのは嫁の人権上まずいけど
若気の至りなら仕方が無いだろう
2019/05/15(水) 08:48:22.54ID:GDL/z8kb
>>381
現実ではともかく
ネットの「不敬罪」はほぼネタだと思ったほうがいい
2019/05/15(水) 12:28:24.15ID:Pf7Y4ylf
ほとんど報道されないけどたまに逮捕されてるよな
>>378御愁傷様
2019/05/15(水) 12:44:57.00ID:n5xZGXi9
アホがいる
387デフォルトの名無しさん
垢版 |
2019/05/15(水) 12:53:44.49ID:DmEZFbwt
地球外知的生命体との遭遇を前提に、拡張性を確保しとかないとね。
2019/05/15(水) 13:14:54.94ID:dq2v0yjU
僕の肛門も拡張されそうです!
2019/05/18(土) 16:38:38.85ID:F01l0NEI
質問
https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0212.TXT
X0212補助漢字とUnicodeの変換テーブルは↑で良いのでしょうか?
補助漢字には詳しくなくobsolete下にあるのでこれでよいのかよくわかりません。
2019/05/20(月) 22:06:47.10ID:WPLI0l6z
Consortiumが提供しているのはそれくらいかと
2019/05/20(月) 23:48:08.42ID:8Vf/KPej
0x2237 0x007E # TILDE

これはやめた方がいいんじゃないかな…
後はまあ
2019/05/21(火) 18:21:29.99ID:wbjhm+VX
>>391
全角チルダ問題ですか?
2019/05/21(火) 18:56:30.38ID:1e7kqOhQ
チルダは主要フォントは同じ字形になっちゃったから、
ユニコードNGの環境で初めて気づくことも多いんだよね
2019/05/21(火) 20:48:03.29ID:Qf+frYPs
めんどいなあ
2019/05/30(木) 21:05:37.63ID:QqsVAtGz
Apple、算盤の絵文字がおかしいと批判される
https://idle.srad.jp/story/19/05/30/0450219/
396デフォルトの名無しさん
垢版 |
2019/05/31(金) 06:42:14.69ID:RBuyAv83
そろばんはどうでもいいが
チーズの位置は許せない
2019/05/31(金) 17:25:05.59ID:mv11bAX3
つうか誰が何の目的で入れたんだよ
絵文字増やすことが目的になってるだろもう
2019/06/02(日) 16:33:02.27ID:DEukDi4F
だってこれまで一般人からは存在も意識されてなかった文字コードの改訂が
「今年の新絵文字発表」化してから急に世界中の注目を浴びる一大イベントになったんだもん
そら浮かれるよ
399デフォルトの名無しさん
垢版 |
2019/06/02(日) 20:25:46.71ID:A9OZ+7QR
鼻濁音を表す仮名か゜、き゜、く゜、け゜、こ゜、カ゜、キ゜、ク゜、ケ゜、コ゜は
JIS X 0213ではそれぞれ1文字としてコードが割り当てられたのに、Unicodeでは
半濁点なしの仮名と半濁点の2文字で表さなければいけない。Unicodeにも1文字として
収録してもらいたい。

辞書に使われる記号 [名]、[形]、(単)、(複) など ([ ]は角丸正方形、( )は丸囲み文字) も
欲しい。
2019/06/02(日) 20:47:27.41ID:SX5hebJf
>>399
鼻濁音はUnicodeにちゃんと提案したら通りそう。

辞書で使われる記号は外字や私的領域に配置するしかないんじゃないかな。
401デフォルトの名無しさん
垢版 |
2019/06/02(日) 20:57:42.19ID:gW1x1cZy
NHKの情報番組によると、最近スマホに移行した役者の役所広司さんはガラケーの絵文字が好きでスマホの絵文字が不満らしい。
402デフォルトの名無しさん
垢版 |
2019/06/02(日) 21:05:37.93ID:A9OZ+7QR
>>400
テレビ番組表で使われる記号[字]、[ニ]、[多]、[声]、[吹]、[演]など ([ ]は正方形囲み文字) は
Enclosed Ideographic Supplement (U+1F2xx) として収録されたから、同じブロックの
空き領域に辞書用の記号も追加してもらいたい。
2019/06/02(日) 21:16:20.35ID:GqRagKZH
よくわからん
合成文字ではいけない理由って今時ある?
404デフォルトの名無しさん
垢版 |
2019/06/02(日) 21:22:49.71ID:gW1x1cZy
池江 璃花子さんのツイート
https://twitter.com/rikakoikee/status/1135127518258667520
 ポップコーンが美味しかった。
 美味しいチャーハン食べたい。
 チーズドックもマックのポテトも食べたい…🍟
 美味しいお寿司🍣アボカド🥑
 と、からみチキン
 食べたいものと行きたいとこが多すぎる🐭🏰
https://twitter.com/5chan_nel (5ch newer account)
405デフォルトの名無しさん
垢版 |
2019/06/03(月) 12:00:01.49ID:ZJy6OnVg
絵文字専用スレの分離独立を提案します
2019/06/03(月) 12:14:25.26ID:C5QZ8dlg
それはよくない
407デフォルトの名無しさん
垢版 |
2019/06/03(月) 17:14:50.77ID:9GoUaP2A
さもる。とは?
2019/06/03(月) 18:10:06.92ID:waosREqi
この板に絵文字スレを別に作るのはいい案だとは思えない。一緒に扱ったほうがいい。
他の、スマホ系やネット文化系の板で絵文字スレを立てるのはそっちの文脈での必要に応じてやればいいが。
409デフォルトの名無しさん
垢版 |
2019/06/04(火) 04:29:34.76ID:34q0LBOl
板的には絵文字禁止で
2019/06/04(火) 09:25:30.78ID:mdhyHdfA
絵文字はただのコードポイントだからなあ
411デフォルトの名無しさん
垢版 |
2019/06/04(火) 10:53:27.04ID:uvNmGZET
このスレが絵文字の話題で埋まるのは勘弁
2019/06/04(火) 11:53:04.76ID:mdhyHdfA
これまでのところ埋まってないぞ
413デフォルトの名無しさん
垢版 |
2019/06/04(火) 20:23:40.45ID:gwjuh1zM
>>403
それを言ったら、漢字も合字で構わなくないか? 1文字ずつコードを割り当てずに、
パーツ(部首など)に分解し、パーツと配置方法をコードで指定するIDS方式にする。
ハングルも音素に分解する。そうすれば、CJKが占めていた膨大なコード領域が
明け渡され、Unicodeを16ビットに戻せる。非CJK圏の人々はそれを望んでいそう。

漢字は情報伝達効率がとても良くて、字 2バイトで character 18バイトと同等の
情報を伝達できる。IDS上下, ウ冠, 子 の6バイトで表しても、18バイトの3分の1しか
まだない。
2019/06/04(火) 20:34:02.28ID:XXr8i2SB
shit


そうか?
2019/06/04(火) 20:35:22.41ID:XXr8i2SB
バイトでいうならそうか…
画数で無駄だなぁって思っちゃった
2019/06/04(火) 22:15:09.20ID:S8UlmLic
>>413
それを言ったら、がよくわからんが
現状で漢字は個別、>>399の仮名は合成で表現する仕組みになってるもんをそれぞれわざわざややこしくするメリットある?
あと今更ひっくり返して形だけ16bitとか言語圏関係なく望んでないと思う
2019/06/04(火) 23:31:18.83ID:sg371bFW
>>399で書かれてる辞書で使われるような丸囲みとか四角囲みはU+20DDやU+20DEと組み合わせて表せばいい。
例えば[名]はU+540D U+20DE、(単)はU+5358 U20DDで表せる。
2019/06/05(水) 21:51:36.51ID:uJguGtrO
>>413
俺もそういうのがいいとは思うけど
同じ手偏でも幅が微妙に違ったりするじゃん。
そういうのって計算というより正直 美的感覚に基づくものだから,
結局 一字一字に「手偏の幅」とかいったパラメータを与える必要が出てきそう。
419デフォルトの名無しさん
垢版 |
2019/06/05(水) 22:43:55.33ID:U4lYdkMb
>>413
字形まで自動合成する必要はないだろ。字形は1字ずつデザインするが、それを呼び出すのに
IDSコードを使うだけ。
2019/06/06(木) 11:04:53.81ID:NifDLxm9
>>419
418だがそれはいいね。
2019/06/06(木) 13:09:21.77ID:V+RhrtBc
正直IPAmjにだけ入ってるクラスの漢字見てるとこれIDSでどうすんのって思うよ。今更どうしようもないと思う。
2019/06/06(木) 13:32:02.81ID:8KYXjatA
台湾に漢字の部首を組み合わせてフォントを合成する技術があるらしい。
2019/06/06(木) 19:13:54.79ID:NifDLxm9
>>422
それってソフトウェアやライブラリとして提供されてたりする?
もしよければ教えてほしい
2019/06/06(木) 19:56:27.90ID:W0KBfnTD
https://www.dynacw.co.jp/about/about_history.aspx
これ。
2019/06/06(木) 23:21:56.20ID:mU5eCwwC
技術も何もメイリオあたりもそういうのじゃなかったっけ
結局調整が必要になるっぽいけど
2019/06/07(金) 08:07:16.78ID:rFfmCjQx
なんか思ってた技術と違うわ。
IDSの組合せをそれが表現する漢字と対応させるんかと思ってた。
427デフォルトの名無しさん
垢版 |
2019/06/07(金) 11:40:10.92ID:nJu+ZeI9
糸冬

2019/06/09(日) 18:38:42.78ID:+hAUN3Ld
漢字構成記述文字列って複数の記述文字の組み合わせとそもそもの複数の文字とをどうやって区別するんだろう。
「⿰山⿱上下」という並びが「峠」を意味するのか「山𠧗」を意味するのか区別できなくね?
429デフォルトの名無しさん
垢版 |
2019/06/09(日) 20:33:00.79ID:SSgQq8CW
頻出度?
2019/06/09(日) 22:49:36.82ID:lml609nH
1文字になる以外の解釈が可能な定義にはなってないように見えるが
2019/06/10(月) 00:45:55.32ID:/7QyuKh+
というかもともとそういうもんじゃない?
あれは人間が読むことを前提にした文中で説明を簡素にするために使う記号であって
合成とか機械処理とかをやることははなから考えてないと思う。
432デフォルトの名無しさん
垢版 |
2019/06/10(月) 11:07:15.11ID:g6tidy/F
⿰山⿱上下 → 山𠧗

⿰⿱山上下 → 峠
433デフォルトの名無しさん
垢版 |
2019/06/10(月) 11:10:17.22ID:g6tidy/F
違うな
>>430 が正しい

⿰山⿱上下 → 峠 (正しい)
⿰山⿱上下 → 山𠧗 (不正)
山⿱上下 → 山𠧗 (正しい)

⿰⿱山上下 → 峠 (知らんがな)
2019/06/10(月) 11:14:02.36ID:DwfAnHcn
>>433
最後のは不正では。
⿰⿱山上下なら
↓こんな文字になっちゃう
2019/06/10(月) 13:25:56.68ID:ujTvUCPf
カッコなしで誤解釈の余地なくやるにはRPNにすればよいのでは?
2019/06/10(月) 14:05:24.64ID:DwfAnHcn
括弧なしでも漢字構成記述文字列は一意に定まるぞ。
曖昧さの余地はない筈。
2019/06/10(月) 14:06:48.56ID:DwfAnHcn
ていうかそもそも漢字構成記述文字列自体がポーランド記法っぽい性格を持ってる。
⿰⿱山上下なら⿰(⿱(山, 上), 下)みたいな関数表示になって↑>>434みたいな字形になる。
438デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:17:40.77ID:g6tidy/F
同じ文字を二通り以上の表現方法があるのはセキュリティ上やばいと爺さんが言ってた
UTF-8みたいなやつ
439デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:19:52.70ID:g6tidy/F
例えば

⿰男⿰女男

⿰⿰男女男
2019/06/10(月) 14:43:12.52ID:VjrzvIQA
男女 男

右端は俺orz
2019/06/10(月) 14:45:35.90ID:AYc4wpPC
全然関係ないが男女男男女女男女男女を思い出した。おっさんだな、俺。
2019/06/10(月) 14:55:32.08ID:DwfAnHcn
>>439
嬲は「⿲男女男」じゃないの?
443デフォルトの名無しさん
垢版 |
2019/06/10(月) 14:56:33.42ID:g6tidy/F
だから複数あるっていう意味で書いたんだが

正規化で一つにっていうのは判る
2019/06/10(月) 20:42:06.03ID:QC59E/Dz
表現意図としては比が2:1:1と1:1:2と1:1:1で違いがあるような
2019/06/10(月) 23:11:41.70ID:rO86gbFX
>>399-400
鼻濁音付き仮名文字は日本NBから提案したけど蹴られて今の姿になった。
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n2092.pdf

仮名文字に限らずシーケンスで表現可能な文字に単体の文字コードを割り振ってもらうのは
相当説得力のある理由が要る。

逆に辞書用の記号は提案書を出せば通る可能性ありそう。
2019/06/11(火) 01:59:35.04ID:SK3ydrDR
ぽげむたは?
2019/06/11(火) 04:13:44.44ID:Yb3f0IhW
>>443
いや、>>444も言っている通り嬲は「⿲男女男」以外で表わせないと思うよ。
2019/06/11(火) 08:44:46.66ID:GW+sQhXS
将棋好きのおいらとしては、ひっくり返った「玉」「飛」「歩」とかも
登録してほしいと思うのだが。
2019/06/11(火) 10:41:29.12ID:Yb3f0IhW
>>448
Unicodeってそもそも将棋の駒 全部登録されてないんじゃ?
450デフォルトの名無しさん
垢版 |
2019/06/11(火) 11:48:29.98ID:9Qw6sZwd
笑→ケケ夭
とか
禁→木木示
とか
哭→口口犬
とか

畿→糸糸田戈
は同じ表現?
2019/06/11(火) 12:18:11.06ID:Yb3f0IhW
>>450
まあ機械処理向けの言語じゃないから
人が「分解できる」と思うかどうかだよね
ちなみに「畿」の部首って「田」なんだな。すげー意外。
2019/06/11(火) 12:35:42.68ID:GW+sQhXS
>>449

ないよ。黒塗り五角形と白ヌキ五角形だけ。
453デフォルトの名無しさん
垢版 |
2019/06/11(火) 14:57:42.64ID:Y18rXsQw
文字表現ってことで
●●構えっていうと門しか思い出せないし
●●囲いっていうと口しか思い出せないけど
将棋の駒の白抜き五角形は囲いなんだろうか
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況