文字コード総合スレ part13

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
2022/07/28(木) 12:28:31.82ID:DCbd1n5j
文字コードスレなんだから文字コードだろ
文字コードU+1F9AA総合スレ
2022/07/28(木) 12:37:51.66ID:YUqPgEN5
それはコードポイント
2022/07/28(木) 12:38:16.73ID:rQVl/Liz
全文字、全単語に絵文字を作って割り当てるとどうなる
よく使われる単語ほどいい絵文字になるようにする
537デフォルトの名無しさん
垢版 |
2022/07/29(金) 10:39:19.93ID:nIcw6oQb
スレタイに
森鷗外𠮟る
入れてみるか
2022/07/30(土) 09:56:45.51ID:Gq7vfC3O
👨‍👩‍👧‍👦とか未だに未対応?
2022/07/30(土) 09:57:43.09ID:Gq7vfC3O
普通にkakikometana!🇯🇵
540デフォルトの名無しさん
垢版 |
2022/07/30(土) 14:15:47.77ID:qUEsvGfx
>>526
真珠貝のように見える
2022/07/31(日) 02:20:53.15ID:EDJ4BvE5
なぜかパールっぽいものが乗っかってるんだよね
2022/07/31(日) 02:22:53.24ID:EDJ4BvE5
古いiOSの巻き貝の絵文字
https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/socialmedia/apple/125/spiral-shell_1f41a.png
2022/07/31(日) 09:56:30.71ID:gPPZPuim
カキの真珠
https://www.pref.okayama.jp/uploaded/attachment/136025.pdf
2022/07/31(日) 12:49:19.36ID:EDJ4BvE5
今まで牡蠣の殻開けを何千個もやったけど真珠を見たことはないなあ
545デフォルトの名無しさん
垢版 |
2022/07/31(日) 16:03:34.57ID:7/NlTuud
・フリーランスに立ちはだかる「常駐」の壁。慣例を打ち壊し、
“テレワーク”案件3割→8割へと成長を遂げた「クラウドテック」の軌跡
・リモートワーク求人専門サイト「プロリモート」がリニューアルオープン、
 業務委託契約の求職者と企業をマッチング 
・1/3以上が採用につながる高マッチング率、リモートワーク×エンジニア・デザイナー専門の
 人材紹介サービス「ReworkerAgent」正式リリース場所からも時間からも自由な働き方を実現!
・『ReWorks(リワークス)』リモートワーク特化型転職サイトとして 3月5日 リニューアル
・副業・兼業マッチングサービス「クラウドリンクス」登録者数2万人突破
 中小企業で進む副業人材の採用、96%が継続採用を希望
・フリーランスが活用できる「最大1,000〜3,000万円・補助率50%〜75%」の
『ものづくり・商業・サービス補助金』とは?概要や条件を解説
・茨城県日立市、県外からの「テレワーク移住者」に最大151万円の助成金
・長野市、市内に移転・事業所設置し、移住することで最大550万円の支援金を支給
2022/08/04(木) 17:09:44.85ID:ilLzPs3K
パエリア食べたい
2022/08/07(日) 02:26:54.79ID:q1GUZ6Ie
>>536
ちょっとよくわからない
2022/08/07(日) 06:58:57.67ID:VW3DKuJ5
絵文字というのは象形文字への先祖返りみたいなものかもしれない

古代においては象形文字は書くのが大変で簡略化されて漢字になったが
その結果抽象的になりネイティブな言語利用者以外には理解しにくいものに
今なら絵文字のままの利用も可能で、ノンネイティブでも意味がわかるようなものに
なったり... しないか
2022/08/07(日) 11:47:28.30ID:DjsjW1Lz
視認性・可読性を無視してやたら細部に拘ってる辺り、象形文字未満だな
並べてみても中々違いが分からないような微妙なのが増えすぎ
子供が落書きを楽しんでる段階に見える
2022/08/07(日) 17:15:40.76ID:LA5dvhjU
まあ漢字でも柿落としみたいなのもあるしわからんもんはわからんよ
2022/08/08(月) 08:46:52.76ID:2vuqHINW
絵文字と象形文字は違うものだよ。
象形文字は本物の文字なので意味だけでなく音を兼ね備えてていて、言葉や文章を一意に表現できる。
絵文字は名前に文字って入ってるけど、本物の文字としては不十分で絵文字だけ文章を表現するのは困難。
絵文字は象形文字以前の状態といえる。
2022/08/08(月) 18:38:56.20ID:EJbQHD4d
音は必須ではないと思うが
2022/08/08(月) 19:54:01.68ID:2vuqHINW
少なくとも三大古代文字の漢字、楔形文字、ヒエログリフのいずれも、そして意味が解読できているその他の象形文字も音と意味の両方から作られていることが明らかになっている。
2022/08/10(水) 01:56:45.84ID:iD4Y1SYW
絵文字って漢字かななりアルファベットなりと組み合わせて使うわけだから単独で使えるかで評価する必要はなくない?
555デフォルトの名無しさん
垢版 |
2022/08/10(水) 23:31:45.45ID:nFYY+AJe
>>553
数の概念を忘れていませんか?
2022/08/10(水) 23:56:08.44ID:YW3nD3Rk
ユニコードで文字コードを割り当てられるのは最大何文字で
現在割り当て済みなのは何文字で
どれくらいのペースで増え続けてるの?
2022/08/11(木) 00:44:35.52ID:BDQw7LGG
牡蠣コードがあるのに雲丹コードがないのはおかしい
2022/08/11(木) 08:15:19.15ID:dR8HgXjE
雲丹バーサル
2022/08/11(木) 12:57:15.04ID:dClyCDz9
Unicode - Wikipedia
https://ja.m.wikipedia.org/wiki/Unicode#%E5%90%84%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%9D%E3%81%AE%E7%89%B9%E5%BE%B4

Unicode14.0(2021.10) - 144,697/1,112,064文字 (登録済み:約13%)
年平均4584文字増えていて、面を考慮せず単純な文字数ベースで考える且つこのままのペースで増え続けると仮定した場合、210年後(2231年)に全領域が埋まる計算になる
2022/08/11(木) 13:44:05.70ID:MGah5dOT
未収録のマイナー文字体系が210年後まで続くかっていうとなさそう
絵文字とかもあと10年ぐらいしてめぼしいものが埋まると「もうさすがにいらんやろ」みたいな空気になって新設は細っていくんじゃね
561デフォルトの名無しさん
垢版 |
2022/08/11(木) 14:55:22.55ID:E9I00ai5
ほとんどが漢字だからな
562デフォルトの名無しさん
垢版 |
2022/08/11(木) 15:09:43.16ID:/k5aJ7yS
「こんだけ余裕がありゃあ大丈夫だろう」と思ってたものがあっという間に埋まってしまうことは良くある。歴史は繰り返す。
2022/08/11(木) 20:13:56.60ID:jpYwMtC+
というとどういうのだろうか

①②③④…を(1000000)とかまで登録するとか?
564デフォルトの名無しさん
垢版 |
2022/08/11(木) 21:05:06.87ID:AMbuyrkD
配色じゃないの
ハートはいろんな色あるけど他はまだ色ないし
あとは肌の色のバリエーションがもっと細かく定義されるようになるとか
2022/08/12(金) 00:31:36.16ID:ZCgi2ef+
>>562
UTF-8 がどのように拡張されるのか、それが楽しみですね
さて皆さんの予想は?
566デフォルトの名無しさん
垢版 |
2022/08/12(金) 01:25:52.90ID:ijOecH2p
GB18030が国際標準になるだけでは?
567デフォルトの名無しさん
垢版 |
2022/08/14(日) 11:22:08.74ID:VI2zLni0
UTF-8は可変長だからもう拡張する必要は無い
2022/08/14(日) 13:15:35.13ID:GttZqyyI
>>567
UTF-8 も、どこまでも可変長にできるわけではないですよ、
569デフォルトの名無しさん
垢版 |
2022/08/14(日) 18:33:41.24ID:YzvfyuVN
UTF-8 は同じ方式でバイト数増やすとしたら6バイトまでで、6バイトにした場合は31bitまでしかビット数がない。
(第一バイトが 1111110x、第二バイト以降が 10xxxxxx なので 1+6*5 = 31)
素直にそのままの値を使うとしたら U+7FFFFFFF が限界になる。

幾らなんでもこんだけありゃ大丈夫だろう。

という考えは甘い。
2022/08/14(日) 21:21:55.32ID:ckMtCfKX
もしものときにはShift_UTF-8みたいなのができるだろ
571デフォルトの名無しさん
垢版 |
2022/08/14(日) 21:48:08.99ID:VaUKKWtN
今の21bitですら使いきれずに持て余しているからあんな糞絵文字ばっかり追加しているわけだろう。
2022/08/14(日) 22:37:52.07ID:KLzUuJOo
>>569
うっ
UTF-8 を展開した結果を32ビット長に格納しているが足りないのか、痛いところを突かれてしまった
2022/08/14(日) 23:17:14.96ID:bHYBRaL8
糞絵文字は1つしかないぞ
2022/08/15(月) 03:40:04.80ID:EupOFSdY
2007年当時の話だけど、毎年1000文字ずつエンコードしていっても
コードポイント使い切るまで800年以上かかるって
http://www.unicode.org/mail-arch/unicode-ml/y2007-m06/0034.html

これ書いた当時は年間944文字ペースで符号化していて文字数は減少傾向とも
2022/08/15(月) 09:07:29.00ID:5M5NpGCa
UTF8だけならUTF16のサロゲート領域がまるまる空きなのでそこを先導バイトに使えば4000倍以上にはできる。
あとはUTF16とUTF32は捨ててUTF64を導入で。
2022/08/15(月) 09:27:51.58ID:u2HIEupu
>>575
UTF64の導入か…現時点ではめんどくさくってしかたがないですねえ
2022/08/15(月) 09:34:53.03ID:5M5NpGCa
先頭のバイトで長さが判別できる特徴を残したいなら長くなるけど、先頭0xFEで12バイト、先頭0xFFで24バイト長とかにすれば、138ビットまで拡張できるな。
2022/08/15(月) 09:47:13.51ID:5M5NpGCa
>>576
心配するな現時点で今の21ビットが足りなくなる可能性は皆無。使用されている全部の文字を登録しても足りる。
絵文字増やしても個々の違いが判別できなくなるので文字として役に立たなくなるし、新たに創作文字を大量導入とか、単語に文字コード割当とか、アホなことしないと当面埋まることはない。
よし甲骨文字と金文と篆書と隷書の字体やその変化にも個別文字コード割当だとかやれば埋まりそうだが。
2022/08/15(月) 11:16:15.31ID:q8rBpYTm
U+1D400..U+1D7FFみたいなのが収録されてるんだから
なんか理屈をでっち上げれば、明朝とゴシックと丸ゴシックと教科書体それぞれ3ウェイトずつぐらいはいけるのでは?
580デフォルトの名無しさん
垢版 |
2022/08/16(火) 11:08:43.06ID:2x3mrzZQ
地球外の惑星人の言語が見つかりだしたらあっという間に埋まるだろう
2022/08/16(火) 16:32:26.25ID:Yjigu+Lf
>>579
明朝体とゴシック体を丸ごと登録はありえないけど、甲骨文字、金文、篆書あたりの楷書より古い字体は古代文字扱いで丸ごと登録とか、可能性がゼロではないんだよな。
現在の漢字では失われて甲骨・金文にしかない文字とかもあるので。
582デフォルトの名無しさん
垢版 |
2022/08/17(水) 01:36:20.68ID:0f27vmNE
音が出るコードが U+0007 以外にも沢山作られて・・・
2022/08/17(水) 01:41:52.37ID:9A/D6zoB
>>582
よし、パパ全ての音階を符号化しちゃうぞ。
といっても半音単位で人間の耳に聞こえる音と楽譜にある長さ全部登録しても余裕そうだが。楽器ごとに別の符号を準備するか?
2022/08/17(水) 01:47:12.74ID:afBzuANT
日本の変体仮名もマイナー過ぎるもの以外はあらかた登録されことを踏まえると、第三漢字面は甲骨文字等で埋まることになりそう(実際に登録された場合、今後数百年で最後の大規模登録になるはず)
2022/08/17(水) 08:36:52.62ID:SBuYxxsF
どれだけ文字が増えてもASCIIとの互換性は維持しなきゃいけないんだろうなぁ
2022/08/17(水) 09:04:59.81ID:9A/D6zoB
甲骨文字はまだ研究中できちんと体系化できてなくて、これとあれは同じ文字だと思っていたが実は別の文字だったとか、見た目全然違うけど同じ文字とか、いまだにやってるし、研究者によって意見が違ったりする。
登録するとなるとかなり先になりそう、もしくは見切り発車的に現状の字形の見た目だけで登録するか。
587デフォルトの名無しさん
垢版 |
2022/08/17(水) 12:03:40.31ID:75soL8XV
>>577
スマートやね
2022/08/18(木) 20:52:25.67ID:KZYn5ONA
任意多倍長文字コード…
589デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:24:45.92ID:73/TEJ+c
>>562
文字に関しては、時代が進めば解析できていない古代文字がわかるようになるわけではない。

宇宙人が現れないかぎりは、絵文字が増える程度。
590デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:27:00.88ID:73/TEJ+c
可能性としてはフォントごとに文字が登録されることになると収まらなくなるな。
2022/08/20(土) 12:56:39.98ID:2oOKxcfG
>>589
いや、古代文字の解析はちょっとづつでも進んでるよ。それで埋まったりしないだろうけど。
あとユニコードには意味不明のまま形だけで登録されている古代文字もあるので、解析されてなくても良いという。
592デフォルトの名無しさん
垢版 |
2022/08/20(土) 15:44:41.14ID:l3DwVL0Z
こんなやつか
https://www.tanqfamily.com/post/suuji
593デフォルトの名無しさん
垢版 |
2022/08/21(日) 02:25:17.60ID:03eMfefm
>>591
はっきり言ってわからないことはわからない。遠い過去のことを必死に解明しようとなんてしない。
2022/08/21(日) 03:05:58.69ID:K2NeJ/9W
歴史学否定派w
595デフォルトの名無しさん
垢版 |
2022/08/21(日) 10:03:23.55ID:j3ukytx2
読めねぇ orz
鱼 U+9C7C
鱻 U+9C7B
䲜 U+4C9C
https://kanji.jitenon.jp/cat/bushu11001.html
596デフォルトの名無しさん
垢版 |
2022/08/21(日) 21:12:42.94ID:jEZBoNvk
🐟
2022/08/22(月) 15:43:07.04ID:HXe7WCQ8
>>595
森とか品とかは日常的に使ってるわけですし
2022/08/22(月) 19:06:10.43ID:HXe7WCQ8
鮮は鱻と羴の組み合わさった漢字、という説もあるようですね
2022/08/22(月) 19:13:20.22ID:x6NjRtAl
巧言令色鮮し仁
こうげんれいしょくすくなしじん
(「論語‐学而」にみえる孔子の説いたことば)
ことば巧みで表情をとりつくろっている人は、かえって仁の心が欠けているものだの意。
2022/08/22(月) 19:20:47.37ID:HXe7WCQ8
鱼は魚の簡体字のようだが、ソース分離のパティーンなのかな
2022/08/22(月) 19:25:14.80ID:HXe7WCQ8
あ簡体字繁体字はそっか
2022/08/23(火) 00:11:38.72ID:HsBE5KO1
澁→渋みたいに3つ並んでるやつの下2つを><で省略するのって日本ローカル?
603デフォルトの名無しさん
垢版 |
2022/08/23(火) 12:27:00.71ID:IsFqNvj1
......🐟............

䲜䲜䲜䲜䲜䲜䲜䲜
䲜䲜䲜䲜䲜䲜䲜䲜
604デフォルトの名無しさん
垢版 |
2022/08/23(火) 12:27:52.24ID:IsFqNvj1
..凹..凹..凹..凹..

..........凸......
2022/08/23(火) 17:31:29.10ID:xo++wuEw
0208で表現可能じゃないかw
606デフォルトの名無しさん
垢版 |
2022/08/24(水) 09:32:11.96ID:8fOu5lGq
murataのCMかよ
2022/08/25(木) 22:40:43.43ID:de5K8FcC
だれかマヨビームして
608デフォルトの名無しさん
垢版 |
2022/08/26(金) 09:51:20.37ID:i2SIEm4o
うざったてー
2022/09/14(水) 05:33:42.06ID:wQIidQ/U
ここ人がいなくなるとばたっといなくなるな
2022/09/16(金) 15:08:56.61ID:z5XcLMe6
Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加
https://gihyo.jp/article/2022/09/unicode15
2022/09/17(土) 05:27:23.56ID:7WGI1OIf
毎回絵文字で話題を呼ぶ戦略もそろそろネタ切れか
2022/09/17(土) 06:46:26.46ID:48becwit
絵文字の文字数はあまり増えてないけど、合成パターンが派手に増えて、面倒過ぎることに。
2022/09/17(土) 12:44:09.49ID:sxCWjXQc
次は動いたり光ったりする絵文字
2022/09/17(土) 18:58:46.03ID:w2OodHnN
それはガラケーが15年ぐらい前に通った道だ
2022/09/17(土) 19:43:06.21ID:ZRyqS070
次は飛び出す絵文字とお喋りする絵文字だよ
2022/09/17(土) 22:02:20.28ID:5IxZNZbc
絵文字はいいから
歩と香杏桂圭銀全金飛龍角馬王玉
の逆さ文字を登録してほしい
2022/09/17(土) 22:19:44.75ID:ZRyqS070
とりあえず一個作ったよ
つ王
2022/09/17(土) 22:30:43.46ID:JsbK4qtQ
肌色や性別より反転や回転が欲しい
2022/09/17(土) 22:37:03.11ID:9HUFVGar
>>616
つ異字体セレクタ
2022/09/18(日) 00:02:30.98ID:fKsdepJz
>>619
環境によって逆向きにされるかもしれないのはだめじゃない?
逆だと意味がひっくり返るんだから
2022/09/18(日) 01:19:36.82ID:H3LLIMIG
ちゃんと盤面が表示される保証がないといけないですよね
2022/09/18(日) 01:21:24.86ID:H4pPDpp4
>>617
王は逆向きに配置されることはありえません、無駄な仕事ご苦労なことです
2022/09/18(日) 02:21:35.78ID:6CSHq2xc
>>620
確かにそうなんだよね。。。ただ、年次のUnicode規格が社会に浸透していく過渡期には常に付きまとう問題であって異字体に限った話ではないように思える
それと同時に、異字体(少なくとも漢字の異字体)に意味の違いを含めてしまう(意味の違いを見出す運用を前提としてしまう)と問題が生じることのわかりやすいモデルケースでもあるとも思った
2022/09/18(日) 02:24:07.74ID:6CSHq2xc
>>622
古のドラクエで使われた「り」メソッドであって、実は何もしていないという
2022/09/18(日) 02:33:42.02ID:T2t4IoSB
>>624
んなことわかってんだよ、アホンダラ、死ね
2022/09/18(日) 02:38:02.45ID:T2t4IoSB
>>623
異議を唱えます
本来漢字に正字と異字という区別はなく、どの漢字も平等であるべきなんですよ
Unicode はすべての字(letter and character) を収録する、という建前である以上、異字体コレクターの存在自体が自己矛盾と考えます
CJK 漢字統合など、ダメリカ様の都合で決まった醜悪な存在、でも、結局 16 ビットに収まらなかったという体たらくになりましたよね…
2022/09/18(日) 03:18:17.32ID:fKsdepJz
同じ人相手でレスごとに態度豹変するの笑う
2022/09/18(日) 03:19:36.25ID:fKsdepJz
>>623
未対応で何も表示されないだけならいいのよ
未対応で逆のものが表示されるのは困るのよ
2022/09/18(日) 09:50:27.91ID:vR9F1V2O
異体字セレクターでも新コードポイントでもフォント作ってくれれば問題ないよ。
それより同じ漢字を複数箇所に登録するのをやめてくれ。基本漢字はあれだけ無理矢理ユニファイしたくせに、その後はチェック甘くて完全に同じ字形が新規登録されることがある。
2022/09/18(日) 10:01:21.85ID:GdLzv1yo
>>629
もし良ければ、近年の具体例を教えて欲しい
2022/09/18(日) 11:28:41.95ID:vR9F1V2O
閉て
>>630
どれくらい近年を求めてるのかは知らんが
私が気づいたのは U+3588 と U+439B の(老/口)とか。
これどう見ても同じ漢字を口部と老部に二重登録しただけやろ。
U+29FCE と U+29FD7 の(予鳥)の違いとかもわからん。
2022/09/18(日) 13:19:58.23ID:GdLzv1yo
>>631
20年以上前に追加された文字同士を例にとって「チェックが甘くて...新規登録されることが"ある"」と表現するのはどうかと思うよ(「あった」ならまだしも...)
当時と現在のチェック体制を事実上同一視した上で「やめてくれ」と懇願する姿勢も同様
2022/09/18(日) 13:32:38.16ID:vR9F1V2O
>>632
基本漢字とその後って言ってるのに、最近って言いかえるお前の定義ってどうなってるの?
問題は問題だろ、それともお前全チェックして、俺がたまたま気づいたこの2つ以外は問題がないと言い切れるの?
2022/10/02(日) 09:38:14.71ID:nwLm/7GS
Unicode をレンダリングするときは言語情報を渡しましょう
https://blog.8-p.info/ja/2022/09/30/unicode/
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況