文字コード総合スレ part13

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2020/07/03(金) 20:53:47.08ID:elbfDzqw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
502デフォルトの名無しさん
垢版 |
2022/07/15(金) 23:39:46.47ID:uuTe8dv5
文字として使われていなかったものを、勝手に作って文字と強弁して登録した罪。
それが絵文字。
だったら俺もクリンゴン文字とか山田文字とか作って登録できるし、CJK分離漢字も登録できる。
2022/07/15(金) 23:43:17.91ID:DtYLfgjh
>>502
そうなんだ
登録できたら教えてね
504デフォルトの名無しさん
垢版 |
2022/07/16(土) 00:10:50.08ID:V+kaf7mC
ソビエト連邦旗の☭「鎌と槌」U+262Dがとっくの昔に絵文字登録されているのだから、クリミア・ハン国旗のタムガも絵文字登録されてしかるべき
https://en.wikipedia.org/wiki/Crimean_Khanate
2022/07/16(土) 01:11:36.46ID:gUwlqT3Y
印籠の紋所はUnicodeに入らぬか?
2022/07/16(土) 02:06:52.98ID:V+kaf7mC
>>505
最強ロボ ダイオージャを知らない人にもわかるように書きなよ
2022/07/16(土) 04:22:29.98ID:6TWzUKaQ
その界隈の人はクスリとくるジョークなのだろうけど理解できないのがもどかしいな
2022/07/16(土) 04:47:30.81ID:V+kaf7mC
>>507
確かにそうかも
オデッサ作戦が始まる5日前、ブライトに塩の不足を訴え出たのはタムガではなくタムラだし
2022/07/20(水) 00:36:57.71ID:DKmMEeXx
UIのテキストで「情報」を意味する小文字のiに○を使いたいんだけど、
U+1F6C8というのがどうもそれらしい。けどBMPじゃないし文字化けとかするかな?

BMPだとU+24D8がほぼ同じ文字だけど、やっぱ意味的にはU+1F6C8を使うべきかな?
さらにU+2139も"Information Source"という名で、VSのU+FE0Fを付けると四角で囲った
やつになるようだけど、絵文字に頼るのもあれかなあ
510デフォルトの名無しさん
垢版 |
2022/07/20(水) 01:21:44.91ID:CPw89lWI
Tcl/TkはBMP外つまりサロゲートペア領域に対応してないので移植時は要注意
2022/07/20(水) 04:38:33.34ID:8Wa3pAaM
絵文字はいいぞ
2022/07/20(水) 06:29:59.86ID:CPw89lWI
ランドセル背負ったゴリラを思い出す言い回しだな
2022/07/20(水) 14:22:20.66ID:tIQXO+Xm
よくわからんがランドセル絵文字ないんか
514509
垢版 |
2022/07/21(木) 08:12:01.75ID:CyzMM+7q
>>509
UIは実はAlexaだったのですが、U+1F6C8を使ってみたら見事にトーフが。ちょっと意外
テキストエンジンは何なんだろう。グリフをあまり持ってないとか?
とりあえずU+24D8は化けないようなのでこれでしのぎます
2022/07/21(木) 13:33:51.02ID:zLG8F2Ab
Hey, Siri🍑
2022/07/21(木) 14:40:53.86ID:GvcP+xtO
アレクサ 「Echo Showシリーズは、これまで作られた中で最も信頼のおける
スマートスピーカーです。 ミスなどありえません。」
2022/07/21(木) 21:31:31.72ID:AssYeJ94
>>513
🎒 U+1F392
2022/07/22(金) 01:43:04.94ID:59B4zCZN
あるんか
これこそカラバリほしいわ
519デフォルトの名無しさん
垢版 |
2022/07/22(金) 18:38:09.68ID:iW5ae+Pc
写真のようなリアリティ
https://unicode-table.com/jp/1F392/
520デフォルトの名無しさん
垢版 |
2022/07/22(金) 18:39:43.30ID:iaUAG8EO
鮑文字欲しい
2022/07/23(土) 00:32:48.08ID:s/X/zNVK
鞄の話の次は鮑?
522デフォルトの名無しさん
垢版 |
2022/07/23(土) 11:19:33.99ID:tvAp0xTn
泡置いとくね
🫧
2022/07/23(土) 14:08:22.93ID:F29cY8aJ
不審な豆腐が落ちている
2022/07/23(土) 16:21:48.12ID:Soya9ZMU
酢豆腐です
2022/07/23(土) 20:27:31.80ID:Mky4pirm
あぶったほうがおいしいかも📛
2022/07/24(日) 17:37:33.60ID:GMSYIMoG
牡蠣文字
https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/thumbs/240/samsung/320/oyster_1f9aa.png
2022/07/25(月) 00:19:28.22ID:/vBy9ug7
シジミは?
2022/07/26(火) 00:17:39.57ID:ca5jRqNv
いつの間にか全板で絵文字(や他のUnicode文字)が書き込めるようになってたのね
2022/07/26(火) 08:06:45.62ID:7Tqe60a2
そもそも禁止してた理由って何だったの
2022/07/26(火) 08:31:24.57ID:s47lqlR6
文字コードがSJISなので文字化けしてたってだけで、禁止されていたわけではなかったような
2022/07/26(火) 11:01:14.08ID:SJaqZdjx
はまぐりは?
2022/07/26(火) 21:24:04.84ID:NQP/SI2g
>>530
SETTING.TXTでBBS_UNICODE=changeと指定されてる板はサーバが同じでも絵文字使えなかったんだよ
今はこの設定が無視されてるみたい
2022/07/28(木) 01:01:11.47ID:yk9J+ZKC
どの板でもスレタイに絵文字入れれるのかな
絵文字入ってるとかわいいよね
2022/07/28(木) 12:28:31.82ID:DCbd1n5j
文字コードスレなんだから文字コードだろ
文字コードU+1F9AA総合スレ
2022/07/28(木) 12:37:51.66ID:YUqPgEN5
それはコードポイント
2022/07/28(木) 12:38:16.73ID:rQVl/Liz
全文字、全単語に絵文字を作って割り当てるとどうなる
よく使われる単語ほどいい絵文字になるようにする
537デフォルトの名無しさん
垢版 |
2022/07/29(金) 10:39:19.93ID:nIcw6oQb
スレタイに
森鷗外𠮟る
入れてみるか
2022/07/30(土) 09:56:45.51ID:Gq7vfC3O
👨‍👩‍👧‍👦とか未だに未対応?
2022/07/30(土) 09:57:43.09ID:Gq7vfC3O
普通にkakikometana!🇯🇵
540デフォルトの名無しさん
垢版 |
2022/07/30(土) 14:15:47.77ID:qUEsvGfx
>>526
真珠貝のように見える
2022/07/31(日) 02:20:53.15ID:EDJ4BvE5
なぜかパールっぽいものが乗っかってるんだよね
2022/07/31(日) 02:22:53.24ID:EDJ4BvE5
古いiOSの巻き貝の絵文字
https://emojipedia-us.s3.dualstack.us-west-1.amazonaws.com/socialmedia/apple/125/spiral-shell_1f41a.png
2022/07/31(日) 09:56:30.71ID:gPPZPuim
カキの真珠
https://www.pref.okayama.jp/uploaded/attachment/136025.pdf
2022/07/31(日) 12:49:19.36ID:EDJ4BvE5
今まで牡蠣の殻開けを何千個もやったけど真珠を見たことはないなあ
545デフォルトの名無しさん
垢版 |
2022/07/31(日) 16:03:34.57ID:7/NlTuud
・フリーランスに立ちはだかる「常駐」の壁。慣例を打ち壊し、
“テレワーク”案件3割→8割へと成長を遂げた「クラウドテック」の軌跡
・リモートワーク求人専門サイト「プロリモート」がリニューアルオープン、
 業務委託契約の求職者と企業をマッチング 
・1/3以上が採用につながる高マッチング率、リモートワーク×エンジニア・デザイナー専門の
 人材紹介サービス「ReworkerAgent」正式リリース場所からも時間からも自由な働き方を実現!
・『ReWorks(リワークス)』リモートワーク特化型転職サイトとして 3月5日 リニューアル
・副業・兼業マッチングサービス「クラウドリンクス」登録者数2万人突破
 中小企業で進む副業人材の採用、96%が継続採用を希望
・フリーランスが活用できる「最大1,000〜3,000万円・補助率50%〜75%」の
『ものづくり・商業・サービス補助金』とは?概要や条件を解説
・茨城県日立市、県外からの「テレワーク移住者」に最大151万円の助成金
・長野市、市内に移転・事業所設置し、移住することで最大550万円の支援金を支給
2022/08/04(木) 17:09:44.85ID:ilLzPs3K
パエリア食べたい
2022/08/07(日) 02:26:54.79ID:q1GUZ6Ie
>>536
ちょっとよくわからない
2022/08/07(日) 06:58:57.67ID:VW3DKuJ5
絵文字というのは象形文字への先祖返りみたいなものかもしれない

古代においては象形文字は書くのが大変で簡略化されて漢字になったが
その結果抽象的になりネイティブな言語利用者以外には理解しにくいものに
今なら絵文字のままの利用も可能で、ノンネイティブでも意味がわかるようなものに
なったり... しないか
2022/08/07(日) 11:47:28.30ID:DjsjW1Lz
視認性・可読性を無視してやたら細部に拘ってる辺り、象形文字未満だな
並べてみても中々違いが分からないような微妙なのが増えすぎ
子供が落書きを楽しんでる段階に見える
2022/08/07(日) 17:15:40.76ID:LA5dvhjU
まあ漢字でも柿落としみたいなのもあるしわからんもんはわからんよ
2022/08/08(月) 08:46:52.76ID:2vuqHINW
絵文字と象形文字は違うものだよ。
象形文字は本物の文字なので意味だけでなく音を兼ね備えてていて、言葉や文章を一意に表現できる。
絵文字は名前に文字って入ってるけど、本物の文字としては不十分で絵文字だけ文章を表現するのは困難。
絵文字は象形文字以前の状態といえる。
2022/08/08(月) 18:38:56.20ID:EJbQHD4d
音は必須ではないと思うが
2022/08/08(月) 19:54:01.68ID:2vuqHINW
少なくとも三大古代文字の漢字、楔形文字、ヒエログリフのいずれも、そして意味が解読できているその他の象形文字も音と意味の両方から作られていることが明らかになっている。
2022/08/10(水) 01:56:45.84ID:iD4Y1SYW
絵文字って漢字かななりアルファベットなりと組み合わせて使うわけだから単独で使えるかで評価する必要はなくない?
555デフォルトの名無しさん
垢版 |
2022/08/10(水) 23:31:45.45ID:nFYY+AJe
>>553
数の概念を忘れていませんか?
2022/08/10(水) 23:56:08.44ID:YW3nD3Rk
ユニコードで文字コードを割り当てられるのは最大何文字で
現在割り当て済みなのは何文字で
どれくらいのペースで増え続けてるの?
2022/08/11(木) 00:44:35.52ID:BDQw7LGG
牡蠣コードがあるのに雲丹コードがないのはおかしい
2022/08/11(木) 08:15:19.15ID:dR8HgXjE
雲丹バーサル
2022/08/11(木) 12:57:15.04ID:dClyCDz9
Unicode - Wikipedia
https://ja.m.wikipedia.org/wiki/Unicode#%E5%90%84%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%A8%E3%81%9D%E3%81%AE%E7%89%B9%E5%BE%B4

Unicode14.0(2021.10) - 144,697/1,112,064文字 (登録済み:約13%)
年平均4584文字増えていて、面を考慮せず単純な文字数ベースで考える且つこのままのペースで増え続けると仮定した場合、210年後(2231年)に全領域が埋まる計算になる
2022/08/11(木) 13:44:05.70ID:MGah5dOT
未収録のマイナー文字体系が210年後まで続くかっていうとなさそう
絵文字とかもあと10年ぐらいしてめぼしいものが埋まると「もうさすがにいらんやろ」みたいな空気になって新設は細っていくんじゃね
561デフォルトの名無しさん
垢版 |
2022/08/11(木) 14:55:22.55ID:E9I00ai5
ほとんどが漢字だからな
562デフォルトの名無しさん
垢版 |
2022/08/11(木) 15:09:43.16ID:/k5aJ7yS
「こんだけ余裕がありゃあ大丈夫だろう」と思ってたものがあっという間に埋まってしまうことは良くある。歴史は繰り返す。
2022/08/11(木) 20:13:56.60ID:jpYwMtC+
というとどういうのだろうか

①②③④…を(1000000)とかまで登録するとか?
564デフォルトの名無しさん
垢版 |
2022/08/11(木) 21:05:06.87ID:AMbuyrkD
配色じゃないの
ハートはいろんな色あるけど他はまだ色ないし
あとは肌の色のバリエーションがもっと細かく定義されるようになるとか
2022/08/12(金) 00:31:36.16ID:ZCgi2ef+
>>562
UTF-8 がどのように拡張されるのか、それが楽しみですね
さて皆さんの予想は?
566デフォルトの名無しさん
垢版 |
2022/08/12(金) 01:25:52.90ID:ijOecH2p
GB18030が国際標準になるだけでは?
567デフォルトの名無しさん
垢版 |
2022/08/14(日) 11:22:08.74ID:VI2zLni0
UTF-8は可変長だからもう拡張する必要は無い
2022/08/14(日) 13:15:35.13ID:GttZqyyI
>>567
UTF-8 も、どこまでも可変長にできるわけではないですよ、
569デフォルトの名無しさん
垢版 |
2022/08/14(日) 18:33:41.24ID:YzvfyuVN
UTF-8 は同じ方式でバイト数増やすとしたら6バイトまでで、6バイトにした場合は31bitまでしかビット数がない。
(第一バイトが 1111110x、第二バイト以降が 10xxxxxx なので 1+6*5 = 31)
素直にそのままの値を使うとしたら U+7FFFFFFF が限界になる。

幾らなんでもこんだけありゃ大丈夫だろう。

という考えは甘い。
2022/08/14(日) 21:21:55.32ID:ckMtCfKX
もしものときにはShift_UTF-8みたいなのができるだろ
571デフォルトの名無しさん
垢版 |
2022/08/14(日) 21:48:08.99ID:VaUKKWtN
今の21bitですら使いきれずに持て余しているからあんな糞絵文字ばっかり追加しているわけだろう。
2022/08/14(日) 22:37:52.07ID:KLzUuJOo
>>569
うっ
UTF-8 を展開した結果を32ビット長に格納しているが足りないのか、痛いところを突かれてしまった
2022/08/14(日) 23:17:14.96ID:bHYBRaL8
糞絵文字は1つしかないぞ
2022/08/15(月) 03:40:04.80ID:EupOFSdY
2007年当時の話だけど、毎年1000文字ずつエンコードしていっても
コードポイント使い切るまで800年以上かかるって
http://www.unicode.org/mail-arch/unicode-ml/y2007-m06/0034.html

これ書いた当時は年間944文字ペースで符号化していて文字数は減少傾向とも
2022/08/15(月) 09:07:29.00ID:5M5NpGCa
UTF8だけならUTF16のサロゲート領域がまるまる空きなのでそこを先導バイトに使えば4000倍以上にはできる。
あとはUTF16とUTF32は捨ててUTF64を導入で。
2022/08/15(月) 09:27:51.58ID:u2HIEupu
>>575
UTF64の導入か…現時点ではめんどくさくってしかたがないですねえ
2022/08/15(月) 09:34:53.03ID:5M5NpGCa
先頭のバイトで長さが判別できる特徴を残したいなら長くなるけど、先頭0xFEで12バイト、先頭0xFFで24バイト長とかにすれば、138ビットまで拡張できるな。
2022/08/15(月) 09:47:13.51ID:5M5NpGCa
>>576
心配するな現時点で今の21ビットが足りなくなる可能性は皆無。使用されている全部の文字を登録しても足りる。
絵文字増やしても個々の違いが判別できなくなるので文字として役に立たなくなるし、新たに創作文字を大量導入とか、単語に文字コード割当とか、アホなことしないと当面埋まることはない。
よし甲骨文字と金文と篆書と隷書の字体やその変化にも個別文字コード割当だとかやれば埋まりそうだが。
2022/08/15(月) 11:16:15.31ID:q8rBpYTm
U+1D400..U+1D7FFみたいなのが収録されてるんだから
なんか理屈をでっち上げれば、明朝とゴシックと丸ゴシックと教科書体それぞれ3ウェイトずつぐらいはいけるのでは?
580デフォルトの名無しさん
垢版 |
2022/08/16(火) 11:08:43.06ID:2x3mrzZQ
地球外の惑星人の言語が見つかりだしたらあっという間に埋まるだろう
2022/08/16(火) 16:32:26.25ID:Yjigu+Lf
>>579
明朝体とゴシック体を丸ごと登録はありえないけど、甲骨文字、金文、篆書あたりの楷書より古い字体は古代文字扱いで丸ごと登録とか、可能性がゼロではないんだよな。
現在の漢字では失われて甲骨・金文にしかない文字とかもあるので。
582デフォルトの名無しさん
垢版 |
2022/08/17(水) 01:36:20.68ID:0f27vmNE
音が出るコードが U+0007 以外にも沢山作られて・・・
2022/08/17(水) 01:41:52.37ID:9A/D6zoB
>>582
よし、パパ全ての音階を符号化しちゃうぞ。
といっても半音単位で人間の耳に聞こえる音と楽譜にある長さ全部登録しても余裕そうだが。楽器ごとに別の符号を準備するか?
2022/08/17(水) 01:47:12.74ID:afBzuANT
日本の変体仮名もマイナー過ぎるもの以外はあらかた登録されことを踏まえると、第三漢字面は甲骨文字等で埋まることになりそう(実際に登録された場合、今後数百年で最後の大規模登録になるはず)
2022/08/17(水) 08:36:52.62ID:SBuYxxsF
どれだけ文字が増えてもASCIIとの互換性は維持しなきゃいけないんだろうなぁ
2022/08/17(水) 09:04:59.81ID:9A/D6zoB
甲骨文字はまだ研究中できちんと体系化できてなくて、これとあれは同じ文字だと思っていたが実は別の文字だったとか、見た目全然違うけど同じ文字とか、いまだにやってるし、研究者によって意見が違ったりする。
登録するとなるとかなり先になりそう、もしくは見切り発車的に現状の字形の見た目だけで登録するか。
587デフォルトの名無しさん
垢版 |
2022/08/17(水) 12:03:40.31ID:75soL8XV
>>577
スマートやね
2022/08/18(木) 20:52:25.67ID:KZYn5ONA
任意多倍長文字コード…
589デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:24:45.92ID:73/TEJ+c
>>562
文字に関しては、時代が進めば解析できていない古代文字がわかるようになるわけではない。

宇宙人が現れないかぎりは、絵文字が増える程度。
590デフォルトの名無しさん
垢版 |
2022/08/20(土) 02:27:00.88ID:73/TEJ+c
可能性としてはフォントごとに文字が登録されることになると収まらなくなるな。
2022/08/20(土) 12:56:39.98ID:2oOKxcfG
>>589
いや、古代文字の解析はちょっとづつでも進んでるよ。それで埋まったりしないだろうけど。
あとユニコードには意味不明のまま形だけで登録されている古代文字もあるので、解析されてなくても良いという。
592デフォルトの名無しさん
垢版 |
2022/08/20(土) 15:44:41.14ID:l3DwVL0Z
こんなやつか
https://www.tanqfamily.com/post/suuji
593デフォルトの名無しさん
垢版 |
2022/08/21(日) 02:25:17.60ID:03eMfefm
>>591
はっきり言ってわからないことはわからない。遠い過去のことを必死に解明しようとなんてしない。
2022/08/21(日) 03:05:58.69ID:K2NeJ/9W
歴史学否定派w
595デフォルトの名無しさん
垢版 |
2022/08/21(日) 10:03:23.55ID:j3ukytx2
読めねぇ orz
鱼 U+9C7C
鱻 U+9C7B
䲜 U+4C9C
https://kanji.jitenon.jp/cat/bushu11001.html
596デフォルトの名無しさん
垢版 |
2022/08/21(日) 21:12:42.94ID:jEZBoNvk
🐟
2022/08/22(月) 15:43:07.04ID:HXe7WCQ8
>>595
森とか品とかは日常的に使ってるわけですし
2022/08/22(月) 19:06:10.43ID:HXe7WCQ8
鮮は鱻と羴の組み合わさった漢字、という説もあるようですね
2022/08/22(月) 19:13:20.22ID:x6NjRtAl
巧言令色鮮し仁
こうげんれいしょくすくなしじん
(「論語‐学而」にみえる孔子の説いたことば)
ことば巧みで表情をとりつくろっている人は、かえって仁の心が欠けているものだの意。
2022/08/22(月) 19:20:47.37ID:HXe7WCQ8
鱼は魚の簡体字のようだが、ソース分離のパティーンなのかな
2022/08/22(月) 19:25:14.80ID:HXe7WCQ8
あ簡体字繁体字はそっか
2022/08/23(火) 00:11:38.72ID:HsBE5KO1
澁→渋みたいに3つ並んでるやつの下2つを><で省略するのって日本ローカル?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況