文字コード総合スレ Part11

レス数が950を超えています。1000を超えると書き込みができなくなります。
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/11/01(木) 12:02:35.35ID:rRwKTtG6
>>870
床に落ちてる縮れ毛みたいだね
872デフォルトの名無しさん
垢版 |
2018/11/01(木) 12:10:10.60ID:VLboL17t
gal undo
2018/11/01(木) 13:23:41.33ID:EuhtjlAA
>>871
こんなきれいに並べんやろ
2018/11/04(日) 22:18:26.79ID:V6s3/sLe
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
2018/11/05(月) 15:43:44.70ID:TZRFRfjm
今でもASCII制御文字で使われている物はHT CR LFくらいかな?
876デフォルトの名無しさん
垢版 |
2018/11/05(月) 17:16:04.95ID:o5QGnfIr
C/C++なら今でも\aで音出るよ
2018/11/05(月) 20:56:08.29ID:4CVibwX5
今のPCもマザボにスピーカー入ってるの?
2018/11/06(火) 02:07:29.32ID:dakOghSY
NUL SO SI ESC SPACE DEL 辺りも使うかな
2018/11/06(火) 11:04:20.63ID:FAqyZmup
RLOも現役ぽいなあ
880デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:35:39.71ID:vyXuaWzf
^C
881デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ
BSも利く
2018/11/06(火) 13:19:35.81ID:e09+EfP6
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
883デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:28:10.62ID:qdniag2/
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
2018/11/09(金) 01:31:09.73ID:c1qAdcQz
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
2018/11/09(金) 21:06:14.08ID:romiKFBS
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
2018/11/10(土) 02:40:35.70ID:1I6WGnS3
なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ
2018/11/10(土) 12:59:04.24ID:RdMcj9Zd
別々の集合からならまとめても元に戻せるから矛盾しないぞ
2018/11/10(土) 13:35:27.91ID:gF+s2COR
>>887
それは16ビットで収めるためのMSの暴挙
2018/11/10(土) 13:36:04.74ID:6fDrSpR2
太字よりも、色付き絵文字に呆れた。
891デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:49:00.28ID:gwVpzklH
絵文字排除するはずだったのに何のための文字コードだったのか
892デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:52:17.38ID:mjExs0JA
むしろいちいちフォントなんか使わずに画像使えばいい
893デフォルトの名無しさん
垢版 |
2018/11/10(土) 16:19:59.30ID:gwVpzklH
害児のための外字
2018/11/12(月) 16:28:58.15ID:sDbkVTfY
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
2018/11/13(火) 03:51:59.47ID:T2RztKBH
テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀
2018/11/14(水) 00:25:03.52ID:7Ifnwzhb
test󾬄󾌰󾍇󾌵󾔣󾔥󾹄
2018/11/14(水) 15:22:06.98ID:DziNZxCd
test123
898デフォルトの名無しさん
垢版 |
2018/11/23(金) 10:18:33.14ID:e4GZHgy/
https://pbs.twimg.com/media/DsbSo7oU4AAKJ-e.jpg
2018/11/23(金) 22:12:04.21ID:8npogZAr
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
2018/11/23(金) 23:52:57.64ID:LJvBE/cy
>>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか?
2018/11/24(土) 00:12:46.90ID:GcFLRWmR
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
2018/11/24(土) 00:16:41.62ID:jHhCYnAM
ためになるなあ
2018/11/24(土) 09:56:10.66ID:b7FMpfFJ
https://map.goo.ne.jp/place/22001814283/
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。
904デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:17:41.92ID:4kdGLnPd
學校
臺灣
國體
驛辯
やめたくなるわな
905デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:24:00.06ID:4kdGLnPd
>>903
看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
https://dotup.org/uploda/dotup.org1699600.jpg
他のアングルだと欝ってなかった
2018/11/24(土) 13:49:21.65ID:rXljiVhx
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
907デフォルトの名無しさん
垢版 |
2018/11/24(土) 14:28:12.34ID:4kdGLnPd
明後日の方向からレスが来た
2018/11/24(土) 14:33:23.15ID:nrZVZwkF
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです
2018/11/24(土) 22:16:10.34ID:nC23MCFq
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
2018/11/24(土) 22:31:27.28ID:3CbvFbkZ
20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。
911デフォルトの名無しさん
垢版 |
2018/11/24(土) 23:28:09.38ID:or35NFsF
ならUTF-7使うしかない
2018/11/24(土) 23:36:50.36ID:nC23MCFq
20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか
2018/11/25(日) 00:05:18.90ID:KC5pxzP6
>>903
店名って公的な機関に届け出る書類に記載したりすることあるのかな?
この漢字は使えたのだろうか...
2018/11/25(日) 00:12:25.76ID:nGQiRV3b
税の申告書で屋号とか書く欄があったような無かったような
2018/11/25(日) 01:10:56.47ID:Tmpw9nku
https://hitosara.com/0005040173/
既になくなってしまったみたい

文字だけでなく読みさえも実在の怪しい「おとど」のほうは元気なようだが
916デフォルトの名無しさん
垢版 |
2018/11/25(日) 17:37:13.70ID:arFqKMW0
>>909
>問題なく送れた

おま環だけうまくいっても意味無いんだ
2018/11/26(月) 00:16:22.18ID:55zKdsET
>>905
局部の隠し方が絶妙すぎて笑う
2018/11/26(月) 11:27:31.30ID:SVaivieI
>>914
昔はあった、今もあるかは知らん
2018/11/27(火) 07:32:04.24ID:bOfqa3Yp
5chでは、スレッドによってか板によってか知りませんが、
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?

スレの立て方で決められるのでしょうか?
 ⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
 ⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。

基本的なことようですが、自分では検索でうまくヒットできません。
2018/11/27(火) 08:48:35.30ID:vqp/19EL
>>919

https://info.5ch.net/index.php/SETTING.TXT

その板のSETTING.TXTのBBS_UNICODE による
2018/11/27(火) 10:50:58.56ID:zH6Yh8LQ
BBS_UNICODE=passでも、今は数値文字参照(10進数)だけが使えるんだよな。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。

js使った変換ツールで変換してるわ。
2018/11/27(火) 14:22:21.18ID:pHjl6gJ9
>>921
へえ、知らなかった。
なんかある時期から使えなくなった気がして、
ちゃんとできてる書き込みが謎だったわ。10進限定とは。
2018/11/27(火) 16:22:46.53ID:zH6Yh8LQ
とりあえず現状を試しておこう。

ハートの全角文字テスト
♥ → ♥
♥ → ♥
♥ → ♥

さて、どうかな?
924デフォルトの名無しさん
垢版 |
2018/11/27(火) 19:32:26.19ID:t2TLQBob
📛 日本人には幼稚園児の名札に見える絵文字は、外国人には何なのかさっぱりわからず『燃えるトーフ』と呼ばれていた - Togetter
https://togetter.com/li/1292538
2018/11/27(火) 19:57:48.88ID:gXLD+0BO
顔文字はこれ以上増やすよりZWJを使って目とか口とかを組み合わせて
自分で作れるようにした方がいいと思う
2018/11/27(火) 20:14:23.30ID:+uQVAXpU
全角とは
2018/11/28(水) 02:59:23.88ID:BkKDQWNJ
FULL WIDTH
2018/11/28(水) 04:06:11.10ID:A2M+lx4Y
>>926
全てにおいて角こそが至上であると妄信する一種のトランス状態
一例をだすと漫画「おれは直角」の主人公がそうである
929デフォルトの名無しさん
垢版 |
2018/11/28(水) 09:49:40.91ID:zomCLGU3
横方向に Full Width 全角
縦方向に Full Width 倍角
2018/11/28(水) 12:51:43.14ID:b91COmuR
ワープロ専用機時代、横倍角なんていう気持ち悪いのがあったな
2018/11/28(水) 15:08:09.04ID:N7oZ3GQl



気持ち悪いってもこれよりはマシやろ
2018/11/29(木) 01:40:08.15ID:lIzTCHsu
HALF WIDTH  (^-^)
FULL WIDTH  (    ^    _    ^    )
2018/11/29(木) 14:33:52.79ID:Msn7clch
iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。
2018/11/30(金) 13:11:19.56ID:FBzo8MwT
>>933
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。

EUC-JIS-2004 - Wikipedia
https://ja.wikipedia.org/wiki/EUC-JIS-2004

EUC-JISX0213 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/EUC-JISX0213
2018/11/30(金) 14:13:45.09ID:P5LXHiB7
廃止されたんか…
2018/11/30(金) 14:42:42.21ID:XOMh22Gb
廃止されたんよ
2018/11/30(金) 14:59:53.47ID:5jWhYr7h
そうなんかい…
2018/12/01(土) 01:50:51.78ID:V6WUEvLt
EUCで0213したいときはどうすればいいんだ…
2018/12/01(土) 02:27:14.32ID:O7l2nkqH
普通にEUC-JIS-2004を使え
2018/12/01(土) 02:33:51.02ID:LH+8CiFR
えぇ…
2018/12/01(土) 04:17:45.98ID:r8gMvw+h
なんで廃止するんだ…
2018/12/01(土) 15:43:51.59ID:4cHgv8YS
よう分からん。
EUC-JISX0213(JIS X 0213:2000ベース)は廃止されて、EUC-JIS-2004(JIS X 0213:2004ベース)になったってことでいいのか?
2018/12/01(土) 16:34:03.50ID:bl/45R/s
改訂のタイミングでX0213から-2004に名前が変わっただけってこと?
2018/12/03(月) 16:03:32.93ID:FWFg2HSw
>>942
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、

>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。

とのことなので、ほぼ同じものと思ってよい。
2018/12/04(火) 00:06:31.38ID:kEiJOL5a
なあんだ
2018/12/05(水) 23:26:18.07ID:0a3ULp4B
JISの漢字コードってたまにそういうのあるよね
2文字増えただけのJIS0208-1990とか
2018/12/07(金) 11:12:03.49ID:baVD1zSv
日本マイクロソフトやAdobeが改元対応を説明
https://pc.watch.impress.co.jp/docs/news/1157118.html

同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。

フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。
2018/12/07(金) 16:19:20.12ID:qBlHhwTE
え、これってひょっとして新元号合字が使えるのはUnicode系統だけで、
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと?

元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…
2018/12/07(金) 16:48:04.41ID:7WHjGWxq
独自の文字セットで運用すりゃいいだけ
950デフォルトの名無しさん
垢版 |
2018/12/07(金) 21:50:22.19ID:0/x3pMw+
JIS X 0213に入ったら
当然Shift_JISにもいれるべき
~ 2D5F
潤@2D6F
氏@2D6E
香@2D6D

2D5Eが空いてる
2018/12/07(金) 22:22:10.91ID:nIptkpuh
和田研細丸ゴシックのU+32FFのグリフ

平成
の次

で吹いたw
952デフォルトの名無しさん
垢版 |
2018/12/07(金) 22:28:33.61ID:Z7Pkiqbl
しかし年号の余裕も言うほどないよな
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし
2018/12/07(金) 23:44:21.45ID:Sv6zm0b9
そんなにしょっちゅう変わったらさすがに文字コード需要のほうがなくなりそうだが
2018/12/08(土) 01:15:36.39ID:7zz08Xs4
どのみち継承者を今後10年で10人確保するのは無理なので…
2018/12/08(土) 02:21:31.30ID:nIDZ4yFF
赤ちゃんでもいいので可能性はある
2018/12/08(土) 03:58:41.86ID:xmV4OmOO
既にある文字を組み合わせた合字が増え続けるとわかっているなら次の文字が半分の大きさであることを
表すコントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか?
そうしないと延々と文字が増え続ける。
2018/12/08(土) 05:46:24.58ID:4O5fRXD5
なんかプレッシャーに耐えかねてホモに走って断絶なんてことになりそうな気もするけどなあ
2018/12/08(土) 08:49:48.25ID:VbRdNM0/
縦書きも考慮しなきゃいけないとか面倒くさすぎだな

新元号対応について
https://citpc.jp/download/2018-12-06%20CITPC%20Seminar_Ken%20Tamaru.pdf
2018/12/09(日) 20:48:07.44ID:NLNV6qg6
>>948
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。

http://www.jepa.or.jp/jepa_cms/wp-content/uploads/2010/05/jepa0000518783.pdf
https://www.itscj.ipsj.or.jp/hasshin_joho/unei/files/unei21-Kajisa.pdf
2018/12/10(月) 08:46:40.86ID:S9fSc6ei
Unifontだと、32FFは

32
FF  (undefined)

だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか?
2018/12/10(月) 13:28:03.68ID:7KZwr80a
Firefoxとかはフォントにない文字は自動でその表示になるよね。

まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。
2018/12/10(月) 17:39:24.58ID:A+rv6wMQ
未収録のままにして他のフォントで表示してくれたほうがありがたいからなあ
2018/12/10(月) 19:51:03.00ID:hinx2Zbo
それだな
グリフがあると自動フォールバックが利かなくなる
2018/12/10(月) 22:52:22.99ID:N5SCf3O2
U+32FFは初期のUnicodeでは現在U+3004にあるJISマークだったんだな。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。
2018/12/10(月) 23:18:14.27ID:hinx2Zbo
新元号はM/T/S/H以外が実用上望ましいんだよな。

Jか…いけるなあ。
966デフォルトの名無しさん
垢版 |
2018/12/11(火) 13:17:12.25ID:eQLW3H68
放送大学のUnicodeの番組わかりやすかった
2018/12/11(火) 16:17:48.41ID:gC3VOuLX
地上波で映らなくなったから見れない…
2018/12/11(火) 18:11:21.44ID:uSURGRNJ
残念だ
2018/12/11(火) 20:34:24.45ID:ku/Zz2dV
囲みCJK文字/月ブロックは平成の次で全て埋まると思ったが、U+321Fがまだ空いてるな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。
2018/12/11(火) 21:42:40.13ID:Hrs/4e8e
>>960
フォントサイズが増えるからでしょ?
レス数が950を超えています。1000を超えると書き込みができなくなります。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況