X



文字コード総合スレ Part11
レス数が950を超えています。1000を超えると書き込みができなくなります。
0001デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
0852デフォルトの名無しさん
垢版 |
2018/10/16(火) 21:00:39.00ID:+1MBTbsX
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい
0854 ◆QZaw55cn4c
垢版 |
2018/10/16(火) 22:46:32.20ID:YZqafHqA
誰がunicodeに絵文字顔文字なんかいれたんだ?
0857デフォルトの名無しさん
垢版 |
2018/10/21(日) 11:20:10.64ID:sjXodBVw
0861デフォルトの名無しさん
垢版 |
2018/10/29(月) 11:18:13.71ID:rTl7m6mf
0862デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:04:33.69ID:oLCvh0eX
マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
0863デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:49:16.57ID:VtmwN/uo
utf8
0864デフォルトの名無しさん
垢版 |
2018/10/29(月) 15:46:00.93ID:AJZhbohO
>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理
0868デフォルトの名無しさん
垢版 |
2018/10/31(水) 23:32:52.14ID:VU8NOm8y
U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。
0870デフォルトの名無しさん
垢版 |
2018/11/01(木) 10:43:45.13ID:z733lC2q




~
~








~

~

0872デフォルトの名無しさん
垢版 |
2018/11/01(木) 12:10:10.60ID:VLboL17t
gal undo
0874デフォルトの名無しさん
垢版 |
2018/11/04(日) 22:18:26.79ID:V6s3/sLe
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
0876デフォルトの名無しさん
垢版 |
2018/11/05(月) 17:16:04.95ID:o5QGnfIr
C/C++なら今でも\aで音出るよ
0880デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:35:39.71ID:vyXuaWzf
^C
0881デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ
BSも利く
0882デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:19:35.81ID:e09+EfP6
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
0883デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:28:10.62ID:qdniag2/
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
0885デフォルトの名無しさん
垢版 |
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
0886デフォルトの名無しさん
垢版 |
2018/11/09(金) 21:06:14.08ID:romiKFBS
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
0889 ◆QZaw55cn4c
垢版 |
2018/11/10(土) 13:35:27.91ID:gF+s2COR
>>887
それは16ビットで収めるためのMSの暴挙
0891デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:49:00.28ID:gwVpzklH
絵文字排除するはずだったのに何のための文字コードだったのか
0892デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:52:17.38ID:mjExs0JA
むしろいちいちフォントなんか使わずに画像使えばいい
0893デフォルトの名無しさん
垢版 |
2018/11/10(土) 16:19:59.30ID:gwVpzklH
害児のための外字
0894デフォルトの名無しさん
垢版 |
2018/11/12(月) 16:28:58.15ID:sDbkVTfY
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
0899デフォルトの名無しさん
垢版 |
2018/11/23(金) 22:12:04.21ID:8npogZAr
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
0901デフォルトの名無しさん
垢版 |
2018/11/24(土) 00:12:46.90ID:GcFLRWmR
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
0904デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:17:41.92ID:4kdGLnPd
學校
臺灣
國體
驛辯
やめたくなるわな
0906デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:49:21.65ID:rXljiVhx
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
0907デフォルトの名無しさん
垢版 |
2018/11/24(土) 14:28:12.34ID:4kdGLnPd
明後日の方向からレスが来た
0908 ◆QZaw55cn4c
垢版 |
2018/11/24(土) 14:33:23.15ID:nrZVZwkF
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです
0909デフォルトの名無しさん
垢版 |
2018/11/24(土) 22:16:10.34ID:nC23MCFq
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
0910デフォルトの名無しさん
垢版 |
2018/11/24(土) 22:31:27.28ID:3CbvFbkZ
20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。
0911デフォルトの名無しさん
垢版 |
2018/11/24(土) 23:28:09.38ID:or35NFsF
ならUTF-7使うしかない
0912デフォルトの名無しさん
垢版 |
2018/11/24(土) 23:36:50.36ID:nC23MCFq
20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか
0913デフォルトの名無しさん
垢版 |
2018/11/25(日) 00:05:18.90ID:KC5pxzP6
>>903
店名って公的な機関に届け出る書類に記載したりすることあるのかな?
この漢字は使えたのだろうか...
0916デフォルトの名無しさん
垢版 |
2018/11/25(日) 17:37:13.70ID:arFqKMW0
>>909
>問題なく送れた

おま環だけうまくいっても意味無いんだ
0919板の新参者ですが
垢版 |
2018/11/27(火) 07:32:04.24ID:bOfqa3Yp
5chでは、スレッドによってか板によってか知りませんが、
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?

スレの立て方で決められるのでしょうか?
 ⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
 ⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。

基本的なことようですが、自分では検索でうまくヒットできません。
0921デフォルトの名無しさん
垢版 |
2018/11/27(火) 10:50:58.56ID:zH6Yh8LQ
BBS_UNICODE=passでも、今は数値文字参照(10進数)だけが使えるんだよな。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。

js使った変換ツールで変換してるわ。
0922デフォルトの名無しさん
垢版 |
2018/11/27(火) 14:22:21.18ID:pHjl6gJ9
>>921
へえ、知らなかった。
なんかある時期から使えなくなった気がして、
ちゃんとできてる書き込みが謎だったわ。10進限定とは。
0923デフォルトの名無しさん
垢版 |
2018/11/27(火) 16:22:46.53ID:zH6Yh8LQ
とりあえず現状を試しておこう。

ハートの全角文字テスト
♥ → ♥
♥ → ♥
♥ → ♥

さて、どうかな?
0924デフォルトの名無しさん
垢版 |
2018/11/27(火) 19:32:26.19ID:t2TLQBob
📛 日本人には幼稚園児の名札に見える絵文字は、外国人には何なのかさっぱりわからず『燃えるトーフ』と呼ばれていた - Togetter
https://togetter.com/li/1292538
0925デフォルトの名無しさん
垢版 |
2018/11/27(火) 19:57:48.88ID:gXLD+0BO
顔文字はこれ以上増やすよりZWJを使って目とか口とかを組み合わせて
自分で作れるようにした方がいいと思う
0928デフォルトの名無しさん
垢版 |
2018/11/28(水) 04:06:11.10ID:A2M+lx4Y
>>926
全てにおいて角こそが至上であると妄信する一種のトランス状態
一例をだすと漫画「おれは直角」の主人公がそうである
0929デフォルトの名無しさん
垢版 |
2018/11/28(水) 09:49:40.91ID:zomCLGU3
横方向に Full Width 全角
縦方向に Full Width 倍角
0933デフォルトの名無しさん
垢版 |
2018/11/29(木) 14:33:52.79ID:Msn7clch
iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。
0942デフォルトの名無しさん
垢版 |
2018/12/01(土) 15:43:51.59ID:4cHgv8YS
よう分からん。
EUC-JISX0213(JIS X 0213:2000ベース)は廃止されて、EUC-JIS-2004(JIS X 0213:2004ベース)になったってことでいいのか?
0944デフォルトの名無しさん
垢版 |
2018/12/03(月) 16:03:32.93ID:FWFg2HSw
>>942
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、

>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。

とのことなので、ほぼ同じものと思ってよい。
0946デフォルトの名無しさん
垢版 |
2018/12/05(水) 23:26:18.07ID:0a3ULp4B
JISの漢字コードってたまにそういうのあるよね
2文字増えただけのJIS0208-1990とか
0947デフォルトの名無しさん
垢版 |
2018/12/07(金) 11:12:03.49ID:baVD1zSv
日本マイクロソフトやAdobeが改元対応を説明
https://pc.watch.impress.co.jp/docs/news/1157118.html

同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。

フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。
0948デフォルトの名無しさん
垢版 |
2018/12/07(金) 16:19:20.12ID:qBlHhwTE
え、これってひょっとして新元号合字が使えるのはUnicode系統だけで、
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと?

元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…
0950デフォルトの名無しさん
垢版 |
2018/12/07(金) 21:50:22.19ID:0/x3pMw+
JIS X 0213に入ったら
当然Shift_JISにもいれるべき
~ 2D5F
潤@2D6F
氏@2D6E
香@2D6D

2D5Eが空いてる
レス数が950を超えています。1000を超えると書き込みができなくなります。

ニューススポーツなんでも実況