文字コード総合スレ Part11

レス数が900を超えています。1000を超えると表示できなくなるよ。
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/10/01(月) 00:48:09.88ID:MJnLVykJ
これってよくあるよな
2018/10/01(月) 06:54:49.15ID:lrLCBstk
なにが?
2018/10/01(月) 09:18:19.81ID:CSe7Ol42
サーバーが余計なこといってるやつ
2018/10/02(火) 15:20:38.65ID:YIYqcJyy
RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。

これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……
842デフォルトの名無しさん
垢版 |
2018/10/02(火) 15:47:12.77ID:yDKwoLm6
何を今更
2018/10/03(水) 08:04:57.07ID:ej0n10jM
UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。
2018/10/09(火) 21:29:38.61ID:cJ7fFqob
最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。
845デフォルトの名無しさん
垢版 |
2018/10/10(水) 01:30:32.33ID:cxHjn/W/
違う
2018/10/10(水) 02:38:09.95ID:cuDZW5pF
サロゲートペアの話?
2018/10/10(水) 16:28:58.28ID:WmZeX0g1
ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。

……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ
2018/10/15(月) 00:47:51.51ID:FbFcpKzK
実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。
2018/10/15(月) 04:39:56.62ID:/DZZgAIK
EBSDICのことか
2018/10/15(月) 04:40:51.83ID:/DZZgAIK
EBCDICだったすまそ
2018/10/16(火) 14:17:09.82ID:lPgoIDQ1
Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
http://www.itmedia.co.jp/news/articles/1810/16/news086.html
2018/10/16(火) 21:00:39.00ID:+1MBTbsX
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい
2018/10/16(火) 22:29:11.24ID:xkS5MTi4
絵文字はどんどん規格にない不文律が増えていくんだな
2018/10/16(火) 22:46:32.20ID:YZqafHqA
誰がunicodeに絵文字顔文字なんかいれたんだ?
2018/10/18(木) 09:37:48.19ID:9Pcdnt1S
>>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html
2018/10/21(日) 02:11:42.72ID:fBvnF/D1
つまり結局のところどうしたらええんじゃ?
857デフォルトの名無しさん
垢版 |
2018/10/21(日) 11:20:10.64ID:sjXodBVw
2018/10/21(日) 21:31:47.23ID:8BH3p2hm
https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。
2018/10/21(日) 23:19:14.44ID:j+lXdzx1
Wikipediaはある種独特じゃね
2018/10/29(月) 01:00:18.66ID:OPK1oA4w
https://s.codepen.io/aardrian/debug/ENJdjN
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね
861デフォルトの名無しさん
垢版 |
2018/10/29(月) 11:18:13.71ID:rTl7m6mf
862デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:04:33.69ID:oLCvh0eX
マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
863デフォルトの名無しさん
垢版 |
2018/10/29(月) 12:49:16.57ID:VtmwN/uo
utf8
2018/10/29(月) 15:46:00.93ID:AJZhbohO
>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理
2018/10/29(月) 16:16:56.56ID:oLCvh0eX
ありがとうございます
自己解決しました。
2018/10/30(火) 22:48:53.83ID:sNif6dsM
Draft Emoji Candidates
http://www.unicode.org/emoji/future/emoji-candidates.html

何個目だよハート
そして色つきの丸と四角がいっぱい
2018/10/31(水) 00:23:40.01ID:W1Oq41Ld
オイスターは動物じゃなくて食いもん枠なのか
2018/10/31(水) 23:32:52.14ID:VU8NOm8y
U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。
2018/11/01(木) 00:15:41.30ID:+UpfaFuk
ホゲエ〜だと力が足りない時に使う
870デフォルトの名無しさん
垢版 |
2018/11/01(木) 10:43:45.13ID:z733lC2q




~
~








~

~

2018/11/01(木) 12:02:35.35ID:rRwKTtG6
>>870
床に落ちてる縮れ毛みたいだね
872デフォルトの名無しさん
垢版 |
2018/11/01(木) 12:10:10.60ID:VLboL17t
gal undo
2018/11/01(木) 13:23:41.33ID:EuhtjlAA
>>871
こんなきれいに並べんやろ
2018/11/04(日) 22:18:26.79ID:V6s3/sLe
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
2018/11/05(月) 15:43:44.70ID:TZRFRfjm
今でもASCII制御文字で使われている物はHT CR LFくらいかな?
876デフォルトの名無しさん
垢版 |
2018/11/05(月) 17:16:04.95ID:o5QGnfIr
C/C++なら今でも\aで音出るよ
2018/11/05(月) 20:56:08.29ID:4CVibwX5
今のPCもマザボにスピーカー入ってるの?
2018/11/06(火) 02:07:29.32ID:dakOghSY
NUL SO SI ESC SPACE DEL 辺りも使うかな
2018/11/06(火) 11:04:20.63ID:FAqyZmup
RLOも現役ぽいなあ
880デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:35:39.71ID:vyXuaWzf
^C
881デフォルトの名無しさん
垢版 |
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ
BSも利く
2018/11/06(火) 13:19:35.81ID:e09+EfP6
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
883デフォルトの名無しさん
垢版 |
2018/11/06(火) 13:28:10.62ID:qdniag2/
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
2018/11/09(金) 01:31:09.73ID:c1qAdcQz
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
2018/11/09(金) 21:06:14.08ID:romiKFBS
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
2018/11/10(土) 02:40:35.70ID:1I6WGnS3
なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ
2018/11/10(土) 12:59:04.24ID:RdMcj9Zd
別々の集合からならまとめても元に戻せるから矛盾しないぞ
2018/11/10(土) 13:35:27.91ID:gF+s2COR
>>887
それは16ビットで収めるためのMSの暴挙
2018/11/10(土) 13:36:04.74ID:6fDrSpR2
太字よりも、色付き絵文字に呆れた。
891デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:49:00.28ID:gwVpzklH
絵文字排除するはずだったのに何のための文字コードだったのか
892デフォルトの名無しさん
垢版 |
2018/11/10(土) 15:52:17.38ID:mjExs0JA
むしろいちいちフォントなんか使わずに画像使えばいい
893デフォルトの名無しさん
垢版 |
2018/11/10(土) 16:19:59.30ID:gwVpzklH
害児のための外字
2018/11/12(月) 16:28:58.15ID:sDbkVTfY
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
2018/11/13(火) 03:51:59.47ID:T2RztKBH
テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀
2018/11/14(水) 00:25:03.52ID:7Ifnwzhb
test󾬄󾌰󾍇󾌵󾔣󾔥󾹄
2018/11/14(水) 15:22:06.98ID:DziNZxCd
test123
898デフォルトの名無しさん
垢版 |
2018/11/23(金) 10:18:33.14ID:e4GZHgy/
https://pbs.twimg.com/media/DsbSo7oU4AAKJ-e.jpg
2018/11/23(金) 22:12:04.21ID:8npogZAr
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
2018/11/23(金) 23:52:57.64ID:LJvBE/cy
>>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか?
2018/11/24(土) 00:12:46.90ID:GcFLRWmR
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね

新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
2018/11/24(土) 00:16:41.62ID:jHhCYnAM
ためになるなあ
2018/11/24(土) 09:56:10.66ID:b7FMpfFJ
https://map.goo.ne.jp/place/22001814283/
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。
904デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:17:41.92ID:4kdGLnPd
學校
臺灣
國體
驛辯
やめたくなるわな
905デフォルトの名無しさん
垢版 |
2018/11/24(土) 13:24:00.06ID:4kdGLnPd
>>903
看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
https://dotup.org/uploda/dotup.org1699600.jpg
他のアングルだと欝ってなかった
2018/11/24(土) 13:49:21.65ID:rXljiVhx
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
907デフォルトの名無しさん
垢版 |
2018/11/24(土) 14:28:12.34ID:4kdGLnPd
明後日の方向からレスが来た
2018/11/24(土) 14:33:23.15ID:nrZVZwkF
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです
2018/11/24(土) 22:16:10.34ID:nC23MCFq
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
2018/11/24(土) 22:31:27.28ID:3CbvFbkZ
20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。
911デフォルトの名無しさん
垢版 |
2018/11/24(土) 23:28:09.38ID:or35NFsF
ならUTF-7使うしかない
2018/11/24(土) 23:36:50.36ID:nC23MCFq
20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか
2018/11/25(日) 00:05:18.90ID:KC5pxzP6
>>903
店名って公的な機関に届け出る書類に記載したりすることあるのかな?
この漢字は使えたのだろうか...
2018/11/25(日) 00:12:25.76ID:nGQiRV3b
税の申告書で屋号とか書く欄があったような無かったような
2018/11/25(日) 01:10:56.47ID:Tmpw9nku
https://hitosara.com/0005040173/
既になくなってしまったみたい

文字だけでなく読みさえも実在の怪しい「おとど」のほうは元気なようだが
916デフォルトの名無しさん
垢版 |
2018/11/25(日) 17:37:13.70ID:arFqKMW0
>>909
>問題なく送れた

おま環だけうまくいっても意味無いんだ
2018/11/26(月) 00:16:22.18ID:55zKdsET
>>905
局部の隠し方が絶妙すぎて笑う
2018/11/26(月) 11:27:31.30ID:SVaivieI
>>914
昔はあった、今もあるかは知らん
2018/11/27(火) 07:32:04.24ID:bOfqa3Yp
5chでは、スレッドによってか板によってか知りませんが、
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?

スレの立て方で決められるのでしょうか?
 ⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
 ⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。

基本的なことようですが、自分では検索でうまくヒットできません。
2018/11/27(火) 08:48:35.30ID:vqp/19EL
>>919

https://info.5ch.net/index.php/SETTING.TXT

その板のSETTING.TXTのBBS_UNICODE による
2018/11/27(火) 10:50:58.56ID:zH6Yh8LQ
BBS_UNICODE=passでも、今は数値文字参照(10進数)だけが使えるんだよな。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。

js使った変換ツールで変換してるわ。
2018/11/27(火) 14:22:21.18ID:pHjl6gJ9
>>921
へえ、知らなかった。
なんかある時期から使えなくなった気がして、
ちゃんとできてる書き込みが謎だったわ。10進限定とは。
2018/11/27(火) 16:22:46.53ID:zH6Yh8LQ
とりあえず現状を試しておこう。

ハートの全角文字テスト
&#9829; → ♥
&#x2665; → &#x2665;
&hearts; → &hearts;

さて、どうかな?
924デフォルトの名無しさん
垢版 |
2018/11/27(火) 19:32:26.19ID:t2TLQBob
📛 日本人には幼稚園児の名札に見える絵文字は、外国人には何なのかさっぱりわからず『燃えるトーフ』と呼ばれていた - Togetter
https://togetter.com/li/1292538
2018/11/27(火) 19:57:48.88ID:gXLD+0BO
顔文字はこれ以上増やすよりZWJを使って目とか口とかを組み合わせて
自分で作れるようにした方がいいと思う
2018/11/27(火) 20:14:23.30ID:+uQVAXpU
全角とは
2018/11/28(水) 02:59:23.88ID:BkKDQWNJ
FULL WIDTH
2018/11/28(水) 04:06:11.10ID:A2M+lx4Y
>>926
全てにおいて角こそが至上であると妄信する一種のトランス状態
一例をだすと漫画「おれは直角」の主人公がそうである
929デフォルトの名無しさん
垢版 |
2018/11/28(水) 09:49:40.91ID:zomCLGU3
横方向に Full Width 全角
縦方向に Full Width 倍角
2018/11/28(水) 12:51:43.14ID:b91COmuR
ワープロ専用機時代、横倍角なんていう気持ち悪いのがあったな
2018/11/28(水) 15:08:09.04ID:N7oZ3GQl



気持ち悪いってもこれよりはマシやろ
2018/11/29(木) 01:40:08.15ID:lIzTCHsu
HALF WIDTH  (^-^)
FULL WIDTH  (    ^    _    ^    )
2018/11/29(木) 14:33:52.79ID:Msn7clch
iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。
2018/11/30(金) 13:11:19.56ID:FBzo8MwT
>>933
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。

EUC-JIS-2004 - Wikipedia
https://ja.wikipedia.org/wiki/EUC-JIS-2004

EUC-JISX0213 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/EUC-JISX0213
2018/11/30(金) 14:13:45.09ID:P5LXHiB7
廃止されたんか…
2018/11/30(金) 14:42:42.21ID:XOMh22Gb
廃止されたんよ
2018/11/30(金) 14:59:53.47ID:5jWhYr7h
そうなんかい…
レス数が900を超えています。1000を超えると表示できなくなるよ。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況