プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/12/17(月) 16:48:24.47ID:Pfqpaohb408401
2020/12/09(水) 18:56:51.76ID:y7KEYUhD 鬼雲を、C++, C# など、他言語から使えないのか?
409デフォルトの名無しさん
2020/12/09(水) 19:27:16.18ID:jODQKuwy 高性能高速ライブラリがあるのに、
なぜわざわざ、
低性能低速言語Rubyの、
低性能低速libraryを使う必要が、
あるんだ?、
なぜわざわざ、
低性能低速言語Rubyの、
低性能低速libraryを使う必要が、
あるんだ?、
410デフォルトの名無しさん
2020/12/09(水) 19:45:05.56ID:ZEWfqGU4 C/C++は生産性が低いから
411401
2020/12/09(水) 19:59:27.39ID:y7KEYUhD412デフォルトの名無しさん
2020/12/10(木) 07:33:03.31ID:KWX3PjQ+ >>406
ruby を全然しらんのだが、 each_char ってのはどういう単位で文字を切り出してくるの?
上であったがサロゲートとか、絵文字とか、そのあたり特に。
Hanというプロパティは日本に限らず中国や韓国のも全部入り?
ruby を全然しらんのだが、 each_char ってのはどういう単位で文字を切り出してくるの?
上であったがサロゲートとか、絵文字とか、そのあたり特に。
Hanというプロパティは日本に限らず中国や韓国のも全部入り?
413デフォルトの名無しさん
2020/12/10(木) 08:02:18.65ID:oexX+ZIk >>407
グダグダいってるうちにスクラッチで車輪の再発明実装が終わる頃だな。
iskanjiはテーブル使うしかないかね?JISコードに変換して昔ながらの判定
するにもJISコード変換にテーブル
使うことになるだろうし。
どこかのページに色分けして中国専用の漢字の混ざり具合見せてたけどエグいねw
グダグダいってるうちにスクラッチで車輪の再発明実装が終わる頃だな。
iskanjiはテーブル使うしかないかね?JISコードに変換して昔ながらの判定
するにもJISコード変換にテーブル
使うことになるだろうし。
どこかのページに色分けして中国専用の漢字の混ざり具合見せてたけどエグいねw
414デフォルトの名無しさん
2020/12/10(木) 10:34:51.08ID:RjOF8qIo 謎のタイ語判定コード , Javascript 版
strThai = "\u0e01\u0e51\u0e3f ทำงาน";
re = strThai.match(/([\u0E00-\u0E7F])+/g);
console.log( re );
参考ページ等
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/u0e00.html
https://0g0.org/category/0E00-0E7F/1/
サロゲートペアを考慮しなくて良い言語はこのパターンでオーケーかな?
strThai = "\u0e01\u0e51\u0e3f ทำงาน";
re = strThai.match(/([\u0E00-\u0E7F])+/g);
console.log( re );
参考ページ等
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/u0e00.html
https://0g0.org/category/0E00-0E7F/1/
サロゲートペアを考慮しなくて良い言語はこのパターンでオーケーかな?
415401
2020/12/10(木) 12:43:53.30ID:HstTQkWC >>412
Ruby の1文字は、バイトサイズと異なる
str = "👪θ💀Ω🄫"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👪 : 1, 4
θ : 1, 2
💀 : 1, 4
Ω : 1, 2
🄫 : 1, 4
Ruby の1文字は、バイトサイズと異なる
str = "👪θ💀Ω🄫"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👪 : 1, 4
θ : 1, 2
💀 : 1, 4
Ω : 1, 2
🄫 : 1, 4
416401
2020/12/10(木) 12:51:25.91ID:HstTQkWC417デフォルトの名無しさん
2020/12/10(木) 20:31:09.89ID:CcbWokCZ >>415
おお、すごい!
早速ローカルで試してみた... スキントーンがいけてなかった。おしい。
str = "👨🏻🦲"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👨 : 1, 4
;🏻 : 1, 4
; : 1, 3
🦲 : 1, 4
ハゲが直った! みたいなw
おお、すごい!
早速ローカルで試してみた... スキントーンがいけてなかった。おしい。
str = "👨🏻🦲"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👨 : 1, 4
;🏻 : 1, 4
; : 1, 3
🦲 : 1, 4
ハゲが直った! みたいなw
418デフォルトの名無しさん
2020/12/10(木) 20:34:43.12ID:CcbWokCZ あ、出力が微妙に違うかも。5chブラウザにペーストしたせいかも。
あともしかしてスキントーンはあえて別キャラ扱いとか?
あともしかしてスキントーンはあえて別キャラ扱いとか?
419デフォルトの名無しさん
2020/12/10(木) 21:25:24.00ID:YXjbRyJb オレオレ用語UZEEE!!
420デフォルトの名無しさん
2020/12/11(金) 06:34:28.41ID:5L91jtkU ん、何か変なこと書いてある?
しかし書き込む瞬間、絵文字が5chブラウザでちゃんと表示できるかちょっと不安に
なったが、一応いけるみたいね。少なくともオレオレ環境では。
5ch側はSJIS+数値参照を流しているだけかもしれんが。
しかし書き込む瞬間、絵文字が5chブラウザでちゃんと表示できるかちょっと不安に
なったが、一応いけるみたいね。少なくともオレオレ環境では。
5ch側はSJIS+数値参照を流しているだけかもしれんが。
421デフォルトの名無しさん
2020/12/14(月) 05:58:38.59ID:uAdA9GXf 機械学習関係とかで使う奴です。
なんとなく出来たので晒しときますね。
// PHP(UTF-8) での全角カタカナチェック(JISx0213網羅版)
$sKana = ''
. "カ\xE3\x82\x99" // 304B+3099 カに濁点 (Mac,NFD)
. "カ\xE3\x82\x9A" // 304B+309A カに半濁点(JISのセット文字の半濁点 or Mac,NFD 半濁点)
. "゛" // 309B 濁点 (主にWin,半カナから変換される奴?)
. "゜" // 309C 半濁点 (主にWin,同上)
. "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポ"
. "マミムメモャヤュユョヨラリルレヮワヲン"
. "ヴヵヶヰヱ・ーヽヾ"
. "\xE3\x82\xA0" // ダブルハイフン , 30A0
. "\xE3\x83\xB7" // ワに濁点
. "\xE3\x83\xB8" // ヰに濁点
. "\xE3\x83\xB9" // ヱに濁点
. "\xE3\x83\xBA" // ヲに濁点
;
if( 1 === preg_match("/^[\x{3099}-\x{309C}\x{30A0}-ヾ]+$/u",$sKana) )
{
echo "全てカナカナです。";
}
else
{
echo " NG";
}
なんとなく出来たので晒しときますね。
// PHP(UTF-8) での全角カタカナチェック(JISx0213網羅版)
$sKana = ''
. "カ\xE3\x82\x99" // 304B+3099 カに濁点 (Mac,NFD)
. "カ\xE3\x82\x9A" // 304B+309A カに半濁点(JISのセット文字の半濁点 or Mac,NFD 半濁点)
. "゛" // 309B 濁点 (主にWin,半カナから変換される奴?)
. "゜" // 309C 半濁点 (主にWin,同上)
. "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポ"
. "マミムメモャヤュユョヨラリルレヮワヲン"
. "ヴヵヶヰヱ・ーヽヾ"
. "\xE3\x82\xA0" // ダブルハイフン , 30A0
. "\xE3\x83\xB7" // ワに濁点
. "\xE3\x83\xB8" // ヰに濁点
. "\xE3\x83\xB9" // ヱに濁点
. "\xE3\x83\xBA" // ヲに濁点
;
if( 1 === preg_match("/^[\x{3099}-\x{309C}\x{30A0}-ヾ]+$/u",$sKana) )
{
echo "全てカナカナです。";
}
else
{
echo " NG";
}
422デフォルトの名無しさん
2020/12/14(月) 09:18:41.31ID:dIR87NiF 0x31F0-F9のアイヌ語カナ拡張が抜けてるような
423デフォルトの名無しさん
2020/12/14(月) 12:36:10.35ID:uAdA9GXf >>422
どんな文字か全く見てませんけど、コードが分かれば並べていくだけですね。
アイヌ語カナ拡張版?差し替え用ってことで。
"/^[\x{3099}-\x{309C}\x{30A0}-ヾ\x{31F0}-\x{31F9}]+$/u"
どんな文字か全く見てませんけど、コードが分かれば並べていくだけですね。
アイヌ語カナ拡張版?差し替え用ってことで。
"/^[\x{3099}-\x{309C}\x{30A0}-ヾ\x{31F0}-\x{31F9}]+$/u"
424デフォルトの名無しさん
2020/12/15(火) 07:45:42.06ID:mpgmHFbH425デフォルトの名無しさん
2020/12/15(火) 12:56:15.02ID:vE8VpXlG 日本+都道府県番号?
426デフォルトの名無しさん
2020/12/15(火) 13:41:07.26ID:OZzZpMYk >>424
市役所とか行ったことないのか?
市役所とか行ったことないのか?
427デフォルトの名無しさん
2020/12/15(火) 17:27:11.75ID:+Yh7x7Wy ISO 3166-2:JP
428デフォルトの名無しさん
2020/12/15(火) 18:17:13.23ID:Y7kqruGs 問題は東京みたいに旗が2種類あるところ
東京は歴史ある*みたいなほうになるのか銀杏の葉っぱみたいなほうになるのか
東京は歴史ある*みたいなほうになるのか銀杏の葉っぱみたいなほうになるのか
429デフォルトの名無しさん
2020/12/22(火) 20:48:11.38ID:hjkCLTVe ISO - ISO/IEC 10646:2020 - Information technology — Universal coded character set (UCS)
https://www.iso.org/standard/76835.html
2020年の内に完成した模様
ABSTRACTのとこが何か文字化けしてるけど。
https://www.iso.org/standard/76835.html
2020年の内に完成した模様
ABSTRACTのとこが何か文字化けしてるけど。
430デフォルトの名無しさん
2020/12/23(水) 00:48:02.18ID:r3ldn4Uo 何に時間がかかるの
431デフォルトの名無しさん
2020/12/23(水) 14:15:22.80ID:dwGREUpD ここでも行けるかな? 𝐁𝐨𝐥𝐝 𝐼𝑡𝑎𝑖𝑐 𝒮𝒸𝓇𝒾𝓅𝓉 𝔻𝕠𝕦𝕓𝕝𝕖 𝖲𝖺𝗇𝗌𝖾𝗋𝗂𝖿 𝙼𝚘𝚗𝚘𝚂𝚙𝚊𝚜𝚞
432デフォルトの名無しさん
2020/12/23(水) 16:04:04.77ID:Yot4/iGO433デフォルトの名無しさん
2020/12/23(水) 18:21:51.29ID:dwGREUpD コード表一列読み間違えて16ズレた。
何かローマ字みたいになってるけど偶然。
何かローマ字みたいになってるけど偶然。
434デフォルトの名無しさん
2020/12/23(水) 20:48:10.24ID:nit2qqbj SNSのアカウント名でこういう文字使ってる人いるよねえ
特に詳しそうには見えない人が多いが簡単入力できるツールかサイトがあるんだろうかね
特に詳しそうには見えない人が多いが簡単入力できるツールかサイトがあるんだろうかね
435デフォルトの名無しさん
2020/12/24(木) 08:15:43.26ID:EahE3vDH テスト
🅿🅴🅽 🅿🅸🅽🅴🅰🅿🅿🅻🅴 🅰🅿🅿🅻🅴 🅿🅴🅽
🅿🅴🅽 🅿🅸🅽🅴🅰🅿🅿🅻🅴 🅰🅿🅿🅻🅴 🅿🅴🅽
436デフォルトの名無しさん
2020/12/24(木) 13:14:04.00ID:Tf2UBq9W ℤ
437デフォルトの名無しさん
2020/12/24(木) 14:37:35.38ID:LJDzLTFM 何だろう? 専ブラだと全部読めるけど Firefox だと読めたり読めなかったりする。
431 と 435 は Firefox でも読める。432は読めない。436 は Z だけ読める。
🄟⒜⒭⒠⒩⒯⒣⒠⒮⒤⒵⒠⒟
Ⓒⓘⓡⓒⓛⓔⓓ
🅂🅀🅄🄰🅁🄴🄳
🅝🅔🅖🅐🅣🅘🅥🅔 🅒🅘🅡🅒🅛🅔🅓
🅽🅴🆃🅰🅶🅸🆅🅴 🆂🆀🆄🅰🆁🅴🅳
431 と 435 は Firefox でも読める。432は読めない。436 は Z だけ読める。
🄟⒜⒭⒠⒩⒯⒣⒠⒮⒤⒵⒠⒟
Ⓒⓘⓡⓒⓛⓔⓓ
🅂🅀🅄🄰🅁🄴🄳
🅝🅔🅖🅐🅣🅘🅥🅔 🅒🅘🅡🅒🅛🅔🅓
🅽🅴🆃🅰🅶🅸🆅🅴 🆂🆀🆄🅰🆁🅴🅳
438デフォルトの名無しさん
2020/12/24(木) 14:50:54.98ID:LJDzLTFM わかったサロゲートが原因だな。
BMP 以外の文字を &#XXXXX; 形式で投げる時に、なぜかサロゲート分解して2文字にして投げてるクライアントがいるな。
内部でいったん UTF-16 に変換すれば復元できるけど、内部がUTF32やUTF8だと未定文字になる。
BMP 以外の文字を &#XXXXX; 形式で投げる時に、なぜかサロゲート分解して2文字にして投げてるクライアントがいるな。
内部でいったん UTF-16 に変換すれば復元できるけど、内部がUTF32やUTF8だと未定文字になる。
439デフォルトの名無しさん
2020/12/25(金) 12:51:47.65ID:qJluI3Ne 同じ専ブラでも端末が変わると読めなくなるみたいだけど
440デフォルトの名無しさん
2020/12/25(金) 14:23:41.08ID:wLkIv5a0 そりゃフォントが違うから
441デフォルトの名無しさん
2020/12/25(金) 21:14:44.85ID:xu2VH6Eq フォントに?
442デフォルトの名無しさん
2020/12/31(木) 06:07:50.70ID:YZyBnRB+ → → → ~ のパターンでさりげなく令和が増えていて驚いた。
㋿ U+32ff
㋿ U+32ff
443デフォルトの名無しさん
2020/12/31(木) 06:20:27.61ID:rUTWKsHs あれほど騒ぎになったのに今更かよw
444デフォルトの名無しさん
2020/12/31(木) 06:48:08.64ID:YZyBnRB+ >>443
いや、正確に言うと、自分の使ってるPCでその㋿が表示されることに驚いたのね。
買った直後だけアプデしてその後ずっとアプデしないようにしてたから。
アプデしてないアイポン6で表示されてないのを見てちょっと安心しました。
いや、正確に言うと、自分の使ってるPCでその㋿が表示されることに驚いたのね。
買った直後だけアプデしてその後ずっとアプデしないようにしてたから。
アプデしてないアイポン6で表示されてないのを見てちょっと安心しました。
445デフォルトの名無しさん
2020/12/31(木) 06:51:45.99ID:YZyBnRB+ 丸付きにも四角付きにも 音・訓・外 が無くて悲しい。
ということで以下は、ブラウザやアイポンでの表示チェックです。
音:㋔ Ⓒ㋾ⓞ
訓:㋗ Ⓙⓙ🅹🄹ⓝ
外:▲ ⓖⒼ
中: 厨Ⓒ
訓読みは Ⓚ という文字を使いたいくないので 字訓を元にしたⒿとか 大和言葉(和語)を基にする方がいいなぁ。
音読みは中国由来のⒸの方が㋔よりもいいかもしれない。
外字は小中学生や外人さんにはあまり使わない文字なので▲で良いと思う。
丸付きの ガ があればそれで決まりだったんだけどいろいろ揃って無いよなぁ。
で、辞書で出てくる 中 ってなんの意味か知ってる人が居たら教えてください。
なんとなく中国史で使うっていうような意味っぽいけど。あるいは中学で覚えるとか?
ということで以下は、ブラウザやアイポンでの表示チェックです。
音:㋔ Ⓒ㋾ⓞ
訓:㋗ Ⓙⓙ🅹🄹ⓝ
外:▲ ⓖⒼ
中: 厨Ⓒ
訓読みは Ⓚ という文字を使いたいくないので 字訓を元にしたⒿとか 大和言葉(和語)を基にする方がいいなぁ。
音読みは中国由来のⒸの方が㋔よりもいいかもしれない。
外字は小中学生や外人さんにはあまり使わない文字なので▲で良いと思う。
丸付きの ガ があればそれで決まりだったんだけどいろいろ揃って無いよなぁ。
で、辞書で出てくる 中 ってなんの意味か知ってる人が居たら教えてください。
なんとなく中国史で使うっていうような意味っぽいけど。あるいは中学で覚えるとか?
446デフォルトの名無しさん
2020/12/31(木) 07:36:55.69ID:YZyBnRB+447デフォルトの名無しさん
2020/12/31(木) 20:58:20.96ID:DjLZ71J5 サロゲートペアは本当に厄介者
448デフォルトの名無しさん
2020/12/31(木) 21:04:25.88ID:2bA0HVQw 結合文字「サロゲートペア程度にやられてるのか?」
異体字セレクタ「奴はUnicode四天王の中でも最弱」
????「サロゲートペアごときに負けるとはプログラマの面汚しよ…」
異体字セレクタ「奴はUnicode四天王の中でも最弱」
????「サロゲートペアごときに負けるとはプログラマの面汚しよ…」
449デフォルトの名無しさん
2020/12/31(木) 23:29:53.71ID:AP5qdpgj 混沌を極めるUNICODE界…
もう一回いちから(別案で)やり直す可能性ってあるのかな
もう一回いちから(別案で)やり直す可能性ってあるのかな
450デフォルトの名無しさん
2021/01/01(金) 02:12:50.76ID:YAS452Oz ないよ
というか仕切り直したところで今のUnicodeは内包されるに決まってるからメリットがないよ
というか仕切り直したところで今のUnicodeは内包されるに決まってるからメリットがないよ
451デフォルトの名無しさん
2021/01/01(金) 08:19:29.86ID:u/6kYyhd BMPに還るのがいい
452デフォルトの名無しさん
2021/01/01(金) 22:27:30.90ID:rsUPFffA あけましておめでとうございます
Unicode 14.0.0の発表が9月に延期になって寂しい
Unicode 14.0.0の発表が9月に延期になって寂しい
453デフォルトの名無しさん
2021/01/02(土) 00:20:21.99ID:3z5SV0Cg 有名所の13対応のフリーのフォントてもう出てましたっけ?
454デフォルトの名無しさん
2021/01/02(土) 09:08:13.69ID:peE3gLXE あけおめ。
サロゲートペア対応の漢字のみ収集コード JavaScript版、
𪗱𪘂𪘚 の3つがサロゲートペアかな? 読めなくてアレですが。
お隣の文字はちゃんと省いてる、使えば大願成就間違いなしの縁起物?バージョンです
絵文字も省いていたような気がするけどなんかいろいろ忘れてますね。
re = "abcd齆あ齓齕齘ab𪗱齝𪘂齩𪘚々齭てすと".match(/([\uD840-\uD869][\uDC00-\uDFFF]|[々〇\u303B\u3400-\u9FFF\uF900-\uFAFF])+/g);
console.log( re );
サロゲートペア対応の漢字のみ収集コード JavaScript版、
𪗱𪘂𪘚 の3つがサロゲートペアかな? 読めなくてアレですが。
お隣の文字はちゃんと省いてる、使えば大願成就間違いなしの縁起物?バージョンです
絵文字も省いていたような気がするけどなんかいろいろ忘れてますね。
re = "abcd齆あ齓齕齘ab𪗱齝𪘂齩𪘚々齭てすと".match(/([\uD840-\uD869][\uDC00-\uDFFF]|[々〇\u303B\u3400-\u9FFF\uF900-\uFAFF])+/g);
console.log( re );
455デフォルトの名無しさん
2021/01/02(土) 16:52:42.20ID:c+PMhAgd456デフォルトの名無しさん
2021/01/02(土) 21:50:17.89ID:NzxSghB6 GUIライブラリTkはいまだにサロゲートペアに対応しておらず絵文字を使えない。
457デフォルトの名無しさん
2021/01/03(日) 14:22:31.22ID:uzdBwonC ここもunicode=changeな板が多すぎてな
このオプション消滅せんかな
このオプション消滅せんかな
458デフォルトの名無しさん
2021/01/05(火) 12:09:35.45ID:G8BimKKu 5chもほぼSJIS専用やんけ
459デフォルトの名無しさん
2021/01/05(火) 18:11:40.31ID:F/xhjvIl460デフォルトの名無しさん
2021/01/05(火) 21:01:08.07ID:Xkz87/Po たまにスレタイで絵文字入ってるのあるけど
あれも文字参照で入力してるのかな
あれも文字参照で入力してるのかな
461デフォルトの名無しさん
2021/01/05(火) 21:11:16.54ID:TUUmcJJM https://twitter.com/MarkusGerstel/status/1343249726456606720
UK/EU trade agreement redefines ASCII character 123 to be 3 characters, and ASCII 125 to be 2 characters.
But I'm sure the legal bits are fine and need no scrutiny whatsoever.
https://twitter.com/5chan_nel (5ch newer account)
UK/EU trade agreement redefines ASCII character 123 to be 3 characters, and ASCII 125 to be 2 characters.
But I'm sure the legal bits are fine and need no scrutiny whatsoever.
https://twitter.com/5chan_nel (5ch newer account)
462デフォルトの名無しさん
2021/01/05(火) 21:12:01.50ID:TUUmcJJM463デフォルトの名無しさん
2021/01/06(水) 09:23:40.34ID:nouQm06h 絵文字テスト (↓の&と¥は全角)
Growing star 🌟 , &#x1f31f; , &#127775; , ¥u{1f31f}
SJIS環境だとサロゲートペアはエラーになるんじゃね?
ウニコードベースのエディタへの移行に失敗というか断念して
未だにSJISベースのテキストエディタをメインに使ってる俺が言ってみたり。
そう言えばサクラエディタのマクロフルセット?サポート版てどこでダウンロードするのが良いのだろう?
Growing star 🌟 , &#x1f31f; , &#127775; , ¥u{1f31f}
SJIS環境だとサロゲートペアはエラーになるんじゃね?
ウニコードベースのエディタへの移行に失敗というか断念して
未だにSJISベースのテキストエディタをメインに使ってる俺が言ってみたり。
そう言えばサクラエディタのマクロフルセット?サポート版てどこでダウンロードするのが良いのだろう?
464デフォルトの名無しさん
2021/01/06(水) 18:53:39.44ID:BIuq+YWk あ、Chromeって検索のとき全角半角を区別しないのか。今知ったw
っていうかそもそも大文字小文字も区別しないのか。へー。
でもこの手の正規化を無効にするオプションもないようだしちょっと不便。
っていうかそもそも大文字小文字も区別しないのか。へー。
でもこの手の正規化を無効にするオプションもないようだしちょっと不便。
465デフォルトの名無しさん
2021/01/06(水) 19:42:47.04ID:evtp6HPL chromeの検索の同一視はなんか怪しいというか独自テーブルかな
466デフォルトの名無しさん
2021/01/07(木) 00:30:30.04ID:RA5aGs7i 最近は知らないが昔のFirefoxは全角半角同一視してくれなくて大変困った
467デフォルトの名無しさん
2021/01/07(木) 01:59:00.08ID:HEGtY6UH468デフォルトの名無しさん
2021/01/07(木) 02:00:13.67ID:o03LMIA7469デフォルトの名無しさん
2021/01/10(日) 18:48:17.35ID:akopncMr470デフォルトの名無しさん
2021/01/10(日) 20:04:42.25ID:/+cMzhpZ やるとしてJSoueceの方をobsoleteされるんだろw
471デフォルトの名無しさん
2021/01/20(水) 22:49:15.22ID:Eoi5GIMM テキストエディターが改行コードを間違って解釈しないように
BOMの機能を拡張して改行コードの種類も表せるようにしたらどうなんだろう
BOMの機能を拡張して改行コードの種類も表せるようにしたらどうなんだろう
472デフォルトの名無しさん
2021/01/21(木) 00:18:54.31ID:Nk7WM/aM 来月からUnicode 14に向けた準備が始まるそうだけど
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか
473デフォルトの名無しさん
2021/01/21(木) 12:01:56.27ID:uTJ86sk/ 改行コード間違うのってたいてい改行コードが混在してるのが原因じゃないの?
475デフォルトの名無しさん
2021/01/22(金) 23:50:53.67ID:SkpJ9szj eメールは8bitの文字を7bitに変換して送るのが一般的だけど
今でも7bitしか扱えないメールサーバーってあるんだろうか
今でも7bitしか扱えないメールサーバーってあるんだろうか
476デフォルトの名無しさん
2021/01/25(月) 20:49:52.31ID:r2WhSNc4 前に件名を=?ISO-2022-JP?B?の形式でエンコードせずに直接ShiftJISを書きこみ
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと
477デフォルトの名無しさん
2021/01/25(月) 20:59:52.42ID:nPU6SWGR 8bitを化けさせるようなメールサーバーが今でも存在するのかという質問であって、お前の化けなかった経験は何の解答にもなってない。
478デフォルトの名無しさん
2021/01/25(月) 22:50:52.28ID:dmbNtT1m そりゃあ、存在しないという解答は解答にならなくて存在しているという解答だけが解答になるわけだ。
479デフォルトの名無しさん
2021/01/26(火) 00:14:38.98ID:c6DHU6bT 現れないのが透明人間です
みたいな話
みたいな話
480デフォルトの名無しさん
2021/01/29(金) 22:30:48.89ID:SgmI7msw 規格上はオプションではあるがSMTP POP3 IMAP4全てでUTF-8をそのまま送受信できるから
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな
481デフォルトの名無しさん
2021/01/30(土) 00:20:35.73ID:nT2XTKgy >>480
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。
482デフォルトの名無しさん
2021/01/30(土) 01:48:16.96ID:i+4/kULN 先賢の方々が何処かの頃合いで8bitクリーンに作り直しておいてくれればなぁ
483デフォルトの名無しさん
2021/01/30(土) 04:51:50.38ID:yJsdZMSi 問題になるのはTAB,SP,BS,ESC,DELとかの制御コードなのでBase64等は必須でしょうね
行頭の'.'も気にしなくて良くなる
行頭の'.'も気にしなくて良くなる
484デフォルトの名無しさん
2021/02/01(月) 15:56:04.61ID:2wWFCs7L どうしてメールは7bitが基本になったんだろうね
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか
485デフォルトの名無しさん
2021/02/01(月) 19:54:24.08ID:daMBxrCa もともとインターネットでメールがやり取りされるようになる以前から
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。
486デフォルトの名無しさん
2021/02/01(月) 19:58:08.39ID:B8SI3YQR SMTPが出来たは40年ちかく昔だからなあ
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう
487デフォルトの名無しさん
2021/02/01(月) 21:54:37.95ID:A78/KaWg コマンド以外は全て8bitのバイナリデータとして扱ってエンコードしないで
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない
489デフォルトの名無しさん
2021/02/02(火) 00:59:48.46ID:ecf2UzG0 binarymimeって使われてないの?
490デフォルトの名無しさん
2021/02/02(火) 13:36:00.69ID:8YNA1BPy491デフォルトの名無しさん
2021/02/03(水) 21:38:48.49ID:nNuCDyZ2 記号以外のASCII文字はエンコード後も変化しないという意味でUTF-8を7bitにエンコードするなら
quoted printableがbase64より合っていると思うんだけど
メールでのUTF-8の普及に合わせてquoted printableも普及しないかな
quoted printableがbase64より合っていると思うんだけど
メールでのUTF-8の普及に合わせてquoted printableも普及しないかな
492デフォルトの名無しさん
2021/02/03(水) 22:02:22.02ID:PgvsD/XS そういえばUTF7なんてのもあったね
どこで使ってたんだろう?と思ってググったらIMAP4とかだと2010年前後でも当たり前に使われていたらしい
メールはかなり最近まで(今も?)7bitを大事にする文化みたいだね
どこで使ってたんだろう?と思ってググったらIMAP4とかだと2010年前後でも当たり前に使われていたらしい
メールはかなり最近まで(今も?)7bitを大事にする文化みたいだね
493デフォルトの名無しさん
2021/02/03(水) 22:21:53.66ID:WEk0ntun 本当はもう無いのに「読めないぞ」というクレームが怖くて残ってるんじゃ。
残ってても、そもそもそんなところに8bitのメールは送られないような。
残ってても、そもそもそんなところに8bitのメールは送られないような。
494デフォルトの名無しさん
2021/02/04(木) 01:36:54.71ID:JoFJnM0w 今現在のメールの良さって汎用性・後方互換性に尽きるからなあ
495デフォルトの名無しさん
2021/02/04(木) 18:23:08.62ID:ez+Z5Z3J https://www.janog.gr.jp/meeting/janog31/resume/janog31-i18nmail-fujiwara-01.pdf#page=10
この形式でメールを送れるメールソフトがどのくらいあるのか分からないけど
今はこの形式でメールを送って、問題が出たら従来の形式で送るというくらいでもいいんじゃないの
この形式でメールを送れるメールソフトがどのくらいあるのか分からないけど
今はこの形式でメールを送って、問題が出たら従来の形式で送るというくらいでもいいんじゃないの
496デフォルトの名無しさん
2021/02/08(月) 21:58:11.42ID:dRtPTDkz UTF-16がunicodeをややこしくさせる原因になってるよね
unicodeのコードポイントがU+7FFFFFFFからU+10FFFFまでに制限されたのも
サロゲートペアも考慮しないといけない所もUTF-16のせいなんだし
unicodeのコードポイントがU+7FFFFFFFからU+10FFFFまでに制限されたのも
サロゲートペアも考慮しないといけない所もUTF-16のせいなんだし
497デフォルトの名無しさん
2021/02/12(金) 05:28:51.22ID:iQJLsSxS 麻雀牌が全部登録されたのに🀄だけ先行だから見た目が違うのどうにかならんのか…
498デフォルトの名無しさん
2021/02/12(金) 08:42:44.00ID:9pKWi6uS フォント次第だろ
499デフォルトの名無しさん
2021/02/12(金) 08:54:47.22ID:nGt16DhZ >>498
大抵のフォントでも🀄だけは違うよ
大抵のフォントでも🀄だけは違うよ
500デフォルトの名無しさん
2021/02/12(金) 14:05:54.17ID:dwh87PNV Ninja Catは新たな機種依存文字といえるだろうか
501デフォルトの名無しさん
2021/02/12(金) 16:22:53.75ID:Dgq2mig/ >>496
というかそれはUnicodeの歴史とむすびついてるわけだし。
当初16ビットでということでWindowsやMacがそれを採用、しかしリリース後に16ビット
では足りないことが判明。もうその時点ではサロゲートペア的なものでどうにかする
のは仕方ないかも。
というわけでややこしいのはUnicodeそのものw
というかそれはUnicodeの歴史とむすびついてるわけだし。
当初16ビットでということでWindowsやMacがそれを採用、しかしリリース後に16ビット
では足りないことが判明。もうその時点ではサロゲートペア的なものでどうにかする
のは仕方ないかも。
というわけでややこしいのはUnicodeそのものw
502デフォルトの名無しさん
2021/02/12(金) 23:39:41.89ID:2MB5qean ♡
💙
💙
503デフォルトの名無しさん
2021/02/12(金) 23:59:30.90ID:dwh87PNV 16ビットで足りない事が判明した時点でUTF-32に移行できればよかったんだけど
未だにUTF-32に対応したソフトは少ないんだよね
未だにUTF-32に対応したソフトは少ないんだよね
504デフォルトの名無しさん
2021/02/13(土) 06:00:35.89ID:neaggcXJ 理論上は、UTF-32でも足りない。無限に増えるユニコード表に対応するには、UTF-32にもサロゲートが必要。
505デフォルトの名無しさん
2021/02/13(土) 06:02:18.96ID:xr59QL32 歯磨き粉買ってくる
506デフォルトの名無しさん
2021/02/13(土) 09:04:37.07ID:+Dfn0XQq 無限に増える理屈を詳しく
507デフォルトの名無しさん
2021/02/13(土) 10:43:02.72ID:Xo6k9nK0 宇宙文明
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 [ぐれ★]
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★2 [BFU★]
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★3 [BFU★]
- 外務省局長は無言で厳しい表情…日中の高官協議終了か 高市首相“台湾”発言で中国が強硬対応 発言撤回求めたか…★2 [BFU★]
- 小野田紀美・経済安保担当相「何か気に入らないことがあればすぐに経済的威圧をする国への依存はリスク」 [Hitzeschleier★]
- 政府、株式の配当など金融所得を高齢者の医療保険料や窓口負担に反映する方針を固めた [バイト歴50年★]
- 中国高官と話す外務省局長の表情、やばい ★2 [175344491]
- 高市早苗政権「経済的威圧をしてくる国はリスク」 トランプぴょんぴょん政権さん…… [175344491]
- 偏差値35大臣「すぐに経済的威圧するところへの依存はリスク」 [834922174]
- 中国外務省「日中関係の悪化は高市早苗首相が原因」と名指しで強く非難。キタ━(゚∀゚)━! [153490809]
- 【朗報】高市、中国からの日本行き空路49万件キャンセルを達成🤩オーバーツーリズム対策の手腕が光る [359965264]
- 日本政府「高市総理の発言は問題ないと伝え、中国総領事のSNS投稿は問題があると中国に伝えました😊」 [931948549]
