プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/12/17(月) 16:48:24.47ID:Pfqpaohb391デフォルトの名無しさん
2020/12/08(火) 11:51:17.55ID:3Lge4PBr392デフォルトの名無しさん
2020/12/08(火) 12:25:05.31ID:no2frcgf >>391
shiftjisは扱わないのでutf8での方法を教えてください
shiftjisは扱わないのでutf8での方法を教えてください
393デフォルトの名無しさん
2020/12/08(火) 17:31:43.20ID:/pT3aml4394デフォルトの名無しさん
2020/12/08(火) 18:36:17.22ID:E4wQPgos 長音(ー)とかの扱いがめんどくさい
395デフォルトの名無しさん
2020/12/09(水) 06:33:19.08ID:Hs7wcc9u ちょっと疑問に思ったのだけど、
utf8 の iskanji を作るとしたら、繁体字とかも含めますか?
それとも今は JISx0213:2004(11233文字) だけ?
それともこれの次の標準化規格になるものってありましたっけ?
utf8 の iskanji を作るとしたら、繁体字とかも含めますか?
それとも今は JISx0213:2004(11233文字) だけ?
それともこれの次の標準化規格になるものってありましたっけ?
396デフォルトの名無しさん
2020/12/09(水) 06:43:54.04ID:Hs7wcc9u ishankana() みたいなもの、javascript 版
if( /^[アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲンァィゥェォャュョッ、。ー「」゙゚・]/.test('ア') )
{
console.log( '半角カタカナです');
}
if( /^[アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲンァィゥェォャュョッ、。ー「」゙゚・]/.test('ア') )
{
console.log( '半角カタカナです');
}
397デフォルトの名無しさん
2020/12/09(水) 07:34:03.35ID:qbXHpF4v そのiskanjiとやらであなたが何を判定したいか次第だと思うんだけど・・
サロゲートペアの漢字とかも気にしなきゃだめだろうねえ
サロゲートペアの漢字とかも気にしなきゃだめだろうねえ
398デフォルトの名無しさん
2020/12/09(水) 08:14:17.98ID:TKgHvdMy >>396
半角カナは後ろの方の文字コードでかたまってるから簡単じゃろ。
漢字とか結構カオスでテーブル作ったほうが良さそうだね。
必要文字コード列挙してバイナリサーチするアルゴリズムがええのかな?
厳格でなくていいなら半角カナみたいに文字コードテーブルみて
ざっくり判定でも割と行けるとは思うけど。
半角カナは後ろの方の文字コードでかたまってるから簡単じゃろ。
漢字とか結構カオスでテーブル作ったほうが良さそうだね。
必要文字コード列挙してバイナリサーチするアルゴリズムがええのかな?
厳格でなくていいなら半角カナみたいに文字コードテーブルみて
ざっくり判定でも割と行けるとは思うけど。
399デフォルトの名無しさん
2020/12/09(水) 09:06:33.04ID:Hs7wcc9u そういえば前に、amazon kindle端末用の電子書籍データ云々でここに書きこんだ記憶が、
と思い当って見直してみたら2か月前でした・・・、
私の方は KDP の仕様にあってるかどうかをチェックするのが目的だったのですが、
確かにカオスでしたね。ちなみに半角カナのコードを出しておいてあれなのですが、
JISx0213 規格的には半角カナは含まれてないっぽいです(x0208も同様です)。
チェック用のプログラムは結局普通の配列に規格の文字を全部入れておいて、
そこにあれば OK なければ NG という感じになりました。
サロゲートペアの扱いも面倒だったし。
あ、今気づいたけれど、JISx0213 的には全角英数記号ってもしかして NG なのでは?
いやでも wiki のページでは SJISコードは全角になってるし・・・、
と思い当って見直してみたら2か月前でした・・・、
私の方は KDP の仕様にあってるかどうかをチェックするのが目的だったのですが、
確かにカオスでしたね。ちなみに半角カナのコードを出しておいてあれなのですが、
JISx0213 規格的には半角カナは含まれてないっぽいです(x0208も同様です)。
チェック用のプログラムは結局普通の配列に規格の文字を全部入れておいて、
そこにあれば OK なければ NG という感じになりました。
サロゲートペアの扱いも面倒だったし。
あ、今気づいたけれど、JISx0213 的には全角英数記号ってもしかして NG なのでは?
いやでも wiki のページでは SJISコードは全角になってるし・・・、
400デフォルトの名無しさん
2020/12/09(水) 09:18:54.21ID:bCzZQrOf ライブラリ内ではユニコードスカラー値についてのみ取り扱うと良いと思います。
401デフォルトの名無しさん
2020/12/09(水) 13:23:38.64ID:y7KEYUhD Ruby の古いNKF を使うと、片仮名・平仮名の変換もできるけど、
片仮名・平仮名を判定するメソッドはない
たぶん、NKF の内部では、そういう関数があるのだろけど、公開されていないのかも
module NKF
https://docs.ruby-lang.org/ja/latest/class/NKF.html
require 'nkf'
p NKF.nkf( '-m0 -h3 -w', 'あイ' )
#=> "アい"
片仮名・平仮名を判定するメソッドはない
たぶん、NKF の内部では、そういう関数があるのだろけど、公開されていないのかも
module NKF
https://docs.ruby-lang.org/ja/latest/class/NKF.html
require 'nkf'
p NKF.nkf( '-m0 -h3 -w', 'あイ' )
#=> "アい"
402デフォルトの名無しさん
2020/12/09(水) 13:25:03.81ID:rIU0lDlE オプションそのまま文字列で渡すとか
ダッセェインターフェースだな
手抜きにも程がある
ダッセェインターフェースだな
手抜きにも程がある
403401
2020/12/09(水) 14:41:10.37ID:y7KEYUhD Ruby の正規表現・鬼雲で判別できた
re_hira = /\p{hiragana}{1}/ # 平仮名
re_kata = /\p{katakana}{1}/ # カタカナ
str = '愛あいカキうクx'
str.each_char do |ch|
ch.match( re_hira ){ |md| puts "平仮名 : #{ md[ 0 ] }" }
ch.match( re_kata ){ |md| puts "カタカナ : #{ md[ 0 ] }" }
end
出力
平仮名 : あ
平仮名 : い
カタカナ : カ
カタカナ : キ
平仮名 : う
カタカナ : ク
re_hira = /\p{hiragana}{1}/ # 平仮名
re_kata = /\p{katakana}{1}/ # カタカナ
str = '愛あいカキうクx'
str.each_char do |ch|
ch.match( re_hira ){ |md| puts "平仮名 : #{ md[ 0 ] }" }
ch.match( re_kata ){ |md| puts "カタカナ : #{ md[ 0 ] }" }
end
出力
平仮名 : あ
平仮名 : い
カタカナ : カ
カタカナ : キ
平仮名 : う
カタカナ : ク
404デフォルトの名無しさん
2020/12/09(水) 15:27:54.98ID:tBDPYy0r >>402
tcl/tk
tcl/tk
405デフォルトの名無しさん
2020/12/09(水) 16:19:55.89ID:H89RJ3R9 こゝろ
406401
2020/12/09(水) 17:51:11.38ID:y7KEYUhD >>403
を修正
Ruby の正規表現・鬼雲で、平仮名・カタカナ・漢字を判別した
re_hira = /\p{Hiragana}{1}/ # 平仮名
re_kata = /\p{Katakana}{1}/ # カタカナ
re_han = /\p{Han}{1}/ # 漢字
str = 'Aあい善悪カキ愛うクx'
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
ch.match( re_hira ){ |md| puts "平仮名 : #{ md[ 0 ] }" }
ch.match( re_kata ){ |md| puts "カタカナ : #{ md[ 0 ] }" }
ch.match( re_han ){ |md| puts "漢字 : #{ md[ 0 ] }" }
end
出力
平仮名 : あ
平仮名 : い
漢字 : 善
漢字 : 悪
カタカナ : カ
カタカナ : キ
漢字 : 愛
平仮名 : う
カタカナ : ク
を修正
Ruby の正規表現・鬼雲で、平仮名・カタカナ・漢字を判別した
re_hira = /\p{Hiragana}{1}/ # 平仮名
re_kata = /\p{Katakana}{1}/ # カタカナ
re_han = /\p{Han}{1}/ # 漢字
str = 'Aあい善悪カキ愛うクx'
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
ch.match( re_hira ){ |md| puts "平仮名 : #{ md[ 0 ] }" }
ch.match( re_kata ){ |md| puts "カタカナ : #{ md[ 0 ] }" }
ch.match( re_han ){ |md| puts "漢字 : #{ md[ 0 ] }" }
end
出力
平仮名 : あ
平仮名 : い
漢字 : 善
漢字 : 悪
カタカナ : カ
カタカナ : キ
漢字 : 愛
平仮名 : う
カタカナ : ク
407デフォルトの名無しさん
2020/12/09(水) 18:21:03.27ID:L/x3uoyo C++かC#でお願いします
408401
2020/12/09(水) 18:56:51.76ID:y7KEYUhD 鬼雲を、C++, C# など、他言語から使えないのか?
409デフォルトの名無しさん
2020/12/09(水) 19:27:16.18ID:jODQKuwy 高性能高速ライブラリがあるのに、
なぜわざわざ、
低性能低速言語Rubyの、
低性能低速libraryを使う必要が、
あるんだ?、
なぜわざわざ、
低性能低速言語Rubyの、
低性能低速libraryを使う必要が、
あるんだ?、
410デフォルトの名無しさん
2020/12/09(水) 19:45:05.56ID:ZEWfqGU4 C/C++は生産性が低いから
411401
2020/12/09(水) 19:59:27.39ID:y7KEYUhD412デフォルトの名無しさん
2020/12/10(木) 07:33:03.31ID:KWX3PjQ+ >>406
ruby を全然しらんのだが、 each_char ってのはどういう単位で文字を切り出してくるの?
上であったがサロゲートとか、絵文字とか、そのあたり特に。
Hanというプロパティは日本に限らず中国や韓国のも全部入り?
ruby を全然しらんのだが、 each_char ってのはどういう単位で文字を切り出してくるの?
上であったがサロゲートとか、絵文字とか、そのあたり特に。
Hanというプロパティは日本に限らず中国や韓国のも全部入り?
413デフォルトの名無しさん
2020/12/10(木) 08:02:18.65ID:oexX+ZIk >>407
グダグダいってるうちにスクラッチで車輪の再発明実装が終わる頃だな。
iskanjiはテーブル使うしかないかね?JISコードに変換して昔ながらの判定
するにもJISコード変換にテーブル
使うことになるだろうし。
どこかのページに色分けして中国専用の漢字の混ざり具合見せてたけどエグいねw
グダグダいってるうちにスクラッチで車輪の再発明実装が終わる頃だな。
iskanjiはテーブル使うしかないかね?JISコードに変換して昔ながらの判定
するにもJISコード変換にテーブル
使うことになるだろうし。
どこかのページに色分けして中国専用の漢字の混ざり具合見せてたけどエグいねw
414デフォルトの名無しさん
2020/12/10(木) 10:34:51.08ID:RjOF8qIo 謎のタイ語判定コード , Javascript 版
strThai = "\u0e01\u0e51\u0e3f ทำงาน";
re = strThai.match(/([\u0E00-\u0E7F])+/g);
console.log( re );
参考ページ等
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/u0e00.html
https://0g0.org/category/0E00-0E7F/1/
サロゲートペアを考慮しなくて良い言語はこのパターンでオーケーかな?
strThai = "\u0e01\u0e51\u0e3f ทำงาน";
re = strThai.match(/([\u0E00-\u0E7F])+/g);
console.log( re );
参考ページ等
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/u0e00.html
https://0g0.org/category/0E00-0E7F/1/
サロゲートペアを考慮しなくて良い言語はこのパターンでオーケーかな?
415401
2020/12/10(木) 12:43:53.30ID:HstTQkWC >>412
Ruby の1文字は、バイトサイズと異なる
str = "👪θ💀Ω🄫"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👪 : 1, 4
θ : 1, 2
💀 : 1, 4
Ω : 1, 2
🄫 : 1, 4
Ruby の1文字は、バイトサイズと異なる
str = "👪θ💀Ω🄫"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👪 : 1, 4
θ : 1, 2
💀 : 1, 4
Ω : 1, 2
🄫 : 1, 4
416401
2020/12/10(木) 12:51:25.91ID:HstTQkWC417デフォルトの名無しさん
2020/12/10(木) 20:31:09.89ID:CcbWokCZ >>415
おお、すごい!
早速ローカルで試してみた... スキントーンがいけてなかった。おしい。
str = "👨🏻🦲"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👨 : 1, 4
;🏻 : 1, 4
; : 1, 3
🦲 : 1, 4
ハゲが直った! みたいなw
おお、すごい!
早速ローカルで試してみた... スキントーンがいけてなかった。おしい。
str = "👨🏻🦲"
p str.encoding #=> <Encoding:UTF-8>
str.each_char do |ch| # 1文字ずつ処理する
puts "#{ ch } : #{ ch.size }, #{ ch.bytesize }"
end
出力
👨 : 1, 4
;🏻 : 1, 4
; : 1, 3
🦲 : 1, 4
ハゲが直った! みたいなw
418デフォルトの名無しさん
2020/12/10(木) 20:34:43.12ID:CcbWokCZ あ、出力が微妙に違うかも。5chブラウザにペーストしたせいかも。
あともしかしてスキントーンはあえて別キャラ扱いとか?
あともしかしてスキントーンはあえて別キャラ扱いとか?
419デフォルトの名無しさん
2020/12/10(木) 21:25:24.00ID:YXjbRyJb オレオレ用語UZEEE!!
420デフォルトの名無しさん
2020/12/11(金) 06:34:28.41ID:5L91jtkU ん、何か変なこと書いてある?
しかし書き込む瞬間、絵文字が5chブラウザでちゃんと表示できるかちょっと不安に
なったが、一応いけるみたいね。少なくともオレオレ環境では。
5ch側はSJIS+数値参照を流しているだけかもしれんが。
しかし書き込む瞬間、絵文字が5chブラウザでちゃんと表示できるかちょっと不安に
なったが、一応いけるみたいね。少なくともオレオレ環境では。
5ch側はSJIS+数値参照を流しているだけかもしれんが。
421デフォルトの名無しさん
2020/12/14(月) 05:58:38.59ID:uAdA9GXf 機械学習関係とかで使う奴です。
なんとなく出来たので晒しときますね。
// PHP(UTF-8) での全角カタカナチェック(JISx0213網羅版)
$sKana = ''
. "カ\xE3\x82\x99" // 304B+3099 カに濁点 (Mac,NFD)
. "カ\xE3\x82\x9A" // 304B+309A カに半濁点(JISのセット文字の半濁点 or Mac,NFD 半濁点)
. "゛" // 309B 濁点 (主にWin,半カナから変換される奴?)
. "゜" // 309C 半濁点 (主にWin,同上)
. "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポ"
. "マミムメモャヤュユョヨラリルレヮワヲン"
. "ヴヵヶヰヱ・ーヽヾ"
. "\xE3\x82\xA0" // ダブルハイフン , 30A0
. "\xE3\x83\xB7" // ワに濁点
. "\xE3\x83\xB8" // ヰに濁点
. "\xE3\x83\xB9" // ヱに濁点
. "\xE3\x83\xBA" // ヲに濁点
;
if( 1 === preg_match("/^[\x{3099}-\x{309C}\x{30A0}-ヾ]+$/u",$sKana) )
{
echo "全てカナカナです。";
}
else
{
echo " NG";
}
なんとなく出来たので晒しときますね。
// PHP(UTF-8) での全角カタカナチェック(JISx0213網羅版)
$sKana = ''
. "カ\xE3\x82\x99" // 304B+3099 カに濁点 (Mac,NFD)
. "カ\xE3\x82\x9A" // 304B+309A カに半濁点(JISのセット文字の半濁点 or Mac,NFD 半濁点)
. "゛" // 309B 濁点 (主にWin,半カナから変換される奴?)
. "゜" // 309C 半濁点 (主にWin,同上)
. "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポ"
. "マミムメモャヤュユョヨラリルレヮワヲン"
. "ヴヵヶヰヱ・ーヽヾ"
. "\xE3\x82\xA0" // ダブルハイフン , 30A0
. "\xE3\x83\xB7" // ワに濁点
. "\xE3\x83\xB8" // ヰに濁点
. "\xE3\x83\xB9" // ヱに濁点
. "\xE3\x83\xBA" // ヲに濁点
;
if( 1 === preg_match("/^[\x{3099}-\x{309C}\x{30A0}-ヾ]+$/u",$sKana) )
{
echo "全てカナカナです。";
}
else
{
echo " NG";
}
422デフォルトの名無しさん
2020/12/14(月) 09:18:41.31ID:dIR87NiF 0x31F0-F9のアイヌ語カナ拡張が抜けてるような
423デフォルトの名無しさん
2020/12/14(月) 12:36:10.35ID:uAdA9GXf >>422
どんな文字か全く見てませんけど、コードが分かれば並べていくだけですね。
アイヌ語カナ拡張版?差し替え用ってことで。
"/^[\x{3099}-\x{309C}\x{30A0}-ヾ\x{31F0}-\x{31F9}]+$/u"
どんな文字か全く見てませんけど、コードが分かれば並べていくだけですね。
アイヌ語カナ拡張版?差し替え用ってことで。
"/^[\x{3099}-\x{309C}\x{30A0}-ヾ\x{31F0}-\x{31F9}]+$/u"
424デフォルトの名無しさん
2020/12/15(火) 07:45:42.06ID:mpgmHFbH425デフォルトの名無しさん
2020/12/15(火) 12:56:15.02ID:vE8VpXlG 日本+都道府県番号?
426デフォルトの名無しさん
2020/12/15(火) 13:41:07.26ID:OZzZpMYk >>424
市役所とか行ったことないのか?
市役所とか行ったことないのか?
427デフォルトの名無しさん
2020/12/15(火) 17:27:11.75ID:+Yh7x7Wy ISO 3166-2:JP
428デフォルトの名無しさん
2020/12/15(火) 18:17:13.23ID:Y7kqruGs 問題は東京みたいに旗が2種類あるところ
東京は歴史ある*みたいなほうになるのか銀杏の葉っぱみたいなほうになるのか
東京は歴史ある*みたいなほうになるのか銀杏の葉っぱみたいなほうになるのか
429デフォルトの名無しさん
2020/12/22(火) 20:48:11.38ID:hjkCLTVe ISO - ISO/IEC 10646:2020 - Information technology — Universal coded character set (UCS)
https://www.iso.org/standard/76835.html
2020年の内に完成した模様
ABSTRACTのとこが何か文字化けしてるけど。
https://www.iso.org/standard/76835.html
2020年の内に完成した模様
ABSTRACTのとこが何か文字化けしてるけど。
430デフォルトの名無しさん
2020/12/23(水) 00:48:02.18ID:r3ldn4Uo 何に時間がかかるの
431デフォルトの名無しさん
2020/12/23(水) 14:15:22.80ID:dwGREUpD ここでも行けるかな? 𝐁𝐨𝐥𝐝 𝐼𝑡𝑎𝑖𝑐 𝒮𝒸𝓇𝒾𝓅𝓉 𝔻𝕠𝕦𝕓𝕝𝕖 𝖲𝖺𝗇𝗌𝖾𝗋𝗂𝖿 𝙼𝚘𝚗𝚘𝚂𝚙𝚊𝚜𝚞
432デフォルトの名無しさん
2020/12/23(水) 16:04:04.77ID:Yot4/iGO433デフォルトの名無しさん
2020/12/23(水) 18:21:51.29ID:dwGREUpD コード表一列読み間違えて16ズレた。
何かローマ字みたいになってるけど偶然。
何かローマ字みたいになってるけど偶然。
434デフォルトの名無しさん
2020/12/23(水) 20:48:10.24ID:nit2qqbj SNSのアカウント名でこういう文字使ってる人いるよねえ
特に詳しそうには見えない人が多いが簡単入力できるツールかサイトがあるんだろうかね
特に詳しそうには見えない人が多いが簡単入力できるツールかサイトがあるんだろうかね
435デフォルトの名無しさん
2020/12/24(木) 08:15:43.26ID:EahE3vDH テスト
🅿🅴🅽 🅿🅸🅽🅴🅰🅿🅿🅻🅴 🅰🅿🅿🅻🅴 🅿🅴🅽
🅿🅴🅽 🅿🅸🅽🅴🅰🅿🅿🅻🅴 🅰🅿🅿🅻🅴 🅿🅴🅽
436デフォルトの名無しさん
2020/12/24(木) 13:14:04.00ID:Tf2UBq9W ℤ
437デフォルトの名無しさん
2020/12/24(木) 14:37:35.38ID:LJDzLTFM 何だろう? 専ブラだと全部読めるけど Firefox だと読めたり読めなかったりする。
431 と 435 は Firefox でも読める。432は読めない。436 は Z だけ読める。
🄟⒜⒭⒠⒩⒯⒣⒠⒮⒤⒵⒠⒟
Ⓒⓘⓡⓒⓛⓔⓓ
🅂🅀🅄🄰🅁🄴🄳
🅝🅔🅖🅐🅣🅘🅥🅔 🅒🅘🅡🅒🅛🅔🅓
🅽🅴🆃🅰🅶🅸🆅🅴 🆂🆀🆄🅰🆁🅴🅳
431 と 435 は Firefox でも読める。432は読めない。436 は Z だけ読める。
🄟⒜⒭⒠⒩⒯⒣⒠⒮⒤⒵⒠⒟
Ⓒⓘⓡⓒⓛⓔⓓ
🅂🅀🅄🄰🅁🄴🄳
🅝🅔🅖🅐🅣🅘🅥🅔 🅒🅘🅡🅒🅛🅔🅓
🅽🅴🆃🅰🅶🅸🆅🅴 🆂🆀🆄🅰🆁🅴🅳
438デフォルトの名無しさん
2020/12/24(木) 14:50:54.98ID:LJDzLTFM わかったサロゲートが原因だな。
BMP 以外の文字を &#XXXXX; 形式で投げる時に、なぜかサロゲート分解して2文字にして投げてるクライアントがいるな。
内部でいったん UTF-16 に変換すれば復元できるけど、内部がUTF32やUTF8だと未定文字になる。
BMP 以外の文字を &#XXXXX; 形式で投げる時に、なぜかサロゲート分解して2文字にして投げてるクライアントがいるな。
内部でいったん UTF-16 に変換すれば復元できるけど、内部がUTF32やUTF8だと未定文字になる。
439デフォルトの名無しさん
2020/12/25(金) 12:51:47.65ID:qJluI3Ne 同じ専ブラでも端末が変わると読めなくなるみたいだけど
440デフォルトの名無しさん
2020/12/25(金) 14:23:41.08ID:wLkIv5a0 そりゃフォントが違うから
441デフォルトの名無しさん
2020/12/25(金) 21:14:44.85ID:xu2VH6Eq フォントに?
442デフォルトの名無しさん
2020/12/31(木) 06:07:50.70ID:YZyBnRB+ → → → ~ のパターンでさりげなく令和が増えていて驚いた。
㋿ U+32ff
㋿ U+32ff
443デフォルトの名無しさん
2020/12/31(木) 06:20:27.61ID:rUTWKsHs あれほど騒ぎになったのに今更かよw
444デフォルトの名無しさん
2020/12/31(木) 06:48:08.64ID:YZyBnRB+ >>443
いや、正確に言うと、自分の使ってるPCでその㋿が表示されることに驚いたのね。
買った直後だけアプデしてその後ずっとアプデしないようにしてたから。
アプデしてないアイポン6で表示されてないのを見てちょっと安心しました。
いや、正確に言うと、自分の使ってるPCでその㋿が表示されることに驚いたのね。
買った直後だけアプデしてその後ずっとアプデしないようにしてたから。
アプデしてないアイポン6で表示されてないのを見てちょっと安心しました。
445デフォルトの名無しさん
2020/12/31(木) 06:51:45.99ID:YZyBnRB+ 丸付きにも四角付きにも 音・訓・外 が無くて悲しい。
ということで以下は、ブラウザやアイポンでの表示チェックです。
音:㋔ Ⓒ㋾ⓞ
訓:㋗ Ⓙⓙ🅹🄹ⓝ
外:▲ ⓖⒼ
中: 厨Ⓒ
訓読みは Ⓚ という文字を使いたいくないので 字訓を元にしたⒿとか 大和言葉(和語)を基にする方がいいなぁ。
音読みは中国由来のⒸの方が㋔よりもいいかもしれない。
外字は小中学生や外人さんにはあまり使わない文字なので▲で良いと思う。
丸付きの ガ があればそれで決まりだったんだけどいろいろ揃って無いよなぁ。
で、辞書で出てくる 中 ってなんの意味か知ってる人が居たら教えてください。
なんとなく中国史で使うっていうような意味っぽいけど。あるいは中学で覚えるとか?
ということで以下は、ブラウザやアイポンでの表示チェックです。
音:㋔ Ⓒ㋾ⓞ
訓:㋗ Ⓙⓙ🅹🄹ⓝ
外:▲ ⓖⒼ
中: 厨Ⓒ
訓読みは Ⓚ という文字を使いたいくないので 字訓を元にしたⒿとか 大和言葉(和語)を基にする方がいいなぁ。
音読みは中国由来のⒸの方が㋔よりもいいかもしれない。
外字は小中学生や外人さんにはあまり使わない文字なので▲で良いと思う。
丸付きの ガ があればそれで決まりだったんだけどいろいろ揃って無いよなぁ。
で、辞書で出てくる 中 ってなんの意味か知ってる人が居たら教えてください。
なんとなく中国史で使うっていうような意味っぽいけど。あるいは中学で覚えるとか?
446デフォルトの名無しさん
2020/12/31(木) 07:36:55.69ID:YZyBnRB+447デフォルトの名無しさん
2020/12/31(木) 20:58:20.96ID:DjLZ71J5 サロゲートペアは本当に厄介者
448デフォルトの名無しさん
2020/12/31(木) 21:04:25.88ID:2bA0HVQw 結合文字「サロゲートペア程度にやられてるのか?」
異体字セレクタ「奴はUnicode四天王の中でも最弱」
????「サロゲートペアごときに負けるとはプログラマの面汚しよ…」
異体字セレクタ「奴はUnicode四天王の中でも最弱」
????「サロゲートペアごときに負けるとはプログラマの面汚しよ…」
449デフォルトの名無しさん
2020/12/31(木) 23:29:53.71ID:AP5qdpgj 混沌を極めるUNICODE界…
もう一回いちから(別案で)やり直す可能性ってあるのかな
もう一回いちから(別案で)やり直す可能性ってあるのかな
450デフォルトの名無しさん
2021/01/01(金) 02:12:50.76ID:YAS452Oz ないよ
というか仕切り直したところで今のUnicodeは内包されるに決まってるからメリットがないよ
というか仕切り直したところで今のUnicodeは内包されるに決まってるからメリットがないよ
451デフォルトの名無しさん
2021/01/01(金) 08:19:29.86ID:u/6kYyhd BMPに還るのがいい
452デフォルトの名無しさん
2021/01/01(金) 22:27:30.90ID:rsUPFffA あけましておめでとうございます
Unicode 14.0.0の発表が9月に延期になって寂しい
Unicode 14.0.0の発表が9月に延期になって寂しい
453デフォルトの名無しさん
2021/01/02(土) 00:20:21.99ID:3z5SV0Cg 有名所の13対応のフリーのフォントてもう出てましたっけ?
454デフォルトの名無しさん
2021/01/02(土) 09:08:13.69ID:peE3gLXE あけおめ。
サロゲートペア対応の漢字のみ収集コード JavaScript版、
𪗱𪘂𪘚 の3つがサロゲートペアかな? 読めなくてアレですが。
お隣の文字はちゃんと省いてる、使えば大願成就間違いなしの縁起物?バージョンです
絵文字も省いていたような気がするけどなんかいろいろ忘れてますね。
re = "abcd齆あ齓齕齘ab𪗱齝𪘂齩𪘚々齭てすと".match(/([\uD840-\uD869][\uDC00-\uDFFF]|[々〇\u303B\u3400-\u9FFF\uF900-\uFAFF])+/g);
console.log( re );
サロゲートペア対応の漢字のみ収集コード JavaScript版、
𪗱𪘂𪘚 の3つがサロゲートペアかな? 読めなくてアレですが。
お隣の文字はちゃんと省いてる、使えば大願成就間違いなしの縁起物?バージョンです
絵文字も省いていたような気がするけどなんかいろいろ忘れてますね。
re = "abcd齆あ齓齕齘ab𪗱齝𪘂齩𪘚々齭てすと".match(/([\uD840-\uD869][\uDC00-\uDFFF]|[々〇\u303B\u3400-\u9FFF\uF900-\uFAFF])+/g);
console.log( re );
455デフォルトの名無しさん
2021/01/02(土) 16:52:42.20ID:c+PMhAgd456デフォルトの名無しさん
2021/01/02(土) 21:50:17.89ID:NzxSghB6 GUIライブラリTkはいまだにサロゲートペアに対応しておらず絵文字を使えない。
457デフォルトの名無しさん
2021/01/03(日) 14:22:31.22ID:uzdBwonC ここもunicode=changeな板が多すぎてな
このオプション消滅せんかな
このオプション消滅せんかな
458デフォルトの名無しさん
2021/01/05(火) 12:09:35.45ID:G8BimKKu 5chもほぼSJIS専用やんけ
459デフォルトの名無しさん
2021/01/05(火) 18:11:40.31ID:F/xhjvIl460デフォルトの名無しさん
2021/01/05(火) 21:01:08.07ID:Xkz87/Po たまにスレタイで絵文字入ってるのあるけど
あれも文字参照で入力してるのかな
あれも文字参照で入力してるのかな
461デフォルトの名無しさん
2021/01/05(火) 21:11:16.54ID:TUUmcJJM https://twitter.com/MarkusGerstel/status/1343249726456606720
UK/EU trade agreement redefines ASCII character 123 to be 3 characters, and ASCII 125 to be 2 characters.
But I'm sure the legal bits are fine and need no scrutiny whatsoever.
https://twitter.com/5chan_nel (5ch newer account)
UK/EU trade agreement redefines ASCII character 123 to be 3 characters, and ASCII 125 to be 2 characters.
But I'm sure the legal bits are fine and need no scrutiny whatsoever.
https://twitter.com/5chan_nel (5ch newer account)
462デフォルトの名無しさん
2021/01/05(火) 21:12:01.50ID:TUUmcJJM463デフォルトの名無しさん
2021/01/06(水) 09:23:40.34ID:nouQm06h 絵文字テスト (↓の&と¥は全角)
Growing star 🌟 , &#x1f31f; , &#127775; , ¥u{1f31f}
SJIS環境だとサロゲートペアはエラーになるんじゃね?
ウニコードベースのエディタへの移行に失敗というか断念して
未だにSJISベースのテキストエディタをメインに使ってる俺が言ってみたり。
そう言えばサクラエディタのマクロフルセット?サポート版てどこでダウンロードするのが良いのだろう?
Growing star 🌟 , &#x1f31f; , &#127775; , ¥u{1f31f}
SJIS環境だとサロゲートペアはエラーになるんじゃね?
ウニコードベースのエディタへの移行に失敗というか断念して
未だにSJISベースのテキストエディタをメインに使ってる俺が言ってみたり。
そう言えばサクラエディタのマクロフルセット?サポート版てどこでダウンロードするのが良いのだろう?
464デフォルトの名無しさん
2021/01/06(水) 18:53:39.44ID:BIuq+YWk あ、Chromeって検索のとき全角半角を区別しないのか。今知ったw
っていうかそもそも大文字小文字も区別しないのか。へー。
でもこの手の正規化を無効にするオプションもないようだしちょっと不便。
っていうかそもそも大文字小文字も区別しないのか。へー。
でもこの手の正規化を無効にするオプションもないようだしちょっと不便。
465デフォルトの名無しさん
2021/01/06(水) 19:42:47.04ID:evtp6HPL chromeの検索の同一視はなんか怪しいというか独自テーブルかな
466デフォルトの名無しさん
2021/01/07(木) 00:30:30.04ID:RA5aGs7i 最近は知らないが昔のFirefoxは全角半角同一視してくれなくて大変困った
467デフォルトの名無しさん
2021/01/07(木) 01:59:00.08ID:HEGtY6UH468デフォルトの名無しさん
2021/01/07(木) 02:00:13.67ID:o03LMIA7469デフォルトの名無しさん
2021/01/10(日) 18:48:17.35ID:akopncMr470デフォルトの名無しさん
2021/01/10(日) 20:04:42.25ID:/+cMzhpZ やるとしてJSoueceの方をobsoleteされるんだろw
471デフォルトの名無しさん
2021/01/20(水) 22:49:15.22ID:Eoi5GIMM テキストエディターが改行コードを間違って解釈しないように
BOMの機能を拡張して改行コードの種類も表せるようにしたらどうなんだろう
BOMの機能を拡張して改行コードの種類も表せるようにしたらどうなんだろう
472デフォルトの名無しさん
2021/01/21(木) 00:18:54.31ID:Nk7WM/aM 来月からUnicode 14に向けた準備が始まるそうだけど
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか
WG2側でまったく投票が出来ていない状態でそんなことして大丈夫なのか
473デフォルトの名無しさん
2021/01/21(木) 12:01:56.27ID:uTJ86sk/ 改行コード間違うのってたいてい改行コードが混在してるのが原因じゃないの?
475デフォルトの名無しさん
2021/01/22(金) 23:50:53.67ID:SkpJ9szj eメールは8bitの文字を7bitに変換して送るのが一般的だけど
今でも7bitしか扱えないメールサーバーってあるんだろうか
今でも7bitしか扱えないメールサーバーってあるんだろうか
476デフォルトの名無しさん
2021/01/25(月) 20:49:52.31ID:r2WhSNc4 前に件名を=?ISO-2022-JP?B?の形式でエンコードせずに直接ShiftJISを書きこみ
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと
本文もMIMEを使わずにShiftJISをそのまま書いたメールを送ってみたが文字化けもせずに届いたから
7bitまでしか送れないのは昔の話なんじゃないかと
477デフォルトの名無しさん
2021/01/25(月) 20:59:52.42ID:nPU6SWGR 8bitを化けさせるようなメールサーバーが今でも存在するのかという質問であって、お前の化けなかった経験は何の解答にもなってない。
478デフォルトの名無しさん
2021/01/25(月) 22:50:52.28ID:dmbNtT1m そりゃあ、存在しないという解答は解答にならなくて存在しているという解答だけが解答になるわけだ。
479デフォルトの名無しさん
2021/01/26(火) 00:14:38.98ID:c6DHU6bT 現れないのが透明人間です
みたいな話
みたいな話
480デフォルトの名無しさん
2021/01/29(金) 22:30:48.89ID:SgmI7msw 規格上はオプションではあるがSMTP POP3 IMAP4全てでUTF-8をそのまま送受信できるから
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな
8bitデータをそのまま送受信できるならBase64やquoted-printableも必要なくなるのかな
481デフォルトの名無しさん
2021/01/30(土) 00:20:35.73ID:nT2XTKgy >>480
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。
一部の構造化されたヘッダは8ビット禁止なので、全部はなくせないかな。
482デフォルトの名無しさん
2021/01/30(土) 01:48:16.96ID:i+4/kULN 先賢の方々が何処かの頃合いで8bitクリーンに作り直しておいてくれればなぁ
483デフォルトの名無しさん
2021/01/30(土) 04:51:50.38ID:yJsdZMSi 問題になるのはTAB,SP,BS,ESC,DELとかの制御コードなのでBase64等は必須でしょうね
行頭の'.'も気にしなくて良くなる
行頭の'.'も気にしなくて良くなる
484デフォルトの名無しさん
2021/02/01(月) 15:56:04.61ID:2wWFCs7L どうしてメールは7bitが基本になったんだろうね
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか
少しでもデータ量を減らすためなのか
8bit目をパリティとして使う機種の名残りなのか
485デフォルトの名無しさん
2021/02/01(月) 19:54:24.08ID:daMBxrCa もともとインターネットでメールがやり取りされるようになる以前から
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。
学内ネット、社内ネット、UUCPネットワークなどの個別メール網があって、
それをインターネットで相互接続したのが始まりなので、
最小公倍数的に全てを通過できる7ビットが要件になった。
486デフォルトの名無しさん
2021/02/01(月) 19:58:08.39ID:B8SI3YQR SMTPが出来たは40年ちかく昔だからなあ
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう
Unicodeなんてまだ影も形もない時代
日本人ですら漢字をシフトしない7bitで表現してたくらいなのに
メールだけわざわざ8bitを基本にするような発想が出てくるわけがないだろう
487デフォルトの名無しさん
2021/02/01(月) 21:54:37.95ID:A78/KaWg コマンド以外は全て8bitのバイナリデータとして扱ってエンコードしないで
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない
相手にそのまま送れるのが理想的なんだろうね
シェアの大きいMTA/MUAがRFCを無視してそんな実装にしたら
意外とそれがデファクトスタンダードになったりするかもしれない
489デフォルトの名無しさん
2021/02/02(火) 00:59:48.46ID:ecf2UzG0 binarymimeって使われてないの?
490デフォルトの名無しさん
2021/02/02(火) 13:36:00.69ID:8YNA1BPy■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 [ぐれ★]
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★3 [BFU★]
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★2 [BFU★]
- 外務省局長は無言で厳しい表情…日中の高官協議終了か 高市首相“台湾”発言で中国が強硬対応 発言撤回求めたか…★2 [BFU★]
- 小野田紀美・経済安保担当相「何か気に入らないことがあればすぐに経済的威圧をする国への依存はリスク」 [Hitzeschleier★]
- 政府、株式の配当など金融所得を高齢者の医療保険料や窓口負担に反映する方針を固めた [バイト歴50年★]
- 【朗報】日銀植田総裁「高市さんからの要望は特になかった」 [519511584]
- 中国高官と話す外務省局長の表情、やばい ★2 [175344491]
- 【高市速報】日本人の3割「中国への武力行使に踏み切る必要がある」ANN世論調査 [931948549]
- 外務省局長、よくわからないまま帰国へ [834922174]
- 中国外務省「日中関係の悪化は高市早苗首相が原因」と名指しで強く非難。キタ━(゚∀゚)━! [153490809]
- 高市早苗政権「経済的威圧をしてくる国はリスク」 トランプぴょんぴょん政権さん…… [175344491]
