文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
>>649
延々と嘘を書くのはやめてもらえませんか? まあWindowsはNTカーネルとは限らないからな >>653はNTカーネルに限ると完全Unicode対応って意味やで ここでUnicodeといっちゃうあたりの頭の弱さよ 補足すると、Unicodeは文字列集合で
符号化方式がUTF-16やUTF-8など
どの符号化方式であってもUnicodeといえる
>>655
さて、何か言い返したい言葉は有るかね? どうせ言い返す言葉は無いだろうから
待ってても時間の無駄なので先に言っておくと
何も言わない or 捨て台詞はくだけ なら俺に喧嘩売らなければいいのにw 完全Unicode対応ならどの符号化方式も対応してなきゃダメだろ ※ LinuxはUTF-16、UTF-32に対応していません ※ MacもUTF-16、UTF-32に対応していません 他者を貶めたところで>>654が真実になることはない じゃあNTカーネルに限ってはUnicodeっていうのは正しいってこと? どーしても我流を貫きたいんだなw
まあ他人の人生だから干渉するつもりはないが,そういう生き方は苦労すると思うぞ? 全然関係ないけどWPへのリンクはMWの短縮URLが使える。
https://w.wiki/8Ew 本当に短縮したいところは日本語ページのパーセントエンコードされたところだがうまくいかないもんだな 日本語のページも短縮URLにできるんだけど,そうじゃなくて? 文字通り文字コードのエンコードを間違えてるんだろう [%E5は無効なエンコードです。メインページに戻る。] これ使われた順に生成されていくの?
そのうち4文字になるんかな 絵文字などサロゲートペアが必要な領域をUTF-7で表現するとUTF-32よりもバイトサイズが大きくなる。まめな。 utf-7が使われてる環境とかデータとか出会ったことが無い >>678
違う
君の理屈だと中国はチベットの一部ということになる UTF-8もUTF-7も「ASCII互換にしようと思えばできる」文字符号化方式で
UTF-16/32は端から過去互換性を捨ててるっていう理解OK? 684デフォルトの名無しさん2019/09/21(土) 17:13:19.94ID:AMltcnvP
>>682
ちゃんと仕様読め
685デフォルトの名無しさん2019/09/22(日) 02:18:18.82ID:tTe+mIIa
>>682
意味がわからない
686デフォルトの名無しさん2019/09/22(日) 11:35:45.78ID:LQCFANDg
>>682
OK
----
どういうことなの… 揚げ足取り終了。
質問。皆さんが普段使っている文字コード変換ライブラリでおススメはなんですか。 お勧めもなにもiconvかICUで大体用は足りる
それで満足しなきゃ自分で作るしかない 文字コードの変換だけ?
いまどきのまともな言語環境なら変換元のエンコーディングさえ分かってれば標準機能で出来るだろうに
それとも全角⇔半角の変換みたいなのをやりたいってこと? Windows SDK付属のデバッグ用ソースを見たところmbstowcs_sの文字コード変換は、Win32APIであるMultiByteToWideCharを使っているようですね。 MultiByteToWideChar / WideCharToMultiByte 最強 null-terminatedとそうでない場合の仕様の違いをちゃんと理解してなくて
バグった挙句によけいな1byte追加しちゃったりした思い出。 python3でlogging使ってsyslogに出力すると
ASCIIで出力してもなぜか最後に\0が付いてログが残る
鯖側のsyslogdの方で付いてるのかと思ったが
そうじゃなくてpython3が勝手に付けてるみたい
python3のstringがunicode化したときにバグ入ったんかな
python2のときはそんなこと無かった気がする ttps://bugs.python.org/issue12168 深い闇を垣間見た気がする
handler.log_format_string = '<%d>%s'
だと no attribute
handler.setFormatter(logging.Formatter('%(message)s'))
だと結局 \0 付いたままでした コンストラクタ呼ぶ前に
logging.handlers.SysLogHandler.append_nul = False
で解決しました
thx! エンコードされた文字のバイト並びが
utf-8 と cp832 で同じ(にみえる)ものってどんなのがあります?
そもそも 3bytes と 2bytes なのは仕方ないのですが
utf-8 だと (xx yy zz)
みたいなのが
cp932 だと (xx yy) 00
逆に
cp932 だと (uu vv) (ww xx) (yy zz)
みたいなのが
utf-8 だと (uu vv ww) (xx yy zz)
みたいなのでも良いです
そもそもありえない? cp932 ってことはいわゆる半角カナも入れて良いのカナ 出来れば「美乳」みたいなクオリティ高いのが良いです 美乳ってどういう特長を持ってたんだっけ?
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。 PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト+右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか? >>708
>どうしたら良いですか?
諦める
高望みするから人間は苦しむんだよ >>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった
どういう目的でそういう例を探してるの? >>708
cmdにd&dかバッチファイル作れ
これ以上はスレチ ブログラムソースをUTF16やUTF32で書いてる人いるの?
ブログラム内の文字列のデータじゃなくてブログラムの地の部分 まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。 青っぽいデザイン変更で入口が使いにくくなってる辺り? 文を書くときに?や()などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか JIS X 0208 を 0201 のスーパーセットにしなかったのが諸悪の根源 そもそも世界中の文字を一つの体系で包括できると考えたりしたのが…ブツブツ サル共がコンピュータを使わなければ面倒がないのに
とか思われてるよ ASCII に含まれてる記号は半角で入力してる
っていうか IME で半角優先にしてるのでそっちばっかりになる
IME ON の状態であってもスペースももちろん半角だ チルダとかハイフンマイナス、引用符あたりは迷う。
これらは単に全角と半角の関係ではないんじゃないかという気がする。 0-9A-Za-z は半角だけどその他はちょっと迷うかな
! や ? は書いてるのが日本語漢字仮名交じり文なら全角にするかも 俺は「,」のほうが寧ろ収まりがいいように見えるけどな。
感性で判断するんじゃなくて,論理的根拠をもって「,」か「、」かを決めるべきよね。 日本語の文章は分かち書きをするわけではないから、
点があるのにコンマのような後ろにスペースを要する記号を使うのはおかしいと思う。
丸の代わりにピリオドを使うのも同じ。
それにしても、公文書の混ぜこぜの用法はどっちつかずだよな。
もともと、和文タイプライターで使われていた用法なのではないか? 使ったこと無いからわからなかったが、全角コンマなんてのがあるんだな。
これって、全角英数と同じで、日本語の体裁に合わせるためにわざわざ作られた文字だよねぇ。 >>733
フォント次第ながらも「,」は半角カンマ「,」と一目で見分けることができない。
一方「、」は全角しかない。よって誤植の起きにくい「、」で統一するべき。 >>736
半角の、だってあるだろ
AAとかでよく使われる 見分けられないで言い切られたらコーヒー噴くしかない 文字コードスレなのにいまだに「全角」とか言う奴いるんだな ここまで無知だと辛いどころか辛さも感じないほどにアホなんだろうな
739は カッコは半角と全角でベースラインが違うフォントも少なくないんで
囲う文字に合わせてる そもそも日本語は句読点は使っていなくて使われ始めたのが
欧米のカンマやピリオドの影響で明治後期くらいからだからな FULLWIDTHとか出てくるのを全角以外にどう呼べと 句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。 日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ? 縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう? 臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな 漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。 教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。 ■ このスレッドは過去ログ倉庫に格納されています