文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
2019/09/25(水) 14:11:59.88ID:cBdVtg+x
cp932 ってことはいわゆる半角カナも入れて良いのカナ
706デフォルトの名無しさん
垢版 |
2019/09/25(水) 14:14:32.79ID:sdHp2tVC
出来れば「美乳」みたいなクオリティ高いのが良いです
2019/09/25(水) 16:32:05.43ID:vuS5tsH7
美乳ってどういう特長を持ってたんだっけ?
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。
708デフォルトの名無しさん
垢版 |
2019/09/25(水) 23:44:33.31ID:2M81F3EH
PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト+右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか?
2019/09/26(木) 00:04:19.37ID:Gir9qHZJ
↓最高に面白い回答
2019/09/26(木) 00:06:20.67ID:1IaRoLf+
>>708
>どうしたら良いですか?

諦める
高望みするから人間は苦しむんだよ
2019/09/26(木) 01:58:07.64ID:MW37nPtB
>>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった

どういう目的でそういう例を探してるの?
2019/09/26(木) 08:30:15.09ID:NQV5DCT+
>>708
cmdにd&dかバッチファイル作れ
これ以上はスレチ
2019/10/08(火) 14:05:40.55ID:yxEiS4UK
ブログラムソースをUTF16やUTF32で書いてる人いるの?
ブログラム内の文字列のデータじゃなくてブログラムの地の部分
2019/10/08(火) 14:10:33.38ID:J68M6wrj
そんなゴリホーモおらんやろ
2019/10/08(火) 15:33:52.08ID:Dgw8eufS
誰が読むんだ
2019/10/23(水) 21:57:19.58ID:CiGuyy89
まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。
717デフォルトの名無しさん
垢版 |
2019/10/23(水) 23:42:00.06ID:/s0IRa9G
ICUなんてほぼほぼUTF-16ですよ。
2019/10/24(木) 17:29:35.02ID:mthfJT/n
なんかUnicodeのサイト分裂した?
2019/10/24(木) 18:37:57.14ID:FCkKS+Hu
青っぽいデザイン変更で入口が使いにくくなってる辺り?
2019/10/27(日) 00:29:12.62ID:DVVulqOc
なにそれこわい
2019/10/29(火) 16:20:42.34ID:A7Naqht0
https://home.unicode.org/#
これやな。
なんか謎の意匠がw
2019/11/01(金) 01:07:36.40ID:iOCNEHbC
結局見つかったのは何なの
2019/11/01(金) 01:07:53.40ID:iOCNEHbC
書くとこ間違えた失礼
2019/11/15(金) 19:48:26.91ID:CD4iEOnB
文を書くときに?や()などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか
2019/11/15(金) 21:21:21.06ID:NIGKt6uf
特に拘りが無いならNFKCに倣う
2019/11/15(金) 23:13:58.98ID:csRpQu7P
JIS X 0208 を 0201 のスーパーセットにしなかったのが諸悪の根源
2019/11/15(金) 23:28:13.72ID:69Rrw1ZJ
そもそも世界中の文字を一つの体系で包括できると考えたりしたのが…ブツブツ
2019/11/16(土) 09:13:00.94ID:0g4G1zYO
サル共がコンピュータを使わなければ面倒がないのに
とか思われてるよ
729デフォルトの名無しさん
垢版 |
2019/11/16(土) 10:56:43.05ID:t6zcY+AG
ASCII に含まれてる記号は半角で入力してる
っていうか IME で半角優先にしてるのでそっちばっかりになる
IME ON の状態であってもスペースももちろん半角だ
2019/11/17(日) 00:12:46.29ID:ZZ8XSzBD
チルダとかハイフンマイナス、引用符あたりは迷う。
これらは単に全角と半角の関係ではないんじゃないかという気がする。
731デフォルトの名無しさん
垢版 |
2019/11/19(火) 22:24:19.13ID:lA4rVXxm
0-9A-Za-z は半角だけどその他はちょっと迷うかな
! や ? は書いてるのが日本語漢字仮名交じり文なら全角にするかも
732デフォルトの名無しさん
垢版 |
2019/11/20(水) 09:53:23.76ID:grCkJCm3
公文書の「,」なぜ? 半世紀以上、見直し検討
2019 11 18
https://www.sankei.com/life/news/191118/lif1911180006-n1.html
2019/11/21(木) 16:10:59.78ID:0qs1xY5M
俺は「,」のほうが寧ろ収まりがいいように見えるけどな。
感性で判断するんじゃなくて,論理的根拠をもって「,」か「、」かを決めるべきよね。
2019/11/21(木) 18:03:44.71ID:oVdD3irj
日本語の文章は分かち書きをするわけではないから、
点があるのにコンマのような後ろにスペースを要する記号を使うのはおかしいと思う。
丸の代わりにピリオドを使うのも同じ。

それにしても、公文書の混ぜこぜの用法はどっちつかずだよな。
もともと、和文タイプライターで使われていた用法なのではないか?
2019/11/21(木) 18:06:42.91ID:oVdD3irj
使ったこと無いからわからなかったが、全角コンマなんてのがあるんだな。
これって、全角英数と同じで、日本語の体裁に合わせるためにわざわざ作られた文字だよねぇ。
736デフォルトの名無しさん
垢版 |
2019/11/21(木) 19:11:00.69ID:wlMAy4t9
>>733
フォント次第ながらも「,」は半角カンマ「,」と一目で見分けることができない。
一方「、」は全角しかない。よって誤植の起きにくい「、」で統一するべき。
2019/11/21(木) 21:10:52.53ID:cn6yPDJX
>>736
半角の、だってあるだろ
AAとかでよく使われる
2019/11/21(木) 21:14:37.01ID:gyc1+QC+
見分けられないで言い切られたらコーヒー噴くしかない
2019/11/21(木) 21:51:21.49ID:HJrbCtCI
文字コードスレなのにいまだに「全角」とか言う奴いるんだな
2019/11/21(木) 22:11:40.82ID:Ht1weGMK
ここまで無知だと辛いどころか辛さも感じないほどにアホなんだろうな
739は
2019/11/21(木) 22:27:48.86ID:T5O6V3Nl
カッコは半角と全角でベースラインが違うフォントも少なくないんで
囲う文字に合わせてる
742デフォルトの名無しさん
垢版 |
2019/11/22(金) 00:27:47.62ID:5/IABJQJ
そもそも日本語は句読点は使っていなくて使われ始めたのが
欧米のカンマやピリオドの影響で明治後期くらいからだからな
2019/11/22(金) 01:42:56.04ID:1ACgXjue
FULLWIDTHとか出てくるのを全角以外にどう呼べと
744デフォルトの名無しさん
垢版 |
2019/11/22(金) 01:49:03.41ID:VSWkIrxm
句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。
2019/11/22(金) 02:26:32.88ID:7JxndsMv
日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ?
2019/11/22(金) 03:23:33.25ID:QBgvTUOv
縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう?
2019/11/22(金) 03:31:46.87ID:7JxndsMv
臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな
2019/11/22(金) 15:56:12.49ID:WtZSxTNA
漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。
749デフォルトの名無しさん
垢版 |
2019/11/22(金) 18:59:44.59ID:VSWkIrxm
教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。
2019/11/22(金) 19:10:33.77ID:+ybPmekP
筆で書かないと身につかんよ
751デフォルトの名無しさん
垢版 |
2019/11/22(金) 19:31:16.58ID:VSWkIrxm
中学高校の古典の授業で、原書を写真印刷した文書を読ませる機会を与えるべきだろう。
活字慣れした現代人は太平洋戦争中の日記や戦場から送られてきた手紙さえ読めない。
2019/11/22(金) 20:55:41.01ID:QBgvTUOv
厨二満載の文集が他人に読まれなくなる日も近いんだな
よかったワープロが普及する前で
2019/11/22(金) 21:23:42.16ID:SnsQ0S1X
アメリカでも筆記体が廃れつつあるんじゃなかったか
せいぜいサインする時に使うくらい
2019/11/22(金) 22:42:29.42ID:+ybPmekP
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道
2019/11/22(金) 23:50:42.29ID:1ACgXjue
墨汁ドバー
2019/11/23(土) 09:52:15.28ID:StIP5iHr
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。
2019/11/23(土) 10:17:05.69ID:LEhIlmd1
>>756
一般に使われ出したのは明治でしょ
758デフォルトの名無しさん
垢版 |
2019/11/23(土) 10:53:20.31ID:cBKKqL2b
>>749-750
今年の漢字の季節ですね
2019/11/23(土) 14:16:40.50ID:SCQQhBmf
風か水かって感じかなあ
災とかはこの前使ったよね
760デフォルトの名無しさん
垢版 |
2019/11/23(土) 14:20:31.57ID:Lev/ciM6
金とか何回か選ばれてるのはあるな
二年連続とかは知らん
2019/11/23(土) 15:30:58.21ID:OKqvuGhi
762デフォルトの名無しさん
垢版 |
2019/11/23(土) 16:40:21.39ID:l4WHmfnE
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?
2019/11/23(土) 16:48:42.87ID:bse8qODO
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね
2019/11/23(土) 17:45:30.08ID:ExB3uxT/
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由
2019/11/23(土) 18:02:19.00ID:UeuUKNdC
32bitで足りるんか?
766デフォルトの名無しさん
垢版 |
2019/11/23(土) 18:05:22.65ID:Lev/ciM6
今のところ32bitっつってもスカスカだろ
2019/11/23(土) 18:45:44.31ID:KvoIJqUR
文字が4億も存在するんかいな。
2019/11/23(土) 18:46:53.89ID:k/QFWxVo
じゃけん戸籍に登録されてる異字体全部収録しましょうね〜(鬼畜)
2019/11/23(土) 18:51:31.87ID:KvoIJqUR
旧字体はIPAがマップしたんじゃなかったっけ?
2019/11/23(土) 20:53:37.67ID:x1VOKq1M
固定長好きな人が定期的に出てくるのはなんでなの?

セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに
2019/11/23(土) 21:03:09.45ID:pGKd1Nh3
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。
2019/11/23(土) 21:12:47.43ID:LYBJTBw0
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった
2019/11/23(土) 23:04:09.59ID:uD1YCxhq
>769
ipaは都合約6万字ある
774デフォルトの名無しさん
垢版 |
2019/11/24(日) 00:15:00.98ID:daL/rw2X
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな
2019/11/24(日) 07:48:18.59ID:wAZlnZnW
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。
776デフォルトの名無しさん
垢版 |
2019/11/24(日) 11:58:02.36ID:bBACDgxb
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし
2019/11/24(日) 12:05:35.45ID:oHJXyQoT
>>776
おもしろいと思っていってるの?
778デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:07:46.48ID:bBACDgxb
QZさんからレスもらえるとは思わなかった
2019/11/24(日) 12:30:57.16ID:4a4z1fkQ
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと
2019/11/24(日) 12:43:02.24ID:iwyjZSbL
質問じゃなくて、馬鹿にしてるんだろ

え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味
2019/11/24(日) 12:53:04.27ID:6n0WdTOH
>>780
違うと思う
QZは韓国人だから答えられないんでしょ
2019/11/24(日) 13:04:27.62ID:oHJXyQoT
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました
2019/11/24(日) 13:05:00.77ID:oHJXyQoT
>>781
なぜ韓国人だとおもったのですか?
2019/11/24(日) 13:09:00.29ID:oHJXyQoT
>>779
https://medaka.5ch.net/test/read.cgi/eco/1567773760/710
https://medaka.5ch.net/test/read.cgi/eco/1567773760/712
https://medaka.5ch.net/test/read.cgi/eco/1567773760/714
785デフォルトの名無しさん
垢版 |
2019/11/24(日) 13:13:33.28ID:BlMs70wA
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。
2019/11/24(日) 15:33:55.44ID:EdYAI6jd
>>762
そのまえに格納方法をビッグエンディアンかリトルエンディアンで統一してくれ
2019/11/24(日) 17:10:15.65ID:5wTOyTy7
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念
2019/11/25(月) 15:25:07.92ID:s1hiXzdE
>>787
おっとそれ以上言っちゃあいけない
789デフォルトの名無しさん
垢版 |
2019/11/30(土) 13:54:16.72ID:eovy2x2M
【びっくりサイエンス】 日本古来の「くずし字」にAIで挑む 解読の競技大会は中国が優勝
https://special.sankei.com/a/life/article/20191130/0001.html
2019.11.30
2019/11/30(土) 15:03:21.41ID:dLS32wGr
別に「びっくり」ではないなw
2019/11/30(土) 21:10:49.04ID:OkgV2S2L
それ言ったらドンキーにも延焼する
2019/11/30(土) 21:25:08.69ID:mO6/udRn
ドンキーほうけーい
793デフォルトの名無しさん
垢版 |
2019/12/01(日) 17:02:36.55ID:zxgavQqm
今年の漢字は天
2019/12/01(日) 17:27:44.79ID:xqkDTdKR
いっそU+32FFと書いてほしい
795デフォルトの名無しさん
垢版 |
2019/12/03(火) 02:50:32.39ID:TSc17kJh
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
https://www3.nhk.or.jp/news/html/20191202/k10012198561000.html
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声
796デフォルトの名無しさん
垢版 |
2019/12/03(火) 12:56:42.44ID:dBsSbed7
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?
2019/12/03(火) 14:48:10.41ID:32eP5DBa
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか
2019/12/03(火) 15:19:10.13ID:9x1aaywv
倍角、四倍角も入れて
2019/12/03(火) 15:35:57.78ID:IUIY88nX
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw
2019/12/03(火) 17:26:32.29ID:Y2nmLwy/
Unicodeは文字コードじゃなくて文字シーケンスと名前を変えるべき
801デフォルトの名無しさん
垢版 |
2019/12/04(水) 16:24:48.77ID:IlQO2KEp
黒板太字 - Wikipedia
https://ja.wikipedia.org/wiki/黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?
2019/12/04(水) 19:52:55.02ID:sxQF45hm
連続してないからあくまでも記号扱いなんだろうな。
2019/12/04(水) 20:23:19.21ID:bwCWk38v
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ
2019/12/05(木) 15:53:38.96ID:1Yvcqq3b
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。
805デフォルトの名無しさん
垢版 |
2019/12/05(木) 16:32:04.91ID:IbmhSLeW
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況