X



文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
0744デフォルトの名無しさん
垢版 |
2019/11/22(金) 01:49:03.41ID:VSWkIrxm
句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。
0745デフォルトの名無しさん
垢版 |
2019/11/22(金) 02:26:32.88ID:7JxndsMv
日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ?
0746デフォルトの名無しさん
垢版 |
2019/11/22(金) 03:23:33.25ID:QBgvTUOv
縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう?
0747デフォルトの名無しさん
垢版 |
2019/11/22(金) 03:31:46.87ID:7JxndsMv
臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな
0748デフォルトの名無しさん
垢版 |
2019/11/22(金) 15:56:12.49ID:WtZSxTNA
漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。
0749デフォルトの名無しさん
垢版 |
2019/11/22(金) 18:59:44.59ID:VSWkIrxm
教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。
0751デフォルトの名無しさん
垢版 |
2019/11/22(金) 19:31:16.58ID:VSWkIrxm
中学高校の古典の授業で、原書を写真印刷した文書を読ませる機会を与えるべきだろう。
活字慣れした現代人は太平洋戦争中の日記や戦場から送られてきた手紙さえ読めない。
0752デフォルトの名無しさん
垢版 |
2019/11/22(金) 20:55:41.01ID:QBgvTUOv
厨二満載の文集が他人に読まれなくなる日も近いんだな
よかったワープロが普及する前で
0753デフォルトの名無しさん
垢版 |
2019/11/22(金) 21:23:42.16ID:SnsQ0S1X
アメリカでも筆記体が廃れつつあるんじゃなかったか
せいぜいサインする時に使うくらい
0754デフォルトの名無しさん
垢版 |
2019/11/22(金) 22:42:29.42ID:+ybPmekP
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道
0756デフォルトの名無しさん
垢版 |
2019/11/23(土) 09:52:15.28ID:StIP5iHr
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。
0758デフォルトの名無しさん
垢版 |
2019/11/23(土) 10:53:20.31ID:cBKKqL2b
>>749-750
今年の漢字の季節ですね
0760デフォルトの名無しさん
垢版 |
2019/11/23(土) 14:20:31.57ID:Lev/ciM6
金とか何回か選ばれてるのはあるな
二年連続とかは知らん
0762デフォルトの名無しさん
垢版 |
2019/11/23(土) 16:40:21.39ID:l4WHmfnE
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?
0763◆QZaw55cn4c
垢版 |
2019/11/23(土) 16:48:42.87ID:bse8qODO
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね
0764デフォルトの名無しさん
垢版 |
2019/11/23(土) 17:45:30.08ID:ExB3uxT/
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由
0766デフォルトの名無しさん
垢版 |
2019/11/23(土) 18:05:22.65ID:Lev/ciM6
今のところ32bitっつってもスカスカだろ
0770デフォルトの名無しさん
垢版 |
2019/11/23(土) 20:53:37.67ID:x1VOKq1M
固定長好きな人が定期的に出てくるのはなんでなの?

セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに
0771デフォルトの名無しさん
垢版 |
2019/11/23(土) 21:03:09.45ID:pGKd1Nh3
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。
0772デフォルトの名無しさん
垢版 |
2019/11/23(土) 21:12:47.43ID:LYBJTBw0
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった
0774デフォルトの名無しさん
垢版 |
2019/11/24(日) 00:15:00.98ID:daL/rw2X
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな
0775デフォルトの名無しさん
垢版 |
2019/11/24(日) 07:48:18.59ID:wAZlnZnW
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。
0776デフォルトの名無しさん
垢版 |
2019/11/24(日) 11:58:02.36ID:bBACDgxb
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし
0778デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:07:46.48ID:bBACDgxb
QZさんからレスもらえるとは思わなかった
0779デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:30:57.16ID:4a4z1fkQ
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと
0780デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:43:02.24ID:iwyjZSbL
質問じゃなくて、馬鹿にしてるんだろ

え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味
0782◆QZaw55cn4c
垢版 |
2019/11/24(日) 13:04:27.62ID:oHJXyQoT
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました
0783◆QZaw55cn4c
垢版 |
2019/11/24(日) 13:05:00.77ID:oHJXyQoT
>>781
なぜ韓国人だとおもったのですか?
0785デフォルトの名無しさん
垢版 |
2019/11/24(日) 13:13:33.28ID:BlMs70wA
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。
0787デフォルトの名無しさん
垢版 |
2019/11/24(日) 17:10:15.65ID:5wTOyTy7
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念
0793デフォルトの名無しさん
垢版 |
2019/12/01(日) 17:02:36.55ID:zxgavQqm
今年の漢字は天
0795デフォルトの名無しさん
垢版 |
2019/12/03(火) 02:50:32.39ID:TSc17kJh
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
https://www3.nhk.or.jp/news/html/20191202/k10012198561000.html
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声
0796デフォルトの名無しさん
垢版 |
2019/12/03(火) 12:56:42.44ID:dBsSbed7
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?
0797デフォルトの名無しさん
垢版 |
2019/12/03(火) 14:48:10.41ID:32eP5DBa
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか
0799デフォルトの名無しさん
垢版 |
2019/12/03(火) 15:35:57.78ID:IUIY88nX
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw
0801デフォルトの名無しさん
垢版 |
2019/12/04(水) 16:24:48.77ID:IlQO2KEp
黒板太字 - Wikipedia
https://ja.wikipedia.org/wiki/黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?
0803デフォルトの名無しさん
垢版 |
2019/12/04(水) 20:23:19.21ID:bwCWk38v
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ
0804デフォルトの名無しさん
垢版 |
2019/12/05(木) 15:53:38.96ID:1Yvcqq3b
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。
0805デフォルトの名無しさん
垢版 |
2019/12/05(木) 16:32:04.91ID:IbmhSLeW
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ
0807デフォルトの名無しさん
垢版 |
2019/12/06(金) 23:32:11.23ID:Ob0T3VF2
SKK使ってるからだけどそんな印象は全く無い
0808デフォルトの名無しさん
垢版 |
2019/12/10(火) 22:31:10.24ID:zD6aLrgM
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。
0809デフォルトの名無しさん
垢版 |
2020/01/01(水) 02:03:31.89ID:ZBRDXVGi
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!����������
0810デフォルトの名無しさん
垢版 |
2020/01/01(水) 11:19:22.03ID:tqBP4ADq
字にはヒラギノ〜ル♪
0811デフォルトの名無しさん
垢版 |
2020/01/01(水) 22:58:15.38ID:fGGzsdYV
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな〜?
0812デフォルトの名無しさん
垢版 |
2020/01/03(金) 06:32:52.61ID:wMN1Z8Zd
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。
0813デフォルトの名無しさん
垢版 |
2020/01/03(金) 10:33:29.05ID:lHIykz7y
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ
0814デフォルトの名無しさん
垢版 |
2020/01/03(金) 22:33:53.11ID:wMN1Z8Zd
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。
0816デフォルトの名無しさん
垢版 |
2020/01/07(火) 15:01:40.99ID:2Dq0zKSW
左利き用のはさみも用意汁ωωω
0819デフォルトの名無しさん
垢版 |
2020/01/18(土) 12:49:25.00ID:jQMC+jX5
ぷにコードに関するチラ裏

localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた
0825デフォルトの名無しさん
垢版 |
2020/01/31(金) 15:08:09.88ID:OCbveUqO
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。
0826◆QZaw55cn4c
垢版 |
2020/01/31(金) 19:55:14.24ID:tTpxWp9S
>>825
詰将棋用に上下逆の漢字を入れて欲しかった
0828デフォルトの名無しさん
垢版 |
2020/02/01(土) 00:49:18.17ID:6vnUAWit
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる
0831デフォルトの名無しさん
垢版 |
2020/02/02(日) 01:17:07.29ID:Vi9q8JVy
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・
0833デフォルトの名無しさん
垢版 |
2020/02/03(月) 08:57:05.26ID:uSBWqXrE
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。
0834デフォルトの名無しさん
垢版 |
2020/02/03(月) 11:59:58.53ID:62FLJlST
解説本だと普通に使われてるよな
0836デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:47:35.80ID:62FLJlST
読み手のリテラシーが問われます
0837デフォルトの名無しさん
垢版 |
2020/02/03(月) 13:54:08.64ID:eKPmxfCz
天使を天便と読み取ったまま放置するとか割とマジ。
0838デフォルトの名無しさん
垢版 |
2020/02/03(月) 22:56:08.65ID:KZTuy2Ys
架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。
0839デフォルトの名無しさん
垢版 |
2020/02/03(月) 22:59:18.31ID:wgq762c2
漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる
0841デフォルトの名無しさん
垢版 |
2020/02/04(火) 13:26:51.57ID:gTERf/2s
政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ
0843デフォルトの名無しさん
垢版 |
2020/02/04(火) 20:12:02.43ID:U7azh68T
>>841
政治的に正しい仏教徒とは何ですかね?

アホな創価学会員が言いそうな発言ですが。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況