文字コード総合スレ Part12

■ このスレッドは過去ログ倉庫に格納されています
2018/12/16(日) 12:38:15.61ID:VlX3xGEw
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
736デフォルトの名無しさん
垢版 |
2019/11/21(木) 19:11:00.69ID:wlMAy4t9
>>733
フォント次第ながらも「,」は半角カンマ「,」と一目で見分けることができない。
一方「、」は全角しかない。よって誤植の起きにくい「、」で統一するべき。
2019/11/21(木) 21:10:52.53ID:cn6yPDJX
>>736
半角の、だってあるだろ
AAとかでよく使われる
2019/11/21(木) 21:14:37.01ID:gyc1+QC+
見分けられないで言い切られたらコーヒー噴くしかない
2019/11/21(木) 21:51:21.49ID:HJrbCtCI
文字コードスレなのにいまだに「全角」とか言う奴いるんだな
2019/11/21(木) 22:11:40.82ID:Ht1weGMK
ここまで無知だと辛いどころか辛さも感じないほどにアホなんだろうな
739は
2019/11/21(木) 22:27:48.86ID:T5O6V3Nl
カッコは半角と全角でベースラインが違うフォントも少なくないんで
囲う文字に合わせてる
742デフォルトの名無しさん
垢版 |
2019/11/22(金) 00:27:47.62ID:5/IABJQJ
そもそも日本語は句読点は使っていなくて使われ始めたのが
欧米のカンマやピリオドの影響で明治後期くらいからだからな
2019/11/22(金) 01:42:56.04ID:1ACgXjue
FULLWIDTHとか出てくるのを全角以外にどう呼べと
744デフォルトの名無しさん
垢版 |
2019/11/22(金) 01:49:03.41ID:VSWkIrxm
句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。
2019/11/22(金) 02:26:32.88ID:7JxndsMv
日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ?
2019/11/22(金) 03:23:33.25ID:QBgvTUOv
縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう?
2019/11/22(金) 03:31:46.87ID:7JxndsMv
臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな
2019/11/22(金) 15:56:12.49ID:WtZSxTNA
漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。
749デフォルトの名無しさん
垢版 |
2019/11/22(金) 18:59:44.59ID:VSWkIrxm
教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。
2019/11/22(金) 19:10:33.77ID:+ybPmekP
筆で書かないと身につかんよ
751デフォルトの名無しさん
垢版 |
2019/11/22(金) 19:31:16.58ID:VSWkIrxm
中学高校の古典の授業で、原書を写真印刷した文書を読ませる機会を与えるべきだろう。
活字慣れした現代人は太平洋戦争中の日記や戦場から送られてきた手紙さえ読めない。
2019/11/22(金) 20:55:41.01ID:QBgvTUOv
厨二満載の文集が他人に読まれなくなる日も近いんだな
よかったワープロが普及する前で
2019/11/22(金) 21:23:42.16ID:SnsQ0S1X
アメリカでも筆記体が廃れつつあるんじゃなかったか
せいぜいサインする時に使うくらい
2019/11/22(金) 22:42:29.42ID:+ybPmekP
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道
2019/11/22(金) 23:50:42.29ID:1ACgXjue
墨汁ドバー
2019/11/23(土) 09:52:15.28ID:StIP5iHr
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。
2019/11/23(土) 10:17:05.69ID:LEhIlmd1
>>756
一般に使われ出したのは明治でしょ
758デフォルトの名無しさん
垢版 |
2019/11/23(土) 10:53:20.31ID:cBKKqL2b
>>749-750
今年の漢字の季節ですね
2019/11/23(土) 14:16:40.50ID:SCQQhBmf
風か水かって感じかなあ
災とかはこの前使ったよね
760デフォルトの名無しさん
垢版 |
2019/11/23(土) 14:20:31.57ID:Lev/ciM6
金とか何回か選ばれてるのはあるな
二年連続とかは知らん
2019/11/23(土) 15:30:58.21ID:OKqvuGhi
762デフォルトの名無しさん
垢版 |
2019/11/23(土) 16:40:21.39ID:l4WHmfnE
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?
2019/11/23(土) 16:48:42.87ID:bse8qODO
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね
2019/11/23(土) 17:45:30.08ID:ExB3uxT/
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由
2019/11/23(土) 18:02:19.00ID:UeuUKNdC
32bitで足りるんか?
766デフォルトの名無しさん
垢版 |
2019/11/23(土) 18:05:22.65ID:Lev/ciM6
今のところ32bitっつってもスカスカだろ
2019/11/23(土) 18:45:44.31ID:KvoIJqUR
文字が4億も存在するんかいな。
2019/11/23(土) 18:46:53.89ID:k/QFWxVo
じゃけん戸籍に登録されてる異字体全部収録しましょうね〜(鬼畜)
2019/11/23(土) 18:51:31.87ID:KvoIJqUR
旧字体はIPAがマップしたんじゃなかったっけ?
2019/11/23(土) 20:53:37.67ID:x1VOKq1M
固定長好きな人が定期的に出てくるのはなんでなの?

セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに
2019/11/23(土) 21:03:09.45ID:pGKd1Nh3
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。
2019/11/23(土) 21:12:47.43ID:LYBJTBw0
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった
2019/11/23(土) 23:04:09.59ID:uD1YCxhq
>769
ipaは都合約6万字ある
774デフォルトの名無しさん
垢版 |
2019/11/24(日) 00:15:00.98ID:daL/rw2X
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな
2019/11/24(日) 07:48:18.59ID:wAZlnZnW
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。
776デフォルトの名無しさん
垢版 |
2019/11/24(日) 11:58:02.36ID:bBACDgxb
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし
2019/11/24(日) 12:05:35.45ID:oHJXyQoT
>>776
おもしろいと思っていってるの?
778デフォルトの名無しさん
垢版 |
2019/11/24(日) 12:07:46.48ID:bBACDgxb
QZさんからレスもらえるとは思わなかった
2019/11/24(日) 12:30:57.16ID:4a4z1fkQ
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと
2019/11/24(日) 12:43:02.24ID:iwyjZSbL
質問じゃなくて、馬鹿にしてるんだろ

え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味
2019/11/24(日) 12:53:04.27ID:6n0WdTOH
>>780
違うと思う
QZは韓国人だから答えられないんでしょ
2019/11/24(日) 13:04:27.62ID:oHJXyQoT
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました
2019/11/24(日) 13:05:00.77ID:oHJXyQoT
>>781
なぜ韓国人だとおもったのですか?
2019/11/24(日) 13:09:00.29ID:oHJXyQoT
>>779
https://medaka.5ch.net/test/read.cgi/eco/1567773760/710
https://medaka.5ch.net/test/read.cgi/eco/1567773760/712
https://medaka.5ch.net/test/read.cgi/eco/1567773760/714
785デフォルトの名無しさん
垢版 |
2019/11/24(日) 13:13:33.28ID:BlMs70wA
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。
2019/11/24(日) 15:33:55.44ID:EdYAI6jd
>>762
そのまえに格納方法をビッグエンディアンかリトルエンディアンで統一してくれ
2019/11/24(日) 17:10:15.65ID:5wTOyTy7
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念
2019/11/25(月) 15:25:07.92ID:s1hiXzdE
>>787
おっとそれ以上言っちゃあいけない
789デフォルトの名無しさん
垢版 |
2019/11/30(土) 13:54:16.72ID:eovy2x2M
【びっくりサイエンス】 日本古来の「くずし字」にAIで挑む 解読の競技大会は中国が優勝
https://special.sankei.com/a/life/article/20191130/0001.html
2019.11.30
2019/11/30(土) 15:03:21.41ID:dLS32wGr
別に「びっくり」ではないなw
2019/11/30(土) 21:10:49.04ID:OkgV2S2L
それ言ったらドンキーにも延焼する
2019/11/30(土) 21:25:08.69ID:mO6/udRn
ドンキーほうけーい
793デフォルトの名無しさん
垢版 |
2019/12/01(日) 17:02:36.55ID:zxgavQqm
今年の漢字は天
2019/12/01(日) 17:27:44.79ID:xqkDTdKR
いっそU+32FFと書いてほしい
795デフォルトの名無しさん
垢版 |
2019/12/03(火) 02:50:32.39ID:TSc17kJh
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
https://www3.nhk.or.jp/news/html/20191202/k10012198561000.html
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声
796デフォルトの名無しさん
垢版 |
2019/12/03(火) 12:56:42.44ID:dBsSbed7
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?
2019/12/03(火) 14:48:10.41ID:32eP5DBa
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか
2019/12/03(火) 15:19:10.13ID:9x1aaywv
倍角、四倍角も入れて
2019/12/03(火) 15:35:57.78ID:IUIY88nX
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw
2019/12/03(火) 17:26:32.29ID:Y2nmLwy/
Unicodeは文字コードじゃなくて文字シーケンスと名前を変えるべき
801デフォルトの名無しさん
垢版 |
2019/12/04(水) 16:24:48.77ID:IlQO2KEp
黒板太字 - Wikipedia
https://ja.wikipedia.org/wiki/黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?
2019/12/04(水) 19:52:55.02ID:sxQF45hm
連続してないからあくまでも記号扱いなんだろうな。
2019/12/04(水) 20:23:19.21ID:bwCWk38v
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ
2019/12/05(木) 15:53:38.96ID:1Yvcqq3b
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。
805デフォルトの名無しさん
垢版 |
2019/12/05(木) 16:32:04.91ID:IbmhSLeW
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ
2019/12/06(金) 14:18:04.16ID:CxS2VDwU
>>805
IMEってMS-IMEのこと?
それともかな漢字変換全般?
807デフォルトの名無しさん
垢版 |
2019/12/06(金) 23:32:11.23ID:Ob0T3VF2
SKK使ってるからだけどそんな印象は全く無い
2019/12/10(火) 22:31:10.24ID:zD6aLrgM
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。
809デフォルトの名無しさん
垢版 |
2020/01/01(水) 02:03:31.89ID:ZBRDXVGi
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!����������
810デフォルトの名無しさん
垢版 |
2020/01/01(水) 11:19:22.03ID:tqBP4ADq
字にはヒラギノ〜ル♪
811デフォルトの名無しさん
垢版 |
2020/01/01(水) 22:58:15.38ID:fGGzsdYV
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな〜?
812デフォルトの名無しさん
垢版 |
2020/01/03(金) 06:32:52.61ID:wMN1Z8Zd
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。
813デフォルトの名無しさん
垢版 |
2020/01/03(金) 10:33:29.05ID:lHIykz7y
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ
814デフォルトの名無しさん
垢版 |
2020/01/03(金) 22:33:53.11ID:wMN1Z8Zd
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。
815デフォルトの名無しさん
垢版 |
2020/01/07(火) 14:48:29.36ID:lPDbYu1J
どのアプリの絵文字が「実際に使えるはさみの絵文字」なのか? - GIGAZINE
https://gigazine.net/news/20200106-which-emoji-scissors-close/

面白い
816デフォルトの名無しさん
垢版 |
2020/01/07(火) 15:01:40.99ID:2Dq0zKSW
左利き用のはさみも用意汁ωωω
2020/01/07(火) 15:12:21.25ID:dfBogwvq
ちなみによく切れるはさみはここが曲線
https://bungu.plus.co.jp/product/cut/img/fcc_smart_03.jpg
2020/01/07(火) 16:36:04.95ID:g+gnVlWv
はさみディレクションセレクター
2020/01/18(土) 12:49:25.00ID:jQMC+jX5
ぷにコードに関するチラ裏

localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた
2020/01/24(金) 09:35:27.22ID:jBJ9cIqM
6月のWG2は高松になったのか
また国外から来にくそうな
2020/01/26(日) 00:45:55.40ID:C+NhYhXj
道後温泉に行くか
2020/01/30(木) 14:46:03.72ID:WswUNrPx
Unicode Emoji 13.0 - Now final for 2020
http://blog.unicode.org/2020/01/unicode-emoji-130-now-final-for-2020.html
2020/01/30(木) 16:08:26.17ID:m1itn91m
今更タピ岡かい
2020/01/31(金) 12:43:23.65ID:G4fIlptF
Unicodeは完全にコンソーシアムのおもちゃになってんな
2020/01/31(金) 15:08:09.88ID:OCbveUqO
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。
2020/01/31(金) 19:55:14.24ID:tTpxWp9S
>>825
詰将棋用に上下逆の漢字を入れて欲しかった
2020/01/31(金) 22:55:44.99ID:GHfVRZCY
G入れるのまじやめて
2020/02/01(土) 00:49:18.17ID:6vnUAWit
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる
2020/02/02(日) 00:50:49.11ID:wzqxdRGo
将棋の駒は多分誰も提案書を出さないせい
2020/02/02(日) 01:02:15.43ID:0w4OLLiX
それ通ったらドンジャラ提案するわ
2020/02/02(日) 01:17:07.29ID:Vi9q8JVy
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・
2020/02/03(月) 01:41:22.43ID:qflv74w2
テスト٩( 'ω' )و
2020/02/03(月) 08:57:05.26ID:uSBWqXrE
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。
834デフォルトの名無しさん
垢版 |
2020/02/03(月) 11:59:58.53ID:62FLJlST
解説本だと普通に使われてるよな
2020/02/03(月) 13:40:49.09ID:yHobSnyY
タピオカが使われているのかと誤読
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。