文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/05/26(土) 23:54:42.44

もう JIS参考でも、amd でもなくて、正式規格本体にあるよ。情報古かったという話。
Amd3:2008 にあるんなら正式規格 ISO/IEC 10646:2012 にもあるかもしれん。確認できんけど。

**デフォルトの名無しさん** · 2018/05/27(日) 10:24:34.33

規格本体に入ったのは ISO/IEC 10646:2011

**デフォルトの名無しさん** · 2018/05/28(月) 01:39:25.84

>>286,312
CJK互換文字のラウンドトリップ用のものはUnicode規格書に明記されてる

> They are included in the Unicode Standard to provide full round-trip compatibility
> with the ideographic repertoire of ... and should not be used for any other purpose.
http://www.unicode.org/versions/Unicode10.0.0/ch18.pdf#page=21

**デフォルトの名無しさん** · 2018/05/28(月) 13:25:04.14

「推奨しない」でたね

**デフォルトの名無しさん** · 2018/05/28(月) 14:52:12.71

素晴らしい。こういうちゃんとした情報は歓迎するよ。
そうか、CJK互換文字の利用は「推奨しない」と仕様書に明記されているんだね。覚えておこう。

**デフォルトの名無しさん** · 2018/05/28(月) 16:00:24.98

「完全なラウンドトリップ互換性の為に提供するものであり、それ以外の使用は推奨しない」
だから問答無用で“should not be used”と言ってる訳じゃないけどね。

**デフォルトの名無しさん** · 2018/05/28(月) 22:09:23.88

こまけえこたあいいんだよ

**デフォルトの名無しさん** · 2018/05/29(火) 11:31:12.88

>>319
お前、その省略酷くないか。わざとか？
ソースちゃんと確認せずに信じる奴が悪いのか。
こうやってネット伝言ゲームでデマが広まるのか。

**デフォルトの名無しさん** · 2018/05/29(火) 11:40:21.01

伝聞デマの好例

**デフォルトの名無しさん** · 2018/05/29(火) 18:40:11.76

結局デマじゃないんでしょ？

**デフォルトの名無しさん** · 2018/05/29(火) 22:34:44.54

324は何を怒ってるんだ
319のフレーズは複数回出てきてその都度...の部分の規格書名が変わるだけだろうに

**デフォルトの名無しさん** · 2018/05/30(水) 12:07:23.64

いやだからUnicode公式が推奨しないと言ってるのは事実なんだろ。デマじゃないじゃん。
なんでもかんでもデマ扱いすれば自分が偉くなったような錯覚になって気分が良いのかもしれないが
迷惑だよ、そういう態度は。

**デフォルトの名無しさん** · 2018/05/30(水) 13:24:00.49

>>328
CJK互換文字の使用が推奨されないのは事実だけど、ローマ数字が推奨されないのはデマってことなんじゃないの。
それと2行目以降は蛇足だろ。

**デフォルトの名無しさん** · 2018/05/30(水) 14:33:31.86

復旧
🖕🏻🖕🏼🖕🏽🖕🏾🖕🏿🖕

**デフォルトの名無しさん** · 2018/05/30(水) 20:29:52.46

>>329
多分違う。
「CJK互換文字の一部には特定目的以外に使用すべきでない文字がある」が正しい。
318 はわざとか天然かは知らんが、CJK互換文字の一部にしか適用されないルールを、適用範囲の部分を抜かして引用して、あたかも全体に適用するルールであるかのように誤解する書き方をしてある。
あとは、それを鵜呑みした迂闊さんが「CJK互換文字は推奨されない(キリッ)」ってデマを広げる構図。

**デフォルトの名無しさん** · 2018/05/30(水) 20:46:20.24

だから「ラウンドトリップ用」って話だろ？

**デフォルトの名無しさん** · 2018/05/30(水) 20:50:56.47

>>331
タイプミス。318→319

**デフォルトの名無しさん** · 2018/05/30(水) 20:55:57.87

>>332
限定せずに「ラウンドトリップ用」って書いたらCJK互換文字全体だろ。
「JIS X 0213:2000のためのラウンドトリップ用」はその一部でしかない。

**デフォルトの名無しさん** · 2018/05/30(水) 21:06:09.88

気に入らないなら自分で満足の行くように書き直して貼り付ければ？
典拠示されてるんだから。

**デフォルトの名無しさん** · 2018/05/31(木) 00:48:48.00

そんな中途半端に書き直して貼り付けるからデマの元になるんだろ。反省しろ。

**デフォルトの名無しさん** · 2018/05/31(木) 05:31:03.12

デマはどっちだよ……「CJK互換文字は」という文脈からは「CJK互換文字に含まれる全ての文字は」という意味しか受け取れないのだが？
「一部」なんていう表現はどっから湧き出てきたんだよ……。

**デフォルトの名無しさん** · 2018/05/31(木) 09:53:50.67

>>337
おまえはどこの「文脈」を読んだんだ？
とりあえず本物の規格読んでこい。

**デフォルトの名無しさん** · 2018/05/31(木) 12:04:29.61

ケチ付けるんなら他人を納得させられる論拠と出典を出せよ
それができないんなら『CJK互換文字の利用は「推奨しない」』が正解だ

**デフォルトの名無しさん** · 2018/05/31(木) 15:11:25.68

南京大虐殺は30万人アルニダ

**デフォルトの名無しさん** · 2018/05/31(木) 20:31:47.82

誰か結論下さい（他力本願）。

**デフォルトの名無しさん** · 2018/05/31(木) 23:08:01.93

>>319のリンク先の規格書で、ラウンドトリップ用だから使用を推奨しないとされているのは以下の3種類だけ。
全体を非推奨とはしていないな。
・U+FA30～U+FA6A (JIS X 0213:2000)
・U+FA6B～U+FA6D (ARIB STD-B24)
・U+FA70～U+FAD9 (KPS 10721-2000)

**デフォルトの名無しさん** · 2018/06/01(金) 05:30:12.89

誰が誰かよくわかんないけど少なくともCJK互換漢字の一部に関しては
非推奨の根拠はあったってことでしょ

不正確だと思ったならそうじゃなくてこうだって言えばそれで済んだ話だろうに
そうせずにネチネチ言うばっかだから無駄に荒れる

**デフォルトの名無しさん** · 2018/06/01(金) 07:06:38.23

俺も>>320 >>321には違和感があったわ。

**デフォルトの名無しさん** · 2018/06/01(金) 08:37:44.05

>>343
一部でしかないのを全部のように言うから伝聞デマって言われたんだろ。

**デフォルトの名無しさん** · 2018/06/01(金) 11:58:37.96

>>342
一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな

**デフォルトの名無しさん** · 2018/06/01(金) 12:07:07.22

規格書嫁とか無茶言うやつがいます。
あれは暗号で書いてあるので書いた人にも読めません。

**デフォルトの名無しさん** · 2018/06/01(金) 12:41:04.24

あなたの能力の限界が人並み外れて低いからといって他人を同類扱いするのは良くない

**デフォルトの名無しさん** · 2018/06/01(金) 14:43:43.87

>>346
お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。

**デフォルトの名無しさん** · 2018/06/01(金) 22:29:28.35

>>346
CJK互換漢字 (CJK Compatibility Ideographs) : U+F900～U+FAFF と
CJK互換用文字 (CJK Compatibility) : U+3300～U+33FF は別物。
>>319で非推奨とされたのはCJK互換漢字(の一部)で、CJK互換文字ではない。

**デフォルトの名無しさん** · 2018/06/01(金) 22:43:44.67

>>349-350
こまけえこたあいいんだよ
逆に覚えたらどうするんだよ
「CJK互換」と付いてる領域は非推奨と覚えれば簡単だろ

**デフォルトの名無しさん** · 2018/06/01(金) 23:15:14.57

>>351
何のためにこんな専門スレにいるんだろうな
いっその事「文字コードの利用は推奨しない」で覚えておけば漏れがなく簡単だな

**デフォルトの名無しさん** · 2018/06/01(金) 23:19:16.78

既にデマは溢れてるので、今さら少しくらいデマが増えたところで、どうってことないという見方もあるが
規格の話をするなら細かい点を無視するとかありえない。

あえて >>350 にさらに細かい点をつっこむと
U+3300 - U+33FF は CJK互換ブロック(CJK Compatibility Block)
U+F900 - U+FAFF は CJK互換漢字ブロック(CJK Compatibility Ideograph Block)
とするのが正しいはずで「CJK互換文字」というのは表現は規格にはなかったと思う。

他にも
CJK Compatibility Forms (U+FE30 - UFE4F)
CJK Compatibility Ideograph Supplement (U+2F800 - U+2FA1D)
とかもあるので、勝手な名前とか使い始めるのはデマの元。

**デフォルトの名無しさん** · 2018/06/02(土) 03:00:41.99

弊社の開発プロジェクトでは「CJK互換」と名の付く文字は一律使用禁止とします

**デフォルトの名無しさん** · 2018/06/02(土) 05:43:50.91

Unicodeが公式に「利用を推奨しない」と明言しているのはCJK互換表意文字のそれも一部ってことはデマじゃないよね？

**デフォルトの名無しさん** · 2018/06/02(土) 06:07:25.49

ここまでの議論読ませてもらったが
「利用を推奨しない」
と
「(他規格)との完全ラウンドトリップ互換を提供すためにユニコード規格に含まれている、それ以外の目的に使用すべきではない」
とだと規格上の意味が全然違う気がするんだが？
前者は利用の否定で、後者は利用目的の限定で利用は否定してない。

**デフォルトの名無しさん** · 2018/06/02(土) 08:33:48.72

>>356
「全然」ではなくね？
少なくとも「利用を推奨しない」は後者の意味も含んでるでしょ。完全に数学的な含有じゃないにせよ。

**デフォルトの名無しさん** · 2018/06/02(土) 13:06:52.93

「これは食べられません」
と
「電子レンジ調理専用」

**デフォルトの名無しさん** · 2018/06/02(土) 13:52:43.55

Scheduled maintenance on June 2 and June 9 between 5am pst and 6pm pst. Expect down times of up to 5 hours while we upgrade the power feeds in our data center.

５ちゃんねるサーバ群が収容されているデータセンタにおいて給電装置の更新のため閲覧書き込みが出来なくなります
予定されている期間は以下の通りです
２０１８年６月２日（土）２１時から２０１８年６月３日（日）１０時
２０１８年６月９日（土）２１時から２０１８年６月３日（日）１０時
上記時間帯のうち最大５時間程度の停電が発生すると予想されています

不便をお掛けしますがよろしくお願い致します

◆QZaw55cn4c · 2018/06/02(土) 14:10:17.27

>>359
?
＞２０１８年６月９日（土）２１時から２０１８年６月３日（日）１０時

**デフォルトの名無しさん** · 2018/06/04(月) 17:00:48.61

>>342
マジか、マジだ
つまり最初に入ったKS X 1001/Big5/IBMは仕様書上では何も言われてなくて
後から入ったJIS X 0213とかは「ラウンドトリップ以外の使用は推奨しない」と明記なのか。

こんなことならJIS X 0213も無理してBMPに入れずにCNS 11643の残りと一緒にCJK統合漢字拡張Bに入れてもらえばよかったのに
(それが可能だったのかどうかは知らない)。

**デフォルトの名無しさん** · 2018/06/04(月) 23:13:57.26

後半、ちょっと違うんでは？ JIS X 0213 の追加漢字は別に無理して BMP に入ってない。普通に Exntend の方に入ってる。
JIS X 0213 と Unicode の包摂基準の違いから1対多対応の部分があって、ラウンドトリップを保証したかったら互換文字が必要になった。
そして必要な互換漢字は少数で、たまたまBMPのCJK 互換漢字漢字ブロックの後半がガラ空きだったので、そこにつっこまれた。
って話だったと思う。

**デフォルトの名無しさん** · 2018/06/04(月) 23:20:06.40

規格がいってるのは CJK互換漢字ブロックはもともと複数の文字コードとのラウンドトリップ用なんだけど、
指定した一部の範囲は "JIS X 0213:2000" とのラウンドトリップ専用で、他の文字コードとのラウンドトリップにも使うべきではないということ。

**デフォルトの名無しさん** · 2018/06/06(水) 14:26:39.66

Announcing The Unicode Standard, Version 11.0
http://blog.unicode.org/2018/06/announcing-unicode-standard-version-110.html

**デフォルトの名無しさん** · 2018/06/07(木) 22:48:02.08

Unicode 11.0出たのか、つかもう一年経ったのか……。

> Five urgently needed CJK unified ideographs: three for newly standardized names of chemical elements, and two for Japan's government administration Moji Joho Kiban Project that includes ideographs for personal and place names

へー、これは知らなかった。

**デフォルトの名無しさん** · 2018/06/07(木) 23:56:45.77

一昨年末に名称が正式決定したニホニウム等の元素を表す漢字がUROの末尾に追加になったんだな。

**デフォルトの名無しさん** · 2018/06/08(金) 00:10:00.49

そんなもんで漢字増やすなや！

**デフォルトの名無しさん** · 2018/06/08(金) 14:59:48.37

去年も書いたけど
Core Specification
Appendix D
Version History of the Standard
の漢字のとこの数字が足した数と合計で合わないんだよなぁ
48違うって何なんだろ。

**デフォルトの名無しさん** · 2018/06/08(金) 23:58:07.79

CJK統合漢字のUROの空きコードポイントは残り16個か。次でとうとうU+9FF0番台になる。
それらも全部使い切ったらその次の少数の緊急に必要な漢字追加は拡張A末尾の空きU+40B6～Fを使う事になるのかな。
でそこも使い切ったらBMPへの漢字追加は本当に終わりで拡張BやC、D…の末尾の空きを使用ってことになるんだろうな。

**デフォルトの名無しさん** · 2018/06/09(土) 00:37:24.38

文字列置換から除外するための一時退避の需要あるでしょ。
unicodeはプログラマが自由に使っていい領域ってどこだろう。

**デフォルトの名無しさん** · 2018/06/09(土) 01:02:14.54

「外字」でウィキれ

**デフォルトの名無しさん** · 2018/06/09(土) 09:13:51.52

>>371
回答ありがとう。
UnicodeのU+E000からU+E757あたりを使えばSJISにも対応できそう。

**デフォルトの名無しさん** · 2018/06/09(土) 19:05:32.10

curl 'http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt' | wc -l
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。

**デフォルトの名無しさん** · 2018/06/10(日) 06:07:59.44

何？結局16バイトに収まってたという話？

**デフォルトの名無しさん** · 2018/06/10(日) 06:08:19.99

ビットだ……恥ずかしい

**デフォルトの名無しさん** · 2018/06/10(日) 15:33:08.87

>>373
中身を見ればわかるけど漢字領域 (4e00 から 9efe) とかは
飛ばしてあるから全然違う。

**デフォルトの名無しさん** · 2018/06/10(日) 16:00:53.49

Android P Beta 2、グリーンサラダの絵文字からゆで卵が消える | スラドデベロッパー
https://developers.srad.jp/story/18/06/09/0621201/

ゆで卵を入れる多様性は許されないのか

**デフォルトの名無しさん** · 2018/06/11(月) 13:52:38.76

ジェンダーの方もなんか過剰だよね。政治的な活動家でもいるのかね

サラダの絵文字からGoogle、「卵」を排除　生産者団体が異議、「卵を返せ」論争に
https://www.j-cast.com/2018/06/09330966.html?p=all

**デフォルトの名無しさん** · 2018/06/11(月) 16:02:07.37

なんか力抜けたわｗ

**373** · 2018/06/12(火) 21:57:09.59

>>376
収録されている全文字を取得するにはどうしたらいいかな…

**デフォルトの名無しさん** · 2018/06/13(水) 00:45:51.71

どうなってんのこれ🤔

🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕

**デフォルトの名無しさん** · 2018/06/13(水) 00:55:38.87

5ちゃんでemojiのAAは文字数制限が厳しいからどうしても小さくなりがちだな

**デフォルトの名無しさん** · 2018/06/13(水) 06:58:34.14

なにか問題でも？
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿

**デフォルトの名無しさん** · 2018/06/17(日) 09:04:29.91

ユニコードとUTF8は何が違うんでしょうか
どちらもユニコード？それとも別のコード？頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・

**デフォルトの名無しさん** · 2018/06/17(日) 09:50:58.25

アップル外字どうなの


**デフォルトの名無しさん** · 2018/06/17(日) 12:32:46.14

>>384
文字集合と文字符号の違いならわかる？

**デフォルトの名無しさん** · 2018/06/17(日) 12:38:22.96

>>384
まずはウィキってこい
その上で分からないことがあれば質問しろ

**デフォルトの名無しさん** · 2018/06/17(日) 12:51:10.01

Shift_JISだって文字集合違ったりベンダ固有拡張あったりで
全然丸く収まってないよ殴り合いだよ

**デフォルトの名無しさん** · 2018/06/17(日) 13:31:33.71

MSのgithub買収でVSからclone出来ないリポジトリが増えて
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ

**デフォルトの名無しさん** · 2018/06/17(日) 13:54:11.58

>>389
今のWindows10ではUTF-8選べるから人柱になってくれ

**デフォルトの名無しさん** · 2018/06/18(月) 01:32:33.22

linux つかってる俺はUTF8統一で隙はなかった。
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)

**デフォルトの名無しさん** · 2018/06/18(月) 15:52:30.27

sjisはまだ許せる。utf16てめーはダメだ
内部コードに留めてメモリから外に出てこないでくれ

**デフォルトの名無しさん** · 2018/06/18(月) 16:14:38.61

std::wstringがデフォルトでUTF-32になるLinux 64bit版のSTLにも同じこと言えんの？

**デフォルトの名無しさん** · 2018/06/18(月) 16:17:38.73

SJISは完全に廃用でおｋ

**デフォルトの名無しさん** · 2018/06/18(月) 16:32:51.52

ほんそれ

**デフォルトの名無しさん** · 2018/06/18(月) 17:04:46.60

char32_tのある今、wchar_tの存在価値なんて無いでしょ
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし

**デフォルトの名無しさん** · 2018/06/18(月) 20:41:12.57

誰に賛成して、誰に反対しているかわからん。安価つけろ。

**デフォルトの名無しさん** · 2018/06/19(火) 07:29:13.13

？

**デフォルトの名無しさん** · 2018/06/19(火) 23:25:00.68

A社やG社始めメジャーなクラウド系サービスは全部UTF-8だな

**デフォルトの名無しさん** · 2018/06/20(水) 01:39:40.00

でも客にはSJIS対応を求められる不思議

**デフォルトの名無しさん** · 2018/06/20(水) 01:55:53.31

意味がわからないよな
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww

**デフォルトの名無しさん** · 2018/06/20(水) 02:06:06.18

日本語が２バイトで済む安心感じゃないの？
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。

**デフォルトの名無しさん** · 2018/06/20(水) 06:24:00.33

>>402
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった

**デフォルトの名無しさん** · 2018/06/20(水) 08:03:37.13

日本はまだマシで英語しか知らない欧米の連中だと「文字は1バイト」が常識だから
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や（通常全角幅の）絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。

**デフォルトの名無しさん** · 2018/06/20(水) 08:52:51.05

絵文字どころか10年以上前流行ったような古い日本の全角顔文字発掘してきて使ったりしてるよな最近

**デフォルトの名無しさん** · 2018/06/20(水) 15:17:43.40

>>401
ほんそれ

**デフォルトの名無しさん** · 2018/06/20(水) 15:19:01.43

>>403
なるほど
だとするとEBCDIC対応を求められても不思議じゃないな

**デフォルトの名無しさん** · 2018/06/20(水) 17:02:56.44

utf-8で何も考えずにソートしたら漢字の並びが非直感的になるから
しぶしぶsjis

**デフォルトの名無しさん** · 2018/06/20(水) 19:18:14.29

>>404
想像で言ってるだろ

**デフォルトの名無しさん** · 2018/06/20(水) 19:25:53.85

このスレは、Windowsを実務PCとして使ってない人が愚痴をこぼすスレですか。

**デフォルトの名無しさん** · 2018/06/20(水) 19:50:25.18

ほんそれ。
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかｗ

**デフォルトの名無しさん** · 2018/06/20(水) 20:58:05.50

Windowsの文字コード周りで唯一好きなのは改行コードが\r\nである点。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
　　de
↑こうなるべき。

**デフォルトの名無しさん** · 2018/06/20(水) 21:28:20.83

Windowsは互換性のためしょうがない部分はあるが、そういうのは\e[でやってろって感じだな。

**デフォルトの名無しさん** · 2018/06/21(木) 01:11:25.06

>>412
改行コードなんだから当たり前だろ。寝ぼけんな。
CR は改行コードじゃなくて復帰コードな。ラインプリンターに出してるわけじゃないので復帰コードが必要かどうかは仕様依存。

**デフォルトの名無しさん** · 2018/06/21(木) 01:29:39.14

ラインプリンター由来じゃなくてタイプライター由来じゃないの
キャリッジリターン
ラインフィード

**デフォルトの名無しさん** · 2018/06/21(木) 01:34:17.28

>>415
タイプライターに文字コードは必要ない。
正確にはテレタイプ端末とかテレプリンターとか呼ばれてた奴なんだが、要はラインプリンターだ。

**デフォルトの名無しさん** · 2018/06/21(木) 01:45:44.30

じゃあラインプリンターにもキャリッジあるの？
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg

**デフォルトの名無しさん** · 2018/06/21(木) 02:17:29.23

ラインまるごと打つからラインプリンターなんだよねｗ

**デフォルトの名無しさん** · 2018/06/21(木) 09:07:52.61

MACみたいにCRだけっていうのは病気だけど

CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ

**デフォルトの名無しさん** · 2018/06/21(木) 09:41:35.70

Why is the line terminator CR+LF?
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193

If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"

**デフォルトの名無しさん** · 2018/06/22(金) 13:23:16.23

そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね

**デフォルトの名無しさん** · 2018/06/22(金) 15:59:28.46

International Business Machines

**デフォルトの名無しさん** · 2018/06/22(金) 21:46:22.33

HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."

**デフォルトの名無しさん** · 2018/06/26(火) 16:07:00.46

>>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ

**デフォルトの名無しさん** · 2018/06/26(火) 22:23:33.42

一方でEBCDICはCRやLFとは別にNLを定義した。

**デフォルトの名無しさん** · 2018/06/27(水) 00:01:18.11

ｺﾚが正解

https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り

CRだけなら何度も同じ行が上書きされる（行送りされない）
LFだけなら例えば3行だとこうなる
XXXXXXXX
　　　　　　　XXXXXXXX
　　　　　　　　　　　　　　XXXXXXXX

**デフォルトの名無しさん** · 2018/06/27(水) 00:23:59.29

⮠じゃなくて⮦

**デフォルトの名無しさん** · 2018/06/27(水) 00:37:35.67

>>426
何自慢げに周回遅れなこと書いてんだ？
それ前提の議論だぞ？
>>417見ろや

**デフォルトの名無しさん** · 2018/06/27(水) 00:53:00.34

そんなこといいだしたら
ﾃﾞﾘﾐﾀなんかなんでもいいことになる
ただの文字ｺｰﾄﾞの羅列だからな
CRである必要もないしLFである必要もない

そもそもｷﾐﾗはｱﾎなこといってるﾜｹ
項目のﾃﾞﾘﾐﾀにｶﾝﾏつかったり水平ﾀﾌﾞ使ったりする
行のﾃﾞﾘﾐﾀだってなんでもいい

ﾊﾞｶはﾎﾝﾄ困るわぁ

**デフォルトの名無しさん** · 2018/06/27(水) 02:30:43.48

>>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。

実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。

**デフォルトの名無しさん** · 2018/06/27(水) 09:37:29.05

もともとテレタイプ前提の文字コードだからなあ

**デフォルトの名無しさん** · 2018/06/27(水) 15:41:13.36

文字の話しろ

**デフォルトの名無しさん** · 2018/06/27(水) 15:48:44.41

いや文字コードの話するスレだろ

**デフォルトの名無しさん** · 2018/06/27(水) 18:10:34.52

CR/LFは文字じゃないのか……（驚愕）

**デフォルトの名無しさん** · 2018/06/27(水) 21:08:46.77

制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。

**デフォルトの名無しさん** · 2018/06/27(水) 22:13:49.89

制御文字のコードです

**デフォルトの名無しさん** · 2018/06/27(水) 22:58:53.48

>>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう？
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった？
ASCIIって1986年が最終改訂じゃないの？

**デフォルトの名無しさん** · 2018/06/28(木) 09:21:41.88

コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。

すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「ＣＲ／ＬＦ」
になったのは、そうゆう趣旨かな？と思う。

**デフォルトの名無しさん** · 2018/06/28(木) 09:47:22.60

>>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは？

バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ

**デフォルトの名無しさん** · 2018/06/28(木) 11:06:58.11

BOMとかUTF-8Nってなんですか？

**デフォルトの名無しさん** · 2018/06/28(木) 12:37:34.87

>>439
なるほど。ありがとう。

**デフォルトの名無しさん** · 2018/06/28(木) 12:46:09.81

unicodeになって重ね打ち的な概念復活してきてね？

**デフォルトの名無しさん** · 2018/06/28(木) 15:12:27.72

>>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから

昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う

>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?

行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない

**デフォルトの名無しさん** · 2018/06/28(木) 16:20:32.60

escシーケンスでも改行せずに行頭に戻したり出来たからな

**デフォルトの名無しさん** · 2018/06/28(木) 16:21:52.50

>当時は意味があったのかも知れないけど

紙の排出に使われてたぞ

**デフォルトの名無しさん** · 2018/06/28(木) 18:55:39.46

>>443
コレクションタイプに全字画印字のキーってなかったっけ？
まさに"空白"を打てるやつ。

**デフォルトの名無しさん** · 2018/06/28(木) 23:48:15.68

UTF-8Nというのは
だれかがﾃｷﾄｰにつけたUnicodeのｴﾝｺｰﾄﾞの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない

とりあえず概要だけ書いといてやろう

BOMというのは、符号単位のｵｸﾃｯﾄの並びが
ﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝか識別するためにﾌｧｲﾙの先頭にﾏｰｸされる
ちなみにそれぞれのｴﾝｺｰﾄﾞの符号単位はこんな感じなる

　UTF-8：1つのｵｸﾃｯﾄ
　UTF-16：2つのｵｸﾃｯﾄ
　UTF-32：4つのｵｸﾃｯﾄ

つまり、UTF-8ではそんなﾏｰｸつけても意味がない
ｵｸﾃｯﾄが1つしかないからな、並びなんか関係ない
2つ以上の場合、ｵｸﾃｯﾄの順序がﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝかで
数値の表現のされかたが変わる

CISC系のﾁｯﾌﾟだと数値の表現はﾘﾄﾙｴﾝﾃﾞｨｱﾝが多い
RISC系のﾁｯﾌﾟだと数値の表現はﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝが多い

つまり、CISC系のﾁｯﾌﾟでﾘﾄﾙｴﾃﾞｨｱﾝで保存されたﾌｧｲﾙなら
ｴﾝﾃﾞｨｱﾝを気にせずにﾌｧｲﾙに保存された数値をそのまま読むことができる
しかしﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝなら一旦ｵｸﾃｯﾄの並びを逆転させてから
数値を読みとる必要がある
RISC系のﾁｯﾌﾟならその逆になる

分かった？

**デフォルトの名無しさん** · 2018/06/29(金) 03:04:36.82

わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの？

**デフォルトの名無しさん** · 2018/06/29(金) 09:04:53.35

>>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。（□はスペース）

□□□□□□□ＡＡ
□□□□□□□ＡＡ

□□□□□□□ＡＡ「ＣＲの無いＬＦ」「ＢＳ」「ＢＳ」ＡＡ
と打つと、行頭に戻すよりも速く打てると思うが。

**デフォルトの名無しさん** · 2018/06/29(金) 09:11:34.75

CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと

あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの？
端末によるけどたいていアンダーラインがつくよ

**デフォルトの名無しさん** · 2018/06/29(金) 09:17:15.33

>>443
CRとLFに分かれてるのは当時のハードウエアがそういう仕様だったから
画面制御のコンテキストで意味を求めてもしょうがない

**デフォルトの名無しさん** · 2018/06/29(金) 11:08:54.85

BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね

**デフォルトの名無しさん** · 2018/06/29(金) 11:50:23.53

そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。

**デフォルトの名無しさん** · 2018/06/29(金) 15:14:45.43

>>450
>(manでは)端末によるけどたいていアンダーラインがつくよ

manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ

**デフォルトの名無しさん** · 2018/06/29(金) 15:35:26.60

>>453
そうなっていたのはなぜかという話をしているのに
「そうなっていたから」と返されてもな…

**デフォルトの名無しさん** · 2018/06/29(金) 16:16:27.86

>>449
速く打てるだろうけど、そういうことをやりたい状況ってどれぐらいあるんだろ
行頭へ戻すほうがずっと多いだろうし、その場合にCR LFと打つことに
なってもしかたないと思えるほど>>449の状況は多かったのだろうか

キーを一つ押せばCR LFと出るように設定できれば手間はかからずにすむけど
設定できたとしても改行に2文字使うのは変わらない

昔は記録用に紙テープを使っていたようで、行毎に1文字多く使うと
その分、紙テープの消費は多くなる
そうなってもしかたないと思えるほど>>449の状況は多かったのだろうか

**デフォルトの名無しさん** · 2018/06/29(金) 22:19:47.60

ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど，珍しい。

**デフォルトの名無しさん** · 2018/06/29(金) 22:36:32.85

そこはhttp関係ないじゃん

**デフォルトの名無しさん** · 2018/06/29(金) 23:08:44.45

むしろﾌｫｰﾏｯﾄがきまってる
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの形式でもいいし
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの形式でもいいというﾌｫｰﾏｯﾄだからな

構成ｼｽﾃﾑがﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾘﾄﾙｴﾝﾃﾞｨｱﾝで扱う方が有利
当然、構成ｼｽﾃﾑがﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝで扱う方が有利になる
後処理の計算機のﾘｿｰｽ消費量を減らすために先にいちいち毎回ｴﾝﾃﾞｨｱﾝ変換するのもﾑﾀﾞだしな

ちなみにﾈｯﾄﾜｰｸのﾌﾟﾛﾄｺﾙの標準では歴史的な事情があって
ほぼ暗黙でﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝになってる
ﾄﾞｷｭﾒﾝﾄにｴﾝﾃﾞｨｱﾝが記載されてなければ
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝとみなしてほぼ問題ない

**デフォルトの名無しさん** · 2018/06/29(金) 23:10:02.53

ちなみにｷﾐﾗみたいな貧乏人が使ってるPCは
ほとんどﾘﾄﾙｴﾝﾃﾞｨｱﾝになる

**デフォルトの名無しさん** · 2018/06/30(土) 00:16:14.33

やっぱり今時半角カタカナ使う人にはアレな人が多いのか

**デフォルトの名無しさん** · 2018/06/30(土) 01:04:57.77

>>459
どっちでもいい＝決まってないだろ
頭悪いと半角カタカナが大好きになるのはなんでだぜ？

**デフォルトの名無しさん** · 2018/06/30(土) 03:46:45.67

>>460
じゃあお前何使ってんだ？
貧乏人なのでスマフォ叩きながら質問。

**デフォルトの名無しさん** · 2018/06/30(土) 04:38:43.11

やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう

**デフォルトの名無しさん** · 2018/06/30(土) 06:04:05.89

Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。

**デフォルトの名無しさん** · 2018/06/30(土) 13:06:02.67

エンディアン関係ないUTF-8が一番良いな

**デフォルトの名無しさん** · 2018/06/30(土) 13:32:27.92

UTF-8 はバイト列を見て文字がわかりにくいのが難点

**デフォルトの名無しさん** · 2018/06/30(土) 13:49:23.03

>>467
なんで？

◆QZaw55cn4c · 2018/06/30(土) 14:05:18.42

>>464
最初から 32 ビットにしなかったのが問題でしたね

**デフォルトの名無しさん** · 2018/06/30(土) 18:58:11.39

>>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って３バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ

**デフォルトの名無しさん** · 2018/06/30(土) 20:27:41.69

BOMでｴﾝﾃﾞｨｱﾝが規定できるからな
そのようにﾌｫｰﾏｯﾄできまってる
数値の読みとりかたも一意に定まる

どっちでもいいというﾜｹではない
ﾊﾞｶはﾎﾝﾄ困るわぁ

つまり
ﾘﾄﾙｴﾝﾃﾞｨｱﾝで2つ以上のｵｸﾃｯﾄがあるのに
先頭にBOM入れないﾔﾂはｺﾞﾐｸｽﾞといえる

Javaのﾊﾞｲﾄｺｰﾄﾞに CAFE BABE が入ってないぐらいお話にならない

ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝならBOMなくてもｵﾚはよいとしようと考える

**デフォルトの名無しさん** · 2018/06/30(土) 22:43:16.16

半角カタカナは目に入ってこないなｗ

**デフォルトの名無しさん** · 2018/06/30(土) 23:05:58.78

恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている

**デフォルトの名無しさん** · 2018/06/30(土) 23:20:50.17

未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに

**デフォルトの名無しさん** · 2018/07/01(日) 15:37:44.32

2ちゃんがSJISオンリーってのがそもそもはよなおせ

**デフォルトの名無しさん** · 2018/07/01(日) 15:50:52.13

sjisオンリー❓🤔

**デフォルトの名無しさん** · 2018/07/01(日) 16:00:26.27

>>470
中国のGB 18030みたく1バイト/2バイト(EUC-CN)の上に4バイトを重ねる方法もあるけど
それならUTF-8の方がすっきりしてていいわな

**デフォルトの名無しさん** · 2018/07/01(日) 18:18:14.73

Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。

**デフォルトの名無しさん** · 2018/07/02(月) 03:00:52.60

たとえば？

**デフォルトの名無しさん** · 2018/07/02(月) 08:27:03.72

Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。

**デフォルトの名無しさん** · 2018/07/03(火) 09:01:30.75

>>478
jis やsjisとかと全く関係なく決められている事を言ってるのだと思うが、
それは中国の横やりだよ。
欧米人からすると、CJKのコードなんて、どうでもいいわけで。

**デフォルトの名無しさん** · 2018/07/03(火) 14:32:34.20

>>464
文字列末尾からの逆方向検索を実装してごらんなさい。
もれなく SJIS に対する殺意が目覚めますよ。

**デフォルトの名無しさん** · 2018/07/03(火) 14:34:40.85

SJISは廃用で

**デフォルトの名無しさん** · 2018/07/03(火) 14:55:13.29

はいよっ！

**デフォルトの名無しさん** · 2018/07/04(水) 03:13:37.83

>>482
ビット立てながら先頭から見ればいいだけじゃん？

**デフォルトの名無しさん** · 2018/07/04(水) 17:14:03.55

うーん

**デフォルトの名無しさん** · 2018/07/04(水) 21:57:50.06

KZD

**デフォルトの名無しさん** · 2018/07/04(水) 23:49:15.94

昔、Unicodeもない時代に全文検索ｴﾝｼﾞﾝ作ったことがあるが
ｲﾝﾃﾞｯｸｽ作るのにもﾏｯﾁﾝｸﾞ用に符号圧縮したﾃﾞｰﾀ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISﾃﾞｰﾀから16bitのﾃﾞｰﾀに一旦変換してからそういったﾃﾞｰﾀを作成するようにしてたわ

要件が検索漏れｾﾞﾛ、ﾉｲｽﾞｾﾞﾛ、なおかつﾒﾃﾞｨｱは超ﾄﾛｲCD-ROMという
ありえない滅茶苦茶な内容だったからな

ｲﾝﾃﾞｸｻは大富豪な設計でないとやってられなかった
ｲﾝﾃﾞｯｸｽ作成にﾘｱﾙﾀｲﾑ性が要求されなかったからまだ救いがあったともいえる

その全文検索ｴﾝｼﾞﾝはｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなるかわりに
最悪のｹｰｽの速度が速くなるという仕様にした（最低限必要な性能の要求水準に応えるため）
ｲﾝﾃﾞｯｸｽを大きくするということはｲﾝﾃﾞｯｸｽを作るのに当然時間がかかるということになる
いまはそれもとてつもなくﾃﾞｰﾀが増えてDVDになってる
ｲﾝﾃﾞｯｸｽもものすごい大きくなってる

で、その最悪のｹｰｽというのは、
符号圧縮されたﾃﾞｰﾀをﾏｯﾁﾝｸﾞする回数が増えることを意味する

ﾏｯﾁﾝｸﾞの条件はﾏｯﾁﾝｸﾞｷｰﾜｰﾄﾞから生成するｲﾝﾃﾞｯｸｽに含まれる符号圧縮された符号の組み合わせになる
そのﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑにBMHを使うことになる

**デフォルトの名無しさん** · 2018/07/04(水) 23:50:33.59

で、このBMHというのは文字列ﾏｯﾁﾝｸﾞで非常に有効なｱﾙｺﾞﾘｽﾞﾑといえる
しかしShift_JISでは使えない
ﾕﾆｺｰﾄﾞならそのまんま使える

順方向からの文字列ﾏｯﾁﾝｸﾞですらShift_JISでは
こういった高速なﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑが使えない

いかにShift_JISがｳﾝｺかよくわかる典型的な例といっていい

**デフォルトの名無しさん** · 2018/07/05(木) 01:32:31.02

>>488
> ｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなる

髪を長くすればするほどロングになる

**デフォルトの名無しさん** · 2018/07/05(木) 01:51:36.04

ただし抜けやすくなる

**デフォルトの名無しさん** · 2018/07/05(木) 02:11:26.21

半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね

**デフォルトの名無しさん** · 2018/07/05(木) 02:30:50.16

大発見じゃん

**デフォルトの名無しさん** · 2018/07/05(木) 18:37:34.34

半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし

**デフォルトの名無しさん** · 2018/07/05(木) 19:38:22.34

Unicodeって日本を優遇しすぎてない？そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい（過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから）んだけどね、もちろん。

**デフォルトの名無しさん** · 2018/07/05(木) 20:37:53.33

>>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか？

**デフォルトの名無しさん** · 2018/07/05(木) 21:16:32.44

>>496
でもあれは互換性もクソもないじゃん

**デフォルトの名無しさん** · 2018/07/05(木) 22:49:22.73

誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。

**デフォルトの名無しさん** · 2018/07/05(木) 23:18:38.72

だめか
𒀑
𒄦
くさび

**デフォルトの名無しさん** · 2018/07/06(金) 07:29:45.69

㍻（元号を一文字化したもの）とかあるからな
申請すれば何でも通るんじゃねーの

**デフォルトの名無しさん** · 2018/07/06(金) 08:24:58.10

申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。

**デフォルトの名無しさん** · 2018/07/06(金) 08:47:24.31

㍼、㍻などは、昔の（日本の）文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。

**デフォルトの名無しさん** · 2018/07/06(金) 10:05:30.92

文部の沙汰も金私大

**デフォルトの名無しさん** · 2018/07/06(金) 19:02:02.70

>>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ

**デフォルトの名無しさん** · 2018/07/06(金) 22:30:52.61

先月のWG2ロンドン会議で32ffが予約された

>>501
申請者に権利なんてないよ。英文ができてフォントが作れるなら誰でも提案できる

**デフォルトの名無しさん** · 2018/07/07(土) 01:28:54.42

空いてるとこにﾃｷﾄｰにいれてるだけやん
文字ｺｰﾄﾞが連続してないし
ひどいﾏｯﾋﾟﾝｸﾞされてるわ

**デフォルトの名無しさん** · 2018/07/07(土) 10:47:15.09

元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。

**デフォルトの名無しさん** · 2018/07/07(土) 11:50:18.74

ちなみに先に書いた全文検索ｴﾝｼﾞﾝでは
ｱｲｳｴｵもｱｲｳｴｵも
ｶﾞｷﾞｸﾞｹﾞｺﾞもガギグゲゴも
１２３４５も12345も
ａｂｃｄｅもabcdeも
同じ文字ｺｰﾄﾞとして扱ってる
つまりどっちでｷｰﾜｰﾄﾞ書いても当たる
見た目（つまりｸﾞﾘﾌ）が違うだけで同じだからな

しかし明治大正昭和平成を㍾㍽㍼㍻までは
やってない

すでにいろんなもんでその全文検索ｴﾝｼﾞﾝは使われてるが
ｺﾚで文句がきたことはない

つまりだれも気にしてない

**デフォルトの名無しさん** · 2018/07/07(土) 13:23:15.59

ｶﾟｷﾟｸﾟｹﾟｺﾟはどうなるんだ

**デフォルトの名無しさん** · 2018/07/07(土) 13:49:40.16

こんな感じの内容からｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀが作成される

　ｶﾞｷﾞｸﾞｹﾞｺﾞ　ガギグゲゴ　⇒　カ゛キ゛ク゛ケ゛コ゛
　ｶﾟｷﾟｸﾟｹﾟｺﾟ　⇒　カ゜キ゜ク゜ケ゜コ゜

つまりｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀを作る前に前処理で一気に痴漢することになる
で、ｷｰﾜｰﾄﾞをｶﾞｷﾞｸﾞｹﾞｺﾞやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる

つまりこの全文検索ｴﾝｼﾞﾝは濁音も半濁音も検索できる超優れものといえるのだ

**デフォルトの名無しさん** · 2018/07/07(土) 14:06:53.21

痴漢アカン

**デフォルトの名無しさん** · 2018/07/07(土) 14:25:13.00

俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と㍻もちゃんと検索でヒットする

**デフォルトの名無しさん** · 2018/07/07(土) 15:16:01.20

ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる

その要望に応えるのも仕事だからな
で、そのなかに㍾㍽㍼㍻を置換した例はない

全角にﾏｯﾋﾟﾝｸﾞされてるasciiや半角ｶﾅの部分は
ｺﾚについてほぼ間違いなくみな同じ結論になる

それ以外で異なる特殊な部分は結構ある
文字ｺｰﾄﾞでｼﾉﾆﾑの部分もあれば、それ以外でｼﾉﾆﾑにしたい部分もあったりする
それは客の業務に依存する部分になるからな

**デフォルトの名無しさん** · 2018/07/07(土) 15:17:11.21

考えるのはｷﾐじゃないﾜｹ
ｷﾐはただのﾄﾞｶﾀなﾜｹ

わかる？

客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いｺｽﾄで実現できないといけない

なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃｶﾈかかりますよとかいえるﾜｹもない

そういうことだ

**デフォルトの名無しさん** · 2018/07/07(土) 15:56:51.92

>>507
次の次の次に予定されてる人が、女性に興味が持てない人だったり、
ジジイババアに囲まれて育つからババア専に育ったりするかもしれないぞ？

**デフォルトの名無しさん** · 2018/07/07(土) 17:04:10.09

絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら㍻になるとかでいいのに