文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/06/28(木) 09:21:41.88

コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。

すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「ＣＲ／ＬＦ」
になったのは、そうゆう趣旨かな？と思う。

**デフォルトの名無しさん** · 2018/06/28(木) 09:47:22.60

>>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは？

バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ

**デフォルトの名無しさん** · 2018/06/28(木) 11:06:58.11

BOMとかUTF-8Nってなんですか？

**デフォルトの名無しさん** · 2018/06/28(木) 12:37:34.87

>>439
なるほど。ありがとう。

**デフォルトの名無しさん** · 2018/06/28(木) 12:46:09.81

unicodeになって重ね打ち的な概念復活してきてね？

**デフォルトの名無しさん** · 2018/06/28(木) 15:12:27.72

>>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから

昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う

>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?

行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない

**デフォルトの名無しさん** · 2018/06/28(木) 16:20:32.60

escシーケンスでも改行せずに行頭に戻したり出来たからな

**デフォルトの名無しさん** · 2018/06/28(木) 16:21:52.50

>当時は意味があったのかも知れないけど

紙の排出に使われてたぞ

**デフォルトの名無しさん** · 2018/06/28(木) 18:55:39.46

>>443
コレクションタイプに全字画印字のキーってなかったっけ？
まさに"空白"を打てるやつ。

**デフォルトの名無しさん** · 2018/06/28(木) 23:48:15.68

UTF-8Nというのは
だれかがﾃｷﾄｰにつけたUnicodeのｴﾝｺｰﾄﾞの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない

とりあえず概要だけ書いといてやろう

BOMというのは、符号単位のｵｸﾃｯﾄの並びが
ﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝか識別するためにﾌｧｲﾙの先頭にﾏｰｸされる
ちなみにそれぞれのｴﾝｺｰﾄﾞの符号単位はこんな感じなる

　UTF-8：1つのｵｸﾃｯﾄ
　UTF-16：2つのｵｸﾃｯﾄ
　UTF-32：4つのｵｸﾃｯﾄ

つまり、UTF-8ではそんなﾏｰｸつけても意味がない
ｵｸﾃｯﾄが1つしかないからな、並びなんか関係ない
2つ以上の場合、ｵｸﾃｯﾄの順序がﾘﾄﾙｴﾃﾞｨｱﾝかﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝかで
数値の表現のされかたが変わる

CISC系のﾁｯﾌﾟだと数値の表現はﾘﾄﾙｴﾝﾃﾞｨｱﾝが多い
RISC系のﾁｯﾌﾟだと数値の表現はﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝが多い

つまり、CISC系のﾁｯﾌﾟでﾘﾄﾙｴﾃﾞｨｱﾝで保存されたﾌｧｲﾙなら
ｴﾝﾃﾞｨｱﾝを気にせずにﾌｧｲﾙに保存された数値をそのまま読むことができる
しかしﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝなら一旦ｵｸﾃｯﾄの並びを逆転させてから
数値を読みとる必要がある
RISC系のﾁｯﾌﾟならその逆になる

分かった？

**デフォルトの名無しさん** · 2018/06/29(金) 03:04:36.82

わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの？

**デフォルトの名無しさん** · 2018/06/29(金) 09:04:53.35

>>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。（□はスペース）

□□□□□□□ＡＡ
□□□□□□□ＡＡ

□□□□□□□ＡＡ「ＣＲの無いＬＦ」「ＢＳ」「ＢＳ」ＡＡ
と打つと、行頭に戻すよりも速く打てると思うが。

**デフォルトの名無しさん** · 2018/06/29(金) 09:11:34.75

CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと

あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの？
端末によるけどたいていアンダーラインがつくよ

**デフォルトの名無しさん** · 2018/06/29(金) 09:17:15.33

>>443
CRとLFに分かれてるのは当時のハードウエアがそういう仕様だったから
画面制御のコンテキストで意味を求めてもしょうがない

**デフォルトの名無しさん** · 2018/06/29(金) 11:08:54.85

BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね

**デフォルトの名無しさん** · 2018/06/29(金) 11:50:23.53

そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。

**デフォルトの名無しさん** · 2018/06/29(金) 15:14:45.43

>>450
>(manでは)端末によるけどたいていアンダーラインがつくよ

manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ

**デフォルトの名無しさん** · 2018/06/29(金) 15:35:26.60

>>453
そうなっていたのはなぜかという話をしているのに
「そうなっていたから」と返されてもな…

**デフォルトの名無しさん** · 2018/06/29(金) 16:16:27.86

>>449
速く打てるだろうけど、そういうことをやりたい状況ってどれぐらいあるんだろ
行頭へ戻すほうがずっと多いだろうし、その場合にCR LFと打つことに
なってもしかたないと思えるほど>>449の状況は多かったのだろうか

キーを一つ押せばCR LFと出るように設定できれば手間はかからずにすむけど
設定できたとしても改行に2文字使うのは変わらない

昔は記録用に紙テープを使っていたようで、行毎に1文字多く使うと
その分、紙テープの消費は多くなる
そうなってもしかたないと思えるほど>>449の状況は多かったのだろうか

**デフォルトの名無しさん** · 2018/06/29(金) 22:19:47.60

ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど，珍しい。

**デフォルトの名無しさん** · 2018/06/29(金) 22:36:32.85

そこはhttp関係ないじゃん

**デフォルトの名無しさん** · 2018/06/29(金) 23:08:44.45

むしろﾌｫｰﾏｯﾄがきまってる
ﾘﾄﾙｴﾝﾃﾞｨｱﾝの形式でもいいし
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの形式でもいいというﾌｫｰﾏｯﾄだからな

構成ｼｽﾃﾑがﾘﾄﾙｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾘﾄﾙｴﾝﾃﾞｨｱﾝで扱う方が有利
当然、構成ｼｽﾃﾑがﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝの計算機が多い場合、ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝで扱う方が有利になる
後処理の計算機のﾘｿｰｽ消費量を減らすために先にいちいち毎回ｴﾝﾃﾞｨｱﾝ変換するのもﾑﾀﾞだしな

ちなみにﾈｯﾄﾜｰｸのﾌﾟﾛﾄｺﾙの標準では歴史的な事情があって
ほぼ暗黙でﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝになってる
ﾄﾞｷｭﾒﾝﾄにｴﾝﾃﾞｨｱﾝが記載されてなければ
ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝとみなしてほぼ問題ない

**デフォルトの名無しさん** · 2018/06/29(金) 23:10:02.53

ちなみにｷﾐﾗみたいな貧乏人が使ってるPCは
ほとんどﾘﾄﾙｴﾝﾃﾞｨｱﾝになる

**デフォルトの名無しさん** · 2018/06/30(土) 00:16:14.33

やっぱり今時半角カタカナ使う人にはアレな人が多いのか

**デフォルトの名無しさん** · 2018/06/30(土) 01:04:57.77

>>459
どっちでもいい＝決まってないだろ
頭悪いと半角カタカナが大好きになるのはなんでだぜ？

**デフォルトの名無しさん** · 2018/06/30(土) 03:46:45.67

>>460
じゃあお前何使ってんだ？
貧乏人なのでスマフォ叩きながら質問。

**デフォルトの名無しさん** · 2018/06/30(土) 04:38:43.11

やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう

**デフォルトの名無しさん** · 2018/06/30(土) 06:04:05.89

Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。

**デフォルトの名無しさん** · 2018/06/30(土) 13:06:02.67

エンディアン関係ないUTF-8が一番良いな

**デフォルトの名無しさん** · 2018/06/30(土) 13:32:27.92

UTF-8 はバイト列を見て文字がわかりにくいのが難点

**デフォルトの名無しさん** · 2018/06/30(土) 13:49:23.03

>>467
なんで？

◆QZaw55cn4c · 2018/06/30(土) 14:05:18.42

>>464
最初から 32 ビットにしなかったのが問題でしたね

**デフォルトの名無しさん** · 2018/06/30(土) 18:58:11.39

>>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って３バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ

**デフォルトの名無しさん** · 2018/06/30(土) 20:27:41.69

BOMでｴﾝﾃﾞｨｱﾝが規定できるからな
そのようにﾌｫｰﾏｯﾄできまってる
数値の読みとりかたも一意に定まる

どっちでもいいというﾜｹではない
ﾊﾞｶはﾎﾝﾄ困るわぁ

つまり
ﾘﾄﾙｴﾝﾃﾞｨｱﾝで2つ以上のｵｸﾃｯﾄがあるのに
先頭にBOM入れないﾔﾂはｺﾞﾐｸｽﾞといえる

Javaのﾊﾞｲﾄｺｰﾄﾞに CAFE BABE が入ってないぐらいお話にならない

ﾋﾞｯｸﾞｴﾝﾃﾞｨｱﾝならBOMなくてもｵﾚはよいとしようと考える

**デフォルトの名無しさん** · 2018/06/30(土) 22:43:16.16

半角カタカナは目に入ってこないなｗ

**デフォルトの名無しさん** · 2018/06/30(土) 23:05:58.78

恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている

**デフォルトの名無しさん** · 2018/06/30(土) 23:20:50.17

未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに

**デフォルトの名無しさん** · 2018/07/01(日) 15:37:44.32

2ちゃんがSJISオンリーってのがそもそもはよなおせ

**デフォルトの名無しさん** · 2018/07/01(日) 15:50:52.13

sjisオンリー❓🤔

**デフォルトの名無しさん** · 2018/07/01(日) 16:00:26.27

>>470
中国のGB 18030みたく1バイト/2バイト(EUC-CN)の上に4バイトを重ねる方法もあるけど
それならUTF-8の方がすっきりしてていいわな

**デフォルトの名無しさん** · 2018/07/01(日) 18:18:14.73

Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。

**デフォルトの名無しさん** · 2018/07/02(月) 03:00:52.60

たとえば？

**デフォルトの名無しさん** · 2018/07/02(月) 08:27:03.72

Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。

**デフォルトの名無しさん** · 2018/07/03(火) 09:01:30.75

>>478
jis やsjisとかと全く関係なく決められている事を言ってるのだと思うが、
それは中国の横やりだよ。
欧米人からすると、CJKのコードなんて、どうでもいいわけで。

**デフォルトの名無しさん** · 2018/07/03(火) 14:32:34.20

>>464
文字列末尾からの逆方向検索を実装してごらんなさい。
もれなく SJIS に対する殺意が目覚めますよ。

**デフォルトの名無しさん** · 2018/07/03(火) 14:34:40.85

SJISは廃用で

**デフォルトの名無しさん** · 2018/07/03(火) 14:55:13.29

はいよっ！

**デフォルトの名無しさん** · 2018/07/04(水) 03:13:37.83

>>482
ビット立てながら先頭から見ればいいだけじゃん？

**デフォルトの名無しさん** · 2018/07/04(水) 17:14:03.55

うーん

**デフォルトの名無しさん** · 2018/07/04(水) 21:57:50.06

KZD

**デフォルトの名無しさん** · 2018/07/04(水) 23:49:15.94

昔、Unicodeもない時代に全文検索ｴﾝｼﾞﾝ作ったことがあるが
ｲﾝﾃﾞｯｸｽ作るのにもﾏｯﾁﾝｸﾞ用に符号圧縮したﾃﾞｰﾀ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISﾃﾞｰﾀから16bitのﾃﾞｰﾀに一旦変換してからそういったﾃﾞｰﾀを作成するようにしてたわ

要件が検索漏れｾﾞﾛ、ﾉｲｽﾞｾﾞﾛ、なおかつﾒﾃﾞｨｱは超ﾄﾛｲCD-ROMという
ありえない滅茶苦茶な内容だったからな

ｲﾝﾃﾞｸｻは大富豪な設計でないとやってられなかった
ｲﾝﾃﾞｯｸｽ作成にﾘｱﾙﾀｲﾑ性が要求されなかったからまだ救いがあったともいえる

その全文検索ｴﾝｼﾞﾝはｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなるかわりに
最悪のｹｰｽの速度が速くなるという仕様にした（最低限必要な性能の要求水準に応えるため）
ｲﾝﾃﾞｯｸｽを大きくするということはｲﾝﾃﾞｯｸｽを作るのに当然時間がかかるということになる
いまはそれもとてつもなくﾃﾞｰﾀが増えてDVDになってる
ｲﾝﾃﾞｯｸｽもものすごい大きくなってる

で、その最悪のｹｰｽというのは、
符号圧縮されたﾃﾞｰﾀをﾏｯﾁﾝｸﾞする回数が増えることを意味する

ﾏｯﾁﾝｸﾞの条件はﾏｯﾁﾝｸﾞｷｰﾜｰﾄﾞから生成するｲﾝﾃﾞｯｸｽに含まれる符号圧縮された符号の組み合わせになる
そのﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑにBMHを使うことになる

**デフォルトの名無しさん** · 2018/07/04(水) 23:50:33.59

で、このBMHというのは文字列ﾏｯﾁﾝｸﾞで非常に有効なｱﾙｺﾞﾘｽﾞﾑといえる
しかしShift_JISでは使えない
ﾕﾆｺｰﾄﾞならそのまんま使える

順方向からの文字列ﾏｯﾁﾝｸﾞですらShift_JISでは
こういった高速なﾏｯﾁﾝｸﾞｱﾙｺﾞﾘｽﾞﾑが使えない

いかにShift_JISがｳﾝｺかよくわかる典型的な例といっていい

**デフォルトの名無しさん** · 2018/07/05(木) 01:32:31.02

>>488
> ｲﾝﾃﾞｯｸｽを大きくすればするほどｲﾝﾃﾞｯｸｽが大きくなる

髪を長くすればするほどロングになる

**デフォルトの名無しさん** · 2018/07/05(木) 01:51:36.04

ただし抜けやすくなる

**デフォルトの名無しさん** · 2018/07/05(木) 02:11:26.21

半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね

**デフォルトの名無しさん** · 2018/07/05(木) 02:30:50.16

大発見じゃん

**デフォルトの名無しさん** · 2018/07/05(木) 18:37:34.34

半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし

**デフォルトの名無しさん** · 2018/07/05(木) 19:38:22.34

Unicodeって日本を優遇しすぎてない？そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい（過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから）んだけどね、もちろん。

**デフォルトの名無しさん** · 2018/07/05(木) 20:37:53.33

>>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか？

**デフォルトの名無しさん** · 2018/07/05(木) 21:16:32.44

>>496
でもあれは互換性もクソもないじゃん

**デフォルトの名無しさん** · 2018/07/05(木) 22:49:22.73

誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。

**デフォルトの名無しさん** · 2018/07/05(木) 23:18:38.72

だめか
𒀑
𒄦
くさび

**デフォルトの名無しさん** · 2018/07/06(金) 07:29:45.69

㍻（元号を一文字化したもの）とかあるからな
申請すれば何でも通るんじゃねーの

**デフォルトの名無しさん** · 2018/07/06(金) 08:24:58.10

申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。

**デフォルトの名無しさん** · 2018/07/06(金) 08:47:24.31

㍼、㍻などは、昔の（日本の）文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。

**デフォルトの名無しさん** · 2018/07/06(金) 10:05:30.92

文部の沙汰も金私大

**デフォルトの名無しさん** · 2018/07/06(金) 19:02:02.70

>>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ

**デフォルトの名無しさん** · 2018/07/06(金) 22:30:52.61

先月のWG2ロンドン会議で32ffが予約された

>>501
申請者に権利なんてないよ。英文ができてフォントが作れるなら誰でも提案できる

**デフォルトの名無しさん** · 2018/07/07(土) 01:28:54.42

空いてるとこにﾃｷﾄｰにいれてるだけやん
文字ｺｰﾄﾞが連続してないし
ひどいﾏｯﾋﾟﾝｸﾞされてるわ

**デフォルトの名無しさん** · 2018/07/07(土) 10:47:15.09

元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。

**デフォルトの名無しさん** · 2018/07/07(土) 11:50:18.74

ちなみに先に書いた全文検索ｴﾝｼﾞﾝでは
ｱｲｳｴｵもｱｲｳｴｵも
ｶﾞｷﾞｸﾞｹﾞｺﾞもガギグゲゴも
１２３４５も12345も
ａｂｃｄｅもabcdeも
同じ文字ｺｰﾄﾞとして扱ってる
つまりどっちでｷｰﾜｰﾄﾞ書いても当たる
見た目（つまりｸﾞﾘﾌ）が違うだけで同じだからな

しかし明治大正昭和平成を㍾㍽㍼㍻までは
やってない

すでにいろんなもんでその全文検索ｴﾝｼﾞﾝは使われてるが
ｺﾚで文句がきたことはない

つまりだれも気にしてない

**デフォルトの名無しさん** · 2018/07/07(土) 13:23:15.59

ｶﾟｷﾟｸﾟｹﾟｺﾟはどうなるんだ

**デフォルトの名無しさん** · 2018/07/07(土) 13:49:40.16

こんな感じの内容からｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀが作成される

　ｶﾞｷﾞｸﾞｹﾞｺﾞ　ガギグゲゴ　⇒　カ゛キ゛ク゛ケ゛コ゛
　ｶﾟｷﾟｸﾟｹﾟｺﾟ　⇒　カ゜キ゜ク゜ケ゜コ゜

つまりｲﾝﾃﾞｯｸｽやﾏｯﾁﾝｸﾞ用のﾃﾞｰﾀを作る前に前処理で一気に痴漢することになる
で、ｷｰﾜｰﾄﾞをｶﾞｷﾞｸﾞｹﾞｺﾞやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる

つまりこの全文検索ｴﾝｼﾞﾝは濁音も半濁音も検索できる超優れものといえるのだ

**デフォルトの名無しさん** · 2018/07/07(土) 14:06:53.21

痴漢アカン

**デフォルトの名無しさん** · 2018/07/07(土) 14:25:13.00

俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と㍻もちゃんと検索でヒットする

**デフォルトの名無しさん** · 2018/07/07(土) 15:16:01.20

ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる

その要望に応えるのも仕事だからな
で、そのなかに㍾㍽㍼㍻を置換した例はない

全角にﾏｯﾋﾟﾝｸﾞされてるasciiや半角ｶﾅの部分は
ｺﾚについてほぼ間違いなくみな同じ結論になる

それ以外で異なる特殊な部分は結構ある
文字ｺｰﾄﾞでｼﾉﾆﾑの部分もあれば、それ以外でｼﾉﾆﾑにしたい部分もあったりする
それは客の業務に依存する部分になるからな

**デフォルトの名無しさん** · 2018/07/07(土) 15:17:11.21

考えるのはｷﾐじゃないﾜｹ
ｷﾐはただのﾄﾞｶﾀなﾜｹ

わかる？

客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いｺｽﾄで実現できないといけない

なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃｶﾈかかりますよとかいえるﾜｹもない

そういうことだ

**デフォルトの名無しさん** · 2018/07/07(土) 15:56:51.92

>>507
次の次の次に予定されてる人が、女性に興味が持てない人だったり、
ジジイババアに囲まれて育つからババア専に育ったりするかもしれないぞ？

**デフォルトの名無しさん** · 2018/07/07(土) 17:04:10.09

絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら㍻になるとかでいいのに

**デフォルトの名無しさん** · 2018/07/07(土) 20:17:18.16

魚 + ZWJ + 里 = 鯉
とか収拾がつかなくなる

**デフォルトの名無しさん** · 2018/07/07(土) 20:47:01.42

光＋宙＝ピカチュウとか？

**デフォルトの名無しさん** · 2018/07/07(土) 21:11:51.93

次の元号組み文字はCP932やJISX0213には入るのかな？

**デフォルトの名無しさん** · 2018/07/07(土) 22:51:54.27

月+光=胱とか

実際に胱を人名に使えるようにしてほしいという要望があるそうだ

**デフォルトの名無しさん** · 2018/07/08(日) 00:07:58.74

自力でマッピングするnkfの遅さ。文化遺産だから保守され続けるのだろうけど。

**デフォルトの名無しさん** · 2018/07/08(日) 00:46:47.26

ていうか確かそういう（漢字を結合する）のにピッタシな文字が用意されてた筈。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。

**デフォルトの名無しさん** · 2018/07/08(日) 00:54:45.54

>>516
日本NBがBMPに専用のコードポイントを確保することにこだわった
BMPしか扱えず合成何それ？みたいなシステムが国内にいっぱい残ってるんだと

**デフォルトの名無しさん** · 2018/07/08(日) 21:30:52.45

>>520
でもその月は本来は肉なのでわ

**デフォルトの名無しさん** · 2018/07/08(日) 21:58:14.68

>>524
キラキラネームつけるレベルの頭の人だよ？
そんな難しいことわかんないよ。

**デフォルトの名無しさん** · 2018/07/08(日) 22:00:52.97

>>520
要望する人はそんなの気にしないんでしょ

**デフォルトの名無しさん** · 2018/07/08(日) 22:01:58.98

>>526
アンカ間違えた

>>524
要望する人はそんなの気にしないんでしょ

**デフォルトの名無しさん** · 2018/07/08(日) 22:15:50.43

合字と、ひとつの漢字が偏旁に分かれているのとはまた別だろ

**デフォルトの名無しさん** · 2018/07/08(日) 22:25:52.71

胱を人名に使えるようにしてほしいと要望している人たちは
胱を月と光の合字のようなものと考えてるんだろうなって話だからな

**デフォルトの名無しさん** · 2018/07/08(日) 22:58:07.18

しかし肉と光でなんで膀胱なんだろうな
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら

**デフォルトの名無しさん** · 2018/07/08(日) 23:05:05.80

三光作戦の光

**デフォルトの名無しさん** · 2018/07/09(月) 02:42:13.13

形声文字という概念も知らんのか…

**デフォルトの名無しさん** · 2018/07/09(月) 03:26:55.92

>>530
https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱　コウ　　月部にく
解字　「月（からだ）＋光（ひろがる）」　の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味　「膀胱ボウコウ」（ゆばりぶくろ）に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。

**デフォルトの名無しさん** · 2018/07/09(月) 04:35:05.56

肺やちんこも広がるのですが？

**デフォルトの名無しさん** · 2018/07/11(水) 19:19:37.68

昔の知識じゃそんなこと分からんやろ
足りない頭ひねって考えろやボケナス

**デフォルトの名無しさん** · 2018/07/11(水) 19:27:48.34

昔のちんこは拡がらなかったのですか！？

**デフォルトの名無しさん** · 2018/07/11(水) 22:21:59.51

大陸の人のちんこはやらかい印象がある