文字コード総合スレ Part11

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2018/01/22(月) 22:58:23.45ID:UK/uqEp5
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
2018/06/21(木) 01:34:17.28ID:M+oxnni+
>>415
タイプライターに文字コードは必要ない。
正確にはテレタイプ端末とかテレプリンターとか呼ばれてた奴なんだが、要はラインプリンターだ。
2018/06/21(木) 01:45:44.30ID:9yZQgWTf
じゃあラインプリンターにもキャリッジあるの?
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
2018/06/21(木) 02:17:29.23ID:vn+zRuHD
ラインまるごと打つからラインプリンターなんだよねw
419デフォルトの名無しさん
垢版 |
2018/06/21(木) 09:07:52.61ID:y5k3a+mj
MACみたいにCRだけっていうのは病気だけど

CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
2018/06/21(木) 09:41:35.70ID:CR9+5isI
Why is the line terminator CR+LF?
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193

If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
2018/06/22(金) 13:23:16.23ID:zvOmzJZB
そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
422デフォルトの名無しさん
垢版 |
2018/06/22(金) 15:59:28.46ID:MYEvMa8B
International Business Machines
2018/06/22(金) 21:46:22.33ID:Lyh+6zOM
HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."
424デフォルトの名無しさん
垢版 |
2018/06/26(火) 16:07:00.46ID:Jp9iFqVj
>>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
2018/06/26(火) 22:23:33.42ID:PAZ2qH9Y
一方でEBCDICはCRやLFとは別にNLを定義した。
426デフォルトの名無しさん
垢版 |
2018/06/27(水) 00:01:18.11ID:4lF2I/sY
コレが正解

https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り

CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
       XXXXXXXX
              XXXXXXXX
2018/06/27(水) 00:23:59.29ID:Xb4utxw7
⮠じゃなくて⮦
2018/06/27(水) 00:37:35.67ID:BTQKl7xc
>>426
何自慢げに周回遅れなこと書いてんだ?
それ前提の議論だぞ?
>>417見ろや
429デフォルトの名無しさん
垢版 |
2018/06/27(水) 00:53:00.34ID:4lF2I/sY
そんなこといいだしたら
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない

そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい

バカはホント困るわぁ
2018/06/27(水) 02:30:43.48ID:ulOW8GiO
>>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。

実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
431デフォルトの名無しさん
垢版 |
2018/06/27(水) 09:37:29.05ID:5XsMHgY7
もともとテレタイプ前提の文字コードだからなあ
432デフォルトの名無しさん
垢版 |
2018/06/27(水) 15:41:13.36ID:2dfKv2YD
文字の話しろ
2018/06/27(水) 15:48:44.41ID:EKUkk/oX
いや文字コードの話するスレだろ
2018/06/27(水) 18:10:34.52ID:rSBeNI25
CR/LFは文字じゃないのか……(驚愕)
2018/06/27(水) 21:08:46.77ID:ulOW8GiO
制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。
2018/06/27(水) 22:13:49.89ID:5OUSIXAr
制御文字のコードです
2018/06/27(水) 22:58:53.48ID:+kEwaWuV
>>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
2018/06/28(木) 09:21:41.88ID:iSaREpik
コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。

すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
垢版 |
2018/06/28(木) 09:47:22.60ID:/fqEtI/z
>>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?

バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
垢版 |
2018/06/28(木) 11:06:58.11ID:5Es+lqIV
BOMとかUTF-8Nってなんですか?
2018/06/28(木) 12:37:34.87ID:iSaREpik
>>439
なるほど。ありがとう。
2018/06/28(木) 12:46:09.81ID:4/XCwkvc
unicodeになって重ね打ち的な概念復活してきてね?
2018/06/28(木) 15:12:27.72ID:LwHbkD+y
>>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから

昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う

>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?

行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
垢版 |
2018/06/28(木) 16:20:32.60ID:FdbC2U6h
escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
垢版 |
2018/06/28(木) 16:21:52.50ID:FdbC2U6h
>当時は意味があったのかも知れないけど

紙の排出に使われてたぞ
2018/06/28(木) 18:55:39.46ID:wMlREDKw
>>443
コレクションタイプに全字画印字のキーってなかったっけ?
まさに"空白"を打てるやつ。
447デフォルトの名無しさん
垢版 |
2018/06/28(木) 23:48:15.68ID:d1dmwFto
UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない

とりあえず概要だけ書いといてやろう

BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる

 UTF-8:1つのオクテット
 UTF-16:2つのオクテット
 UTF-32:4つのオクテット

つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる

CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い

つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる

分かった?
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS
わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
2018/06/29(金) 09:04:53.35ID:iuHQPsKC
>>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)

□□□□□□□AA
□□□□□□□AA

□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
2018/06/29(金) 09:11:34.75ID:pXG1OaDl
CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと

あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
2018/06/29(金) 09:17:15.33ID:pXG1OaDl
>>443
CRとLFに分かれてるのは当時のハードウエアがそういう仕様だったから
画面制御のコンテキストで意味を求めてもしょうがない
2018/06/29(金) 11:08:54.85ID:95WXFXv0
BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
2018/06/29(金) 11:50:23.53ID:Uc21CWyX
そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
2018/06/29(金) 15:14:45.43ID:C6H9lGIq
>>450
>(manでは)端末によるけどたいていアンダーラインがつくよ

manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
2018/06/29(金) 15:35:26.60ID:C6H9lGIq
>>453
そうなっていたのはなぜかという話をしているのに
「そうなっていたから」と返されてもな…
2018/06/29(金) 16:16:27.86ID:kXqQNYVA
>>449
速く打てるだろうけど、そういうことをやりたい状況ってどれぐらいあるんだろ
行頭へ戻すほうがずっと多いだろうし、その場合にCR LFと打つことに
なってもしかたないと思えるほど>>449の状況は多かったのだろうか

キーを一つ押せばCR LFと出るように設定できれば手間はかからずにすむけど
設定できたとしても改行に2文字使うのは変わらない

昔は記録用に紙テープを使っていたようで、行毎に1文字多く使うと
その分、紙テープの消費は多くなる
そうなってもしかたないと思えるほど>>449の状況は多かったのだろうか
2018/06/29(金) 22:19:47.60ID:jsqIPRMd
ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS
そこはhttp関係ないじゃん
459デフォルトの名無しさん
垢版 |
2018/06/29(金) 23:08:44.45ID:sSTEuPuw
むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな

構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな

ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
垢版 |
2018/06/29(金) 23:10:02.53ID:sSTEuPuw
ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
2018/06/30(土) 00:16:14.33ID:I+9paw5R
やっぱり今時半角カタカナ使う人にはアレな人が多いのか
2018/06/30(土) 01:04:57.77ID:2NGdD93t
>>459
どっちでもいい=決まってないだろ
頭悪いと半角カタカナが大好きになるのはなんでだぜ?
2018/06/30(土) 03:46:45.67ID:O2H7A6pY
>>460
じゃあお前何使ってんだ?
貧乏人なのでスマフォ叩きながら質問。
2018/06/30(土) 04:38:43.11ID:8S9cJyih
やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
2018/06/30(土) 06:04:05.89ID:tYfB6W3t
Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
2018/06/30(土) 13:06:02.67ID:QAvD/WKt
エンディアン関係ないUTF-8が一番良いな
2018/06/30(土) 13:32:27.92ID:cCXC0XvW
UTF-8 はバイト列を見て文字がわかりにくいのが難点
2018/06/30(土) 13:49:23.03ID:O2H7A6pY
>>467
なんで?
2018/06/30(土) 14:05:18.42ID:BPi0VHAg
>>464
最初から 32 ビットにしなかったのが問題でしたね
2018/06/30(土) 18:58:11.39ID:cCXC0XvW
>>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
垢版 |
2018/06/30(土) 20:27:41.69ID:ozTCpxdq
BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる

どっちでもいいというワケではない
バカはホント困るわぁ

つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる

Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない

ビッグエンディアンならBOMなくてもオレはよいとしようと考える
2018/06/30(土) 22:43:16.16ID:2NGdD93t
半角カタカナは目に入ってこないなw
2018/06/30(土) 23:05:58.78ID:8S9cJyih
恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
2018/06/30(土) 23:20:50.17ID:0vzJToCT
未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
475デフォルトの名無しさん
垢版 |
2018/07/01(日) 15:37:44.32ID:ep584YMH
2ちゃんがSJISオンリーってのがそもそもはよなおせ
2018/07/01(日) 15:50:52.13ID:3SrV2o5x
sjisオンリー❓🤔
2018/07/01(日) 16:00:26.27ID:omYv90Gk
>>470
中国のGB 18030みたく1バイト/2バイト(EUC-CN)の上に4バイトを重ねる方法もあるけど
それならUTF-8の方がすっきりしてていいわな
2018/07/01(日) 18:18:14.73ID:EnuoS7Gy
Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。
2018/07/02(月) 03:00:52.60ID:EL6wSxah
たとえば?
2018/07/02(月) 08:27:03.72ID:FZsTYqY7
Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。
2018/07/03(火) 09:01:30.75ID:IDUMbXdY
>>478
jis やsjisとかと全く関係なく決められている事を言ってるのだと思うが、
それは中国の横やりだよ。
欧米人からすると、CJKのコードなんて、どうでもいいわけで。
2018/07/03(火) 14:32:34.20ID:R6pmKHtn
>>464
文字列末尾からの逆方向検索を実装してごらんなさい。
もれなく SJIS に対する殺意が目覚めますよ。
2018/07/03(火) 14:34:40.85ID:gQF2QJmD
SJISは廃用で
2018/07/03(火) 14:55:13.29ID:pQbF/VH/
はいよっ!
2018/07/04(水) 03:13:37.83ID:FxllvN6o
>>482
ビット立てながら先頭から見ればいいだけじゃん?
2018/07/04(水) 17:14:03.55ID:LFQ4ypq9
うーん
487デフォルトの名無しさん
垢版 |
2018/07/04(水) 21:57:50.06ID:gFgZc5FG
KZD
488デフォルトの名無しさん
垢版 |
2018/07/04(水) 23:49:15.94ID:s7W39adb
昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ

要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな

インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる

その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる

で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する

マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
489デフォルトの名無しさん
垢版 |
2018/07/04(水) 23:50:33.59ID:s7W39adb
で、このBMHというのは文字列マッチングで非常に有効なアルゴリズムといえる
しかしShift_JISでは使えない
ユニコードならそのまんま使える

順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない

いかにShift_JISがウンコかよくわかる典型的な例といっていい
490デフォルトの名無しさん
垢版 |
2018/07/05(木) 01:32:31.02ID:Iw1yLrzA
>>488
> インデックスを大きくすればするほどインデックスが大きくなる

髪を長くすればするほどロングになる
491デフォルトの名無しさん
垢版 |
2018/07/05(木) 01:51:36.04ID:T0L/NWDK
ただし抜けやすくなる
2018/07/05(木) 02:11:26.21ID:8UhFPcQc
半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね
2018/07/05(木) 02:30:50.16ID:HIyPet1B
大発見じゃん
494デフォルトの名無しさん
垢版 |
2018/07/05(木) 18:37:34.34ID:0T2GdzcY
半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
2018/07/05(木) 19:38:22.34ID:CqUNBSEq
Unicodeって日本を優遇しすぎてない? そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
2018/07/05(木) 20:37:53.33ID:cHUpj8OH
>>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
2018/07/05(木) 21:16:32.44ID:CqUNBSEq
>>496
でもあれは互換性もクソもないじゃん
2018/07/05(木) 22:49:22.73ID:cHUpj8OH
誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。
499デフォルトの名無しさん
垢版 |
2018/07/05(木) 23:18:38.72ID:0kDXGIdf
だめか
𒀑
𒄦
くさび
2018/07/06(金) 07:29:45.69ID:3U2Ta28u
~(元号を一文字化したもの)とかあるからな
申請すれば何でも通るんじゃねーの
2018/07/06(金) 08:24:58.10ID:QJllJwz8
申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
2018/07/06(金) 08:47:24.31ID:IGjSb2yt
潤A~などは、昔の(日本の)文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。
503デフォルトの名無しさん
垢版 |
2018/07/06(金) 10:05:30.92ID:odzQpd8G
文部の沙汰も金私大
2018/07/06(金) 19:02:02.70ID:3U2Ta28u
>>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
2018/07/06(金) 22:30:52.61ID:p79Hvr/2
先月のWG2ロンドン会議で32ffが予約された

>>501
申請者に権利なんてないよ。英文ができてフォントが作れるなら誰でも提案できる
506デフォルトの名無しさん
垢版 |
2018/07/07(土) 01:28:54.42ID:kLxolQc6
空いてるとこにテキトーにいれてるだけやん
文字コードが連続してないし
ひどいマッピングされてるわ
2018/07/07(土) 10:47:15.09ID:OQyJYPpl
元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。
508デフォルトの名無しさん
垢版 |
2018/07/07(土) 11:50:18.74ID:kLxolQc6
ちなみに先に書いた全文検索エンジンでは
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな

しかし明治大正昭和平成を合紫順~までは
やってない

すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない

つまりだれも気にしてない
2018/07/07(土) 13:23:15.59ID:WVErtcKw
カ゚キ゚ク゚ケ゚コ゚はどうなるんだ
510デフォルトの名無しさん
垢版 |
2018/07/07(土) 13:49:40.16ID:kLxolQc6
こんな感じの内容からインデックスやマッチング用のデータが作成される

 ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
 カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜

つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる

つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
511デフォルトの名無しさん
垢版 |
2018/07/07(土) 14:06:53.21ID:IMiijYtR
痴漢アカン
2018/07/07(土) 14:25:13.00ID:WVErtcKw
俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と~もちゃんと検索でヒットする
513デフォルトの名無しさん
垢版 |
2018/07/07(土) 15:16:01.20ID:kLxolQc6
ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる

その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない

全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる

それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
514デフォルトの名無しさん
垢版 |
2018/07/07(土) 15:17:11.21ID:kLxolQc6
考えるのはキミじゃないワケ
キミはただのドカタなワケ

わかる?

客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない

なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない

そういうことだ
2018/07/07(土) 15:56:51.92ID:hSg2x2AH
>>507
次の次の次に予定されてる人が、女性に興味が持てない人だったり、
ジジイババアに囲まれて育つからババア専に育ったりするかもしれないぞ?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況