プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
探検
文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp5438デフォルトの名無しさん
2018/06/28(木) 09:21:41.88ID:iSaREpik コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
2018/06/28(木) 09:47:22.60ID:/fqEtI/z >>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
2018/06/28(木) 11:06:58.11ID:5Es+lqIV BOMとかUTF-8Nってなんですか?
441デフォルトの名無しさん
2018/06/28(木) 12:37:34.87ID:iSaREpik >>439
なるほど。ありがとう。
なるほど。ありがとう。
442デフォルトの名無しさん
2018/06/28(木) 12:46:09.81ID:4/XCwkvc unicodeになって重ね打ち的な概念復活してきてね?
443デフォルトの名無しさん
2018/06/28(木) 15:12:27.72ID:LwHbkD+y >>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
2018/06/28(木) 16:20:32.60ID:FdbC2U6h escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
2018/06/28(木) 16:21:52.50ID:FdbC2U6h >当時は意味があったのかも知れないけど
紙の排出に使われてたぞ
紙の排出に使われてたぞ
446デフォルトの名無しさん
2018/06/28(木) 18:55:39.46ID:wMlREDKw447デフォルトの名無しさん
2018/06/28(木) 23:48:15.68ID:d1dmwFto UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
448デフォルトの名無しさん
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
449デフォルトの名無しさん
2018/06/29(金) 09:04:53.35ID:iuHQPsKC >>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
450デフォルトの名無しさん
2018/06/29(金) 09:11:34.75ID:pXG1OaDl CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
451デフォルトの名無しさん
2018/06/29(金) 09:17:15.33ID:pXG1OaDl452デフォルトの名無しさん
2018/06/29(金) 11:08:54.85ID:95WXFXv0 BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
453デフォルトの名無しさん
2018/06/29(金) 11:50:23.53ID:Uc21CWyX そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
人類が争いをやめないのはそういう仕様になってるから。
454デフォルトの名無しさん
2018/06/29(金) 15:14:45.43ID:C6H9lGIq >>450
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
455デフォルトの名無しさん
2018/06/29(金) 15:35:26.60ID:C6H9lGIq456デフォルトの名無しさん
2018/06/29(金) 16:16:27.86ID:kXqQNYVA457デフォルトの名無しさん
2018/06/29(金) 22:19:47.60ID:jsqIPRMd ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
458デフォルトの名無しさん
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS そこはhttp関係ないじゃん
459デフォルトの名無しさん
2018/06/29(金) 23:08:44.45ID:sSTEuPuw むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
2018/06/29(金) 23:10:02.53ID:sSTEuPuw ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
ほとんどリトルエンディアンになる
461デフォルトの名無しさん
2018/06/30(土) 00:16:14.33ID:I+9paw5R やっぱり今時半角カタカナ使う人にはアレな人が多いのか
462デフォルトの名無しさん
2018/06/30(土) 01:04:57.77ID:2NGdD93t463デフォルトの名無しさん
2018/06/30(土) 03:46:45.67ID:O2H7A6pY464デフォルトの名無しさん
2018/06/30(土) 04:38:43.11ID:8S9cJyih やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
465デフォルトの名無しさん
2018/06/30(土) 06:04:05.89ID:tYfB6W3t Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
466デフォルトの名無しさん
2018/06/30(土) 13:06:02.67ID:QAvD/WKt エンディアン関係ないUTF-8が一番良いな
467デフォルトの名無しさん
2018/06/30(土) 13:32:27.92ID:cCXC0XvW UTF-8 はバイト列を見て文字がわかりにくいのが難点
468デフォルトの名無しさん
2018/06/30(土) 13:49:23.03ID:O2H7A6pY >>467
なんで?
なんで?
>>464
最初から 32 ビットにしなかったのが問題でしたね
最初から 32 ビットにしなかったのが問題でしたね
470デフォルトの名無しさん
2018/06/30(土) 18:58:11.39ID:cCXC0XvW >>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
2018/06/30(土) 20:27:41.69ID:ozTCpxdq BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
472デフォルトの名無しさん
2018/06/30(土) 22:43:16.16ID:2NGdD93t 半角カタカナは目に入ってこないなw
473デフォルトの名無しさん
2018/06/30(土) 23:05:58.78ID:8S9cJyih 恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
474デフォルトの名無しさん
2018/06/30(土) 23:20:50.17ID:0vzJToCT 未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
475デフォルトの名無しさん
2018/07/01(日) 15:37:44.32ID:ep584YMH 2ちゃんがSJISオンリーってのがそもそもはよなおせ
476デフォルトの名無しさん
2018/07/01(日) 15:50:52.13ID:3SrV2o5x sjisオンリー❓🤔
477デフォルトの名無しさん
2018/07/01(日) 16:00:26.27ID:omYv90Gk478デフォルトの名無しさん
2018/07/01(日) 18:18:14.73ID:EnuoS7Gy Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。
まさに欧米人のやり口そのもの。
479デフォルトの名無しさん
2018/07/02(月) 03:00:52.60ID:EL6wSxah たとえば?
480デフォルトの名無しさん
2018/07/02(月) 08:27:03.72ID:FZsTYqY7 Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。
481デフォルトの名無しさん
2018/07/03(火) 09:01:30.75ID:IDUMbXdY482デフォルトの名無しさん
2018/07/03(火) 14:32:34.20ID:R6pmKHtn483デフォルトの名無しさん
2018/07/03(火) 14:34:40.85ID:gQF2QJmD SJISは廃用で
484デフォルトの名無しさん
2018/07/03(火) 14:55:13.29ID:pQbF/VH/ はいよっ!
485デフォルトの名無しさん
2018/07/04(水) 03:13:37.83ID:FxllvN6o >>482
ビット立てながら先頭から見ればいいだけじゃん?
ビット立てながら先頭から見ればいいだけじゃん?
486デフォルトの名無しさん
2018/07/04(水) 17:14:03.55ID:LFQ4ypq9 うーん
487デフォルトの名無しさん
2018/07/04(水) 21:57:50.06ID:gFgZc5FG KZD
488デフォルトの名無しさん
2018/07/04(水) 23:49:15.94ID:s7W39adb 昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
489デフォルトの名無しさん
2018/07/04(水) 23:50:33.59ID:s7W39adb で、このBMHというのは文字列マッチングで非常に有効なアルゴリズムといえる
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
490デフォルトの名無しさん
2018/07/05(木) 01:32:31.02ID:Iw1yLrzA491デフォルトの名無しさん
2018/07/05(木) 01:51:36.04ID:T0L/NWDK ただし抜けやすくなる
492デフォルトの名無しさん
2018/07/05(木) 02:11:26.21ID:8UhFPcQc 半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね
493デフォルトの名無しさん
2018/07/05(木) 02:30:50.16ID:HIyPet1B 大発見じゃん
494デフォルトの名無しさん
2018/07/05(木) 18:37:34.34ID:0T2GdzcY 半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
495デフォルトの名無しさん
2018/07/05(木) 19:38:22.34ID:CqUNBSEq Unicodeって日本を優遇しすぎてない? そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
496デフォルトの名無しさん
2018/07/05(木) 20:37:53.33ID:cHUpj8OH >>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
497デフォルトの名無しさん
2018/07/05(木) 21:16:32.44ID:CqUNBSEq >>496
でもあれは互換性もクソもないじゃん
でもあれは互換性もクソもないじゃん
498デフォルトの名無しさん
2018/07/05(木) 22:49:22.73ID:cHUpj8OH 誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。
499デフォルトの名無しさん
2018/07/05(木) 23:18:38.72ID:0kDXGIdf だめか
𒀑
𒄦
くさび
𒀑
𒄦
くさび
500デフォルトの名無しさん
2018/07/06(金) 07:29:45.69ID:3U2Ta28u ~(元号を一文字化したもの)とかあるからな
申請すれば何でも通るんじゃねーの
申請すれば何でも通るんじゃねーの
501デフォルトの名無しさん
2018/07/06(金) 08:24:58.10ID:QJllJwz8 申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
502デフォルトの名無しさん
2018/07/06(金) 08:47:24.31ID:IGjSb2yt 潤A~などは、昔の(日本の)文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。
残しているだけ。だから、次の元号の合わせ文字は通らない。
503デフォルトの名無しさん
2018/07/06(金) 10:05:30.92ID:odzQpd8G 文部の沙汰も金私大
504デフォルトの名無しさん
2018/07/06(金) 19:02:02.70ID:3U2Ta28u >>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
505デフォルトの名無しさん
2018/07/06(金) 22:30:52.61ID:p79Hvr/2506デフォルトの名無しさん
2018/07/07(土) 01:28:54.42ID:kLxolQc6 空いてるとこにテキトーにいれてるだけやん
文字コードが連続してないし
ひどいマッピングされてるわ
文字コードが連続してないし
ひどいマッピングされてるわ
507デフォルトの名無しさん
2018/07/07(土) 10:47:15.09ID:OQyJYPpl 元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。
「日本元号面」を作って、そこに入れるようにしてほしい。
508デフォルトの名無しさん
2018/07/07(土) 11:50:18.74ID:kLxolQc6 ちなみに先に書いた全文検索エンジンでは
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
509デフォルトの名無しさん
2018/07/07(土) 13:23:15.59ID:WVErtcKw カ゚キ゚ク゚ケ゚コ゚はどうなるんだ
510デフォルトの名無しさん
2018/07/07(土) 13:49:40.16ID:kLxolQc6 こんな感じの内容からインデックスやマッチング用のデータが作成される
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
511デフォルトの名無しさん
2018/07/07(土) 14:06:53.21ID:IMiijYtR 痴漢アカン
512デフォルトの名無しさん
2018/07/07(土) 14:25:13.00ID:WVErtcKw 俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と~もちゃんと検索でヒットする
おかげで平成と~もちゃんと検索でヒットする
513デフォルトの名無しさん
2018/07/07(土) 15:16:01.20ID:kLxolQc6 ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
514デフォルトの名無しさん
2018/07/07(土) 15:17:11.21ID:kLxolQc6 考えるのはキミじゃないワケ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
515デフォルトの名無しさん
2018/07/07(土) 15:56:51.92ID:hSg2x2AH516デフォルトの名無しさん
2018/07/07(土) 17:04:10.09ID:i11AJyJz 絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら~になるとかでいいのに
平と成をzwjでくっつけたら~になるとかでいいのに
517デフォルトの名無しさん
2018/07/07(土) 20:17:18.16ID:Ty8z3s6n 魚 + ZWJ + 里 = 鯉
とか収拾がつかなくなる
とか収拾がつかなくなる
518デフォルトの名無しさん
2018/07/07(土) 20:47:01.42ID:hSg2x2AH 光+宙=ピカチュウとか?
519デフォルトの名無しさん
2018/07/07(土) 21:11:51.93ID:URcWOMtI 次の元号組み文字はCP932やJISX0213には入るのかな?
520デフォルトの名無しさん
2018/07/07(土) 22:51:54.27ID:AwQTnpwn 月+光=胱とか
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
521デフォルトの名無しさん
2018/07/08(日) 00:07:58.74ID:ib3y3idC 自力でマッピングするnkfの遅さ。文化遺産だから保守され続けるのだろうけど。
522デフォルトの名無しさん
2018/07/08(日) 00:46:47.26ID:5rg7g6N2 ていうか確かそういう(漢字を結合する)のにピッタシな文字が用意されてた筈。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。
523デフォルトの名無しさん
2018/07/08(日) 00:54:45.54ID:AL4TGRyQ524デフォルトの名無しさん
2018/07/08(日) 21:30:52.45ID:Dz8m9jRj >>520
でもその月は本来は肉なのでわ
でもその月は本来は肉なのでわ
525デフォルトの名無しさん
2018/07/08(日) 21:58:14.68ID:VztP7D+N526デフォルトの名無しさん
2018/07/08(日) 22:00:52.97ID:fj164SAR >>520
要望する人はそんなの気にしないんでしょ
要望する人はそんなの気にしないんでしょ
527デフォルトの名無しさん
2018/07/08(日) 22:01:58.98ID:fj164SAR528デフォルトの名無しさん
2018/07/08(日) 22:15:50.43ID:0enAxBm5 合字と、ひとつの漢字が偏旁に分かれているのとはまた別だろ
529デフォルトの名無しさん
2018/07/08(日) 22:25:52.71ID:fj164SAR 胱を人名に使えるようにしてほしいと要望している人たちは
胱を月と光の合字のようなものと考えてるんだろうなって話だからな
胱を月と光の合字のようなものと考えてるんだろうなって話だからな
530デフォルトの名無しさん
2018/07/08(日) 22:58:07.18ID:CFOYAJun しかし肉と光でなんで膀胱なんだろうな
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら
531デフォルトの名無しさん
2018/07/08(日) 23:05:05.80ID:FVlDE0YC 三光作戦の光
532デフォルトの名無しさん
2018/07/09(月) 02:42:13.13ID:f4diYHew 形声文字という概念も知らんのか…
533デフォルトの名無しさん
2018/07/09(月) 03:26:55.92ID:kfYRLcv/ >>530
https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱 コウ 月部にく
解字 「月(からだ)+光(ひろがる)」 の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味 「膀胱ボウコウ」(ゆばりぶくろ)に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。
https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱 コウ 月部にく
解字 「月(からだ)+光(ひろがる)」 の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味 「膀胱ボウコウ」(ゆばりぶくろ)に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。
534デフォルトの名無しさん
2018/07/09(月) 04:35:05.56ID:4WT+OSln 肺やちんこも広がるのですが?
535デフォルトの名無しさん
2018/07/11(水) 19:19:37.68ID:gmqqN491 昔の知識じゃそんなこと分からんやろ
足りない頭ひねって考えろやボケナス
足りない頭ひねって考えろやボケナス
536デフォルトの名無しさん
2018/07/11(水) 19:27:48.34ID:A6luu057 昔のちんこは拡がらなかったのですか!?
537デフォルトの名無しさん
2018/07/11(水) 22:21:59.51ID:LQKpeeG0 大陸の人のちんこはやらかい印象がある
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国国営メディア「沖縄は日本ではない」… [BFU★]
- 中国国営メディア「沖縄は日本ではない」… ★2 [BFU★]
- 高市政権にパイプ役不在…日中高まる緊張 公明党の連立離脱影響、自民内にも懸念「自分でまいた種は自分で刈り取ってもらわないと」 [ぐれ★]
- 【こんなの初めて…】民泊には既にキャンセルも 中国の渡航自粛で [ぐれ★]
- NY円、一時1ユーロ=180円台まで下落…1999年のユーロ導入以来初 ★2 [蚤の市★]
- 俳優 高岡蒼佑「エジプト出身とかナイジェリア出身とかの人が、日本の代表顔して移民の事とか話してるの見るとなんか違う気がする」★2 [Anonymous★]
- 【悲報】なんで「アジア主義」を唱える右翼が居ないの🤔 [616817505]
- 野田(安倍晋三マニア)「総理は国益を損なうような発言はしてはいけない」 [884040186]
- 中国国営放送「日本は琉球をただちに中国に返還せよ」 キタ━━━━(゚∀゚)━━━━!!!!! [314039747]
- 【高市悲報】アメリカ戦争省「あのさ、何回シミュレートしてもわーくに中国に負けちゃうんだよね🤗」 [359965264]
- 自民「高市の一言でこれまで積み上げてきた関係が駄目になる。言葉の重みを分かっていない。自分でまいた種は自分で刈り取ってもらう」 [256556981]
- 【高市悲報】片山さつき、円安進行を受けコメント「為替の変動を緊張感を持って見極める」 [888298477]
