X



文字コード総合スレ Part10 [転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
0001デフォルトの名無しさん垢版2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
0953デフォルトの名無しさん垢版2017/12/28(木) 00:39:28.23ID:ieNYico0
存在自体が見えないZWJじゃなくて
非対応の組み合わせでは+マークを表示するルールの新結合文字作ったほうがよかったんじゃないかね
0954デフォルトの名無しさん垢版2017/12/30(土) 18:56:44.40ID:Ugth+Qnu
漢字6万字て、馬鹿か。
取るに足りない些細な違いをもって同じ文字と認めない。
最う駄目だ。
0955デフォルトの名無しさん垢版2017/12/30(土) 23:54:24.56ID:8RkbD7fK
>945
まあ、異字体を丹念に拾ってくれるのはありがたいけれど、
漢文をTeXで扱う場合に、Adobe Japan 1-5(20313字)にない
文字が時々出てくる(例えば『列子』など)時など、IPAMJに
その文字があると、助かる。
出来れば、中国の古典籍に出てくる文字を積極的に
IPAMJに収録するようにしてもらいたいとおもっている。

もっとも、戸籍用の文字を収録することは、行政上から
いえば、最優先事項であることは理解できるのだが。
0957デフォルトの名無しさん垢版2017/12/31(日) 10:27:32.66ID:hZnZn3Kf
>>954
>取るに足りない些細な違いをもって同じ文字と認めない

その手の議論はCJK統合漢字の時に散々やったんじゃないの?
0959デフォルトの名無しさん垢版2017/12/31(日) 11:54:37.82ID:BxTIUPKK
>956
「超漢字」というのは東大で開発したGTフォントなのですが、
ただ、いかんせん。フォントが綺麗でないので、
例えば本文を「ヒラギノ」や「小塚明朝」で組んだ時に
GTフォントを入れると、かなり違和感を感じるので、
現在は、Adobe Japan 1-5やIPAMJにない字は、
Adobe Illustratorで作字している
0960デフォルトの名無しさん垢版2018/01/01(月) 13:59:19.71ID:Yzi7nKjn
テキストエンコードに詳しい方、教えてください


下記リンクは日本語サイトの日本語テキストファイルですが
「ファイル名」が文字化けして文字コードが不明です(ファイルの本文は Shift_JIS でした)
「正しいファイル名」および「ファイル名の言語」(外国語?)が分かれば教えてください

また言語不明のファイル名を簡単に判別する方法があれば教えてください

http://www.monzen.org/doc/fonts/free/all/%e3%81%a6%e3%81%82%e3%81%a8%e3%82%8b%ef%bc%91%ef%bc%96/%e9-%e9%e1%e9%e3%e9%da%e9P%e9U.TTF%e9+%e9-%e9%f3%e9-.txt
0961デフォルトの名無しさん垢版2018/01/01(月) 23:24:57.94ID:x9zbFP4w
明けましておめでとうございます
2018年の文字コード業界はどうなるやら(去年の使い回し)
0963デフォルトの名無しさん垢版2018/01/02(火) 12:36:54.34ID:Y/4ObyK1
http://www.monzen.org/doc/fonts/free/all/てあとる16/
ここの中身見たけどファイルが5個あって

1)てあとる16/てあとる16.TTFについて.txt
2)てあとる16/てあとる16.TTF
3)てあとる16/(化けてる).TTF(化けてる).txt
4)てあとる16/(化けてる)16.TTF
5)てあとる16/Theatres16.zip

たぶん (3) をダウンロードしたんだと思うけど
zip の中をみると (1) と (2) しかないから
サイズも同じだし (1)-(3) と (2)-(4) は同じ名前(文字列)なんだろうね
0964デフォルトの名無しさん垢版2018/01/02(火) 12:49:17.66ID:Y/4ObyK1
コード見ると

てあとる: e92de9e1e9e3e9da
16: e950e955
について: e92be92de9f3e92d

なんだろうけど
e92d が「て」だけじゃなくて「つ」と思われる部分にも使われてるのが謎
0966デフォルトの名無しさん垢版2018/01/02(火) 22:57:59.20ID:5gV1mnpW
「16」の部分がE950 E955なのはShift_JISから来たのかなと思うけど(Shift_JISでは8250 8255)
「てあとる」「について」は謎だな
0967デフォルトの名無しさん垢版2018/01/03(水) 04:10:39.66ID:v5sFvWN4
>>962-966
レスありがとうございます>>960です

「てあとる16」というフリーフォントをググってこのURLに辿り着いたのですが
Firefoxのエンコード設定をいくら弄っても正規ファイル名がわからなかったので質問させていただきました

わざわざファイル名を変えてアップしてるということは何らかの意図があると思うのですが
中国語や韓国語でもなさそうだしUnicodeでも化けるので・・・ MacとWindowsを行き来して化けたとか?

管理者さんに聞くのが近道だと思いますがディレクトリ勝手に掘ったとか怒られても嫌なので放置しています
0968デフォルトの名無しさん垢版2018/01/03(水) 12:59:16.54ID:j114ZuXB
(>>967の続き)
あと素人臭い質問ですいませんが、下記テキストファイルをWindows環境で表示する方法はありますか?
同ディレクトリにあるotf(お試しフォント)はDLできるのですがテキストファイル3個は表示もDLもできませんでした

http://www.monzen.org/doc/fonts/free.next/%e3%83%a2%e3%83%88%e3%83%a4%e3%81%8a%e8%a9%a6%e3%81%97/UD%e3%83%a2%e3%83%88%e3%83%a4%e6%98%8e%e6%9c%9d2B/ntnum2bmst/%e6%96%87%e5%ad%97%e7%a8%ae%e4%b8%80%e8%a6%a7.txt
0970デフォルトの名無しさん垢版2018/01/04(木) 01:35:20.16ID:1mKOov/G
>>968
403 Forbiddenが返ってきてるから、おそらくパーミッションの問題でWebサーバが
そのファイルを読み出せない
0972デフォルトの名無しさん垢版2018/01/04(木) 20:41:42.26ID:LRBrKk4Y
>>967
元はShift_JISで書かれたサイトっぽいけど「webサーバー側」の文字コード設定が間違ってて
HTMLとしてすでに正しくない文字コードというかバイト列が出力されてしまってる感じで
さらにfirefoxが文字コード検出を間違ったまま表示してる感じがする
ちなみに文字化けしたままでもfirefoxでマウスオーバーしたときに左下に出て来る日本語はたまに正常たったりする
文字化けにも色々あるけど文字通り壊れたバイト列だともうどうしようもない
0973デフォルトの名無しさん垢版2018/01/04(木) 21:05:29.96ID:LRBrKk4Y
>>968
サーバー側の設定が間違ってると間違った文字コードでリクエストしてファイルは存在してても
違うバイト列だからファイルシステム上に見つからないとかいう状態になってそうなので
あとはだめもとでHTML側のURLを使わずに
判ってる方のファイル名
www.monzen.org/doc/fonts/free.next/モトヤお試し/UDモトヤ明朝2B/ntnum2bmst/文字種一覧.txt
を自分でURLエンコードしてリクエストしてみるとか
0975デフォルトの名無しさん垢版2018/01/04(木) 23:05:06.84ID:7OOzLizu
>>972-974
ありがとうございます
該当のテキストがどうしても読みたいというよりも
<何故こういう現象が起きてるのか?>のほうに興味があって質問させていただきました
文字コードの世界って本当に奥が深いですね

文字フォントについても色々疑問があるのですが、それはフォントスレで質問するべきですね
(PCにインストールしていいフォント数の上限とか)
0977デフォルトの名無しさん垢版2018/01/05(金) 17:51:46.56ID:GkCjRoy7
無理やり読ませるとそれなりの割合の人間に急性ショック症状を起こすスレでもある・・・
0979デフォルトの名無しさん垢版2018/01/08(月) 13:20:24.34ID:g3wGVkXu
40cmくらいのウンコード出た
長過ぎて一回で流れなかった
5回目くらいでやっと視界から消えた
0980デフォルトの名無しさん垢版2018/01/09(火) 07:25:31.13ID:4jYqaTLN
ウンコ駆動ですね判ります
0982デフォルトの名無しさん垢版2018/01/11(木) 01:29:58.58ID:8ozacBxV
【しつもん@A】

@Windowsで同一フォルダ内に全く同じファイル名+拡張子があって不審に思い
ファイル名をメモ帳にコピペしても瓜二つ
でもWordにコピペすると片方は「ジ」や「ペ」の後ろに空白文字が出てくる

Aニコニコ動画をDLしてるとたまに「グ」が「ク_ 」に文字化けする

@Aの発生原因は分りますか? (どれもネットから落としたファイルです)
0983デフォルトの名無しさん垢版2018/01/11(木) 01:41:04.05ID:0E6TKJI8
Wordを持ってるならその空白文字の後ろでAlt+Xしてみ
そしたら文字コードに変換されるから何がついてるか分かる
0985デフォルトの名無しさん垢版2018/01/11(木) 12:49:11.03ID:F0gXla1d
2は、ダウンロードするソフトがファイル名に使えなさそうな文字をアンダースコアに変えてるのでは
0986デフォルトの名無しさん垢版2018/01/11(木) 16:02:48.08ID:rE/gsUWL
合成済み文字と結合文字列の違いは
Windowsとmacでデータのやりとりをしていると稀によくある
0987デフォルトの名無しさん垢版2018/01/11(木) 17:06:01.77ID:WekjUxUo
>>985-986 ありがトン

A ニコニコ動画の無料アニメ2本 上の「グルグル」は文字化けしないが、下のは化ける

http://www.nico   video.jp/watch/1499326505
魔法陣グルグル PV

http://www.nico   video.jp/watch/1500538647
魔法陣ク?ルク?ル 第1話「旅立ち!ジミナ村!」

下の動画タイトルをWordにコピペ&Alt+Xすると「ク3099」なので、上とは違った文字コードで書かれてる模様
ブラウザ上では見分けがつかないが、DLすると「ク_ 」=「ク005F」に化ける
ニコ動はブラウザで見ることを前提にしてるのでクレームをつけるわけにもいかないが
バラバラの文字コードで書かれるとモヤッとする
0988デフォルトの名無しさん垢版2018/01/13(土) 18:28:46.68
>>987
「魔法陣グルグル 」だけを抜き出してみると

魔法陣グルグル PV
¥u9b54¥u6cd5¥u9663¥u30b0¥u30eb¥u30b0¥u30eb¥u3000
魔法陣グルグル 第1話「旅立ち!ジミナ村!」
¥u9b54¥u6cd5¥u9663¥u30af¥u3099¥u30eb¥u30af¥u3099¥u30eb¥u3000

下の方は半角カナ(グルグル)から変換したとかかなあ

ウェブブラウザでは一見区別が付かないのも困りものだ
0994デフォルトの名無しさん垢版2018/01/16(火) 21:58:19.78
「結合文字列」って、「合州国」みたいなもんか
0995デフォルトの名無しさん垢版2018/01/17(水) 15:56:04.49ID:9Sws3XK1
合衆国の誤字だっけ
0997デフォルトの名無しさん垢版2018/01/21(日) 14:15:27.16ID:zFm0SEQ6
ttp://ufcpp.net/blog/2018/1/getunicodecategory/

ASCII 圏の人、ほんとに Unicode 追加面を知らない
・「こんなのほっといてもすぐに追加されるだろう」とか甘い
・たぶん、日本人か中国人が言い出さないと進まない
10011001垢版Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 830日 6時間 15分 17秒
10021002垢版Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況