文字コード総合スレ Part10 [転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい ・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏+?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか ・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。 ■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。 JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/ 文化庁の文化審議会漢字小委員会は16日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。 明日から松江でWG2らしいけど文書非公開だと流れが追えなくてつまらんな Unicodeおじさんがミラーしてくれた
http://www.unicode.org/wg2/docs/
Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな >>15
これか。
http://srad.jp/story/15/10/20/0510245/
ただでさえ漢字が多すぎて困っている。それをさらに増やすような法務省の莫迦に対する歯止めとして期待。 3-5と9はもうテンプレから外していいんじゃないかなって話かと
20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ >>3-5はいらないけど、しれっと>>9を紛れ込ませるのは許さん >>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉 絵文字馬鹿のOむかつく
とっとと干されりゃいいのに ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。 Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。 ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。 >WAVE DASHの問題はMSが独自の変換表を使ってるから
どうしてこういう見え透いた嘘を平気でつけるんだろうか >>29
無知?それとも俺には問題ないという青年の主張? クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。 肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。 向きが90度ずれない?
S字のを2個連結すれば戻るけど2個使い前提の道具なの? あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか?
>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた
これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと? >>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。 お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。 絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。 さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか Unicode 10.0あたりになったら収録されるんだろうか? GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。 シュエエアィサィ的な使い方を想定していたんじゃなかろうか しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。 韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。 GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない すみません
今ISO-IRの資料を収集してるんですが
http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt
の対応表ファイル持ってる方いらっしゃいませんか?
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。 >>66
そう、これです!
ありがとうございます!
ずっと
http://www.itscj.ipsj.or.jp/〜
と
http://kikaku.itscj.ipsj.or.jp/〜
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。
ありがとうございました。 gbkの ひらがな はEUC-JPと互換性がある
ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても >>70
EmEditor と 日本語しか対応してないものはすべて同様なんだが
英語圏の方がまとも >>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど
EmEditorはgbk / big5も表示可能だが自動識別はダメ EUC系の自動判別には限界があるってだけの話じゃないのそれ 文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください 文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね >>81
それな。
動きおかしいと思ったらハイフンついてたとかある。 >>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな >>82
utf-8に関しては-が付いてておかしくなる方がおかしい。 そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ >>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな?
コマンドですか? GUIですか?
コマンドなら、画面の環境に依存したりする >>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。 「して欲しい」じゃなく自分でやってみればいいのに。 UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?
仕事仲間がそう言ってたけど不安。 そういう曖昧な表現なら答えはyesでありnoでもあるだろう iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com >>94-95
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
26775 1444822140-cp932.dat
40234 1444822140-utf16.dat
33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。 パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。 別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ >>94
そんな程度のことでutf-8を辞める訳にはいかない。 >>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ なんでやめないといけないぷに?
いいじゃないかぷに。 >>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。 JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・ 日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。 最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。 シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。 でもJISコードなら希望通りのソートができるわけでもないだろ いつまでたっても文字集合順序バカはいなくならないね。
全てのいじたいに 半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの? >>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。 >>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。 英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし >>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。
アンシ以外は聞いたことがなかった。 お前らも意味不明な文章を見たときに
「日本語でおK」って言うだろ?
それと同じ事だ 答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される >>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。 >>120
なるほど。
ドラフトに噛んでただけなのか というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。 ほうほう、シフトジスもANSIが決めたのですか
それは初耳です カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna 第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん? ISO/IEC 10646のAmd.はもう無料公開されないのかしら 特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。 豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では http://srad.jp/%7Eyasuoka/journal/599766
安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの? 使ったならちゃんとそう書けって話で
使うなということではない アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス 与えられたテキストがUCS16に合致するか判定するアルゴリズムってある? iconvはルールが厳しいから
入ロクおかしければ変換失敗する nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。 nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意 シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな?
こうすればダメ文字問題も起こらないのに。 >>160
半角カナは1バイト
漢字は2バイト
って制約があるから無理 できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。 そして三水四水を入れる領域が足りなくなり後のMSに恨まれると。 >>164
文字コードと符号化の違い分かってる?
そもそもシフトJISをサポートしてないソフトでシフトJISを使ったら問題出たってだけでしょ シフトJISの反省の上に?作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か
>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ? >>168
EUCはISO 2022ルールに則っとってる
ISO 2022はすでに存在した
半角カナも使える >>169
>>168は半角カナを1バイトに納めることがそんなに優先かと言ってる
>>168
確証は無いけど、分かりやすさ・計算の単純さ優先の結果だと思ってた >>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトJISもそうできなかったのかという話じゃないのか? むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ >>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる
シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな 上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない >>173
対応してないから出来ないなんてことが起こるのはシフトJISだけだよ。
ダメ文字のせいで正規表現すら書けない。誰もやりたがらないような裏技はあるけどね。 自分が間違ったやり方をしていたけど問題になったのはAだけだ
→だからAが悪い
まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い ビットマップのフォントデータ(16×16)を使って
レトロな電光掲示板を作ってみよう、と思う
http://i.imgur.com/owubbp4.png UTF-8なら漢字やかなに00-7Fは使わないけどな
って、そういう話をしてるわけじゃないのか。 >>176
しかしShift JISはかなり質が悪い どうしてWindowsは出来の悪い方ばっかり選択するんだろうか
cp932といいUTF-16といい… >>178
そういう話をしてるつもりだけど、そうでない人もいるようだ。 エスケープシーケンスよりCP932の方がまだマシだし、
CP932よりUCS-2の方が多少はマシだったからでしょ >>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトJISではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトJISと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトJISの場合はこれに加えてシフトJISな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトJISしか通さない grep など技術的には邪魔なだけだよ。 >>183
長文の駄文乙
文字処理を文字単位でなくバイナリデータで行うのをやめた方がいいぞ >>183
"\]"←おおESC、これでアニメ作ったもんじゃ
>>184
ビット操作は頭の体操になるよ↓
http://i.imgur.com/ibjeaA8.png grepはいつutf16対応してくれるんじゃぁ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ >>180
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ
個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。 >>188
全然仕方なくないどころか、むしろまた先走ってやっちまったとしか UTF-16固定とか基地外沙汰
ackやagもUTF-16は華麗にスルー EUCは目糞鼻糞だし、当時の記録媒体でUTF-8とか頭おかしいレベルなのに
一体どうしたかったのか ただマイクロソフトを非難したいだけのキティGUYに何を。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。 SHIFT_JISよりEUC-JPの方がマシ、UTF-16よりUTF-8の方がマシってだけでしょ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ >>191
> 当時の記録媒体でUTF-8とか頭おかしいレベルなのに
kwsk
と言っても
> EUCは目糞鼻糞だしょ
なんて言ってる奴のいうことが理解できるかどうか… UTF-8のRFCが出たのは2003年
その頃には80GBのHDDを一般人が変える時代
テキストの容量が問題になるとか無いわ
個人的にはいつまで経ってもsetlocaleでUTF-8を指定出来ない、代替の方法も用意されないWindowsは非難されて当然だと思うけどな。 Windowsの今の文字コードの設計のベースは1991年か1992年に
Unicode1.0.0をもとに作られたはず
ちなみにその頃から「〜」はU+FF5Eに存在した 当時の記録媒体言ってるのはWindowsNTの時代な
その当時にUTF-8みたいな実装してもアホでしょ
それとUTF-8を率先して使用してる理由ってEUC環境が糞だったからでしょ
EUC環境の時代って外人様のソフトウェアで漢字の表示すらままならなかったよね まあなんにせよUnicodeでデータ交換できるようになって
EUCゴミ環境が消えテクノは良い事だわ
EUCありがとうバイバイ 同じようにWindowsのCP932もさっさと消えてほしいんだけどな 今でも新規作成の全文章を統計取ると、
cp932の方が多いんじゃないか。
結局全くプログラムかかないひとが
何の文字コード使ってるかが焦点で、
プログラム書く人間の文字コードなんざ焦点じゃないんだよね。 >>200
最多はwordでunicodeでしょ
ちなみにwordをunicode化したのは日本人 電話用のWindowsもCP932とUTF16ならそのまま安らかに死んでほしいんだけどどうなん? 文字コードはUnicodeで統一されつつあるけど
改行コードが統一される動きはないよな >>187
英語だけなら問題ないが日本語でコメントかくととたんにやっかい
おそらくwinの内部処理がutf16なんでvcでコンパイラ作る→utf16しか受け付けない
になるんだと思う おまえはお馬鹿な発言する人にいつもくってかかるのか 最近のMSVCはUTF-8のソースコード食ってくれるよ
新しくMSVCで読み込んだソースがUTF-8なのにBOMがないと自動判定に失敗して意味不明なコンパイルエラーになることも多いけど >>206
そうか?
ローカルデータで復帰付けてるのWindowsくらいじゃないか?
HTYP, SMTPなんかは復帰改行だけど 1バイトの英数字を平仮名と同じ幅で表示するフォントがあれば
全角英数字は使わないと思うんだが全角英数字も互換性のためだけに残されていると考えていいのか >>214
JIS X 0208は、ASCIIやJIS X 0201と併用せずに使うことも想定されてる
だから文字集合に英数記号が含まれるのは当然
併用する場合ISO 2022的には重複符号化禁止だから本来使っちゃいけない
けど運用では守られてなかったし、併用前提の文字コードもあった
Unicodeは過去の利用例をほぼ取り込むのが前提だから
互換文字として全角文字を取り込んだ ではU+3000が互換文字領域に無いのは何故なんだぜ なんとか空白はどうしても入れたい奴があったから全部入れることにしたんじゃないのかね
最初から20種類くらいあったでしょ 空白もそうだけど横棒も統合せずに放り込んだのが多すぎ
U+2015 HORIZONTAL BARってどこから生えて来たんだろ VERTICALなら生えてきそうだけどHORIZONTALに生えるイメージは無いな >>211
先に208でバカにしてきたのは208なんだが語るに落ちてねーか?
それとも「バカという単語は書いてないから自分はセーフ」ってことだろうか
バカの考えることはわからん バカの考えること=お前の考えること
自分が何考えてるかもわかんないなら救いようがないな。清原と一緒に逮捕されてろ >>212
もうすぐUpdate2で改善されるからそれまで待て >>221
上がU+2014 EM DASHで
下がU+2015 HORIZONTAL BAR?
EM DASHは並べても切れて見えるなフォント次第だろうけど >>223
なんだ適当に言葉並べてるだけか
人工無能の方がマシだなこりゃ
おバカさん MS-excelのcodeという関数の出力がShift-JISだと勘違いしていた初心者の俺。
あやうく大恥をかく前に気づいてセーフ。 UNICODEが年々キモくなるんですけど、新しいモジコードは開発されていますか(´・ω・`)? 完成してMicrosoftとAppleとGoogleとLinuxが採用したら知らせてくれ バイトオーダーがややこしいから1byteを1bitにするか
逆に1byteを64bitなどの大きい値にしたらどうよ?
コンピューターの黎明期は1byteが8bit以外の物もあったんだから
それも不可能ではないだろう。 >>231
コンピュータの黎明期はbyteと云う単位ではなくて、Wordという単位だったと
思いますよ。1word何byteとかいっていて、コンピュータによって、Wordのbit数が
違っていたように思います。
大体1短Wordが20bit+1符号bit,1長wordが短wordの2倍で40bit+1符号bitというのが
普通だったとおもいますが、CDCの3600は、1短wordが32bit、1長wordが64bitではなかった
かと思います。
なにしろ、1960年代のことなので、記憶違いがあるかもしれません。 Unicodeに何が追加されようと大半の日本語フォントはAdobe-Japan1-6準拠だから
ほとんど恩恵がない
AdobeはPanCJKなんて漢字マニアしか喜ばないものを作ってないで
そろそろAJ17に取り掛かってくれ Wordは今でも使うだろ普通に。
昔あったのはWord機、生き残りがByte機。 >>235
byteかwordかというのは
アドレッシング
アクセス最小単位
アラインメント
と3つの軸があって
最後のはbyte単位でないのが主流 キモはアルゴリズムでデータソースでしかないものに文句つけてもイチャモンでしかないだろう
知らんけど >>237
アーキテクチャ上は最後のも大丈夫なんじゃないの?
メモリにアクセスするハードウェア側のインタフェースの話じゃないよね。 1文字に32bit使うなら一般的な組み合わせの合成文字は
全て合成済み文字にしてコードを割り当てても足りるんじゃないだろうか
そうして合成文字は外字のようなオプション的な扱いにしたらいいと思うんだけどね >>245
一般的な文字では32bit固定長にできる 「一般的な組み合わせ」が不変ならいいけど、現実にはいくらでも流動しちゃうのが問題じゃないかな。
これまでにも「今の用途ならこれだけあれば十分」って感覚で半端に作られた負の遺産がたくさんあるよね。
合成文字の仕組み自体を全廃・強制力付きで禁止するのならともかく、
オプションとして残すのなら新たに余計なものを作っただけで終わるのが見えてる。 ISO/IEC 6937対ISO/IEC 8859シリーズの戦いはもう勘弁 >>228
Unicodeで得られた知見を基に反省を活かして新しいのを作ってほしいね。
Unicodeもコンセプトは賛成だし規格に例外は付き物だけど、あまりにも継ぎ接ぎだらけでスパゲティコードみたいになってるのは清算したいね。 Unicodeはバージョンアップ時に精算するのが得意な方
切り捨てバンザイ主義
これ以上切り捨てたら誰も使ってはくれない UTS #52: Unicode Emoji Mechanisms
http://www.unicode.org/reports/tr52/tr52-1.html
> 3.5 Hair Attribute
>
> Syntax
>
> Tag-Base Hair_Base
> Tag-Key Tag-H
> Tag-Value Exactly one of the following tag-valueChars:
> tag-valueChar Description
> Tag-k Black-haired
> Tag-s Blonde (also sandy-haired)
> Tag-b Brown (Brunette)
> Tag-r Redhead (Ginger)
> Tag-g Gray-haired
> Tag-n Bald (no hair)
漫画・アニメキャラ用に赤髪、ピンク髪、緑髪、青髪、水髪、紫髪なんかも加えるべきじゃないですかね。 _人人人人人人人_
> Bald (no hair) <
 ̄Y^Y^Y^Y^Y^Y^Y ̄ Δ彡⌒ミΔ
ξ ・ェ・ ξ
ξ ξ
ξ ξ また髪の話してる。
ξ ξ
ξ 彡⌒ミ
ξ (´・ω・`)〇
ξ (| |)ξ
ξ (γ / ξ
uu〜〜〜し uu 赤毛のつるっぱげと
黒髪のつるっぱげと
ブロンドのつるっぱげの
区別を付ける意味はあるのかなあ。 >>251
色はスタイルシートとか他の技術で実現しろよな
そのうちRGB指定とか出てくるぞこれ コンソーシアムはアホばっか。
結局駆け引きとかゲーム楽しんでるだけじゃん。 ヘアスタイルや髪の色、眼鏡やら帽子やらはUnicodeの範囲の対象外だよとか言ってたのは何だったんだろう 禿は髪の色じゃなくてヘアスタイルだろ
てっぺん禿、後退禿、つるっ禿と種類もある
禿差別が凄い イラストのための仕様拡張なんか合理的な理由が全くないわ
文字から切り離して絵のフォーマットにすればいいじゃん 匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています
言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?
Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al
ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw
The Covenant Project
概要
Covenantは、純粋P2Pのファイル共有ソフトです
目的
インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します
特徴
Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)
接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
v
彡 ⌒ ミ
(´・ω・`)
U θ U
/ ̄ ̄T ̄ ̄\
|二二二二二二二|
| | NAUSEATED FACEってなんや。
外人は体調悪くなるとみんな顔緑色になるんか。 この調子でどんどん絵文字を追加していくと
ついには新しい表意文字の体系が出来上がるよね
だけどコンピュータで扱う上では表音文字の方が合理的だったってことは
我々は痛いほどよくわかっているから、なんだかなーって気持ちになる
全ての物を一文字で表すのは大変なので
将来的に絵文字の熟語とか編み出されて
絵文字で会話するようになったらいやだなぁ >>268
>全ての物を一文字で表すのは大変なので
中国人「歓」
>将来的に絵文字の熟語とか編み出されて
>絵文字で会話するようになったらいやだなぁ
中国人「可不是」日本人「成程ね」 ttp://d.hatena.ne.jp/NAOI/20080623/1214211959
絵文字の人物の肌の色やら髪の色を区別するならこういうのも区別してほしいわ〜。
バケツ頭かそうでないかは重要、俺的に なんか最近どんどん数字上がってね?Chromeみたい。
どんどんメジャーバージョン上げていく理由って何? >>273
絵文字量産してるからな
ろくすっぽ審議もせずどんどん入れてる
絵文字専用コードにすればいいのに 本当、Unicode 1.X でやめとけば世の中平和だったのに。 まあ、サロゲートペアは無くても結合文字があるんですけどね……。 ISO/IEC 10646:2014/Amd.2:2016がいつの間にか無料公開始まってたのな。
U+301C WAVE DASHの字形がISO/IEC 10646側でもやっと修正されたのか。 安岡センセイ荒れてるな
http://srad.jp/~yasuoka/journal/604190/
>UTF-8は、ASCIIコードに当たる部分は1バイトで表し、
>それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
荒れるの当然か まじか。utf16採用してるwindows大勝利だな
(何度も言うがなんでutf8にしなかったんだよ。unixのツール使えなくてムカつくわ) 漢字を正確に言葉で伝えるにはコードで表現するのが最も手軽で確実だと思うのだが、
あいにく当方の職場では誰もそうしようとしない。
和文通話表もアルファベットのフォネティックコードも使わない。
何しろ管理職にそういう発想が全くないのだからどうしようもない。
今のジジババはもう駄目だ。これからの若い世代に期待したい。
コード関係者、教育関係者の皆様、文字コードの概念を広く普及させてくださいませ。 文字コードの話題で、他の規格に不寛容・攻撃的な人が多いのはなんでなんだろうねぇ?
mohtaの呪い? たまにはEBSDICの事も思い出してあげてください 攻撃的はそうだけど、不寛容な人はあまり見かけないな。
それから、出所不明の誤ったことを自信満々に広めようとする人は多い。 昔、カナ漢字変換の機能が貧弱だった頃、第2水準漢字のほとんどは
コード直接入力じゃないと出せなかったらしい。
その時代を知っているジジババはむしろ若者よりもコードの知識があるかも。 >>290
その時代にワープロを使っている人間が少なすぎる。 いまでも第2水準の読めないような漢字が出ないのは一緒では。特にスマホとかでは Windowsはいい加減にCP932やめればいいのに >>290
JIS区点コードな
さすがにいわゆるSJIS系の2バイト文字の話とか
UCS4とかUTF-8とかは通じないだろ >>278
歴史的説明ならともかく今時6バイトって 小学生向け漢字辞典にも文字コードが載っているのが唯一ある。三省堂のやつ。
しかしこれがJIS句点コードだけなのだ。こんな所にもJIS信者の陰謀が。 >>300 スマンカッタ
句点と読点のそれぞれのJIS区点コードは……ってそういう話じゃないよね。
今時のオフィスでは漢字をコードで言い表さなくても、メール送って、
この字をコピペしろ、で話が済む。たいていの場合。
だがメールが使えないオフィスが存在するのだ。
ウィルス感染が怖い、個人情報の漏洩が怖い、と言ってごく一部以外のPCは
インターネットに繋がっていない。LANにすら繋がっていない。
穴だらけのXPを全くアップデートせずに使い続けている。
文字コードの知識云々以前にこっちの方が問題かも。 十進法で1オリジンだから
十六進法で0オリジンが一般的なプログラミングの世界に持ってく時ちょっと戸惑う>区点コード 最初から JIS X 0208 で考えていれば違和感は無い。 𩿎 この字をコピペしろ
で話が済まないこともあるから2面94区5点と書いてある方が親切なこともある パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。 ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。 >ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
それで通じる職場ってすごくピンポイントなんじゃないか >>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。
鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。 >>290
漢ROMには第一水準しか乗ってなかった いや初代はJIS第1水準ROMも別売オプションだったか そういう環境は区点でも出ないから今は話題にしてない > しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト(31ビット)でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16(16-bit UCS Transformation Format)と呼びます。
まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。 dmcがL"\uXXXX"で5桁以上に対応してなかったでござるよ そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに >>319
知らないなら解説しないでくださいうざいだけです >>278
>【Unicodeのエンコーディング】※この章の内容を修正しました(2016年7月8日)
治ってたはω >>316のレターの著者=>>319のサイトの作者
なの?
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。 https://web.archive.org/web/20160331090356/http://www.asahi-net.or.jp/~ax2s-kmtn/character/uni.html
まあ同一人物でなければ盗用だろうなってかんじ 普通に考えたら同一人物だろ
上綱 秀治(かみつな しゅうじ) ⇒ s-kmtn >>325
同一人物だね
http://web.archive.org/web/20160501170424/http://www.asahi-net.or.jp/~ax2s-kmtn/profile.html >>325
>UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
>1バイトで表し、それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
>そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
>サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。
自分で書いた嘘を自分で信じ込んでしまったのか >>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。 天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか? >>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね?
JIS X 0213に追加されたら多分入れざるを得ないだろう。 Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ 元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。 天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。 天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。
かと思った 明治〜平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。 >>344
陛下はIT業界のことまで考えてくださっているんだぞ。 >>345
>2文字合わせて1字の漢字扱い
面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ… ケチ臭いこと言わず大化から全部実現できるよう結合文字でやれ 書類上は明治生まれもまだいっぱい生き残って年金もらってるんだろう? 明治生まれって105歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず >>353
譲位もいまの日本の法律では規定されていない言葉。 譲位だと本人の意思が入るから、憲法との関係上無理だろうな。 Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。 [組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね? Unicode Consortium、人物を示す絵文字の大半で男女の切り替えを可能にする計画
http://it.srad.jp/story/16/07/17/1824252/ 結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。 元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。 L2/16-188 Revised Proposal of Hentaigana (with associated spreadsheet) Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16188-rev-hentaigana-rep.pdf
L2/16-189 Proposal to add a new character name alias to U+1B001 Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf
久しぶりに日本の提案書が来てた。 HENTAIYAGANA!
同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな… 海外でHENTAIって言ったらエロ漫画のことなんだろ? HENTAIGANAじゃなくてARCHAIC KANAにした方がいいかな。 Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ しらんがな-1
しらんがな-2
しらんがな-3
どうでもいいレベルに応じて数字が上がっていくしらんがな 漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。 >>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き UCDのファイル名はUnihan(Unified-HAN)だろ
つまり韓国が起源 そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても >どう考えても
何をどう考えたらそんなキチガイの発想に至ったのか 英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。 勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな 将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない >>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。
>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。 そういえばニホニウムの中国語表記はどうなるんだろう >>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑 原規格分離規則が無かったら更にカオスなことになってそう >>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。 説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。 フォントの違い?じゃあ別字で😁
A A 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰 >>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな :::::::::::/ ヽ::::::::::::
:::::::::::| ば じ き i::::::::::::
:::::::::::.ゝ か つ み ノ:::::::::::
:::::::::::/ だ に は イ:::::::::::::
::::: | な。 ゙i ::::::
\_ ,,-'
――--、..,ヽ__ _,,-''
:::::::,-‐、,‐、ヽ. )ノ _,,...-
:::::_|/ 。|。ヽ|-i、 ∠_:::::::::
/. ` ' ● ' ニ 、 ,-、ヽ|:::::::::
ニ __l___ノ |・ | |, -、::
/ ̄ _ | i ゚r ー' 6 |::
|( ̄`' )/ / ,.. i '-
`ー---―' / '(__ ) ヽ 、 >>1
====( i)==::::/ ,/ニニニ
:/ ヽ:::i /;;;;;;;;;;;;;;;; ソとンは微妙なのは判るが
ツとシは明らかに違う字だろ 兌を部品として含む字は説の他にも色々ある。
脱 税 悦 など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。
>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシト など。
レ、し の混同も多い。 日本人にとってシンデレラとツンデレラは明らかに違う。外国人に(ry 説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。 >>418を通訳すると
「原規格分離などどうでもいい」
Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5 >>416
>ショートカット→ツョートカシト
日本人にもいるわ こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味:デスクトップにショートカットを貼り付ける。 ディスクトップのことをタンクトップというやつは見たことないな >>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
ttp://www.akatsukinishisu.net/kanji/genso/UTF-8.html
>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。 森鴎外と書こうと森鷗外と書こうとどちらでも良い、というのが一般人の感覚。
これはそれほど不健全とは思えない。何しろ自筆原稿に「森鴎外」と書かれているんだから。
鴎は俗字だケシカラン、というのは一部の規範意識の強い正字正かな主義のキチガイ。
鷗はダメだ鴎と書け、というのはもっと訳のわからん国語改革主義のキチガイ。
こいつらがJISの83改定を行った為にカオスに。 >>429
使いわけがされていない字体違いの漢字はまとめてしまおうというのは文字コードの問題ではない。 恵'
っていうのも流行ったけど
文字コードありますか? U+FA6B
U+6075 U+E103
でもいいのよ? この流れ、前にどこかで読んだ気がするなー、と思ったら
直井氏の「重複符号化四天王」だった。↓
ttp://d.hatena.ne.jp/NAOI/20130116/1358319668 ということは祇園もあれか
祗園と書くとやられるのか julia> '\ufa6b'
'恵'
さすがだな >>430
いや、全く無関係ではあるまい。
鴎と鷗は使い分けがされていなかった、という点ではあなたも同意してくれるだろう。
原規格分離されていないのにUnicodeでは別字扱いになってしまった。
そもそも83改定を行ったJISと唆した国語審議会に元凶があったのだが、Unicodeにも責任の一端がある。
国語審議会は鷗を滅ぼして鴎に置き換えようとした。
本人に問い詰めて確認したわけではないが、多分そういう事だろう。
1000年以上にわたって使われ続けた字を滅ぼす事などそう簡単に出来る筈がない。
結局、国語審議会に滅ぼされる事なく生き残り、鴎と別の字になってしまった。
なお、最近見たベネッセの小学漢字辞典に鷗は載っていたが鴎は載っていなかった。
>>437
祇と祗は元々意味も読みも異なる別字。だが見た目が良く似ているので古くから混同される事が多かった。
「ぎおん」と入力して「祗園」と変換出来てしまうMS-IMEが悪い。
百歩譲ってその変換を認めるとしても、せめて「本来は誤用」ぐらいのメッセージは出してほしい。 >>437
フォントその他がJIS X 0213:2004対応かどうかで
偏が「示」になったり「ネ」だったりには変わるな もう数字の「1」も漢数字の「一」と統合しろよ。
「一回」と「1回」みたいに使い分けされてないだろ。
「ひとつ を 1つ と書くのはけしからん」なんて言う奴はキチガイ。 使う漢字を減らそうとして常用漢字を策定しているのにそれが気に入らないなら義務教育を否定しろよ。 >>442
1朝1夕 とか 1石2鳥 とか 8百万(やおよろず) なんて書かれたら脱力ものだけど
今じゃこんなのは当たり前なんだろうか >>444
見たことはないが、読みがわからん奴がそのうちやるだろう。 >>447
4は、ヨン、シ
よみかたがどうなるのか
時代と共によみかたもかわるそうだが、だからといって、よみかたは、どうでもいいとはいえない
辞書順にならべかえた場合、探しにくい
しじゅうきょく
しじゅうきょくもーめんと
四極子(しきょくし、英: quadrupole, quadrapole)または四重極とは、モーメントが等しい双極子
Wikipedia 8日をはちにち、17日をじゅうななにちと口頭で言うなって感じだな。
特に8日と4日は聞き間違う可能性は低い。 もうかなり前から小学校教育では
14日はじゅうよんにちだな >>451
教員が間違っていることはよくあるんだよな。
俺も子供のころ、いろんな担任が漢字の読みを間違っていたし。 >>445
そんなのは異体字セレクターか何かで何とかしろ 絵文字のピストル、本物っぽいデザインとおもちゃっぽいデザインのどっちがいい? | スラド IT http://it.srad.jp/story/16/08/06/2215228/ 秀丸エディタで補助漢字入りEUC-JPのデータをいじってたら何か化ける
というか秀丸がいうEUCって普通のEUC-JPじゃなくてコードページ51932(+ JIS X 0212)なのか? ではまずお前の思っている「普通のEUC-JP」「51932」の定義を言ってみろ コードページ51932は正直よく知らないんで何ともだが
「普通のEUC-JP」はGLにASCII、GRにJIS X 0208を最初からロッキングシフトしておいて
JIS X 0212を使いたい時はSS3で一文字づつ呼び出すやつ、という説明でいいのか? まじかよ最悪だな禿丸
でも試しに8F B2 D1を読み込ませたらX 0212の18-49が表示されたぞ
よくわからん CP51932の文字セットは932そのままじゃなかったかな?丸数字とか入ってる筈。補助漢字無し
unicode?51932の変換する時中で一旦932にするので注意だったような Windows-31JとJIS X 0212に有ってShift_JISに無い文字(例:U+9A4E)を含むUTF-32ファイルを開いてEUC-JPで保存する時だな。
UTF-32(U+9A4E)→シフトJIS IBM拡張文字(FB FB)→シフトJIS NEC選定IBM拡張文字(EE DF)→JIS(7C 61)→CP51932(FC E1)
という経路で変換するんだろうな。
>>458が期待したのは
UTF-32(U+9A4E)→(69 51)→EUC-JP(8F E9 D1)
だったと。
JIS X 0212はよく知らんが、UTF-32とのマッピング表がobsoleteなんだから禿丸の動作は仕方なくね >>461
ほとんどは正常?なんだけど、
NEC特殊文字/NEC選定IBM拡張文字/IBM拡張文字に入ってる(中でその後JIS X 0212に採録された)280文字はコードページ932の区点が優先されるっぽい?
""はJIS X 0212に従うEUC-JPなら02区81点 8F A2 F1になるはずだが秀丸のEUCでは13区66点 AD E2になってる、
"J"は76区54点 8F EC D6になるはずだが秀丸のEUCでは92区77点 FC EDになってる。
>>462
文字集合を932と同じに拡張したEUC表現ってことでいいのかですかね、ありがとう。 >>463
そうそう、そういうことです!
補助漢字の前にコードページ932のNEC特殊文字/IBM拡張文字が優先なんですね……。
まあ最初からUTF-8かUTF-16にすればいいんだけど、うーん
長々とすみませんでした。 つーかWindowsで動くエディタで、CP932互換じゃないEUC-JPに変換するのあるの? 932互換でも構わんがJISX0212使っといて一部はG1(X0208)とか頭おかしいだろ
シングルシフト3は無しにして別に「EUC(0212有)」みたいな文字コードを設けろって感じ 文字コードは難しすぎますね
すべての文字列はUTF-32で統一されるべきでしたわ >>466
「〜」でやられることは割とまじで良くあるな >>460の言う普通のEUC-JPって
「~」を保存するとX0212になるんけ?
シフトジスの円マークを超える爆弾やないか 0212のTILDEはU+FF5Eにすればいいのでは >>439
Twitter に鞍替えしちゃったからなあ >>468
UTF-32を勉強したけど、結合シーケンスの
正規化のあたりで難しくてついていけなくなった そう言えば昔、Unicodeのインディアンスレ?があったけど
スレは単発で終わったんだっけ NFKD正規化って存在価値あるの?
オhルをオワットルに変換できた所で
何がうれしいのかよくわからん NFKDを検索したら𝐍𝐅𝐊𝐃も𝑁𝐹𝐾𝐷もマッチする方が嬉しいし
1月が㋀にマッチしたり株式会社が㍿にマッチしたら嬉しいから
俺はメリットがあると思うけど 半角ABCで検索したら全角ABCがヒットしないFirefoxさん… >>483
分解除外採用すべきやろな
仕様がクソすぎる その割に何十個もあるハイフン系は
NFKDでもまとまらないという >>488
似た文字を正規化すんのがKの正規化でしょ
実際にU+2011はNFKDでU+2010になるし もう横棒類は全部 HYPHEN-MINUS に置き換えしとけ >>489
compatibilityがあるものだけ
何十個もcompatibilityのあるdash/hyphenはない
横棒っぽい文字を全部集めたら数十種類あると思うが
それを全部例えばhyphen-minusに変換したら
テキストの意味が変わってしまい
到底NORMALizationと呼べるようなものではない
勿論そういう変換が有効な応用ではそうしていい つまり「俺のcompatibility基準を満たしていないからダメだもん」
横棒類は全部 HYPHEN-MINUS に置き換えでいい グダグダ言ってるとユニコード貼るぞ
俺のユニコードでお前は瞬殺 >>493
unicode character databaseと言うものがありましてねえ 来年は JIS X 0201/0208/0213/0213/0218 の見直し時期だけど
果たして 0208 と 0213 の大統合計画は進んでいるのかしら。 もうJISなんて誰も読んでないから更新するだけ無駄 なんだかんだいろいろな場から参照されるしUnicodeの中の人も読まざるを得ないから
うんこ絵文字のバリエーション大量に紛れ込ませてUnicodeにUnko Supplementとして収録させるチャンス >>503
そういえば例の絵文字の肌色セレクターってうんちの健康状態セレクターにも使えそうな気がしてきた うんこ色のカレーとうこん色のカレーを区別するのです
ケーキに黒っぽいVS付けたらチョコレートケーキとか
そういう汎用化は日本が提案したけど駄目だったんじゃなかったっけ?
肌の色が何とかなればいいんだってことで カレー味のうんこ
うんこ味のカレー
の区別も必要(´・ω・`) >>511
だが誰も気にしない
http://emojipedia.org/moyai/
拳銃についてはあれだけ議論になるのにモヤイはモアイでいいみたい イースター島にあるのがモアイ、渋谷にあるのがモヤイだと思ってたw ユニコードのUAX#29(文字・単語・段落の抽出)を久しぶりに読んでみたら
Grapheme clusterの仕様が絵文字のルールに汚染されていた。
何なんだこの絵文字推しは。 >>515
確かに追加されてる
けどemojiがある以上ルールを追加しないと仕方ないからしょうがない
合成使って性別modifierとかふざけてるけど この性別ってライオンのたてがみとか、人間以外にも使えるんだろうか フィッツパトリック肌分類って6種類あるのに
何でUnicodeのEmoji Modifiersでは5つしか入れてないんだろう
"pale white skin"と"white skin"は区別しなくていいのか フィッツパトリック肌分類に基づいた上で1と2を一つにまとめて5段階にした
と書かれているんだから区別しなくていいと判断したんだろう
根拠は不明だが 絵文字をざっくりしたシンボルじゃなくて
なまじリアルな絵で表現し始めちゃったのがそもそもの間違いなんだよな コードポイントを追加するのはともかく
modifierみたいなコードポイント列の解釈についての
ルール追加はやめて欲しいものだ >>515
あいつらクズばっか
文字採用基準もただの好みだし もうBase64か何か使って直接画像のバイナリデータ埋め込めばいいのに
Unicodeのコードポイントとして登録したがるのは何で >>525
画像だったら機械可読じゃないだろ。
バニーガールの性別と人種を機械的に判別できるようにすることは世界にとって有益だろ? 絵文字がモノクロドット絵の頃は文字コード業界も平和だったのに 自分たちでも扱える文字が増えたからって外人たちがはしゃぎすぎなんだよ 同じものを見てるとは限らないということを
ほとんどの利用者は知らずに誤解を生んでる どう転んでも表意文字とコンピュータは相性が悪いらしいな
まさか絵文字の肌の色が問題になるとは思わんかったわ ああいう指示は文字コードの範疇じゃないよな。
そのうちなし崩しで、ボールドにしろだのサンセリフ体にしろだのいう指示まで取り込んでしまいそうな。 まぁ間違いなくそのうちアニメーションさせようとか言い出すだろうな
国内では文字コード濫用形式の絵文字から、単なる画像添付のデコメ絵文字に移行してたのに
なぜわざわざ国際規格で文字コード濫用形式に戻してしまったのか 日本人がいろいろ工夫したものを、当の日本人自身がガラパゴスとか
言い出してダメにしちゃうから、問題点とかがきちんと伝承されないんだよ。 EUCとかSJISとかISO2022とか揉めてる間にUTF8に持っていかれた感じ UTF-8とUTF-32に統一したいのに
WindowsがシフトジスとUTF-16の呪いをかけたままだから困る
もうWindowsごと滅んでもらうしか無い Windowsはメモ帳もオフィスもUTF-8ファイルに対応しているよ。
WideCharToMultiByteなどもCP_UTF8付ければ変換できる。 反論になってないし片山はやっぱりアホだな
Windowsがある限りUTF-16も生き残る、まさに呪いだな いつも博文がクソレスで皆様を不愉快にさせて申し訳ございません
>>540のクソレスもいつものように博文がID変えた自演です 結合文字はともかく土吉(U+20BB7)の文字列の
長さが2になるのはホント、ストレスたまるぜ >>535
日本では絵文字は文字として運用実績があったからね
キャリアごとの独自絵文字をGmailで相互運用するために整理が必要だった
整理できてしまえばあとはUnicode.orgがどう考えるか
丸囲み合成文字辺りから考えると当然の帰結だったんじゃないか char * -> UTF-8
wchar_t * -> UTF-16
UTF-32 は何使うの? char16_t : UTF-16
char32_t : UTF-32 日本の3大キャリアの絵文字を収録するのはまだいいとしてもその後の毎年山盛り追加はもう何がなんだかなあ・・・ >>550
最初の頃言ってた携帯メールの交換のためとか何だったんだろうね 携帯絵文字は絶滅の危機
博物館で保護する必要がある ゴミみたいな絵文字が増えるのはまだいい。
JPの2文字で日本の国旗、という
クソな絵文字を持ち込んだ奴は死刑でいい。 MoMAに収蔵されたケータイ絵文字なんてほんの一部でしかないな >>556
オックスフォード辞典の「今年の言葉」の一つに選ばれてるくらい欧州でもインターネット上を絵文字が席巻してるんだぞ >>561
まさか Unicode Emoji と ケータイ絵文字の違いを知らない? >>562
派生関係にあるだけで同じものです
対応表もあります >>563
560はそんな大雑把な話ではないでしょ >>559
🇸🇪🇸🇪
ってTwitterに書き込んだらスウェーデンの国旗に対応してなくて
間の二文字がスペインの国旗として認識・表示されたって話
マヌケですき >>567
え、なんだそれ。
てっきり1文字目用と2文字目用で別のポイントになってるのか、
あるいは始点か終点を示す符号があるんだと思ってた。
単に2文字続けば国、って仕様なのか。Unicodeも悪いな。 いや関係あるでしょ。
UTF-16のように1文字目と2文字目を分けておけばそんなことにはならなかった。 TwitterがUnicodeに完全に対応してればそんなことにはならなかった。 >>571
完全に対応kwsk
国旗周りの処理の詳しい規定ってあったっけ 前後の区別がないと、SUSE とかのときどうするのか気になる。
単純に区切ると SU | SE で
[ソ連国旗] [スウェーデン国旗]
だけど、SU の国家は現存しない。
だとすると別の可能性として S | US | E 、つまり
[S] [米国国旗] [E]
もありえそう。 >>573
> [S] [米国国旗] [E]
普通に先頭から判別すればそうなる
少なくてもfirefoxではたぶんそう→ 🇸🇺🇸🇪 どの2文字をペア扱いすべきかはISO国名コードの最新版に存在するかどうかを見ないと分からないってことか。ややこしいな。 いや、最新版だけじゃだめなのか。過去のメールは送信当時のコード表を使わないと>>574みたいに半分ズレて別の国に化けるな。 既にGB-SCT(英国スコットランド)とか提案されてるし気にしても仕方ない >>572
偶数で切ることになっている
UAX#29
『Do not break within emoji flag sequences. That is, do not break between regional indicator (RI) symbols if there is an odd number of RI characters before the break』
『[^RI] (RI RI)* RI×RI』
UTS51
『A sequence of two Regional Indicator characters』 ↑の「×」はコードポイント列から一文字を抽出するときに
別の文字に切り離してはいけないという意味 >>574
firefox ESR(45.4.0)では国旗フォントがあるかどうかで区切りが変わるいい加減さ
>>580
いい加減というか逆にめんどくさいことをわざわざって気がする >>577-578
GBSCTGBSCTと2つ並べるとGB SC TG BS CT に分解されそう(最後のCT以外全部あるっぽい)。 DNAの塩基配列も文字コードになったんでしたっけ? 絵とスタイルは別のフォーマットがあるんだからそっちに委ねるべきだよな
もともとそういう方針のはずだし >>577
GB-○○と同じ要領でJP-○○で都道府県旗も出せるようになるのかな、と思ったけど、
よく考えたらRIってアルファベットしかないから数字使うJP-○○は無理やん。欧米ずるい。
俺も神奈川県のおちんちんマーク出したい。
http://www.pref.kanagawa.jp/uploaded/image/700113.gif iconvライブラリがマルチスレッド対応してない…。orz >>585
TK=東京とかKN=神奈川みたいなのを決めりゃいいじゃん REGIONAL INDICATOR SYMBOLSってISO 3166-1の形式に従う必要はあったのだろうか 従うというか、ISOに外部化しないとどの旗を収録するか(→どこを国家とみなすか)で揉めてしまう。
純粋に人任せにすることで「うちは政治的判断はしてませんよ」ってそ知らぬふりができる。 >>587
助言ありがとう。ICU、試してみます。 iconvがマルチスレッド対応していないってのは私の勘違いだった。
icuとiconv、両方ともマルチスレッド対応していた。
Win32環境での文字コード変換の速度比は以下の通りになった。
Win32API は、WideCharToMultiByte() 等を使った。
Win32API : cygwin-iconv : cygwin-icu = 1 : 3 : 2 やはり波ダッシュ「〜」、「〜」が鬼門。
>>594
失礼しました。所要時間の比です。 >>586
glibcのiconvはMT-Safe
ただiconv_openの返り値(iconv_t)は排他して使わないと駄目 なぜiconvがマルチスレッド対応してないと思い込んでしまったかというと、
cygwinでC++11の thread クラスで work() と join() を使ったマルチスレッドの小さい勉強用プログラムを試しに書いたんだけど、
処理の所要時間を得るために、clock()で計時したんだけど、その数値がデタラメだったことが原因。
cygwinのclock()の戻り値の信頼性がここまで低いとは知らなかった。
>>596
了解。ハンドルを複数スレッドで使いまわすつもりは最初からなかったです。
ライブラリ関数内部で排他ロックしてるのかと思い込んだ私のミス。
処理速度・将来性・プロジェクトの活発さを考えると、iconvよりicuの方が有望に思える。 mingw系は、GitやStrawberry Perlに付属のMINGWのbinがPATHに入り込んでいて、無事にmakeを貫徹することさえままならないので当分報告できない。あしからず。 プログラムを組むような人なら普通はPATHなんていくらでも変更出来るけど
ままならないなら仕方ない >>599
インストーラーが「PATHを設定しますか?」で選択しを与えてくれてるのに
読まないでパコパコインストールしまくる馬鹿ですね >>582
マジレスしていいのかわからんがそれはISO 3166-1じゃなくてISO 3166-2だろと なお、3166-2のやつはRI使わない方向のようなのでほとんどの問題は解決されそう。
ただそうなるとますますあの不出来なRIって何だったのかって感じに。 mingwでiconv, icuを試した。
iconvは、MINGW Installation Managerが提供するバイナリを使用した。
icuはバイナリは提供されていないのでソースからビルドした。
icuはそのままだとlocale関連のAPIが公開されていないMINGW版がビルドができないので、
_create_locale() と _free_locale() のダミー関数をソースに追記してビルドを通した。
所要時間の比は以下の通り。
MINGWだと、iconv、icuともWin32とあまり違いがないようだ。
Win32API : mingw-iconv : mingw-icu = 1 : 1.08 : 1.11
なお、>>593 でのcygwinは、iconv、icuともにcygwin用に提供されているバイナリを利用している。 cygwin1.dllとか軽油してるから遅いんだろ 変換する文字列の長さが短すぎて
変換速度よりもsystem callの呼び出し速度のベンチになってない? 生の値(時間)を書くのが普通
比率という時点で何か隠してるようにみえる 無駄な情報を捨てて必要な情報だけ提供した善意を、悪意を持って隠したと曲解する人がいて面白い。トランプ支持者っぽい。
テストプログラムやら実行環境やらまで公開して他の人が再現できるようにでもしない限り、生の実測時間を提示する意味はない。 同じ10倍でも例えばミリ秒のオーダーと秒のオーダーでは全然違う。
計測時間そのままコピペする方が楽だろうに、態々比率に直すのは、、、
パワポ資料作るお仕事の人と見た。 JIS X 0201/0208/0213がいつの間にか
> 2016-10-20 確認
になってる。
今回は特に何もなしか(あったらまた困るけど)
というか改正来年じゃなかったのか……。 JISってそれぞれ何刷まで出てるんだっけ?
刷ごとの差分知りたい 0208の1978年版とか2012年版とかじゃなくて刷?
ttp://okazaki.sakuraweb.com/biboroku/78jis/78jis.html
によるとJIS C 6226-1978は少なくとも第7刷まで増刷されたらしいけど、
JSAとかJISCに問い合わせても多分当時の資料とか無いだろうな。 >>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない 78JIS以外は何刷でも内容一緒でしょ正誤票の反映はあるだろうけど Unicode 10.0の絵文字候補、人魚は男女対応可能に | スラド IT
http://it.srad.jp/story/16/11/12/191218/
まーた増えるのか、、、 なんでもかんでもZWJでいくなら最初から人間+魚でよかった。
そしてうっかり順番を入れ替えて魚+人間にすると……!! 俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう >>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。
例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね…… ZWJ方式は、合成されなくても意味は通じるってことでしょ WhatsAppがかんがえたさいきょうのZWJ絵文字
http://emojipedia.org/olympic-rings/
なお合成されなかったら意味は通じない模様 合成するぐらいなら
文字列の途中にエンコードしたビットマップを挟み込めるようにしろ >>627
大きい丸自体が元をたどれば合成文字用なのが面白い むしろ合成したいなら U+20DD COMBINING ENCLOSING CIRCLE なんじゃ >>617
>>618
刷はある
同じ規格のはずなのに刷で例示字形に差がある時もあって、それを整理したいんだよね ーヲノイクゥ
イャサウクゥ
ケ篥ホクゥ
ケュナ邵ゥ
サースナクゥ
サウキチクゥ
ソキウ羣ゥ
タ鯱ユクゥ
タナイャクゥ
ツ郤衙ワ
ツ醋ャクゥ
トサシ雕ゥ
ナ郤ャクゥ
ニ猥ノクゥ
ニチナ邵ゥ
ニハフレクゥ
ノルサウクゥ
ハ。ー貂ゥ
ハ。イャクゥ
ハ。ナ邵ゥ
ハシクヒクゥ
ヒフウ、ニサ
マツイホサウクゥ 愛媛県
岡山県
高知県
広島県
三重県
山形県
新潟県
千葉県
静岡県
大阪府
大分県
鳥取県
島根県
奈良県
徳島県
栃木県
富山県
福井県
福岡県
福島県
兵庫県
北海道
和歌山県 ISO/IEC 10646:2016 (5th Edition)は2017になりそうだな。 >>110
おいおい、ちゃんと規格読んでる?
原則、部首画数順だぞ。unihanデータベースも推奨ソートキーが部首画数順になってる。 >>160
昔の区点表現でいう2区毎にまとめて突っ込んだせいだろう。 >>644
50音カナで50進数にして管理してるんだと 明けましておめでとうございます
2017年の文字コード業界はどうなるやら VCでUTF-8のBOM無し突っ込めると判ったのが2016の最大の収穫 ユニコードコンソーシアムのProposed New Charactersみてたら
HIRAGANA LETTER SMALL WI、HIRAGANA LETTER SMALL WE、HIRAGANA LETTER SMALL WO、
KATAKANA LETTER SMALL WI、KATAKANA LETTER SMALL WE、KATAKANA LETTER SMALL WO、
KATAKANA LETTER SMALL N
つまり小さい「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」があった。
小さい「こ」と「コ」は以前U+1B002とU+1B003に提案されてたが
そこは変体仮名が入ることになってU+1B127、U+1B128に変わってた。
変体仮名の数が多すぎてKana Supplementブロックに入り切らなかったから
その直後のU+1B100〜U+1B12FにKana Extended-Aブロックを作るんだな。
でU+1B100〜の予定だった女書は1B170〜にずれた。 荒らしは去れ
ここはトイレの落書きやお前の日記ではない 佳那サプリメントでかいなあと思ってたのに足りなかったのか UTF-8と称しつつ実際はISO/IEC 8859-1(or Windows-1252)使ってるサイト早く絶滅しないかな〜。 シマンテックのインストーラー「Symantec? Veritas NetBackup?をインストールします」
俺「俺は今 何をインストールしているんだぜ…?」 Windows 2000あたりのセットアップ画面(ブルースクリーン)は左上に
ソソソソソソソ
みたいなのが並んでた気がするんだけどあれは何が化けていたんだろう。 ソじゃなくてヘだな
Windows 2000 Setup
ヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘ >>674
正体は罫線か。
こういう解明ってすっきりするし面白いね。 ISO/IEC 10646 - Information technology -- Universal Coded Character Set (UCS)
http://www.iso.org/iso/catalogue_detail.htm?csnumber=69119
ISO/IEC 10646:2017 (5th Edition) がいつの間にか published になってた。
Publicly Available Standards へ追加マダァ-? (・∀・ )っ/凵⌒☆チンチン >いつの間にか published になってた
文盲ってどうしようもないですねホント regional flagsって日本の都道府県旗も追加されんの?
東京の旗が銀杏か肛門かで揉めそう ってか日本の都道府県旗ってJISか何かで規格化されてるんだろうか
されてないなら根拠になる個別の条例を探して判断することになるのか 東京のマンコマークと神奈川のチンチンびろーんは世界の恥 旗の形ではなく県章部分だけでグリフ作ってもらえたらいろいろ独創的な応用が利きそうだ。 >>682
?
言わんとすることがわからないけど、
基準があれば>>678みたいな場合に難しい判断しなくてすむでしょ? もう憲法とか国境の位置もJIS規格で管理しちゃえよ >>680
知らなかった
ありがとう
2ちゃんもたまには役に勃つな >>687
どうもかみ合ってない気がする。
仕様できっちり規定されてれば楽だけどそういうものじゃないよね、
なら代わりになる典拠があれば楽なんだけどな、って話してたつもりなんだけど。 仕様を読んだ上でそんなこと言ってるなら、読解力が足りないとしか言えないわ せっかく亀レスするならもうちょっと具体的に言えたほうがいいと思う もういくつ寝るとunicode10
ゾンビとか吸血鬼とかせっそうなさすぎ
こんな絵文字使われるのかよ もう幾つ寝るとISO 10646発売
あと一週間ぐらいで出るだろきっと すべての文字を収めるが目的のはずが
新しいアイコンを作ろうになってるからな 絵文字なんか作ったってフォントごとに微妙に変わるし不毛だよ
何種類用意したって満足ってことはないし、無駄な仕事が増えるだけ
それならむしろ、エンコードしたビットマップかベクタグラフィックを
文字列の途中に文字として挿入できるようにしたほうがマシだろ 100種類用意しました
1000種類用意しました
10000種類用意しました
・・・
どこまでいってもこんなものは・・・
絵文字っていわゆるラインスタンプみたいな使われ方を想定しているんだろ?
すべてのラインスタンプに文字コードを割り振るみたいなものだ
時代に合ってない
文字列の途中にビットマップかベクタグラフィックを挟み込める方が絶対良いって
そうすると当然絵文字職人みたいな人たちが出てきてにぎわうだろうから
それをコピペして使えばよいのだ
標準化委員会みたいな中央で絵の形とコードを取り決めて・・・ってスタイルは時代遅れだよ
ラインスタンプを見ろよ たしかに
特定のコードとそれに続く何byteかでbitmap図形っていうのはありかもね
無駄多いけど 最近の追加は絵文字じゃなくて絵になってるからな
文字コードに色を定義したり芯のない継接ぎ仕様でやりたい放題だよな 縦書きテキストレイアウトってまたおかしなことになってんな
変体仮名は文字情報基盤の範囲ならいいんじゃね 「導入」ってのは
> さらに、Unicode Vertical Text Layoutが標準の一部として取り込まれる点が注目される。
って本文に書いてあるんだから Unicode® Technical Report が Unicode® Standard Annex に昇格して
Unicode® Standard の一部になるってことでしょ。 こんだけ増えてくると幾らアホなアメリカ人でも
UTF-16捨てたくなってくるだろ こういう流行り廃りのあるものはMarkdown emojiのようなやり方で十分だしそっちの方が
便利だと思うがなぁ。そもそも欧米の連中、Unicode入力のためにIMEとか導入してるんだろうか? イングランド、スコットランド、ウェールズは入れたのに北アイルランドは入れなかったのか
しかし U+1F3F4 U+E0067 U+E0062 U+E0065 U+E006E U+E0067 U+E007F を一つの国旗として処理しろってそれは ほらもうこれ、いったい何に使うのっていう
ラインスタンプと比べるともはや・・・
まるで社会主義国家のようだし
今の時代の速度感と全然合ってないんですけど >>710
そういう意味じゃないでしょ
Unicodeに政治を持ち込むなっていう 「emojiが使えないUTF-16はオワコン」て意味かと思った。 iOS 10.3リリース、ファイルシステムがHFS+からAPFSに変更される
https://apple.srad.jp/story/17/03/29/0852227/
Apple、Unicode正規化(もどき)やめるってよ U+41 U+0307 U+0308と
U+41 U+0308 U+0307のファイルが同時に作成できるのかな > 少なくとも検索に関しては、「ガ」と「ガ」を同じにみなす必要があり、
> <U+FF76 U+FF9E>とU+30ACと<U+30AB U+3099>とを、 全て同じだとみなす必要があるということでしょう。
安岡は何当たり前のこと言ってんだ
JIS信者のクセに慣れないUnicodeについて語るとこういった低レベルな恥ずかしい記事になる 濁点は独立したコードポイントを持っていても結合文字みたいなものだし、
U+30AB U+309B の場合も「ガ」と同じにみなすべきだろうね、検索の場合 Unicode(NFKD)的には
「ガ」=「ガ」≠「カ゛」=「カ ゙」
だな U+10FFFFまで埋めないと死んじゃう病にでもかかってるのかね、粗製濫造してんのは 正規化が悪なんじゃなくて、正規化を表に出す事が悪なんだよ
パソコンを裸族で使う様なもんだ
素人にはオススメできない >>719
困った病気だねぇ。
埋めずに空きをたくさん残しておいた方が未来の子孫に感謝されるぞ。
多分。 >>712
UTF-16で使えるじゃん?UCS-2と勘違いしてる? 多言語制定で見えてきた課題を一挙に解決してUnicode Neueでも立ち上げたらいいのに
バグをバグのまま残さなきゃいけないなんて仕様として不健全すぎるわ ISO 10646って2月に発行フェーズ入ったのにまだ発行できてないのは
何やってんだ? Unicode の Core Specification の日本の元号の説明(日付)が間違ってるのはいつ修正されるんだろう? >>731
ttps://techracho.bpsinc.jp/chiba-junichi/2016_09_27/25490
他にもあるかもしれませんが、自分はこのページで初めて知りました。 >>730-732
TZを間違って読んでるだけでは? ヒカル TV出演「年間5億は稼ぐ勢いですね」
https://www.youtube.com/watch?v=G7qL6ftpets
第1回案件王ランキング!YouTuberで1番稼いでるのは誰だ!
https://www.youtube.com/watch?v=asF2wQ2xhjY&t=61s
ユーチューバーの儲けのカラクリを徹底検証!
https://www.youtube.com/watch?v=FUSb4erJSXE&t=504s
YouTuberになりたいのは馬鹿じゃない!YouTuberになる方法
https://www.youtube.com/watch?v=Fr0WXXZRMSQ
最高月収5000万円だとさ。年収じゃなくて「月収」な
おまえらもyoutubeに動画投稿したほうがいい
最低2年はやらないとここまではいかないだろうけど才能とアイデアと
企画力と継続力があればが大儲けできる可能性がなくもない
まだまだ他の職種に比べれば競争率は低いからオススメ >>733
そうじゃないけど、定義としてTZは付与すべきだね 正直旗イメージより「伊」「蘭」「仏」とかで表示してくれたほうがわかりやすい国もある WG2 N4825によると1B130〜1B16FはSmall Kana Extensionにすることにしたらしい
でもreserved forなんてやるくらいなら、使用例があるものはとっとと入れちゃえばいいのに 何に使えるのかな
ちっちゃいウンコが書けるようになるぐらいしか思いつかなかった もう月次のバージョンアップでいいからCore specificationとUCDの改版を分離してくれ Unicode 10.0出たのね
CodeCharts.pdfが100MB超えして落とすの&開くのだるい 例示字形でフォント作ってくれないかね
とりあえず表示できればいいっていう場面は意外と多いと思うんだけど 2byte+任意の8x64byteみたいなbitmap造ってくれないかな >>750
Noto Fontって全部カバーしてるんじゃないの? Googleはそのつもりなのかもしれないけど、実際にはカバーできてないよ
符号化済みの漢字だけで1フォントの収納限界グリフ数(65535)を超えちゃってるから
全部カバーしようと思ったら漢字フォントだけでも2つ以上に分けないといけない
それなのにNoto CJKは、PanCJKという思想で漢字だけじゃなく仮名やハングルまで
1フォントに押し込んでしまった
おかげでUnicode 10で符号化された変体仮名なんかも入れるスペースがない 変体仮名がついにUnicodeに追加されたんだな。
戸籍名に変体仮名が含まれてる可能性のある世代が存命中に間に合ってよかった。
戸籍名以外でも店の看板とかに使われてる事もあって、
うなぎ屋で「うなぎ」の「な」が「ふ」の真ん中を「ち」に変えたようなの(U+1B081)
になってるのは割りと良く見かける。 筆記体をそのまま活字体にしちゃうって凄いよな
ハシゴ高もそうだけど Unicodeに変体仮名が追加されても、使えるのはUnicode文書の中だけで
戸籍に使えるかは別 とりあえずTwitterできもい絵文字の部品として使われることになるだろう 変体仮名収録のフォントがOSに標準で搭載されるのはまだ先になりそうだな。
2chやツイッター等使われるのはそれからだな。 Winはゴシックの方は対応しそうな気がする
Macは基本的にAJ1-6にないものはスルーだろうな Android 6.0以降はNoto Sansだしすぐ対応するんじゃね 変体仮名には濁点や半濁点付きもあるけど、それらはやはり合成用濁点(U+3099)や半濁点(U+309A)を付けて表わせなのかな。 http://www.unicode.org/Public/10.0.0/ucd/UnicodeData.txt
UnicodeData.txt の Decomposition_Mapping フィールドに対応が書いてないから駄目です。 Decomposition_Mappingは結合の目的も兼ねるので
むしろ「書いてないからこそ自分で結合」 合成先が定義されていないのでU+3099を用いて自分で結合
ではないだろうか IVSとaj1、汎用の兼ね合いを聞くに、文字セットの粒度の違いって漢字に限らず全ての文字セットに共通の問題だな。
声の大きい人がいる漢字カテでしか語られないけど アップル、年内追加の絵文字を公開--恐竜やゾンビ、シマウマも - CNET Japan
https://japan.cnet.com/article/35104330/
追加するのは良いけど、新規ばっかり注力してないで仕様バグ直す努力して欲しい 顔から緑のが出てるやつ、それ普通に吐いてる絵文字だったんだな
緑だから野菜嫌いな子供みたいな意味なのかなと思ってた。 「外字」という言葉、使えなくなるかな。同音異義語の差別用語を連想するから。
これからは「ユーザ定義文字」や「ベンダ定義文字」、「私用文字」、「規格外文字」とかに置き換えるべきかな。 「外字」という表記はそのままで、
読みを変えて「そとじ」と言うことにしよう。 ISO 10646が「Publication date : 2017-07」になっている
そろそろ本気だす頃? 「がいじ」と聞くと昔から文字コードヲタの自分はやっぱりまず、
各ユーザがエディタで自作して定義する文字や、ベンダが空き領域に独自に定義した文字等の
規格外の文字であることを示す「外字」が思い浮かぶ。
まさか同音の差別用語が生まれるとは思わなかった。今日では2chの至る所で見かけるし。 最近は外字あまり使われないよな。文字コードに無いのは画像にして貼り付ける事が多いし。 ガイジという言葉を知っていますか
Twitterでガイジという言葉を見かけました。
呟いていた方に聞いてみたら、大学生位の方が言っていたと。
果たして、言葉の意味を理解して使っていたのでしょうか。
ガイジとは、障害児を略した言葉です。障害児に対する、強烈な差別意識を感じさせる、悪意を持った言葉です。
この言葉を使えば、それだけで特定の人々、つまり障害を持つお子さんを差別したことになります。
障害児を略しただけだ、言葉の意味は変わらない、と言われる方もいらっしゃるかと思います。
違います。障害児は区別する言葉、ガイジは差別する言葉です。 >>792
違いますよ。
ここで言うガイジとは外字のことで、ウィキペディアから引用すると「特定の文字集合(文字コードなど)に含まれない文字のこと」となります。
差別はあなたの心の中にあるのです。 ISO/IEC 10646
前見た時はページ数
> Number of pages : 2697
だったのに今見たら
> Number of pages : 136
になってる? 何があった。 たんなる間違いじゃないの
Unicodeコア仕様書ですら1000ページあるのに 可能性を推測するならコードチャートが本文のカウントから外されたとか チャート本体はUnicode X.0.0を参照せよ
とかだったりして 架空文字(スタートレックとか)は頑なに却下するくせに、絵文字はどんどん創作して追加してるのダブスタだよな
架空文字も絵文字として申請すれば良いのか? ピカチュウとか申請したらドサクサに紛れていつの間にか入ってそう >>799
フィクションの文字はそうしちゃえばいいね 世界中の文字セットを1つに扱うのが目的であって、新しい文字を創作するのはおかしいのにね >>800
ポケモン約800種類全てを全国図鑑番号順に割り当てられたりして。
♂♀の選択やフォルムチェンジはVSのような専用の符号を後ろに付けるとかで。 人の肌の色に対応するんだったら馬の毛色にも対応してほしい。
青毛、鹿毛、栗毛、芦毛とか。 ピカチュウ入れたら
「ドラクエのスライム入れろ」「FFのチョコボ入れろ」「マリオ入れろ」
とかになっちゃうがな。 >>808
キャラクターや商標やら他の権利で守られてるものは無理でしょ 絵文字は日本のケータイで使われていてベンダ間で
交換もされてたから入ったわけで、ポケモン等は意味不明 >>812
今や携帯由来の絵文字は極少数
Unicode独自定義の絵文字ばかりになった
法的な問題がクリアできれば需要はある ピカチュウは
U+1F401 U+200D U+26A1(鼠、マウスの絵文字 + ZWJ + 高電圧、雷マーク)
で表す事にしよう。 emojiがエジプト神聖文字のように言語化しつつある。 >>815
ライチュウとかピチューとか区別できる? >>817
日本が提案してた
ケーキ+汎用の色セレクタ=チョコレートケーキ
案を復活させるべきだな 上にのせるものは結合文字でいい
幾つでものせてよし
もちろんホイップにイチゴは合成済み文字で Jアラート訓練 メール電文が文字化けのトラブル
8月18日 11時51分
島根県で行われたJアラート=全国瞬時警報システムを使用した緊急情報の送受信訓練で、県の防災メールでテスト電文が配信されましたが、画面が文字化けして読めないというトラブルがありました。
島根県によりますと、防災メールにはおよそ1万5000人が登録しているということですが、どの程度の範囲で文字化けが起きたのかなど詳しい状況について確認を進めているということです。
島根県防災危機管理課は「きちんと情報が伝達できずに申し訳ない。現在、原因の究明を進めていて、今後こうしたことが起きないように努めたい」と話しています。
http://www3.nhk.or.jp/news/html/20170818/k10011103391000.html >>826 を見るとこんな感じに化けてる
$ echo '2017年08月' | iconv -f SJIS -t UTF-8
2017蟷エ08譛
つまり、メール送信システムはSJISのテキストを受理するように作られていて
誤ってUTF-8のテキストを入れてしまった。ってことかな 「即時音声合成」
2017年08月18日11時00分
これは、Jアラートのテストです。
これで、テストを終了します。
対象地域:
鳥取県 島根県 岡山県 広島県 山口県 徳島県 香川県 愛媛県 高知県
↓
縲悟叉譎る浹螢ー蜷域・縲・
2017蟷エ08譛・8譌・11譎・0蛻・
縺薙l縺ッ縲゛繧「繝ゥ繝シ繝医・繝・せ繝医〒縺吶ゅ
縺薙l縺ァ縲√ユ繧ケ繝医r邨ゆコ・@縺セ縺吶ょ
蟇セ雎。蝨ー蝓滂シ夐
魑・蜿也恁縲蟲カ譬ケ逵後蟯。螻ア逵後蠎・ウカ逵後螻ア蜿」逵後蠕ウ蟲カ逵後鬥吝キ晉恁縲諢帛ェ帷恁縲鬮倡衍逵啓
か。
ヘッダとフッタが正常なのが泣ける 花園明朝バージョンアップ来た。
漢字拡張Fや変体仮名が追加されてた。 iPhoneXで動く絵文字Animojiまで出てきた
最初からUnicodeとは別の仕様作ってバリバリ仕様改変していけば良かったのにな IPAmj明朝はバージョンアップまだかな?
変体仮名が内部に含まれてるけどこのままじゃ使えない。
cmapテーブル改変すりゃ使えるけど公式で使えるようになるのはいつになるかな。 Japan New Era Name Support Blog – 日本マイクロソフトの新元号 (和暦) 対応に関するサポート情報のブログです
https://blogs.technet.microsoft.com/jperablog/
こんなん作ってたのかマイクロソフト MS自身が符号化提案するつもりなのかな
場所はどこになるんだろう UTF-1Mとかはどうよ?
1文字1Mbyteで1024x1024のビットイメージで1文字を現す。 Shift_JIS/CP932にも追加するんだろうか新元号 >>846
後付けだからでは
いわゆるNEC特殊文字というのがいつ出来たか詳しく知らないけど1983年頃には使えたはずで
その頃は当然まだ昭和で平成は影も形もない
「~」が13区63点に入った理由もよく知らないけど一番外字で埋められてなさそうな端っこにしたとかだろうか >NEC特殊文字というのがいつ出来たか詳しく知らないけど1983年頃には使えたはず
そんな本当のことを言うと、NEC特殊文字が1997年の
Shift_JISの拡張と妄信してる先生の世界に矛盾が生じてしまうだろ シフト符号化といわゆるShift-JISを混同すんな MSゴシック/MS明朝/メイリオとIPAって、
~は縦書きグリフでも横に並べたままなのね。
実際の使用現場では縦横どっちのほうが便利なんだろ。 手元のフォントだと、~だと縦になるフォントと横のままのフォント両方あるけど、iとかは全部縦になる
ってことはデザイナーが意図して横のままにしてるんだろうな >>852
使わないのが定石
そう言う問題以前にフォントとして使い辛い とりあえずPCで表示できればいいやっていう需要に応えるため InDesignやIllustratorの縦中横機能を使えない一般ピーポーのための“貧者の縦中横”じゃないの? そのアホと仕様化メンバーのアホがコラボしてUnicodeの属性がむちゃくちゃになったからな Unicodeが独断で絵文字を追加して、SC2/WG2の投票を通さず勝手にUnicodeチャートを
アップデートしてることにアイルランドNBから文句がついた(WG2 N4888) アイルランド代表ってファックサインとバルカン式挨拶の絵文字入れた件の印象しか無いな
真面目?な仕事もしてるんだなさすがに Unicodeの代わりになる何かができたとして、
それには確実にUnicode互換文字がずらりと入っているはずだから一生Unicodeみたいなもんだ。 >>862
俺は死ぬまでSJISと付き合うんだろうなあと思う。 Unicodeで良いと思っちゃうんだよな
もし叶うならCJK周りを最適化したいね 宇宙人との交信が普通になってくるとまたいろいろもめそう >>859の結果
http://www.unicode.org/wg2/docs/n4903-ProcessAdHocReport.pdf
shouldなんで表現としては弱めな気もするけど、UTC議長のLisa Mooreも
同席してるから今後はUTCも好き勝手にはできないかも Adobeは新グリフセットAdobe-KRを作ることにした模様
いつになったらAJ1-7に取り掛かるんだ… >>869
そもそも顔絵文字なんかは表情を記号化したものであって特定の人種を表現したものではない
差別がなかったところにあえて差別を持ち込んで差別をなくす方法論を議論する事自体おかしい
特定の人種の特徴を持たせたいなら書体と同様にフォントなどでフォローすべき レゴも昔はそういう感じで全部黄色い人だったけど、
いつの間にかリアル人種に合わせた色がたくさん出るようになってしまった >>872
フェイスマーク系が全部黒人の絵文字のフォントがあったとしても仕様満たしてるしな
そのうち「絵文字では皮膚色選べるんだから通常文字に文字色選択子が必要」っていう逆の発想が出てきそう なぜかPDAM2.2(n4904)から小書き"こ"が消えてるなあと思ったら
どうも日本NBが小書きのかな全般に文句つけたのが原因みたい(n4871)
調査するから一旦投票から外してほしいってことらしいが、コードポイントが
五十音順になるようreserveされてるんだから、順次追加していくのでも
問題ないだろうに日本NBは何が不満なんだか 場合によってはそもそも作ってほしくないんじゃないの Amazonによるミニスーファミキャンセル騒動 - Togetterまとめ
https://togetter.com/li/1158390
豪快に文字化けワラタ
罫線ぽいのが混ざってるからCP437かな? ガセかと思ったけどマジなんか
なんで誰も気付かなかったし 伝票番号に予め配達の営業所までのデータ入っててバーコード読めりゃ営業所までスルーって事かな
>>878
これ勝手に転載してるんだろうがデコードできりゃ問題だよなあ… ISO 10646:2014って開発失敗したんか?
もう出ないよな? >>881
Publication date : 2017-07
ってなってるんだし規格は完成してるのでは
サイトの更新が遅いだけじゃないの? 何で親子2人ずつの核家族なんだ
地域によっては大家族のサポートも求められるが
組み合わせ違いのグリフ全部作っていくのは天文学的になりそう 絵文字じゃなくて絵と解釈してるから混乱する
そういう奴らからのツッコミポイントなくした絵文字作ればいいけど、現状は屈してバリエーション作っちゃうんだよな だって例示図形が絵なんだもん
絵ではないと考えてほしかったのなら例示図形をもっと抽象的にするか、
あるいは例示さえせずに (マンガのようなおおげさなウンコ) みたいに言語表現にするべきだったな カラーの時点で絵ではないは無理がある
絵ではないなら色は他のテキスト同様にテキストカラー使えよ 人工乳房の形成に常滑焼の鋳型が新技術に貢献(NHK) ハンバーガーオーダーセレクタに使えそうなのは
U+1F345 TOMATO
U+1F952 CUCUMBER (PICKLE)
くらい?
最低でもバンズ、ハンバーグ、チーズ、レタスは登録しないとな。 フライドポテトとスマイルはすでに単独でオーダーできるな 一部以外、元々人種・ジェンダーレスの文字だったのに声の大きい人達のせいで見せかけの平等を捻じ込まれてホント嫌悪感しかないわ >>899
そうやって仕様がめちゃくちゃになっていくんだろうな そもそも今までどこにも使われていなかった「文字」を創り始めた時点でもう それよりも1F3E2 OFFICE BUILDINGとZWJでつなげてSHITAMACHIを表現したい これを貼れと言われた気がするので
ttp://cdn-ak.f.st-hatena.com/images/fotolife/n/noir555/20120325/20120325193503.jpg >>908
浅草だよね?
しかも左から2つ目は墨田タワーか?
そういう位置関係なのか。 Unicode 10.0 の仕様読んでて思ったんだけど
Core Specification のCJK統合漢字の数字、間違ってない?
20,902+69+6,582+42,711+4,149+222+5,762+7,473+1,014
= 88,884
にしかならないんだけど……。
仕様の合計↓では 88,932 らしいんだが。その差48、何だそれ。
The Unicode® Standard
Version 10.0 – Core Specification
Appendix D
Version History of the Standard
http://www.unicode.org/versions/Unicode10.0.0/appD.pdf#page=6 win10
IME で 「こっき」 って変換すると
☪☭☫✡
日の丸出てこないぞ ISO/IEC 10646 - Information technology -- Universal Coded Character Set (UCS)
https://www.iso.org/standard/69119.html
Publication date : 2017-12
Number of pages : 2693
に更新されてた。 >>918
●●●★
日本、パラオ、バングラ、越南 なんで最近はハンバーガー押したらメニューが出てくるんだ
メニューから注文するんだから順序が逆じゃないか ユニコードコンソーシアム、来年に追加予定の新しい絵文字の最新の候補リストを公開
ttps://taisy0.com/2017/12/06/89650.html 昔はUnicodeへの絵文字導入はガラパゴス国のデンワへの後方互換性のため仕方なくやってくれたんだと思ってました
ほんとは自分のおもちゃがほしかったんですね… >>931-932
他の物を通すための囮だったかもな ISO/IEC 10646:2017 - Information technology -- Universal Coded Character Set (UCS)
https://www.iso.org/standard/69119.html
やっと Published になった。
最初2016だったのが2017になったけど2018になるのはギリギリ避けられたか。 Android民「iPhone民から♂♀とか性別のアピールが送られてくるのはなぜ?」「流行りかと思った」
https://togetter.com/li/1182276 L2/17-429
Request to reserve the code point for square Japanese new era name (SC2 N4577)
Japan NB
2017-12-18
http://www.unicode.org/L2/L2017/17429-sc2-n4577-japan-new-era.pdf
"We noticed some legacy solutions still only support BMP."が泣ける。 https://twitter.com/luka_tarot/status/943831841420713984
仕事関係の方からのメール、時々うんこマークの絵文字(これ→💩)が付いてくるので1年くらいモヤモヤしてやました。
今日初めてググってみたら、DOCOMOからSOFT BANKにメールを送ると、音符マークがうんこに変換されるようです…‼
︎ DOCOMOの方、音符の絵文字にはくれぐれもご注意くださいね 文字情報基盤の追加IVD登録と変体仮名の入った10646が出たことをもって
「完了した」ってことかな つちよしって2001年のCJK統合漢字拡張Bから使えるのでは……(U+20BB7)
Jソースが無いから日本の漢字じゃないとかそういう話? プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構
https://www.ipa.go.jp/about/press/20171225.html
>>941のIPA発表 >>942
それを知らない人に伝えるにはこう言うしかないかもね >>937
人の絵文字+ZWJ+性別
形式にしたのは対応してない環境でも最低限の意味は伝えられるだろうという配慮なのかね?
これ見る限り全く理解されてないのが悲しいが >>951
勝手に誤解して悲しがってるあなたのほうが悲しいが 存在自体が見えないZWJじゃなくて
非対応の組み合わせでは+マークを表示するルールの新結合文字作ったほうがよかったんじゃないかね 漢字6万字て、馬鹿か。
取るに足りない些細な違いをもって同じ文字と認めない。
最う駄目だ。 >945
まあ、異字体を丹念に拾ってくれるのはありがたいけれど、
漢文をTeXで扱う場合に、Adobe Japan 1-5(20313字)にない
文字が時々出てくる(例えば『列子』など)時など、IPAMJに
その文字があると、助かる。
出来れば、中国の古典籍に出てくる文字を積極的に
IPAMJに収録するようにしてもらいたいとおもっている。
もっとも、戸籍用の文字を収録することは、行政上から
いえば、最優先事項であることは理解できるのだが。 >>954
>取るに足りない些細な違いをもって同じ文字と認めない
その手の議論はCJK統合漢字の時に散々やったんじゃないの? >956
「超漢字」というのは東大で開発したGTフォントなのですが、
ただ、いかんせん。フォントが綺麗でないので、
例えば本文を「ヒラギノ」や「小塚明朝」で組んだ時に
GTフォントを入れると、かなり違和感を感じるので、
現在は、Adobe Japan 1-5やIPAMJにない字は、
Adobe Illustratorで作字している テキストエンコードに詳しい方、教えてください
下記リンクは日本語サイトの日本語テキストファイルですが
「ファイル名」が文字化けして文字コードが不明です(ファイルの本文は Shift_JIS でした)
「正しいファイル名」および「ファイル名の言語」(外国語?)が分かれば教えてください
また言語不明のファイル名を簡単に判別する方法があれば教えてください
http://www.monzen.org/doc/fonts/free/all/%e3%81%a6%e3%81%82%e3%81%a8%e3%82%8b%ef%bc%91%ef%bc%96/%e9-%e9%e1%e9%e3%e9%da%e9P%e9U.TTF%e9+%e9-%e9%f3%e9-.txt 明けましておめでとうございます
2018年の文字コード業界はどうなるやら(去年の使い回し) >>960
て: e381a6
あ: e38182
と: e381a8
る: e3828b
1: efbc91
6: efbc96
/より後半は知らん http://www.monzen.org/doc/fonts/free/all/てあとる16/
ここの中身見たけどファイルが5個あって
1)てあとる16/てあとる16.TTFについて.txt
2)てあとる16/てあとる16.TTF
3)てあとる16/(化けてる).TTF(化けてる).txt
4)てあとる16/(化けてる)16.TTF
5)てあとる16/Theatres16.zip
たぶん (3) をダウンロードしたんだと思うけど
zip の中をみると (1) と (2) しかないから
サイズも同じだし (1)-(3) と (2)-(4) は同じ名前(文字列)なんだろうね コード見ると
てあとる: e92de9e1e9e3e9da
16: e950e955
について: e92be92de9f3e92d
なんだろうけど
e92d が「て」だけじゃなくて「つ」と思われる部分にも使われてるのが謎 あとは「てあとる」をどっかの言語のコードページとかで適当に変換してみて「e92de9e1e9e3e9da」のバイト純になるものを探せ
http://docs.python.jp/3/library/codecs.html#standard-encodings 「16」の部分がE950 E955なのはShift_JISから来たのかなと思うけど(Shift_JISでは8250 8255)
「てあとる」「について」は謎だな >>962-966
レスありがとうございます>>960です
「てあとる16」というフリーフォントをググってこのURLに辿り着いたのですが
Firefoxのエンコード設定をいくら弄っても正規ファイル名がわからなかったので質問させていただきました
わざわざファイル名を変えてアップしてるということは何らかの意図があると思うのですが
中国語や韓国語でもなさそうだしUnicodeでも化けるので・・・ MacとWindowsを行き来して化けたとか?
管理者さんに聞くのが近道だと思いますがディレクトリ勝手に掘ったとか怒られても嫌なので放置しています 欧文環境かなんかで文字化けしたままzipばらしたっぽいな >>968
403 Forbiddenが返ってきてるから、おそらくパーミッションの問題でWebサーバが
そのファイルを読み出せない >>969-970
ありがとうございます
TXTのみDLできない設定なのですね >>967
元はShift_JISで書かれたサイトっぽいけど「webサーバー側」の文字コード設定が間違ってて
HTMLとしてすでに正しくない文字コードというかバイト列が出力されてしまってる感じで
さらにfirefoxが文字コード検出を間違ったまま表示してる感じがする
ちなみに文字化けしたままでもfirefoxでマウスオーバーしたときに左下に出て来る日本語はたまに正常たったりする
文字化けにも色々あるけど文字通り壊れたバイト列だともうどうしようもない >>968
サーバー側の設定が間違ってると間違った文字コードでリクエストしてファイルは存在してても
違うバイト列だからファイルシステム上に見つからないとかいう状態になってそうなので
あとはだめもとでHTML側のURLを使わずに
判ってる方のファイル名
www.monzen.org/doc/fonts/free.next/モトヤお試し/UDモトヤ明朝2B/ntnum2bmst/文字種一覧.txt
を自分でURLエンコードしてリクエストしてみるとか 上の階層のntnum2bmst.zipなら落とせた。 >>972-974
ありがとうございます
該当のテキストがどうしても読みたいというよりも
<何故こういう現象が起きてるのか?>のほうに興味があって質問させていただきました
文字コードの世界って本当に奥が深いですね
文字フォントについても色々疑問があるのですが、それはフォントスレで質問するべきですね
(PCにインストールしていいフォント数の上限とか) 無理やり読ませるとそれなりの割合の人間に急性ショック症状を起こすスレでもある・・・ 40cmくらいのウンコード出た
長過ぎて一回で流れなかった
5回目くらいでやっと視界から消えた 【しつもん@A】
@Windowsで同一フォルダ内に全く同じファイル名+拡張子があって不審に思い
ファイル名をメモ帳にコピペしても瓜二つ
でもWordにコピペすると片方は「ジ」や「ペ」の後ろに空白文字が出てくる
Aニコニコ動画をDLしてるとたまに「グ」が「ク_ 」に文字化けする
@Aの発生原因は分りますか? (どれもネットから落としたファイルです) Wordを持ってるならその空白文字の後ろでAlt+Xしてみ
そしたら文字コードに変換されるから何がついてるか分かる >>983 ありがトン
@「ジ 」が「シ3099」に変わった
A「ク_ 」が「ク005F」に変わった
@は↓の「Unicode正規化」ってやつですかね? Aは分らないけど
http://tech.albert2005.co.jp/501/ 2は、ダウンロードするソフトがファイル名に使えなさそうな文字をアンダースコアに変えてるのでは 合成済み文字と結合文字列の違いは
Windowsとmacでデータのやりとりをしていると稀によくある >>985-986 ありがトン
A ニコニコ動画の無料アニメ2本 上の「グルグル」は文字化けしないが、下のは化ける
http://www.nico video.jp/watch/1499326505
魔法陣グルグル PV
http://www.nico video.jp/watch/1500538647
魔法陣ク?ルク?ル 第1話「旅立ち!ジミナ村!」
下の動画タイトルをWordにコピペ&Alt+Xすると「ク3099」なので、上とは違った文字コードで書かれてる模様
ブラウザ上では見分けがつかないが、DLすると「ク_ 」=「ク005F」に化ける
ニコ動はブラウザで見ることを前提にしてるのでクレームをつけるわけにもいかないが
バラバラの文字コードで書かれるとモヤッとする >>987
「魔法陣グルグル 」だけを抜き出してみると
魔法陣グルグル PV
¥u9b54¥u6cd5¥u9663¥u30b0¥u30eb¥u30b0¥u30eb¥u3000
魔法陣グルグル 第1話「旅立ち!ジミナ村!」
¥u9b54¥u6cd5¥u9663¥u30af¥u3099¥u30eb¥u30af¥u3099¥u30eb¥u3000
下の方は半角カナ(グルグル)から変換したとかかなあ
ウェブブラウザでは一見区別が付かないのも困りものだ MacとかiPhoneとか、Apple製品は濁点を結合文字列で扱うのがデフォだったはず 半角カナから単純に変換したのであればク゛(30af 309b)になってそうだけど Combining Character Sequence
公式日本語訳の「結合文字の並び」は何だか使いにくいし 単一の文字を表すくせに文字列と呼ぶのもいまいちだし悩ましいところだな ttp://ufcpp.net/blog/2018/1/getunicodecategory/
ASCII 圏の人、ほんとに Unicode 追加面を知らない
・「こんなのほっといてもすぐに追加されるだろう」とか甘い
・たぶん、日本人か中国人が言い出さないと進まない Unicodeはただの絵文字コードに成り下がったよ ユニコードにきちんと対応してほしいフリーソフトは多い
IrfanView
Lhaz
FileSum このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 830日 6時間 15分 17秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。