文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
>>214 その「元号のサポート」って機種依存文字エリアに合字の年号を入れることを指してる? 時刻の表示形式の「平成XX年XX月XX日」みたいなののことじゃ・・・ 合字は伝統文化じゃないよね別に 合字に関しては、直前2文字の表示幅を半分にする制御文字を追加すればいい気がする。 絵文字で肌色指定する制御文字がすでにあるので、それと同じ。 システムにフォント表示幅を変える機能が必要ではあるけど。 >>219 >絵文字で肌色指定する制御文字がすでにある そんなものあるの?Unicodeの理念からどんどん遠ざかっている気がする >>220 肌の黒い中国人とか表示可能。 👲👲🏻👲🏼👲🏽👲🏾👲🏿 あー失礼。直前2文字ごとじゃなくて直前1文字ごとに設定すればいいだけか。 >>219 ゼロ幅接合子が漢字を対象に使われた場合は、その漢字同士で合字を作るようにすればいい 1文字単位で半角幅化できれば合字いらなくなるでしょ。 文字幅セレクタなんてもんができてしまったら EAWもfullwidth領域もなんだったんだってことになるだろw 単純に幅半分にしたら縦と横の線の太さがチグハグになりそう フォント屋が頑張って調整すればいいか >>228 白黒の2色じゃなくて中間色を使うアンチエリアスが必要。 フォント屋の仕事じゃなくてOSレベル(例:WindowsのClearType)の範疇。 印刷時の見栄えを一致させるには、当然、印刷機も中間色への対応が必要。 正体を単純に長体にすると視認性が落ちるからとCondensedやCompressedな書体を作ってるデザイナーが見たらガックリくるような話だな このネタいつまで引っ張っても元号に文字コード割り当てようという考えが如何に頭が悪いかということを思い知らされるだけだ これでその時点の元号を表示すればいいのか <日本の元号を表すコード(共通)> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード> 文字コードとプログラミングの区別ができない人は、このスレに書き込まないほうがいい。 >>235 順序はあるんだから 日本の元号を表すコード(共通)> <順序数コード> で済むよね 全角文字を半角の幅で表示したい潜在需要は、中国や韓国にもあると思うます。 7pt文字から36pt文字までコードを割り当てれば十分だと思う。 >>239 <日本の元号を表すコード(共通)> <王朝を表す制御コード> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード> 「制御コード」? 普通の2進コードじゃイカンのか? Unicodeの仕組みをよく知らないので 普通の2進コードを書けるならそれで そんなコード作ったところで検索もできないし、妄想の域にすらない そもそも漢字で書ける元号に合字が必要かって話だし、まったく方向がおかしい ID隠してる奴なんてあぼーんしとけ おかしなやつに構う奴も荒しだからな Unicodeの次の概念とかはまだないのかな。それとももうみんなUnicodeに満足してしまっているのかね。 universeの次がmultiverseなんだから次はmulticodeだろうね。 それかikuracode Progressive Unicode、略してPunicode glicoodeというやつが開発されてなんか賞取ってた気がする もう変な合成記号類は多数あるし、漢字合字開始、漢字合字終了の2文字だけ定義しとけばいいんじゃないかな。 そうすれば未来永劫大丈夫だ(フォントさえ準備すれば)。北の人とかでも使えるし、なんなら金印とかハンコとかも好きなだけ合成できる。 >>252 グリコが開発したプログラミング言語じゃないの? 文字コードと関係なくね? >>252 > glicoodeというやつが開発されてなんか賞取ってた気がする o が1つ多すぎる 正しくは glicode ポッキーの並べ方でプログラミングするって奴ね 詳しくは次のページを参照 http://cp.glico.jp/glicode/ 「祇園」のフォントというかグリフって間違ってるよね? Win10とAndroidは同じっぽいけどどっちも間違いの気がする >>239 20年以上前にとあるDBマネジメントシステムに関わっていたんだけど、和暦対応を導入しようかって話が出てときに南北朝の話で揉めたよw あの時はどうやって解決したんだっけかな……西暦→和暦変換の関数にオプションを付けたんだっけかな? (覚えてないやゴメン) >>257 明治5年以前は今使われている太陽暦とは違う暦、太陰太陽暦が使われていたんだけど その変換はどうしてたんだろ スレ違い気味の自覚はあるのでほどほどにしときます…… >>258 和暦と西暦の相互変換が出来れば十分という要件だったので、それほど困らなかった気が。 西暦→和暦の変換は問題ないよね? んで、和暦→西暦の変換では存在しない日付を指定したらエラーにしていたんじゃなかったかな。 (例:明治5年12月3日は存在しないため、西暦に変換しようとしてもエラー) なお上記では西暦と表記してるけど、実際にはグレゴリオ暦とユリウス暦の違いを意識していた記憶がある。 ただし、どうやって解決していたのか思い出せない…… (使えなくてすみません)。 どうせスレチなら現代でも太陰暦に変換するツールが必要 例えば1月30日が存在するかどうかは年ごとに違っていたそうな https://ja.wikipedia.org/wiki/%E9%96%8F%E6%9C%88 >太陰太陽暦では月の満ち欠けに基づく「30日」と「29日」の二つであり、 >「30日」を「大の月」、「29日」を「小の月」とする。 >しかもこの月の大小は、月の満ち欠けの仕方などによってその順番が年ごとに変わる。 >太陰太陽暦ではこの太陰暦の12ヶ月に、約3年に一度、1ヶ月を加え13ヶ月とし、 >季節とのずれをなるべく少なくする調整をする。この挿入された月を「閏月」という。 >しかしながら閏月をどの時期に入れるかについては、同じ時代でも地域によって食い違うことがあった。 >例えば日本では古来より西日本では伊勢暦、東日本では三島暦が主に用いられたが、 >時として閏月を挿入する時期が異なっていたので、日本国内で日付の異なる暦を使っていた事がある。 結局Alternative Unicodeはまだ存在しないのか……。 Unicodeの制定が1993年なことを考えると、そろそろ別の規格が立ち上がってもいい筈なんだけどな。 Unicodeの仕組みが余程完璧ならいざしらず。 Adobe、Apple、Facebook、Google、IBM、Microsoftといったコンピュータ業界の大会社がUnicode作ってるからなぁ (実際あるのか知らないけど)他の方面からの立ち上がりに期待するしかないかと。 ローマ数字グリフはUnicodeではCJK互換用文字のように使用が推奨されないとどこかで読んだ記憶があるのですが、間違いでしょうか。 Wikipediaの当該項目を見てもそんなことは書いておらず、困惑してます。 もしも間違いなら積極的にローマ数字グリフを使っていきたいのですが……。 >>265 もしかして、これかな? 以下のページに「ただし、Unicodeの仕様では、これらは互換性用の文字であり、対応するラテン文字を用いる方が良いとされています。」という記載がある。 ローマ数字 - CyberLibrarian http://www.asahi-net.or.jp/ ~ax2s-kmtn/ref/roman_num.html Unicode Chart で Roman numerals (U+2160とか) を見てみると Compatibility decomposition mapping としてラテン文字が記載されている。 これを以って上記ページの筆者が「ラテン文字を用いる方が良い」と記載しているのなら、それは解釈が正しくないように思う。 あくまでも互換性があるよ、というだけの注記だと思うのだがどうだろうか。 ちなみに Compatibility decomposition mapping の説明は、こちら。 ↓ Code Charts - Help and Links https://unicode.org/charts/About.html#Key >>266 ありがとうございます。理解できました。 Unicodeの漢字構成文字ってどういうときに使うか分かりますか? 18.2 表意の説明の文字 表意文字説明文字: U+2FF0–U+2FFB Unicode Standardには75,000以上のCJK統一的な表意文字が含まれていますが、非常にまれなCJK表意文字の何千もの文字はエンコードされていません。 エンコードのための追加の表意文字の目録の研究は続けられているが、潜在的な符号化可能な表意文字のセット全体が完全に使い果たされることはないと予想される。 特に、表意文字は引き続き作成され、そのような新しい硬貨は常にエンコードされません。 表意文字記述ブロックの12文字は、符号化されていない表意文字を参照する必要があるテキストの標準的な交換の仕組みを提供します。 エンコードされていない表意文字は、これらの文字と符号化された表意文字を使用して記述できます。読者はその記述から表意文字の精神的な絵を作成することができる。 このプロセスは、表意文字の正式な符号化とは異なります。符号化されていない表意文字の標準的な記述はありません。 記述された表意文字に割り当てられた意味はない。記述された表意文字には同値が定義されていません。概念的には、表意文字の説明は、 文字列<U+0065、U+0301>より英語のフレーズ「an ‘e’」に鋭いアクセントを付けたものに近い。 特に、表意文字記述ブロック内の文字のサポートでは、レンダリングエンジンは記述された文字のグラフィック外観を再作成する必要はありません。 また、ユーザーが表意文字を使用して表す可能性のある表意文字の多くは、Unicode標準の将来のバージョンで正式にコード化されることにも注意してください。 表意記述アルゴリズムは、実質的に全てのCJK表意文字を、それ自体が表意文字であるより小さな部分に分解することができるという事実に依存する。 Unicode標準ですでにエンコードされている表意文字の広い範囲は、符号化されていない表意文字の大部分が表意文字を使用して表現できることを意味します。 表象記述シーケンスは、主に符号化されていない表意文字を表すことを目的としていますが、符号化された表意文字を表すためにデータ交換に使用すべきではありませんが、教育的および分析的用途もあります。 たとえば、研究者は、U+86D9 蛙を「虫圭」としてデータベースに表現して、U+5A03 娃などの音声を共有する他の文字との間のリンクを提供することができます。 IRGは、このような方法で表意記述シーケンスを使用して、現行の作業のための、機械によって生成された最初の近似を提供するのに役立てています。 >>265 で「CJK互換用文字のように使用が推奨されない」とあるけど、その根拠ってどこにあるのか分かる方いますか? 日本語ウィキペディアには「後方互換性のために収録されており使用は推奨されない」と書かれてるけど、その根拠が明示されてないんですよね。 一応注釈も記載されてはいるんだけど、>>266 と同じような資料なので「使用は推奨されない」とは読み取り難い気がする。 そこで英語ウィキペディアを見に行くと「for compatibility with east Asian character sets」とだけ書かれていて、「使用は推奨されない」という旨は一言も書いてない。 とまあ、こんなわけなので、この迷える子羊にどなたかご教示ください。 10646/Unicodeでは非推奨とまでは定めていないと思うよ ローマ数字はShift_JISだと化けやすいんでローマ数字の使用そのものが悪みたいに 思ってる人がいるだけだと思う 0点、1点、2点、…とかMS明朝やゴシックに入ってるのを最初見た時、試合等の点数を表すためのものかと思ってた。 でも名称を調べて違う事を知った。そしてそれらは中国語のためのもので中国語では時刻の○時が○点になることも。 すまん送信ミス >>280 初耳だった。俺もずっと日本語圏向けかと思ってたわ 日本語フォントの場合は点を時に 韓国語フォントの場合は시に 繁体字フォントの場合は點に はダメなんだろうか。 日本語フォントの場合は時を時に 韓国語フォントの場合は時に 繁体字フォントの場合は時に はダメなんだろうか。 CJK互換文字非推奨とかローマ数字非推奨とか、根拠の乏しいアピールがあちこちにあるのが気持ち悪い。 自分の好みを主張するのは構わないけど、Unicode でそのように提言されているかのように振る舞うのは気に入らない。 ……という気持ちはどこにぶつければよいのだろうか? 取り敢えず>>266 のリンク先の作者にぶつけるべきでは ㌀㌁㌂e㌄㌅㌆㌇㌈㌉ ㌊㌋㌌i㌎㌏㌐㌑㌒㌓ `㌕㌖㌗c㌙㌚㌛㌜㌝ ㌞㌟㌠㌡ak㌤㌥jd ㌨㌩㌪l㌬㌭㌮㌯㌰㌱ ㌲㌳㌴㌵f㌷㌸㌹㌺n ㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅ ㍆㍇㍈_m㍋㍌b㍎㍏ ㍐g㍒㍓㍔㍕㍖h㍘㍙ ㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣ ㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭ ㍮㍯㍰㍱㍲㍳㍴㍵㍶㍷ ㍸㍹㍺~順紫㍿ ㎀㎁ ㎂㎃㎄㎅㎆㎇㎈㎉㎊㎋ ㎌㎍rs㎐㎑㎒㎓㎔㎕ ㎖㎗㎘㎙㎚㎛opq㎟ ㎠u㎢㎣㎤㎥㎦㎧㎨㎩ ㎪㎫㎬㎭㎮㎯㎰㎱㎲㎳ ㎴㎵㎶㎷㎸㎹㎺㎻㎼㎽ ㎾㎿㏀㏁㏂㏃t㏅㏆㏇ ㏈㏉㏊㏋㏌㏎㏏㏐㏑ ㏒㏓㏔㏕㏖㏗㏘㏙㏚㏛ ㏜㏝㏞㏟㏠㏡㏢㏣㏤㏥ ㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯ ㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹ ㏺㏻㏼㏽㏾㏿ >>288 2バイト文字ってやはり狂っているな なぜこのようなものまで一字で表示しようと考えたのか… 一字にすることで容量を節約できると考えたのだろうが、 その節約のために無駄な手間暇がかかり結果的にマイナスにしかならないという そんな餌で俺様が釣られクマ―― (AA略) >>286 これは同意。都合良く乗っかているのは不快だね。 Unicodeを嫌ったりするのは個々の自由だけど、その概念を人々に誤認させるやり口は卑怯だ。 >>292 揚げ足だけど、話の流れ的には2バイトじゃないです…… あと互換文字の存在が許せない派の人々って、結合文字や絵文字も絶滅させたいと思っているのだろうか。 まあ絵文字が気に入らない人は多数いるのだろうとは思うw ○囲み文字の1字版と2字版のテストもおながいします 酔った勢いでレスしたら自演だった……恥ずかしい (いきなり酔いが覚めた)。 つまんないことしちゃってごめん、しばらく自重します。 絵文字そのものはどうとも思ってないけど 通常の文章の中で使われる矢印がある種の入力環境だと絵文字で入力されるみたいで 「←このように」が「⬅このように」ってなるのがすごく気持ち悪い。UnicodeというよりIMEに対する不満。 全角チルダがwindowsユーザーとmacユーザーで違うのも厄介 windows 〜 mac 〜 >>299 〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓 文字化けしてますよ。 unicode と ISO10646 は互換性があるけど適用範囲とか微妙に違ったりする。 非推奨とかはISO/JISの方を念頭に置いた話ではなかろうか。 ローマ数字の話だよね? ISO/IEC 10646にもそんな規定は無いような……コードチャートはUnicodeと同じもの使ってるし。 JIS X 0221の方は真面目に読んでないからよく分からんが…… でもISO/IEC 10646の国際一致規格な以上日本独自でそんな規定は入ってないと思うけど。 >>309 私は話題に割り込んだだけで、話題の出処がどこか知らないのでローマ数字限定かわからないけど、 「組」や「日本語文字レパートリ」とか、その辺の話が歪んでか大げさかで伝わってるじゃないかと。 ローマ数字やCJK互換用文字が「推奨されない」という記述がブログやWikipediaに散見されるけど、それって根拠が無いよね? という話だと思って眺めてるよ。 こういう聞こえの良いデマを否定するのは体力がいるから面倒そうだよなー >>312 いつものネット伝言ゲームじゃないか? 日本語での利用を前提として、うろ覚えだけど 1. ISO10646とユニコード規格は厳密に言えば同じではない(事実) 2. ISO10646 は部分実装を許しているための全ての文字が等価ではない(事実) 3. ISO/JIS は部分実装のために日本語向けの文字の組を決めてる(事実) 4. ユニコード実装するならば、日本語向けの文字の組のうち主要なもにには対応すべき(たんなる日本人の願望) 5. ネットなどで不特定多数との通信する前提の場合には、主要な組に入ってない文字は相手側で読めない可能性があるので推奨しない(どこかの個人の意見ならわからなくもない) 6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする) ... 中略 ... 99.ユニコード規格でローマ数字は推奨されない(デマ) > 6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする) 昨年末の ISO10646の改訂でJISが参考で定義していた COMMON JAPANESE も正式にISO規格に取り込まれた模様。 ということでローマ数字は BASIC JAPANESE には含まれてないけど COMMON JAPANESE には含まれてるくらいの位置付け。 285 BASIC JAPANESE と 287 COMMON JAPANESE が 10646 に入ったのは10年前の ISO/IEC 10646:2003/Amd 3:2008 じゃないの? 昨年末の改訂とか正式にISO規格にって何の話? もう JIS参考でも、amd でもなくて、正式規格本体にあるよ。情報古かったという話。 Amd3:2008 にあるんなら正式規格 ISO/IEC 10646:2012 にもあるかもしれん。確認できんけど。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる