[FrontPage] | 更新履歴 - サイトマップ - "UnicodeMemo" 配下のコンテンツ - 過去を発掘 | [Snap.Shot] |
UnicodeMemo |
Unicode問題ツーのは、すなわち既存の日本語エンコーディングをUnicodeへマッピッングする際のコンフリクトだと いうのはおぼろげながら理解しているつもりなんだけど、どれとどれがぶつかってて、それは具体的に どんな問題を引き起こすかというのは、実はちゃんと把握できていない。
(2002-08-07) と思っていたのはトンだ間違いで、マッピング問題はホンの一端にすぎない。
ので、とりあえずあちこちからポインタを拾い集めてみる。
既存の日本語文字コードと Unicode の間のマッピングルール
eXtended Kanji Processing 拡張漢字処理
Unicodeとユーザ定義文字・ベンダ定義文字に関する問題点と解決策
(2ch) おい、お前らUNICODEを絶滅させて下ちい。 最新
(takano) げっ、 ワシの孫引きされてるし(#394)。 いや、これは真面目にワシ鈴木さんの意図するところが分かんなかったので、 石本さんに溜飲を下げてもらいつつ、鈴木さんの真意(というか、ワタシの バッサリではない理由もしくはいいわけ)を聞き出そうとしての発言だったの ですよ。(あっさりかわされちったんですが)
(2ch) UNICODE(UTF8)に期待してよろしいか? 最新
Unicode (ユニコード) と中日韓 (CJK) エンコーディングとの相互運用の問題
冒頭より:
ユニコードを実際に使うにあたり、日本語に関しては、3 つの主要な問題があります。 ひとつは漢字統合の問題。ふたつめは従来の文字コードとの変換の問題。そして最後は 文字幅の問題です。その他、EUC-JP 往復変換、円記号、といった問題もあります。 これらを解決しなければ、日本人にとってユニコードは扱いづらいものとなります。
読んでいて思ったのだけど、半角の円記号(\)は、これ日本ではバックスラッシュの 異体字扱いにして、グリフ表現で振り分けるのが一番自然じゃないんだろうか。 で、Unicodeの¥記号はもちろん全角の¥にマップする。だって、今までもそう使われて きているように思うよ。
少なくともワシの受託物件でとくに指定が無かったらそうすると思う。
Unicodeのためのバイナリー・オーダー圧縮法 (BOCU)
そもそも各エンコーディングの特徴を把握できてなかったら何も語れないっす。
そうか、「半角カナ」じゃなくって「1バイトカナ」なのか…。気をつけよう。
日本語 EUC ・シフト JIS 間コード変換仕様とコード系実態調査
わかりやすそうに見える。すなわち端折ってるということなので、入門編として どうぞ。
ふと思いたって、↓なんて出来ないかと調べてみたけど、 それどこじゃないっスよね。結局 utf-8 になるんですな…:
<p charset="euc-jp">ここだけEUCとか〜。</p>
----