前の関連記事:LibreOffice5(150)TCU v3
Unicode、コードポイント、グリフ、フォントの違い
Unicode 文字コードの業界規格
コードポイント Unicodeのコード
グリフ 字形から分類した文字。
フォント デザインの観点から分類した文字
コードポイントは16進数で表記される整数値でU+に続いて大文字で表記されます。
グリフとフォントの違いは分かりにくいですが、グリフは「葛」とか「辻」とか文字そのものの違いで分類したもので、フォントはMSゴシックとかMS明朝とか字をデザインで分類したものです。
Unicodeではコードポイントにグリフ、つまり文字が割り当てられており、コードポイントを決めると文字が決まります。
文字が決まるとフォントのうちその文字に該当するデザインされた文字が決まり、それが画面に表示されます。
コードポイント→グリフ→フォント
なので、この流れでコードポイントからフォントを表示することになり、この仕組みをUnicodeといいます。
コードポイントには次のValidation Selectorのようにグリフが割り当てられていないものもあります。
Variation Selector
漢字には意味や使われ方は同じなのに、字形(グリフ)が異なるものがあります。
とくに人名や地名の漢字に多いものです。
これら字形が異なる字をもとの字に対して異体字といい、Unicodeにはその異体字を扱う仕組みも用意されています。
異字体のコードポイントは、基になる字のコードポイント(Base Character)に続けてVariation Selector(VS,字形選択子)のコードポイントを付けたものになります。
Variation SelectorにはStandardized Variation Sequence(SVS) とIdeographic Variation Sequence(IVS) の2種類あり、IVSが漢字の異字体のVariation Selectorになります(異体字セレクタ - Wikipedia)。
SVSにはU+FE00からU+FE0Fまでの4桁の16進数の16個がVS1からVS16として割り当てられています。
IVSにはU+E0100からU+E01EFまでの5桁の16進数の240個がVS17からVS256として割り当てられています。
漢字の異体字が検索できるツール
異体字セレクタセレクタ (α v0.3)
このツールが異体字の検索には便利です。
異体字セレクタセレクタ (α v0.3)のページの下にあるテキストボックスに異字体を調べたい漢字を入力して「登録済の異字体を検索」ボタンをクリックすると検索結果が下に表示されます。
「コレクションを指定(IVS)」では5つのIVSを選択できるようにみえますが、チェックボックスは外せませんでした。
Adobe-Japan1コレクションはアドビシステムズ社が登録したもので、出版業界や印刷業界ではよく用いられているものです。
Hanyo-Denshiコレクションは住民基本台帳ネットワークシステム統一文字で用いられる字形を整理統合し、登録したものです(IVD/IVSとは | 文字情報基盤整備事業)。
しかしHanyo-DenshiコレクションはMoji_Johoコレクションに置き換えられていくようです。
Moji_JohoコレクションはHanyo-Denshiコレクションの改訂版に相当するようです(プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構)。
KRNameは韓国のコレクション、MSARGはマカオのコレクションです(異体字セレクタ - Wikipedia)。
「辻」の異字体を調べる
異体字セレクタセレクタ (α v0.3)で「辻」という漢字の異字体を調べました。
検索結果が9個でてきました。
VS(セレクタ列)が付いているグリフ(画像列)をみてみると、しんにょうの点が0個のものが1つ、点が1個のものが3つ、点が2個のものが3つ、点が3個のものが1つの合計8個の異字体がでてきました。
つまり、異字体はしんにょうの点が0個か1個か2個か3個かの4つしかでてきていません。
なのにVSは5種類しかでてきません。
これらの齟齬があるのはIVS間でVSが統一されていないからです。
なのでどのVSを使うかを決めるにはどのコレクションのものを使うかを気にしないといけません。
で、どのコレクションを使えるかはどのフォントを使うかで決まります。
Windows10のLibreOffice5.4で異字体セレクタを使って漢字を入力する
Windows10のLibreOffice5.4のWriterで異字体セレクタを使って先ほど調べた「辻」という漢字を入力してみます。
U+8FBBU+E0100
「辻」のコードポイントU+8FBBに続けてVSのU+E0100を入力します。
この二つのコードポイントを選択状態にしてキーボードでAlt+xを押します。
点が一つの「辻」に変化しました。
VSがU+E0100で点一つの「辻」のコレクションは「Adobe-Japan1」だけですので、MS明朝のVSのコレクションは「Adobe-Japan1」とわかります。
変換後の「辻」を選択してAlt-xを押すと元の「辻」とVSのコードポイントの表示に切り替わります。
コードポイントの大文字と小文字は区別されないようです。
VSをU+e0101からU+e0105まで変化させてみましたが、すべて点が2つのしんにょうにしかなりませんでした。
これはMS 明朝がAdobe-Japan1コレクションにしか対応しておらず、対応していないVSは無視するからです。
これらWindows10のデフォルトインストールフォントはすべてAdobe-Japan1コレクションにしか対応していないようです。
linuxBean14.04のLibreOffice5.4で異字体セレクタを使って漢字を入力する
今度はlinuxBean14.04のLibreOffice5.4のWriterで同じようにしてみました。
これらlinuxBean14.04のデフォルトインストールフォントはVSに対応していないようで、点が2個の「辻」から変化しませんでした。
なので、VSに対応したフォントをインストールすることにします。
「IPAmj明朝フォント」戸籍統一文字などに含まれる6万字の漢字を収録したフォント - 窓の杜ライブラリ
このIPAmj明朝フォントをインストールしました。
インストール方法は簡単で、ダウンロードしたzipファイル内にあるipamjm.ttfファイルを~/.fontsフォルダに入れるだけです。
LibreOfficeを再起動するとIPAmj明朝フォントが使えるようになりますが、VSを有効にするにはOSを再起動する必要がありました。
このフォントはMoji_Johoコレクションに対応してます(IVD/IVSとは | 文字情報基盤整備事業)。
Moji_Joho collectionのList_of_Glyphs.pdfで確認するとE0102とE0103がありました。
ダウンロード(Download) | IPAexフォント/IPAフォント
IPAexフォントもインストールしました。
これもipaexm.ttfとipaexm.ttfファイルを~/.fontsフォルダに移動させるだけです。
LibreOfficeを再起動するとIPAex明朝とIPAexゴシックフォントが使えるようになりますが、VSを有効にするにはOSを再起動する必要がありました。
このフォントはAdobe-Japan1コレクションに対応しています(IVD/IVSとは | 文字情報基盤整備事業)。
フォントが対応していなくてもVS対応アプリケーションではVSはコピペできる
LibreOfficeでVSを使って入力した「辻」をこのページにコピペしました。
ChromeもFirefoxもVSに対応しているのでこのページの表示に使っているフォントがVSに対応していれば次の各行の「辻」のしんにょうの点も各行に書いてある個数が表示されているはずです。
Adobe-Japan1コレクションに対応したフォントの場合
辻󠄀 U+8FBBU+E0100 しんにょうの点が1個
辻󠄁 U+8FBBU+E0101 しんにょうの点が2個
Moji_Johoコレクションに対応したフォントの場合
辻󠄂 U+8FBBU+E0102 しんにょうの点が1個
辻󠄃 U+8FBBU+E0103 しんにょうの点が2個
Hanyo-Denshiコレクションに対応したフォントの場合
辻󠄂 U+8FBBU+E0102 しんにょうの点が1個
辻󠄃 U+8FBBU+E0103 しんにょうの点が2個
辻󠄄 U+8FBBU+E0104 しんにょうの点が0個
辻󠄅 U+8FBBU+E0105 しんにょうの点が3個
Windows10のメモ帳やワードパッドもVSに対応しているようで、Adobe-Japan1コレクションの点が1個の「辻」をコピペすると点が1個のままでした。
linuxBean14.40のLeafpadはVSに対応していないようでした。
参考にしたサイト
異体字セレクタ - Wikipedia
異体字セレクタのコレクションの解説もあります。
異体字セレクタセレクタ (α v0.3)
漢字を入力するとその異字体を各コレクションから取得してくれます。
IVD/IVSとは | 文字情報基盤整備事業
IPAmj明朝フォントはHanyo-DenshiコレクションからMoji_Johoコレクション対応に変更になっています。
プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構
IPAmj明朝フォントはMoji_Johoコレクションの更新に追随していくそうです。
「IPAmj明朝フォント」戸籍統一文字などに含まれる6万字の漢字を収録したフォント - 窓の杜ライブラリ
IPAmj明朝フォントのダウンロードサイト。
Moji_Joho collection
List_of_Glyphs.pdfでMoji_Johoコレクションのグリフが確認できます。
ダウンロード(Download) | IPAexフォント/IPAフォント
IPAexフォントはAdobe-Japan1コレクションに対応しています。
0 件のコメント:
コメントを投稿