日本人は、一体いくつの文字を読み書きできるの?
『ひらがな』と『カタカナ』は48種類だが、『漢字』の数はなんと約1万種にのぼる。日ごろ使われない文字も含むと3万文字とも言われる。日本人は、どんな魚でも1文字で表現できてしまうワケで、たとえば Twitter の「140文字制限」に対する感覚も大きく違う。(中国語は8万とか)
そして、日本の学校教育では多くの時間が「漢字の学習」に割かれる。
多くの日本人は、6年間の小学校生活を終える頃に、約1000の文字が読み書きできるようになる。その後の中学校3年間でも更に1000文字を習い、高校や大学でも更に複雑な文字を目にするようになり、一般的な社会人は約3000種類の漢字を難なく読めるようになると言われている。(正直、たぶん1000文字くらいしか「書けない」ですケド)
日本に生まれ育つと何とも実感がない話だが、特にヨーロッパ言語圏の方にこの手の話をすればウケる。
さて、そんな日本人だが、「コンピュータの日本語処理」には、色々と泣かされ続けてきた。
この「漢字の種類が多い」というハンデだけでなく、そもそも「単語の区切り(半角スペース)が無い」とか、「同じ字でも数通りの読み方がある」とか、「同じ読みでも違う意味の漢字が何通りも存在するケースがある」とか、「縦書きと横書きで文字の形が変わるケースもある」とか、、、様々な要因でトラブルに遭遇するのだ。
以下のワークフローは、PDFでの出力テストだ。
日本語フォントは、この1万種類を超える文字がデザインされる訳だが、ワークフローの途中工程で自動的に[台紙PDF]に業務データを挿入させる際に、「その文字フォントがない」といったトラブルを発生しうる。そのトラブルを事前に実感するためのテストフローだ。最大のポイントは[台紙PDF]ファイルに「フォントデータ」が組み込まれているか否かという点となる。
[PDF生成テストフロー]