ワークフローサンプル: 第478話：請求書など、自動生成PDFに「森鷗外様」と表示したい

日本人は、一体いくつの文字を読み書きできるの？

『ひらがな』と『カタカナ』は48種類だが、『漢字』の数はなんと約1万種にのぼる。日ごろ使われない文字も含むと3万文字とも言われる。日本人は、どんな魚でも１文字で表現できてしまうワケで、たとえば Twitter の「140文字制限」に対する感覚も大きく違う。（中国語は8万とか）

そして、日本の学校教育では多くの時間が「漢字の学習」に割かれる。

多くの日本人は、6年間の小学校生活を終える頃に、約1000の文字が読み書きできるようになる。その後の中学校3年間でも更に1000文字を習い、高校や大学でも更に複雑な文字を目にするようになり、一般的な社会人は約3000種類の漢字を難なく読めるようになると言われている。（正直、たぶん1000文字くらいしか「書けない」ですケド）

日本に生まれ育つと何とも実感がない話だが、特にヨーロッパ言語圏の方にこの手の話をすればウケる。

さて、そんな日本人だが、「コンピュータの日本語処理」には、色々と泣かされ続けてきた。

この「漢字の種類が多い」というハンデだけでなく、そもそも「単語の区切り（半角スペース）が無い」とか、「同じ字でも数通りの読み方がある」とか、「同じ読みでも違う意味の漢字が何通りも存在するケースがある」とか、「縦書きと横書きで文字の形が変わるケースもある」とか、、、様々な要因でトラブルに遭遇するのだ。

以下のワークフローは、PDFでの出力テストだ。

日本語フォントは、この1万種類を超える文字がデザインされる訳だが、ワークフローの途中工程で自動的に［台紙PDF］に業務データを挿入させる際に、「その文字フォントがない」といったトラブルを発生しうる。そのトラブルを事前に実感するためのテストフローだ。最大のポイントは［台紙PDF］ファイルに「フォントデータ」が組み込まれているか否かという点となる。

[PDF生成テストフロー]

日本人にとって「誤字脱字」は日常茶飯事で、少々間違っていても気にしない。テレビ放送中の字幕ですら、しばしば間違っている。

ただ、それでもコンピュータ画面で「文字抜け（文字飛び）」や「中国語フォント代替表示」の様なトラブルが起きると、さすがに気になる。もしそれがお客様に提出するPDFであればナオサラだ。1998年や2004年に標準化が進み、それまでと比べるとかなりトラブルの数は減ったとはいえ、、、「日本語ローカライズ」にまつわるトラブルは、もうしばらく続きそうだ。

ちなみに、「第1水準」「第2水準」と呼ばれる漢字（6355文字）だけでも十分に生きていける。「第3水準」や「第4水準」の漢字を使いたいのは、人名や地名などで利用されてしまっているからと言える。ただ、作家「もりおうがい」は「森鷗外」であって「森鴎外」ではない。。。。

＜Windows 10 / Acrobat Reader での表示＞