第478話:請求書など、自動生成PDFに「森鷗外 様」と表示したい

2016年4月11日
日本人は、一体いくつの文字を読み書きできるの?

『ひらがな』と『カタカナ』は48種類だが、『漢字』の数はなんと約1万種にのぼる。日ごろ使われない文字も含むと3万文字とも言われる。日本人は、どんな魚でも1文字で表現できてしまうワケで、たとえば Twitter の「140文字制限」に対する感覚も大きく違う。(中国語は8万とか)

そして、日本の学校教育では多くの時間が「漢字の学習」に割かれる。

多くの日本人は、6年間の小学校生活を終える頃に、約1000の文字が読み書きできるようになる。その後の中学校3年間でも更に1000文字を習い、高校や大学でも更に複雑な文字を目にするようになり、一般的な社会人は約3000種類の漢字を難なく読めるようになると言われている。(正直、たぶん1000文字くらいしか「書けない」ですケド)

日本に生まれ育つと何とも実感がない話だが、特にヨーロッパ言語圏の方にこの手の話をすればウケる。


さて、そんな日本人だが、「コンピュータの日本語処理」には、色々と泣かされ続けてきた。

この「漢字の種類が多い」というハンデだけでなく、そもそも「単語の区切り(半角スペース)が無い」とか、「同じ字でも数通りの読み方がある」とか、「同じ読みでも違う意味の漢字が何通りも存在するケースがある」とか、「縦書きと横書きで文字の形が変わるケースもある」とか、、、様々な要因でトラブルに遭遇するのだ。


以下のワークフローは、PDFでの出力テストだ。

日本語フォントは、この1万種類を超える文字がデザインされる訳だが、ワークフローの途中工程で自動的に[台紙PDF]に業務データを挿入させる際に、「その文字フォントがない」といったトラブルを発生しうる。そのトラブルを事前に実感するためのテストフローだ。最大のポイントは[台紙PDF]ファイルに「フォントデータ」が組み込まれているか否かという点となる。

[PDF生成テストフロー]

日本人にとって「誤字脱字」は日常茶飯事で、少々間違っていても気にしない。テレビ放送中の字幕ですら、しばしば間違っている。

ただ、それでもコンピュータ画面で「文字抜け(文字飛び)」や「中国語フォント代替表示」の様なトラブルが起きると、さすがに気になる。もしそれがお客様に提出するPDFであればナオサラだ。1998年や2004年に標準化が進み、それまでと比べるとかなりトラブルの数は減ったとはいえ、、、「日本語ローカライズ」にまつわるトラブルは、もうしばらく続きそうだ。


ちなみに、「第1水準」「第2水準」と呼ばれる漢字(6355文字)だけでも十分に生きていける。「第3水準」や「第4水準」の漢字を使いたいのは、人名や地名などで利用されてしまっているからと言える。ただ、作家「もりおうがい」は「森鷗外」であって「森鴎外」ではない。。。。


<Windows 10 / Acrobat Reader での表示>
(フォント埋め込みなし)
 (「MS P 明朝」埋め込み)

 (「IPA明朝」埋め込み)

<Android 5.1.1 での「MS P 明朝」埋め込みの表示>
(「Adobe Acrobat Reader」アプリ)

(「OfficeSuite」アプリ)

(「ドライブPDFビューア」アプリ)

[PDF生成テストフロー:「1.テスト文字の入力」画面]


<データ項目一覧画面>


[雛形ダウンロード (無料)]
<類似プロセス>
≪関連記事≫

[英文記事 (English Entry) ]

0 件のコメント :

コメントを投稿