『ひらがな』と『カタカナ』は48種類だが、『漢字』の数はなんと約1万種にのぼる。日ごろ使われない文字も含むと3万文字とも言われる。日本人は、どんな魚でも1文字で表現できてしまうワケで、たとえば Twitter の「140文字制限」に対する感覚も大きく違う。(中国語は8万とか)
そして、日本の学校教育では多くの時間が「漢字の学習」に割かれる。
多くの日本人は、6年間の小学校生活を終える頃に、約1000の文字が読み書きできるようになる。その後の中学校3年間でも更に1000文字を習い、高校や大学でも更に複雑な文字を目にするようになり、一般的な社会人は約3000種類の漢字を難なく読めるようになると言われている。(正直、たぶん1000文字くらいしか「書けない」ですケド)
日本に生まれ育つと何とも実感がない話だが、特にヨーロッパ言語圏の方にこの手の話をすればウケる。
さて、そんな日本人だが、「コンピュータの日本語処理」には、色々と泣かされ続けてきた。
この「漢字の種類が多い」というハンデだけでなく、そもそも「単語の区切り(半角スペース)が無い」とか、「同じ字でも数通りの読み方がある」とか、「同じ読みでも違う意味の漢字が何通りも存在するケースがある」とか、「縦書きと横書きで文字の形が変わるケースもある」とか、、、様々な要因でトラブルに遭遇するのだ。
以下のワークフローは、PDFでの出力テストだ。
日本語フォントは、この1万種類を超える文字がデザインされる訳だが、ワークフローの途中工程で自動的に[台紙PDF]に業務データを挿入させる際に、「その文字フォントがない」といったトラブルを発生しうる。そのトラブルを事前に実感するためのテストフローだ。最大のポイントは[台紙PDF]ファイルに「フォントデータ」が組み込まれているか否かという点となる。
[PDF生成テストフロー]
日本人にとって「誤字脱字」は日常茶飯事で、少々間違っていても気にしない。テレビ放送中の字幕ですら、しばしば間違っている。
ただ、それでもコンピュータ画面で「文字抜け(文字飛び)」や「中国語フォント代替表示」の様なトラブルが起きると、さすがに気になる。もしそれがお客様に提出するPDFであればナオサラだ。1998年や2004年に標準化が進み、それまでと比べるとかなりトラブルの数は減ったとはいえ、、、「日本語ローカライズ」にまつわるトラブルは、もうしばらく続きそうだ。
ちなみに、「第1水準」「第2水準」と呼ばれる漢字(6355文字)だけでも十分に生きていける。「第3水準」や「第4水準」の漢字を使いたいのは、人名や地名などで利用されてしまっているからと言える。ただ、作家「もりおうがい」は「森鷗外」であって「森鴎外」ではない。。。。
<Windows 10 / Acrobat Reader での表示>
(フォント埋め込みなし)
(「MS P 明朝」埋め込み)
(「IPA明朝」埋め込み)
<Android 5.1.1 での「MS P 明朝」埋め込みの表示>
(「Adobe Acrobat Reader」アプリ)
(「OfficeSuite」アプリ)
(「ドライブPDFビューア」アプリ)
[PDF生成テストフロー:「1.テスト文字の入力」画面]
<データ項目一覧画面>
[雛形ダウンロード (無料)]
- 業務テンプレート:PDF生成テストフロー
- 見積データの一元管理(PDFの自動生成) (2015-04-20)
- 第467話:自動生成 PDF の「証明書発行日」を和暦表示する (2016-01-25)
- 文字列型(!)、日付型(!!)、ファイル型(?!)、掲示板型(?!!) (2014-02-24)
[英文記事 (English Entry) ]
0 件のコメント :
コメントを投稿