画像データを効率良くテキスト化する

2011年5月6日
「翻訳」や「デザイン系」と並び「電子化作業」は、在宅ワークとしてかなりポピュラーな業務だ。
すなわち在宅で、画像データを文字データに入力しなおす作業を行う。データ入力サービス、データエントリサービス、などと言われることもある。行政が保有している裁判判例、戸籍情報、地図情報など、様々な情報が電子化されていない。
基本的なワークフローは、委託側が画像データを準備し、受託側がテキスト情報を返す形になる。

ちなみにOCR技術(※)が進化中だが、まだまだ人間には勝てない。ワークフローとしても、「a.人間がすべて行う」、「b.人間とOCRが協調で作業す る」、「c.OCRがほぼすべてを行うが人間が確認作業をする」あたりの、いずれかの方針となろう。以下のワークフロー例は、「a.人間がすべて行う」の 方針に基づく。
※OCR: Optical Character Recognition (光学式文字読取装置)

<各タスク名>
1.画像データ入力、2.引受&納期回答、3.文字データ、4.検収

[電子化作業-画像データのテキスト化:「2.引受&納期回答」画面]


<各プロセスデータ名>
  • 件名
▼画像データ情報▼
  • 日付型: 元データの起源
  • 文字型: 元データの場所
  • ファイル型: 元データ画像
  • 文字型(複数2行): 備考
▼納品(文字データ)情報▼
  • 日付型: 納期
  • 文字型(複数8行): 納品テキスト
  • ファイル型: 納品テキスト書類
▼議題受付コントロール▼
  • 掲示板型: 社内通信
  • 選択型: 検収フラグ(OK / NG)


上記のワークフロー定義では、作業者は、委託者がタスク『1.画像データ入力』で登録した画像データを見て、納期回答を行う。(タスク『2.引受&納期回答』)

以下は、検収担当者が作業者に対して、追加的注意事項をメールする事ができるワークフロー定義だ。ノウハウの共有に使える。

<各タスク名>
1.画像データ入力、2.引受&納期回答、3.文字データ、4.検収

<各プロセスデータ名>
  • 件名
▼画像データ情報▼
  • 日付型: 元データの起源
  • 文字型: 元データの場所
  • ファイル型: 元データ画像
  • 文字型(複数2行): 備考
▼納品(文字データ)情報▼
  • 日付型: 納期
  • 文字型(複数8行): 納品テキスト
  • ファイル型: 納品テキスト書類
▼コントロール▼
  • 掲示板型: 社内通信
  • 文字型(複数5行): 追加的注意事項
  • 選択型: 検収フラグ(OK / NG)
  • 選択型: 追加的注意事項フラグ(メール通知 / メール通知しない)




0 件のコメント :

コメントを投稿