■OCR化で生成される文字列

書類電子化は「画像化」、「OCR化」の2つの方法がありますが、
OCR化について解析後の文字列をもとに詳しくご説明します。

目次: １．OCR化とは

２．変換された文字列（ほぼ成功例）

３．誤解析された文字列

４．まとめ
１．OCR化とは: 光学文字認識のこと。

画像データ上にある文字と思われる部分を解析し、コンピューター上で扱える文字(テキスト)データに変換すること。

文字列は画像(PDF)に保存されています。
２．変換された文字列（ほぼ成功例）: OCR化した文字列

PDF内に保存されている文字列をメモ帳で開いた状態です。
説明のため改行していますが本当は右側に続いてします。

ほぼ正しく解析されています。

但し
①「サカモトリヨウマブリガナ」は「フリガナサカモトリヨウマ」では、

又、「性別性別・女33年11月30」あたりから微妙な文字列となっています。

②メモ帳の最後１１１１となっていますが実際は有りません。

③人間の感覚では上から順ではないのかと思いますが異なります。
３．誤解析された文字列: 線に囲まれた番号12345678は全く認識されていません。

氏名は認識されていますが罫線、下線との関係で文字化けする時があります。
４．まとめ: 帳票によって認識率が左右されます。

ご認識する要素として以下が考えられます

①「シワ」、「折れ」、「変色」等の帳票劣化。

②文字の書体、大きさ、太さ

③文字のかすれ

④原稿が斜めになっている

⑤文字間隔が詰まっている

⑥FAXで送付された用紙

⑦罫線で囲まれている

⑧下線、横線にひっいている

⑨縦書きと横書きの混在

使い物にならないか？

いいえ、検索用途によると思います。

OCR文字列を全文検索すれば時間は要しますが条件文字に相当するPDFは抽出されます。

条件文字の追加の機能(AND)があれば、ある程度絞り込めます。

検索結果を１枚１枚開いて確認する時間と忍耐があれば使えます。

正確に瞬時に検索するには

株式会社ネットウェーブ

{伊丹市｝お客様にベストなサービスをご提供します。

投稿