画像内の文字起こしとは
画像内の文字やPDFを文字起こしするにはOCR(Optical Character Recognition)と呼ばれ、データから文字を認識してスマホやタブレットなどでデジタル化して閲覧できる機能を指します。また別名でテキスト化とも言われます。
JPEGやPNG などの画像ファイルはPDFファイルとして存在しているため、文字情報として管理することができません。OCR技術によってパソコンやスマートフォンからも編集することができます。
どのように機能するのか
職種によっては顧客からパンフレットやチラシなどの紙媒体の資料をいただくことがあります。紙の文字を1文字ずつキーボードで打ち込むのは、時間がかかる上にミスが増えます。
そこで文字起こし機能を使えば、テキストをそのままコピペしてくれるので、作業効率アップとミス減少が期待できます。
文字起こしの活用例
文字起こしの活用事例として紙の資料やチラシをデータ化することでペーパーレス化を加速させたり、レシートの文字を読み取って経費申請書を作成したりと人が作業していた業務を文字起こしが代行してくれます。
また同じフォーマットで大量のデータを文字起こしできるので、膨大なデータベースを構築することができます。それにより人件費の削減にも繋がります。
OCRとは
OCRとはOptical Character Recognitionの頭文字をとった略語で日本語にすると光学的文字認識になります。手書きの文字や印刷された文書をイメージスキャナやデジタルカメラで読み取り、コンピュータがデジタル上で認識できるデータに変換する技術を指します。言い換えると紙媒体の文書を画像認識で編集可能なテキストデータに変換して抽出します。これにより手動で文字を打つ必要がなくなり、大量のデータを即座にデジタル変換できます。
人間が文字を理解して読むように、機械やコンピュータも自身が理解できるデータに変換する必要があります。現在の技術ではそのままコンピュータが手書きの文書を読むことは不可能ですが、OCRのように人間とコンピュータの性能差を埋める技術は進歩しています。近年のAIの発展により実用性は更に加速しています。
OCRの歴史は意外にも古く、1914年には源流とも言える機械が発明されました。簡単な数字を読み取る機械はパソコンが生まれるよりも前に開発されており、アメリカでは報告書を決算書を自動で読み取る機械が1950年代にはすでに実用化されていました。日本では1968年に東芝がOCR機械を開発し、郵便番号を自動で振り分ける機械として活躍していました。
OCRのメリット
OCRのメリットは3つあります。
- 省スペース化
- ペーパーレス化
- 検索スピードアップ
省スペース化
大量にある紙の文書は保管する量が増えれば増えるほど、物理的なスペースを占領してしまいます。その文書をOCRで読み取ってテキスデータ化をすれば物理的な保管スペースを減らすことができます。
ダンボール箱に詰まったデータをたった数メガバイトで収めることができます。
また物理的だけではなく、すでにある画像データもOCRによってテキストデータ化することでパソコン本体のメモリの節約にも繋がります。画像をテキスト化することで、パソコンメモリスペースを約700分の1にすることができます。例えば白黒のA4画像1枚は約2MBをテキスト化することで約0.003MBにできます。
ペーパーレス化
会社内の重要なデータや資料を紙で保管している企業は多くあります。紙で保管してあると、場所を取るだけではなくきちんと整理されていないと目的の資料を探すのに時間がかかってしまいます。重要な資料をデータとして保存しておくことで、いつでもどこでも必要な時にその情報にアクセスできます。自由に情報を手に入れられることは業務の効率をあげる要因になっています。
検索スピードアップ
あらかじめ情報をテキスト化後、データとして保存してあるため、素早く検索することができます。またデジタル化されたデータはキーワード検索でも検索できるため、容易に情報にアクセスできます。
OCRの仕組み
OCRの仕組みを解説します。
具体的な流れは以下のようになっています。
- 画像を読み込む
- 画像内の文字を抽出
- 詳細な分析
- データとして保存
画像を読み込む
前述の通り私たちは本や看板に書かれている文字を読むことはできますが、機械は読むことができません。機械が文字を認識するには文字をデータとして変換する必要があります。
OCRで読み込みたい画像をイメージスキャナやデジタルカメラでパソコンに取り込みます。気をつけたいのは取り込む画像が不鮮明だと正しく取り込まれない場合があります。
画像内の文字を抽出
画像の取り込みが完了後、文字を抽出します。基本的にOCRは指定した箇所から文字の部分を抜き出す機能となっています。そのため該当箇所に文字が含まれているかをチェックする処理を「画像内の文字を抽出」と言います。このコマンドを実行する前に、あらかじめ抜き出したい箇所を指定することでより正確に文字列を抽出できます。
近年ではOCRの機能も上がっているため、範囲を指定しなくても文字を抽出できるようになっています。
詳細な分析
指定した範囲の文字の抽出後は詳細な分析を行います。この分析をすることで文字起こしが可能となります。一つ前の段階は文字の認識であって、文字の分析ができていません。ここから「画像としての文字」から「真の意味での文字」へと変換します。
文字へと変換するにはパソコン内部にある「文字のデータベース」を参照します。このデータベースは世界中のあらゆる文字が内包されているためこれらと一致する文字を探します。画像認識として読み込んだ文字とデータベースの文字が一致すれば、文字起こしが可能となります。
またOCRでは画像内の文字を1文字ずつデータベースと見比べて文字起こしをしています。
データとして保存
文字起こしが完了後、テキストデータとして保存します。全ての文字はデータとして保存できるため、すぐに出力することができます。
またテキストデータは他のシステムとリンクもできます。例えば注文書をOCRで読み込んだ後、購入のシステムに転用できます。あらかじめ設定は必要ですが幅広く活用できるのは便利と言えるでしょう。
文字起こしができるアプリ
文字起こしができる代表的なアプリを紹介します。
- MicrosoftLens
- Googleドキュメント
- LINE
- Adobe
- Evernote
- 読取改革
MicrosoftLens
MicrosoftLensは Microsoft社が提供しているスマートフォン用のアプリです。文字起こしをしたい資料を撮影して読み込むと簡単に文字起こしができます。モードも写真、ドキュメント、ホワイトボード、名刺と選ぶことができ資料だけでなく、書籍や印刷物も文字起こしができます。
文字起こし後のエクスポート先もWord、Excelなど Microsoft関連のツールを自由に選べる利便性を兼ね備えています。
Googleドキュメント
Googleが提供しているドキュメントサービスです。普段からgoogleをお使いの方におすすめのアプリです。
やり方はとてもシンプルで文字起こしをしたいファイルをドキュメントで開くだけ。自動的に文章を読み取ってくれる機能もあるので、画像の文章も容易に文字化できます。
日本語、英語、フランス語など200もの言語に対応しているので、翻訳も必要ありません。
LINE
コミュニケーションアプリとして有名なLINEにも実は文字起こし機能があります。
カメラで撮影した写真から文字を認識してテキスト化したり、トークで添付した画像から文字起こしができる機能を備えています。これはスマホ版のアプリだけでなくパソコン版のアプリでも使用できます。
また翻訳機能もありますので、海外旅行の際でも役立ちます。
Adobe
高機能のPDF編集ソフトであるAdobeにはAI文字認識機能が備えられています。
プロもこぞって使っていることもあり、認識機能はかなり高精度でありスキャナーと連動して画像を自動的に文字に変換できます。
Evernote
Evernoteはメモ帳アプリとして有名ですが、文字起こし機能もあります。
Evernoteにアップロードした画像やPDFは、OCRによって自動的に処理されており画像内で自由に文字認識することができます。また書籍や印刷物も撮影してアップロードして文字を読み取れます。
読取革命
読取革命は書籍、印刷物のOCRに特化したソフトです。
一般的なPDF編集ソフトとな異なり、OCRでの読み取りに機能が限定されているため値段が安いことが特徴です。月額料金を支払うシステムではなく1回買い切りで永久に使うことができます。
またインストール型のソフトなので、ソフトをインストールしたデバイスでしか使用できませんがネット回線を気にせずに利用できるのがメリットの1つです。
ディープラーニングによる文字起こし
近年はAIの発展が目覚ましく急激な進歩のきっかけとなったのが「Googleの猫」が挙げられます。
これはディープラーニングを用いてyoutube上の無数のデータから無作為に1千枚の画像を学習させたところ、AIが猫か猫じゃないか、猫とは何なのかを画像で示すことができた事例です。
人工的にプログラムを組んだのではなく、画像から猫の特徴、どんな生態かを自分で定義づけたことでAIが新しいステージに至ったという証左になります。
まとめ
画像の文章を文字起こしでデータ化するOCRについて説明しました。
人間が文字を読みキーボードで打ち込むのではなく、機械が読み取り、自動的に文字起こしをすることであらゆる作業効率が上がり、人的ミスがなくなります。また書類をスキャンしてデータ化をすると検索が容易になり、オンライン上で誰とでも共有できます。