SONY

文字認識率を向上させたディープラーニングとは?「AI-OCR」の概要・メリットも解説

​AI-OCRとは、手書きや印刷された書類などから文字を認識し、コンピューターが利用できるデジタルの文字コードに変換する技術であるOCRに、AI技術のディープラーニングをプラスしたものです。ディープラーニングを加えることで、文字認識率の向上などのメリットがあります。

​​この記事では、ディープラーニングを活用して作業を行いたい人に向けて、OCRとは何か、浸透した背景や活用例、従来のOCRの課題などを解説した上で、ディープラーニング技術を用いたAI-OCRについても詳しく解説します。あわせて、ディープラーニングを使った文字認識の事例やメリット、活用する場合の注意点なども紹介するため、ぜひ参考にしてください。

画像認識

「OCR(光学式文字認識)」とは?

OCRとは、手書きの文字や印刷された書類をカメラやイメージスキャナーなどで読み取り、テキストを認識してコンピューターが利用できるように、文字コードに変換する技術です。光学式文字認識とも呼ばれています。​

OCRで文字認識をするためには、はじめに画像を読み取ってレイアウトを解析し、文字認識する順番を決定します。1行ごとに切り出した後に1文字ごとに切り出し、前後の文字列候補や単語情報と照合して文字として認識します。文字認識が終わった後は、WordやExcelなどで再利用できるようにフォーマット出力をして完了です。

OCRの活用例

身近なところでは郵便局でOCRが活用されています。郵便物を配達地域ごとに仕分ける郵便区分機には、OCRが使われています。また、高速道路を走行している車のナンバーを読み取るシステムもOCRを活用したものです。​

経理や会計業務、事務作業にも活用されています。請求書の帳簿入力の際、OCRを使うことにより1枚ずつ入力する手間が省け、効率的に帳簿入力が進みます。資料のデータ入力などもOCRで行えるため、時間やコスト削減につながるのです。​

OCRが浸透した背景

OCRが広まった背景には、平成27~28年度にかけて国税関係書類の保存制度が見直されたことが関係しています。見直し以前は、国税関係の書類や帳簿類を、紙ベースで7年間保管しておくことが義務付けられていました。しかし、紙の書類で保管しておくためには、それだけのスペースを確保しなければならず、紛失や誤廃棄といったリスクも伴います。​

保存制度の見直しにより、書類や帳簿の保管は、紙ではなくスキャナーなどで読み取ってデータ化したものに置き換えられるようになったのです。これにより、過去の帳簿類のデータ化や今後に向けた需要が増えてOCRが広く浸透しました。

手書き文字の認識が難しかったOCR

OCRでは、黒くてはっきりと読み取れる文字を認識するため、手書き文字の認識が難しいという問題がありました。カラー文字やかすれている文字、網掛けなどがかかった文字なども認識が難しいです。また、縦書きと横書き両方で書かれた文書、文字間隔が著しく狭いものなども認識しにくくなっています。​

​その認識精度を飛躍的に向上させたのが、「AI-OCR」です。どのようなものか、次の段落で詳しく紹介します。

「AI-OCR」とは?ディープラーニングで発展した文字認識技術

​AI-OCRとは、ディープラーニングによってOCRをさらに発展させたものです。AI-OCRやディープラーニングについて詳しく解説します。

AI-OCRとは?

AI-OCRとは、OCRとAI技術を組み合わせたものです。AI技術の中でもディープラーニングを活用して、OCRの問題点を解決しています。ディープラーニングで学習していくことにより、従来のOCRよりも文字認識精度やレイアウトの分析精度などを大幅に向上できます。

また、座標を指定しなくても文字認識が可能です。そのため、事前のフォーマット指定も必要ありません。さまざまなフォーマットに対応できるため、幅広い書式に利用できます。​

ディープラーニング(深層学習)とは?

ディープラーニング技術によって、OCRの文字認識率が大幅に向上しました。ディープラーニングとは機械学習の1つで、ディープニューラルネットワークを用いています。人間の脳神経であるニューロンを模して作られたニューラルネットワークをベースにして作られており、入力層・中間層・出力層で構成されています。​

​一般的には2~3層程度でできている中間層を多層にすることで、AIが複雑な判断や分析をできるようにしているのがディープラーニングです。

ディープラーニングを活用した文字認識の事例

​AI-OCRは、物流や金融、保険などの分野で活用されています。物流では、手書きで書かれた配送伝票を読み取って、自動でシステムに入力がされています。金融や保険では、確認する項目の多い新規の申込書類や審査申込書などのデータ化をAI-OCRで行っています。これにより、大幅な作業時間削減を実現しました。​

​毎日多くの受発注が発生する工場でも、AI-OCRが役立っています。工場では、毎日さまざまな業者と取引をしますが、注文書や請求書、納品書などは紙で受け取ることも多いです。大量の書類を人の手で入力する業務は大きな負担になります。AI-OCRを導入することにより人が入力する手間が省け、人員削減や業務効率化に役立っています。

「AI-OCR」の導入で得られるメリットとは?

​AI-OCRを導入するメリットは、大きく分けて3つあります。ここでは、それぞれのメリットについて詳しく解説します。

事務作業を効率化できる

従来のOCRでは、読み取る位置や住所、名前といった情報をあらかじめ入力する必要がありました。しかし、AI-OCRではAIが自動で読み取ってくれます。非定型帳票に対応しているため、これまで人が行っていた請求書や注文書などの帳票に自動対応が可能です。多くの事務作業が軽減され、社員が他の業務に時間を費やせます。​

人的ミスが減少する

人の手で注文書や請求書、資料などのデータ入力をする場合、どうしても入力漏れや打ち間違いといったミスが起こりやすくなります。長時間同じ業務を行うことで、疲労が溜まり集中力が途切れてしまうからです。​

しかし、AI-OCRはAIが自動で行ってくれるため、この工程に人的ミスは存在しません。そのため業務全体でミスが減り、社員のスキルによって差が出ることも防げます。

RPAとの連携も可能

AI-OCRはRPA(Robotic Process Automation)と連携も可能です。RPAとは、人が行っている定型業務をソフトウェア型のロボットに代行させて自動化することを指します。RPAでは、ファイルの作成やデータの転記、受け渡しなどが行えます。

AI-OCRとRPAを連携させることで、AI-OCRで読み取ってデータ化したものを自動的に入力したり集計したりすることが可能になるのです。例えば、手書きアンケートのデータ化・集計などにも活用できます。そのほか、異なるレイアウトの請求書や納品書などを読み取り、システムに自動入力させることも可能です。

人が行っていた一連の業務を自動化できるため、業務効率が大幅にアップしますし、人的ミスを防ぐことにもつながります。​

ディープラーニングによる文字認識の注意点・課題は?

ディープラーニングによる文字認識には業務の効率化などのメリットがありますが、課題や注意点もあります。​

膨大な学習データが必要

ディープラーニングによる文字認識には、元となるデータが欠かせません。はじめから文字を認識できるわけではなく、認識精度を高めていくためには膨大な量の学習データを集めなければいけないのです。​

また、誤った読み取りをした場合には、正しく認識する方法を学習させる必要があります。例えば、「1」と「7」は書き方によっては非常に似た形になります。そのため、読み取りを間違えてしまった場合には、正しい識別方法を教えなければいけません。

人間の目による最終チェック・調整は必要

AI-OCRは手書きの文字を認識してくれますが、100%正確に読み取れるわけではありません。今後も、読み取り精度を100%にすることは理論上不可能だといわれています。そのため、すべてをAI-OCRに任せきりにせず、最終的なチェックや調整・修正などは人の目で行うようにしましょう。​

まとめ

AI-OCRは、手書き文字を認識しデータ化する技術です。人の手で行っていた業務を自動化できるため、人的ミスを削減でき、業務効率化が図れます。AI-OCRに興味はあっても、スキルやノウハウがなく導入が難しいと悩んでいる企業も多いでしょう。

Neural Network Consoleはソニーが開発したディープラーニング開発環境です。ドラッグ&ドロップでの簡単編集が可能で、コーディングなしでディープラーニングを用いたAI開発を実現できます。ネットワーク設計後、ボタン1つで高速学習を開始するため、専門知識がなくても簡単に利用可能です。ぜひ無料体験で実際の操作をお試しください。

Cloud版ではInternet Explorerには対応していません。
Google Chromeをお使いいただくか、
こちらよりWindows版をダウンロードください

処理中に問題が発生しました。しばらく経ってからもう一度実行してください。

サインインアカウントの選択

Neural Network Consoleで利用するアカウントを選択してください。
Google、Sonyどちらのアカウントでも同様の機能が利用できます。