ディープラーニングによる画像認識の仕組み｜実用例・開発に必要な環境なども解説

ディープラーニングによる画像認識とは、学習させたAIによる画像の認識や解析をする技術です。ILSVRC2015(AIによる画像認識の大会)で人間の認識精度を超えたことにより、特に画像認識分野での普及が加速しています。

この記事では、ディープラーニングを活用して画像認識を行いたい人に向けて、ディープラーニングとは何か、機械学習との違い、画像認識が注目される理由などを解説します。ディープラーニングによる画像認識の実用例や仕組み、ディープラーニングモデルを作成する方法なども紹介するので、ぜひ役立ててください。

ソニーのNeural Network Consoleなら、ドラッグ＆ドロップで簡単にディープラーニングを用いた高度なAI開発が実現できます。

1 ディープラーニングとは？
1.1 機械学習との違いは？どちらを活用すべきか
2 ディープラーニングによる画像認識が重要視される理由
2.1 高性能GPU・クラウドの発展
2.2 スマートフォン、エッジデバイスでも利用可能に
2.3 音声・動画のような非構造化データにも対応できる
3 ディープラーニングによる画像認識の実用例
3.1 顔認証システム
3.2 自動運転
3.3 不良品・不純物の検知
3.4 がん細胞の検出
3.5 農業用ロボット
3.6 建設現場などにおける機械の安全使用
4 ディープラーニングの画像認識の仕組み
4.1 畳み込みニューラルネットワーク(CNN)
4.2 敵対的生成ネットワーク(GAN)
5 ディープラーニングモデルを作成する方法
6 ディープラーニングの開発に必要な環境
6.1 高機能なGPUが必要
6.2 グループで取り組む際はクラウドサービスの利用がおすすめ
7 まとめ

ディープラーニングとは

ディープラーニングとは深層学習とも呼ばれており、人間が行う作業をコンピューターに学習させる技術です。人工知能の中に含まれる機械学習の一技術という位置づけです。

ディープラーニングは、機械学習の技術であるニューラルネットワークをベースにして作られています。ニューラルネットワークは入力層・中間層・出力層で構成されています。ディープラーニングでは中間層を複数持たせているため、複雑なデータ処理が可能です。

機械学習との違いは？どちらを活用すべきか

機械学習は、特徴量などを人間の手で選択して学習させる技術です。たとえば、赤いボールと青いボールを認識させたい場合には、それぞれの画像を用意し、「これは赤」「これは青」というような情報を与えます。一方、ディープラーニングは特徴量の学習や選択なども機械が自動で行うため、人の手で情報を与える必要がありません。

ディープラーニングは膨大な量のラベリングされたデータと、それを処理できる高性能なGPUが必要です。両方を満たせない場合には、機械学習を選択すると良いでしょう。

ディープラーニングによる画像認識が重要視される理由

ディープラーニングによる画像認識が注目を浴びるようになった理由は大きく分けて3つあります。それぞれの理由を詳しく紹介します。

高性能GPU・クラウドの発展

高性能なGPU、クラウド・コンピューティングが大きく発展したことにより、ディープラーニングの重要度が増しています。ディープラーニングを行うためには、処理能力の高い高性能なGPUが必要不可欠でした。並列構成の高性能なGPUが発展したことで処理能力が格段にアップし、スムーズにディープラーニングを行えるようになったのです。

スマートフォン、エッジデバイスでも利用可能に

スマートフォンやエッジデバイスで利用できるようになったことも理由の一つです。これらはエッジAIと呼ばれています。従来はクラウドにすべてのデータを送って処理していましたが、エッジAIではその必要がありません。クラウドAIに比べると、よりスピーディーでリアルタイムの処理が可能です。そのため、活用の幅が広がり重要度が上がっています。

音声・動画のような非構造化データにも対応できる

ディープラーニングは非構造化データにも対応可能です。非構造化データとは、音声や動画のようなデータのことで、エクセルなどのように構造化されていないデータを指します。映像などの処理ができることで、リアルタイムで分析できます。たとえば、監視カメラに不審者が映ったときに連絡がくるといったように、その場での処理が可能です。

ディープラーニングによる画像認識の実用例

ディープラーニングによる画像認識はどのようなことに実用されているのでしょうか。ここでは、6つの実用例を紹介します。

顔認証システム

顔認証システムは、画像認識を活用したシステムです。カメラやスマートフォンなどに映った顔を認証して、登録されている顔と一致するかどうかを判断します。一致すればドアやスマートフォンのロックが解除される仕組みです。入退室管理が自動で行われるため人件費の削減につながったり、端末使用者を顔認証することで不正利用を防止したりします。

自動運転

自動運転技術にも画像認識は欠かせません。ディープラーニングの技術を利用して、標識や信号機、歩行者などの認識や検出を行います。人間が運転する場合、注意力が落ちてしまったり集中力が低下したりして、事故につながるケースもあります。AIではそのようなことがないため、事故防止や渋滞緩和につながると期待されているのです。

不良品・不純物の検知

製造の現場でも画像認識は活用されています。さまざまな画像を学習させてパターンを認識させることで、不良品や不純物を検知できます。たとえば、食品に付いた微細なゴミや衣類の汚れ、製造した商品の細かなひび割れや欠けなどの検知が可能です。

人間の目で確認するよりも、精密かつスピーディーに不良品などを検知できるため、生産性アップにもつながるでしょう。

がん細胞の検出

医療分野では、がん細胞の検出に画像認識が活用されています。高精度な顕微鏡とディープラーニングを組み合わせることで、人間の目では捉えることのできないような微細ながん細胞も自動的に検出できます。医療分野で普及すれば、病気の早期発見・早期治療につなげられるでしょう。

農業用ロボット

農業用ロボットの進化にも、大きな影響を与えるといわれています。農作物と雑草を自動で判別するロボットや、農薬を散布するためのロボットはすでに実用化されています。農業分野は高齢化や人手不足が深刻化しています。ディープラーニングの活用でこれらの問題が解決されることが期待されています。

建設現場などにおける機械の安全使用

建設現場などでは重機が使用されるため、作業員の安全性を確保することが重要な課題でした。ディープラーニングを利用することで、重機の周りや危険な場所に作業員やモノが侵入したときに自動で検出し、重機の動作を止める機能がすでに実用化しています。作業員が安全に作業できる環境が確保でき、安全性の向上に大きく貢献しているのです。

ディープラーニングの画像認識の仕組み

ディープラーニングは、ニューラルネットワークをベースにして作られています。ニューラルネットワークとは、人間や動物の神経細胞であるニューロンをモデルとして作られたシステムです。ニューラルネットワークの中間層は通常2～3層で構成されています。

一方、ディープラーニングの場合には、中間層が多層構造になっているため大量のデータを扱えるのです。これにより、自動で特徴を抽出・学習することができ、高い精度の画像認識が可能になります。

畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワークはCNN(Convolutional Neural Network)と略されており、最もよく使われている形式です。その名の通り、特徴とデータを一緒に畳み込んで蓄積していきます。ニューラルネットワークは入力層・中間層・出力層で構成されています。CNNの場合、中間層が畳み込み層とプーリング層で交互に構成されていることが特徴です。

畳み込み層で特徴を検出し、プーリング層で圧縮という作業を何度か繰り返して、データと特徴を一緒に畳み込んで情報化します。特徴を維持したまま情報量を圧縮する「画像の抽象化」ができることが大きな特徴です。

敵対的生成ネットワーク(GAN)

敵対的生成ネットワークはGAN(Generative Adversarial Network)と略されます。GANはAI同士を切磋琢磨させて、画像認識の精度をアップさせていくシステムです。GANには、偽物の画像を作るニューラルネットワークと、それを見破るニューラルネットワークで構成されています。

偽物の画像を作る生成器は、たくさんの画像を合成してデータを作ります。見破る働きを持つ識別器は学習した情報や特徴などを基にして、それが偽物であると判別します。これを何度も繰り返していくことで、画像識別の精度が大きく向上していきます。

ディープラーニングモデルを作成する方法

ディープラーニングモデルを作成する代表的な方法は「0の状態から学習させる」「学習済みのモデルを転移・調整する」「特徴抽出する」の3つです。

0から学習させる場合には、ラベリングされた大量のデータやネットワーク設計が必要になるため時間やコストがかかります。

学習済みモデルを転移する場合は、他の分野を学習したモデルに学習していないデータを与えることで、新しいタスクが行えるようになります。0から学習するのに対して必要なデータ数や計算時間が少なくて済みます。

特徴抽出は、ネットワークを特徴抽出のために使用する方法です。抽出した特徴を取り出して機械学習モデルに取り入れます。

ディープラーニングの開発に必要な環境

ディープラーニングの開発にはどのような環境が必要なのでしょうか。ここでは、必要な環境について紹介します。

高機能なGPUが必要

ディープラーニングの開発には、高機能なGPUが備えられた環境が必須です。大量のデータを処理・計算するため、高度な処理能力が必要とされます。処理能力が低いと、ディープラーニングのアイデアがあっても実現が難しいです。そのため、並列構成の高機能なGPUを用意します。特に画像認識にディープラーニングを利用する場合には、高スペックなものが必要です。

グループで取り組む際はクラウドサービスの利用がおすすめ

グループでディープラーニングを行う際には、クラウドサービスを利用すると良いでしょう。グループで利用する場合には、計算環境を調整しなければいけないケースもあります。その場合には、GPUを搭載しているマシンを提供しているサービスや、GPUの利用が可能なクラウド・コンピューティング環境を提供しているサービスを使うと便利です。

まとめ

ディープラーニングを利用した画像認識は、さまざまな分野で活用できます。画像認識の活用によって、生産性アップや人件費などのコスト削減、セキュリティ面の向上なども見込めます。

Neural Network Consoleは、ソニーが開発したディープラーニングです。コーディング無しでディープラーニングを用いた高度なAI開発が実現できます。ドラッグ＆ドロップで簡単に編集でき、学習の進捗状況や性能などをリアルタイムで確認できることもメリットです。

法人ユーザ登録

資料をダウンロード