SONY

ディープラーニングとデータ|データセットや必要なデータの種類などを解説

ディープラーニングにおけるデータセットとは、データとラベルをセットにした学習データのことで、教師データと呼ばれることもあります。

この記事では、ディープラーニングの仕組みやデータセットの必要性、データセットの種類などを解説しています。くわえて、データセットの入手先も紹介しています。ディープランニングのデータセットについて理解を深める際にお役立てください。

アイキャッチ画像

ディープラーニングでは非構造データを分析できる

これまでのコンピュータが分析できるデータは、構造データと呼ばれる数値や記号で表現されている表データが一般的でした。しかし近年コンピュータの処理能力が向上したこと等を背景にディープラーニングを用いて、音声や画像、自然言語の識別、抽出などの非構造データを高い精度で分析することが可能となりました。

ディープラーニングに不可欠なデータセットとは?

データセットとは、人工知能が学習を行う際に必要な学習データのことで、データとラベルをセットにしたものです。学習用の「トレーニングセット」、チューニング用の「バリデーションセット」、精度確認用の「テストセット」の3種類があります。

ディープラーニングにはデータセットが必要不可欠であり、自社の目的に合わせてデータセットを作る必要があります。また、オープンデータとして無料でダウンロードできるものもあるので、そちらを活用することもできるでしょう。

ディープラーニングに使用するデータセットの指標

​データセットは学習効率や性能に大きく影響します。目的や開発環境にあわせてデータセットを準備しましょう。

目的に応じたデータセット

音声認識や画像識別、自然言語処理など、分析したいデータに合わせて、データセットを準備する必要があります。特徴量を自ら抽出できるディープラーニングでも、もともと含まれていない情報はみつけ出せません。必要なデータが含まれているかを確認しておきましょう。

ネガティブサンプルが含まれたデータセット

ネガティブサンプルとは、たとえば顔認証用のデータセットにおいて、人がいない画像や人以外の画像サンプルのことです。ネガティブサンプルのデータセットを適切に選べば、学習レベルを段階的に高めることが可能です。ただし、ポジティブサンプルとネガティブサンプルを同数にするなどバランスも考える必要があります。

そもそもディープラーニングとは?

ディープラーニングというと、画期的な発明のような枠組みで語られることが多いですが、端的には人工知能の一手法に過ぎません。機械学習の一種であり、生物の脳をモデルにした「ディープニューラルネットワーク」がベースになったモデルです。機械学習から進化したところは、情報の識別や抽出などの目の付け所となる「特徴量」を人が定義するのではなく、自ら発見できることです。

ディープラーニングの種類

ディープラーニングは学習方法や計算方式によっていくつかの種類に分けられます。ここでは代表的な4つの種類を紹介します。

畳み込みニューラルネットワーク|Convolutional Neural Networks(CNN)

CNNは画像認識に適しており、最も普及しているアルゴリズムです。局所的なノードの特徴量を判断する畳み込み層と、平均値や代表値にまとめるプーリング層を組み合わせたニューラルネットワークを多層構造にすることで、元データに近い形でパターンマッチングできます。

リカレントニューラルネットワーク|Recurrent Neural Networks(RNN)

RNNは、再帰型ニューラルネットワークとも呼ばれ、時系列に依存する情報の処理に適したアルゴリズムです。たとえば、高速道路の混雑状況を映した動画から予測解析することや、人の会話の音声認識などに用いられています。

ディープニューラルネットワーク|Deep Neural Network(DNN)

CNNやRNNのベースにもなっている、人や動物の脳神経回路をモデルにしたアルゴリズムです。処理を多層化することで複雑な情報を識別・分析でき、特徴をデータセットから自動抽出することもできます。

敵対的生成ネットワーク(GAN)

入力データを特徴量に応じて変換出力するアルゴリズムです。データ入力用のジェネレータが出力処理用のディスクリミネータに対して、(敵対的に)間違えやすいデータを生成しながら画像・動画・音声などの識別学習を進めます。GANの事例ではディープフェイク動画が有名です。

機械学習との違いは?

人工知能の分野では「人工知能>機械学習>ディープラーニング」という包含関係があります。識別と予測を主な目的とするために活用する技術という意味では全て同じです。

機械学習は、データに自動的な学習をさせて特徴を法則化させるためと、その法則をもとに処理を自動化するために行います。つまり、開発者のプログラミングによって学習する人工知能です。一方、ディープラーニングは自動的に学習し、特徴自体を発見できます。

ディープラーニングの仕組み

ディープラーニングを理解するために、ニューラルネットワークとディープニューラルネットワークの仕組みや違いを紹介します。

ニューラルネットワーク

ニューラルネットワークは生物の脳をモデルにしたネットワーク構造で、入力層・中間層(隠れ層)・出力層が 1つずつで構成されます。ディープラーニングは、ニューラルネットワークの中間層の階層を深めた次の「ディープニューラルネットワーク」のアルゴリズムを用いて学習します。

ディープニューラルネットワーク

ディープニューラルネットワークは中間層が多層のアルゴリズムで、100層以上になることもあります。ディープラーニングの多くの手法はディープニューラルネットワークがベースです。「活性化関数」で重み付けをしながら各層を通過させることで、高度な情報処理を可能にしています。

ディープラーニングの応用例とは?

ディープラーニングは実際にどのような場面で活用されているのでしょうか。主な応用例を紹介します。

画像認識

空港で入出国手続きを円滑にするための顔認証システムや、不良品検出のための製造ラインでの外観検査などに、ディープラーニングの人工知能が活用されています。また、レントゲンやCT画像の解析など、医療での活用も進んできました。

音声認識

人の音声を認識してネット検索やショッピング、音楽再生などを行うスマートスピーカーが実用化されています。また、柔軟な対応はできないものの、ホテルの受付などで自然対話ができるロボットも開発されています。音声認識で議事録作成ができるビジネスツールも増えてきました。

自然言語処理

自動翻訳の分野では、先に紹介した RNNの技術が用いられています。ビデオチャットをしながら同時翻訳する製品もすでに実用化しました。また、画像内のテキストを認識して文字起こしができるツールもあります。

ディープラーニングで分析できるデータの種類

ディープラーニングで分析したいデータ別に、必要なデータを紹介します。

音声(オーディオ)データ

音声認識のディープラーニングには、無圧縮の WAVファイルや MP3のような圧縮データ、YouTubeなどの映像とセットになった音声データなどのデータセットが使われます。テキスト化やアノテーション(データにタグ付けすること)の処理をしてからディープラーニングに使用することもあります。

テキストデータ

テキストデータは幅広い使用目的があるデータです。たとえば、SNSのコメントを活用した天気予報や市場予測、音声識別と連動したチャットボット、自動翻訳などの自動言語処理の学習に使われます。政治家が多く使った単語から、政策転換の予測分析や感情分析をすることもあります。

画像データ

画像データは画像解析や画像識別に使用されます。共通点や差異などの規則性を分類していくため、ポジティブサンプルとネガティブサンプルを使ってディープラーニングを実現することが一般的です。

映像データ

映像データは動作検知、時系列予測に使用されます。最も代表的なのは、車の自動運転開発に活用されている走行中の周囲の映像などです。店舗内や交通施設内の様子を映した映像なども、効率的なサービスをみつけるための人工知能の学習用データセットとして使われています。

ディープラーニングのデータセットの入手先

データセットを自社で作るのは労力やコストがかかります。インターネット上で公開されているオープンデータを活用することもできるので、入手先をいくつか紹介します。

政府

データセット 公開元 内容・特徴
DATA GO JP 日本 総務省行政管理局が運用するオープンデータベース。ディープラーニングなどに適したデータ形式で各省庁が所有するデータを公開している。
Data.gov アメリカ アメリカ政府機関で公開されている政府予算や天候、経済指標などのデータが利用可能。2020年 6月時点の登録件数は 20万件以上。
UK Data Service イギリス​ ​イギリスで最大のデータセット公開サイト。経済や人口、地理など多様なデータセット。

大学・研究所

データセット 公開元 内容・特徴
国立情報学研究データリポジトリ 国立情報学研究所 情報学関連分野向けのデータセットが中心のサイト。民間企業や大学機関から提供されているデータが多く、研究者同士の共同利用を目的に運用されている。​
カリフォルニア大学アーバイン校機械学習リポジトリ カリフォルニア大学 最も歴史あるデータセット提供サイトのひとつ。ユニークなデータセットがみつかることでも人気。
Harvard Dataverse ハーバード大学 ​農業や芸術、天文学など約1万件の広範囲のデータセット。利用にはDataverseというWebアプリケーションが必要。

プラットフォーム

データセット 公開元 内容・特徴
Kaggle Kaggle ​機械学習やデータサイエンスに関わる人が集まるコミュニティサイト。ラーメンの評価などめずらしいデータセットも提供されている。
Link Data Link Data ​オープンデータを加工して共有することを目的とするサイト。エクセルやテキストデータを変換してAPI公開も可能。

動画

データセット 公開元 内容・特徴
YouTube-BoundingBoxes Dataset Google Bounding Boxがラベル付けされているデータセットが利用可能。YouTube動画から抽出された約24万件のデータ。​
YouTube-8M Dataset Google 4800件のナレッジグラフのエンティティでタグ付けされたデータセットが利用可能。動画数は800万本以上。​
Atomic Visual Actions (AVA) Google ​人の認識を目的にした人工知能の学習に適したデータセットが多くあるサイト。歩く・ジャンプするなど80種類でラベル付けされている。

画像

データセット 公開元 内容・特徴
LabelMe LabelMe(MITコンピュータサイエンス、人工知能研究所) 主にコンピュータビジョン研究分野に役立つ、アノテーション付きのデータセットがダウンロードできる。
MNIST MNIST ​手書き数字画像のデータセット。機械学習初心者に最適。
MegaFace ​ワシントン大学 ​顔認識アルゴリズム開発のための大量のデータセットが利用可能。認証精度を競う企画も実施されている。

音声

データセット 公開元 内容・特徴
AudioSet Google ​YouTubeから収集した10秒程度の音声クリップを利用可能。人の声や動物の鳴き声、楽器などさまざまな音源がある。
Common Voice Mozilla 古い映画や4万人以上の協力者の音声などによって、18言語で約1400時間の音声が公開されている。
ウィキペディア音声コーパス ハンブルグ大学​ ​英語・ドイツ語・オランダ語のウィキペディアの記事の音声データがダウンロードできる。

テキスト

データセット 公開元 内容・特徴
Wikipedia Links data Google ウィキペディア全文がデータセットとして利用できる。​
Amazon reviews Amazon アマゾンのカスタマーレビュー約3,500万件が公開されている。
青空文庫形態素解析データ集 青空文庫​ ​​青空文庫のテキストデータに形態素解析を行ったCSVファイルをダウンロードできる。

経済

データセット 公開元 内容・特徴
IMF DATA IMF IMFの融資データや為替レートなどが公開されている。時系列に整理されているのが特徴。
World Bank Open Data ​世界銀行​ ​経済や気候変動、保険、教育などの各分野に関する約8000の開発指標データを公表している。​
Financial Data Finder オハイオ州立大学​ ​株式データや為替レート、債券資産などの金融関連のデータセットが入手可能。​

まとめ

ディープラーニングにおけるデータセットとは、人工知能が学習を行う際に必要な、データとラベルをセットにした学習データのことです。自社の目的にあわせて、音声・テキスト・画像・映像などのデータ種類を選びましょう。オープンデータを活用することもできます。

「Neural Network Console」はソニーが開発したディープラーニング開発環境です。コーディングなしの高度な AI開発や、ドラッグ&ドロップとボタン操作による簡単チューニングが可能です。学習状況や性能をリアルタイムで評価できるため、開発効率もアップします。ぜひ無料で体験してみてください。

Cloud版ではInternet Explorerには対応していません。
Google Chromeをお使いいただくか、
こちらよりWindows版をダウンロードください

処理中に問題が発生しました。しばらく経ってからもう一度実行してください。

サインインアカウントの選択

Neural Network Consoleで利用するアカウントを選択してください。
Google、Sonyどちらのアカウントでも同様の機能が利用できます。