機械学習モデルの質を高めるデータセットの作り方

高品質なデータセットは高品質なアノテーションから

機械学習によって解決したいタスクがあるなら、まずはそのベースとなるデータセットの品質を上げることに注力しなければなりません。オープンに提供されているデータセットをそのまま使用できることが少ないのは前回の記事で述べたとおりですが、土台となるデータ収集でつまずくことがありますので、社内にソースが蓄えられている場合はまずは学習に使用できるデータとそうでないデータに仕分けするところから始めます。ソースが全く無いという場合は、Webからスクレイピングするか、カメラやセンサーなどを取り付け、実際に元データを収集する必要があります。

そして、高品質なデータセットを作る上で欠かせないのが、アノテーションです。社内にリソースがあれば自社で集めたデータセットに対し、教師ラベルをつけることでさらに実用性を高めることができます。このアノテーションという作業は以降の全プロセスに影響を与える非常に重要な工程で、モデル学習よりも重要なフェーズとも言えます。(もちろん事前の画像選びも慎重に行うべき要素です)。モデルの精度とデータセットの量と質は切っても切れない関係がありますが、高品質で多量の学習データを用意するのはかなりの労力を要します。

データセットの種類について

機械学習で主に使われるのは画像やテキスト、音声、数値といったデータですが、例えば画像データは主に画像解析などに使われます。画像解析の分野では、何が映っているかといった分類(クラシフィケーション)を行うことや、どこに何が写っているのかを検出(セグメンテーション)することの2種類が代表的な活用です。そして、機械学習で使用されるデータセットには主に以下のデータセットが存在します。

trainデータセット

機械学習に用いられる最初のデータセットです。全体の半数以上と規模が最も大きく、モデル学習はこのデータセットを基に行われます。

validationデータセット

特徴量の重みづけを更新するのに対して、validationデータセットは重みの更新を伴わないデータセットです。trainデータセットで訓練したあと、分類器のハイパーパラメーター(機械学習アルゴリズムの動きを制御するパラメーター)をチューニングしたり、Early Stoppingといわれる、過学習によってこれ以上精度向上が見込めない場合に学習を止める判断に用いられたりします。trainデータセットで訓練した後、validationデータセットを使って最もパフォーマンスが優れているものを採用します。

testデータセット

モデルの精度検証の段階にのみ使われるデータセットで、前述のバリデーションセットと混同されることもありますが、どれだけの精度が出るかを検証するためだけに用いられるデータセットですので、他のどのデータセットとも重複しません。

世界中で不足する学習データ

機械学習を上手に活用していくことで、今後社会の発展に大きな貢献が期待できます。しかし、高いニーズがあるのにも関わらず、学習データの不足により多くの企業がAIの導入に踏み切れていない現実があります。

学習データが不足している理由は、機械が独立独歩でモデル学習ができるまでには至っておらず、どうしても人間の力を必要とする場面がたくさんあるからです。特にアノテーションの領域においては人間の目、判断力に頼らざるを得ないケースが多々あります。学習データはどのようなアルゴリズムを構築する場合にも必要不可欠であり、品質の悪いデータや構造に欠陥のあるデータでは、正確にタスクを実行することは難しくなってしまいます。そうならないために、事前に人間が手作業でラベル付けを行った後、ミスが無いか入念にチェックしたクリーンなデータを作成する必要があります。そうして初めて、AIプロジェクトをビジネスへと昇華させることができます。万単位にある膨大なデータを処理するには、気が遠くなるような作業が待っています。

しかし、そのような状況においても、当社では経験豊富なアノテーターによるきめ細やかな対応が可能ですので、もしこのようなことでお困りでしたら気軽にお問い合わせください。

ライター:yamachan

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.