AI開発で必須となる「アノテーション」とは?

機械学習におけるアノテーションの役割について

当社がBPOで行っている取り組みの中で近頃最もニーズが高まっている分野がアノテーションです。今回はアノテーションに関する基礎知識として、機械学習におけるアノテーションの重要性についてお話したいと思います。

「アノテーション」を簡潔に説明するなら、物事の特徴について人間が機械に教えることです。いくら優れたAIとはいえ、最初は何もない空の状態だったわけですが、例えば犬の写真を見せてこれは犬です、犬はこんな顔をしていて尻尾が生えていて4足歩行ですといったさまざまな特徴を教えることで初めて犬という生き物を認識できるようになります。人間が教える必要があるため、これを教師あり学習と呼びます。予め正誤判定されているデータを元に、そのデータのルールやパターンを学習し、分析モデルとして出力する機械学習の一つの手法です。

昨今何かと話題に上がることが多いディープラーニングはこの機械学習を発展させたものです。人間の神経をモデルにしたディープニューラルネットワーク(DNN)を用いてコンピュータによる分析と学習を強固にしています。膨大なデータから特徴量(注目すべきポイント)を自学自習し自動で精度を高めていけるという点で機械学習の延長線上にある手法と言えます。毎回人間が教えてあげないといけないのかというと、必ずしもそうではないということですね。

教師あり機械学習の素材となるデータセットの作り方

とはいえ、まだ実用レベルでは機械学習の割合が圧倒的に多く人間が特徴を見出して適切なデータセットを用意し、学習させる必要があります。

データセットとはその分野のデータの集合体で、機械学習の素材と言えるものです。データセットの作り方としては、社内で蓄積したデータを使用することもできますし、AIの研究機関や民間企業など、様々な団体が無償あるいは有償で提供しているデータセットを使用することもできます。ただ、データセットを自前で用意することは大変な労力を要します(一説にはモデル制作の全行程の半分以上の工数が割かれるともいわれます)。また、提供されているデータセットを使う事で機械学習の準備コストを削減できますが、それは理想に近いデータセットが見つかれば、という条件付きです。実際はそのほとんどがそのまま機械学習で活用することはできません。なぜなら、同じ画像を使用して行う機械学習であっても、注目する特徴が少しでも異なれば仕様も大きく変わることになり、目的の結果が得られにくくなってしまうからです。そのためデータをコンピュータが理解し、学習できるようにデータセットを整理してあげる必要があり、この作業が「アノテーション」というわけです。

アノテーションの精度=AIの精度

アノテーションは人間が機械に対して何かを教えることだと述べましたが、具体的な作り方としてはデータにタグをつける作業が中心です。画像などのデータに一つ一つ意味付けしていくことで、互いを繋ぎあわせることができるようになります。大量のデータを学習していくことで、未知の新たなデータを前にしても、これまでの法則性を基に認識・予測することができるようになります。そしてこれらを通して出来上がったデータセットが機械学習の土台になるので、教師あり学習においてアノテーションは正答率(精度)に大きく影響を及ぼす非常に重要な要素です。

特にセマンティックセグメンテーションやインスタンスセグメンテーションと呼ばれるアノテーションでは、画像の各領域をピクセル単位でラベリングする必要があり、セグメンテーションを施した画像データの品質が精度に直結します。正確なオペレーションや判断力が必要とされるセグメンテーションのような高度なアノテーションは、経験値がものを言うところもあり、作業員の調達も容易ではありません。

その点、当社では比較的簡単なアノテーションから高難易度のアノテーションまで幅広く対応ができますので、もしこのようなことでお困りでしたら、気軽にお問い合わせください。

ライター:yamachan

御相談、ご質問はこちら

サービスご案内資料や、特別資料「機械学習の精度を向上させる方法とは?」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.