アノテーションって何?ツール選びのポイントまで解説します。

AIの「教師あり学習」でよく出てくる、アノテーションとは?

AI分野で学習データ作成時に出てくる「アノテーション」という言葉ですが、もう少し分かりやすく表現すると「注釈」という意味になり、IT用語として考えると「特定のデータに対して情報タグ(メタデータ)を付加する」という意味で使用されます。

多くのデータセットに対し、アノテーションがなされた学習用データ(=教師データ)を準備することで、機械学習のモデル構築を行うのですが、精度の高い学習用データとなるデータセットをできるだけ多く準備した機械学習を実施すると、モデルの精度を向上させることができます。
ちなみに、アノテーションは全く別の用途でも使われる用語です。たとえば、YouTubeの動画の中にクリック出来る情報をアップすることもアノテーションと言います。

AI開発におけるアノテーションの位置付け

教師あり学習による機械学習を行う際のモデル開発に、アノテーションは必要になります。

教師あり学習では、事前に「これが正しいデータである」という情報を付与した教師データを準備する必要がありますが、データセットに対して注釈をつけることにより教師データを準備する作業がアノテーションということになります。

教師データを学習させることで構築された機械学習のモデルは、教師データで学習した特徴量を基に判断をするようになります。そのようにして、AIは全く知らないデータが入力された際に、正しいものかどうかを判断します。

どのような種類のアノテーションがあるの?

アノテーションは、色々なデータセットに対して行われます。そこで、それぞれのデータセットの種類に対して、アノテーションが一体どのように実施されるのかを紹介します。

テキストデータ

テキストデータのデータセットにもアノテーションをすることがあります。例えば、テキストのカテゴリーをメタデータとして分類した結果を学習させたモデル構築を行うと、未確認のテキストに対して学習結果に応じたカテゴリー分けを自動的に行うことができるAIができます。

画像データ

画像データのデータセットに対して、実現させたいことを特徴量としてアノテーション(タグ付け)します。ある1つの画像に対して、タグは1つというわけではありません。例えば、車の画像データには、車種や大きさ、色などの複数タグ付けが考えられますが、構築したいモデルに応じたクラス設計を行った上でアノテーションを実施します。アノテーションの内容は目的によって変わるということを理解しましょう。

音声データ

音声データのデータセットについても、アノテーションが実施されることがあります。例えば、音声データから感情やある特定の言葉を抽出したい際に、それを見分けるための属性情報をデータセットに対して付与することでアノテーションを行います。話し手、言葉の種類などから連想されうる感情などを特徴量としてアノテーションを行います。

画像認識アノテーションツール を選ぶ3つのポイントを紹介します。

アノテーションが行われるデータセットの対象として一番多いのは、やはり画像データになると思います。画像データにアノテーションを行うためのアノテーションツールには色々な種類がありますが、それぞれ特徴をもっています。ツールを選択するにあたり、どのような点に注目して選べばよいのでしょうか。今回は三点に絞って解説します。

  • 対応出来るアノテーションの種類
    画像に対するアノテーションには色々な種類があります。その中でも画像認識AIのような、教師あり学習が使われるAIを構築する際に比較的使われるアノテーションは、多角形ポリゴン、矩形、バウンディングボックス、セグメンテーション、キーポイントなどになります。
    AIにどのような事をさせたいのか、開発の目的を理解したうえで、必要となる教師データを考慮した上で、アノテーションの種類を判断する必要性があります。
  • セキュリティ/データ連携
    画像データの学習データは分量や解像度などにより、データセット全体のボリュームはそれなりのデータサイズになることもよくあります。アノテーションの作業中や一時保管場所としてどのような環境が適切か、アノテーションを行うメンバーの数や状況、セキュリティ対策などを考慮しながら、保管場所をクラウドベースとするのか、ローカル環境にデータを残したままとするのかは確認してください。
  • クラウド対応
    アノテーターやエンジニアなど、複数人でアノテーションに取り組む場合、お互いのアノテーションデータの情報共有は必ず必要になってきます。実作業を行う環境や体制によっては、クラウド対応のアノテーションツールで実施するのか、ローカル環境で実施するのかといったことも重要な選定基準となるでしょう。

上記三点のように、アノテーションツールを選ぶ際は、目的に対して適切なツールかどうかを事前に判断することが重要です。

まとめ

教師あり学習の学習データを用いてAIを開発するためには、データセットに対して精度の高いアノテーションが必要不可欠です。ビジネスの視点では、アノテーションの精度を維持しつつ、効率良くかつ安く作成するには、どうするのが良いのかという事も重要になりますが、プラットフォームの活用や、アノテーション業務自体をアウトソースすることも一つの選択肢になるでしょう。

ライター:aya

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.