神は細部に宿る~アノテーションに品質が求められる理由

神は細部に宿る~アノテーションに品質が求められる理由 イメージ画像

アノテーションとは「あるデータへ関連情報(注釈)を付与する」という意味ですが、AIシステムの構築にはアノテーション済の学習データ、あるいは教師データを大量に準備する必要があります。しかしながら、「安かろう・悪かろう」といった、品質が低いアノテーションがなされたデータセットでモデル構築を行うと、どれだけチューニングを実施してもAIシステムの精度を高めることが出来ません。
AIシステムと密接な関係があるアノテーション作業ですが、実施体制や会社ごとの違いによるメリットやデメリットはどのようなものでしょうか?

第一世代のAIから第三世代のAIまで~AIシステムを取り巻く様々な状況

AI(人工知能)という言葉が1956年に登場してから、AIブームは今まで3回ありました。最初のブームは1960年代までの「推論・探索」ベースのAIで簡単なゲームやパズルを解くといったレベルの第一世代のAIです。その後、1970年~1980年代に、専門家の知識をルールとして設定し問題解決を行う「エキスパートシステム」として注目された第二世代のAIが2回目のAIブームとなり、AIの応用技術であるRPA(ロボティック・プロセス・オートメーション)を用いた業務最適化といった動きなど、AIの可能性は拡大しました。2013年頃からは、ハードウェアのスペック向上に伴い、大量のデータを活用して機械に学習させることでルールを構築する流れが現実的なものとなり、ディープラーニング(深層学習)を中心とした第三世代のAIが様々な分野で活躍する、3回目の大きなAIブームが到来し、現在に至ります。

先進的な企業は、AIが実際の業務に使えるかどうかを確認・検証するために、PoC(Proof of Concept:概念実証)や、トライアルプロジェクトを実施することも多々ありますが、その際に必要となるものは、AIシステムのアーキテクチャ設計やハイパーパラメータの設定によるチューニングといったAIシステム構築ノウハウと同時に、どのような学習データ(教師データ)を、どれぐらいの数だけ準備するか、といったことも非常に重要となります。

パラメーターチューニングはモデル構築に必要となる学習コストを消費するとはいえ、後から修正が効きやすいですが、クオリティが低い学習データで学習させると、学習コストに加えて学習データの作成~修正コストがさらに上乗せされるため、カンタンに修正が効きません。最初のコンセプトメーキングも大事ですが、PoCやトライアルプロジェクトにおける学習データの精度が低いままプロジェクトを進めてしまうと、なかなか思うような結果を得ることは困難です。いかに優れたAIシステムやモデルであっても、高い精度を出すためには、学習データの精度向上は不可欠です

「アノテーション」が持つ意味として、YouTubeの動画上に表示させる事ができるクリック可能なテキストやエリアのことも指しますが、ここではAI向け学習データ作成に関する内容を記載しています。

アノテーションにクオリティが求められる理由は?~神は細部に宿る

機械学習では、学習データとハイパーパラメータによるチューニングが重要

アノテーションは様々なAIシステムで求められますが、その分量はある程度の数量が必要となることがほとんどです。しかしながら、大量の学習データなので適当に作成してしまうと、AIの精度が上がらず、いつまでたっても使えないAIシステムとなってしまいます。例えるなら、英語を習得しようと思い英単語を一生懸命覚えたとしても、単語帳に間違いがいくつも存在すると間違って覚えてしまうので、英文が書けるようになってもそこには間違って覚えた単語が入ってしまうことになり、英文自体のクオリティも下がります。

データクレンジングは、アノテーションを実施する対象となるデータセットにおいて、エラーや矛盾を含むダーティデータを含む場合は、アノテーション作業の第1ステップとして、データクレンジングやクラシフィケーションを実施する必要があるかもしれません。

「神は細部に宿る」~細かい部分の品質が重要

アノテーションはAIシステムの性能を左右する非常に重要な要素であり、地味なようで肝心かなめになる下準備となります。しかしながら、アノテーションの重要性は頭では理解していても、単純作業になりがちの非常に地味なタスクであり、プロジェクト全体を通してもなかなか注目されません。さらに、教師データとしてそれなりの分量を用意する必要があるので、アノテーション単価は逆に非常にシビアな観点、それこそ1円単位で考慮されがちです。

アノテーションを行う対象となるデータセットも含めて考慮すると、注意すべき点としては以下があげられます。

  • 既存のデータセットは業務が異なれば活用出来ない。
  • 対象業務が専門的であるほど、業務に即した学習データが必須。
  • 学習データの品質と判別精度はきれいに比例する。
  • 低品質の学習データが少しでも混入すると判別精度は落ちる。
  • 複数名でのアノテーションは品質のばらつきに注意。

AIアノテーション実施体制別のメリット・デメリット

AIシステム構築において、何らかの学習データの準備は必須となりますが、アノテーションの作業自体はとても単調で、非常に泥臭いものになります。アノテーション作業を個人ではなく会社として実施する体制としては、おおよそ以下があるかと思います。

社内で実施

アノテーション作業を高いモチベーションで実施することができると仮定して、たまたま手が空いている社員の方がいる場合は、空き時間の有効活用という意味では表向きのコストはかかりませんが、担当者が本来実施すべき業務を犠牲にしてアノテーションを実施せざるをえない状況であれば、話は別です。しかしながら、会社として絶対に外部に持ち出せないデータが存在する、あるいは事業所内でしかデータセットに振れることが出来ない、といった場合であれば、必然的に社内で実施せざるをえませんね。

クラウドソーシング型ベンダーに委託

テレワークが浸透した昨今では、独自のトレーニングや基準を設けてアノテーターを採用した上でアノテーション業務を実施しているベンダーが数多く存在します。単純なバウンディングボックスなどの難易度が低いアノテーション、あるいは少人数(できれば1人、多くても2~3名)で実施できるアノテーションであればFitするかと思われますが、それ以外のアノテーション作業を在宅スタッフだけで回すと、どうしても品質にばらつきが発生しがちになります。

BPO型ベンダーに委託

海外オフショア型のベンダーが多いのですが、それなりの人数で大規模なアノテーション作業、あるいは難易度が高いアノテーション作業をリーズナブルに実施することを得意としています。注意すべきは、アノテーション作業の経験値とスタッフの作業場所です。新興国の企業であってもテレワークはかなりの割合で浸透しているため、テレワーク中心のプロジェクト体制の場合はアノテーションの品質が心配です。出来るだけオフィスで作業をするベンダーに依頼したほうが、品質面もそうですが守秘義務といった観点でも安心です。

それぞれのメリットとデメリットをまとめると、以下となります。

メリット デメリット
社内で実施
  • 手が空いたメンバーをアサイン可能。
  • 社内での実施により、セキュアな環境と守秘義務が担保される。
  • 未経験者の場合はトレーニングから実施要。
  • AIエンジニアが実施する場合はコスト高に。
クラウドソーシング型ベンダーに委託
  • 価格的には一番安い。
  • 人員追加に対して柔軟に対応しやすい。
  • 品質管理が困難であり、「安かろう・悪かろう」になりがち
  • 作業環境や作業者が特定しにくく、悪意の有無問わず情報流出のリスクが高い。
BPO型ベンダーに委託
  • 経験を積んだ正社員が行うことにより、難易度が高いアノテーションでも高品質。
  • 社内での実施により、セキュアな環境と守秘義務が担保される。
  • オフショアの場合、言語解析系の実施が困難。
  • 委託ボリュームが少ない場合、高コストになりがち。

サイバーテックが提供するアノテーション作業は、フリーランスや在宅スタッフによる作業ではなく、全員オフィスに出社している、直接雇用の正社員が実施します。したがって守秘義務が完全に守られた中でアノテーション作業を実施しますので、競合他社に絶対漏れてはいけないような、現在企画中のAI製品やサービス、あるいはAIシステム構築をエンドクライアントから受託しているシステムベンダー様にとっても安心してご依頼いただくことが可能です。

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.