アノテーションとは「あるデータへ関連情報(注釈)を付与する」という意味ですが、AIシステムの構築にはアノテーション済の学習データ、あるいは教師データを大量に準備する必要があります。しかしながら、「安かろう・悪かろう」といった、品質が低いアノテーションがなされたデータセットでモデル構築を行うと、どれだけチューニングを実施してもAIシステムの精度を高めることが出来ません。
神は細部に宿る~AIシステムと密接な関係があるアノテーション作業ですが、実施体制や会社ごとの違いによるメリットやデメリットはどのようなものでしょうか?
AI(人工知能)という言葉が1956年に登場してから、AIブームは今まで3回ありました。最初のブームは1960年代までの「推論・探索」ベースのAIで簡単なゲームやパズルを解くといったレベルの第一世代のAIです。その後、1970年~1980年代に、専門家の知識をルールとして設定し問題解決を行う「エキスパートシステム」として注目された第二世代のAIが2回目のAIブームとなり、AIの応用技術であるRPA(ロボティック・プロセス・オートメーション)を用いた業務最適化といった動きなど、AIの可能性は拡大しました。2013年頃からは、ハードウェアのスペック向上に伴い、大量のデータを活用して機械に学習させることでルールを構築する流れが現実的なものとなり、ディープラーニング(深層学習)を中心とした第三世代のAIが様々な分野で活躍する、3回目の大きなAIブームが到来し、現在に至ります。
先進的な企業は、AIが実際の業務に使えるかどうかを確認・検証するために、PoC(Proof of Concept:概念実証)や、トライアルプロジェクトを実施することも多々ありますが、その際に必要となるものは、AIシステムのアーキテクチャ設計やハイパーパラメータの設定によるチューニングといったAIシステム構築ノウハウと同時に、どのような学習データ(教師データ)を、どれぐらいの数だけ準備するか、といったことも非常に重要となります。
パラメーターチューニングはモデル構築に必要となる学習コストを消費するとはいえ、後から修正が効きやすいですが、クオリティが低い学習データで学習させると、学習コストに加えて学習データの作成~修正コストがさらに上乗せされるため、カンタンに修正が効きません。最初のコンセプトメーキングも大事ですが、PoCやトライアルプロジェクトにおける学習データの精度が低いままプロジェクトを進めてしまうと、なかなか思うような結果を得ることは困難です。いかに優れたAIシステムやモデルであっても、高い精度を出すためには、学習データの精度向上は不可欠です。
「アノテーション」が持つ意味として、YouTubeの動画上に表示させる事ができるクリック可能なテキストやエリアのことも指しますが、ここではAI向け学習データ作成に関する内容を記載しています。
アノテーションは様々なAIシステムで求められますが、その分量はある程度の数量が必要となることがほとんどです。しかしながら、大量の学習データなので適当に作成してしまうと、AIの精度が上がらず、いつまでたっても使えないAIシステムとなってしまいます。例えるなら、英語を習得しようと思い英単語を一生懸命覚えたとしても、単語帳に間違いがいくつも存在すると間違って覚えてしまうので、英文が書けるようになってもそこには間違って覚えた単語が入ってしまうことになり、英文自体のクオリティも下がります。
データクレンジングは、アノテーションを実施する対象となるデータセットにおいて、エラーや矛盾を含むダーティデータを含む場合は、アノテーション作業の第1ステップとして、データクレンジングやクラシフィケーションを実施する必要があるかもしれません。
アノテーションはAIシステムの性能を左右する非常に重要な要素であり、地味なようで肝心かなめになる下準備となります。しかしながら、アノテーションの重要性は頭では理解していても、単純作業になりがちの非常に地味なタスクであり、プロジェクト全体を通してもなかなか注目されません。さらに、教師データとしてそれなりの分量を用意する必要があるので、アノテーション単価は逆に非常にシビアな観点、それこそ1円単位で考慮されがちです。
アノテーションを行う対象となるデータセットも含めて考慮すると、注意すべき点としては以下があげられます。
AIシステム構築において、何らかの学習データの準備は必須となりますが、アノテーションの作業自体はとても単調で、非常に泥臭いものになります。アノテーション作業を個人ではなく会社として実施する体制としては、おおよそ以下があるかと思います。
アノテーション作業を高いモチベーションで実施することができると仮定して、たまたま手が空いている社員の方がいる場合は、空き時間の有効活用という意味では表向きのコストはかかりませんが、担当者が本来実施すべき業務を犠牲にしてアノテーションを実施せざるをえない状況であれば、話は別です。しかしながら、会社として絶対に外部に持ち出せないデータが存在する、あるいは事業所内でしかデータセットに振れることが出来ない、といった場合であれば、必然的に社内で実施せざるをえませんね。
テレワークが浸透した昨今では、独自のトレーニングや基準を設けてアノテーターを採用した上でアノテーション業務を実施しているベンダーが数多く存在します。単純なバウンディングボックスなどの難易度が低いアノテーション、あるいは少人数(できれば1人、多くても2~3名)で実施できるアノテーションであればFitするかと思われますが、それ以外のアノテーション作業を在宅スタッフだけで回すと、どうしても品質にばらつきが発生しがちになります。
海外オフショア型のベンダーが多いのですが、それなりの人数で大規模なアノテーション作業、あるいは難易度が高いアノテーション作業をリーズナブルに実施することを得意としています。注意すべきは、アノテーション作業の経験値とスタッフの作業場所です。新興国の企業であってもテレワークはかなりの割合で浸透しているため、テレワーク中心のプロジェクト体制の場合はアノテーションの品質が心配です。出来るだけオフィスで作業をするベンダーに依頼したほうが、品質面もそうですが守秘義務といった観点でも安心です。
それぞれのメリットとデメリットをまとめると、以下となります。
メリット | デメリット | |
---|---|---|
社内で実施 |
|
|
クラウドソーシング型ベンダーに委託 |
|
|
BPO型ベンダーに委託 |
|
|
サイバーテックが提供するアノテーション作業は、フリーランスや在宅スタッフによる作業ではなく、全員オフィスに出社している、直接雇用の正社員が実施します。したがって守秘義務が完全に守られた中でアノテーション作業を実施しますので、競合他社に絶対漏れてはいけないような、現在企画中のAI製品やサービス、あるいはAIシステム構築をエンドクライアントから受託しているシステムベンダー様にとっても安心してご依頼いただくことが可能です。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |