アノテーション~AI向け学習データ作成サービスとは?

アノテーション~AI向け学習データ作成が求められる背景

ハードウェアのスペック向上とともに、AI(人工知能)技術を応用したソリューションへのニーズは日増しに高まっています。その中でも、従来のルールベースによるAIや、応用技術であるRPA(ロボティック・プロセス・オートメーション)を用いた業務最適化といった動きは既に一般化しつつあり、次世代のAIとしてディープラーニング(深層学習)に注目が集まっています。それに伴い、先進的な企業はPOC(Proof of Concept:概念実証)やトライアルプロジェクトにより、取り組むAIの対象としてはディープラーニングに移りつつあります。このディープラーニングに必要不可欠なものは、ハイパーパラメーターの設定といったチューニングなどの構築ノウハウと同時に、大量の学習データ(教師データ)であるため、低コストで学習データを作成することが求められます。

サイバーテックでは、数年前からディープラーニングに取り組み、現在は多言語マニュアルの標準化・改訂コスト削減・Web化を実現する多言語マニュアル用のCMS(コンテンツ管理システム)「PMX」のオプションとして、AI校正・ゆらぎ検出機能を提供しています。必要とされる学習データの作成は全て自社で実施しています。

アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーションサービス」では、サイバーテックがフィリピン セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」にて、ヒューマンラベリングを実施いたします。日本品質で様々なBPO・ITアウトソーシングサービスを提供する同拠点では、数年前よりAI校正・ゆらぎ検出オプションに用いる学習データ作成を行っております。画像データに対するアノテーション業務においても、それらのノウハウを流用し、海外オフショア委託による低価格オペレーションながら、高品質のAI向けアノテーションを実施することにより、AI向けのデータセット作成サービスを提供いたします。

※「アノテーション」が持つ意味として、YouTubeの動画上に表示させる事ができるクリック可能なテキストやエリアのことも指しますが、ここではAI向け学習データ作成に関する内容を記載しています。

アノテーション~AI向け学習データ作成サービスの概要

アノテーションサービス「セブ ハイスペック アノテーション」では、サイバーテックがフィリピン・セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」にて、日本人およびフィリピン人の管理者(アノテーションマネージャ)の下、経験豊富なオペレーションスタッフ(アノテータ)が様々なディープラーニング向け学習データを作成しています。

画像データに対するアノテーションの場合、以下のように、物体認識(オブジェクト ディテクション)のモデル開発に用いられる矩形のバウンディングボックスで対象物を囲うアノテーションや、対象物ごとに領域分割を行うセグメンテーション、対象物に座標を付与するキーポイントなどのアノテーションを実施しております。また、単純ラベリングを行うクラシフィケーションや、ネガポジ判別などに活用されるデータセット作成なども行っております。ディープラーニングに関する技術は日々進化しているため、アノテーションサービス「セブ ハイスペック アノテーション」では、最新の動向に即した学習モデルに活用できるアノテーション仕様に基づき、様々なAI学習データ作成(画像データのアノテーション)に関する取り組みを実施しております。最新情報はお問合せください。

バウンディングボックス付与~画像からの物体認識

バウンディングボックス画像画像から物体などを検出(物体認識・オブジェクト ディテクション)するAIモデルを作成するために、お客様から受領した画像データ内の対象となる物体や特徴に対して、矩形(バウンディングボックス)で囲むアノテーションとなります。同時にバウンディングボックスで囲ったオブジェクトが何であるかを示すクラス付与と、座標情報のラベル付け(ローカライゼーション)を行う作業を、セブ ハイスペック アノテーション「セブアノ」により大量かつ高品質の学習データを作成いたします。
※サンプル画像で用いた使用ツール:LabelImg


セグメンテーション~画像からの領域抽出

セグメンテーション画像学習データとなる画像内の物体に対して、お客様からの指示書によりご指定いただいたツールや仕様に応じて、画像の輪郭線情報をポリゴンにより付与(セグメンテーション)した後、クラス付与によるラベリングによるアノテーションを実施することで学習データ作成を行います。セグメンテーションを行ったポリゴン情報はJSONファイル形式で提供いたしますが(labelmeの場合)、XMLファイルなどへのパースが必要な際は別途ご対応いたします。
※サンプル画像で用いた使用ツール:labelme


キーポイント付与~画像への特徴点付与

キーポイント画像キーポイントは、パーツの各所につけられた座標(キーポイント)をもとに全体像を割り出すために用いられ、画像に写っている人などの対象物の特徴点に座標情報を付与するアノテーションです。人体や動植物などの骨格検出や姿勢推定に利用されており、データセットがオープンソースで提供されているものもありますが、流用出来ない場合や、植物や動物などのデータセットは新たにキーポイントを付与した学習データを作成する必要があります。
※サンプル画像で用いたツール:COCO Annotator


テキストマイニング用AIシステムの教師データ作成

 テキストマイニング用AIシステムの教師データ作成画像文字列を対象としたデータマイニングであるテキストマイニングの分野でも、機械翻訳やネガポジ判定などを含め、AIの活用は進んでいますが、テキストマイニングの対象としたいコンテンツを想定したAIシステムの構築に必要とされる学習データ(教師データ)として、既存のデータセットが活用できない場合も多くあります。テキストマイニング用AIシステムの教師データ作成代行では、日本語の学習データ作成に限らず、英語圏のフィリピンに有する自社オフショア拠点による、英文に対するアノテーションも可能です。新たに学習データを作成することで、推論に基づいたモデルによるテキストマイニング用AIシステムの構築をリーズナブルに行うことができます。


データセットの分類~クラシフィケーション

 クラシフィケーション画像ディープラーニングによるAIモデル構築には、高品質なアノテーション済の学習データ(教師データ)を大量に準備することが必要不可欠です。クラシフィケーションでは、アノテーションの前処理として、カテゴリ分けによるラベリングなどにより、学習データとしてアノテーションを実施することが適切かどうかという観点でデータの取捨選択を含め、対象データを分類することでデータセットを準備いたします。対象データは、画像はもちろんのこと、動画や音声、テキスト情報など、様々な形式のデータ分類に対応いたします。


学習データの拡張~データアーギュメンテーション

データアーギュメンテーション画像ディープラーニングの精度を高めるためには、アノテーション済となる大量の学習データ(教師データ)が必要ですが、学習データ自体が少ない・追加が難しいといった場合は何らかの対策が必要となります。また、少ない学習データで無理にモデル構築を行うと、過学習が発生する可能性も生じます。それらを回避するため、学習データの拡張(データアーギュメンテーション)により、学習データの水増し(拡張)を行うことにより、学習データを数倍~数十倍に増やすことが可能です。
※サンプル画像のデータ拡張時に使用した言語:Python


アノテーション~AI向け学習データ作成サービスの特徴

クラウドソーシングとは異なり、AIモデル構築自体も手掛ける当社によるアノテーション!

アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスでは、クラウドソーシングのスタッフでは困難な、難易度の高いアノテーションを得意としています。サイバーテックではマニュアルなどのテクニカルライティング業務に活用される、ディープラーニング技術を活用したAIライティング支援(校正支援)サービスを自社で提供しており、TensorFlowを活用したディープラーニングの学習モデル自体の構築から実施しておりますので、国内本社と連携した、アノテーション仕様自体へのアドバイスや指示書見直しといった、アノテーション・プロジェクトの上流から携わる事が可能です!

モデル構築と並行して、ゆるやかに携わらせて頂く、プロジェクト並走型のAIアノテーション作業も可能!

AIにおけるモデル構築では、アノテーション済データを学習させて、検出精度などの結果を評価したのち、新たに学習データを追加する、あるいは変更する、といった流れで進みます。したがって、アノテーション作業はプロジェクト期間中絶えず必要となるわけではなく、評価結果をふまえ、必要となる時期とそうではない時期が発生する傾向にあります。サイバーテックの「セブ ハイスペック アノテーション」サービスでは、アノテーション作業自体をプロジェクト全体と並走させる形で、繁忙期と閑散期の差をサイバーテック側で吸収することが可能となります。
また、Bynameの専任メンバーをアサインする、ラボ型契約によるアノテーション作業を細く長く実施することも可能ですので、通常のワンストップ型よりも、よりAIプロジェクト進行の実態に即したアノテーション作業が可能です!

正社員で行うので守秘義務も確実、さらに高品質ながらリーズナブル!

アノテーション作業は、サイバーテックがフィリピン・セブ島に有する自社拠点「セブITアウトソーシングセンター」の直接雇用スタッフで行います。クラウドソーシングによる在宅ワークや再委託による業務推進体制ではなく、管理下に置かれた作業端末で作業を実施するため、プロジェクト内容やデータなどの情報流出といった心配はありません。セブITアウトソーシングセンター内では、経験豊かな正社員のアノテーションマネージャ(リーダー)とアノテーター(オペレーション担当者)によるチーム体制で、属人的な「バラツキ・誤差」を極力なくしたアノテーション作業を行います。物価水準の低いフィリピン中部のセブエリアだからこそ、正社員によるチーム編成にもかかわらず、リーズナブルに教師データを作成することが可能です。
ディープラーニングでは、学習データのクオリティが判定器の精度に大きく関係します。アノテーションマネージャがフィリピン人の場合であっても、日本人チェッカーによる全件チェックを行う事も可能です。

アノテーション~AI向け学習データ作成サービスの内容

サイバーテックが提供する、アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスの流れは以下の通りとなります。

1. アノテーション仕様や概要の確認

アノテーションに関するお問合せ内容を元に、弊社がどのフェーズから携わらせていただくべきか、お客様側にお伺いします。まだ検討段階ということであれば、AI化を検討されている業務内容や想定用途、構築予定の学習モデルなどをお聞きした上で、場合によりPOC(Proof of Concept)による概念実証のご提案も実施いたします。複数アノテーションの組み合わせが必要かどうか検討中であっても、弊社にて取り組ませて頂いた事例をベースにお話させて頂きます。秘密保持契約の締結が必要となる場合は、いつでもお申しつけください。

下矢印

2. 学習データの作成対象となる画像データ・作業手順書の受領

AI導入プロジェクトとして正式に立ち上がっているようであれば、アノテーションの詳細仕様やご予算をお伺いした上で、アノテーションの対象データとなる、学習データの元となる画像データのサンプルと作業手順書を拝見します。作業手順書が存在しない場合は、ご要望のアノテーション仕様(クラス数・平均オブジェクト数など)を要件定義としてとりまとめることにより、作業手順書やアノテーション・ガイドラインを別途作成する事も可能です。画像の解像度が低い、あるいは全件が対象画像とはならない場合、クラシフィケーションにより学習データ対象とする画像データを絞り込み、実際にアノテーションを実施する、といったご提案も致します。

下矢印

3. アノテーションによる学習データの作成体制と想定期間・概算費用のご提案

ご要望の仕様や利用ツール、対象データや携わらせて頂く工程をベースに、アノテーションによる学習データ作成を行った場合の想定体制、および想定期間と概算費用をご提案いたします。プロジェクトの方向性をまず固める必要がある場合は、POCもしくはアドバイザリーサービスのご提案を行います。アノテーションマネージャやチェッカーの有無・アノテーションマネージャの担当者が日本人かフィリピン人のいずれか・アノテーション実施後のチェック回数や頻度によってアノテーションのクオリティや費用は変わるため、ご予算に応じた形でプランをご提案いたします。

下矢印

4. アノテーション・トライアルプロジェクトの実施

AIプロジェクトの一部として、ご提案プランの内容で着手指示頂く前提、もしくは少額のご発注により、少ロットのアノテーション作業により、学習データの作成を実施いたします。想定体制でご要望のクオリティと量産スピードを両立させることが出来るかどうかに着目した形で進めさせていただき、作成したアノテーション済学習データをご指定の形式(通常はJSON)で納品するとともに、作業手順書の見直しを実施します。クラス設計に甘さがあった場合は、見直しのご提案を実施いたします。トライアルプロジェクトにおける納品物は、少量とはなりますが、実際のAI学習データとして活用いただけます。

下矢印

5. 学習結果やアノテーション・トライアルプロジェクトの評価・検証

アノテーションのトライアルプロジェクトにより作成された学習データは、少量ですが実際に学習させた上で結果を評価頂くことも可能です。モデルの妥当性を検証頂くと同時に、トライアルプロジェクトの評価・検証を実施いただきます。その上で、主にクオリティや作成スピードの面において、当初ご提案した体制やメンバー通りで良いか、あるいは別の体制やメンバーを再検討すべきか、このフェーズで検証させていただきます。モデルの妥当性と同時に、AIの効果検証を行った結果、クラスや対象オブジェクトなどの見直しもご提案いたします。別プランが良いという判断になった場合は、4.に戻り再度トライアルプロジェクトによる学習データの作成を実施することも可能です。

下矢印

6. 全データに対してアノテーションを行い、学習データを作成

アノテーションによる学習データ作成作業のトライアルプロジェクトにおいて、品質をはじめ、お客様側でモデルにおいても評価・検証を行った結果、問題無いとご判断頂いたのち、残りの画像データに対して、アノテーションによる学習データ作成作業を行います。プロジェクトの途中であっても、画像データの追加や変更・クラス数や対象オブジェクトの変更などにより実施フローの変更が必要となった場合は、軽微なものであればプロジェクト内で吸収した形で進めることが可能です。大きな方向性の見直しが必要となった場合は、4.もしくは5.のフェーズに戻り、アノテーション・プロジェクトの体制やクオリティ基準の再検討から進めさせていただきます。

下矢印

7. 実際に機械学習を実施した結果をベースに検討

アノテーション実施済の全データを用いて機械学習を行い、学習済のモデルに対して要求水準を満たしているかどうかの性能評価を実施いただき、追加データに対してアノテーションの実施が必要かどうか、検討いただきます。さらに学習データが必要である場合は、アノテーションを追加で実施いたします。もし対象データが枯渇してしまうようであれば、画像データの拡張(データアーギュメンテーション:Data augmentation)を実施することにより、学習データの水増しを行うことが可能です。

アノテーション~AI向け学習データ作成サービス事例・価格

テキストデータの前処理による、AI向け学習データ作成

概要 ディープラーニング(深層学習)によるAIで用いる学習データを作成。元データは特定のWebサイトにプラグインを埋め込むことにより抽出対象の一覧を自動的に生成し、抽出作業を実施。規定のルールに基づき抽出情報からノイズ情報を判別し、除去を行った。
ボリューム・期間 約1,000ページ(ファイル)・2週間
作業内容
  • Movable Type、WordPressへのプラグイン設定
  • テキストファイルの抽出~指示書通りの命名即に基づいたファイル生成
  • ディープラーニング時にノイズとなるデータの除去
  • ツールによる最終確認
  • テキストデータとリストの納品
使用ツール・技術
  • Notepad++(編集エディタ)
  • Microsoft Excel(データ一覧作成)
  • Network Kanji Filter(UTF-8のBOM一括削除)
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他
  • 納品後のプロセス(形態素解析)を意識した、文字コードや改行コードによるテキストデータの作成。
  • 日本語コンテンツにもかかわらず、除去が必要なノイズデータをパターン化し、フィリピン人オペレータによりリーズナブルに実施。
  • 最終チェックは日本人により実施。
価格・費用 お問合せください

AI向け学習データ作成(セグメンテーションによるアノテーションの実施)

概要 ディープラーニング(深層学習)用の学習データとして、支給された画像に対してヒューマン ラベリングによるセグメンテーションを行い、アノテーションを実施(クラス数:10、1画像あたりの平均オブジェクト:5)。データチェックも含め実施。
ボリューム 5,000ファイル
使用ツール・技術 Labelme、JSON
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他
  • 作業者同士のクロスチェック実施
  • お客様のご要望により本番実施前にサンプルの提出を実施
価格・費用 お問合せください

上記は一般的な、アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスの事例となります。そのほか多数の事例がございます、詳細はお問合せください。

アノテーション~AI向け学習データ作成サービス Q&A

アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスに関する次のような課題をお持ちではありませんか?

海外オフショアによる学習データ作成(画像データのアノテーション)は、やはり品質・コミュニケーション面で不安です。

サイバーテックが提供するアノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスの実施場所はフィリピン・セブITアウトソーシングセンターとなりますが、自社直轄オフショア拠点となります。したがって、ご契約および受発注はもとより、何らかのイレギュラーな事が発生した場合においても、東京本社が全面的にバックアップさせていただきます。いわゆる「安かろう・悪かろう」や、突然依頼を断られる、といった海外ベースのオフショア企業とは異なり、日系企業の海外オフショア拠点として責任を持って取り組ませて頂きます!

英語が話せません。日本語でのやりとりでも画像データのアノテーションの指示は大丈夫?

セブITアウトソーシングセンターのフィリピン人スタッフは日本語が読めませんが、全ての案件に英語が堪能な現地日本人スタッフが付きますので、日本人とフィリピン人が協調しながら業務を進めております。10年以上の海外オフショア拠点の運営ノウハウがございますので、アノテーション~AI向け学習データ作成時における指示内容も日本語で大丈夫です。海外委託における一番のリスクであるコミュニケーションの齟齬を防ぐことができます。

日本人がアノテーションマネージャとして入った場合、結局割高になるのでは?

オフショア委託で一番コスト超過に陥る理由は「クオリティや納品内容の齟齬による追加費用」となります。経験豊かな日本人アノテーションマネージャがしっかり管理することにより、納期はもちろんのこと、学習モデルの再作成やクオリティの低下、といった手戻りを防ぐことにより、トータルで見ると低コストにつながります。もちろん国内企業へ学習データ作成を委託した場合と比べてもリーズナブルです。

海外で画像データのアノテーションを実施する際、時差などのタイムラグが心配なのですが

アノテーション~AI向け学習データ作成を実際に行う「セブITアウトソーシングセンター」があるフィリピン・セブ島は、日本との時差がたった1時間しかありません。さらに、始業時間なども日本時間に合わせておりますので、お客様の指示はダイレクトにアノテーションマネージャがキャッチアップいたします。メールやスカイプのやり取りでも国境や時差を感じさせることはございません!

急ぎもしくは大量の画像データのアノテーション委託でも対応してもらえる?

自社オフショア拠点「セブITアウトソーシングセンター」は、フィリピン セブ島エリアの独立系日系ITサービス企業において最大規模となっています。アノテーション~AI向け学習データ作成のニーズとしては、短期間で一気に行う事が求められる場合が多くありますが、常に最適な人員配置を行っておりますので、急な納品対応や業務ピークにも柔軟な要員調整によりアノテーションチームを編成し、短期間で高品質の学習データを大量に作成することが可能です!

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.