アノテーションには、オープンに扱えるアノテーション済データセットも存在しますが、そのような物が存在しない場合、対象とするAIシステムやモデルにより、カンタンなものから難易度の高いものまで様々です。
サイバーテックが提供する、アノテーション~AI向け学習データ作成サービスでは、難易度の高いアノテーション作業に関しても、弊社オフショア拠点に在籍する経験豊かな直接雇用スタッフが、オフィスに出社の上実施いたします。したがって「高品質・低価格」であることはもちろんのこと、クライアントとの守秘義務の下、データの漏えいや取り組み内容が外部に漏れる、といった心配はございません。
サイバーテックでは、AI校正・ゆらぎ検出エンジンの自社開発を行い、マニュアル作成支援システム「PMX」のオプションとして提供をしております。AI校正・ゆらぎ検出エンジンもそうですが、一般的にアノテーション作業による学習データの精度がAIシステムの精度に直結いたします。アノテーション作業の精度が低い場合は、ハイパーパラメーターの調整などによるファインチューニングでは精度向上が困難であり、アノテーション作業は地味ながらAIシステムの精度向上には非常に重要な要素となります。
弊社が実施するアノテーション(AI向け学習データ作成)作業では、フィリピン セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」に在籍する直接雇用の正社員(日本人およびフィリピン人)が実施いたします。全員リモートワークではなくオフィスに出社した形でアノテーション作業を実施するため、均一化されたヒューマンラベリングによる高品質の学習データをご提供することができます。また、お客様からお預かりしたデータセットは作業場所であるセブITアウトソーシングセンター内のみで扱われるため、自宅からのテレワークなどによる個人情報の流出はもとより、対象データセットの内容やアノテーションの作業内容自体が漏えいする心配もございません。
弊社が実施するアノテーションサービスの特徴をまとめると、以下の通りとなります。
顔が露出する個人情報の流出や、守秘義務の漏えいが心配!
NEC品質をクリアしたオフィスで正社員が作業を行います。クラウドソーシングや再委託、在宅スタッフによる作業ではありませんので、守秘義務の観点ではもちろんのこと、データ流出の心配もありません!
AIの性能に直結する「安かろう・悪かろう」のアノテーションは避けたい!
経験豊富なアノテーションマネージャとアノテーターが、作業を社内でFace to Faceにて行うことにより、属人的な「バラツキ・誤差」を排除した、高品質のアノテーション作業をリーズナブルに行います!
AIのことが分かるベンダーに、リーズナブルに依頼したい!
AI技術を活用したCMSを自社開発している弊社だからこそ、アノテーションに求められる内容も熟知しており、難易度の高いアノテーションが得意です。英語対応やプロジェクト並走型も対応可能です!
弊社が実施するアノテーション作業では、フィリピン セブ島に有する自社オフショア拠点「セブITアウトソーシングセンター」にて、日本人およびフィリピン人の管理者(アノテーションマネージャ)の下、経験豊富なオペレーションスタッフ(アノテータ)が様々なAI向け学習データを作成しています。
画像データに対するアノテーションの場合、以下のように、物体認識(オブジェクト ディテクション)のモデル開発に用いられる学習データとなる、対象物を矩形で囲うアノテーション(バウンディングボックス)や、対象物ごとに領域分割を行うセグメンテーション、対象物に座標を付与するキーポイントなどのアノテーションを実施しております。
画像以外の領域であっても、テキスト情報などのデータセットに対してタグ情報を付与するラベリングやネガポジ判別用のアノテーション、あるいは本格的なアノテーション実施前に必要データのみを抽出するためのデータ分類を行うクラシフィケーションなども行っております。AIに関する技術は日々進化しているため、最新の動向に即した学習モデルに活用できるアノテーション仕様に基づき、様々なAI学習データ作成(画像データのアノテーション)に関する取り組みを実施しております。最新情報はお問合せください。
画像から物体などを検出(物体認識・オブジェクト ディテクション)するAIモデルを作成するために、お客様から受領した画像データ内の対象となる物体や特徴に対して、矩形(バウンディングボックス)で囲むアノテーションとなります。同時にバウンディングボックスで囲ったオブジェクトが何であるかを示すクラス付与と、座標情報のラベル付け(ローカライゼーション)を行う作業を、セブ ハイスペック アノテーション「セブアノ」により大量かつ高品質の学習データを作成いたします。
※サンプル画像で用いた使用ツール:LabelImg
学習データとなる画像内の物体に対して、お客様からの指示書によりご指定いただいたツールや仕様に応じて、画像の輪郭線情報をポリゴンにより付与(セグメンテーション)した後、クラス付与によるラベリングによるアノテーションを実施することで学習データ作成を行います。セグメンテーションを行ったポリゴン情報はJSONファイル形式で提供いたしますが(labelmeの場合)、XMLファイルなどへのパースが必要な際は別途ご対応いたします。
※サンプル画像で用いた使用ツール:labelme
キーポイントは、パーツの各所につけられた座標(キーポイント)をもとに全体像を割り出すために用いられ、画像に写っている人などの対象物の特徴点に座標情報を付与するアノテーションです。人体や動植物などの骨格検出や姿勢推定に利用されており、データセットがオープンソースで提供されているものもありますが、流用出来ない場合や、植物や動物などのデータセットは新たにキーポイントを付与した学習データを作成する必要があります。
※サンプル画像で用いたツール:COCO Annotator
ディープラーニングによるAIモデル構築には、高品質なアノテーション済の学習データ(教師データ)を大量に準備することが必要不可欠です。クラシフィケーションでは、アノテーションの前処理として、カテゴリ分けによるラベリングなどにより、学習データとしてアノテーションを実施することが適切かどうかという観点でデータの取捨選択を含め、対象データを分類することでデータセットを準備いたします。対象データは、画像はもちろんのこと、動画や音声、テキスト情報など、様々な形式のデータ分類に対応いたします。
ディープラーニングの精度を高めるためには、アノテーション済となる大量の学習データ(教師データ)が必要ですが、学習データ自体が少ない・追加が難しいといった場合は何らかの対策が必要となります。また、少ない学習データで無理にモデル構築を行うと、過学習が発生する可能性も生じます。それらを回避するため、学習データの拡張(データアーギュメンテーション)により、学習データの水増し(拡張)を行うことにより、学習データを数倍~数十倍に増やすことが可能です。
※サンプル画像のデータ拡張時に使用した言語:Python
文字列を対象としたデータマイニングであるテキストマイニングの分野でも、AI翻訳やネガポジ判定などを含め、AIの活用は進んでいますが、テキストマイニングの対象としたいコンテンツを想定したAIが求める学習データには、既存のデータセットが活用できない場合も多くあります。そのような場合は、テキストマイニング向けに新たに学習データを作成することで、推論に基づいたモデルによるAIシステムの構築を行うことができます。
アノテーション~AI向け学習データ作成サービス「セブ ハイスペック アノテーション」サービスでは、クラウドソーシングのスタッフでは困難な、難易度の高いアノテーションを得意としています。サイバーテックではマニュアルなどのテクニカルライティング業務に活用される、ディープラーニング技術を活用したAIライティング支援(校正支援)サービスを自社で提供しており、Tensorを活用したディープラーニングの学習モデル自体の構築から実施しておりますので、国内本社と連携した、アノテーション仕様自体へのアドバイスや指示書見直しといった、アノテーション・プロジェクトの上流から携わる事が可能です!
AIにおけるモデル構築では、アノテーション済データを学習させて、検出精度などの結果を評価したのち、新たに学習データを追加する、あるいは変更する、といった流れで進みます。したがって、アノテーション作業はプロジェクト期間中絶えず必要となるわけではなく、評価結果をふまえ、必要となる時期とそうではない時期が発生する傾向にあります。サイバーテックの「セブ ハイスペック アノテーション」サービスでは、アノテーション作業自体をプロジェクト全体と並走させる形で、繁忙期と閑散期の差をサイバーテック側で吸収することが可能となります。
また、Bynameの専任メンバーをアサインする、ラボ型契約によるアノテーション作業を細く長く実施することも可能ですので、通常のワンストップ型よりも、よりAIプロジェクト進行の実態に即したアノテーション作業が可能です!
アノテーション作業は、サイバーテックがフィリピン・セブ島に有する自社拠点「セブITアウトソーシングセンター」の直接雇用スタッフで行います。クラウドソーシングによる在宅ワークや再委託による業務推進体制ではなく、管理下に置かれた作業端末で作業を実施するため、プロジェクト内容やデータなどの情報流出といった心配はありません。セブITアウトソーシングセンター内では、経験豊かな正社員のアノテーションマネージャ(リーダー)とアノテーター(オペレーション担当者)によるチーム体制で、属人的な「バラツキ・誤差」を極力なくしたアノテーション作業を行います。物価水準の低いフィリピン中部のセブエリアだからこそ、正社員によるチーム編成にもかかわらず、リーズナブルに教師データを作成することが可能です。
ディープラーニングでは、学習データのクオリティが判定器の精度に大きく関係します。アノテーションマネージャがフィリピン人の場合であっても、日本人チェッカーによる全件チェックを行う事も可能です。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |