テキストマイニング用AIシステムの教師データ作成

テキストマイニング用AIシステムの教師データ作成

文字列を対象としたデータマイニングであるテキストマイニングの分野でも、機械翻訳やネガポジ判定などを含め、AIの活用は進んでいますが、テキストマイニングの対象としたいコンテンツを想定したAIシステムの構築に必要とされる学習データ(教師データ)として、既存のデータセットが活用できない場合も多くあります。
サイバーテックが提供する、テキストマイニング用AIシステムの教師データ作成代行では、日本語の教師データ作成に限らず、英語圏のフィリピンに有する自社オフショア拠点による、英文に対するアノテーションも可能です。新たに学習データを作成することで、推論に基づいたモデルによるテキストマイニング用AIシステムの構築をリーズナブルに行うことができます。

テキストマイニングにAIシステムと教師データ作成(アノテーション)が求められる背景

SNSで投稿された内容や口コミからの掘り起こし、アンケートに書かれた文章の分析、文章内のおおよその意味を判別するネガポジ判定や、論文などから必要とするテキスト情報を抽出するといった、テキストマイニングには様々なニーズが存在します。従来は人手で実施しなければならない作業でしたが、昨今はAIの活用が進んでいます。
特に、Google翻訳やDeepLなどに代表される、近年のAI翻訳に使われるAIの仕組みとなるNMT(ニューラル機械翻訳:Neural Machine Translation)の性能向上は目覚ましく、AI翻訳のエンジンはアーキテクチャの変更とともに、2017年あたりを境目に飛躍的な進歩を日々遂げており、一昔前の何を言っているか分からない訳文が出てくる状況とは一変しています。

テキストマイニング用AIシステムの構築に際して、オープンソースのデータセットなどを教師データとした上でAIシステムを構築できると非常に都合が良いのですが、現実的にはなかなかFitしたデータセットが存在しない状況にあります。
そのような場合は、テキストマイニングの対象となるコンテンツをベースに教師データを作成する必要がありますが、日本語の場合であればまだしも、英語が対象となる場合は日本国内での実施はコスト高になるため、英語圏であり、かつリーズナブルなエリアで実施したほうが、英文読解力という意味の品質もさることながら、トータルコストを抑えることが可能となります。

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービス概要

テキストマイニングの中でも、特に英文を対象としたアノテーションを行うには、作業担当者にネイティブレベルの英語力が備わっていることは、学習データの精度に直結する最低限の要件となります。そのうえで、文系出身や理系出身など、その他の属性を有しているアノテーターであれば、より正確に英文に対するアノテーションを実施することが可能となります。
特に、テキストマイニング用AIシステムで必要とされる教師データは、画像を対象としたアノテーションとは異なり、判断力が必要とされるアノテーションが多いため、フリーランスで組織した体制では品質にバラツキが発生しやすくなります。さらにオンラインベースでの実施体制であれば、教師データ全体の品質を一定に保つことは、なおさら困難となります。

サイバーテックは、公用語が英語であるフィリピンの中でも、特に英語力が高いとされるセブ地域に自社直営オフショア拠点「セブITアウトソーシングセンター」を有しており、難易度の高い教師データ作成であっても、高品質ながらリーズナブルにご提供する「セブ ハイスペック アノテーション」サービスを提供しています。
実施するスタッフは、全て直接雇用の正社員であり、全てのアノテーションマネージャとアノテーターがオフィスに出社した上でアノテーション作業を行うので、判断に迷う部分は直接コミュニケーションを取りながら、アノテーション品質の平準化を行う事が可能となります。

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービスの特徴

公用語が英語のフィリピンで実施、高い英語読解力で学習データの品質にも直結!

フィリピンは公用語が英語であり、さらにセブ地域はフィリピン国内でも有数の高い英語力を有しているため、数多くの英語スクールが存在するとともに、オンライン英会話の講師が多く輩出されるエリアとなっています。
特に、英文に対するアノテーションを実施するうえで、しっかりとした英文の読解力は最低限必要となります。フィリピンは高い英語力を有する人材が多数存在しますが、その中でもセブ島エリアはフィリピンの首都マニラと比較した場合、おおよそ3分の2の物価であるにもかかわらず、高い英語力を有する人材が豊富なエリアとなるため、高品質のアノテーションを実施できるとともに、アノテーションにかかる費用もリーズナブルに抑えることが可能となります。

在宅スタッフではなく、直接雇用の正社員による、安定したアノテーション品質!

高い英語力を有するフィリピン人ですが、アノテーションは、オフィスに出社している直接雇用の正社員が行いますので、社内でFace to Faceによるコミュニケーションを取りながら、高品質のアノテーション作業を実施することが可能です。
経験豊富なアノテーションマネージャが進捗管理やチェック体制の構築、指示書の作成や見直しなどを行い、アノテーション経験が豊富なメンバーで構成されたチーム体制での作業となるため、属人的な「バラツキ・誤差」を極力なくし、高品質なテキストマイニング向け教師データ作成を実現します。ちなみに、セブITアウトソーシングセンターには日本人も複数名在籍しておりますので、日本語データセットに対するアノテーションも、もちろん対応可能です。

ラボ型のメンバー固定で、プロジェクト並走型アノテーションもリーズナブルに可能!

経験豊富なアノテーション代行企業として、一般的な業務委託の形式でもリーズナブルにテキストマイニング用AIシステムの教師データ作成が可能ですが、サイバーテック セブITアウトソーシングセンターの経験豊富なアノテータースタッフやアノテーションチームごと、皆様の企業におけるアノテーション部門としてBynameによるラボ型の要員固定を行っていただくことが可能です。これにより、AIシステムのモデル構築と並走した形で学習データ作成を行う体制を構築することや、長期的な視点において、さらなる品質向上とコストダウンを実現することが可能となります。

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービス内容

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービスの流れは以下の通りとなります。

1. テキストデータのサンプル確認、アノテーション作業の手順書の確認もしくは作成

アノテーション作業を実施する予定のテキストデータを頂くとともに、データの分類基準や付与するクラスなどの内容が記載された手順書を拝見した上でお見積りを致します。手順書が存在しない場合は、想定されているアノテーション仕様に関してヒアリングを実施することにより、作業手順書の作成に関しても別途お見積りいたします。秘密保持契約の締結が必要となる場合は、いつでもお申しつけください。

下矢印

2. 一部のテキストデータを用いたトライアルプロジェクトの実施

アノテーションの仕様がまだ固まっていない、あるいは正確な見積が必要といった場合は、ご提案プランの内容で着手指示頂く前提、もしくは実際に少額をご発注頂くことで、少ロットのテキストデータを用いた、教師データ作成のトライアルプロジェクトを実施いたします。なお、アノテーションの仕様が既に確定している、あるいは作業内容が単純である場合は、本フェーズは省略させていただく場合もございます。

下矢印

3. トライアルプロジェクトの評価・検証

教師データ作成のトライアルプロジェクトを実施した場合は、実施結果について、評価・検証を実施いただきます。その上で、当初ご提案したプラン通りで良いか、あるいは別のプランを再検討すべきか、このフェーズでご意見を伺います。手順書の見直しなど、アノテーション仕様を再検討したほうが良いという判断になった場合は、2.に戻り再度トライアルプロジェクトを実施することも可能です。

下矢印

4. 全てのテキストデータを対象とした、アノテーション作業の本番プロジェクトを開始

全てのテキストデータにアノテーション作業を実施する本番プロジェクトを開始いたします。プロジェクトの途中であっても、対象となるテキストデータの追加や変更、またはアノテーション仕様の変更が必要となった場合は、軽微なものであればプロジェクト内で吸収した形で進めることが可能です。プロジェクトの方向性について大幅な修正が必要となった場合は、2.もしくは3.のフェーズに戻り、方式の再検討から進めさせていただきます。

下矢印

5. アノテーション済データセットの納品~検証

アノテーション実施済のデータセットは、分割納品することも可能です。アノテーション作業と並行する形で、お客様側で実際にモデルの検証をしながらAIシステムの構築を進めることが可能です。アノテーション作業の対象とするデータセットの変更、クラス付与数の変更など、モデル評価の途中で発生する様々な課題に対しては、可能な限り対応させていただきます。

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービスの事例・価格

アノテーション作業により、AI校正・ゆらぎ検出システムで用いる教師データ作成(テキストデータの前処理)

概要 アノテーション作業により、AI校正・ゆらぎ検出システムで活用する教師データを作成。対象データは特定のWebサイトにプラグインを埋め込むことにより抽出対象の一覧を自動的に生成し、抽出作業を実施。規定のルールに基づき抽出情報からノイズ情報を判別し、除去を行った。
ボリューム・期間 約1,000ページ分のテキストファイルを2週間で実施
作業内容
  • Movable Type、WordPressへのプラグイン設定
  • テキストファイルの抽出~指示書の命名即に基づいたファイル生成
  • ディープラーニング時にノイズとなるデータの除去
  • ツールによる最終確認
  • テキストデータとリストの納品
使用ツール・技術
  • Notepad++(編集エディタ)
  • Microsoft Excel(データ一覧作成)
  • Network Kanji Filter(UTF-8のBOM一括削除)
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他
  • 納品後のプロセス(形態素解析)を意識した、文字コードや改行コードによるテキストデータの作成。
  • 日本語コンテンツにもかかわらず、除去が必要なノイズデータをパターン化し、フィリピン人オペレータによりリーズナブルに実施。
  • 最終チェックは日本人により実施。
価格・費用 お問合せください

テキストマイニング用教師データ作成(英文読解による、指定フラグの付与)

概要 英文テキスト情報のデータセットに対して、英文中に含まれる複合語を含んだ単語が、指定する特定のカテゴリーに属するか否かを、英文読解を行った上で判別し、指定フラグを付与するアノテーション作業により教師データを作成。5名で同一作業を実施する事によりアノテーション品質の均一化を実現。
ボリューム 英文3,600文
使用ツール・技術 英語、Microsoft Excel
作業場所 セブITアウトソーシングセンター(フィリピンの自社オフショア拠点)
その他 お客様の希望により、5名で同一作業を実施することで、アノテーション品質の均一化を実現。
価格・費用 お問合せください

上記は一般的なテキストマイニング用AIシステムの教師データ作成(アノテーション)サービスの事例となります。そのほか多数の事例がございます、詳細はお問合せください。

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービス Q&A

テキストマイニング用AIシステムの教師データ作成(アノテーション)サービスに関する次のような課題をお持ちではありませんか?

海外オフショアは、アノテーション作業の品質面で不安です。

テキストマイニング用AIシステムの教師データ作成は、自社直轄オフショア拠点であり、アノテーション作業の経験が豊富な、フィリピンのセブITアウトソーシングセンターが実施いたします。ご契約および受発注は、全て東京本社が担当致しますので、いわゆる「安かろう・悪かろう」や、突然連絡がつかなくなる・依頼した内容を投げ出される、といったリスクを有する海外ベースのオフショア企業とは異なり、日系企業の海外オフショア拠点として責任を持って作業を実施いたします。

アノテーションの仕様共有など、海外とのやり取りはタイムラグが心配なのですが。

テキストマイニング用AIシステムの教師データ作成を行う、セブITアウトソーシングセンターがあるフィリピン セブ島と日本との間には、時差がたった1時間しかありません。オンラインベースによるテレワーク全盛の中、メールやコミュニティツールのやり取りを行っていただくことで、日本国内のお客様にとって、国境や時差を意識していただく必要はございません!

急ぎの納期となるアノテーション業務でも、対応してもらえる?

自社オフショア拠点「セブITアウトソーシングセンター」は、フィリピン セブ島エリアの独立系日系ITサービス企業において最大規模となっており、リソース的にも安心してご利用いただけます。テキストマイニング用AIシステムの教師データ作成では、短期間で一気に行う事が求められる場合がありますが、常に最適な人員配置を行っておりますので、急な納品対応や業務ピークにも柔軟なヒューマン ラベリングが可能です。

英語で依頼すると、コストは安くなるでしょうか?

AIに携わるお客様の中には、英語でのコミュニケーションも普通に実施される方がおられます。そのような場合、英語による手順書のご提示や、フィリピン人アノテーションマネージャへの指示出しや、作業過程で発生するQ&Aなどを実施頂くと、日本人コミュニケータのコストが不要となりますので、大変リーズナブルな形でアノテーションサービスをご提供することが可能となります。

依頼するテキストデータの最低ボリューム、もしくは最低金額はありますか?

テキストデータの分量と、アノテーション作業の難易度や費用とはある程度の相関関係はありますが、作業内容次第となりますので、まずは一度お話をお伺いできればと存じます。特に英文を対象としたアノテーションの場合、想像以上に費用が下がる傾向がありますが、ご依頼内容の継続性や、現地の空き稼働状況により、アノテーションが実施可能となるキャパシティや状況も異なってきますので、ご依頼いただける発注数には特に制限は設けておりません。まずはお気軽にお問い合わせください。

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.