英文テキストへのアノテーション(属性情報付与)~自然言語処理によるテキスト意図抽出システムのテストデータ作成

ITアウトソーシング事例

英文テキストへのアノテーション(属性情報の付与)~自然言語処理によるテキスト意図抽出システムのテストデータ作成

国立研究開発法人B

物質・材料科学技術に関する基礎研究を行う国立研究開発法人Bでは、大量の英文書籍から個々の研究者による手作業情報抽出を行っていたが、広範囲の大量な書物の処理が困難であるため、専門家の代わりにコンピュータが情報抽出を行うシステムが構築された。新システムの精度を評価するために、ネイティブレベルの英語力を有するオフショア拠点である、セブITアウトソーシングセンターによるアノテーションサービスでテキスト情報のテストデータ作成を行った。

アノテーション(属性付与)が求められた背景~専門分野の英単語が含まれるかどうか

システムの精度検証のため、テキスト情報で同一フォーマットのテストデータが必要

国立研究開発法人Bでは、広範囲な専門分野の英文文書から研究者による手作業の情報抽出に代わり、精度の高い定量的な関係性を有する英文の抽出や探索を行うシステムを構築していた。システムの精度がどの程度であるかという検証には、コンピュータが実際に書籍から抽出した情報と、全く専門知識を有しない一般人が判断し、付与した情報を比較し、コンピュータ側がどれぐらい専門家に近い形で情報抽出が出来ているかを確認する必要があった。

対象となる書籍は英文である。そのため、大学卒業程度、あるいは英字新聞の社説が普通に読める程度のネイティブレベルの英語力を持ち、かつ、その専門分野を専攻していない一般人が、コンピュータが判断したものと同様の英文を一文ずつ読み進め、専門分野の英単語が対象となる英文に含まれているかどうかを判断した結果と比較することで、システムの精度検証を行うことが可能となる。

テキストの意図抽出アノテーション~英文テキストから属性情報を識別する際の課題

ネイティブレベルの英語力を有し、ITオペレーションも可能な一般人が必要

国立研究開発法人Bには専門分野に長けている研究員しかいない。そのため、開発したシステムが専門家に近い形で情報抽出することができる、と断定するためには、開発したシステムと同様の作業をネイティブレベルの英語力を有した、かつ専門分野ではない人が行い、制度に差が出るかどうかという性能比較を行う必要があった。

比較対象を行うための検証用英文データは、システムによる情報抽出と同様の出力形式で用意される。それらの英文を読んだ上で専門分野の英単語かどうかを判断したのち、対象となる英単語に人手により属性情報の付与(アノテーション)を行う作業を実施する必要がある。加えて、対象となる書籍が英文であるため、ネイティブ程度の英語能力を有し、かつ、専門分野を専攻していないがITオペレーションは実施可能という一般人が行った作業結果と比較する必要があるが、国立研究開発法人Bではそのような人員をリーズナブルに確保することが困難となっていた。

サイバーテックを選定した理由~ネイティブレベルの英語力がリーズナブルに

ネイティブ程度の英語力を有し、かつリーズナブルな企業にアノテーションを委託

英文へのアノテーションに求められるのは、ネイティブレベルの英語力とリーズナブルなコストとなる。国立研究開発法人Bでは、システムによるテスト結果と同様のテストデータを人力で作成するために、ネイティブレベルの英語力を有しており、ITオペレーションのスキルを有しながら専門家ではない作業員を複数有した上で、リーズナブルに実施することが可能となる企業を探していた。インターネットによる検索により、英語圏のフィリピン セブ島に有する自社オフショア拠点にて、ラボ型オフショア開発をはじめ、ITアウトソーシングや英語サポートを実施しているサイバーテックを見つけ、すぐに今回のアノテーション業務のアウトソーシングを打診した。

サイバーテックでは、フィリピン セブ島に有する自社オフショア拠点である「セブITアウトソーシングセンター」で、オフショア開発やAI向けのアノテーションサービス「セブアノ」を直接雇用の正社員にて実施している。今回は数千センテンスの英文を一人の担当者で読解し、指定された数千の英単語に即した属性情報を英文に付与するアノテーションとなるが、専門性の高い英文であるため、意味が分からない場合は、調べずに推測ベースで英文に対して属性情報を付与する形となる。

サイバーテック セブITアウトソーシングセンターが提供するアノテーションサービスを選定したポイントは、ネイティブレベルの英語力を有しており、専門分野を専攻していないがITオペレーションのスキルを有する作業者が複数名在籍するといった理由だけではなく、大量のデータセットを処理するアノテーションに重要となるリーズナブルに実施出来るという点も大きかった。

英文のテキスト意図抽出~自然言語処理システムの評価データをアノテーションで

数千センテンスの英文を読み、2か月でアノテーション(属性情報の付与)を実施

アノテーションプロジェクトの流れは、お客様から属性情報の識別ルールを提示頂いたあとは、納品物に関して最終チェックを行って頂く形となった。セブITアウトソーシングセンターのITオペレータは、数千センテンスの英文を読みながら、指定された数千の英単語が専門分野に該当する英単語であるか否かを識別していき、判断結果をExcelに入力していく作業を一人のオペレータで行う。同様の作業を複数名のオペレータが実施することにより、人数分の識別結果を納品した。

セブITアウトソーシングセンターでは、オペレータが属性情報の識別ルールを理解するまでに多少の時間は必要だったが、ルールを理解してからはスムーズに作業に取り掛かることができた。ベースとなる書籍から抽出された数千センテンスの英文は、長いものでは数行にもなり、ネイティブレベルの英語力は必要不可欠であった。また、英文はコンピュータにより機械的に抽出されたものであるため、英文の中に識別しなければならない英単語が存在しないといった場合や、X-rayとXrayなどのハイフンの有無といったゆらぎ、ChildとChildrenといった複数形と単数形の誤りなどの処理に不備が発生していた。これらを柔軟に対応し、無事複数名分のアノテーション済データを納品することができた。

英文を読解し、属性情報を識別して付与するアノテーション~効果とその後の展開

英文を対象としたアノテーションは、低コスト・高品質で実施できるサイバーテックで

国立研究開発法人Bではこの知識データベースで関係性を抽出し、それらをデータベース化して,探索するシステムへの拡張も考えられているという。実現に向けては,コンピュータがベースとなる書籍をどれぐらい専門家に近い形で情報抽出できるかにかかっている。同様の考え方による、専門知識を有しない作業員が行う属性情報の付与により評価データを作成する手法は、他の研究分野でも考えられる。
いずれにしてもキーワードは、

  • ネイティブレベルの英語力を有するITオペレータが複数在籍している
  • 大量の英文読解~識別が人海戦術で可能である
  • 低価格かつ高い品質で納品することができる

が実現出来る事にある。国立研究開発法人Bにおける他の研究においても、サイバーテックのセブITアウトソーシングセンターによるアノテーションサービス「セブアノ」は必要不可欠な存在となっている。

御相談、ご質問はこちら

サービスご案内資料や、特別資料「神は細部に宿る~アノテーションを駆使したAIシステムの精度向上」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2018 CyberTech corporation ltd. All Rights Reserved.