メタデータは、タグ情報とも言われ、また「データのデータ」と言われることもあり、主にデータ検索システムにおいて、対象データの内容を記載したデータのことを指します。
分かりやすい例が、画像・動画・音声といったマルチメディアデータを検索するシステムを考えてみると、データ自体を検索するための手がかりとして、データの要約情報(ファイル名・作成日・作成者・特徴・用途など)をセットで管理しておくと、要約情報を検索することで目的のデータにたどりつけます。
この要約情報ですが、対象となるデータ自体が全て一定のものといった形で固定化されていれば、要約情報自体も自ずと固定化されるため単純ですが、えてして対象データが一定ではない場合がよくあります。例えば後から「更新日・検索日・ファイルサイズ」といった要約情報がどんどん増えていく場合です。皆さんの日常生活では、今まで定価で販売されていた洋服がバーゲンセールでプライスタグに上から赤で新しい価格が書かれた、といったシーンが近いでしょうか。
紙のタグであれば単に上からボールペンで赤書きすれば良いですが、データ管理の観点ではそうはいきません。「変化に対応していない」システムでは、タグ情報(メタデータ)の構造変更に追随する形で、システム側でも何らかの変更が必要(=コストが発生)となります。
メタデータの一つ一つの大きさには特に定義は無く、付随する情報は商品タグのように短いものから、関連キーワードや要約されたドキュメント情報も含む書誌情報といった、ある程度のボリュームが求められるものまで様々ですが、共通して言えることは「いかにして検索しやすくするか」という目的が存在することです。
さらに、検索対象となるドキュメントや、画像・動画・音声といったマルチメディアデータは、たいていの場合増加する一方のはずですが、システムを利用すればするほど、当初想定されていたメタデータの構造だけでは不足することが一般的です。すなわち、検索対象データが増加すればするほど、対象データにたどりつきにくくなる現象が発生します。
つまり、メタデータやタグ情報には、後からデータ構造を変更できる「柔軟性」、すなわち、メタデータの特性として、可変長であることが求められるケースが多い、ということが言えます。
XML(eXtensible Markup Language)は、現在はドキュメントデータのデファクトスタンダードとなっていますが、裏を返せば、表形式で数値情報を管理する用途ではなく、ドキュメントのフォーマットとして誕生したからこそ、非定型・半定型のデータ構造(可変長データ)を持つ、高い柔軟性を持ったデータフォーマットとなります。CSVのような定型データ(固定長データ)とは異なり、メタデータやタグ情報に求められる「高い柔軟性」というニーズにぴったりマッチします。
検索対象となるデータの増加数と、XMLデータで準備されたメタデータやタグ情報の増加数は比例関係にあり、同じ数だけ増加してゆくため、増えれば増えるほど、大量のXMLデータを検索するためには何らかの高性能な検索エンジンが必要となります。
そのような場合の解決策として、サイバーテックが提供する、国内シェアNo.1のXMLデータベース「NeoCore」によるXpath・Xqueryによるクエリ検索が威力を発揮します。目当てのメタデータやタグ情報を様々な条件設定により高速検索できるため、それらに紐づく検索対象データもすぐに探し出すことができます。
また、ルールベースのAIやディープラーニングで求められる大量のタグ情報をXMLデータで保有しておき、XML DBで一括管理しておくと、チューニングの過程でバッチ処理によるタグ情報の変更や、特定のメタデータに絞ったデータ変更なども行いやすくなります。これは、修正を前提としないアノテーション(タグ付け)処理ではなく、その後のチューニングも見据えたアノテーション業務を実現することが可能となります。
このように、ドキュメントやマルチメディアデータの検索用途から、イマドキのAIで求められる学習データまで、大量のメタデータやタグ情報のハンドリングには固定長データの検索が得意なRDBではなく、可変長データの検索が得意なXML DBが活躍します。
御相談、ご質問はこちら |
サービスご案内資料や、特別資料「マニュアル作成の効率化とコストダウンを実現するポイントとは? 」がダウンロードできます。 |
最新事例の公開情報や、イベント・セミナー情報をお届けします。 |