誰でも分かるXMLデータベースの世界について

ご存知でしたか?ビジネスデータの管理術、実はXMLに秘密がありました。

まずはデータの分類からご説明いたします。

私たちはビジネスを円滑に進めるために、さまざまな形式のデータを作成し、利用しています。そのため、ビジネスデータは世の中に無数に存在し、常に増え続けています。一度作成したデータはバラバラに保管するのではなく、整理し蓄積することで、ノウハウとして私たちの業務の効率化に役立てることができます。

また、情報の共有や再利用なども可能となり、すでに持っている資源を最大限に活用することが可能となります。ビジネスデータを管理する方法は特性に応じていろいろとありますが、大別すると以下の3つに分類することが出来ます。

ビジネスデータの分類

定型データ

一つ目は、「定型データ」と呼ばれる、CSVや、Excelのように表形式で管理することが望ましいデータです。例えば個人情報を管理する際の、生年月日・性別・血液型・出身地など、基本データとしてすべての人が持ち、且つ項目が変化しないデータがこれに当てはまります。

また、あらかじめ決められたデータの形式通りにデータを入力していく必要があり、融通が利かないのが特徴です。これらは、一般的にRDBを用いて管理されることが多いデータの形式です。

非定型データ

二つ目は「非定型データ」と呼ばれ、主にフォーマットに囚われない自由文書や図などであり、例えば、報告書や日報、PowerPointの資料がこれらに当たります。また、画像や映像などのデータもこれに含まれます。これらのデータは、一般的に検索エンジンを用いて、閲覧目的のデータとして、再利用されることが多いデータの形式です。

半定型データ

最後は、以上二つのデータの特性をあわせ持った「半定型データ」と呼ばれるデータです。ビジネスデータには、一定の規則にしたがってまとめられているようで、実は不規則なデータが数多く存在していますが、これは、「定型データ」と「非定型データ」の特性が混在しているものです。

例えば、以下のように健康診断のデータでは、名前や性別・身長・体重などはすべての人にとって必要とされるデータですが、心電図や血液検査は個人によって検査を実施したり、しなかったりするので、それぞれのデータは「定型部分」と「非定型部分」を併せ持つ「半定型データ」であると言えます。

例: Aさん 男性 Bさん 男性 Cさん 女性
全員受診 身長、体重、視力 身長、体重、視力 身長、体重、視力
個人受診 心電図、血液検査、歯科 心電図、X線検査 婦人科、血液検査

またメタデータと呼ばれる、データのためのデータ(作成日時や作成者、データ形式、タイトル、注釈)など、これらの「半定型データ」は高い柔軟性が求められるため、一般的にXML(Extensible Markup Language:拡張可能なマークアップ言語)を用いることが多くなっています。

※XMLとは?

近年、データ活用などで注目されているXML。これは、マークアップ言語と呼ばれ、タグ(< >)を利用してデータそのものに意味を持たせる技術の一つです。

例えば、コンピュータは、「りんご」「トマト」「うさぎ」のような単語はすべて文字の組み合わせとしか認識することが出来ません。ここでこれらのデータにタグをつけて、それぞれに属性をあたえます。すると、コンピュータは先ほどの単語につけたタグを読み込み、データをタグごとに認識することができます。ただし、コンピュータはタグの意味を理解しているのではなく、タグとデータの関連付けを認識するので、データの意味を理解することができるようになります。また、タグを読むことでXMLデータは人間が見てもデータの属性を理解することがしやすくなっています。

さらに大きな特徴として、柔軟性にも優れており、タグとデータの組み合わせが一緒であれば、データの順序に左右されず、そのデータが何を意味しているのかを読み取ることができます。また、今まで無かった項目のデータを追加したい場合も、タグを付けられたデータであれば、容易に追加することが出来ます。

例:①XMLデータは順序を変更してもデータの意味は変わりません。

<果物>りんご</果物>   ⇒   <野菜>トマト</野菜>
<野菜>トマト</野菜>       <動物>うさぎ</動物>
<動物>うさぎ</動物>       <果物>りんご</果物>

例:②柔軟な項目追加が可能です。

<果物>りんご</果物>   ⇒   <果物>りんご</果物>
<野菜>トマト</野菜>       <野菜>トマト</野菜>
<動物>うさぎ</動物>       <昆虫>バッタ</昆虫>

このようなXMLの技術は着々と世の中に広まっています。

例えば、ブログで書いた文章はRSSと呼ばれるフォーマットにて配信されますが、実はこのフォーマットはXMLデータなのです。また、Microsoft Office2007ではWordやExcel、PowerPointなどのドキュメントを保存する際、デフォルトでXML形式の格納ができるようになりました。

ビジネスデータの世界

データ形式の割合
データ形式ごとの得意分野

現在RDBで管理されている「定型データ」は、すべてのビジネスデータのおよそ2割程度です。残りの8割は、RDBで管理することが難しく、XMLデータベースや検索エンジンを使って管理することが最適なデータです。企業では、既存のデータを有効活用することが出来ずに、現状は手付かずのままとなっているのが現状です。つまり、ビジネスデータの多くは宝の持ち腐れ状態になっているのです。

次回は「半定型データ」を管理するのに最適なXMLデータベースの世界についてさらに詳しくお話します。

「誰でも分かるXMLデータベースの世界について」 
XML DBの情報サイト「XMLDB.JP」より転載
URL:https://www.xmldb.jp/

御相談、ご質問はこちら

サービスご案内資料や、特別資料「マニュアル作成の効率化とコストダウンを実現するポイントとは? 」がダウンロードできます。

最新事例の公開情報や、イベント・セミナー情報をお届けします。

pagetop ボタン
サイバーテックお知らせ画像
©2003 CyberTech corporation ltd. All Rights Reserved.