正義と微笑

numb_86のブログ

5つ星オープンデータ・LOD・RDF

f:id:numb_86:20160823235101p:plain

主に国や地方公共団体が、自らが持っているデータをオープンなライセンスで公開すること、あるいはそのデータそのものを、オープンデータと呼ぶ。
オープンデータを推進することで、行政の透明化や公共サービスの向上、産業の振興などにつながると、期待されている。

オープンデータを実行していくうえで大切なのは、機械判読が可能な形でデータを公開することである。
プログラムによる利用や処理が行い易い、というのがオープンデータにとって重要である。
例えばPDFファイルは、人間が読むうえでは問題ないが、プログラムから扱うには困難が伴う。

公共団体による民間へのデータの公開はこれまでも行われてきたが、その多くは、人間による閲覧を前提としており、プログラムからのアクセスは想定していないと思われる。
オープンデータを推進し、さらにそれを効果的に活用していくためには、利用しやすい形式でのデータ公開が不可欠である。

5つ星オープンデータ

オープンデータとしての良否、利用しやすさを示す指標として、5つ星オープンデータというものがある。
ティム・バーナーズ=リーが提唱している概念で、オープンデータを、そのデータ形式によって5段階にランク付けする。
星が多いほど、オープンデータとしてふさわしい、望ましい、ということになる。
なお、あくまでもデータ形式についての指標であり、データそのものの質をランク付けするものではない。

形式を問わず、とにかくオープンなライセンスでデータを公開すれば、☆を1つ獲得できる。具体例としては、PDFファイル。

☆☆

☆の条件に加え、構造化されたデータとして公開すること。そうすれば、機械で扱いやすくなる。具体例としては、Excelファイル。

☆☆☆

☆☆の条件に加え、オープンなフォーマットで、データを公開すること。つまり、Excelファイルなどではなく、XMLJSON形式で公開すれば、☆3つとなる。

ここまでくれば、かなりプログラムで扱いやすいデータになっている。
ここから先は、機械判読ではなくLinked Dataというものが基準になっていく。Linked Dataについては後述する。

☆☆☆☆

☆☆☆の条件に加え、データをURIで示すこと。そうすることで、URIがデータの識別子として機能するし、他の場所からデータにリンクすることも可能になる。このようなデータファイルは、RDFという形式で表現するのが一般的。

☆☆☆☆☆

☆☆☆☆の条件に加え、関連する他のデータへのリンクを張る。そうすることで、データ間のネットワークが生まれ、データとしての価値が増し、利便性も向上する。

Linked Data

Linked Dataとは、その名の通り、互いにリンクされたデータのこと。あるいは、それを実現するための手法や方法論のこと。
「データのウェブ」が、その目指すところだとされる。ウェブのように、全体で一つのネットワークを構築することが目的。
そうすることで、データとしての有用性や再利用性が高まり、データの価値が増す。ウェブも、全世界がつながった単一のネットワークだからこそ、大きな力や価値を持った。

バーナーズ=リーはLinked Dataについて、以下の4つがその条件だとしている。

  1. 事物の名前としてURIを用いること
  2. これらの名前を参照できるように、HTTP URIを用いること
  3. URIを参照したときに、RDFやSPARQLのような標準技術を用いて、有用な情報を提供できるようにすること
  4. さらに多くの事物を発見できるように、他のURIへのリンクを含むこと

使う・つなげる:国立国会図書館のLinked Open Data (LOD) とは

そして、このようなLinked Dataをオープンにしたものが、Linked Open Data(LOD)である。
データをLODにすることが、5つ星オープンデータの理想だと言える。

1つ星で、まずライセンスをオープンなものにする。
さらに2つ星と3つ星で、フォーマットもオープンなものにする。
そして最後に、4つ星と5つ星で、そのオープンなデータを、Linked Dataに変えていく。

RDF

Linked Dataを実現するための方法が、RDFである。
RDFという形式によって、Linked Dataは表現される。

だがRDFは、あくまでもデータモデルであり、具体的な実装方法は別にある。
XML形式のRDF/XMLJSON形式のJSON-LDなど複数の種類があるが、優劣はなく、どれを使っても同等のRDFを記述できる。

参考資料