今回、テスト用に作成した「データセット定義ファイル」には下記のものがあります。
primeminister-dataset.csvはWhen.exe Ruby版内蔵の日本の首相リストを用いて、日本国首相一覧を扱うデータセットです。
japanese-holiday-index.csvはjapanese-holiday.csvを用いて、日本の祝祭日を扱うデータセットです。
参考のために添付した /test/events/make_events_ttl.rbは CSV ファイルを RDFファイル(Turtle形式)に変換するスクリプトのサンプルです。
ruby make_events_ttl.rb > japanese-holiday.ttl
のように標準出力にRDFファイル(Turtle形式)を書き出します。
shogun-dataset.csvはウィキペディアの「徳川将軍一覧」を用いて、徳川将軍一覧を扱うデータセットです。
もと情報は HTML で、正規表現マッチングによりイベント情報を抽出しています。
mori_wikichoshi.csvはウィキ町史プロジェクトの「HOWMLが作成した森町のウィキ町史データ」を用いて、森町の町史を扱うデータセットです(→LODチャレンジ2014-d072)。
もと情報は RDF/XML ですが、linkeddata gem で正しく読み込めないようなので、正規表現マッチングによりイベント情報を抽出しています。
ndl_koyomi_index.csvはndl_koyomi.csvを用いて、国会図書館デジタルライブラリの暦画像を扱います。
御堂関白記と江戸時代の仮名暦へのリンクに対応していますが、前者は国会図書館および図書館送信参加館内からアクセスした場合のみしか画像は見えません。
history-dataset.csvは中西先生からご提供いただいた「歴史データ」を扱うデータセットです。
公開許諾条件によりオープンデータではないため、実情報は Webサーバー上のローカルファイル“history-events.csv”に配置しています。
この「歴史データ」は約20年前に更新が停止しており、シソーラスなども考慮されていないため、あくまでテストデータの枠にとどまるものとお考えください (また民間人の犯罪関連の情報など、公開に適さないと判断したものは除去しています)。
キーワードの抽出は MeCab で行い、連続する名詞は連結してひとつのキーワードとしています。より精度の高い方法もあるかとは思いますが「まずはキーワードの取扱いの実装をしてみる」ということを優先しました。
今回は「グループ」の振る舞いをテストするため、イベントを日本と外国に分類しています。
中西先生の「歴史データ」の形式で私自身が追加したデータtest-history-events.csv(これは公開可能)をもとに諸々のテストをするために抽出したミニデータセットです。
test-history-dataset.csvは 空間位置のインデクス<ts:west>と<ts:east>、<ts:south>と<ts:north>を用いないデータセット定義です。
test-history-dataset-sparql.csvは test-history-events-edge.ttlを SPARQLサーバーにアップロードしておき、空間位置のインデクス<ts:west>と<ts:east>、<ts:south>と<ts:north>を用いずに扱うデータセットです。
test-history-dataset-edge.csvは 空間位置のインデクス<ts:west>と<ts:east>、<ts:south>と<ts:north>を用いるデータセット定義です。
これを用いてtest-history-events-edge.ttlを生成しました。
test-history-dataset-edge-sparql.csvは test-history-events-edge.ttlを SPARQLサーバーにアップロードしておき、空間位置のインデクス<ts:west>と<ts:east>、<ts:south>と<ts:north>を用いて扱うデータセットです。