dbpedia聚光灯数据集

时间:2012-06-18 17:51:11

标签: java dbpedia spotlight-dbpedia

我从http://spotlight.dbpedia.org/download/release-0.5/dbpedia-spotlight-quickstart.zip安装了DBpedia Spotlight,并希望通过从https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Downloads下载来改进其数据集。

有人可以告诉我如何使用来自spotter lexicon和disambiguation index的数据与jar文件。

1 个答案:

答案 0 :(得分:0)

假设您已经下载并解压缩了以下文件:

wget http://spotlight.dbpedia.org/download/release-0.5/context-index-compact.tgz
tar zxvf context-index-compact.tgz
wget http://spotlight.dbpedia.org/download/release-0.4/surface_forms-Wikipedia-TitRedDis.uriThresh75.tsv.spotterDictionary.gz
gunzip surface_forms-Wikipedia-TitRedDis.uriThresh75.tsv.spotterDictionary.gz

现在您只需要更改server.properties文件以指向新提取的文件:

org.dbpedia.spotlight.index.dir = index-withSF-withTypes-compressed
org.dbpedia.spotlight.spot.dictionary = surface_forms-Wikipedia-TitRedDis.uriThresh75.tsv.spotterDictionary

如果您使用的是最大的spotter dict,则可能需要增加java堆空间 - 例如-Xmx10G在命令行中。