我想将Dbpedia数据集索引到SOLR中。
一切都很好,但我希望所有“类型”都不是最后一个“类型”。 有没有办法用DIH更新Solr?我不是指Delta-import
更多解释:
<field column="rawLine"
regex="THE SAMPLE REGEX"
groupNames="uri,types,prettyTypes" />
以上配置得到每一行,然后用该正则表达式处理,最后(uri,types,prettyTypes)填充适当的数据。但是例如对于“Alabama”,我们在Dbpedia的数据集中有6行:
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/AdministrativeRegion> .
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/AdministrativeArea> .
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/PopulatedPlace> .
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Place> .
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Place> .
<http://dbpedia.org/resource/Alabama> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2002/07/owl#Thing> .
现在用DIH处理这6行之后,只有1个带有(Alabama,owl#Thing)数据的文档,其他5个类型将被删除。