在加载到apache-jena TDB triplestore之前清理YAGO文件

时间:2016-09-23 15:47:12

标签: rdf jena apache-jena tdb

我想使用tdbloader将YAGO 3 rdf三元组(来自http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/的yago3_entire_ttl.7z)用于apache-jena triplestore(3.1.0)。

apache-jena提供的用于验证输入的防暴工具提供了两种类型的错误(多次出现):

  1. 非法的unicode转义序列值:\\(0x5C)
  2. IRI中的非法字符(代码点0x7C,' |')
  3. 我明显的想法是取代' \\'和' |'接受通过防暴验证的字符序列,但我想知道是否有其他解决方案?

1 个答案:

答案 0 :(得分:0)

在这里找到解决方案:

  

现在.ttl文件需要进行某种预处理,其中替换非unicode字符以便Jena接受数据。在Linux上运行sed -i' s / | / - / g' ./*&& sed -i' s / \\ / - / g' ./*&& sed -i' s / - / - / g' ./*来自.ttl文件所在的目录。在Windows上,启动Ubuntu Bash,导航到相应的目录(例如/ mnt / c / Users / Ferdinand / yago)并执行相同的命令。这将需要几分钟。我的意思是,真的有几个......

https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html