我有一个包含N-Quads的文件(使用schema.org词汇表),我想使用Apache Jena的命令行工具将其加载到TDB RDF存储中。我正在使用的命令是:
tdbloader --loc <rdf_store_location> <file_to_load>
但是在加载过程中,我收到了一个错误:
[line:769293,col:154]非法的unicode转义序列值:\“(0x22)
我还运行了Jena命令行工具的验证工具:
riot --validate <file_to_load>
事实上,至少有30个类似的错误/警告:
Bad IRI
路径包含一个段/../不在相对引用的开头,或者它包含一个/./这些应该被删除
有没有办法通过使用命令行工具(Jena或您了解其他工具)忽略无效的N-Quads或删除它们?
否则唯一的选择是执行脚本删除无效字符。但除了文件很大(60 GB)之外,我想这很容易出错。