我正在使用Freebase dump data来使用RDF并将其与annotation ClueWeb09 data结合使用。但是,我面临以下问题:
clueweb09-en0000-00-00011 ISO-8859-1英语17964 17980 0.999813 0.000165 / m / 02h40lc
但是,当我用(Java& Ubuntu)读取Freebase转储数据时,当我读取gz文件时,会提到mid /m.02h40lc 。我想知道我做错了或者我应该手动将 /m.02h40lc 更改为 / m / 02h40lc 。
答案 0 :(得分:0)
是的,在使用当前数据转储时,您需要用句点(。)替换标识符中的所有斜杠(/)。这种转换对于使包含标识符的URI正常工作是必要的。这不仅适用于MID,也适用于类型,名称空间等的其他标识符。例如,类型/ object / name在数据转储中变为type.object.name。