我刚开始使用Stanford-Deepdive。 我目前面临的问题是,deepdive会将他得到的一些行解释为不完整。
Value Error: Expected 6 attributes, but found 5 in input row:
<Row()>
我已经遇到了另一个数据集的问题。在这个集合中有一些行,在文本中包含“\ n”。所以我删除了它,一切都完美无瑕。
对于我的新数据集,我将删除“\ n”,“\ t”以及任何多个空格的出现。此外,我用“EMPTY”替换任何空文本值 - 仍然是错误消失。
我需要处理其他格式错误或字符吗? 我接近这个合理的方式了吗?
答案 0 :(得分:0)
我发现了问题。它是由一个单一的TAB(\ t)条目引起的。我用一个单一的SPACE替换了它,最后它不再是一个有效的antry
因此,如果您使用某些文本进行深度搜索,则需要将包含单个SPACE的etrys视为空的。