为(stanford)Deepdive准备数据(ValueError)

时间:2017-09-28 08:25:05

标签: postgresql nlp special-characters stanford-nlp

我刚开始使用Stanford-Deepdive。 我目前面临的问题是,deepdive会将他得到的一些行解释为不完整。

Value Error: Expected 6 attributes, but found 5 in input row:
<Row()>

我已经遇到了另一个数据集的问题。在这个集合中有一些行,在文本中包含“\ n”。所以我删除了它,一切都完美无瑕。

对于我的新数据集,我将删除“\ n”,“\ t”以及任何多个空格的出现。此外,我用“EMPTY”替换任何空文本值 - 仍然是错误消失。

我需要处理其他格式错误或字符吗? 我接近这个合理的方式了吗?

1 个答案:

答案 0 :(得分:0)

我发现了问题。它是由一个单一的TAB(\ t)条目引起的。我用一个单一的SPACE替换了它,最后它不再是一个有效的antry

因此,如果您使用某些文本进行深度搜索,则需要将包含单个SPACE的etrys视为空的。