使用spacy的表格数据

时间:2018-10-16 13:22:42

标签: nlp spacy ner

我正在使用Spacy,需要一些帮助来训练以word / pdf文档中以表格格式给出的自定义实体的模型。

我能够根据ANIMAL的示例使用自定义实体对其进行训练,并且效果很好。在这种情况下,我们将在给定的文本中提供上述自定义实体的开始和结束索引。

("Horses are too tall and they pretend to care about your feelings", {
    'entities': [(0, 6, 'ANIMAL')]
}),

我的问题来自表格格式:
如何给诸如ANIMAL示例之类的索引?
有人可以指导和协助吗?

enter image description here

2 个答案:

答案 0 :(得分:0)

经过大量研究和文章,我找到了一种方法来传递它。

  1. 将此表转换为文本。
  2. 将其转换为文本时。这将添加很多空白等。
  3. 用空格替换它们。
  4. 这会将您的表格转换为段落。
  5. 现在您可以将索引作为句子给出,并训练模型。

此外,您可以使用依赖项解析器算法来查找与head链接的正确值(以防某个值属于多个键)

答案 1 :(得分:0)

您还可以简单地使用pd.read_html([[在此处传递您的html]]),这将返回您可以使用的数据帧列表。

谢谢。