我正在使用Spacy,需要一些帮助来训练以word / pdf文档中以表格格式给出的自定义实体的模型。
我能够根据ANIMAL的示例使用自定义实体对其进行训练,并且效果很好。在这种情况下,我们将在给定的文本中提供上述自定义实体的开始和结束索引。
("Horses are too tall and they pretend to care about your feelings", {
'entities': [(0, 6, 'ANIMAL')]
}),
我的问题来自表格格式:
如何给诸如ANIMAL示例之类的索引?
有人可以指导和协助吗?
答案 0 :(得分:0)
经过大量研究和文章,我找到了一种方法来传递它。
此外,您可以使用依赖项解析器算法来查找与head链接的正确值(以防某个值属于多个键)
答案 1 :(得分:0)
您还可以简单地使用pd.read_html([[在此处传递您的html]]),这将返回您可以使用的数据帧列表。
谢谢。