我正在尝试让spaCy识别文档中的某些名称和日期,并使用它们来更新另一个表单文档,但我不确定最好的解决方法。使用spaCy的entity.label_作为正则表达式的附件对解析基础文档非常有帮助,并允许我通过提取和替换相关值来一次更新几种形式。但是,对于每个基础文档,我都必须重新解析数据并重置参数。这些文档没有太多变化,因此我觉得让spaCy足够容易地识别出我正在寻找的信息应该很容易。我是NLP编程的新手,所以任何指针都将对您有所帮助。
我现在最大的问题是对大量数据的培训。我有几个.txt文件,每个文件都是几千个单词,但是用.read()打开TRAIN_DATA的文本文件并不能正确处理信息,只会输出一堆:
('\ x00t \ x00h \ x00e \ x00',``,2),('\ x00A \ x00g \ x00r \ x00e \ x00e \ x00m \ x00e \ x00n \ x00t \ x00。\ x00','' ,2),('\ x00',``,2)]
作为令牌。我可以直接输入文本,但是在编辑器中却有大量的文本墙,看来计算效率很低。是否可以一次训练大量数据,还是应该一次输入TRAIN_DATA较小的样本短语来定义实体?