应用错误收集

我正在尝试让spaCy识别文档中的某些名称和日期，并使用它们来更新另一个表单文档，但我不确定最好的解决方法。使用spaCy的entity.label_作为正则表达式的附件对解析基础文档非常有帮助，并允许我通过提取和替换相关值来一次更新几种形式。但是，对于每个基础文档，我都必须重新解析数据并重置参数。这些文档没有太多变化，因此我觉得让spaCy足够容易地识别出我正在寻找的信息应该很容易。我是NLP编程的新手，所以任何指针都将对您有所帮助。

我现在最大的问题是对大量数据的培训。我有几个.txt文件，每个文件都是几千个单词，但是用.read（）打开TRAIN_DATA的文本文件并不能正确处理信息，只会输出一堆：

（'\ x00t \ x00h \ x00e \ x00'，``，2），（'\ x00A \ x00g \ x00r \ x00e \ x00e \ x00m \ x00e \ x00n \ x00t \ x00。\ x00'，'' ，2），（'\ x00'，``，2）]

作为令牌。我可以直接输入文本，但是在编辑器中却有大量的文本墙，看来计算效率很低。是否可以一次训练大量数据，还是应该一次输入TRAIN_DATA较小的样本短语来定义实体？

如何在spaCy中创建自定义NER标签并处理大数据？

0 个答案: