标签: nlp spacy
我正在尝试从一些文档中删除个人信息,其中有大约<百万个培训样本。
我打算训练自己的模型,但我不知道这是否足够样本来有效训练模型。
Currently I am using the approach laid out in this blog来编辑信息,但由于我正在使用医疗数据,因此它会拾取很多误报,例如毒品和医院。