从成绩单中提取公司名称

时间:2019-06-14 16:41:11

标签: python regex nlp nltk

我希望解析许多pdf文件,而这些文件都没有标准化格式,以便吸引本文中提到的每家公司。

目前,我每个人都有一个字,还有一个上市公司的数据框。我的第一个幼稚解决方案是遍历每个单词,看看它是否对应于数据框中的公司。

这带来了两个问题:

  1. 用通用公司名称(例如,Hello等)过度匹配常用词
  2. 与公司的非正式名称不匹配(即Amazon!= Amazon Inc。)

任何见识将不胜感激!

0 个答案:

没有答案