结合词汇列表中的短语Python3

时间:2017-07-24 19:49:17

标签: python-3.x match-phrase

尽我所能从大量pdf文件中获取信息。让它们以字典格式存在,其中键是给定日期,值是职业列表。

正确时,

看起来像这样:

'12/29/2014': [['COUNSELING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING']]

然而,偶尔会有一些单词形式无法可靠理解的职业,例如:

'11/03/2014': [['DENTISTRY',
                 'OSTEOPATHIC',
                 'MEDICINE',
                 'SURGERY',
                 'SOCIAL',
                 'SPEECH-LANGUAGE',
                 'PATHOLOGY']]

请注意,“整骨疗法和手术”和“语言病理学”是其中两个条目的全文。当我们也有“整骨疗法”甚至“药物”的例子时,这会变得更加毛茸茸。

所以我的问题是 - 我应该如何测试这些单词的组合,看看它们是否符合更复杂的职业标题?我可以使用相同的单词顺序,因为我从源头维护了这个顺序。

谢谢!

0 个答案:

没有答案