尽我所能从大量pdf文件中获取信息。让它们以字典格式存在,其中键是给定日期,值是职业列表。
正确时,看起来像这样:
'12/29/2014': [['COUNSELING',
'NURSING',
'NURSING',
'NURSING',
'NURSING',
'NURSING']]
然而,偶尔会有一些单词形式无法可靠理解的职业,例如:
'11/03/2014': [['DENTISTRY',
'OSTEOPATHIC',
'MEDICINE',
'SURGERY',
'SOCIAL',
'SPEECH-LANGUAGE',
'PATHOLOGY']]
请注意,“整骨疗法和手术”和“语言病理学”是其中两个条目的全文。当我们也有“整骨疗法”甚至“药物”的例子时,这会变得更加毛茸茸。
所以我的问题是 - 我应该如何测试这些单词的组合,看看它们是否符合更复杂的职业标题?我可以使用相同的单词顺序,因为我从源头维护了这个顺序。
谢谢!