根据python

时间:2016-05-08 22:35:29

标签: python nltk

我正在开发一个需要我使用NLTK的项目。我是python和NLTK的新手。我有简历形式的文本文件(简历)。我已经认识到它们中的唯一命名实体看起来像这样:

set([u'JIRA', u'Scalatest', u'Java', u'Scala', u'Selenium',
u'TestNG',u'San Francisco', u'San Carlos', u'Scientific', u'Software QA
Engineer Teachscape', u'WORK', u'Green Card', u'Strong', 
u'Swivl Satarii Inc', u'DNA', u'CA', u'iOS', u'TestRails', u'HPQC',
u'Jira', u'India', u'US', u'Software QA', u'Selenium TestNG', u'SQL', 
u'South San Francisco', u'QA Engineer Software'])

我有100个这样的输出。如何将上述输出分类为技能,位置和组织名称并将其存储在JSON中?我搜索了很多但找不到与此相关的许多答案。如果没有可能的方法,我想通过为每个类别创建包含所有可能单词的列表,然后循环上面的输出以检查哪个类别在其列表中具有特定单词,从而消除了很长的路要走。

0 个答案:

没有答案