从文本文档中提取技术关键字

时间:2014-01-27 01:01:08

标签: nltk glossary keyword-search pos-tagger

重写:

我有一份计算机科学相关文件。我想提取特定于域的关键字。例如JAVA,C#,HTML,OOP,UML,Unity等。我一直在寻找类似牛津计算机词典的来源,但是他们的API还没有启动和运行。我也尝试过Webopedia的计算机科学术语,但是那个并不是包容性的和更新的(例如它不包括我的文档中的某些单词,如F#),或者在维基百科的情况下,所有术语都没有列在一起。是否有更具包容性的来源或适当的方法来提取这些关键字?我正在使用Python和NLTK。例如,tf-idf没有帮助,因为一些特定于域的单词几乎在所有文档中都很常见,因此这些单词不会得到很高的评价。我认为如果我可以使用POS标签会有所帮助,但我不确定哪种选择最适合我的应用程序。以下面的字符串为例:

“JavaScript,JSON和AJAX中的专家级功能,以及对JQuery等JavaScript框架的深入了解 “ 在这里,我想提取这些词:['JavaScript','JSON','AJAX','Frameworks','JQuery']但是当我使用NLTK的POS标记搜索名词时,我得到'水平','能力','知识'......以及。 谢谢你的帮助。

1 个答案:

答案 0 :(得分:5)

为什么不下载StackOverflow数据转储并编写程序来过滤标记?

它们刚刚在archive.org上发布,请参阅here

当然,它不包括所有条款,并且会有一些误报,但我认为这与您将得到的一样接近。