应用错误收集

重写：

我有一份计算机科学相关文件。我想提取特定于域的关键字。例如JAVA，C＃，HTML，OOP，UML，Unity等。我一直在寻找类似牛津计算机词典的来源，但是他们的API还没有启动和运行。我也尝试过Webopedia的计算机科学术语，但是那个并不是包容性的和更新的（例如它不包括我的文档中的某些单词，如F＃），或者在维基百科的情况下，所有术语都没有列在一起。是否有更具包容性的来源或适当的方法来提取这些关键字？我正在使用Python和NLTK。例如，tf-idf没有帮助，因为一些特定于域的单词几乎在所有文档中都很常见，因此这些单词不会得到很高的评价。我认为如果我可以使用POS标签会有所帮助，但我不确定哪种选择最适合我的应用程序。以下面的字符串为例：

“JavaScript，JSON和AJAX中的专家级功能，以及对JQuery等JavaScript框架的深入了解 “ 在这里，我想提取这些词：['JavaScript'，'JSON'，'AJAX'，'Frameworks'，'JQuery']但是当我使用NLTK的POS标记搜索名词时，我得到'水平'，'能力'，'知识'......以及。谢谢你的帮助。

从文本文档中提取技术关键字

1 个答案: