可用于对文本进行语义分析的工具

时间:2009-11-11 19:49:42

标签: semantics semantic-web

我正在寻找代码或产品或服务来对文本(句子和/或段落)进行语义分析,以按一般主题对文本进行分类,例如:

  • 金融
  • 娱乐
  • 技术
  • 商业
  • 技术
  • 等...

4 个答案:

答案 0 :(得分:6)

如果您有一堆已经分类的示例,您可以使用它们来训练分类器。 这是一个非常简单的文档分类问题,任何一套机器学习工具都会有这方面的算法和教程。例如,查看weka:http://www.cs.waikato.ac.nz/ml/weka/

或rapidminer:http://rapid-i.com/content/blogcategory/38/69/

如果您的需求有限,并且您只需要一个简单的API,那么这个Naive Bayes库就不会出错:https://ci-bayes.dev.java.net/

祝你好运!

答案 1 :(得分:1)

如果要评估商业服务API,请查看VIKI引擎API: http://www.softwareevolution.it/en/products/viki-core-api.html

这是一个易于使用的具有特定语义特征的Json服务API。

答案 2 :(得分:0)

这会对你有什么帮助吗?

http://en.wikipedia.org/wiki/Document_classification

它不是完成的产品或服务,也不是代码,但它描述了可用于语义分析的各种算法。谷歌搜索更进一步,我相信它还没有真正离开实验室。人们主要尝试使用KNN算法,导致很酷的东西,但实际上并不是你需要的东西:

http://www.ebi.ac.uk/webservices/whatizit/info.jsf

但如果有一些软件可以按照你的要求进行,那么它就在这个列表中:

http://www.kdnuggets.com/software/text.html

例如,LPU计划,它似乎能够学习你是否足够提供教学文件。

http://www.cs.uic.edu/~liub/LPU/LPU-download.html

答案 3 :(得分:0)

如果您使用的是Python /解释语言,请查看nltk.org上优秀的NLTK框架。它有一个很好的页面和最近出版的O'Reilly书籍。

如果您使用Java和/或需要更成熟但更难掌握的框架,请尝试使用GATE