我正在寻找代码或产品或服务来对文本(句子和/或段落)进行语义分析,以按一般主题对文本进行分类,例如:
答案 0 :(得分:6)
如果您有一堆已经分类的示例,您可以使用它们来训练分类器。 这是一个非常简单的文档分类问题,任何一套机器学习工具都会有这方面的算法和教程。例如,查看weka:http://www.cs.waikato.ac.nz/ml/weka/
或rapidminer:http://rapid-i.com/content/blogcategory/38/69/
如果您的需求有限,并且您只需要一个简单的API,那么这个Naive Bayes库就不会出错:https://ci-bayes.dev.java.net/
祝你好运!答案 1 :(得分:1)
如果要评估商业服务API,请查看VIKI引擎API: http://www.softwareevolution.it/en/products/viki-core-api.html
这是一个易于使用的具有特定语义特征的Json服务API。
答案 2 :(得分:0)
这会对你有什么帮助吗?
http://en.wikipedia.org/wiki/Document_classification
它不是完成的产品或服务,也不是代码,但它描述了可用于语义分析的各种算法。谷歌搜索更进一步,我相信它还没有真正离开实验室。人们主要尝试使用KNN算法,导致很酷的东西,但实际上并不是你需要的东西:
http://www.ebi.ac.uk/webservices/whatizit/info.jsf
但如果有一些软件可以按照你的要求进行,那么它就在这个列表中:
http://www.kdnuggets.com/software/text.html
例如,LPU计划,它似乎能够学习你是否足够提供教学文件。
答案 3 :(得分:0)
如果您使用的是Python /解释语言,请查看nltk.org上优秀的NLTK框架。它有一个很好的页面和最近出版的O'Reilly书籍。
如果您使用Java和/或需要更成熟但更难掌握的框架,请尝试使用GATE。