可以为文本挖掘/解析推荐什么语言?

时间:2011-10-25 18:32:10

标签: java r prolog nlp text-mining

我正在网页上进行一些文本挖掘。目前我正在使用Java,但也许有更合适的语言可以做我想要的。

我想要做的一些事情的例子:

根据字母的部分(字母,数字,符号等)确定单词的字符类型为字母,数字,字母数字,符号等(有更多类型)。

根据统计数据发现停用词。

根据统计数据和一些逻辑发现一些语法类(动词,名词,介词,联合)。

我正在考虑使用Prolog和R(我对这些语言知之甚少),但我不知道它们是否适合这种情况,或者可能是另一种语言更合适。

我可以使用哪种?也欢迎Java的优秀文库。

4 个答案:

答案 0 :(得分:4)

蟒! 他们在这个区域有一个HELL-LOTTA图书馆。

但是,我对prologue和R ......一无所知,但是在文本挖掘和人工智能方面,py肯定比java好多了......

答案 1 :(得分:3)

我强烈推荐Perl。它有很多文本处理功能,网络搜索和解析,以及大型等。在growing查看可用模块(> 23.000和CPAN)。

答案 2 :(得分:1)

我认为Apache Solr和Nutch为您提供了框架,并且您可以根据自己的需求进行扩展。

Java有一些基本的支持,但没有像上面两个产品那样,它们真棒!

答案 3 :(得分:0)

HTML Unit可能会为您提供一些很好的API来获取网页,并通过XPath遍历DOM中的元素。我已经用它来执行简单到更复杂的操作。