我正在网页上进行一些文本挖掘。目前我正在使用Java,但也许有更合适的语言可以做我想要的。
我想要做的一些事情的例子:
根据字母的部分(字母,数字,符号等)确定单词的字符类型为字母,数字,字母数字,符号等(有更多类型)。
根据统计数据发现停用词。
根据统计数据和一些逻辑发现一些语法类(动词,名词,介词,联合)。
我正在考虑使用Prolog和R(我对这些语言知之甚少),但我不知道它们是否适合这种情况,或者可能是另一种语言更合适。
我可以使用哪种?也欢迎Java的优秀文库。
答案 0 :(得分:4)
蟒! 他们在这个区域有一个HELL-LOTTA图书馆。
但是,我对prologue和R ......一无所知,但是在文本挖掘和人工智能方面,py肯定比java好多了......
答案 1 :(得分:3)
答案 2 :(得分:1)
我认为Apache Solr和Nutch为您提供了框架,并且您可以根据自己的需求进行扩展。
Java有一些基本的支持,但没有像上面两个产品那样,它们真棒!
答案 3 :(得分:0)
HTML Unit可能会为您提供一些很好的API来获取网页,并通过XPath遍历DOM中的元素。我已经用它来执行简单到更复杂的操作。