text - 文本挖掘库或语言库？

时间：2010-01-20 19:25:13

标签： text data-mining text-mining

我从我拥有的论坛中收集了大量数据，并希望进行一些文本挖掘或使用一些语言库来提取有用的信息。

任何语言的任何文本挖掘，数据挖掘库都可以。

谢谢。

答案 0 :(得分：4)

我建议你a look at R。它有大量的文本挖掘包：have a look at the Natural Language Processing view。特别是，请查看tm包。以下是一些相关链接：

关于统计计算期刊中包装的论文： http://www.jstatsoft.org/v25/i05/paper。本文包含了一个很好的R-devel分析实例 2006年邮件列表（https://stat.ethz.ch/pipermail/r-devel/）新闻组发布。
套餐主页：http://cran.r-project.org/web/packages/tm/index.html
看一下介绍性小插图：http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

另一个有用的包的例子是Gary King's readme package。

答案 1 :(得分：2)

您可能希望看一下Python NLTK（自然语言工具包）：它是专门为此类设计的。

你可以使用great book来帮助你入门。

答案 2 :(得分：0)

Mallet是一个专为文本挖掘而设计的java库。一旦您预处理了文本数据，像Weka这样的通用数据挖掘工具也可以满足您的任务。

如果您有权访问SPSS或SAS，他们的产品应该更容易使用。

答案 3 :(得分：0)

尝试GATE，它有GUI，当然你可以使用java api获得更多功能： http://gate.ac.uk/family/developer.html

您还可以使用Weka处理文本和进行文本挖掘，看看这些有用的讲座： http://sentimentmining.net/weka/

答案 4 :(得分：0)

stanford core-nlp适用于英文文本，并且具有命名实体识别等功能。看看：http://nlp.stanford.edu/software/corenlp.shtml

Ehsan已经推荐的GATE也很好，但是如果你需要编写自己的组件，它可能会有点复杂。对于大型的东西，它很棒。

UIMA与GATE类似，但不是那么容易使用，因为它没有像GATE那样广泛的GUI。（http://uima.apache.org）

答案 5 :(得分：0)

我建议使用以下Python库：

注意：在进行任何文本分析之前，应根据您的要求清除数据