我从我拥有的论坛中收集了大量数据,并希望进行一些文本挖掘或使用一些语言库来提取有用的信息。
任何语言的任何文本挖掘,数据挖掘库都可以。
谢谢。
答案 0 :(得分:4)
我建议你a look at R。它有大量的文本挖掘包:have a look at the Natural Language Processing view。特别是,请查看tm
包。以下是一些相关链接:
另一个有用的包的例子是Gary King's readme package。
答案 1 :(得分:2)
您可能希望看一下Python NLTK(自然语言工具包):它是专门为此类设计的。
你可以使用great book来帮助你入门。
答案 2 :(得分:0)
答案 3 :(得分:0)
尝试GATE,它有GUI,当然你可以使用java api获得更多功能: http://gate.ac.uk/family/developer.html
您还可以使用Weka处理文本和进行文本挖掘,看看这些有用的讲座: http://sentimentmining.net/weka/
答案 4 :(得分:0)
stanford core-nlp适用于英文文本,并且具有命名实体识别等功能。看看:http://nlp.stanford.edu/software/corenlp.shtml
Ehsan已经推荐的GATE也很好,但是如果你需要编写自己的组件,它可能会有点复杂。对于大型的东西,它很棒。UIMA与GATE类似,但不是那么容易使用,因为它没有像GATE那样广泛的GUI。 (http://uima.apache.org)
答案 5 :(得分:0)
我建议使用以下Python库:
nltk
keras
tensorflow
注意:在进行任何文本分析之前,应根据您的要求清除数据