文本挖掘的基本算法是什么?

时间:2011-11-05 01:43:45

标签: nlp information-retrieval text-mining

我正在尝试从网上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么。

我想要的这个问题是了解什么是最常用的技术/算法来执行文本挖掘并在文档中进行一些信息检索(而不是用于索引)。

3 个答案:

答案 0 :(得分:6)

文本挖掘是一个相当广泛的术语,它大致意味着应用于文本的机器学习。常用技术包括 k - 平均聚类,朴素贝叶斯和线性SVM分类,tf-idf矢量化,SVD(当应用于文本时称为LSA),潜在Dirichlet分配。因此,执行“一些文本挖掘”可能意味着什么,就像做“一些信息检索”一样。

请参阅Bing Liu的书籍 Web数据挖掘,了解该领域的优秀介绍。

答案 1 :(得分:0)

我认为cluster analysistext mining最常用的技术。

答案 2 :(得分:-4)

大多数基本文本挖掘技术都是Regular expressions