Python的文本挖掘库

时间:2013-12-04 06:04:53

标签: api python-2.7 web2py text-mining

我必须使用python 2.x在web2py中构建一个文本挖掘应用程序。应用程序的目的是从网站收集数据,将它们保存在文本文件中,然后将该文本文件传递给程序进行文本到矩阵的转换,最后我必须对该数据应用聚类。

我的问题是我可以使用哪些开源库或API来覆盖文本到矩阵的转换,并为python 2.x应用聚类?

1 个答案:

答案 0 :(得分:1)

我认为scikit-learn应该符合您的需求。如果不确切知道数据的样子,很难说,但是scikit-learn的API中有很多文本处理函数和内置聚类算法。