在数据挖掘中映射数据的算法

时间:2011-05-14 12:30:08

标签: python web-scraping data-mining text-mining

我需要抓一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道,我怎么能这样做。有人可以建议我做一些算法吗?。

例如,我需要下载一些关于苹果的网页,并将关于苹果的相关数据映射到它并存储在数据库中,这样,如果有人需要有关它的具体信息,我可以快速准确地提供它。

同样指出有用的库也会有所帮助。我打算在python中做这件事。

2 个答案:

答案 0 :(得分:1)

你可以尝试基于 term frequency-inverse document frequency TF-IDF的算法,在Java中我会推荐Solr ......实际上你可以使用Solr并访问它使用python see here

答案 1 :(得分:1)

查看NLTKPatternOrange个模块。

作为一个开头,Toby Segaran的“Programming collective intelligence: building smart web 2. 0 applications”是一本很好读的书。