应用错误收集

时间：2011-05-14 12:30:08

标签： python web-scraping data-mining text-mining

我需要抓一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道，我怎么能这样做。有人可以建议我做一些算法吗？。

例如，我需要下载一些关于苹果的网页，并将关于苹果的相关数据映射到它并存储在数据库中，这样，如果有人需要有关它的具体信息，我可以快速准确地提供它。

同样指出有用的库也会有所帮助。我打算在python中做这件事。

答案 0 :(得分：1)

你可以尝试基于 term frequency-inverse document frequency TF-IDF的算法，在Java中我会推荐Solr ......实际上你可以使用Solr并访问它使用python see here

答案 1 :(得分：1)

查看NLTK，Pattern或Orange个模块。