标签: python web-scraping data-mining text-mining
我需要抓一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道,我怎么能这样做。有人可以建议我做一些算法吗?。
例如,我需要下载一些关于苹果的网页,并将关于苹果的相关数据映射到它并存储在数据库中,这样,如果有人需要有关它的具体信息,我可以快速准确地提供它。
同样指出有用的库也会有所帮助。我打算在python中做这件事。
答案 0 :(得分:1)
你可以尝试基于 term frequency-inverse document frequency TF-IDF的算法,在Java中我会推荐Solr ......实际上你可以使用Solr并访问它使用python see here
答案 1 :(得分:1)
查看NLTK,Pattern或Orange个模块。
作为一个开头,Toby Segaran的“Programming collective intelligence: building smart web 2. 0 applications”是一本很好读的书。