为特定文件类型抓取网页

时间:2011-07-13 15:04:15

标签: python screen-scraping web-crawler

作为研究的一部分,我需要尽可能通过网络下载免费提供的RDF(资源描述框架 - * .rdf)文件。 Python中可用的理想库/框架是什么?

是否有任何网站/搜索引擎能够做到这一点?我试过谷歌文件类型:RDF搜索。最初,Google会向您展示6,960,000个结果。但是,当您浏览单个结果页面时,结果会大幅下降到205个结果。我写了一个脚本来筛选和下载文件,但205对我的研究来说还不够,我相信网上有超过205个文件。所以,我真的需要一个文件爬虫。我想知道是否有任何可用于此目的的在线或离线工具或Python中的框架/示例脚本来实现此目的。在这方面的任何帮助都非常感谢。

5 个答案:

答案 0 :(得分:1)

从网上抓取RDF内容与抓取任何其他内容没有什么不同。也就是说,如果您的问题是“什么是一个好的python Web爬虫”,那么您应该阅读这个问题:Anyone know of a good Python based web crawler that I could use?。如果您的问题与使用python处理RDF有关,那么有几个选项,一个是RDFLib

答案 1 :(得分:0)

您是否在一页底部注意到“谷歌隐藏了类似结果,点击此处显示所有结果”的文字?可能有帮助。

答案 2 :(得分:0)

我知道我对这个答案有点迟了 - 但是对于未来的搜索者来说 - http://sindice.com/是rdf文档的一个很好的索引

答案 3 :(得分:0)

传送专业版,虽然它可能无法从谷歌复制,太大,它可能会手动代理返回谷歌搜索结果的网站,我知道,事实上,我可以在一天内下载10 000 pdf如果我想。它有文件类型说明符和许多选项。

答案 4 :(得分:0)

这是一个解决方法:

从Chrome扩展程序或类似程序中获取“下载主文件”

在Google或其他搜索结果上搜索,将google设置为每页100个

选择 - 显示所有文件

写下你的文件扩展名,.rdf按回车

按下载

每次点击可以有100个文件,不错。