应用错误收集

为特定文件类型抓取网页

时间：2011-07-13 15:04:15

标签： python screen-scraping web-crawler

作为研究的一部分，我需要尽可能通过网络下载免费提供的RDF（资源描述框架 - * .rdf）文件。 Python中可用的理想库/框架是什么？

是否有任何网站/搜索引擎能够做到这一点？我试过谷歌文件类型：RDF搜索。最初，Google会向您展示6,960,000个结果。但是，当您浏览单个结果页面时，结果会大幅下降到205个结果。我写了一个脚本来筛选和下载文件，但205对我的研究来说还不够，我相信网上有超过205个文件。所以，我真的需要一个文件爬虫。我想知道是否有任何可用于此目的的在线或离线工具或Python中的框架/示例脚本来实现此目的。在这方面的任何帮助都非常感谢。

5 个答案:

答案 0 :(得分：1)

从网上抓取RDF内容与抓取任何其他内容没有什么不同。也就是说，如果您的问题是“什么是一个好的python Web爬虫”，那么您应该阅读这个问题：Anyone know of a good Python based web crawler that I could use?。如果您的问题与使用python处理RDF有关，那么有几个选项，一个是RDFLib

答案 1 :(得分：0)

您是否在一页底部注意到“谷歌隐藏了类似结果，点击此处显示所有结果”的文字？可能有帮助。

答案 2 :(得分：0)

我知道我对这个答案有点迟了 - 但是对于未来的搜索者来说 - http://sindice.com/是rdf文档的一个很好的索引

答案 3 :(得分：0)

传送专业版，虽然它可能无法从谷歌复制，太大，它可能会手动代理返回谷歌搜索结果的网站，我知道，事实上，我可以在一天内下载10 000 pdf如果我想。它有文件类型说明符和许多选项。

答案 4 :(得分：0)

这是一个解决方法：

从Chrome扩展程序或类似程序中获取“下载主文件”

在Google或其他搜索结果上搜索，将google设置为每页100个

选择 - 显示所有文件

写下你的文件扩展名，.rdf按回车

按下载

每次点击可以有100个文件，不错。