作为研究的一部分,我需要尽可能通过网络下载免费提供的RDF(资源描述框架 - * .rdf)文件。 Python中可用的理想库/框架是什么?
是否有任何网站/搜索引擎能够做到这一点?我试过谷歌文件类型:RDF搜索。最初,Google会向您展示6,960,000个结果。但是,当您浏览单个结果页面时,结果会大幅下降到205个结果。我写了一个脚本来筛选和下载文件,但205对我的研究来说还不够,我相信网上有超过205个文件。所以,我真的需要一个文件爬虫。我想知道是否有任何可用于此目的的在线或离线工具或Python中的框架/示例脚本来实现此目的。在这方面的任何帮助都非常感谢。
答案 0 :(得分:1)
从网上抓取RDF内容与抓取任何其他内容没有什么不同。也就是说,如果您的问题是“什么是一个好的python Web爬虫”,那么您应该阅读这个问题:Anyone know of a good Python based web crawler that I could use?。如果您的问题与使用python处理RDF有关,那么有几个选项,一个是RDFLib
答案 1 :(得分:0)
您是否在一页底部注意到“谷歌隐藏了类似结果,点击此处显示所有结果”的文字?可能有帮助。
答案 2 :(得分:0)
我知道我对这个答案有点迟了 - 但是对于未来的搜索者来说 - http://sindice.com/是rdf文档的一个很好的索引
答案 3 :(得分:0)
答案 4 :(得分:0)
这是一个解决方法:
从Chrome扩展程序或类似程序中获取“下载主文件”
在Google或其他搜索结果上搜索,将google设置为每页100个
选择 - 显示所有文件
写下你的文件扩展名,.rdf按回车
按下载
每次点击可以有100个文件,不错。