已抓取网站的API?

时间:2014-06-06 10:52:24

标签: api indexing web-crawler scrapy-spider

只是想知道,谷歌或任何其他公司是否提供允许您接收抓取链接的API?我想过滤带有.txt扩展名的链接,可能还有另外一个额外的扩展名。

如果没有,我将如何抓取/索引页面,但仅将其精炼到我选择的扩展程序?我也不想越过任何法律斗争,所以我必须遵守robots.txt吗?我是否需要大型数据库才能抓取这些文件的内容?我想抓取随机链接(使用我选择的扩展名),以DMOZ为起点。

2 个答案:

答案 0 :(得分:0)

如果您要在.txt扩展程序中搜索特定字词,则可以使用Bing搜索API(https://datamarket.azure.com/dataset/bing/search)或Yahoo(developer.yahoo.com/boss/search/)。但是你对结果的数量有限制。你必须付出巨大的代价。

但是如果您想要随机链接中的文本文件,您可以使用nutch构建自己的搜索引擎。您可以配置nutch来抓取特定的文件扩展名。

www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes /

stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type

答案 1 :(得分:0)

你考虑过Zillabyte吗?他们有一个开源的应用程序"做类似的事情(虽然对于PDF):

https://github.com/zillabyte/pdf_crawler