标签: web-scraping web-crawler
我正在尝试抓取RubyGem存储库以获取有关包更新的信息。但是,我可以找到爬行整个存储库的唯一链接是一个sql文件,它会在每周结束时被转储。
由于内存/时间限制,这并不理想,我想知道是否有更好的方法或更有效的爬行方式,而无需手动读取数据库。
感谢您的帮助!