我是scrapy的新手。我想为我的个人实验制作我的网络抓取工具,它会抓取整个互联网并将电子商务网站的网址存储到我的数据库中。我搜索了整个Google,并发现了这个this one和许多更多几乎相同。
但有start_urls = ['http://brickset.com/sets/year-2016']
我想修改并想要添加整个Internet。这可能吗?如果有,请指导我正确的方法。
提前致谢。
答案 0 :(得分:0)
因此,让我们稍微改变一下这个问题。实际上,无法构建可以实际抓取所有电子商务网站并为您带来结果的抓取工具。
这给我们留下了最佳选择Search Engines
。您可以做的是使用product query
抓取任何搜索引擎,并收集列出要销售的产品的链接。
您面临的第二个挑战是如何区分e-commerce
网站和other
网站。像DiffBot
这样的工具会对此有所帮助。
这需要实时完成,因为显然你不打算在互联网上的索引网站上建立一个庞大的所有产品数据库。