我正在寻找抓取数千页并需要解决方案。每个网站都有自己的HTML代码 - 它们都是独一无二的网站。没有干净的数据源或API可用。我希望将捕获的数据加载到某种数据库中。
如果可能,有关如何使用scrapy进行此操作的任何想法吗?
答案 0 :(得分:4)
如果我必须从数千个站点中删除干净的数据,每个站点都有自己的布局,结构等,我会实现以下方法(实际上已经在某些项目中这样做了):
这远远超出了建立一个scrapy刮刀,当然需要在NLP和机器学习方面有深厚的知识和经验。
此外,您无法通过此类方法获得接近100%准确结果。根据算法的调整和训练方式,这样的系统要么会跳过一些有效数据(漏报),要么会在实际上没有任何数据(误报)......或两者混合的情况下获取数据。 (误报和漏报)。
尽管如此,我希望我的回答可以帮助您了解情况。