对于我的一个网络项目,我需要从不同的网络资源中删除数据。为了简单起见,我将以一个例子来解释。
假设我想废弃其制造商网站上列出的手机数据。
http://www.somebrand1.com/mobiles/ 。 。 http://www.somebrand3.com/phones/
我有很多网址列表。 每个品牌的页面都有自己的浏览器HTML演示方式。
如何编写规范化脚本来遍历那些列出网页网址的HTML并废弃数据,而不管它们的格式如何?
否则我是否需要编写一个脚本来废弃每个模式中的数据?
答案 0 :(得分:2)
这称为广泛爬行,一般来说,由于网站使用不同的性质,表现形式和加载机制,这不是一件容易实现的事情。
一般的想法是拥有一个通用的蜘蛛和某种特定于站点的配置,你可以在项目字段和xpath表达式或用于从页面中检索字段值的CSS选择器之间进行映射。在现实生活中,事情并不像看起来那么简单,有些字段需要后处理,其他字段需要在发送单独请求后提取等等。换句话说,它很难保持通用且可靠的同时。
通用蜘蛛应该会收到目标网站 as a parameter ,阅读特定于网站的配置并根据它抓取网站。
另见: