我如何从网站上抓取数据?

时间:2015-07-18 04:33:12

标签: web web-scraping screen-scraping

我想从以下链接中的每个产品中仅扫描以下页面中的四个数据项,这是一个不定式的向下滚动页面。

  1. 产品名称

  2. 产品价格

  3. 产品的href

  4. img src of the product。

  5. 所有数据都将存储在一个csv文件中。

    我该怎么做?

    有什么想法吗?

2 个答案:

答案 0 :(得分:0)

我不确定这种方法。 获取原始源代码,您可以在其中获取网站的所有信息,包括照片链接或任何单词

答案 1 :(得分:0)

这通常被认为是一个坏主意。如果您编写代码来抓取网站的内容,那么当他们更改标记时会发生什么?或者当他们意识到你正在抓取(窃取)他们的原始内容并且甚至禁止你的服务器的IP地址或IP范围时会发生什么。这是一场失败的战斗,所以除非你得到他们的许可,否则我不建议尝试。它可能会工作一段时间,但可能不会持续很长时间。一般认为做这样的事情很糟糕,所以我个人不鼓励任何人教别人如何抓取网站的内容。

此外,它在使用条款中非常清楚地说明了这一点:

You agree not to access (or attempt to access) the Website and the materials 
or Services by any means other than through the interface that is provided by 
Snapdeal. You shall not use any deep-link, robot, spider or other automatic 
device, program, algorithm or methodology, or any similar or equivalent manual 
process, to access, acquire, copy or monitor any portion of the Website or 
Content (as defined below), or in any way reproduce or circumvent the 
navigational structure or presentation of the Website, materials or any 
Content, to obtain or attempt to obtain any materials, documents or 
information through any means not specifically made available through the 
Website.