废弃各个页面中的数据

时间:2019-05-07 09:48:07

标签: web-scraping html-parsing screen-scraping

我正在研究机器学习,但是我手头上还没有数据。要收集数据,我需要一个inside each page一个。我不想仅从appearing page(该页面包括下面的图1中的可点击链接)获取数据

enter image description here

已经单击,出现具有属性的下一页。在稍微向下滚动后,可以在每个页面上看到它。

enter image description here

在同一页面中,我还需要以下3个红色矩形属性,如下所示。

enter image description here

毕竟,我希望实现将每个属性设置为excel(.csv)文件的列。然后,如果属性被打勾,则根据其打勾状态标记每一列,否则为0。如下所示(它不包含全部属性,因为我用手完成了此操作。),

enter image description here

计划并实现了与机器学习有关的其余部分。我的问题是获取数据。

当我想检测其html部分时,将其标记视为selected。某些部分如下。我认为知识也有帮助。

我曾经说过斜体字,因为我尝试了一些chrome扩展程序来进行草稿操作,但失败了。我无法进入每个页面并收集数据。

<li class="selected">
        Alışveriş Merkezi</li>
<li class="selected">
        Belediye</li>
<li class="selected">
        Cami</li>
<li class="">
        Cemevi</li>
<li class="">
        Denize Sıfır</li>
<li class="selected">
        Eczane</li>
<li class="">
        Eğlence Merkezi</li>
<li class="">
        Fuar</li>

我如何实现我的意图?

2 个答案:

答案 0 :(得分:1)

我建议您手动生成过滤的URL(列表页面),然后将Scrapy与Beautifulsoup一起使用来爬网属性(详细页面)。在每个页面(列表和详细信息)上,为您需要的链接和信息提供正确的选择器。

在此处查看示例: Can't get desired results using try/except clause within scrapy

答案 1 :(得分:0)

  1. 使用scrapy框架。
  2. 从所有结果页面开始: https://www.sahibinden.com/satilik/istanbul-kartal
  3. 点击所需产品(列表)的链接
  4. 用相关数据刮擦表。

以下链接提供了一个示例,该示例说明了如何实现可用于您的任务的蜘蛛,更改xpath使其遵循所需的链接,以及添加用于刮擦数据(表)的函数。 https://www.programcreek.com/python/example/99871/scrapy.spiders.CrawlSpider