Question

我正在研究机器学习，但是我手头上还没有数据。要收集数据，我需要一个inside each page一个。我不想仅从appearing page（该页面包括下面的图1中的可点击链接）获取数据

已经单击，出现具有属性的下一页。在稍微向下滚动后，可以在每个页面上看到它。

在同一页面中，我还需要以下3个红色矩形属性，如下所示。

毕竟，我希望实现将每个属性设置为excel（.csv）文件的列。然后，如果属性被打勾，则根据其打勾状态标记每一列，否则为0。如下所示（它不包含全部属性，因为我用手完成了此操作。），

计划并实现了与机器学习有关的其余部分。我的问题是获取数据。

当我想检测其html部分时，将其标记视为selected。某些部分如下。我认为知识也有帮助。

我曾经说过斜体字，因为我尝试了一些chrome扩展程序来进行草稿操作，但失败了。我无法进入每个页面并收集数据。

<li class="selected">
        Alışveriş Merkezi</li>
<li class="selected">
        Belediye</li>
<li class="selected">
        Cami</li>
<li class="">
        Cemevi</li>
<li class="">
        Denize Sıfır</li>
<li class="selected">
        Eczane</li>
<li class="">
        Eğlence Merkezi</li>
<li class="">
        Fuar</li>

我如何实现我的意图？

Answer 1

我建议您手动生成过滤的URL（列表页面），然后将Scrapy与Beautifulsoup一起使用来爬网属性（详细页面）。在每个页面（列表和详细信息）上，为您需要的链接和信息提供正确的选择器。

在此处查看示例： Can't get desired results using try/except clause within scrapy

Answer 2

使用scrapy框架。
从所有结果页面开始： https://www.sahibinden.com/satilik/istanbul-kartal
点击所需产品（列表）的链接
用相关数据刮擦表。

以下链接提供了一个示例，该示例说明了如何实现可用于您的任务的蜘蛛，更改xpath使其遵循所需的链接，以及添加用于刮擦数据（表）的函数。 https://www.programcreek.com/python/example/99871/scrapy.spiders.CrawlSpider

废弃各个页面中的数据

2 个答案: