我正在研究机器学习,但是我手头上还没有数据。要收集数据,我需要一个inside each page一个。我不想仅从appearing page(该页面包括下面的图1中的可点击链接)获取数据
已经单击,出现具有属性的下一页。在稍微向下滚动后,可以在每个页面上看到它。
在同一页面中,我还需要以下3个红色矩形属性,如下所示。
毕竟,我希望实现将每个属性设置为excel(.csv)文件的列。然后,如果属性被打勾,则根据其打勾状态标记每一列,否则为0。如下所示(它不包含全部属性,因为我用手完成了此操作。),
计划并实现了与机器学习有关的其余部分。我的问题是获取数据。
当我想检测其html部分时,将其标记视为selected
。某些部分如下。我认为知识也有帮助。
我曾经说过斜体字,因为我尝试了一些chrome扩展程序来进行草稿操作,但失败了。我无法进入每个页面并收集数据。
<li class="selected">
Alışveriş Merkezi</li>
<li class="selected">
Belediye</li>
<li class="selected">
Cami</li>
<li class="">
Cemevi</li>
<li class="">
Denize Sıfır</li>
<li class="selected">
Eczane</li>
<li class="">
Eğlence Merkezi</li>
<li class="">
Fuar</li>
我如何实现我的意图?
答案 0 :(得分:1)
我建议您手动生成过滤的URL(列表页面),然后将Scrapy与Beautifulsoup一起使用来爬网属性(详细页面)。在每个页面(列表和详细信息)上,为您需要的链接和信息提供正确的选择器。
在此处查看示例: Can't get desired results using try/except clause within scrapy
答案 1 :(得分:0)
以下链接提供了一个示例,该示例说明了如何实现可用于您的任务的蜘蛛,更改xpath使其遵循所需的链接,以及添加用于刮擦数据(表)的函数。 https://www.programcreek.com/python/example/99871/scrapy.spiders.CrawlSpider