我正在尝试刮擦: https://www.lanebryant.com/
我的搜寻器从URL开始,然后再转到该页面上提到的所有链接。现在,我抓取了其他站点,并通过检查URL是否包含“产品”字符串来进行逻辑工作,然后下载产品的信息。在此站点中,没有前面提到的东西。如何区分产品页面和常规页面? (它所需要的只是一个if语句。我希望我的问题很清楚。为便于记录,这是此站点的产品页面: https://www.lanebryant.com/faux-wrap-maxi-dress/prd-358414#color/0000081590
答案 0 :(得分:0)
在这种情况下可能有用的事情是浏览几个产品页面(首先是在视觉上),并在它们的html中查找相似之处。如果您不熟悉此功能,只需转到页面,然后执行类似于右键单击+“查看页面源代码”的操作(这是在Chrome上执行此操作的方法)。对于您给出的页面示例,一个可能相关元素的示例为:<input type="submit"
class="cta-btn btn btn--full mar-add-to-bag asc-bag-action grid__item"
value="Add to Bag">
,它对应于“添加到购物袋”按钮。
然后,您可能会研究如何使用BS来实际浏览页面的html元素,并以此为基础进行过滤。
希望有帮助!