如何使用Scrapy / Python从条件下拉字段中获取值?

时间:2012-10-10 20:35:47

标签: python web-crawler scrapy

这个tutorial帮助我收集了网站上的第一个下拉列表条目。 但我无法使用Scrapy获取第二个条件/相关下拉框的数据。

假设以下步骤是可行的,步骤2如何工作?这些价值从未出现过......

  1. 获取第一个下拉框的列表条目
  2. 选择第一个下拉框的第一个值。
  3. 获取所有相关的下拉值。
  4. 迭代第一个下拉列表......
  5. 我认为下面的代码需要调整,因为代码是提交表单:

        for i in range(len(brandCategoryList)):
    
            # Generate new request for each brand category's page
            yield FormRequest("http://www.xxxxxxxxxx.com",
                        method='POST',                         
                        formdata={'BrandName':'','CatBrand':brandCategoryList[i],'submit1':'Find+Product'},
                        callback=self.parseBrandPage,
                        meta={'brandCategoryId':i,'brandCategoryName':brandCategoryList[i]})
    

    由于

1 个答案:

答案 0 :(得分:2)

Scrapy不会在您正在抓取的页面中运行任何javascript代码,依赖的下拉菜单通常依赖于javascript根据其控制下拉列表中的选项填充其选项。

如果您需要自动化/抓取需要javascript的内容,您可能需要考虑另一个库。开始here获取一些指示。