如何使用Scrapy从表中使用ItemLoader抓取数据?

时间:2019-02-27 05:29:09

标签: python web-scraping scrapy scrapy-spider

我正在尝试从“ https://www.brickworkratings.com/CreditRatings.aspx”网站中提取数据。有一张桌子,我可以通过它轻松地通过Scrapy Shell提取数据。

我想使用ItemLoaders,因为它确实功能强大并且提供了更干净的体验。

这是我的下面的代码。

def start_requests(self):
    yield Request("https://www.brickworkratings.com/CreditRatings.aspx", self.parse_credit_rating_response)

def parse_credit_rating_response(self, response):
    table_rows = response.xpath('//*[@id="ContentPlaceHolder1_gvData"]//tr')
    for table_row in table_rows:
        loader = ItemLoader(SampleItem(), response=response)
        try:
            loader.get_xpath(table_row.xpath("td[1]//a/text()")[0].extract())
            # loader.add_value('company_name', 'test')
        except Exception as e:
            print(e)
        item = loader.load_item()
        print(item)
        yield item

我得到了错误

"XPath error: Invalid expression in 
                                                                        (Name of the Company)".

我相信我的XPath是正确的,但是我不认为这是使用它的方式。我如何正确使用它?我需要从表中提取数据,并想使用功能更强大的ItemLoaders。

任何帮助将不胜感激,坚持了很长时间。

1 个答案:

答案 0 :(得分:0)

构造加载程序时,需要指定初始/父选择器。这样就不必提供响应了。然后,您需要将XPath string 传递给add_xpath,而不是使用get_xpath。请参阅documentation

假设您的XPath是正确的,下面是一个示例:

# All added selectors will now be relative to table_row.
loader = ItemLoader(SampleItem(), selector=table_row)
# Just give it the XPath here.
loader.add_xpath("field_name", "td[1]//a/text()")

如果需要进行其他处理,请查看input/output processors