如何使用python scrapy刮取包含#的URL

时间:2014-06-13 07:57:34

标签: python web-scraping scrapy fragment-identifier

我正在使用python scrapy来搜索网站。 该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'在里面。在将此网页作为start_url抓取时,它会忽略#。

之后的部分

有没有办法可以使用python scrapy

在#中填充#full

1 个答案:

答案 0 :(得分:3)

在抓取它时通常会忽略#之后的部分。该符号通常会将您带到网页上的<div>标记,该id标记的<div id="voucher-13537"> 等于'voucher-13537',这就是它的全部含义。因此,一旦你刮擦页面,你应该尝试寻找类似的东西:

BeautifulSoup4

这就是你要找的东西。

谈到解析html文件,如果你还没有使用它,我建议你研究一下{{1}}模块。