我正在使用python scrapy来搜索网站。 该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'在里面。在将此网页作为start_url抓取时,它会忽略#。
之后的部分有没有办法可以使用python scrapy
在#中填充#full答案 0 :(得分:3)
在抓取它时通常会忽略#
之后的部分。该符号通常会将您带到网页上的<div>
标记,该id
标记的<div id="voucher-13537">
等于'voucher-13537',这就是它的全部含义。因此,一旦你刮擦页面,你应该尝试寻找类似的东西:
BeautifulSoup4
这就是你要找的东西。
谈到解析html文件,如果你还没有使用它,我建议你研究一下{{1}}模块。