Question

我正在使用python scrapy来搜索网站。该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537 它包含＆＃39;＃＆＃39;在里面。在将此网页作为start_url抓取时，它会忽略＃。

之后的部分

有没有办法可以使用python scrapy

在＃中填充＃full

Answer 1

在抓取它时通常会忽略#之后的部分。该符号通常会将您带到网页上的<div>标记，该id标记的<div id="voucher-13537">等于'voucher-13537'，这就是它的全部含义。因此，一旦你刮擦页面，你应该尝试寻找类似的东西：

BeautifulSoup4

这就是你要找的东西。

谈到解析html文件，如果你还没有使用它，我建议你研究一下{{1}}模块。