Scrapy返回数字和字母而不是"?"对于href值

时间:2016-01-31 21:40:54

标签: web-scraping scrapy

我正在尝试使用Scrapy抓取一个关于href链接信息的网络论坛,当我这样做时,我得到了带有问号的许多字母和数字的href链接。

这是我正在抓取的html文档示例:

<a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 

我正在使用以下代码抓取href链接的html数据:

response.xpath('.//*[contains(@id, "thread_title")]/@href').extract()  

当我运行时,我得到以下结果:

[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']

应该返回的是:

[u'showthread.php?t=2676278']

我已经运行了其他测试,在文档的其他地方搜索带有问号的href数据,我也得到了&#34; s = f969fe6ed424b22d8fddf605a9effe90&amp; &#34;返回。

为什么我使用&#34; s = f969fe6ed424b22d8fddf605a9effe90&amp; &#34;返回此数据?而不只是问号?

谢谢!

1 个答案:

答案 0 :(得分:0)

似乎我正在抓取的网站使用唯一标识符,以便更准确地更新每个线程的观看次数。我没有能够返回没有唯一ID的抓取数据,它随着时间的推移而改变,并为线程ID抓取了不同的HTML标签,然后将其加入到网址(showthread.php?t =)以创建我的链接寻找。