我正在尝试使用Scrapy抓取一个关于href链接信息的网络论坛,当我这样做时,我得到了带有问号的许多字母和数字的href链接。
这是我正在抓取的html文档示例:
<a href="showthread.php?t=2755261" id="thread_title_2676278"></a>
我正在使用以下代码抓取href链接的html数据:
response.xpath('.//*[contains(@id, "thread_title")]/@href').extract()
当我运行时,我得到以下结果:
[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']
应该返回的是:
[u'showthread.php?t=2676278']
我已经运行了其他测试,在文档的其他地方搜索带有问号的href数据,我也得到了&#34; s = f969fe6ed424b22d8fddf605a9effe90&amp; &#34;返回。
为什么我使用&#34; s = f969fe6ed424b22d8fddf605a9effe90&amp; &#34;返回此数据?而不只是问号?
谢谢!
答案 0 :(得分:0)
似乎我正在抓取的网站使用唯一标识符,以便更准确地更新每个线程的观看次数。我没有能够返回没有唯一ID的抓取数据,它随着时间的推移而改变,并为线程ID抓取了不同的HTML标签,然后将其加入到网址(showthread.php?t =)以创建我的链接寻找。