Question

我正在尝试使用Scrapy抓取一个关于href链接信息的网络论坛，当我这样做时，我得到了带有问号的许多字母和数字的href链接。

这是我正在抓取的html文档示例：

<a href="showthread.php?t=2755261" id="thread_title_2676278"></a>

我正在使用以下代码抓取href链接的html数据：

response.xpath('.//*[contains(@id, "thread_title")]/@href').extract()

当我运行时，我得到以下结果：

[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']

应该返回的是：

[u'showthread.php?t=2676278']

我已经运行了其他测试，在文档的其他地方搜索带有问号的href数据，我也得到了＆＃34; s = f969fe6ed424b22d8fddf605a9effe90＆amp; ＆＃34;返回。

为什么我使用＆＃34; s = f969fe6ed424b22d8fddf605a9effe90＆amp; ＆＃34;返回此数据？而不只是问号？

谢谢！

Answer 1

似乎我正在抓取的网站使用唯一标识符，以便更准确地更新每个线程的观看次数。我没有能够返回没有唯一ID的抓取数据，它随着时间的推移而改变，并为线程ID抓取了不同的HTML标签，然后将其加入到网址（showthread.php？t =）以创建我的链接寻找。