Java Web爬网 - 静态URLS

时间:2011-11-01 19:53:54

标签: java web-crawler data-mining

我将更多地了解这些技术,因为显然有很多东西需要学习,但我想知道处理静态URL的最佳方法是什么。我猜它与饼干有关,但我不是肯定的。

E.x。因此,我在网站example.comexample.com/search?string=blah上搜索我的查询,然后将我发送到特定于搜索字符串的网址。从那里我可以更进一步(到我真正想要的数据)但结果的链接是静态URL example.com/results.php?id=33,无论搜索字符串如何,id都保持不变。所以唯一合乎逻辑的事情是正确传递cookie?如果是这样,我将如何让Java打开连接,获取cookie,然后打开新连接并传递cookie?我尝试了两种方法,一种打开初始连接并抓取cookie然后打开一个新连接并将cookie传递给该方法。

如果有帮助,肯定有多个cookie。

此外,您认为我可能会发现有用的任何链接/资源都将非常感激。

0 个答案:

没有答案