如何使用机械化刮取谷歌阅读器(使用cookie)

时间:2010-12-09 23:23:06

标签: ruby cookies mechanize web-scraping

我正在尝试抓谷歌阅读器,但我遇到了问题...我希望登录谷歌阅读器并获得有效的cookie ...然后尝试在此页面输入:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

如果我的cookie工作且我已登录,我只需要输入"user/-/",它就会进入我的谷歌阅读器的XML版本....

理论上......我在谷歌阅读器内登录并重定向...然后我复制我的SID ....我用这个和谷歌阅读器的API信息创建一个手动cookie

http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI

name SID
domain .google.com
path /
expires 1600000000

用我的cookie创建我尝试输入内部:

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

但它不起作用....我认为我正在以糟糕的方式创建我的Cookie,但我阅读了有关CookieJarMechanize::Cookie的API,但我找不到关于如何使用它的例子......我尝试过不同的方法但没有工作......请有人帮我讲一下如何使用这个cookie ....

1 个答案:

答案 0 :(得分:1)

我们使用iMacros进行所有网络抓取(部分免费/开源,部分商业化)。这很好用。无论您使用什么,都需要能够自动化真实 Web浏览器的东西。其他选项是Selenium或Watir,尽管这些更适合网络测试。