Question

我正在尝试抓谷歌阅读器，但我遇到了问题...我希望登录谷歌阅读器并获得有效的cookie ...然后尝试在此页面输入：

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

如果我的cookie工作且我已登录，我只需要输入"user/-/"，它就会进入我的谷歌阅读器的XML版本....

理论上......我在谷歌阅读器内登录并重定向...然后我复制我的SID ....我用这个和谷歌阅读器的API信息创建一个手动cookie

http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI

name SID
domain .google.com
path /
expires 1600000000

用我的cookie创建我尝试输入内部：

'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'

但它不起作用....我认为我正在以糟糕的方式创建我的Cookie，但我阅读了有关CookieJar和Mechanize::Cookie的API，但我找不到关于如何使用它的例子......我尝试过不同的方法但没有工作......请有人帮我讲一下如何使用这个cookie ....

Answer 1

我们使用iMacros进行所有网络抓取（部分免费/开源，部分商业化）。这很好用。无论您使用什么，都需要能够自动化真实 Web浏览器的东西。其他选项是Selenium或Watir，尽管这些更适合网络测试。