我正在尝试抓谷歌阅读器,但我遇到了问题...我希望登录谷歌阅读器并获得有效的cookie ...然后尝试在此页面输入:
'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'
如果我的cookie工作且我已登录,我只需要输入"user/-/"
,它就会进入我的谷歌阅读器的XML版本....
理论上......我在谷歌阅读器内登录并重定向...然后我复制我的SID ....我用这个和谷歌阅读器的API信息创建一个手动cookie
http://code.google.com/p/pyrfeed/wiki/GoogleReaderAPI
name SID
domain .google.com
path /
expires 1600000000
用我的cookie创建我尝试输入内部:
'http://www.google.es/reader/atom/user/-/state/com.google/reading-list'
但它不起作用....我认为我正在以糟糕的方式创建我的Cookie,但我阅读了有关CookieJar
和Mechanize::Cookie
的API,但我找不到关于如何使用它的例子......我尝试过不同的方法但没有工作......请有人帮我讲一下如何使用这个cookie ....
答案 0 :(得分:1)
我们使用iMacros进行所有网络抓取(部分免费/开源,部分商业化)。这很好用。无论您使用什么,都需要能够自动化真实 Web浏览器的东西。其他选项是Selenium或Watir,尽管这些更适合网络测试。