我目前正在开展一项研究项目,需要从Twitter收集签到的推文。
已经实现了一个抓取工具,我得到的推文的格式如下:“我在SOMEWHERE 4sq.com/xW1q **”
点击“4sq.com/xW1q**”链接后,该页面将重定向到网址,例如“foursquare.com/SOMEONE/checkin/ CHECKINID &amp; SIGNATURE < /强>”。我需要提取CHECKINID和SIGNATURE才能获得详细的签到信息。
我想问的是,为了获取签到ID和签名,我如何编程扩展更短的URL到更长的URL?有人建议我应该使用 HEAD请求来获取完整的网址,但我不知道该怎么做。
提前致谢。
答案 0 :(得分:0)
新的更正确的答案
4sq.com使用bit.ly来缩短网址,因此您应该使用bit.ly API来扩展网址:http://code.google.com/p/bitly-api/wiki/ApiDocumentation
HEAD
请求是正确的。
在curl中执行HEAD
请求:
curl -i -X HEAD http://4sq.com/abcdefg
返回标题如下:
HTTP/1.1 301 Moved
Server: nginx
Date: Tue, 13 Mar 2012 14:26:02 GMT
Content-Type: text/html; charset=utf-8
...other headers...
Location: <<<FULL URL>>>
如果您告诉我们更多关于您编码的语言的信息,我们可以为您提供有关如何发出HEAD请求并获取该标头值的更具体建议。