Web抓广告牌热气球图

时间:2013-11-03 01:07:24

标签: r login web-scraping

我正试图通过使用R来从其官方网站获取hot100 airplay图表。

<http://www.billboard.com/biz/charts/hot-100-airplay>

问题是我必须以某种方式使用我的ID和密码登录网站。我已经尝试过Rcurl提供的示例代码,但它们都没有实际工作。

所以现在,我没有获得所有的图表,而是每周都要搜索前四首歌曲。任何人都可以提供解决方案,以便我能够抓取所有信息吗?

哦,广告牌的API正式关闭,所以我不能期待他们的任何东西。这就是我试过的:

appannie = getURL("http://www.billboard.com/biz/charts/2013-11-02/hot-100-airplay,   userpwd = tayshin:passward", verbose = TRUE)

输出如下:

About to connect() to www.billboard.com port 80 (#0)
Trying 93.184.216.229... * connected
Connected to www.billboard.com (93.184.216.229) port 80 (#0)
GET /biz/charts/2013-11-02/hot-100-airplay, userpwd = tayshin:passward HTTP/1.1
Host: www.billboard.com
Accept: */*

HTTP 1.0, assume close after body
HTTP/1.0 400 Bad Request
Connection: close
Date: Sun, 03 Nov 2013 06:52:23 GMT
Server: ECSF (sjc/4F95)

Closing connection #0

appannie
[1] ""

此外,这个不起作用。

 x = getURL("http://www.billboard.com/biz/charts/2013-11-02/hot-100-airplay",  userpwd = "tayshin:password")

它会输出一些东西,但信息是有限的。

0 个答案:

没有答案