使用rvest迭代创建数据集

时间:2015-08-28 20:25:05

标签: r rvest

我是R的新手,但我真的很有兴趣学习如何使用它(特别是新的包装rvest),以便从研究论文等文章中筛选信息。

我想在IMDB上创建电影的所有评级和导演的数据集。我的代码可以一次获得一个评级:

library(rvest)
HG_Movie <- html("http://www.imdb.com/title/tt01781922")
score <- HG_Movie %>%
    html_node("strong span") %>%
    html_text() %>%
    as.numeric()
print(score)

这样可行,我会在最后打印得分以确保它是正确的(6.9)

所以,现在,困难的部分。我希望能够遍历许多imdb页面并收集导演的评级和名称,我希望将这些写入某种类型的数据集(如果是.csv或.txt则无关紧要)管他呢)。完成数据集看起来像:

Title Score Director
XX    YY    HH
AA    BB    CC

等等。学会用所有网址的列表来实现这一点,或者使用某种范围的值上的某种循环,这将是惊人的。任何帮助将不胜感激!

0 个答案:

没有答案