我是R的新手,但我真的很有兴趣学习如何使用它(特别是新的包装rvest),以便从研究论文等文章中筛选信息。
我想在IMDB上创建电影的所有评级和导演的数据集。我的代码可以一次获得一个评级:
library(rvest)
HG_Movie <- html("http://www.imdb.com/title/tt01781922")
score <- HG_Movie %>%
html_node("strong span") %>%
html_text() %>%
as.numeric()
print(score)
这样可行,我会在最后打印得分以确保它是正确的(6.9)
所以,现在,困难的部分。我希望能够遍历许多imdb页面并收集导演的评级和名称,我希望将这些写入某种类型的数据集(如果是.csv或.txt则无关紧要)管他呢)。完成数据集看起来像:
Title Score Director
XX YY HH
AA BB CC
等等。学会用所有网址的列表来实现这一点,或者使用某种范围的值上的某种循环,这将是惊人的。任何帮助将不胜感激!