使用R进行网络爬行

时间:2016-01-11 11:56:42

标签: r dataset web-crawler

我正在尝试创建一个使用R进行爬网的数据集 这是我的代码

title(maxSize: 150, nullable: false, blank: false)

问题是我得到一个大字符串,我需要一个XML数据集。 有人有什么想法吗?

1 个答案:

答案 0 :(得分:2)

我不知道你的意思是什么," XML数据集"。如果您想要单独的节点,可以尝试

playersList <- xpathSApply(parsed.html, targetPoint) # only xmlValue is missing

如果您希望将名称和其他详细信息作为单独的字符串,则可以执行以下操作:

playersList <- xpathSApply(parsed.html, targetPoint, xmlChildren)
player.names <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
  xmlValue(element[[1]][[1]])
})

这为您提供了名称。如果您想获得其他属性,请在element之后使用indeces:

player.positions <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
  xmlValue(element[[1]][[3]])
})

[[2]][[1]]为您提供国籍,[[3]][[1]]为您提供&#34;至&#34; -team等等......

编辑:当然,例如data.frame(name = player.names, position = player.positions)为您提供了一个很好的R data.frame的已爬网数据。另请注意此数据的潜在版权问题!