Question

我正在尝试创建一个使用R进行爬网的数据集这是我的代码

title(maxSize: 150, nullable: false, blank: false)

问题是我得到一个大字符串，我需要一个XML数据集。有人有什么想法吗？

Answer 1

我不知道你的意思是什么，＆＃34; XML数据集＆＃34;。如果您想要单独的节点，可以尝试

playersList <- xpathSApply(parsed.html, targetPoint) # only xmlValue is missing

如果您希望将名称和其他详细信息作为单独的字符串，则可以执行以下操作：

playersList <- xpathSApply(parsed.html, targetPoint, xmlChildren)
player.names <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
  xmlValue(element[[1]][[1]])
})

这为您提供了名称。如果您想获得其他属性，请在element之后使用indeces：

player.positions <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
  xmlValue(element[[1]][[3]])
})

[[2]][[1]]为您提供国籍，[[3]][[1]]为您提供＆＃34;至＆＃34; -team等等......

编辑：当然，例如data.frame(name = player.names, position = player.positions)为您提供了一个很好的R data.frame的已爬网数据。另请注意此数据的潜在版权问题！

使用R进行网络爬行

1 个答案: