我正在尝试创建一个使用R进行爬网的数据集 这是我的代码
title(maxSize: 150, nullable: false, blank: false)
问题是我得到一个大字符串,我需要一个XML数据集。 有人有什么想法吗?
答案 0 :(得分:2)
我不知道你的意思是什么," XML数据集"。如果您想要单独的节点,可以尝试
playersList <- xpathSApply(parsed.html, targetPoint) # only xmlValue is missing
如果您希望将名称和其他详细信息作为单独的字符串,则可以执行以下操作:
playersList <- xpathSApply(parsed.html, targetPoint, xmlChildren)
player.names <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
xmlValue(element[[1]][[1]])
})
这为您提供了名称。如果您想获得其他属性,请在element
之后使用indeces:
player.positions <- sapply(playersList[,1], USE.NAMES = F, FUN = function (element) {
xmlValue(element[[1]][[3]])
})
[[2]][[1]]
为您提供国籍,[[3]][[1]]
为您提供&#34;至&#34; -team等等......
编辑:当然,例如data.frame(name = player.names, position = player.positions)
为您提供了一个很好的R data.frame的已爬网数据。另请注意此数据的潜在版权问题!