R Selenium - 难以从复杂表格中提取数据

时间:2016-07-18 19:34:50

标签: r selenium web-scraping

我正在尝试网上搜索一些足球数据。我能够遍历所有必要的网页,但是我无法从每个页面获取所需的数据。我认为持有该表的表是某种形式的Java,这使得它变得困难。

我正试图从以下网站获得每个团队的目标时间: http://www.scoreboard.com/uk/match/arsenal-west-brom-2014-2015/AyTNt38e/#match-summary|match-statistics;0|lineups;1

但我似乎无法区分目标/卡片/其他存在的事件。任何人都可以帮助我,或者这只是在这个网站上丢失的原因?

我获取第一个事件(目标/牌/其他)时间的代码是:

library("RSelenium")
startServer()
mybrowser <- remoteDriver()
mybrowser$open()
mybrowser$navigate("http://www.scoreboard.com/uk/match/arsenal-west-brom-2014-2015/AyTNt38e/#match-summary|match-statistics;0|lineups;1")

x<-mybrowser$findElements(using = 'css selector', ".time-box")
x[[1]]$getElementText()

1 个答案:

答案 0 :(得分:1)

您需要选择仅包含的特定父元素以及所需的所有元素。在这种情况下,"#summary-content div.time-box"可用作CSS选择器。

如果您想要事件类型,例如目标vs卡vs ...,然后你想使用CSS选择器"#summary-content div.icon-box",然后查看DIV元素上的另一个类。 soccer-ball表示目标,y-card表示黄牌,依此类推。例如,

<div class="icon-box soccer-ball">

这应该足以让你入门。你应该能够自己完成剩下的工作。