Question

我正试图抓住这个[网球联赛得分]的网址[1]

[1]：http://tennislink.usta.com/leagues/Main/statsandstandings.aspx#&&s=2%7C%7C%7C%7C4.0%7C%7CM%7C%7C2016%7C%7C9%7C%7C310%7C%7C。我的目标是自动抓取我的团队的结果进行分析。

使用rvest和phantomJS我可以轻松地在上面的链接上刮取表格并创建一个带有五个cols的R数据帧。

但是，我还想捕获每行的href =，以便我可以跟踪链接并抓取每行的详细信息。当我“检查”一行的第一个元素（具有嵌入链接的元素）时，我看不到URL，而是看到这个

<a id="ctl00_mainContent_rptYearForTeamResults_ctl00_rptYearTeamsInfo_ctl16_LinkButton1" href="javascript:__doPostBack('ctl00$mainContent$rptYearForTeamResults$ctl00$rptYearTeamsInfo$ctl16$LinkButton1','')" class="">Text appears here that I can easily scrape</a>

我已经搜索了如何在R中刮掉dopostback，但是没有找到任何有用的东西。我确实找到了Rselenium的参考资料并查看了Cran Rselenium网站，但未找到处理dopostback的参考资料。

我也找到了对phantomjs的引用，这让我可以刮掉桌子。

我已成功使用R和rvest以编程方式在其他时间删除了html，包括使用href =直接在HTML中捕获URL，以编程方式跟踪这些URL，并继续抓取数千条记录。

然而，dopostback让我感到难过 - 我没有javascript技能。

我试图找到使用“检查元素”的线索，这可以让我模拟R中的dopostback，但没有任何东西跳出来。

我将不胜感激。

如何使用R来抓取使用dopostback的{javascript html href链接

0 个答案: