我正试图抓住这个[网球联赛得分]的网址[1]
[1]:http://tennislink.usta.com/leagues/Main/statsandstandings.aspx#&&s=2%7C%7C%7C%7C4.0%7C%7CM%7C%7C2016%7C%7C9%7C%7C310%7C%7C。我的目标是自动抓取我的团队的结果进行分析。
使用rvest和phantomJS我可以轻松地在上面的链接上刮取表格并创建一个带有五个cols的R数据帧。
但是,我还想捕获每行的href =,以便我可以跟踪链接并抓取每行的详细信息。当我“检查”一行的第一个元素(具有嵌入链接的元素)时,我看不到URL,而是看到这个
<a id="ctl00_mainContent_rptYearForTeamResults_ctl00_rptYearTeamsInfo_ctl16_LinkButton1" href="javascript:__doPostBack('ctl00$mainContent$rptYearForTeamResults$ctl00$rptYearTeamsInfo$ctl16$LinkButton1','')" class="">Text appears here that I can easily scrape</a>
我已经搜索了如何在R中刮掉dopostback,但是没有找到任何有用的东西。我确实找到了Rselenium的参考资料并查看了Cran Rselenium网站,但未找到处理dopostback的参考资料。
我也找到了对phantomjs的引用,这让我可以刮掉桌子。
我已成功使用R和rvest以编程方式在其他时间删除了html,包括使用href =直接在HTML中捕获URL,以编程方式跟踪这些URL,并继续抓取数千条记录。
然而,dopostback让我感到难过 - 我没有javascript技能。
我试图找到使用“检查元素”的线索,这可以让我模拟R中的dopostback,但没有任何东西跳出来。
我将不胜感激。