替代xml2 read_html

时间:2019-06-01 13:54:15

标签: r xml xml2

使用xml2的read_html函数时,我发现我无法利用并行计算来读取多个URL。我还注意到,我无法使用我的数据在函数中进行超过20次迭代的read_html迭代。我在xml2 github here上创建了一个问题,没有响应。

下面是否有其他可以迭代20次/可以并行计算的选择?

ctnt <- httr::GET("https://www.sec.gov/Archives/edgar/data/789019/000119312515020351/Financial_Report.xls") %>% 
 content("text", encoding="UTF8") 
tbls <- XML::readHTMLTable(ctnt, stringsAsFactors = FALSE)   
tbls <- tbls[names(tbls)!="NULL"]
names(tbls) <- xml2::read_html(gsub("<!--[if gte mso 9]>", "", ctnt, 
 fixed=TRUE)) %>%
 xml2::xml_find_all(".//name") %>%
 xml2::xml_text()

0 个答案:

没有答案