标签: html r web-scraping rvest
我使用rvest来解析html页面。我希望从页面中提取段落:
rvest
txtfile %>% paste(collapse=" ") %>% read_html() %>% html_nodes('p')
但是,这是一个不起作用的网页示例,因为(我最好的猜测)它没有段落标记:https://www.sec.gov/Archives/edgar/data/1001039/000100103916000378/0001001039-16-000378.txt
我怎样才能在R中解析这样的东西?