应用错误收集

如何解析R中没有<p>或</p>标签的网页？

时间：2016-03-18 01:59:56

标签： html r web-scraping rvest

我使用rvest来解析html页面。我希望从页面中提取段落：

txtfile %>% paste(collapse=" ") %>% read_html() %>% html_nodes('p')

但是，这是一个不起作用的网页示例，因为（我最好的猜测）它没有段落标记：https://www.sec.gov/Archives/edgar/data/1001039/000100103916000378/0001001039-16-000378.txt

我怎样才能在R中解析这样的东西？

0 个答案:

没有答案