我需要抓取此页面以获取评论的价值,以及右侧的文档和提交者信息。
https://www.regulations.gov/document?D=FDA-2014-N-1207-7673
我尝试使用read_html()
包中的read_xml()
和xml2
但没有运气。我在getURLContent()
尝试了xmlParse()
后跟htmlParse()
和RCurl
。
我甚至只是尝试了readLines()
,这实际上并没有让我了解网站的内容。
我想我不太了解这一切是如何运作的。以前的网站我一直只能使用html_parse()
,html_nodes()
和html_attr()
。如何完成抓取本网站的工作?