用rvest读取文件正文的原始文本?

时间:2016-11-09 15:07:35

标签: html rvest

我愚蠢地试图阅读网站的原始文本内容。 目的是创建用于文本分析的语料库(例如,词频)。 所以我想要删除所有html,并将标签内的内容作为原始文本返回: - )

使用此代码:

此页< - read_html(nextpage)
写(thispage,file,append = TRUE,sep =“”)

生成错误,因为read_html()返回一个指针数组:

如果界面允许我,我会在这里提交错误信息, 但是我只是得到一个红色的方框,上面写着“你的帖子似乎包含代码”,然后是一些不管用chrome的说明。

我知道我可以使用SelectorGadget等来查明DOM的特定对象并检索它们。但我希望有一个更简单的方法。它存在吗?

谢谢+欢呼, 自我

1 个答案:

答案 0 :(得分:1)

我建议尝试标准rvest抓取方式:获取所有html,然后选择你的id并抓取原始文本:

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()