Question

我愚蠢地试图阅读网站的原始文本内容。目的是创建用于文本分析的语料库（例如，词频）。所以我想要删除所有html，并将标签内的内容作为原始文本返回： - ）

使用此代码：

此页＆lt; - read_html（nextpage）
写（thispage，file，append = TRUE，sep =“”）

生成错误，因为read_html（）返回一个指针数组：

如果界面允许我，我会在这里提交错误信息，但是我只是得到一个红色的方框，上面写着“你的帖子似乎包含代码”，然后是一些不管用chrome的说明。

我知道我可以使用SelectorGadget等来查明DOM的特定对象并检索它们。但我希望有一个更简单的方法。它存在吗？

谢谢+欢呼，自我

Answer 1

我建议尝试标准rvest抓取方式：获取所有html，然后选择你的id并抓取原始文本：

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()