我愚蠢地试图阅读网站的原始文本内容。 目的是创建用于文本分析的语料库(例如,词频)。 所以我想要删除所有html,并将标签内的内容作为原始文本返回: - )
使用此代码:
此页< - read_html(nextpage)
写(thispage,file,append = TRUE,sep =“”)
生成错误,因为read_html()返回一个指针数组:
如果界面允许我,我会在这里提交错误信息, 但是我只是得到一个红色的方框,上面写着“你的帖子似乎包含代码”,然后是一些不管用chrome的说明。
我知道我可以使用SelectorGadget等来查明DOM的特定对象并检索它们。但我希望有一个更简单的方法。它存在吗?
谢谢+欢呼, 自我
答案 0 :(得分:1)
我建议尝试标准rvest
抓取方式:获取所有html,然后选择你的id并抓取原始文本:
"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()