我需要将HTML页面的所有内容转换为较低的内容。但是我出错了。
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
doc <- htmlParse(request, encoding = "UTF-8")
doc <- str_to_lower(doc)
as.vector(x,“ character”)中的错误:无法强制输入 'externalptr'转换为'character'类型的向量
我需要保留文档的XML结构,因为我将不得不使用xpath。
感谢您的帮助!
答案 0 :(得分:1)
您可以尝试将文档转换为字符,更改大小写,然后重复将其解析为HTML代码。
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
#convert to character then covert case
newdoc<-str_to_lower(as.character(request))
#reread the new doc to convert back to html
doc <- htmlParse(newdoc, encoding = "UTF-8")
这应该创建所需的可读文档。