将HTML页面的大小写转换为R

时间:2018-08-03 12:55:52

标签: r stringr

我需要将HTML页面的所有内容转换为较低的内容。但是我出错了。

library(stringr)
library(httr)
library(XML)

url <- "https://stackoverflow.com/"
request <- GET(url)
doc <- htmlParse(request, encoding = "UTF-8")
doc <- str_to_lower(doc)
  

as.vector(x,“ character”)中的错误:无法强制输入   'externalptr'转换为'character'类型的向量

我需要保留文档的XML结构,因为我将不得不使用xpath。

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

您可以尝试将文档转换为字符,更改大小写,然后重复将其解析为HTML代码。

library(stringr)
library(httr)
library(XML)

url <- "https://stackoverflow.com/"
request <- GET(url)

#convert to character then covert case
newdoc<-str_to_lower(as.character(request)) 

#reread the new doc to convert back to html   
doc <- htmlParse(newdoc, encoding = "UTF-8")

这应该创建所需的可读文档。