我尝试过以下方法来删除无效字符,并允许使用jsonlite的fromJSON将其转换为DF:
freshDeskData <- extractHTMLStrip(freshDeskData, asText=TRUE)
freshDeskData <- gsub("\r?\n|\r|<.*?>", " ", freshDeskData)
freshDeskData <- gsub("[\001-\026]*", "", freshDeskData, fixed=TRUE)
freshDeskData <- iconv(freshDeskData, "UTF-8")
freshDeskDataToDF <- jsonlite::fromJSON(paste(readLines(textConnection(freshDeskData)), collapse=""), flatten=TRUE)
freshDeskDataClean <- do.call(cbind, lapply(freshDeskDataToDF, clean))
freshDeskDataClean <- data.frame(freshDeskDataClean)
但它一直陷入
lexical error:
invalid character in string
问题:DF中的JSON /列中有一个键,它有HTML内容,有时会产生问题。它包含用户插入的数据,虽然从API返回的JSON中的HTML是有效的JSON(可以由JSON编辑在线解析),jsonlite不知何故没有正确地解析它并且卡住了。是否有更合适的方法来处理此?
此外,我不介意完全删除/覆盖包含HTML内容的特定密钥description
的值中的任何内容。
有没有办法在R?中做到这一点?