从JSON中删除无效字符,使其对R中的jsonlite有效

时间:2016-11-15 07:52:54

标签: json r

我尝试过以下方法来删除无效字符,并允许使用jsonlite的fromJSON将其转换为DF:

freshDeskData <- extractHTMLStrip(freshDeskData, asText=TRUE)
    freshDeskData   <- gsub("\r?\n|\r|<.*?>", " ", freshDeskData)
    freshDeskData <- gsub("[\001-\026]*", "", freshDeskData, fixed=TRUE)
    freshDeskData <- iconv(freshDeskData, "UTF-8")
    freshDeskDataToDF <-  jsonlite::fromJSON(paste(readLines(textConnection(freshDeskData)), collapse=""), flatten=TRUE)
    freshDeskDataClean <- do.call(cbind, lapply(freshDeskDataToDF, clean))
    freshDeskDataClean <- data.frame(freshDeskDataClean)

但它一直陷入

lexical error:
invalid character in string

问题:DF中的JSON /列中有一个键,它有HTML内容,有时会产生问题。它包含用户插入的数据,虽然从API返回的JSON中的HTML是有效的JSON(可以由JSON编辑在线解析),jsonlite不知何故没有正确地解析它并且卡住了。是否有更合适的方法来处理此?

此外,我不介意完全删除/覆盖包含HTML内容的特定密钥description的值中的任何内容。

有没有办法在R?中做到这一点?

0 个答案:

没有答案