tidytext()问题:无法将unnest_tokens应用于数据框

时间:2019-02-03 15:58:02

标签: r rstudio tidytext

我一直试图在数据框列中应用tidytext中的unnest_tokens来生成常见的双字母组和三字母组。它们是来自200多个文章的简短文本。它们还是较大的csv的列子集。

我尝试了以下操作,但无济于事:
1.设置stringasfactors = FALSE
2.用过unnest_,unnest_tokens_。

示例: if(window.location.href.indexOf("submitted") > -1){ document.getElementById("aftersubmit").style.visibility = 'visible'; }

bookparagraphs.csv
  

check_input(x)中的错误:         输入必须是任意长度的字符向量或字符列表         向量,每个向量的长度为1。***

但是,当我转换我的文本> corpus> DTM等时,tm_map可以很好地工作。我能够统计和审查单词共现的情况。

我想在使用tidytext方面做得更好,因此我希望了解它的工作原理和出了问题的地方。

感谢任何建议!谢谢。

1 个答案:

答案 0 :(得分:1)

您在整齐文本中得到的错误是因为文本是一个因素。这意味着您的bookparagraphs $ text是一个因素。可能来自bookparagraphs.csv中的阅读。当您仅使用$(".index-navi-frame-box p").click(function() { $(".index-navi-expanded").css("display", "block"); }); 时,stringAsFactors对factor bookparagraphs $ text没有影响。使用a <- data.frame("texts" = bookparagraphs$text[1:10], stringsAsFactors = FALSE)阅读bookparagraphs.csv或使用readr加载数据。或使用:

stringAsFactors = FALSE

这将把bookparagraphs $ text强制转换为字符向量,并且stringAsFactors = FALSE防止再次将其变为一个因子。

此后,您可以毫无问题地使用a <- data.frame("texts" = as.character(bookparagraphs$text[1:10]), stringAsFactors = FALSE)