Question

我一直试图在数据框列中应用tidytext中的unnest_tokens来生成常见的双字母组和三字母组。它们是来自200多个文章的简短文本。它们还是较大的csv的列子集。

我尝试了以下操作，但无济于事：
1.设置stringasfactors = FALSE
2.用过unnest_，unnest_tokens_。

示例： if(window.location.href.indexOf("submitted") > -1){ document.getElementById("aftersubmit").style.visibility = 'visible'; }

bookparagraphs.csv

check_input（x）中的错误：输入必须是任意长度的字符向量或字符列表向量，每个向量的长度为1。***

但是，当我转换我的文本> corpus> DTM等时，tm_map可以很好地工作。我能够统计和审查单词共现的情况。

我想在使用tidytext方面做得更好，因此我希望了解它的工作原理和出了问题的地方。

感谢任何建议！谢谢。

Answer 1

您在整齐文本中得到的错误是因为文本是一个因素。这意味着您的bookparagraphs $ text是一个因素。可能来自bookparagraphs.csv中的阅读。当您仅使用$(".index-navi-frame-box p").click(function() { $(".index-navi-expanded").css("display", "block"); });时，stringAsFactors对factor bookparagraphs $ text没有影响。使用a <- data.frame("texts" = bookparagraphs$text[1:10], stringsAsFactors = FALSE)阅读bookparagraphs.csv或使用readr加载数据。或使用：

stringAsFactors = FALSE

这将把bookparagraphs $ text强制转换为字符向量，并且stringAsFactors = FALSE防止再次将其变为一个因子。

此后，您可以毫无问题地使用a <- data.frame("texts" = as.character(bookparagraphs$text[1:10]), stringAsFactors = FALSE)。

tidytext（）问题：无法将unnest_tokens应用于数据框

1 个答案: