我一直试图在数据框列中应用tidytext中的unnest_tokens来生成常见的双字母组和三字母组。它们是来自200多个文章的简短文本。它们还是较大的csv的列子集。
我尝试了以下操作,但无济于事:
1.设置stringasfactors = FALSE
2.用过unnest_,unnest_tokens_。
示例:
if(window.location.href.indexOf("submitted") > -1){
document.getElementById("aftersubmit").style.visibility = 'visible';
}
bookparagraphs.csv
check_input(x)中的错误: 输入必须是任意长度的字符向量或字符列表 向量,每个向量的长度为1。***
但是,当我转换我的文本> corpus> DTM等时,tm_map可以很好地工作。我能够统计和审查单词共现的情况。
我想在使用tidytext方面做得更好,因此我希望了解它的工作原理和出了问题的地方。
感谢任何建议!谢谢。
答案 0 :(得分:1)
您在整齐文本中得到的错误是因为文本是一个因素。这意味着您的bookparagraphs $ text是一个因素。可能来自bookparagraphs.csv中的阅读。当您仅使用$(".index-navi-frame-box p").click(function() {
$(".index-navi-expanded").css("display", "block");
});
时,stringAsFactors对factor bookparagraphs $ text没有影响。使用a <- data.frame("texts" = bookparagraphs$text[1:10], stringsAsFactors = FALSE)
阅读bookparagraphs.csv或使用readr加载数据。或使用:
stringAsFactors = FALSE
这将把bookparagraphs $ text强制转换为字符向量,并且stringAsFactors = FALSE防止再次将其变为一个因子。
此后,您可以毫无问题地使用a <- data.frame("texts" = as.character(bookparagraphs$text[1:10]), stringAsFactors = FALSE)
。