我正在尝试使用名为texto_revision
的.txt文件处理tidytext,其结构如下:
# A tibble: 254 x 230
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 la expro~ de la tier~ ocur~ con frec~ dura~ el proc~ rapi~ de la urba~ en
2 como las difer~ en el moti~ del cons~ cons~ en esta~ unid~ y china afec~ la
3 las desig~ etnic~ en los patr~ de cons~ (pre~ de vest~ joye~ auto~ han sido obje~
4 este artic~ exami~ el impa~ de vari~ dife~ indi~ en la prop~ de los cons~ a
5 este artic~ inves~ la infl~ de los regi~ poli~ sobre la impo~
# ...
尝试使用unnest_tokens
格式时,使用以下代码:
library(tidytext)
texto_revision %>%
unnest_tokens(word, text)
我收到以下错误:
错误: check_input(x)出错: 输入必须是任何长度的字符向量或字符列表 向量,每个向量的长度为1.
为了尝试纠正错误并继续提前标记化,我尝试使用以下代码将文本转换为数据框:
text_df <- as.data.frame(texto_revision)
但我仍然收到以下错误
check_input(x)出错: 输入必须是任何长度的字符向量或字符列表 向量,每个向量的长度为1.
答案 0 :(得分:0)
请注意,unnest_tokens的语法为“unnest_tokens( [新列名] , [参考列] 。”您的tibble中似乎没有“text”列/ data frame。下面是一个玩具示例来说明:
conda install -c simonflueckiger tesserocr