我正在尝试使用readLines()读取文本并收到36条警告消息

时间:2016-04-23 02:56:50

标签: r text text-mining

我正在尝试将我的文档读入R.所有内容都很好但我收到了36条警告消息,例如:

  

“18:在readLines中(y,encoding = x $ Encoding):     在'C:/text_data/2006DefenseWhitePaper.docx'上找到不完整的最后一行“

此外,当我检查我的语料库时,它看起来像这样:

$\`1998DefenseWhitePaper.docx`
PK
l"%3÷Þ3VƃÑÚšl  µw%ë=–“^i7+Ù×ä-d&á”0ÞAÉ6€l4¼½L60#µÃ’ÍS
Oœ£œƒXø

由于某种原因,文件被编码

这是格式化问题还是来自我获取文档(在线)加密的来源。

1 个答案:

答案 0 :(得分:1)

您遇到类似问题的问题:read an MSWord file into R

收到警告的原因与@neilfws给出的答案中描述的相同。

解决方案:有一个名为qdap的软件包,其函数称为read.transcript(),可以方便地完成任务。