我正在尝试将我的文档读入R.所有内容都很好但我收到了36条警告消息,例如:
“18:在readLines中(y,encoding = x $ Encoding): 在'C:/text_data/2006DefenseWhitePaper.docx'上找到不完整的最后一行“
此外,当我检查我的语料库时,它看起来像这样:
$\`1998DefenseWhitePaper.docx`
PK
l"%3÷Þ3VƃÑÚšl µw%ë=–“^i7+Ù×ä-d&á”0ÞAÉ6€l4¼½L60#µÃ’ÍS
Oœ£œƒXø
由于某种原因,文件被编码
这是格式化问题还是来自我获取文档(在线)加密的来源。
答案 0 :(得分:1)
您遇到类似问题的问题:read an MSWord file into R
收到警告的原因与@neilfws给出的答案中描述的相同。
解决方案:有一个名为qdap
的软件包,其函数称为read.transcript()
,可以方便地完成任务。