在运行时读取MSWord文件

时间:2014-01-13 07:26:55

标签: python r ms-word

文件的结构对我来说并不重要,所以从前面提到的solution“将它们转换为纯文本并使用readLines导入它们”,我将文件类型从“.doc / .docx”更改为“ .txt“并以错误结束

file_list = list.files("D:/R/New",pattern="*.txt",full.names=F
obj_list <- lapply(file_list,readLines)
Warning messages:
1: In FUN(c("adityar.txt":
  incomplete final line found on 'adityar.txt'

我试图在语料库的帮助下阅读,但没有找到好的结果,这里第二个solution说关于pdf和unix,任何更好更快的方法,我在Windows平台上工作,任何帮助。

1 个答案:

答案 0 :(得分:0)

使用python,你可以这样做:

from docx import *
import json
document = opendocx("path_to_your_docx")
res = getdocumenttext(document)

您可以使用system

保存脚本并从R中调用它