将单词文档的内容导入R

时间:2014-02-14 14:18:33

标签: r

我是R的新手并且已经工作了一段时间如下。我把代码写在一个word文档中,然后我将带有代码的文档复制并粘贴到R中,以使代码运行正常,但是当代码很长(100页)时需要花费大量时间R开始使代码运行。这似乎不是一个非常有效的工作程序,我相信还有其他形式来编译R代码。

另一方面,我想到的另一方面是将单词的内容导入到R中,我不确定该怎么做。尝试过read.table但它不起作用,在互联网上查看如何导入数据,但大多数解释都是数据表等或数据表和类似形式的互联网文件。我已经尝试将文档保存到csv中。但是,单词不包括csv尝试使用Rich文本格式和XML包,但是包中的指令再次用于导入表和类似物。我想知道是否有一种有效的方法让R导入word文档,就像在word文档中一样。

谢谢

2 个答案:

答案 0 :(得分:1)

不,读表不会这样做。

Microsoft Word有自己的格式,在您输入的文本之上包含大量元数据。您需要一个能理解Word格式的阅读器/解析器。

Java开发人员将使用像Apache POI这样的库来读取并解析为单词令牌和n-gram。

寻找自然语言处理工具,例如这个R模块:

http://cran.r-project.org/web/views/NaturalLanguageProcessing.html

答案 1 :(得分:1)

如果没有检查单词文档,很难说最简单的解决方案是什么。假设它只包含代码而没有别的东西,将它全部转换为Word中的纯文本应该很容易。你可以通过转到文件 - >来做到这一点。另存为,并使用“另存为类型”下的“纯文本”。

然后从.txt编辑文件扩展名为.R,下载一个正确的文本编辑器(我可以推荐RStudio for R),然后打开你的代码。然后,您将能够在编辑器内运行代码,而无需使用复制/粘贴。