我在MS Word中有数据的成绩单想要读入名为R的统计程序。问题是这些文件包含特殊字符(不是纯文本)。我处理它们的过程是将它们分解为MS Word /另存为txt文档/读入MS Excel(使用导入向导为人和对话创建一个列)/转换为.csv /读入R。过程有效,但很耗时。我发现如何在R中读取带有特殊字符的文本(R通常需要纯文本),但这需要将文档放在excel文档中。这是可取的,因为如果我可以将特殊字符读入R中,那么立即将所有特殊字符分出来相当简单。出现问题的原因是我无法直接将MS Word文档导入Excel。我必须首先将它保存为文本文件(我不介意这样做),然后将其读入。这会将特殊字符转换为方框和问号。我需要将MS Word文档作为具有2列(人物,对话)的数据框进入Excel,而不会破坏特殊字符(“,”, - ,',',...等)。
我可以通过在Word中使用替换来替换,但如果我可以将其转换为Excel,则在R中执行此操作会更容易。
以下是我的数据外观的MS Word文档示例(制表符分隔列)
https://dl.dropbox.com/u/61803503/TEST.doc
Win 7计算机上的Excel和Word版本2010。
答案 0 :(得分:0)
单向:使用编辑 - >在Word中复制和编辑 - >在Excel中粘贴。如果这样做,应保留简单的表格结构,并保留Unicode字符。关于非Unicode的东西,如Wingdings,不太确定。还没试过VBA-ing。