制表符分隔数据集

时间:2015-09-08 00:19:27

标签: excel vba statistics

我正在尝试在Excel中编写宏来查找以制表符分隔格式(特别是一组推文)的自然语言文本数据集中的拼写错误的平均值和标准差。通过对标签执行CTRL + F以获取消息数量并查看SpellCheck中列出的错误总数,我可以很容易地找到Word中的平均值。但这对SD没有帮助。据我所知,专门构建的语言分析软件无法搜索一般的非单词而不计算不流行(“唉”,“ach”)之类的东西。

我无法弄清楚如何在Excel宏中包含拼写和语法错误,或者如何通过单元格将它们分开。

数据集足够大,我不介意轻微的不准确性(它们不应在条件之间系统地变化)。

可以调整此工具以评估基本的写作技巧或比较足够大的写作样本中的非标准英语用法。任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

由于Word具有内置功能来检测拼写和语法错误,因此您可以在Excel中创建跨程序脚本​​。您只需要Word执行语言处理,Excel就可以进行统计分析。您需要从工具>中启用Microsoft Word 15.0对象库。 Excel VBE中的引用菜单。

Word中的VBA允许您检测是否存在拼写错误。看到这个链接:

https://msdn.microsoft.com/en-us/library/office/aa171830(v=office.11).aspx

代码背后的逻辑是:

  1. 从Excel中打开一个新的Word文档。
  2. 对于每条推文,请复制单元格的内容并粘贴到空白的Word文档中。
  3. 让Word扫描文档是否有错误,如果检测到则返回True,否则返回False。
  4. 在Excel中,如果您获得True值,请在推文旁边插入1,如果为False则插入2。
  5. 清除Word文档中的所有内容。
  6. 转到Excel中的下一条推文(下一个单元格),然后执行步骤2-6,直到每条推文旁边都有1或2。
  7. 您应该能够将语言错误的发生与其他变量相关联,例如Twitter句柄。

    基本上,让每个程序都做它最擅长的事情。