应用错误收集

文本挖掘MS Word文档？

时间：2012-04-27 18:11:15

标签： text ms-word data-mining text-mining

我有大约30份.docx文件（简历），其中包含有关人名，技能等的数据。我需要用一些信息填充电子表格，并减少手动工作，我认为我可以使用文本挖掘方法。

是否有任何工具或方法可用于从这些文档中挖掘（某种半结构化）信息？

3 个答案:

答案 0 :(得分：0)

我能想到的最好的就是使用perl，因为我知道你可以pull from word documents（虽然这本身可能很棘手）和populate xml spreadsheets使用perl模块。

我很久没有愤怒地写过perl了，所以我不能提供如何做到这一点的例子，但如果我要把一些东西放在一起做这个，我会推荐perl。我相信有人会说python中有相同的函数，甚至可能在Ruby中，但perl是我用过的，我发现它对于操作/匹配/解析/处理文本非常有效。

答案 1 :(得分：0)

您可以尝试使用catdoc http://www.wagner.pp.ru/~vitus/software/catdoc/工具，该工具将从MS Word文件中提取文本内容，然后执行您想要的任何文本处理。我可能只是grep因为简历中某些单词存在于catdoc的输出中。过度设计解决方案毫无意义。

答案 2 :(得分：0)

有多种方法可以读取docx或doc中的word文件， docx文件不过是一个精美的容器而已。但是doc文件提取起来有点棘手。

我会告诉您一些从单词中提取文本的方法

.doc / docx >>以开放式西装打开>>用户pyUNO使用python并获取您的数据。
.doc / docx >>使用python .docx模块和Textract并提取数据。
.doc / docx >>使用R编程，其中有许多模块，例如Officer和ReporteRS >>提取数据。
使用文本挖掘将文本从一种形式转换为另一种形式。