文本挖掘MS Word文档?

时间:2012-04-27 18:11:15

标签: text ms-word data-mining text-mining

我有大约30份.docx文件(简历),其中包含有关人名,技能等的数据。我需要用一些信息填充电子表格,并减少手动工作,我认为我可以使用文本挖掘方法。

是否有任何工具或方法可用于从这些文档中挖掘(某种半结构化)信息?

3 个答案:

答案 0 :(得分:0)

我能想到的最好的就是使用perl,因为我知道你可以pull from word documents(虽然这本身可能很棘手)和populate xml spreadsheets使用perl模块。

我很久没有愤怒地写过perl了,所以我不能提供如何做到这一点的例子,但如果我要把一些东西放在一起做这个,我会推荐perl。我相信有人会说python中有相同的函数,甚至可能在Ruby中,但perl是我用过的,我发现它对于操作/匹配/解析/处理文本非常有效。

答案 1 :(得分:0)

您可以尝试使用catdoc http://www.wagner.pp.ru/~vitus/software/catdoc/工具,该工具将从MS Word文件中提取文本内容,然后执行您想要的任何文本处理。我可能只是grep因为简历中某些单词存在于catdoc的输出中。过度设计解决方案毫无意义。

答案 2 :(得分:0)

有多种方法可以读取docx或doc中的word文件, docx文件不过是一个精美的容器而已。但是doc文件提取起来有点棘手。

我会告诉您一些从单词中提取文本的方法

  1. .doc / docx >>以开放式西装打开>>用户pyUNO使用python并获取您的数据。
  2. .doc / docx >>使用python .docx模块和Textract并提取数据。
  3. .doc / docx >>使用R编程,其中有许多模块,例如Officer和ReporteRS >>提取数据。
  4. 使用文本挖掘将文本从一种形式转换为另一种形式。