我有大约30份.docx文件(简历),其中包含有关人名,技能等的数据。我需要用一些信息填充电子表格,并减少手动工作,我认为我可以使用文本挖掘方法。
是否有任何工具或方法可用于从这些文档中挖掘(某种半结构化)信息?
答案 0 :(得分:0)
我能想到的最好的就是使用perl,因为我知道你可以pull from word documents(虽然这本身可能很棘手)和populate xml spreadsheets使用perl模块。
我很久没有愤怒地写过perl了,所以我不能提供如何做到这一点的例子,但如果我要把一些东西放在一起做这个,我会推荐perl。我相信有人会说python中有相同的函数,甚至可能在Ruby中,但perl是我用过的,我发现它对于操作/匹配/解析/处理文本非常有效。
答案 1 :(得分:0)
您可以尝试使用catdoc
http://www.wagner.pp.ru/~vitus/software/catdoc/工具,该工具将从MS Word文件中提取文本内容,然后执行您想要的任何文本处理。我可能只是grep
因为简历中某些单词存在于catdoc的输出中。过度设计解决方案毫无意义。
答案 2 :(得分:0)
有多种方法可以读取docx或doc中的word文件, docx文件不过是一个精美的容器而已。但是doc文件提取起来有点棘手。
我会告诉您一些从单词中提取文本的方法