我有一个特殊的问题,我必须从word文件中提取信息。比方说,我有一份简历,需要提取name
,email address
,phone no.
,address
,university
,Experience
等。
其他每个人都可能以不同的格式提供简历。那么我有什么方法可以通过编程方式提取我需要的信息吗?
我需要这些信息来填写表格进行注册。
答案 0 :(得分:1)
使用aspose .net将word文档转换为html 然后,您可以使用正则表达式搜索单词和/或pdf文档 或者,您可以使用HTMLAgilityPack来解析创建的HTML文档,并搜索特定的部分/路径。
PS:
如果您的电子邮件的正则表达式短于一页,则正则表达式不正确
只要您只支持一个国家,电话就应该是可管理的
至于姓名和地址,祝你好运。
修改强>
喜欢这个
VB.NET:
Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);
组件在这里:
http://www.aspose.com/.net/word-component.aspx
要了解有效的电子邮件地址,请阅读RFC 822:
http://www.faqs.org/rfcs/rfc822.html
答案 1 :(得分:1)
即使起初你可能会被使用Com Interop和Asp.net的想法所吸引,也不要这样做。
http://support.microsoft.com/kb/257757
那就是说,知道我们在说什么版本的词是很重要的。较新的格式允许将它们视为包含xml文件的zip,并且有很好的免费库。