不使用第三方工具从C#中的ms字中提取所有/唯一字

时间:2011-09-04 12:35:03

标签: c# ms-word extract words

我必须从ms word文件中提取所有单词,然后将它们存储在表格中以供进一步搜索。有没有办法逐字读取msword文件。我知道我可以复制所有文本并将其放在变量中,并在空格或制表符上开始阅读但是有更好的方法吗?

我确实阅读了一个博客或页面解释了它但丢失了该页面: - /

1 个答案:

答案 0 :(得分:0)

这是一篇前SO帖子,你可以看到如何使用C#将所有文本从单词转换为变量:

How can I grab each page of text in a Word doc separately (using .NET)?

然后,使用string.Split(" ")将文本拆分为单词数组。

编辑:这里

http://www.dotnetperls.com/string-split

您可以找到一些使用正则表达式将文本拆分为单词的示例。这一个

 Regex.Split(s, @"\W+")  

可能符合您的需求。