我必须从ms word文件中提取所有单词,然后将它们存储在表格中以供进一步搜索。有没有办法逐字读取msword文件。我知道我可以复制所有文本并将其放在变量中,并在空格或制表符上开始阅读但是有更好的方法吗?
我确实阅读了一个博客或页面解释了它但丢失了该页面: - /
答案 0 :(得分:0)
这是一篇前SO帖子,你可以看到如何使用C#将所有文本从单词转换为变量:
How can I grab each page of text in a Word doc separately (using .NET)?
然后,使用string.Split(" ")
将文本拆分为单词数组。
编辑:这里
http://www.dotnetperls.com/string-split
您可以找到一些使用正则表达式将文本拆分为单词的示例。这一个
Regex.Split(s, @"\W+")
可能符合您的需求。