无法从C#中的Word读取转换后的HTML文件

时间:2010-09-04 10:50:15

标签: html ms-word

我想解决的问题:

我想将word文档转换为HTML,并且我希望将特定文本转换为超链接。在将word文档保存为HTML之前,我无法在C#中找到添加超链接的方法。所以,我做的工作是将文档保存为HTML,然后读取HTML文档并用超链接替换特定文本。

我不知道这是否是最好的方法,但到目前为止我没有找到任何其他选择。

现在的问题是,当我读取HTML文件时,我得到了一些特殊字符的垃圾字符。在我的Word文档中,我有“......”三个点,我认为这是一个特殊的字符,所以当我在HTML中读到我有垃圾信件时......奇怪的是,当我在记事本中打开HTML文件时它正确地显示了我。

然而,通过编码,我无法阅读这些字符。

请帮帮我。

2 个答案:

答案 0 :(得分:0)

听起来您可能需要查看ms word doc使用的encoding。 MS Word可能正在使用ASCIIEncoding

还要查看执行此操作的现有c#库。

答案 1 :(得分:0)

我的实际问题是我想将word文档中的特定文本转换为超链接,我找不到办法。 MSDN的帮助非常可怜,并且错误浪费了我很多时间。我是自动化word文档的新手。

这就是为什么我发现在将文件转换为HTML后添加超链接很容易,但这有其自身的问题。我现在就是这样做的

Word库为您提供了查找功能,但不会告诉您找到文本的位置。

找到文本和起始位置然后

地址= doc.Range(开始,结束).Text +“。pdf”

doc.Hyperlinks.Add(doc.Range(start,end),Address,_

                                SubAddress, ScreenTip, TextToDisplay, Target)