从PDF / Word文件中提取内容代码

时间:2017-01-13 12:55:19

标签: c# pdf ms-word pdf-manipulation

我必须使用MS Word&amp ;; PDF包含图像,文本字段,表格。

我需要在特定位置动态地将文本插入这些文件中。我在Word中尝试过书签方法,但我现在无法使用该方法。我已将数据提取到字节数组中并尝试用pdf编写,但文件已损坏。这是代码:



 byte[] bytes = System.IO.File.ReadAllBytes("CDC.doc");
            FileStream fs = new FileStream("CDC.pdf", FileMode.OpenOrCreate);
            fs.Write(bytes, 0, bytes.Length);
            fs.Close();




有没有办法可以转换这些pdf / word文件来获取这些文件的PDF代码,然后我可以将数据附加到该代码中的特定位置。请指教。谢谢!

1 个答案:

答案 0 :(得分:0)

如果我理解正确,您希望开发一个代码,该代码将替换Word文档中作为模板的所有占位符与您的应用程序数据。对于占位符,您可以使用书签,但更好的选择是内容控件。您可以使用Open XML SDK来解析此类模板Word文档,并将内容控件替换为数据。这种方法使用免费的MS库,但是很乏味。

更简单的方法是使用现成的库,该库可以使用模板,模板包含将在运行时替换为真实应用数据的占位符。在C#应用程序中,您可以准备数据(作为C#数据对象或XML)并将此数据与模板合并。输出可以是docx,pdf或xps格式。您可以查看部分examples here