我想阅读带有图像,文本和表格的PDF内容

时间:2019-01-04 14:30:46

标签: c#-4.0

祝大家新年快乐!

我对阅读带有图像,文本和表格的PDF内容非常陌生。我已经浏览了许多站点,并且使用iTextSharp(TextWithFontExtractionStategy)来读取内容并将其转换为HTML,而我仅使用文本。我在许多网站上搜索了建议,但找不到解决方法。

现在,我要实现的是我想从包含文本图像和表格的PDF中读取内容并将其转换为HTML。我知道很难识别图像和表格。

对于图像- 我不想从PDF中提取图像,因为我要为图像保留一些​​占位符,以便我可以提供一些替代文本。如果有图像,读取PDF内容时是否可以识别图像?因为iTextShrp(TextWithFontExtractionStategy)正在跳过图像并读取下一项。

对于表格- 我想阅读这张表,了解它在PDF中的显示方式。

所有这些转换都应在一个结果中给出。

如果有人帮助我,将不胜感激!!

非常感谢!

1 个答案:

答案 0 :(得分:0)

考虑到您将使用.NET进行开发,可以使用PDFSharp库。

Capturing Images

有一个excellent SO answer与关于PDF规范的表数据的检索有关。