祝大家新年快乐!
我对阅读带有图像,文本和表格的PDF内容非常陌生。我已经浏览了许多站点,并且使用iTextSharp(TextWithFontExtractionStategy)来读取内容并将其转换为HTML,而我仅使用文本。我在许多网站上搜索了建议,但找不到解决方法。
现在,我要实现的是我想从包含文本图像和表格的PDF中读取内容并将其转换为HTML。我知道很难识别图像和表格。
对于图像- 我不想从PDF中提取图像,因为我要为图像保留一些占位符,以便我可以提供一些替代文本。如果有图像,读取PDF内容时是否可以识别图像?因为iTextShrp(TextWithFontExtractionStategy)正在跳过图像并读取下一项。
对于表格- 我想阅读这张表,了解它在PDF中的显示方式。
所有这些转换都应在一个结果中给出。
如果有人帮助我,将不胜感激!!
非常感谢!
答案 0 :(得分:0)