标签: c# html .net pdf
我试图从给定的PDF生成HTML文件,这些文件可能有也可能没有图像。在原始PDF上,整个文本是可选择的,因此提取文本没有太大问题(即,没有任何光学识别问题)。但是,我还需要访问HTML文件中的图像,但我尝试过的转换器都没有能够捕获图像并将其呈现在HTML内部,可能带有图像链接。我可以查看 HTML中的图片,但我无法访问。
我认为他们所做的是他们提取每一个文本,然后使用PDF的其余部分作为HTML的背景。这是我通过检查HTML而理解的内容。
提前谢谢大家。
注意:我将在.NET中使用它