从PDF中删除带有下划线和删除线的文本

时间:2013-03-22 18:44:38

标签: pdf

我的PDF中包含许多下划线和删除线。我希望能够将此PDF转换为HTML。我尝试了很多不同的工具,所有这些工具有时会将下划线和删除线作为文本格式化,有时会将下划线和删除线转换为图形,这对我来说是无用的(据我所知)。

我真的想知道这些程序如何区分格式化文本的下划线和转换为图形的下划线,以及我如何能够访问文档并将所有内容捕获为文本格式。

我可能采取了错误的做法,并对任何可能的解决方案持开放态度,我认为我只需要指出正确的方向。

提前感谢你的帮助。

1 个答案:

答案 0 :(得分:2)

PDF中没有下划线和删除线,只有在文本顶部绘制线条。 检测下划线和删除线的PDF工具通常会查找与文本足够接近的线条图或其他类似的启发法,然后在转换为另一种格式时将相应的样式添加到文本输出中。然而,这种方法永远不会适用于100%的情况。