是否可以选择使用ITextSharp库从PDF文档中提取文本,并保留格式,例如。新行和制表符。
答案 0 :(得分:2)
当提取文本时,标签字符将会出现,假设它们实际上是制表符。我不相信可以在不手动跟踪当前文本坐标的情况下确定新行字符。 你可能能够计算 Td
和BT
之间ET
令牌的数量并减去1,但这只是猜测。
修改强>
没关注令牌,我认为那只用于线路重新调整(新线路),但我错了。
答案 1 :(得分:1)
我建议您根据TextExtractionStrategy
编写自己的LocationTextExtractionStrategy
。
您需要跟踪基线的位置以确定换行符。
实际上,LocationTextExtractionStrategy可能会为您添加换行符。无论哪种方式,这都是你需要开始的地方。
答案 2 :(得分:0)
事实证明格式化“\r\n
”确实通过以编程方式从SQL Server表中获取值并调用Console.writeline()
来进行验证。最初我是直接从SQL Server Management studio复制值并粘贴到文本文件中 - 这肯定不是正确的验证方式。