应用错误收集

如何使用PDFBox API

时间：2016-05-30 05:30:28

标签： java pdfbox

我有PDF文件，其文本有四种不同的方向，如水平对齐，垂直对齐和反向对齐。使用PDFBox API从pdf中读取文本时，我获得了水平对齐文本的良好输出，但在其他情况下却没有。例如，如果＆＃34;斜体＆＃34; word是水平对齐的，输出是＆＃34; italic＆＃34;。如果它是垂直对齐的，那么输出就会在行之间分割为＆＃34;它一个
里 c＆＃34;（这里＆＃34;它＆＃34;，＆＃34; a＆＃34;，＆＃34; li＆＃34;，＆＃34; c＆＃34;在不同的行中）。我想知道即使对于垂直和反向对齐的文本，是否有任何方法可以获得良好的输出。

1 个答案:

答案 0 :(得分：2)

您可以覆盖PDFTextStripper的processTextPosition（）方法并编写逻辑以获取每个字符的方向，x和y值。通过根据方向对角色进行分组，您可以单独裁剪它们。

如何使用PDFBOX从PDF表格中获取当前页码？
如何使用java从pdf文件中获取原始文本
如何使用pdfbox从pdf中提取粗体文本？
按原样获取PDF的文本图层并将其传递给另一个PDF
如何使用pdfbox获取PDF表单文本字段的内容？
使用PDFBox 2.0从PDF中提取文本
如何使用PDFBox API
如何使用c＃从pdf中提取文本
使用pdfbox从pdf中删除不可见的文本
如何使用Java中的pdfbox api从pdf获取特定文本

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？