根据格式(字体名称和大小)从word或pdf中提取文本

时间:2009-11-25 13:41:58

标签: delphi pdf extract

我需要解析大文本(大约1000页的单词或pdf文档)并将此文档中的一些文本放入数据库字段

我发现我唯一可以区分我要提取的文字的是格式,它始终是“Helvetica-Condensed”尺寸12

我能这样做吗?我知道如何使用字符串函数,但我应该用什么来测试格式?

正如我所说,文本存储在word文档或PDF

如果有第三方组件可以没问题请转介给我

由于

2 个答案:

答案 0 :(得分:1)

QuickPDF。价格是249,00美元。

答案 1 :(得分:0)

另一种选择是自己编码。 file specification可在线获取,如果您只是试图将文本从文档中删除,这应该会引导您完成大部分工作。

唯一要注意的是完全由图像构建的文档。在那种情况下(无论您使用什么来读取文件),您还需要一个OCR类型的应用程序。要查看是否是这种情况,请打开要从中“提取”文本的文件类型的示例,选择要复制的文本然后尝试粘贴到记事本中。