我需要解析大文本(大约1000页的单词或pdf文档)并将此文档中的一些文本放入数据库字段
我发现我唯一可以区分我要提取的文字的是格式,它始终是“Helvetica-Condensed”尺寸12
我能这样做吗?我知道如何使用字符串函数,但我应该用什么来测试格式?正如我所说,文本存储在word文档或PDF
中如果有第三方组件可以没问题请转介给我
由于
答案 0 :(得分:1)
有QuickPDF。价格是249,00美元。
答案 1 :(得分:0)
另一种选择是自己编码。 file specification可在线获取,如果您只是试图将文本从文档中删除,这应该会引导您完成大部分工作。
唯一要注意的是完全由图像构建的文档。在那种情况下(无论您使用什么来读取文件),您还需要一个OCR类型的应用程序。要查看是否是这种情况,请打开要从中“提取”文本的文件类型的示例,选择要复制的文本然后尝试粘贴到记事本中。