可以使用OCR将扫描的PDF转换为新的可搜索PDF文件 来自Google Cloud Platform的服务?
答案 0 :(得分:1)
源文件为图像PDF且输出为可搜索PDF的此功能不会直接与Google Vision API一起提供。您可以在Issue Tracker提交有关该功能的功能请求。但是,Vision API OCR可以返回扫描文档中检测到的单词的实际位置(图像格式),如example。为了使图片上的文字可以搜索,您可以尝试使用每个单词“boundingPoly
”。最简单的解决方案是创建一个包含单词及其boundingPoly
位置的表格,并将其映射到文档图像。
请注意,如果原始扫描文档为PDF格式,则必须先将其转换为支持的图像文件,然后才能使用Vision API。您可能还必须使用第三方解决方案将生成的文件转换回PDF。
此外,如果您想从图像中提取文本并将其转换为PDF而不提取图表,图片,表格等,您可以查看tutorial。
答案 1 :(得分:-1)
可以使用 OCR 服务将扫描的 PDF 转换为新的可搜索 PDF 文件,您可以查找 LeadTools 和 Amazon Textract 服务