使用OCR

时间:2016-12-09 18:49:22

标签: pdf tesseract text-extraction leadtools-sdk

我正在寻找一种方法,以编程方式检查pdf cad绘图,普通2D打印,并拉出所有尺寸以及页面上尺寸的位置。我正在寻找能够让我这样做的技术。

我对tesseract有点熟悉,并且已经训练它识别一些奇怪的gd& t形状,并设置一种语言来解决常见的ocr错误的混乱,例如1的vs |。从pdf绘图中提取所有“文本块”或“带有文本的图像块”的解决方案,因此我可以通过使用这种语言的tesseract运行它们也是理想的。

还关注leadtools,PDFBox,iText,TET,Adobe SDK。试着在它们之间做一些比较。我特别感兴趣的是准确识别尺寸/数字和形状,并且api也必须具有提取位置信息的能力。任何这些或有益的见解有关好的/坏的任何过去的经验将非常感谢!!

2 个答案:

答案 0 :(得分:0)

我们可以提供有关LEADTOOLS部分问题的相关信息,因为它是我们的产品。

如果PDF包含实际文本而不仅仅是文本图像,则可以直接提取它而无需通过OCR。为此,请使用the Leadtools.Pdf.PDFDocument.ParsePages() method

如果您正在处理包含文本区域和非文本区域的图像,则可以使用Leadtools.ImageProcessing.Core.AutoZoningCommand隔离文本区域(区域)并获取其坐标。然后,您可以使用我们的OCR引擎或您自己的代码。如果您尝试这样做并且没有获得满意的结果,可能还有其他高级选项可以帮助您,但我们可能需要查看您正在使用的实际样本。如果您愿意,可以将一些示例文件通过电子邮件发送到我们的支持地址,并提及您迄今为止所尝试的内容。

答案 1 :(得分:0)

如果在线 OCR API没问题,https://ocr.space/ocrapi是免费的,会返回详细的位置信息并接受PDF。

{
        "ParsedResults" : [
            {
                "TextOverlay" : {
                    "Lines" : [
                        {
                            "Words": [
                                {
                                "WordText": "Word 1",
                                "Left": 106,
                                "Top": 91,
                                "Height": 9,
                                "Width": 11
                                },