我正在寻找一种方法,以编程方式检查pdf cad绘图,普通2D打印,并拉出所有尺寸以及页面上尺寸的位置。我正在寻找能够让我这样做的技术。
我对tesseract有点熟悉,并且已经训练它识别一些奇怪的gd& t形状,并设置一种语言来解决常见的ocr错误的混乱,例如1的vs |。从pdf绘图中提取所有“文本块”或“带有文本的图像块”的解决方案,因此我可以通过使用这种语言的tesseract运行它们也是理想的。
还关注leadtools,PDFBox,iText,TET,Adobe SDK。试着在它们之间做一些比较。我特别感兴趣的是准确识别尺寸/数字和形状,并且api也必须具有提取位置信息的能力。任何这些或有益的见解有关好的/坏的任何过去的经验将非常感谢!!
答案 0 :(得分:0)
我们可以提供有关LEADTOOLS部分问题的相关信息,因为它是我们的产品。
如果PDF包含实际文本而不仅仅是文本图像,则可以直接提取它而无需通过OCR。为此,请使用the Leadtools.Pdf.PDFDocument.ParsePages() method。
如果您正在处理包含文本区域和非文本区域的图像,则可以使用Leadtools.ImageProcessing.Core.AutoZoningCommand隔离文本区域(区域)并获取其坐标。然后,您可以使用我们的OCR引擎或您自己的代码。如果您尝试这样做并且没有获得满意的结果,可能还有其他高级选项可以帮助您,但我们可能需要查看您正在使用的实际样本。如果您愿意,可以将一些示例文件通过电子邮件发送到我们的支持地址,并提及您迄今为止所尝试的内容。
答案 1 :(得分:0)
如果在线 OCR API没问题,https://ocr.space/ocrapi是免费的,会返回详细的位置信息并接受PDF。
{
"ParsedResults" : [
{
"TextOverlay" : {
"Lines" : [
{
"Words": [
{
"WordText": "Word 1",
"Left": 106,
"Top": 91,
"Height": 9,
"Width": 11
},