表单识别器的内容解析错误

时间:2019-12-15 23:52:08

标签: microsoft-cognitive azure-cognitive-services form-recognizer

当我尝试分析作为建筑图纸的PDF文件时收到以下错误:

{
    "error": {
        "code": "2018",
        "innerError": {
            "requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc"
        },
        "message": "Content parsing error."
    }
}

我正在使用Form Recognizer API,并且PDF文件上同时包含文本和图形符号。我还在标题中尝试了不同的内容类型(“ multipart / form-data”,“ application / pdf”),结果相同。如果我截屏了PDF文件(一页)并将其另存为图像,则会成功处理。

Form Recognizer是否支持这些类型的PDF文件?我想知道我是否缺少某些东西,或者当前不支持建筑图纸。

编辑:我已经附加了几个我正在使用的示例工程图文件(混淆标识信息)。 Material Legends文件是我需要从中提取信息的主要文件。对于“平面布置图”文件,我只想提取“关键说明”部分中的信息。

我需要提取的数据的进一步说明:我需要对检测到的关键术语/短语进行计数。例如,我需要扫描一个文件,以查看文件中包含“ Restroom”文本的次数。我对Form Recognizer没问题,可以将结果中的“令牌”部分中看到的内容。

材料图例示例 Material Legend

平面图示例 Floor Plan

2 个答案:

答案 0 :(得分:0)

表单识别器专注于具有文本和值的表单(采购订单,税表)。它将从文档中提取键/值对(地址,名称,ID)。您想从建筑图纸中获取什么类型的信息? 如果您可以显示典型的架构图(在公共领域中类似的图,但没有私人信息),并且可以达到预期的效果,那么表单识别器团队可以对此进行调查。

希望这会有所帮助。 谢谢 -xin-MSFT

答案 1 :(得分:0)

考虑使用OCR Form ToolsFOTT website训练模型 在OCR表单工具github网站上:“要进行完整的标签训练分析场景,您需要至少包含六种相同类型的表单。您将对五种表单进行标记以训练模型,并对一种表单进行测试。模型。”

该模型提供了一些场景分析支持,可以从表单和json映射中进行焦点提取。

如果您还没有这样做,请尝试通过他们的Form Recognizer API v2

进行测试