我正在使用24页pdf报告中的Python SDK运行Textract的文档分析。我想从此报告中提取的一部分是特定的表,但是报告中还有其他“更好”的表以较高的置信度返回,而我想要的表仅部分返回。
我尝试仅在包含表格的页面上运行文档分析,然后全部返回完整结果。细胞置信度在50s-60s范围内。报告中的其他表格对70年代充满信心。这使我相信textract使用可变的置信度阈值,当看到更好的表格时该阈值会增加。
我的问题是:当我调用start_document_analysis或get_document_analysis以返回文档中的所有表时,可以编辑置信度阈值吗?还是这不可能?如果需要结果,我将不得不将所需的表拆分成单独的文档?该文档分析最终将在数千个文档上运行。