Question

我应该使用OCR来识别法律文件中的文本，提取相关的密钥及其值（大约40个属性），然后将它们存储在Excel表格中。

我已经实现了OCR部分，并且我的字典定义了这样的

dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["<String value>"]}

我的问题是，一旦我识别了文本并用nltk标记，我该如何继续并实际识别需要提取的文本？当然，我可以识别文本中的键，但是实际获得该对值的方法是什么？

我读了其他的答案，似乎正则表达式匹配或手动训练数据与100个左右的样本文件（我有约700个左右）是这样做的方法，但如果我试图解释这个难题我团队中的任何人（非技术金融人员）都倾向于忽略行话，并要求我在几天内实施所有这些。

我确信正则表达式和NLP方法都需要手动工作，因为我必须继续测试我将获得的示例文档，并且在我的代码中实现它们之后（我必须学习它）那些事情从头开始。）

请描述一种可以帮助解决问题的方法。

Answer 1

AWS Textract将使您能够从文档中检测键值对。它代表键值对提取的表单数据。键值对将作为Block对象返回，您可以使用'EntityType'属性来确定某个块是KEY还是VALUE。块对象不过是一组包含键值信息的链接数据项

希望这会有所帮助：https://aws.amazon.com/textract/

从OCR文本

1 个答案: