我应该使用OCR来识别法律文件中的文本,提取相关的密钥及其值(大约40个属性),然后将它们存储在Excel表格中。
我已经实现了OCR部分,并且我的字典定义了这样的
dictionary = {"Lease Term":["<data in years>"], "Rent" : ["<maybe float numbers>"], "Car parking Spaces":["<number of parking spaces>"], Lessor Name:["<String value>"]}
我的问题是,一旦我识别了文本并用nltk标记,我该如何继续并实际识别需要提取的文本?当然,我可以识别文本中的键,但是实际获得该对值的方法是什么?
我读了其他的答案,似乎正则表达式匹配或手动训练数据与100个左右的样本文件(我有约700个左右)是这样做的方法,但如果我试图解释这个难题我团队中的任何人(非技术金融人员)都倾向于忽略行话,并要求我在几天内实施所有这些。
我确信正则表达式和NLP方法都需要手动工作,因为我必须继续测试我将获得的示例文档,并且在我的代码中实现它们之后(我必须学习它)那些事情从头开始。)
请描述一种可以帮助解决问题的方法。
答案 0 :(得分:0)
AWS Textract将使您能够从文档中检测键值对。它代表键值对提取的表单数据。键值对将作为Block对象返回,您可以使用'EntityType'属性来确定某个块是KEY还是VALUE。块对象不过是一组包含键值信息的链接数据项
希望这会有所帮助:https://aws.amazon.com/textract/