我使用OCR库从图像中提取产品规格。我首先专注于笔记本电脑。例如:
Processor
Processor model: Intel N3540
Clock speed: 2.16 GHz
Memory
Internal: 4 GB
Hard disk
Capacity: 1 TB
或:
TOSHIBA
SATELLITE C50-5302
PENTIUM
TOSHIBA
DISPLAY 15.6
4GB
DDR3
500
OCR并不完美,有时C10最终会成为CIO和其他类似的东西。
我想提取属性 - 价值对,但我不知道如何解决这个问题。
我正在考虑使用我可以获得的所有笔记本电脑和微处理器来构建文件(因为品牌,内存和硬盘容量非常有限),然后使用NLP库从文本中提取实体。问题还在于有时会出现拼写错误,因此不像比较确切的值那么容易。
你会如何解决这个问题?
答案 0 :(得分:0)
至于拼写错误,我建议,如果可能的话,获得OCR系统的模糊和概率输出。考虑到你的CIO例子,我在图形上更接近1而不是其他角色。如果没有这样的输出可用,您可以考虑在字符之间使用某种加权编辑距离。
对于命名实体识别,已经完成了从噪声输入中识别命名实体的工作,主要用于ASR源(据我所知)。了解单词混淆网络如何处理此问题,例如this article。
作为最后一步,您可能需要一个OCR校正和命名实体识别的联合任务。这可能需要定义您的域可能的实体:期望什么令牌描述CPU速度,存储容量,计算机品牌等。您可以手动实现规则或从现有数据库中挖掘数据。作为最后一步,您可能必须以某种方式调整预期的OCR错误纠正率,以提取正确的属性 - 值对而不会增加误报。
不要犹豫,让我们了解您实验的解决方案!