我正在使用Google的Vision API来分析来自我们产品的错误消息的屏幕截图。使用这些托管服务,OCR部分很容易,但是在文字文本上是否可以使用最佳实践工具?
更具体地说,错误屏幕截图将包含产品名称,产品版本,基础操作系统的版本(如果OS是32或64位)和实际错误消息(C#Stacktrace)
因此,所有文本都来自OCR扫描,但是由于屏幕截图是由用户拍摄的,因此不能假设上面的其他信息位于屏幕截图的特定区域中。
如何去分析这些数据?我们是在谈论简单的字符串操作和自定义域知识(尝试了这一点,它使我走得很远),还是这是google / microsoft提供的某种机器学习文本分析的工作(或者说是矫kill过正)?
答案 0 :(得分:1)
从我的OCR经验来看,您处在正确的轨道上:
请使用正则表达式。例如,我们使用它进行地址解析。
他们没有像使用OCR API一样容易的ML技术。该领域的工具和软件都需要您创建自定义模型并具有训练数据。
开箱即用的txt分析不适用于错误消息,它们更多用于分析聊天等,请参见https://cloud.google.com/natural-language/docs/basics
答案 1 :(得分:0)
因此,所有文本都来自OCR扫描,但是由于屏幕截图是由用户拍摄的,因此不能假设上面的其他信息位于屏幕截图的特定区域中。