应用错误收集

时间：2018-08-18 15:54:24

标签： machine-learning text computer-vision ocr

我正在使用Google的Vision API来分析来自我们产品的错误消息的屏幕截图。使用这些托管服务，OCR部分很容易，但是在文字文本上是否可以使用最佳实践工具？

更具体地说，错误屏幕截图将包含产品名称，产品版本，基础操作系统的版本（如果OS是32或64位）和实际错误消息（C＃Stacktrace）

因此，所有文本都来自OCR扫描，但是由于屏幕截图是由用户拍摄的，因此不能假设上面的其他信息位于屏幕截图的特定区域中。

如何去分析这些数据？我们是在谈论简单的字符串操作和自定义域知识（尝试了这一点，它使我走得很远），还是这是google / microsoft提供的某种机器学习文本分析的工作（或者说是矫kill过正）？

答案 0 :(得分：1)

从我的OCR经验来看，您处在正确的轨道上：

请使用正则表达式。例如，我们使用它进行地址解析。
他们没有像使用OCR API一样容易的ML技术。该领域的工具和软件都需要您创建自定义模型并具有训练数据。
开箱即用的txt分析不适用于错误消息，它们更多用于分析聊天等，请参见https://cloud.google.com/natural-language/docs/basics

答案 1 :(得分：0)

因此，所有文本都来自OCR扫描，但是由于屏幕截图是由用户拍摄的，因此不能假设上面的其他信息位于屏幕截图的特定区域中。