android - 使用OCR移动视觉将图像锚定到检测到的文本

使用OCR移动视觉将图像锚定到检测到的文本

时间：2019-06-05 18:08:14

标签： android arcore firebase-mlkit android-vision

我正在使用Google的文本识别（移动视觉/ ML）来检测Camera feed上的文本。一旦我检测到文本并确保它等于“ HERE WE GO”，就使用传递的边界在检测到的文本旁边绘制一个心形。

我面临的问题是形状在跳跃和滞后。我希望它更像锚定到检测到的文本。有什么我可以做的改善的吗？

我听说过ArCore库，但它似乎是基于现有图像来确定锚点的，但是在我的情况下，它可以是与“ HERE WE GO”匹配的任何文本。

有什么建议吗？

2 个答案:

答案 0 :(得分：1)

我相信您正在尝试在相机预览上实时叠加文字。摄像机输入和检测之间的延迟很小。由于API在输出返回时是异步的，因此您将显示另一个帧。为了缓解这种情况，您可以使处理部分与某些锁定/互斥锁同步，也可以覆盖另一个仅在处理完成后刷新的图像。这里有一些示例：https://github.com/firebase/quickstart-android/tree/master/mlkit

并且我还通过使用DispatchGroup https://github.com/googlecodelabs/mlkit-ios/blob/master/translate/TranslateDemo/CameraViewController.swift#L245

解决了iOS上的类似问题

答案 1 :(得分：1)

选项1：在此处引用张量流android示例 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android

尤其是这些类： 1.对象跟踪器：https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/tracking/ObjectTracker.java

2。叠加 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/OverlayView.java

3。相机活动和相机碎片https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/CameraActivity.java

选项2：可以在下面的代码实验室中找到示例代码。他们正在对条形码做类似的事情。

https://codelabs.developers.google.com/codelabs/barcodes/index.html?index=..%2F..index#0