因此,我正在尝试使用Google的Vision API使用Node.js转换此表。最好的结果是一个像[hi: bonjour, bye: au revoir ...]
这样的数组。现在我面临的问题是,当我上传这张图片时,我只能从Google那里得到单词及其坐标。使用某种hacky解决方案,我设法合并了这些单词。例如:我设法将'au'和'revoir'合并为'au revoir',但是我拥有的解决方案绝对不是可靠的。
有人对这个问题有简单的解决方案吗?恐怕我想的太难了,但是我在网上找不到很多例子。
任何帮助将不胜感激。
我当前的代码:https://pastebin.com/jY5jDrqD(是的,很混乱,不是很牢固)
答案 0 :(得分:2)
通过它的外观,您可以看到格式正确的输入,因此应该很容易获得可靠的结果。如果某些键或值很长并且占用多行,可能会变得更加棘手。
解决此问题的方法是:
将它们分成几行可能是最困难的部分。
我建议按以下方式进行处理:
您可能需要注意的事情-标点符号被识别为它们自己的实体,并落在两个行组的边缘。
用x进行排序应该是微不足道的,然后确定一行中的哪些实体是关键,哪些是值将经过反复试验才能找到一个合适的阈值,该阈值位于一个实体的末端与下一个开始。