在Google Vision OCR中被标识为单个单词的特殊字符?

时间:2018-10-16 06:58:38

标签: text google-api ocr google-cloud-vision google-vision

我正在尝试使Google视觉OCR正则表达式可搜索。我已经完成它,并且当文档仅包含英文字符时,效果很好。但是当存在其他语言的文本时,此操作将失败。

之所以这样,是因为我在Google视觉单词组件中只有英文字符,如下所示。

VISION_API_WORD_COUNTERS = "([a-zA-Z0-9]+)|([^a-zA-Z0-9 ])";
VISION_API_WORD_COMPONENTS = "[a-zA-Z0-9]";
VISION_API_NOT_WORD_COMPONENTS = "[^a-zA-Z0-9]";

由于我不能包括所有语言的字符,因此我想包括上述内容的反义词。像

VISION_API_WORD_COMPONENTS = "[^*ALL THE SPECIAL CHARACTERS WHICH ARE IDENTIFIED AS WORD BY GOOGLE VISION*]"

例如[^!@#$%^&*()_+=]

那么我在哪里可以找到被GOOGLE VISION识别为单独单词的所有特殊字符

反复试验,继续添加我发现的特殊字符是一种选择,但这将是我的最后选择。

0 个答案:

没有答案