我正在尝试使Google视觉OCR正则表达式可搜索。我已经完成它,并且当文档仅包含英文字符时,效果很好。但是当存在其他语言的文本时,此操作将失败。
之所以这样,是因为我在Google视觉单词组件中只有英文字符,如下所示。
VISION_API_WORD_COUNTERS = "([a-zA-Z0-9]+)|([^a-zA-Z0-9 ])";
VISION_API_WORD_COMPONENTS = "[a-zA-Z0-9]";
VISION_API_NOT_WORD_COMPONENTS = "[^a-zA-Z0-9]";
由于我不能包括所有语言的字符,因此我想包括上述内容的反义词。像
VISION_API_WORD_COMPONENTS = "[^*ALL THE SPECIAL CHARACTERS WHICH ARE IDENTIFIED AS WORD BY GOOGLE VISION*]"
例如[^!@#$%^&*()_+=]
。
那么我在哪里可以找到被GOOGLE VISION识别为单独单词的所有特殊字符?
反复试验,继续添加我发现的特殊字符是一种选择,但这将是我的最后选择。