下面的代码从http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf中提取希伯来文,没有希伯来字符“ן”。所有其他文本似乎被提取得很好。有什么想法吗?
__del__
附加显示缺失字符的屏幕截图。左侧是页面http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf在Crome中的显示方式。右侧是使用上述代码提取PDF文本的结果。