我尝试从PDF提取文本,它对英语工作正常,但对印度语(如印地语,泰米尔语,马拉雅拉姆语等)却无法正常工作。请参阅下面的示例,提取内容中的所有粗体文本均不正确。 Tika是否可以使用非英语语言?
原始文本:
மக்களுக்குப்,பரிசாக,டிவி,உள்ளிட்ட,உள்ளிட்ட23,பொருட்கள்,。
提取文字:
மக்களக்கப்பரிசாக,எல்இடடவ,சனிமாடக்ககட,்்,்
மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்உள்ளிட்ட23
வகககபாரடக்ள்,சசகவகளின்
ககறக்கப்படட்வரிஇன்றமதல்。
更新:
如果我将PDF转换为JPG并使用 TesseractOCRParser ,并使用 Tamil 语言,则它比 PDFParser 更好。 >