LOGSTASH可以从某个位置读取PDF文件并提取其中的内容然后将此内容发送到目的地(KAFKA)吗?
据我所知,LOGSTASH可以读取.TXT或.LOG或.CSV文件,但我不确定它是否能够从PDF读取内容。
这条线上的任何建议都会有所帮助。
如果没有,kafka有这种能力吗?是否可以从APACHE KAFKA阅读PDF内容?
答案 0 :(得分:1)
Logstash没有PDF输入过滤器。最好的办法是找到一个可以在PDF文件中提供文本的程序。这个问题可能会有所帮助:How to extract text from a PDF?
然后,您可以设置生成PDF文本版本的内容,然后使用logstash将其编入elasticsearch。