从LOGSTASH中读取PDF内容

时间:2017-02-07 10:43:09

标签: apache-kafka logstash logstash-configuration logstash-file

LOGSTASH可以从某个位置读取PDF文件并提取其中的内容然后将此内容发送到目的地(KAFKA)吗?

据我所知,LOGSTASH可以读取.TXT或.LOG或.CSV文件,但我不确定它是否能够从PDF读取内容。

这条线上的任何建议都会有所帮助。

如果没有,kafka有这种能力吗?是否可以从APACHE KAFKA阅读PDF内容?

1 个答案:

答案 0 :(得分:1)

Logstash没有PDF输入过滤器。最好的办法是找到一个可以在PDF文件中提供文本的程序。这个问题可能会有所帮助:How to extract text from a PDF?

然后,您可以设置生成PDF文本版本的内容,然后使用logstash将其编入elasticsearch。