Apache Tika入门?

时间:2013-07-23 22:10:08

标签: eclipse apache maven apache-tika

我想编写一个使用Apache Tika下载网页文本内容的Java网络爬虫程序,但我是使用Apache项目的新手,我还没有找到明确的来源,阐明如何将Tika集成到程序中,究竟。从我从互联网上收集到的内容,我已经在命令行中使用Maven构建了Tika,但是我不知道从哪里开始在我的Java程序中使用像Parser等的Tika类(?)。我正在使用Eclipse,如果这有所不同 - 我还为Eclipse安装了Maven插件,但我不确定如何处理它......我需要一个“导入...”行吗?请原谅我的“初学者”问题,但我们将不胜感激为您准备Tika的分步指南。

1 个答案:

答案 0 :(得分:5)

首先,您需要阅读Apache Tika getting started guide,其中介绍了如何将Tika包含在您的项目中。 (这假设您有一些基本知识,包括将第三方罐子包含在您自己的项目中,如果不是,您需要阅读一些关于此的教程)

在项目中开始使用Tika的最简单方法是via the Tika Facade class。这提供了一个单独的类,您可以使用它来检测,解析为纯文本字符串,并通过阅读器解析为xhtml,所有这些都来自各种来源。所有基础知识都可以在那里找到。

要获得更高级的使用效果,您需要关注Parser API pageContent Detection page上提供的信息。您也可以关注Tika Examples on parsing with the AutoDetectParser,这应该做您可能想要的事情,否则browse the annotated list of Tika examples with explanations可以了解如何开始!