应用错误收集

解析元标记并使用Tika从body获取HTML内容

时间：2013-02-25 16:25:34

标签： java xml-parsing apache-tika

我用伟大的Apache Tika库解析文件。我想用自己的解析器提取元标记，然后仅将内容从<body> - 标记作为HTML获取，并将其存储在数据库中。

我现在已经尝试了几个小时/天:-(，但找不到解决方案：

当我在ToHTMLContentHandler - 标记之后使用<body> 时，我会在没有<html> - 标记的情况下使用无效的命名空间获得例外。

BodyContentHandler只返回没有HTML标记的正文。

tika-app似乎使用TransformerHandler来获取HTML（之前我从未听说过这种处理程序。）我可以使用它来获取<body>中的HTML -tag并自己解析元标记？这比使用ToHTMLContentHandler
更好吗？

1 个答案:

答案 0 :(得分：2)

检查以下链接是否对您有所帮助..

Content Detection, Metadata and Content Extraction with Apache Tika

Parsing HTML with Apache Tika

相关问题

元标记内容和标记内容之间的区别？

从文档的主体中注入元标记？

解析元标记并使用Tika从body获取HTML内容

身体中的元标记

身体标签外的内容

jQuery Selector Intersection使用property =“article：tag”和content =“tag”获取meta

如何在ganon中获取元标记内容？

获取正文标记样式属性内容

美丽的汤元内容标记

使用BeautifulSoup和Python获取元标记内容属性

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？