标签: parsing xhtml apache-tika
过去2天我一直在寻找这个,但很难找到。但问题是当你用谷歌搜索任何单词的col跨度时,不同的和不同的文档将显示无关紧要。
问题:是否可以使用tika apache解析器来检索或获取来自不同类型文档的解析数据,其中col跨度和行跨度为xhtml。如果是,那么有一个教程或任何可以帮助我的文件。
答案 0 :(得分:1)
不幸的是,不在盒子外面。
您需要扩展用于解析电子表格的基础库,以将此信息输入Tika输出。
另一种方法是使用EPPlus