Thinbug
News
Apache Tika - 解析MS Word - 避免嵌入文档
时间:2015-12-22 14:12:10
标签:
apache-tika
我必须处理MS Office文件,其中作者可能嵌入了多个其他文件(word,excel,pdf,...),但我只想解析父文档的内容。
是否有可能以这种方式配置Tika?
0 个答案:
没有答案
相关问题
如何用ruby解析word文档?
solr仅重新索引已修改的文档
从Microsoft Word文档中提取内容时存储的特殊字符(.doc)
Microsoft Word文档的Pagecount
Apache Tika不会在PDF文档中嵌入图像
使用Apache Tika解析和索引文档
Apache Tika - 解析MS Word - 避免嵌入文档
通过TIKA将单词文档转换为带有嵌入图像的HTML
如何将Word文档导入Elastic Search
解析/转换旧Word文档? (msword2 / 5)
最新问题
我写了这段代码,但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值,但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场?
是否有可能使 loadstring 不可能等于打印?卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用?
在此代码中是否有使用“this”的替代方法?
在 SQL Server 和 PostgreSQL 上查询,我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源?