标签: parsing xml-parsing nlp apache-poi apache-tika
我正在研究机器学习项目(NLP),在这里我想使用文本内容和字体样式来训练模型以识别文档的各个部分。我找到了apika tika和POI,但我一直在努力寻找如何解析文本以外的内容。