如果有附件,如何识别来自outlook msg文件的Tika提取的文本数据

时间:2018-01-02 16:00:59

标签: outlook apache-tika

我使用Apache Tika从outlook msg(1封电子邮件)中提取原始文本数据。 看来电子邮件中的二进制数据(例如图像或其他二进制附件)已在整个电子邮件的最终文本格式中转换为Base64。

我应该在这个原始文本中查找哪些字段或块以确定是否存在附件?如果它存在,我该如何正确提取这些并单独保存?

好的,看起来电子邮件标题字段为$galleryString1 = '<div id="carousel">'; $dynamicGalleryString = ''; foreach ($imageArray as $targetImage) { $targetImage++; $dynamicGalleryString .= find_and_copy_target_uploaded_image_returns_full_image_tag($targetImage, $newFolder); } // $galleryString2 = '</div><!-- id="carousel"--> <div id="galleryButtonDiv"> <input type="button" id="nxPicButton" name="1" class="galleryButton" value=" ++ " onClick="nextPic(this)"> <input type="button" id="prevPicButton" name="1" class="galleryButton" value=" -- " onClick="prevPic(this)"> </div><!-- id="galleryButtonDiv" --> '; ,表示是否有/是附件。但哪个字段会包含附件数据?

0 个答案:

没有答案