我编写了一个应用程序,它从收件箱中获取所有电子邮件,过滤包含特定字符串的电子邮件,然后将这些电子邮件放入ArrayList中。
将电子邮件放入列表后,我正在处理所述电子邮件的主题和内容。这适用于没有附件的电子邮件。但是当我开始使用带有附件的电子邮件时,它们都不能按预期工作了。
这是我的代码:
public void getInhoud(Message msg) throws IOException {
try {
cont = msg.getContent();
} catch (MessagingException ex) {
Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex);
}
if (cont instanceof String) {
String body = (String) cont;
} else if (cont instanceof Multipart) {
try {
Multipart mp = (Multipart) msg.getContent();
int mp_count = mp.getCount();
for (int b = 0; b < 1; b++) {
dumpPart(mp.getBodyPart(b));
}
} catch (Exception ex) {
System.out.println("Exception arise at get Content");
ex.printStackTrace();
}
}
}
public void dumpPart(Part p) throws Exception {
email = null;
String contentType = p.getContentType();
System.out.println("dumpPart" + contentType);
InputStream is = p.getInputStream();
if (!(is instanceof BufferedInputStream)) {
is = new BufferedInputStream(is);
}
int c;
final StringWriter sw = new StringWriter();
while ((c = is.read()) != -1) {
sw.write(c);
}
if (!sw.toString().contains("<div>")) {
mpMessage = sw.toString();
getReferentie(mpMessage);
}
}
电子邮件中的内容存储在字符串中。
当我尝试阅读没有附件的邮件时,此代码可以正常工作。但是,如果我使用带附件的电子邮件,String也包含HTML代码甚至附件编码。最终我想存储附件和电子邮件的内容,但我的首要任务是只获得没有任何HTML或附件编码的文本。
现在我尝试了一种不同的方法来处理不同的部分:
public void getInhoud(Message msg) throws IOException {
try {
Object contt = msg.getContent();
if (contt instanceof Multipart) {
System.out.println("Met attachment");
handleMultipart((Multipart) contt);
} else {
handlePart(msg);
System.out.println("Zonder attachment");
}
} catch (MessagingException ex) {
ex.printStackTrace();
}
}
public static void handleMultipart(Multipart multipart)
throws MessagingException, IOException {
for (int i = 0, n = multipart.getCount(); i < n; i++) {
handlePart(multipart.getBodyPart(i));
System.out.println("Count "+n);
}
}
public static void handlePart(Part part)
throws MessagingException, IOException {
String disposition = part.getDisposition();
String contentType = part.getContentType();
if (disposition == null) { // When just body
System.out.println("Null: " + contentType);
// Check if plain
if ((contentType.length() >= 10)
&& (contentType.toLowerCase().substring(
0, 10).equals("text/plain"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
System.out.println("Ook html gevonden");
part.writeTo(System.out);
}else{
System.out.println("Other body: " + contentType);
part.writeTo(System.out);
}
} else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
System.out.println("Attachment: " + part.getFileName()
+ " : " + contentType);
} else if (disposition.equalsIgnoreCase(Part.INLINE)) {
System.out.println("Inline: "
+ part.getFileName()
+ " : " + contentType);
} else {
System.out.println("Other: " + disposition);
}
}
这是从System.out.printlns
Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7"
--047d7b6220720b499504ce3786d7
Content-Type: text/plain; charset="ISO-8859-1"
'Text of the message here in normal text'
--047d7b6220720b499504ce3786d7
Content-Type: text/html; charset="ISO-8859-1"
Content-Transfer-Encoding: quoted-printable
'HTML code of the message'
此方法返回电子邮件的正常文本,但也返回邮件的HTML编码。我真的不明白为什么会发生这种情况,我用谷歌搜索了它,但似乎没有其他人遇到这个问题。
感谢任何帮助,
谢谢!
答案 0 :(得分:22)
我发现使用JavaMail库阅读电子邮件比预期困难得多。我不怪JavaMail API,而是因为我对RFC-822 - 互联网电子邮件的官方定义 - 的理解不够。
作为思想实验:考虑一下电子邮件在现实世界中的复杂程度。可以在消息中“无限地”嵌入消息。每条消息本身可能有多个附件(二进制或人类可读的文本)。现在想象一下解析后这个结构在JavaMail API中的复杂程度。
使用JavaMail遍历电子邮件时可能会有所帮助的一些提示:
Message
,Multipart
和BodyPart
全部实施Part
。在可能的情况下,将所有内容视为Part
。这将允许更容易地构建通用遍历方法。
这些Part
方法将有助于遍历:
String getContentType()
:从MIME类型开始。您可能会将此视为MIME类型(有一些黑客/剪切/匹配),但不要。最好只在调试器中使用此方法进行检查。
boolean isMimeType(String)
进行匹配。仔细阅读文档以了解强大的通配符,例如"multipart/*"
。Object getContent()
:可能会instanceof
:
Multipart
- 更多Part
s的容器
Multipart
,然后使用int getCount()
和BodyPart getBodyPart(int)
作为从零开始的索引进行迭代
BodyPart
实施Part
Part.isMimeType("text/plain")
Part.isMimeType("text/html")
Message
(实施Part
) - 嵌入或附加的电子邮件String
(只是正文 - 纯文本或HTML)
InputStream
(可能是BASE64编码的附件)String getDisposition()
:值可能为null
Part.ATTACHMENT.equalsIgnoreCase(getDisposition())
,则调用getInputStream()
以获取附件的原始字节。最后,我发现official Javadocs排除了com.sun.mail
包中的所有内容(可能还有更多内容)。如果您需要这些,请直接阅读代码,或者在downloading the source生成未经过滤的Javadoc并在项目的mvn javadoc:javadoc
项目模块中运行mail
。
答案 1 :(得分:7)
您是否找到了这些JavaMail FAQ条目?
答案 2 :(得分:1)
跟进Kevin的有用建议,分析您的电子邮件内容Java对象类型的规范名称(或简单名称)也会有所帮助。例如,查看我现在收到的一个收件箱,486条消息399是字符串,87条是MimeMultipart。这表明 - 对于我的典型的电子邮件 - 使用 instanceof 首先剥离字符串的策略是最好的。
在Strings中,394是text / plain,5是text / html。对大多数人来说情况并非如此;它反映了我在这个特定收件箱中的电子邮件。
但等等 - 还有更多!!! :-)尽管如此,HTML仍然存在:在87部分中,70部分是多部分/替代品。没有保证,但大多数(如果不是全部)都是TEXT + HTML。
在其他17个多部分中,顺便提一下,15个是多部分/混合,2个是多部分/签名。
我对此收件箱(以及另一个收件箱)的使用案例主要是汇总和分析已知的邮件列表内容。我不能忽略任何消息,但这种分析有助于我提高处理效率。