从html源提取电子邮件地址

时间:2012-02-10 05:09:06

标签: java html email extract

我从网页中提取了html源代码,并想知道如何从该源提取电子邮件地址等文本。我正在考虑使用像

这样的jsoup
public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

但这也会给我带来很多不需要的文字。

2 个答案:

答案 0 :(得分:0)

您可以删除所有标记(除非电子邮件位于标记内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常会将其标记为电子邮件,如果它在单词中包含@并且在单词后面找到.。根据标准电子邮件格式,许多电子邮件将不匹配(例如"hello world@domain.com")。是的电子邮件支持@之前的空格字符!

答案 1 :(得分:0)

正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看Pattern和Matcher类。