Question

我从网页中提取了html源代码，并想知道如何从该源提取电子邮件地址等文本。我正在考虑使用像

这样的jsoup

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

但这也会给我带来很多不需要的文字。

Answer 1

您可以删除所有标记（除非电子邮件位于标记内）。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常会将其标记为电子邮件，如果它在单词中包含@并且在单词后面找到.。根据标准电子邮件格式，许多电子邮件将不匹配（例如"hello world@domain.com"）。是的电子邮件支持@之前的空格字符！

Answer 2

正如Shiplu所说，我认为最好的解决方案是使用正则表达式，如果您使用的是Java，请查看Pattern和Matcher类。

从html源提取电子邮件地址

2 个答案: