我从网页中提取了html源代码,并想知道如何从该源提取电子邮件地址等文本。我正在考虑使用像
这样的jsouppublic static String html2text(String html) {
return Jsoup.parse(html).text();
}
但这也会给我带来很多不需要的文字。
答案 0 :(得分:0)
您可以删除所有标记(除非电子邮件位于标记内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常会将其标记为电子邮件,如果它在单词中包含@
并且在单词后面找到.
。根据标准电子邮件格式,许多电子邮件将不匹配(例如"hello world@domain.com"
)。是的电子邮件支持@
之前的空格字符!
答案 1 :(得分:0)
正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看Pattern和Matcher类。