解码JavaScript编码的内容

时间:2017-07-16 05:14:14

标签: javascript php

我正在编写一个网络抓取工具来收集电子邮件地址。下载HTML内容并使用DomCrawler解析后,我得到此节点值:

<!--
document.write("<a rel='nofollow' href='mailto:&#104;&#105;&#101;&#117;&#98;&#100;&#115;&#104;&#97;&#112;&#112;&#121;&#64;&#103;&#109;&#97;&#105;&#108;&#46;&#99;&#111;&#109;'>&#104;&#105;&#101;&#117;&#98;&#100;&#115;&#104;&#97;&#112;&#112;&#121;&#64;&#103;&#109;&#97;&#105;&#108;&#46;&#99;&#111;&#109;");
//-->This email address has been protected. You need to enable JavaScript to view the content.

我怎么解码呢?

1 个答案:

答案 0 :(得分:2)

该值只是原始字符串中字符的html编码值,因此在PHP中,您可以使用html_entity_decode来获取原始文本。

$returnValue = html_entity_decode('mailto:&#104;&#105;&#101;&#117;&#98;&#100;&#115;&#104;&#97;&#112;&#112;&#121;&#64;&#103;&#109;&#97;&#105;&#108;&#46;&#99;&#111;&#109;'>&#104;&#105;&#101;&#117;&#98;&#100;&#115;&#104;&#97;&#112;&#112;&#121;&#64;&#103;&#109;&#97;&#105;&#108;&#46;&#99;&#111;&#109;', ENT_COMPAT);

请参阅:https://www.functions-online.com/html_entity_decode.html