我正在尝试另一次,希望有更多细节。
所以我使用phantomjs来读取几乎完全动态生成的网站的源代码,并使用w3m来格式化它。它看起来像这样
exec('phantomjs sp.js http://randomwebsite.com > output.html ;w3m -dump output.html > formatted.txt);
过滤掉我想要的代码块后,看起来像这样:
AS Monaco Bayer Leverkusen
Borussia Dortmund Real Madrid
Dinamo Zagreb Juventus Turin
FC Kopenhagen FC Brügge
FC Sevilla Olympique Lyon
Leicester City FC Porto
我在此使用htmlentities并获得
AS Monaco Bayer Leverkusen
Borussia Dortmund Real Madrid
Dinamo Zagreb Juventus Turin
FC Kopenhagen FC Brügge
FC Sevilla Olympique Lyon
Leicester City FC Porto
这完全是我想要的。
当我用html调用它时,这个函数将返回这个确切的输出,但它只是没有...我得到每个特殊字符的所有问号,我只是穿上不知道为什么。一位朋友告诉我调查w3m,但也无法真正帮助我。
编辑:我刚刚测试了编码类型,并在使用了htmlentities之后得到了所有的ASCII
AS Monaco Bayer Leverkusen
ASCII ASCII
Borussia Dortmund Real Madrid
ASCII ASCII
Dinamo Zagreb Juventus Turin
ASCII ASCII
FC Kopenhagen FC Brügge
ASCII ASCII
FC Sevilla Olympique Lyon
ASCII ASCII
Leicester City FC Porto
ASCII ASCII
在html中我使用utf8之类的
<meta charset="utf-8"/>.
我也试过了
$string = iconv('ASCII', 'UTF-8//IGNORE', $string);
或
$string = mb_convert_encoding($string, "UTF-8");
但仍然保持不变