简单的HTML DOM刮取字符编码问题

时间:2012-05-27 19:44:44

标签: php html dom screen-scraping

我正在尝试从网站上抓取一些内容,这通常非常合适。然而,这一次,在刮取内容时,我会得到一堆字符,带有问号的小钻石。

我正在抓取的网站和我自己的网站都使用UTF-8作为编码。奇怪的是,我可以完全抓住该网站的主页,但每当我试图刮掉不同的页面时,即使这些页面也使用UTF-8,这一切都搞砸了。为了简单起见,我只调用了file_get_html(),然后调用了一个简单的echo $ html-> plaintext,因此我的编码应该没有错误。

有谁知道如何解决这个问题? 提前致谢

0 个答案:

没有答案