标签: php html dom screen-scraping
我正在尝试从网站上抓取一些内容,这通常非常合适。然而,这一次,在刮取内容时,我会得到一堆字符,带有问号的小钻石。
我正在抓取的网站和我自己的网站都使用UTF-8作为编码。奇怪的是,我可以完全抓住该网站的主页,但每当我试图刮掉不同的页面时,即使这些页面也使用UTF-8,这一切都搞砸了。为了简单起见,我只调用了file_get_html(),然后调用了一个简单的echo $ html-> plaintext,因此我的编码应该没有错误。
有谁知道如何解决这个问题? 提前致谢