我想从使用CP1251编码的网站获取一些信息。
use Goutte\Client;
use Nonlux\Bundle\Entity\News;
....
protected function downloadQueuePage(){
$cli = new Client();
$url=array_pop($this->_url);
$this->output->writeln("http://www.baikal-daily.ru" . $url);
$cra=$cli->request("get", "http://www.baikal-daily.ru" . $url);
$news=new News();
$news->setSiteId(1);
$news->setUrl($url);
$news->setTitle($cra->filter("#content .main h3")->text());
}
默认Crawler在某些页面上返回空节点h1,但它存在于页面上,并且布局类似有效。 经过代码Groute,Crawler和iconv的神奇之处。 在一个案例中,我得到了:
В Улан-Удэ трёхлетний мальчик упал в открытый колодец
упал в открытый колодец
�й колодец
дец
�
而不是:
В Улан-Удэ трёхлетний мальчик упал в открытый колодец
另一次,我从控制台收到了很多蜂鸣信号,这些信号会转储收到的页面。 我怎么解决这个问题?哪里可以找到邪恶的来源?