php json request:json_decode unicode string

时间:2016-03-17 17:56:58

标签: php json unicode-normalization

我尝试获取此json URL的内容: http://www.der-postillion.de/ticker/newsticker2.php

问题似乎是“文本”的内容在其中具有Unicode。

每次我尝试获取json_decode时,它都会以NULL结束...之前从未遇到过这个问题。总是这样拉着json:

$news_url_postillion = 'http://www.der-postillion.de/ticker/newsticker2.php';
$file = file_get_contents($news_url_postillion, false, $context);
$data = json_decode($file, TRUE);

//debug
print_r(array($data));

$news_text = $data['tickers'];

//test
echo $news_text->text[0]; //echo first text element for test

foreach($news_text as $news){
    $news_text_output = $news->{'text'};
    echo 'Text:' . echo $news_text_output; . '<br>';
} 

有人知道这里有什么问题吗?尝试使用以下内容使编码工作数小时:

header("Content-Type: text/json; charset=utf-8");

$opts = array(
  'http'=>array(
    'method'=>"GET",
    'header'=>"Content: type=application/json\r\n" . 
                "Content-Type: text/html; charset=utf-8"
  )
);

$context = stream_context_create($opts);

但没有运气:(

感谢您的帮助!

解决方案:

json源中包含一些不需要的元素,比如json start中的BOM字符。我无法影响源json,所以提供的解决方案 walkingRed 让我走上正轨。由于他的代码仅适用于没有特殊字符的英语语言,因此只需要utf8_decode。

我用于解析和输出json的工作代码解决方案是:

<?php
// Postillion Newsticker Parser
$news_url_postillion = 'http://www.der-postillion.de/ticker/newsticker2.php';
$json_newsDataPostillion = file_get_contents($news_url_postillion);

// Fix the strange json source BOM stuff
$obj_newsDataPostillion = json_decode(preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $json_newsDataPostillion), true);

//DEBUG
//print_r($result);

foreach($obj_newsDataPostillion['tickers'] as $newsDataPostillion){
    $newsDataPostillion_text = utf8_decode($newsDataPostillion['text']);
    echo 'Text:' . $newsDataPostillion_text . '<br>';
};
?>

2 个答案:

答案 0 :(得分:2)

我做了一些搜索并得到了这个:

$result = json_decode(preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $file), true);

Original post

答案 1 :(得分:0)

BOM!您链接的文档开头有一个BOM字符,在尝试解码其内容之前需要将其删除。

你可以看到它,例如如果你要用wget下载那个json并用less来显示它。