在PHP中引用问题

时间:2015-04-11 07:18:08

标签: php web-scraping

我从泰卢固语站点获取数据:

enter image description here

当我得到“ Suriya的'24'法律纠结”这种字符串然后该引用不被php函数识别并且它被转换为不同的字符(Issue Link)。 / p>

代码:     

//
include "simple_html_dom.php";
// Get news from telugu site
$url = "http://www.123telugu.com/category/mnews";

$html = file_get_html($url);
$divs = $html->find('div.leading');
$result = array();
$status = FALSE;
$i = 0;
foreach ($divs as $d) {
    $status = TRUE;
    $title = $d->find('a', 0)->plaintext;
    $result[$i]['Title'] = $title;
    $link = $d->find('a', 0)->href;
    $result[$i]['Link'] = $link;
    $title = trim(mysql_real_escape_string($title));  // code for title
    $html = file_get_html($link);
    // code for image
    $image = '';
    foreach ($html->find('div.post-content') as $im) {
        $image = $im->find('img', 0)->src; // code for  image
    }
    $image = trim(str_replace('//', '', $image));
    $result[$i]['Image'] = $image;
    // code for content
    $content = '';
    foreach ($html->find('div.post-content p') as $co) {
        $content.= $co->plaintext;   // code for content
    }
    $result[$i]['Content'] = $content;
    $i++;
}

echo json_encode(array('Status' => $status, 'Data' => $result));

3 个答案:

答案 0 :(得分:0)

htmlspecialchars_decode()可能是您正在寻找的功能。只需使用此功能从剪贴板运行最终输出。它应该解码所有特殊的HTML编码字符。

退房:http://php.net/htmlspecialchars_decode

答案 1 :(得分:0)

我们必须在页面顶部添加以下代码。将解决问题。

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

答案 2 :(得分:0)

解决方案:

$string= iconv('utf-8', 'us-ascii//TRANSLIT', $string);