PHP - 在外部网页上查找最大的文本正文

时间:2014-02-02 13:01:25

标签: php text external extract

是否有办法使用PHP识别外部网站上最大的文本正文并将其删除标签。

这个想法是这种技术可以在没有广告,侧栏,页眉,页脚和小部件的情况下提取信息。它将在低峰值时间在Cron中运行,这意味着加载时间不会成为问题。

1 个答案:

答案 0 :(得分:0)

我没有为您提供答案/代码段,但您应该考虑研究“屏幕/网页抓取”来捕获数据。然后使用“正则表达式”来计算字符和条带标签等。使用这两种方法,您将能够实现最终目标。祝你好运

这是从www.jacobward.co.uk开始的。这将允许您捕获变量中的网页。

<?php
    // Defining the basic cURL function
    function curl($url) {
        $ch = curl_init();  // Initialising cURL
        curl_setopt($ch, CURLOPT_URL, $url);    // Setting cURL's URL option with the $url variable passed into the function
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); // Setting cURL's option to return the webpage data
        $data = curl_exec($ch); // Executing the cURL request and assigning the returned data to the $data variable
        curl_close($ch);    // Closing cURL
        return $data;   // Returning the data from the function
    }




$scraped_website = curl("http://www.example.com");  // Executing our curl function to scrape the webpage http://www.example.com and return the results into the $scraped_website variable

?>

Web/Screen Scraping维基百科

Regular Expressions Webcheatsheet

我之前尝试过,发现它非常复杂,因此失败了。祝你好运