是否有办法使用PHP识别外部网站上最大的文本正文并将其删除标签。
这个想法是这种技术可以在没有广告,侧栏,页眉,页脚和小部件的情况下提取信息。它将在低峰值时间在Cron中运行,这意味着加载时间不会成为问题。
答案 0 :(得分:0)
我没有为您提供答案/代码段,但您应该考虑研究“屏幕/网页抓取”来捕获数据。然后使用“正则表达式”来计算字符和条带标签等。使用这两种方法,您将能够实现最终目标。祝你好运
这是从www.jacobward.co.uk开始的。这将允许您捕获变量中的网页。
<?php
// Defining the basic cURL function
function curl($url) {
$ch = curl_init(); // Initialising cURL
curl_setopt($ch, CURLOPT_URL, $url); // Setting cURL's URL option with the $url variable passed into the function
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); // Setting cURL's option to return the webpage data
$data = curl_exec($ch); // Executing the cURL request and assigning the returned data to the $data variable
curl_close($ch); // Closing cURL
return $data; // Returning the data from the function
}
$scraped_website = curl("http://www.example.com"); // Executing our curl function to scrape the webpage http://www.example.com and return the results into the $scraped_website variable
?>
Regular Expressions Webcheatsheet
我之前尝试过,发现它非常复杂,因此失败了。祝你好运