web scrape php带有可点击的链接

时间:2017-05-12 20:49:55

标签: php hyperlink scrape

我正在尝试做一个有趣的小项目,其中我基本上从新闻网站获取头条新闻,使用php将其镜像/镜像到其他网站,然后实际显示在新网站上的数据是可点击链接到原始网站。如果这有点令人困惑,让我举个例子。

http://www.wilsonschlamme.com/test.php 就在那里,我正在使用php从antrimreview(本地密歇根新闻网站)中删除包含在< span = class>。 我选择了span class,因为这是他们头条新闻所在的位置。我只是将antrim用于测试目的,我与他们没有任何关系。

*我想知道的是,我不知道该怎么做,实际上是将这些标题重新显示在我的测试网站上,作为可点击的链接。换句话说,保留< a href>这些标题包含完整文章的可点击链接。换句话说,在antrim网站上,这些标题是可点击的完整页面链接。当我在我的测试网站上镜像时,显然没有链接,因为没有任何东西可以抓取数据。

有谁知道如何做到这一点?或任何想法?真的很感激,这是一个有趣的项目,只是缺乏如何完成它的知识。

哦,我知道口袋妖怪的参考文献在下面是笨拙的。这是因为我正在使用最初来自教程的代码lol:

<?php
$html = file_get_contents('http://www.antrimreview.net/'); //get the html 
returned from the following url

$pokemon_doc = new DOMDocument();

libxml_use_internal_errors(TRUE); //disable libxml errors

if(!empty($html)){ //if any html is actually returned

$pokemon_doc->loadHTML($html);
libxml_clear_errors(); //remove errors for yucky html

$pokemon_xpath = new DOMXPath($pokemon_doc);

//get all the h2's with an id
$pokemon_row = $pokemon_xpath->query('//span[@class]');

 if($pokemon_row->length > 0){
  foreach($pokemon_row as $row){
      echo $row->nodeValue . "<br/>";
  }
 }
 }
 ?>

1 个答案:

答案 0 :(得分:-1)

我实际上发现只使用CNN rss feed很简单,使用冲浪波来生成代码。无论如何,这些建议。