Question

我正在尝试做一个有趣的小项目，其中我基本上从新闻网站获取头条新闻，使用php将其镜像/镜像到其他网站，然后实际显示在新网站上的数据是可点击链接到原始网站。如果这有点令人困惑，让我举个例子。

http://www.wilsonschlamme.com/test.php 就在那里，我正在使用php从antrimreview（本地密歇根新闻网站）中删除包含在＆lt; span = class＆gt;。我选择了span class，因为这是他们头条新闻所在的位置。我只是将antrim用于测试目的，我与他们没有任何关系。

*我想知道的是，我不知道该怎么做，实际上是将这些标题重新显示在我的测试网站上，作为可点击的链接。换句话说，保留＆lt; a href＆gt;这些标题包含完整文章的可点击链接。换句话说，在antrim网站上，这些标题是可点击的完整页面链接。当我在我的测试网站上镜像时，显然没有链接，因为没有任何东西可以抓取数据。

有谁知道如何做到这一点？或任何想法？真的很感激，这是一个有趣的项目，只是缺乏如何完成它的知识。

哦，我知道口袋妖怪的参考文献在下面是笨拙的。这是因为我正在使用最初来自教程的代码lol：

<?php
$html = file_get_contents('http://www.antrimreview.net/'); //get the html 
returned from the following url

$pokemon_doc = new DOMDocument();

libxml_use_internal_errors(TRUE); //disable libxml errors

if(!empty($html)){ //if any html is actually returned

$pokemon_doc->loadHTML($html);
libxml_clear_errors(); //remove errors for yucky html

$pokemon_xpath = new DOMXPath($pokemon_doc);

//get all the h2's with an id
$pokemon_row = $pokemon_xpath->query('//span[@class]');

 if($pokemon_row->length > 0){
  foreach($pokemon_row as $row){
      echo $row->nodeValue . "<br/>";
  }
 }
 }
 ?>

Answer 1

我实际上发现只使用CNN rss feed很简单，使用冲浪波来生成代码。无论如何，这些建议。

web scrape php带有可点击的链接

1 个答案: