Question

鉴于页面内容（其HTML），我怎样才能获得该文章的内容？

例如，本网站返回给定URL的文章内容：

http://embed.ly/docs/explore/extract?url=http%3A%2F%2Fwww.foxnews.com%2Fsports%2F2016%2F08%2F14%2Fryan-lochte-3-other-u-s-swimmers-robbed-in-brazil.html

但是，我不想使用他们的API。我已经使用了file_get_contents($url)，但我不知道如何获取的内容。

有什么想法吗？

Answer 1

$url = 'http://www.foxnews.com/sports/2016/08/14/ryan-lochte-3-other-u-s-swimmers-robbed-in-brazil.html';
$content = file_get_contents($url);
$first_step = explode( '<div class="article-text">' , $content );
$paras = explode("<p>" , $first_step[1] );

foreach($paras as $para ) {
   echo $para;
}

如果你想获取带有图像的内容，也可以使用其dom结构中使用的文章标签。

获取给定URL的文章内容

1 个答案: