如何使用Yahoo管道获取包含描述和图像的完整文章?

时间:2012-06-14 12:16:40

标签: regex rss yahoo-pipes

http://bit.ly/4z5IFj

此RSS Feed不包含帖子图片,可能是因为网站不正确地排列图像。图像来自标题,图像也没有完整(如在css中)

示例帖子:http://bit.ly/LEj3tj

<div id="newsItemComplete">
<p><img src="news_images/712315777drugs1.jpg" alt="Over 19,000 suspects ...." /></p>

<h2 class="completeNewsTitle" style="margin-top:10px;">Over 19,000 suspects ....</h2>   

<p class="newsDateStamp"  style="width:100%; float:left; margin:0;">June 14, 2012&nbsp;&nbsp;05:04 pm</p>
</div>

<div class="newsContent"  style="width:100%; float:left; clear:both; margin-bottom:5px;"> 

<p>The police have seized ....</p>         
</div> 
</div>
<div class="clearFix"></div>

<!-- control:news headline item ends here --><!-- control:category list starts here -->
<!-- control:category list ends here -->
<!-- headline news article  -->

我想获得与描述相对应的完整文章并获取图片, 有人可以帮忙吗?

2 个答案:

答案 0 :(得分:1)

干得好,但不太正确。

将管道输出放入网页时,不会显示任何图像,因为链接相对到原始网站而非您的网站。您可以使用正则表达式模块插入遗漏的URL的其余部分,并使链接绝对,但原始网站会对您热链接到他们的图片感到不满。

雅虎管道无法获取图像只能链接到它们。对于您的网站来说,获取这些图像的副本有点复杂,最好使用PHP从您的网站服务器进行所有抓取。

获取页面模块可能会在六个月或更短时间内消失,因此您确实需要开始使用 XPATH Fetch Page 模块现在

根据您的要求,这是一个不完整的管道。 http://pipes.yahoo.com/pipes/pipe.info?_id=d7aba8c124693f3af888838ca12ac547

BTW 不要忘记用自己的ID码替换广告和“喜欢”按钮,或者使用正则表达式模块完全删除它们

答案 1 :(得分:0)

我已经通过我自己修复了它,这里是它的截图。 它获取链接并获取我想要的部分并将其复制到描述中。

http://i.stack.imgur.com/CZ1lx.png