雅虎管道和网站名称

时间:2013-08-31 05:50:37

标签: regex rss yahoo-pipes

如何使用Yahoo Pipes获取页面名称?

我正在制作新闻/博客聚合器,并且需要知道信息来源的网站名称(bbc,cnn,fox等)。

我是否需要使用REGEX执行此操作?

任何有帮助的人?

2 个答案:

答案 0 :(得分:1)

您可以使用来源菜单中的 XPath抓取页抓取Feed 模块来抓取该页面。也许和其他人一起。

之后,您可以使用各种运算符(可能是正则表达式)或其他运算符来提取页面名称,具体取决于您使用的源页面和您想要获得的输出。

一般来说,您的问题过于宽泛且难以回答。为了帮助您入门,我创建了一个示例管道,用于从此帖子中提取问题的标题,该帖子基本上是当前页面的“页面名称”。

http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252

我使用 XPath Fetch Page 参数:

  • 网址=此页
  • 使用XPath = //div[@id="question-header"]
  • 提取

我通过检查此页面的源代码获得了div路径,在那里我看到div#question-header是问题的容器。我本可以选择更深的内部容器或更高级别的容器。这一切都取决于您需要的其他信息量。您希望从页面获得的信息越多,您选择的更高级别的容器。

接下来,我使用创建RSS 运算符来创建一个合适的RSS提要,其中包含以下参数:

  • Title = h1.a
  • Link = h1.a.href

我选择了这些元素,因为在我用xpath提取的容器中,页面名称在h1 a内。在Yahoo Pipes中,您使用点作为路径分隔符。

答案 1 :(得分:0)

我找到了这个示例管http://pipes.yahoo.com/pipes/pipe.info?_id=69b5dce1c59501a0c64a660c1cfdb856。页面标题也包括网站的名称。我不确定你是否正在寻找这个。