如何使用Yahoo Pipes获取页面名称?
我正在制作新闻/博客聚合器,并且需要知道信息来源的网站名称(bbc,cnn,fox等)。
我是否需要使用REGEX执行此操作?
任何有帮助的人?
答案 0 :(得分:1)
您可以使用来源菜单中的 XPath抓取页或抓取Feed 模块来抓取该页面。也许和其他人一起。
之后,您可以使用各种运算符(可能是正则表达式)或其他运算符来提取页面名称,具体取决于您使用的源页面和您想要获得的输出。
一般来说,您的问题过于宽泛且难以回答。为了帮助您入门,我创建了一个示例管道,用于从此帖子中提取问题的标题,该帖子基本上是当前页面的“页面名称”。
http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252
我使用 XPath Fetch Page 参数:
//div[@id="question-header"]
我通过检查此页面的源代码获得了div
路径,在那里我看到div#question-header
是问题的容器。我本可以选择更深的内部容器或更高级别的容器。这一切都取决于您需要的其他信息量。您希望从页面获得的信息越多,您选择的更高级别的容器。
接下来,我使用创建RSS 运算符来创建一个合适的RSS提要,其中包含以下参数:
h1.a
h1.a.href
我选择了这些元素,因为在我用xpath提取的容器中,页面名称在h1 a
内。在Yahoo Pipes中,您使用点作为路径分隔符。
答案 1 :(得分:0)
我找到了这个示例管http://pipes.yahoo.com/pipes/pipe.info?_id=69b5dce1c59501a0c64a660c1cfdb856。页面标题也包括网站的名称。我不确定你是否正在寻找这个。