假设:
网址 - http://www.contoso.com/search.php?q= {param}返回:
-html-
--body-
{...}
--- div id ='foo'-
---- div id ='page1'/ -
---- div id ='page2'/ -
---- div id ='page3'/ -
---- div id ='pageN'/ -
--- / div-
{...}
- /体佩
- / HTML -
通缉:
问题:
答案 0 :(得分:8)
您可以使用YQL模块,它允许您获取任意URL,然后使用XPath解析它们。示例YQL查询:
select * from html where url="http://finance.yahoo.com/q?s=yhoo" and
xpath='//div[@id="yfi_headlines"]/div[2]/ul/li/a'
答案 1 :(得分:4)
是的,这对Y来说是可行的!管道。您只需要“操作员”部分中的两个模块:
首先获取内容的“子元素”。
然后只需使用“Regex”模块提取div内容并通过您网站的JSON获取:
搜索:
^.*?<div id="foo">(.*?)</div>.*?$
替换:
$ 1