我希望从具有多页发布的网站上提取职位发布。我可以从一页中提取内容
在一个简单的例子中,我可以让它迭代并抓取页面内容(这是一个简单的示例站点基础)
然而,当我拿第一个例子并尝试清理数据时(我不能使用Xpath过滤器来获取HTML id,而我似乎找到了一种方法来限制其他地方的范围。这就是我的意思我正在尝试(正则表达式,重命名...): http://pipes.yahoo.com/pipes/pipe.edit?_id=3619ea93d66e47442659a1976746ba6c
有什么想法吗?