YQL刮掉整个网站/域名

时间:2009-12-21 14:18:18

标签: screen-scraping html-content-extraction yql

我正在尝试从域中搜索一组链接和内容。

Google中的查询将是

"site:www.newswebsite.com search_term"

我已经看到了一些关键的东西让这个工作,但我似乎无法在整个网站上进行搜索,然后按搜索词过滤。

如果没有自定义数据表,这可能吗?

2 个答案:

答案 0 :(得分:2)

我最终到底了。

select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse()

此搜索3个站点,按日期排序,最新搜索。还有另一种方法来反转排序,但这似乎现在有效。我认为它在sort(field ='date',descending ='true')中是降序= true

非常有用,即使我自己这样说。

答案 1 :(得分:0)

Christian Heilmann刚刚在YQL上写了一篇相当不错的文章,并从24ways website上的HTML数据源中获取信息。