我想制作一个以编程方式访问搜索引擎的工具。
我最近很享受使用YQL,并认为它可能很有用,因为它可以从HTML页面中挖掘数据。
但我尝试使用Google,Bing和Yahoo搜索,他们似乎都阻止了YQL。
我想知道是否有一些鲜为人知的网页搜索网站可能与YQL一起使用。
或者实际上,如果还有任何搜索引擎提供的API会更好。
(事实上我只搜索linguistics.stackexchange.com,因为Stack Exchange API没有提供我可以找到的文本搜索方式。)
答案 0 :(得分:1)
大多数搜索引擎网站都会阻止屏幕抓取工具和其他代理商访问。 YQL旨在尊重robots.txt
文件,因此在许多类似的网站上它都不起作用。
相反,我建议在HTML屏幕抓取之上移动一步并使用已发布的搜索API。
例如,在YQL中,有一个表可以访问Bing搜索结果:
select * from microsoft.bing where query="soccer" and source in ("web","image")
您还可以查看Yahoo! BOSS API或直接使用Bing Search API。