我有一份超过1500个与印度新闻媒体网站相关的网址列表。我有兴趣在我的大学项目中进行一些统计数据。
长话短说,我有兴趣了解这些网站中哪些网站的主页上有Facebook帐户的链接?这样做是一项繁琐的工作(到目前为止,我已完成了25%的工作),因此我一直在网上研究用程序抓取这些网站的任何可能性。我已经在scraperwiki上看到了刮刀以及主要在Google Docs中的importxml
功能,但到目前为止,我还没有取得多大成功。
我在Google文档中尝试了针对给定网站的以下功能:
=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")
总的来说,如果每个网站的结构差别很大,我想询问是否有可能(以及如何)扫描给定网站(或列表)的特定href链接?
提前感谢您对此事的任何帮助。
标记