应用错误收集

我有一份超过1500个与印度新闻媒体网站相关的网址列表。我有兴趣在我的大学项目中进行一些统计数据。

长话短说，我有兴趣了解这些网站中哪些网站的主页上有Facebook帐户的链接？这样做是一项繁琐的工作（到目前为止，我已完成了25％的工作），因此我一直在网上研究用程序抓取这些网站的任何可能性。我已经在scraperwiki上看到了刮刀以及主要在Google Docs中的importxml功能，但到目前为止，我还没有取得多大成功。

我在Google文档中尝试了针对给定网站的以下功能：

=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")

总的来说，如果每个网站的结构差别很大，我想询问是否有可能（以及如何）扫描给定网站（或列表）的特定href链接？

提前感谢您对此事的任何帮助。

标记

无论如何，从几个hunder URL列表中刮取facebook帐户链接

0 个答案: