无论如何,从几个hunder URL列表中刮取facebook帐户链接

时间:2012-08-07 15:22:36

标签: python facebook screen-scraping

我有一份超过1500个与印度新闻媒体网站相关的网址列表。我有兴趣在我的大学项目中进行一些统计数据。

长话短说,我有兴趣了解这些网站中哪些网站的主页上有Facebook帐户的链接?这样做是一项繁琐的工作(到目前为止,我已完成了25%的工作),因此我一直在网上研究用程序抓取这些网站的任何可能性。我已经在scraperwiki上看到了刮刀以及主要在Google Docs中的importxml功能,但到目前为止,我还没有取得多大成功。

我在Google文档中尝试了针对给定网站的以下功能:

=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")

总的来说,如果每个网站的结构差别很大,我想询问是否有可能(以及如何)扫描给定网站(或列表)的特定href链接?

提前感谢您对此事的任何帮助。

标记

0 个答案:

没有答案