解析一个网站

时间:2010-04-06 20:08:30

标签: parsing programming-languages web

我想制作一个以用户输入网站地址的程序。然后程序进入该网站,下载,然后解析内部信息。它使用网站上的信息输出一个新的html文件。

具体来说,该程序将从网站获取某些链接,并将链接放在输出html文件中,它将丢弃其他所有内容。

现在我只想为不需要登录的网站制作它,但稍后我想让它适用于您必须登录的网站,因此它必须能够处理cookie。

我还想稍后让该程序能够探索某些链接并从其他网站下载信息。

最好的编程语言或工具是什么?

2 个答案:

答案 0 :(得分:3)

强烈推荐

Beautiful Soup(Python),但我个人没有经验。

答案 1 :(得分:1)

的Python。

使用python的标准库编写一个简单的爬虫相当容易,但你也可以在网上找到一些现有的python爬虫库。