我想制作一个以用户输入网站地址的程序。然后程序进入该网站,下载,然后解析内部信息。它使用网站上的信息输出一个新的html文件。
具体来说,该程序将从网站获取某些链接,并将链接放在输出html文件中,它将丢弃其他所有内容。
现在我只想为不需要登录的网站制作它,但稍后我想让它适用于您必须登录的网站,因此它必须能够处理cookie。
我还想稍后让该程序能够探索某些链接并从其他网站下载信息。
最好的编程语言或工具是什么?
答案 0 :(得分:3)
Beautiful Soup(Python),但我个人没有经验。
答案 1 :(得分:1)
的Python。
使用python的标准库编写一个简单的爬虫相当容易,但你也可以在网上找到一些现有的python爬虫库。