如果我想构建像google news这样的复杂网站,它会从其他网站收集数据。 像数据挖掘,爬行。我应该用哪种语言建立网站。
目前我只知道PHP。我能用PHP做到吗
答案 0 :(得分:2)
Python是这两项任务的理想语言。我无法轻易为所有可用的软件包命名,但第一个想到网络抓取的是Mechanize和BeautifulSoup。 Orange和NLTK实现了多种数据挖掘算法。
答案 1 :(得分:0)
听起来你需要构建两个应用程序,一些是抓取网页并将数据存储在数据库中,然后是一个网站来显示收集的数据。我会使用Perl抓取网络,因为它具有良好的字符串操作功能。