我有一个从Google搜索中抓取的网址列表。我想将网站分为公司/业务,博客,新闻,体育等类别。
搜索和抓取Google搜索是使用Python脚本完成的。
我不知道如何分隔URL。有人可以帮我吗?
答案 0 :(得分:1)
编写自己的程序来对网站进行分类并不容易。您可能需要开发一个基于AI的系统,该系统将访问每个站点以刮取必要的数据,并根据所刮取的数据和关键字确定是哪种类型的站点。这是我的主意,也许有更好的方法可以做到这一点。
您应该使用第三方网站。有许多付费和免费的网站类别详细信息提供者。要对网站进行分类,请查看以下资源:SimilarWeb,Webshrinker,Symantec,cyren。希望这些会有所帮助。