来自URL的内容分类

时间:2011-02-17 03:13:25

标签: url open-source taxonomy classification web-content

给定n个原始URL,我希望能够通过以下方式对它们进行分类: 新闻,博客,照片和视频。

一个例子是,如果链接将用户引导到照片,是否足以说原始链接包含图像的文件扩展名,以便能够将原始URL分类为照片?

至于视频,博客和新闻,似乎还不足以拥有一组将原始网址分类的域名(如http://www.youtube.com)。

可以通过检查网络内容来完成分类吗?或者是否有任何开源工具?

1 个答案:

答案 0 :(得分:1)

甚至可能在某种程度上可靠分类的唯一URL是那些指向不同媒介的URL(即http://foo.com/foo.jpg肯定是图像)。否则,您必须分析页面的内容。

这可能有点棘手,因为Flash可能包含照片,视频或两者都没有,而没有提供有关flash对象内容的任何可搜索线索。有了足够的努力,这显然可以克服(谷歌做到了!),但我不知道任何提供媒体相关域库的开源资源。这些数据来自无数的程序员工作时间 - 通常寻求投资回报(ROI)的努力。例如,ClueWeb09只是下载页面的数据集,用于测试搜索算法 - 没有真正排序或分类。

“有时候没有任何帮助。”