用于URL规范化的数据集

时间:2011-02-02 11:04:59

标签: c# dataset web-mining

我正在开发一个规范化URL的项目。(即应该识别映射到同一网页的不同URL,并且应该像搜索引擎一样减少冗余。)

所以我想要一个包含不同URL的数据集来测试我的方法。请提供规范化数据集的链接。

我正在用C#实现这个项目,我想要你的建议。提前谢谢。

1 个答案:

答案 0 :(得分:1)

由于您询问了 I'd like your suggestions ,请将您的问题保持在开放状态,从而接受您可能获得的建议,我会继续向您提出我的建议。虽然我承认我不是100%肯定你想解决什么问题?您是否要求提供程序/代码特定建议?如何设置这样一个项目的策略?或者您希望收集灵感/想法并改善现有工作流程?如果你正在寻找第三件事,我建议你看一下我的人工智能教师曾经给过的一个讲座的两个场景。让我们深入了解Ant殖民地如何组织起来:

  • 自上而下的方法:一个幻想想象一下,在一个反刍动物中的女王,为每个蚂蚁开辟他们到次级殖民地的路线,从而规范化各种蚂蚁所承担的多种痕迹路线。去同一个地方,然后似乎你想把蚂蚁组合在一起,让每个小组只用一条路线到他们的目标,并删除可能的重复路线。这是如何提高路线效率的一种方法。实际上,蚂蚁实际上的工作方式不同:

  • 自下而上的方法:现实: 一只蚂蚁没什么意义,但是当一个整个蚁群被研究时,一个组织就会揭示出来。这是因为蚂蚁自己跟随其他蚂蚁的气味痕迹,这样跟随彼此并最终找到通往巢穴的方式。这样,聪明并不需要来自中央数据库的上方/中心,但每个蚂蚁中内置的一小部分智能将使相同的路径可重用。 >>通过这种方式,您可能希望在每个需要规范化的超链接中构建规范化技术。

我希望这可以为您提供您所希望的建议,否则如果您的问题不是基于策略而是与特定的代码问题相关,请在其中提出程序代码问题,这通常比找到最佳策略更容易解决。祝好运!我的2美分。