我正在围绕链接传播构建智能,因为我需要处理许多短URL服务,其中需要从确切的URL地址进行反向查找,我需要能够解析多个近似版本的相同的网址。
一个例子是像http://www.example.com?ref=affil&hl=en&ct=0
这样的网址当然,在某些情况下更改GET参数可能会引用一个完全不同的页面,特别是如果有问题的GET参数指的是个人资料或内容ID。
但是,快速解析页面会很快确定页面彼此之间的相似程度。使用一点机器学习,可以很快清楚哪些GET参数不会影响给定站点返回的页面内容。
我假设发送一个URL的服务并获得一个非常相似的URL列表只能由谷歌或雅虎(或Twitter)等提供,但他们似乎没有提供此功能,我没有找到任何其他服务。
如果您知道以上述方式将几乎相同网址组聚集在一起的任何服务,请告知我们。
我的恩惠是一个拥抱。
答案 0 :(得分:0)
每个网址都类似于互联网上数据位置的“地址”。 URL的“主机”部分(在您的示例中为“www.example.com”)是一个Web服务器,或者是世界某处的一组Web服务器。如果我们将URL视为“地址”,则主机可以是“国家/地区”。
该国家本身可能会跟踪进入它的每一封邮件。有些人有,有些则没有。我在谈论网络服务器!当然,真实的国家并没有记下你收到的每一封邮件! : - )
但即使那个“国家”跟踪每一封邮件 - 我真的怀疑他们是否有任何机制将该清单发送给您。
至于那些可能会自行收割的组织,我认为最好的选择是Google,但即便如此,情况也相当严峻。你知道,因为谷歌不是世界上每个网络服务器(“国家”)的所有者,他们不能知道访问该网络服务器的每个URL。
但是他们可以做相反的事情。由于他们可以索引他们遇到的每个页面,因此他们可以很好地了解Web上公共HTML页面中显示的每个URL。当然,这不包括人们通过聊天,短信或电子邮件发送给对方的URL。但是,他们仍然可以很好地了解存在哪些URL。
我想我想说的是,你所寻找的东西真的不存在。您可以获取用于访问单个网站的所有网址的唯一方法是该网站的所有者。
对不起,伙计。
答案 1 :(得分:0)
听起来你需要在页面之间创建某种离散的相似性等级。这可以通过找到两页之间的相似单词的数量并将该值归一化到有界范围然后将该范围的某些部分映射到不同的相似性等级来完成。
您还需要知道每一对您比较它们共有的GET参数或它们的接近程度。此信息将成为定义每个实例的属性(存储在上面提到的排名旁边)。在积累了几百个比较后,您可以选择一些特征子集来识别GET参数,这些参数最能识别两个页面的相似程度。
当然,这可能最终找不到任何有用的东西,因为这个数据集很可能包含很多噪音。
如果您对此方法感兴趣,您应该查看Infogain和一般的子集选择。这是我教授讲课的链接,可能会派上用场。 http://stuff.ttoy.net/cs591o/FSS.html