我的网络上有大约100万个用户活动的URI日志,我想知道这些100万用户中有多少用于Facebook,有多少用于Twitter,等等。 将cdn.xyz.twitter.com,platform.twitter.com等URI链接到Twitter很容易 但是,我面临的问题是,我无法将捕获的网址中不超过40%链接到真实网站,例如xys.1234.com这样的网址可以在facebook中显示,但是该URL和facebook.com域之间没有链接,因此只会被列为独立网站,这是错误的(或者不是我想要的)。
此外,所有API调用也不会轻易链接到他们的域名,因为某些网站可能正在使用亚马逊网络服务以及正在记录的内容。
许多URI都是通过广告服务生成的,我想知道这个广告的生成地点(用户点击广告在哪个网站或移动应用上?)。
URI的快照,以便您了解整个图片。
答案 0 :(得分:0)
您是否正在尝试匹配传出请求?您如何知道访问xyz.1234.com的用户是通过Facebook而不是通过在地址栏中键入URL而独立完成的?或者点击其他页面的链接?您的日志不包含可以告诉您哪个网址链接到哪个网页的信息。没有其他信息来源,您无法确定。
您可以检查多个用户的请求以及推断关系。也就是说,如果您注意到对xyz.1234.com的所有(或大部分)请求发生在Facebook请求之后,您可以推断该请求是由于在Facebook页面上单击而发生的。这样做需要一些有趣的模式匹配。它的工作原理将取决于您需要处理多少数据,编写模式匹配的程度以及您愿意让算法运行的时间。
但是,没有简单的答案。如果您没有明确说明的数据,那么此请求是通过点击来自Twitter的链接进行的,"那么你必须得到另一个信息来源,或者你必须编写推断该信息的代码。