我尝试确定Google Analytics默认脚本实际收集的数据。看似简单的问题似乎没有明确的答案。
我知道他们(例如)收集了IP地址,屏幕分辨率,操作系统等等......但我根本找不到完整的清单。我还列出了可以收集的所有可能维度和指标,但不是“默认”分析脚本。
我要求提供Google Analytics默认收集的所有数据的列表。
答案 0 :(得分:0)
如果你深入挖掘,你会发现大量有关Google Analytics架构的文献。
根据官方文件:
Google Analytics的工作原理是包含一段JavaScript代码 在您网站的页面上。当用户访问您的网站时,请查看此页面 JavaScript代码引用一个JavaScript文件然后执行 Google Analytics的跟踪操作。跟踪操作检索 有关页面请求的数据通过各种方式发送 通过附加的参数列表向Analytics服务器提供信息 到单像素图像请求。
来源:How Does Google Analytics Collect Data?
补充阅读:Google Analytics Features
答案 1 :(得分:0)
我想要了解GA收集的信息,最好先了解一下Google的总体政策:
“我们收集信息以便为所有用户提供更好的服务 - 从找出您说的语言等基本内容到更复杂的内容,例如您认为最有用的广告,以及对您最重要的人或者您可能喜欢的YouTube视频。
我们以两种方式收集信息:
您提供给我们的信息。例如,我们的许多服务都要求您注册Google帐户。当您这样做时,我们会要求您提供个人信息,例如您的姓名,电子邮件地址,电话号码或信用卡。如果您想充分利用我们提供的共享功能,我们可能还会要求您创建一个公开显示的Google个人资料,其中可能包含您的姓名和照片。
我们从您使用我们的服务中获得的信息。我们会收集有关您使用的服务以及如何使用这些服务的信息,例如您在YouTube上观看视频,访问使用我们广告服务的网站,或者查看我们的广告和内容并与之互动......“
答案 2 :(得分:0)
...确定默认脚本实际上收集了哪些数据...。我还列出了可以收集的所有可能的维度和指标
需要明确的是,GA收集的信息多于与Analytics(分析)使用者共享的信息。尽管他们的客户端脚本可能允许收集其他数据(例如自定义查询字符串参数),但无论每个分析用户选择使用什么,他们收集的数据似乎在每个站点上都是相似的(除了一些配置项,例如“ anonymizeIp”。
Google's policies are cleverly worded to indicate that turning on "Advertising Features"不一定会改变他们通过GA收集的内容,除了可能存在新的cookie之外:
通过启用广告功能,您可以启用Google Analytics(分析) 通过Google广告Cookie收集有关您流量的数据,并 标识符
鉴于GA是否真正GDPR compliant(包括IP地址,Cookie标识符和GPS位置作为“个人数据”)含糊不清,了解GA收集的内容(即使您不要求也是如此)尤为重要“)。
Google Analytics(分析)是一个不断发展的目标,但是具有在给定时间点泄露给Google Analytics(分析)的有关客户端和浏览器的标识信息的快照很有价值,
即使有些过时,此分析还是使用Manually Deobfuscated Google Analytics javascript file快照拍摄的,拍摄时间为2018年3月27日。
要在分析JS中寻找的一些关键对象:DOCUMENT, WINDOW, NAVIGATOR, SCREEN, LOCATION
以下是GA 使用的项目(不一定意味着此数据以原始格式发送回google)。
Data Utilized | Code Snippet
------------- | ------------
Url | LOCATION.protocol + "//" + LOCATION.hostname + LOCATION.pathname + LOCATION.search
ReferringPage | DOCUMENT.referrer
PageTitle | DOCUMENT.title
HowLongIsPageVisible | DOCUMENT.visibilityState .. DOCUMENT,"visibilitychange"
DocumentSize | DOCUMENT.documentElement .clientWidth && .clientHeight
ScreenResolution | SCREEN.width SCREEN.height
ScreenColors | SCREEN.colorDepth + "-bit"
ClientSize | e = document.body; e.clientWidth && e.clientHeight
ViewportSize | 0 >= ca[0] || 0 >= ca[1] ? "" : ca.join("x")
FlashVersion | getFlashVersion
Encoding | characterSet || DOCUMENT.charset
JSONAvailable | window.JSON
JavaEnabled | NAVIGATOR.javaEnabled()
Language | NAVIGATOR.language || NAVIGATOR.browserLanguage
UserAgent | NAVIGATOR.userAgent
Timezone/LocalTime | c.getTimezoneOffset(), c.getYear(), c.getDate(), c.getHours(), c.getMinutes()
PerformanceData | WINDOW.performance || WINDOW.webkitPerformance ... loadEventStart,domainLookupEnd,domainLookupStart,connectStart,responseStart,requestStart,responseEnd,responseStart,fetchStart,domInteractive,domContentLoadedEventStart
Plugins | NAVIGATOR.plugins
SignalUserLeaving | navigator.sendBeacon() // how long the user was on the page
HistoryLength | WINDOW.history.length // number of pages viewed with this browser tab
IsTopSiteForUser | navigator.loadPurpose // "Top Sites" section of Safari
NameOfPage (JS) | WINDOW.name
IsFrame | WINDOW.top != WINDOW
IsEmbedded | WINDOW.external
RandomData | WINDOW.crypto.getRandomValues // because of the try/catch, it doesn't appear to leak anything other than random values
ScriptTags | getElementsByTagName("script"); // probably for Ads, AutoLink decorating [https://support.google.com/analytics/answer/4627488?hl=en] and cross-domain tracking [https://developers.google.com/analytics/devguides/collection/analyticsjs/cross-domain]
Cookies (JS) | DOCUMENT.cookie.split(";") // limited to cookies not marked as server only
默认情况下,GA似乎仅显式地收集记录为特定于Google Analytics(分析)的查询字符串参数。但请记住,它们还具有可用于提取此数据的服务器端,查询字符串和哈希的完整URL:
_ga
_gac
gclid
gclsrc
dclid
utm_id
utm_campaign
utm_source
utm_medium
utm_term
utm_content
他们可以选择从浏览器捕获请求标头上的任何内容。最值得注意的是:
Cookies (Google) | for the google analytics domain, to track the user between sites
IP Address | (parameter "anonymizeIp" claims to anonymize the IP address)
Browser w/ version |
Operating system |
Device Type |
Referer | (in this context, only the url of the page the client is currently on)
X-Forwarded-For | Is a proxy being used? And, if not used for privacy, the actual IP address
Javascript enabled
Cookies enabled
其他一些容易获得的指标,但GA 没有似乎可以访问:
Canvas Supported
CPU Architecture
CPU Number of cores
AudioContext Supported
Bluetooth Supported
Battery Status
Memory (RAM)
Number of speakers
Number of microphones
Number of webcams
Device Orientation
Device input is Touchscreen
System Fonts
LocalStorage Data
IndexedDB Data
WebRTC Supported
WebGL Supported
WebSocket Supported
他们似乎没有使用任何已知的技巧来提取其他唯一的用户信息,例如找到video card model of the current machine using Canvas and GL。这并不奇怪,因为Google可以将他们想要的任何数据公开在Chrome / Webkit中。
但是,他们对浏览器市场的70%的控制权使他们能够操纵其他无害的功能(例如随机数生成器),以根据需要泄漏数据以进行用户跟踪。
您选择从Google Analytics(分析)门户查看的内容并不一定会影响他们收集的内容。
GA可以帮助Google确定网站在搜索排名中的表现,并创建用户指纹来跟踪每个互联网用户的浏览情况以及持续时间。后者帮助他们选择广告,这是他们赚大钱的地方。他们在脚本中触摸的许多数据不会以原始格式发送回去,而是用于创建所述指纹。