我需要知道是否有一种简单的方法可以让BigQuery“冒出来”#39;在不设置静态阈值的情况下记录超出规范的条目。具体而言,我打算将日志数据(例如,带有RFID标签的人在建筑物周围移动),并且随着时间的推移会出现规则模式,例如,每个工作日到达办公室并且在下午晚些时候离开办公室的人。
我需要看到任何这种重复模式的例外情况,例如,在最初几天看到新的RFID标签(虽然模式尚未建立),并且在周末看到常规标签,例如。一个'异常查询'是可能的,你有一个指南/示例,如何将日志数据流入BigQuery?
答案 0 :(得分:0)
BigQuery没有提供内置方法来实现这一目标,但如果您可以在SQL中(或作为Javascript UDF)表达您的异常检测算法,那么它似乎足够合理。
搜索结果显示了一个可能有用的起点: http://nbviewer.jupyter.org/github/nikhilk/demo-logs-analysis/blob/master/notebooks/RequestLogs.ipynb
总的来说,我分两部分来处理这个问题:
即使直接在SQL中训练模型是不切实际的,比较新条目与,模型可能更容易表达。