我们有mySQL数据库的日志文件,我们希望使用该日志文件进行分析(数据挖掘,机器学习......) 我非常新闻。
你能指导我怎么做吗?
答案 0 :(得分:0)
根据您的要求,有许多工具对您有用。
但是,为什么直接使用MySQL日志而不是数据库,或者当用户与接口交互时,让您搜索的详细信息转到数据库中的新“信息挖掘”表。哪个可能更强大
如果您想确定插入/查询的速率。 实际上,您可以设置MySQL将这些类型的事件记录到不同的文件中(因此一些工作已经完成,而不是必须挖掘所有事件的完整日志文件)。 否则,您将需要使用Grep等工具。
最重要的是,你有一个名为Lucerne的系统(来自apache),它将挖掘数据并搜索关键词。他们有各种不同的钩子可以进入Java,C等。它与google trawl网页非常相似。
否则,如果您打算在数据库中挖掘数据,那么日志显然不是您的最佳选择。
日志中还包含大量有关用户的信息。 IP地址可能更棘手,但您可以交叉引用运行查询的用户的名称和常规服务器日志以确定连接的IP。