基于Venn-Abers预测器的系统日志异常检测方法_顾兆军
基于Venn-Abers预测器的系统日志异常检测方法_顾兆军
收集日志信息、日志解析和日志的特征化提,包括收集日志信息、日志解析和日志的特征化提取。
每条日志都包含时间戳、日志优先级、系统组件和日志条目本身等信息的非结构化数据。日志解析会生成一个生成事件计数矩阵,每个日志事件模板对应一个标识符 block_id,用于日志异常检测模型推理。在事件计数矩阵中,将具有相同 block 的事件模板放在一行,即每一行代表一个块 block,将每一行的事件模板统计出次数,即每一列代表一种事件类型。(因为日志是非结构化的,这样子实际上就合并了不同事件的日志,将其变成一个矩阵用于推理). \(X_{i,j}\) 单元格中的值记录事件 j 在块 i 上发生的次数。TF-IDF是信息检索中一种公认的启发式方法,它通常用作信息检索和文本挖掘中文档的特征表示。
日志异常检测部分是推理一个二分类问题,然后获取分类概率(论文这里说的很复杂,实际上就是做一个二分类然后给一个概率),接下来成对相邻违反者算法得到一个保序回归 函 数 \(f()\) 0 和 1 用于测试对象 \(x_n\),\(s_0 = (\begin{matrix}z_1,z_2,\cdots,z_{n-1,}&(x_n,0)\end{matrix})\)为\(s_0\)评分函数,\(s_1 = (z_1,z_2 \cdots,z_{n-1,}(x_n,1))\) 为\(s_1\)的评分函数.模型输出\((\begin{matrix}p_0,p_1\\\end{matrix})\),\(p_{0}=f_{0}\left(s_{0}\left(x\right)\right)\) ,\(p_{1}=f_{1}\left(s_{1}\left(x\right)\right)\)
运行效率优化 实验过程中,发现由训练集标签和训练集对象得到的保序回归序列分布过于密集,不符合预期。HDFS 记录的日志行为单一[18] 使不同特征向量之间的差异较小,特征向量高度相似或重复。对于重复的得分,将其标签 \(y_i\) 累积求和并取平均值作为该得分新的标签.
算法有效性评估是平方损失,评估指标是f1