基于Venn-Abers预测器的系统日志异常检测方法_顾兆军

机器学习

发布于 2024年1月15日

基于Venn-Abers预测器的系统日志异常检测方法_顾兆军

收集日志信息、日志解析和日志的特征化提，包括收集日志信息、日志解析和日志的特征化提取。

每条日志都包含时间戳、日志优先级、系统组件和日志条目本身等信息的非结构化数据。日志解析会生成一个生成事件计数矩阵，每个日志事件模板对应一个标识符ｂｌｏｃｋ＿ｉｄ，用于日志异常检测模型推理。在事件计数矩阵中，将具有相同ｂｌｏｃｋ的事件模板放在一行，即每一行代表一个块ｂｌｏｃｋ，将每一行的事件模板统计出次数，即每一列代表一种事件类型。(因为日志是非结构化的，这样子实际上就合并了不同事件的日志，将其变成一个矩阵用于推理). $X_{i,j}$ 单元格中的值记录事件ｊ在块ｉ上发生的次数。TF-IDF是信息检索中一种公认的启发式方法，它通常用作信息检索和文本挖掘中文档的特征表示。

日志异常检测部分是推理一个二分类问题，然后获取分类概率(论文这里说的很复杂，实际上就是做一个二分类然后给一个概率)，接下来成对相邻违反者算法得到一个保序回归函数 $f()$ ０和１用于测试对象 $x_n$ , $s_0 = (\begin{matrix}z_1,z_2,\cdots,z_{n-1,}&(x_n,0)\end{matrix})$ 为 $s_0$ 评分函数， $s_1 = (z_1,z_2 \cdots,z_{n-1,}(x_n,1))$ 为 $s_1$ 的评分函数.模型输出 $(\begin{matrix}p_0,p_1\\\end{matrix})$ , $p_{0}=f_{0}\left(s_{0}\left(x\right)\right)$ , $p_{1}=f_{1}\left(s_{1}\left(x\right)\right)$

运行效率优化实验过程中，发现由训练集标签和训练集对象得到的保序回归序列分布过于密集，不符合预期。ＨＤＦＳ记录的日志行为单一［１８］使不同特征向量之间的差异较小，特征向量高度相似或重复。对于重复的得分，将其标签 $ｙ_i$ 累积求和并取平均值作为该得分新的标签.

算法有效性评估是平方损失，评估指标是f1

基于Venn-Abers预测器的系统日志异常检测方法_顾兆军

基于Venn-Abers预测器的系统日志异常检测方法_顾兆军

About the Author