ACM SIGKDD(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,KDD) 會議始于 1989 年,是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級學(xué)術(shù)會議,被CCF(中國計算機學(xué)會)列為A類會議,KDD也是首個引入大數(shù)據(jù)、數(shù)據(jù)科學(xué)、預(yù)測分析、眾包等概念的會議。KDD2024將于8.25-8.29, 在西班牙巴塞羅那舉行。此次入選意味著阿里云提出的集群級別作業(yè)變慢異常檢測框架獲得了國際學(xué)者的認(rèn)可,也是一次產(chǎn)學(xué)研結(jié)合的成功實踐。
針對大規(guī)模云計算平臺集群作業(yè)運行變慢的異常檢測問題,存在以下挑戰(zhàn):
(1)從個體作業(yè)入手監(jiān)測集群是否存在顯著變慢問題,會受到虛擬環(huán)境不確定性對個體執(zhí)行速度的干擾,對個體進行檢測、形成定性結(jié)論再集合到整體的方式無法準(zhǔn)確反映整體作業(yè)執(zhí)行狀況。
(2)對每個作業(yè)進行監(jiān)測,與對整體分布進行監(jiān)測相比,需要花費更多計算存儲資源。
(3)訓(xùn)練數(shù)據(jù)中并不能總是保證所有數(shù)據(jù)都是正常的,往往也會夾雜無標(biāo)簽的異常數(shù)據(jù),這與無監(jiān)督異常檢測的假設(shè)相悖。
論文首次從集群整體作業(yè)執(zhí)行情況分布入手,檢測集群整體作業(yè)分布變慢的問題。創(chuàng)造性地提出了撇脂注意力機制和picky loss function解決集群整體作業(yè)分布復(fù)合周期性及訓(xùn)練集污染的問題。并使用基于神經(jīng)網(wǎng)絡(luò)最優(yōu)運輸模塊,定向檢測集群整體作業(yè)分布變慢的問題。論文從新的視角分析集群健康狀態(tài),實現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的集群作業(yè)整體變慢異常定向檢測,與SOTA異常檢測算法相比平均提升F1 score 5.3%。
目前對應(yīng)算法已經(jīng)在阿里云云原生大數(shù)據(jù)計算服務(wù)MaxCompute集群異常監(jiān)控場景中進行灰度??梢杂行У貛椭\維人員對集群運行健康狀況進行評估,提前發(fā)現(xiàn)可能的風(fēng)險隱患。
論文信息
● 論文名字:Cluster-Wide Task Slowdown Detection in Cloud System
● 論文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng
● 論文pdf鏈接:https://arxiv.org/abs/2408.04236
● 部分參考文獻:
【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.
【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.
【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.
【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.
【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.