青海運(yùn)維監(jiān)控共同合作

來(lái)源: 發(fā)布時(shí)間:2023-05-17

整個(gè)餓了么監(jiān)控系統(tǒng)在演進(jìn)過(guò)程中主要分為如下3個(gè)階段:

第一階段:主要由Statsd/Graphite/Grafana負(fù)責(zé)業(yè)務(wù)層的監(jiān)控,ETrace負(fù)責(zé)全鏈路監(jiān)控,Zabbix負(fù)責(zé)服務(wù)器層面的監(jiān)控,ELog負(fù)責(zé)分布式日志搜索;

第二階段:整個(gè)餓了么也從單IDC演進(jìn)成異地多活架構(gòu),所以對(duì)監(jiān)控也提出了更高的要求,基于這個(gè)我們也自研LinDB,以支持多活架構(gòu)下的監(jiān)控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來(lái)的日志方案;

第三階段:主要做一個(gè)減法,即把原來(lái)StatsD/Graphite/ETrace/ESM/InfluxDB統(tǒng)一到了EMonitor+LinDB這樣的平臺(tái),以提供給用戶一套統(tǒng)一的監(jiān)控平臺(tái),日志開(kāi)始使用阿里云的SLS。 想要做好運(yùn)維監(jiān)控,這個(gè)命題很大,可想而知不是只要做好一件兩件的事就能實(shí)現(xiàn),必定是成體系、成規(guī)范。青海運(yùn)維監(jiān)控共同合作

基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤(pán)分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。本地運(yùn)維監(jiān)控那個(gè)好Argus運(yùn)維監(jiān)控多通道, 多用戶的事件靈活推送機(jī)制。

IT運(yùn)維監(jiān)控具有性能穩(wěn)定、用戶界面友好、跨平臺(tái)、易實(shí)施、易集成等特點(diǎn),可極大地簡(jiǎn)化IT設(shè)施和業(yè)務(wù)系統(tǒng)的監(jiān)控管理。越來(lái)越多的客戶都在考慮或采納業(yè)務(wù)集中的方案。然而業(yè)務(wù)系統(tǒng)集中后,不僅增加運(yùn)行維護(hù)的工作強(qiáng)度,而且會(huì)使集中的系統(tǒng)變得更加繁雜。有效的系統(tǒng)和應(yīng)用監(jiān)控體系成為了解業(yè)務(wù)資源的使用狀況,及時(shí)發(fā)現(xiàn)可能導(dǎo)致系統(tǒng)故障的隱患,實(shí)現(xiàn)系統(tǒng)運(yùn)營(yíng)保障的關(guān)鍵。另一方面,借助于集中監(jiān)控解決方案,用戶能夠正確和及時(shí)地了解系統(tǒng)的運(yùn)行狀態(tài),發(fā)現(xiàn)影響整體系統(tǒng)運(yùn)行的瓶頸,幫助系統(tǒng)人員進(jìn)行必要的系統(tǒng)優(yōu)化和配置變更,甚至為系統(tǒng)的升級(jí)和擴(kuò)容提供依據(jù)。強(qiáng)有力的監(jiān)控和診斷工具還可以幫助運(yùn)行維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來(lái)。維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來(lái)。因此,很多客戶的 IT 部門(mén)提出建立集中 IT 管理系統(tǒng)的需求,監(jiān)控的內(nèi)容包括網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫(kù)、中間件和應(yīng)用。通過(guò)集中監(jiān)控系統(tǒng)及時(shí)發(fā)現(xiàn)系統(tǒng)中的故障,減少故障處理時(shí)間。

信創(chuàng)終端運(yùn)維服務(wù)、數(shù)據(jù)中心運(yùn)維服務(wù)、業(yè)務(wù)系統(tǒng)運(yùn)維服務(wù)、適配遷移服務(wù)、安全運(yùn)維服務(wù)等信創(chuàng)運(yùn)維服務(wù)。通過(guò)信創(chuàng)運(yùn)維服務(wù)體系、信創(chuàng)安全管理體系、信創(chuàng)一體化服務(wù)保障平臺(tái)、信創(chuàng)現(xiàn)場(chǎng)和遠(yuǎn)程運(yùn)維服務(wù)管理平臺(tái),規(guī)范信創(chuàng)運(yùn)維服務(wù)過(guò)程,提升信創(chuàng)運(yùn)維服務(wù)保障能力,為客戶創(chuàng)建可視可控的運(yùn)維環(huán)境,保障信創(chuàng)終端、數(shù)據(jù)中心和業(yè)務(wù)應(yīng)用系統(tǒng)的可靠、高效、持續(xù)、安全運(yùn)行。

多種信創(chuàng)技術(shù)路線并存:信創(chuàng)運(yùn)維技術(shù)難度高,缺乏成熟運(yùn)維技術(shù)和經(jīng)驗(yàn)參考,信創(chuàng)運(yùn)維技術(shù)培訓(xùn)不健全。信創(chuàng)適配遷移困難:缺乏應(yīng)用系統(tǒng)適配改造經(jīng)驗(yàn),應(yīng)用遷移涉及重構(gòu)與重編譯,工作量大,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產(chǎn)品性能、可靠性、品質(zhì)、成熟度參差不齊,生態(tài)環(huán)境不成熟,產(chǎn)業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運(yùn)維管理復(fù)雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,運(yùn)維管理復(fù)雜。與國(guó)外成熟產(chǎn)品差距大,運(yùn)維難度高,要求較高的運(yùn)維技術(shù)能力。 Argus運(yùn)維監(jiān)控系統(tǒng)支持納管 VMware、OpenStack等虛擬化平臺(tái),以及Nutanix、H3C CAS等超融合平臺(tái)。

對(duì)于網(wǎng)絡(luò)設(shè)備的監(jiān)控,也一般從設(shè)備性能、質(zhì)量、狀態(tài)等維度入手。對(duì)于每臺(tái)網(wǎng)絡(luò)設(shè)備來(lái)說(shuō)運(yùn)維同學(xué)一般會(huì)關(guān)注如下等高頻場(chǎng)景:

網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)syslog(設(shè)備運(yùn)行日志)的監(jiān)控與告警;設(shè)備堆疊狀態(tài)下的(例如交換機(jī)堆疊)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上每個(gè)物理端口的、流量、包量、錯(cuò)包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上邏輯端口(物理端口組合)的性能與狀態(tài)。

對(duì)于網(wǎng)絡(luò)設(shè)備的syslog告警來(lái)說(shuō),同樣也會(huì)面臨諸如:不同的廠商、設(shè)備類型與設(shè)備型號(hào)日志標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題。

所以對(duì)于網(wǎng)絡(luò)設(shè)備syslog監(jiān)控告警來(lái)說(shuō),首先是將眾多的網(wǎng)絡(luò)設(shè)備進(jìn)行邏輯分組,以便于在一個(gè)分組內(nèi)的設(shè)備均可以響應(yīng)同一個(gè)告警關(guān)鍵字,并且這個(gè)分組粒度建議較細(xì),這樣才能保障告警關(guān)鍵字的有效性與獨(dú)一性。在這里根據(jù)多年的運(yùn)維經(jīng)驗(yàn),建議syslog告警的分組模型由四個(gè)維度組成:廠商+類型+型號(hào)+用途例如:CISCO+交換機(jī)+EX43000-24T+內(nèi)網(wǎng)接入層交換機(jī),通過(guò)這個(gè)公式就描述出一個(gè)設(shè)備的邏輯分組。 Argus運(yùn)維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計(jì)結(jié)果一覽無(wú)余。本地運(yùn)維監(jiān)控那個(gè)好

運(yùn)維小白如何做好運(yùn)維監(jiān)控?青海運(yùn)維監(jiān)控共同合作

大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬(wàn)時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。

當(dāng)series數(shù)據(jù)超過(guò)300萬(wàn)時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來(lái)運(yùn)行。壓測(cè)過(guò)程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。 青海運(yùn)維監(jiān)控共同合作

上海觀縱科技有限公司是我國(guó)webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控專業(yè)化較早的有限責(zé)任公司之一,公司位于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,成立于2022-11-14,迄今已經(jīng)成長(zhǎng)為傳媒、廣電行業(yè)內(nèi)同類型企業(yè)的佼佼者。觀縱科技以webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控為主業(yè),服務(wù)于傳媒、廣電等領(lǐng)域,為全國(guó)客戶提供先進(jìn)webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控。產(chǎn)品已銷往多個(gè)國(guó)家和地區(qū),被國(guó)內(nèi)外眾多企業(yè)和客戶所認(rèn)可。