大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬(wàn)時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。
當(dāng)series數(shù)據(jù)超過(guò)300萬(wàn)時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來(lái)運(yùn)行。壓測(cè)過(guò)程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。 想要做好運(yùn)維監(jiān)控,這個(gè)命題很大,可想而知不是只要做好一件兩件的事就能實(shí)現(xiàn),必定是成體系、成規(guī)范。信創(chuàng)統(tǒng)一運(yùn)維監(jiān)控管理產(chǎn)品
國(guó)產(chǎn)信創(chuàng)設(shè)備、軟件監(jiān)測(cè)管理之路面臨這兩大問(wèn)題與挑戰(zhàn)。挑戰(zhàn)一:信創(chuàng)產(chǎn)業(yè)帶來(lái)IT標(biāo)準(zhǔn)的重構(gòu),很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標(biāo)準(zhǔn),而這時(shí)的產(chǎn)品還處于可用階段,在這期間會(huì)產(chǎn)生許多問(wèn)題,為保障業(yè)務(wù)運(yùn)維的安全,亟需一個(gè)可以兼容信創(chuàng)體系和支持國(guó)產(chǎn)化環(huán)境部署的監(jiān)測(cè)軟件對(duì)其進(jìn)行監(jiān)測(cè)管理。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設(shè)備特用機(jī)房有多個(gè)品牌的國(guó)產(chǎn)化設(shè)備,需要一個(gè)系統(tǒng)既能監(jiān)測(cè)國(guó)外設(shè)備,又能監(jiān)測(cè)國(guó)外設(shè)備,而很多企業(yè),特別是國(guó)外的監(jiān)測(cè)軟件,不支持監(jiān)測(cè)信創(chuàng)的設(shè)備與信創(chuàng)的軟件。如何建設(shè)運(yùn)維監(jiān)控系統(tǒng)IT運(yùn)維監(jiān)控所包含的產(chǎn)品功能強(qiáng)大、易于使用、解決方案齊全,可一站式滿足用戶的各種IT管理需求。
監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。監(jiān)控的目標(biāo)包括:對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控。實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài)。保證服務(wù)可靠性安全性。保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。
運(yùn)維監(jiān)控方法包括:健康檢查。健康檢查是對(duì)應(yīng)用本身健康狀況的監(jiān)控,檢查服務(wù)是否還正常存活。日志。日志是排查問(wèn)題的主要方式,日志可以提供豐富的信息用于定位和解決問(wèn)題。調(diào)用鏈監(jiān)控。調(diào)用鏈監(jiān)控可以完整的呈現(xiàn)出一次請(qǐng)求的全部信息,包括服務(wù)調(diào)用鏈路、所耗時(shí)間等。指標(biāo)監(jiān)控。指標(biāo)是一些基于時(shí)間序列的離散數(shù)據(jù)點(diǎn),通過(guò)聚合和計(jì)算后能反映出一些重要指標(biāo)的趨勢(shì)。
運(yùn)維監(jiān)控的流程包括:
發(fā)現(xiàn)問(wèn)題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息定位問(wèn)題:故障郵件一般都會(huì)寫(xiě)某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問(wèn)題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無(wú)法連接,又或者某開(kāi)發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。解決問(wèn)題:當(dāng)然我們了解到故障的原因后,就需要通過(guò)故障解決的優(yōu)先級(jí)去解決該故障??偨Y(jié)問(wèn)題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。 Argus運(yùn)維監(jiān)控系統(tǒng)配有Syslog 日志接收和分析。
Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。
環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高
無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集
事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 即使零經(jīng)驗(yàn)的小白用戶,也可以通過(guò)Argus管理IT運(yùn)維監(jiān)控,執(zhí)行運(yùn)維監(jiān)控管理。機(jī)房統(tǒng)一運(yùn)維監(jiān)控管理產(chǎn)品
在運(yùn)維監(jiān)控中怎么樣才算是故障,要報(bào)警呢?比如CPU的負(fù)載到底多少算高,用戶態(tài)、內(nèi)核態(tài)分別跑多少算高?信創(chuàng)統(tǒng)一運(yùn)維監(jiān)控管理產(chǎn)品
監(jiān)控是一項(xiàng)非常重要的運(yùn)維工作,尤其對(duì)于一些比較重要的業(yè)務(wù),如果沒(méi)有監(jiān)控,就只能等著用戶反饋。常見(jiàn)的開(kāi)源監(jiān)控軟件有 Cacti、Nagios、Zabbix、Smokeping 和 Open-falcon 等。Cacti 和 Smokeping 傾向于基礎(chǔ)監(jiān)控,成圖非常漂亮。Cacti、Nagios 和 Zabbix 服務(wù)端監(jiān)控中心需要 PHP 環(huán)境支持,其中 Zabbix 和 Cacti 需要安裝 MySQL 作為存儲(chǔ)數(shù)據(jù)庫(kù)。Nagios 不用存儲(chǔ)歷史數(shù)據(jù),注重服務(wù)或監(jiān)控項(xiàng)的狀態(tài)。Zabbix 會(huì)獲取服務(wù)或監(jiān)控項(xiàng)目的數(shù)據(jù),把數(shù)據(jù)記錄到數(shù)據(jù)庫(kù)中,可以成圖查看。Argus是基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái),打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生態(tài)無(wú)縫兼容 信創(chuàng)統(tǒng)一運(yùn)維監(jiān)控管理產(chǎn)品
上海觀縱科技有限公司正式組建于2022-11-14,將通過(guò)提供以webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等服務(wù)于于一體的組合服務(wù)。觀縱科技經(jīng)營(yíng)業(yè)績(jī)遍布國(guó)內(nèi)諸多地區(qū)地區(qū),業(yè)務(wù)布局涵蓋webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等板塊。我們?cè)诎l(fā)展業(yè)務(wù)的同時(shí),進(jìn)一步推動(dòng)了品牌價(jià)值完善。隨著業(yè)務(wù)能力的增長(zhǎng),以及品牌價(jià)值的提升,也逐漸形成傳媒、廣電綜合一體化能力。觀縱科技始終保持在傳媒、廣電領(lǐng)域優(yōu)先的前提下,不斷優(yōu)化業(yè)務(wù)結(jié)構(gòu)。在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域承攬了一大批高精尖項(xiàng)目,積極為更多傳媒、廣電企業(yè)提供服務(wù)。