安徽運(yùn)維監(jiān)控共同合作

來(lái)源: 發(fā)布時(shí)間:2023-02-13

Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。

環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群 

監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高 

無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置

數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集 

事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 觀縱將強(qiáng)大的Argus IT運(yùn)維監(jiān)控做到數(shù)據(jù)化、工具化、可視化。安徽運(yùn)維監(jiān)控共同合作

基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。青海運(yùn)維監(jiān)控售后服務(wù)在運(yùn)維監(jiān)控中怎么樣才算是故障,要報(bào)警呢?比如CPU的負(fù)載到底多少算高,用戶態(tài)、內(nèi)核態(tài)分別跑多少算高?

國(guó)產(chǎn)信創(chuàng)設(shè)備、軟件監(jiān)測(cè)管理之路面臨這兩大問(wèn)題與挑戰(zhàn)。挑戰(zhàn)一:信創(chuàng)產(chǎn)業(yè)帶來(lái)IT標(biāo)準(zhǔn)的重構(gòu),很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標(biāo)準(zhǔn),而這時(shí)的產(chǎn)品還處于可用階段,在這期間會(huì)產(chǎn)生許多問(wèn)題,為保障業(yè)務(wù)運(yùn)維的安全,亟需一個(gè)可以兼容信創(chuàng)體系和支持國(guó)產(chǎn)化環(huán)境部署的監(jiān)測(cè)軟件對(duì)其進(jìn)行監(jiān)測(cè)管理。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設(shè)備特用機(jī)房有多個(gè)品牌的國(guó)產(chǎn)化設(shè)備,需要一個(gè)系統(tǒng)既能監(jiān)測(cè)國(guó)外設(shè)備,又能監(jiān)測(cè)國(guó)外設(shè)備,而很多企業(yè),特別是國(guó)外的監(jiān)測(cè)軟件,不支持監(jiān)測(cè)信創(chuàng)的設(shè)備與信創(chuàng)的軟件。

Argus運(yùn)維監(jiān)控中硬件監(jiān)控包括:可以通過(guò)IPMI對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控,并對(duì)CPU、內(nèi)存、磁盤、溫度、風(fēng)扇、電壓等設(shè)置報(bào)警設(shè)置報(bào)警閾值(自行對(duì)監(jiān)控報(bào)警內(nèi)容編寫合理的報(bào)警范圍)IPMI工具無(wú)法獲取到硬件的狀態(tài),可以借助MegaCli工具探測(cè)Raid磁盤隊(duì)列狀態(tài)zabbix提供IPMI監(jiān)控模板:ZabbixIPMIInterface。同時(shí)也能夠?qū)崟r(shí)采集到服務(wù)器的硬件報(bào)錯(cuò)日志,代替管理員的日常機(jī)房巡檢工作,使管理員實(shí)時(shí)了解到服務(wù)器底層硬件的運(yùn)行情況。帶外方式不通過(guò)操作系統(tǒng),即使系統(tǒng)關(guān)機(jī)的狀態(tài)下仍可監(jiān)控服務(wù)器的基本硬件健康狀況 想吃透運(yùn)維監(jiān)控系統(tǒng),就這一篇足夠了!

IAAS層的監(jiān)控從IAAS層的組成這個(gè)維度來(lái)說(shuō),可以分為一個(gè)個(gè)獨(dú)一的資源對(duì)象來(lái)分類監(jiān)控,針對(duì)每一類對(duì)象可以分別從狀態(tài)、性能、容量、質(zhì)量這幾個(gè)維度描述,將不同的數(shù)據(jù)綜合為開(kāi)發(fā)與運(yùn)維的統(tǒng)一視角。監(jiān)控告警產(chǎn)品的建設(shè)是任重而道遠(yuǎn)的過(guò)程,坑也非常多。要考慮多種因素,技術(shù)后臺(tái)能力只是其中的一部分。

例如在DevOps的文化下,需要從更高的層面來(lái)統(tǒng)一視角(開(kāi)發(fā)視角&運(yùn)維視角)避免將監(jiān)控做成"開(kāi)發(fā)的監(jiān)控”與"運(yùn)維的監(jiān)控”。也需要更多的考慮監(jiān)控產(chǎn)品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權(quán)限(行業(yè)屬性)如何分類設(shè)計(jì)。 Argus運(yùn)維監(jiān)控系統(tǒng)撥測(cè)分析模塊,從端口可用性等多個(gè)指標(biāo)、維度進(jìn)行撥測(cè)分析。哪些運(yùn)維監(jiān)控答疑解惑

Argus運(yùn)維監(jiān)控網(wǎng)絡(luò)設(shè)備配置文件自動(dòng)備份。安徽運(yùn)維監(jiān)控共同合作

通常來(lái)說(shuō)企業(yè)級(jí)的監(jiān)控系統(tǒng)應(yīng)該是支持多種采集方式與多種采集對(duì)象的,例如可以用Agent主動(dòng)上報(bào)、也要能支持SNMP、Xflow、IPMI等多種協(xié)議。

而針對(duì)于IaaS層具體支持的采集對(duì)象應(yīng)該不少于物理服務(wù)器、操作系統(tǒng)指標(biāo)(linux&windows)、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)內(nèi)會(huì)話信息、物理專線、網(wǎng)絡(luò)出口等等。

不同的采集對(duì)象采用的采集方式也是不同的,例如:服務(wù)器系統(tǒng)指標(biāo)可以用Agent上報(bào)、網(wǎng)絡(luò)設(shè)備狀態(tài)、流量、包量可以用SNMP采集等,具體采用哪種采集方式要根據(jù)業(yè)務(wù)場(chǎng)景與所需場(chǎng)景的數(shù)據(jù)量與類別而定。織云同樣也支持多種采集方式與多種采集對(duì)象。

在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)采集這部分建議針對(duì)某一個(gè)具體的對(duì)象盡量采集的大而全,可能有些數(shù)據(jù)采集上來(lái)暫時(shí)沒(méi)有直接用途,但是隨著數(shù)據(jù)量級(jí)與數(shù)據(jù)間關(guān)聯(lián)性的變化,對(duì)大量的原始數(shù)據(jù),清洗、分析、加工后便能催生更多的數(shù)據(jù)消費(fèi)場(chǎng)景。 安徽運(yùn)維監(jiān)控共同合作

上海觀縱科技有限公司依托可靠的品質(zhì),旗下品牌webfunny,walkingfunny,argus以高質(zhì)量的服務(wù)獲得廣大受眾的青睞。是具有一定實(shí)力的傳媒、廣電企業(yè)之一,主要提供webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域內(nèi)的產(chǎn)品或服務(wù)。我們?cè)诎l(fā)展業(yè)務(wù)的同時(shí),進(jìn)一步推動(dòng)了品牌價(jià)值完善。隨著業(yè)務(wù)能力的增長(zhǎng),以及品牌價(jià)值的提升,也逐漸形成傳媒、廣電綜合一體化能力。上海觀縱科技有限公司業(yè)務(wù)范圍涉及一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷售;通信設(shè)備銷售;通訊設(shè)備銷售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門批準(zhǔn)文件或許可證件為準(zhǔn))等多個(gè)環(huán)節(jié),在國(guó)內(nèi)傳媒、廣電行業(yè)擁有綜合優(yōu)勢(shì)。在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域完成了眾多可靠項(xiàng)目。