安徽運(yùn)維監(jiān)控常見(jiàn)問(wèn)題

來(lái)源: 發(fā)布時(shí)間:2023-02-13

Prometheus指標(biāo)采集和查詢存儲(chǔ)方案-2020年

我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。

該方案優(yōu)點(diǎn):

1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。

2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。

3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。

該方案沒(méi)做到什么:

1.采集端Prometheus擴(kuò)容問(wèn)題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。

2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問(wèn)題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 運(yùn)維監(jiān)控的目的是什么?安徽運(yùn)維監(jiān)控常見(jiàn)問(wèn)題

監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對(duì)某個(gè)監(jiān)控技術(shù)的使用。監(jiān)控的目標(biāo)包括:對(duì)系統(tǒng)不間斷的實(shí)時(shí)監(jiān)控。實(shí)時(shí)反饋系統(tǒng)當(dāng)前狀態(tài)。保證服務(wù)可靠性安全性。保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。

運(yùn)維監(jiān)控方法包括:健康檢查。健康檢查是對(duì)應(yīng)用本身健康狀況的監(jiān)控,檢查服務(wù)是否還正常存活。日志。日志是排查問(wèn)題的主要方式,日志可以提供豐富的信息用于定位和解決問(wèn)題。調(diào)用鏈監(jiān)控。調(diào)用鏈監(jiān)控可以完整的呈現(xiàn)出一次請(qǐng)求的全部信息,包括服務(wù)調(diào)用鏈路、所耗時(shí)間等。指標(biāo)監(jiān)控。指標(biāo)是一些基于時(shí)間序列的離散數(shù)據(jù)點(diǎn),通過(guò)聚合和計(jì)算后能反映出一些重要指標(biāo)的趨勢(shì)。 智能化運(yùn)維監(jiān)控答疑解惑Argus運(yùn)維監(jiān)控系統(tǒng)通過(guò)事件壓縮機(jī)制, 構(gòu)建了事件集的聚合業(yè)務(wù)。

IT運(yùn)維監(jiān)控具有性能穩(wěn)定、用戶界面友好、跨平臺(tái)、易實(shí)施、易集成等特點(diǎn),可極大地簡(jiǎn)化IT設(shè)施和業(yè)務(wù)系統(tǒng)的監(jiān)控管理。越來(lái)越多的客戶都在考慮或采納業(yè)務(wù)集中的方案。然而業(yè)務(wù)系統(tǒng)集中后,不僅增加運(yùn)行維護(hù)的工作強(qiáng)度,而且會(huì)使集中的系統(tǒng)變得更加繁雜。有效的系統(tǒng)和應(yīng)用監(jiān)控體系成為了解業(yè)務(wù)資源的使用狀況,及時(shí)發(fā)現(xiàn)可能導(dǎo)致系統(tǒng)故障的隱患,實(shí)現(xiàn)系統(tǒng)運(yùn)營(yíng)保障的關(guān)鍵。另一方面,借助于集中監(jiān)控解決方案,用戶能夠正確和及時(shí)地了解系統(tǒng)的運(yùn)行狀態(tài),發(fā)現(xiàn)影響整體系統(tǒng)運(yùn)行的瓶頸,幫助系統(tǒng)人員進(jìn)行必要的系統(tǒng)優(yōu)化和配置變更,甚至為系統(tǒng)的升級(jí)和擴(kuò)容提供依據(jù)。強(qiáng)有力的監(jiān)控和診斷工具還可以幫助運(yùn)行維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來(lái)。維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來(lái)。因此,很多客戶的 IT 部門提出建立集中 IT 管理系統(tǒng)的需求,監(jiān)控的內(nèi)容包括網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫(kù)、中間件和應(yīng)用。通過(guò)集中監(jiān)控系統(tǒng)及時(shí)發(fā)現(xiàn)系統(tǒng)中的故障,減少故障處理時(shí)間。

基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤(pán)分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。運(yùn)維小白如何做好運(yùn)維監(jiān)控?

數(shù)據(jù)是數(shù)字化轉(zhuǎn)型的基礎(chǔ)。無(wú)論是在傳統(tǒng)企業(yè),還是在IT成熟度較高的金融、互聯(lián)網(wǎng)等企業(yè)中,日志數(shù)據(jù)都是不可或缺的一個(gè)信息來(lái)源。日志記錄了服務(wù)器、工作站、防火墻和應(yīng)用軟件等IT資源運(yùn)行時(shí)的詳細(xì)信息,對(duì)于IT運(yùn)維有著重要的作用。Argus運(yùn)維監(jiān)控系統(tǒng)Syslog 日志接收和分析解決了以下難題:日志來(lái)源復(fù)雜,種類繁多,日志采集操作復(fù)雜,效率低下;在每天TB級(jí)以上的數(shù)據(jù)增量下,開(kāi)源解決方案的擴(kuò)展性和穩(wěn)定性無(wú)法保證;日志數(shù)據(jù)中記錄了豐富的信息,且存量巨大,日志價(jià)值挖掘困難;停留在被動(dòng)排障階段,無(wú)法及時(shí)發(fā)現(xiàn)業(yè)務(wù)異常,不能主動(dòng)感知業(yè)務(wù)和IT的狀態(tài)。 自研 ArgusNMS,增強(qiáng) Zabbix 網(wǎng)管功能, 實(shí)現(xiàn)模塊動(dòng)態(tài)擴(kuò)展。中國(guó)澳門運(yùn)維監(jiān)控服務(wù)電話

Argus運(yùn)維監(jiān)控事件聚合的同時(shí), 保留了每一條事件的詳情, 以便深入分析。安徽運(yùn)維監(jiān)控常見(jiàn)問(wèn)題

對(duì)于服務(wù)器的監(jiān)控同樣也是從狀態(tài)、性能與容量這幾個(gè)維度入手。雖然SNMP也可以用于服務(wù)器監(jiān)控,但相對(duì)于agent主動(dòng)上報(bào)指標(biāo)與數(shù)據(jù)會(huì)少很多。

服務(wù)器的狀態(tài)監(jiān)控主要包含服務(wù)器是否ping的通、agent上報(bào)是否超時(shí)與電源運(yùn)行狀態(tài)等等。對(duì)于性能與容量這兩類維度,主要依賴當(dāng)前OS的數(shù)據(jù)捕獲,一般來(lái)說(shuō)對(duì)于服務(wù)器監(jiān)控來(lái)說(shuō)在通用場(chǎng)景下主要關(guān)注CPU、內(nèi)存、流量與包量這四個(gè)指標(biāo)即可,但是別的指標(biāo)也建議盡量捕獲。

單個(gè)監(jiān)控對(duì)象的數(shù)據(jù)豐富了會(huì)有如下好處:避免對(duì)象的監(jiān)控盲點(diǎn)不同的監(jiān)控?cái)?shù)據(jù)點(diǎn)可以部分對(duì)應(yīng)出該服務(wù)器所承載的業(yè)務(wù)特性指標(biāo),例如存儲(chǔ)類業(yè)務(wù)也會(huì)關(guān)注disk_total_read、svctm_time_max、await_time_max等等系統(tǒng)指標(biāo)生產(chǎn)的數(shù)據(jù)足夠豐富能夠催生出更加豐富的運(yùn)維數(shù)據(jù)消費(fèi)場(chǎng)景。服務(wù)器監(jiān)控相對(duì)是很標(biāo)準(zhǔn)的監(jiān)控模型,針對(duì)于物理服務(wù)器與虛擬機(jī)都有共性指標(biāo)。這部分主要做到采集的數(shù)據(jù)豐富與上報(bào)的準(zhǔn)確性(算法準(zhǔn)確)。 安徽運(yùn)維監(jiān)控常見(jiàn)問(wèn)題

上海觀縱科技有限公司成立于2022-11-14,位于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,公司自成立以來(lái)通過(guò)規(guī)范化運(yùn)營(yíng)和高質(zhì)量服務(wù),贏得了客戶及社會(huì)的一致認(rèn)可和好評(píng)。公司主要產(chǎn)品有webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等,公司工程技術(shù)人員、行政管理人員、產(chǎn)品制造及售后服務(wù)人員均有多年行業(yè)經(jīng)驗(yàn)。并與上下游企業(yè)保持密切的合作關(guān)系。webfunny,walkingfunny,argus以符合行業(yè)標(biāo)準(zhǔn)的產(chǎn)品質(zhì)量為目標(biāo),并始終如一地堅(jiān)守這一原則,正是這種高標(biāo)準(zhǔn)的自我要求,產(chǎn)品獲得市場(chǎng)及消費(fèi)者的高度認(rèn)可。上海觀縱科技有限公司通過(guò)多年的深耕細(xì)作,企業(yè)已通過(guò)傳媒、廣電質(zhì)量體系認(rèn)證,確保公司各類產(chǎn)品以高技術(shù)、高性能、高精密度服務(wù)于廣大客戶。歡迎各界朋友蒞臨參觀、 指導(dǎo)和業(yè)務(wù)洽談。