運(yùn)維監(jiān)控平臺(tái)

來源: 發(fā)布時(shí)間:2023-05-08

遇到多集群場(chǎng)景問題

多達(dá)上百個(gè)集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個(gè)集群,其多集群場(chǎng)景特點(diǎn)有:

服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無法發(fā)現(xiàn)多個(gè)集群的被監(jiān)控對(duì)象;

網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;

業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。

只用Prometheus能解決嗎?

Prometheus本身只支持單機(jī)部署,沒有自帶支持集群部署,對(duì)于集群化和水平擴(kuò)展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲(chǔ)空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個(gè)Prometheus所能存儲(chǔ)的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時(shí)間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時(shí)間等。 運(yùn)維小白如何做好運(yùn)維監(jiān)控?運(yùn)維監(jiān)控平臺(tái)

信創(chuàng)終端運(yùn)維服務(wù)、數(shù)據(jù)中心運(yùn)維服務(wù)、業(yè)務(wù)系統(tǒng)運(yùn)維服務(wù)、適配遷移服務(wù)、安全運(yùn)維服務(wù)等信創(chuàng)運(yùn)維服務(wù)。通過信創(chuàng)運(yùn)維服務(wù)體系、信創(chuàng)安全管理體系、信創(chuàng)一體化服務(wù)保障平臺(tái)、信創(chuàng)現(xiàn)場(chǎng)和遠(yuǎn)程運(yùn)維服務(wù)管理平臺(tái),規(guī)范信創(chuàng)運(yùn)維服務(wù)過程,提升信創(chuàng)運(yùn)維服務(wù)保障能力,為客戶創(chuàng)建可視可控的運(yùn)維環(huán)境,保障信創(chuàng)終端、數(shù)據(jù)中心和業(yè)務(wù)應(yīng)用系統(tǒng)的可靠、高效、持續(xù)、安全運(yùn)行。

多種信創(chuàng)技術(shù)路線并存:信創(chuàng)運(yùn)維技術(shù)難度高,缺乏成熟運(yùn)維技術(shù)和經(jīng)驗(yàn)參考,信創(chuàng)運(yùn)維技術(shù)培訓(xùn)不健全。信創(chuàng)適配遷移困難:缺乏應(yīng)用系統(tǒng)適配改造經(jīng)驗(yàn),應(yīng)用遷移涉及重構(gòu)與重編譯,工作量大,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產(chǎn)品性能、可靠性、品質(zhì)、成熟度參差不齊,生態(tài)環(huán)境不成熟,產(chǎn)業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運(yùn)維管理復(fù)雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,運(yùn)維管理復(fù)雜。與國(guó)外成熟產(chǎn)品差距大,運(yùn)維難度高,要求較高的運(yùn)維技術(shù)能力。 網(wǎng)站智慧運(yùn)維監(jiān)控管理解決方案Argus運(yùn)維監(jiān)控網(wǎng)絡(luò)設(shè)備配置文件自動(dòng)備份。

Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。

環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群 

監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高 

無統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置

數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集 

事件處理 : Zabbix 通過HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),并通過監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì)

IT運(yùn)維監(jiān)控具有性能穩(wěn)定、用戶界面友好、跨平臺(tái)、易實(shí)施、易集成等特點(diǎn),可極大地簡(jiǎn)化IT設(shè)施和業(yè)務(wù)系統(tǒng)的監(jiān)控管理。越來越多的客戶都在考慮或采納業(yè)務(wù)集中的方案。然而業(yè)務(wù)系統(tǒng)集中后,不僅增加運(yùn)行維護(hù)的工作強(qiáng)度,而且會(huì)使集中的系統(tǒng)變得更加繁雜。有效的系統(tǒng)和應(yīng)用監(jiān)控體系成為了解業(yè)務(wù)資源的使用狀況,及時(shí)發(fā)現(xiàn)可能導(dǎo)致系統(tǒng)故障的隱患,實(shí)現(xiàn)系統(tǒng)運(yùn)營(yíng)保障的關(guān)鍵。另一方面,借助于集中監(jiān)控解決方案,用戶能夠正確和及時(shí)地了解系統(tǒng)的運(yùn)行狀態(tài),發(fā)現(xiàn)影響整體系統(tǒng)運(yùn)行的瓶頸,幫助系統(tǒng)人員進(jìn)行必要的系統(tǒng)優(yōu)化和配置變更,甚至為系統(tǒng)的升級(jí)和擴(kuò)容提供依據(jù)。強(qiáng)有力的監(jiān)控和診斷工具還可以幫助運(yùn)行維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來。維護(hù)人員快速地分析出應(yīng)用故障原因,把他們從繁雜重復(fù)的勞動(dòng)中解放出來。因此,很多客戶的 IT 部門提出建立集中 IT 管理系統(tǒng)的需求,監(jiān)控的內(nèi)容包括網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、中間件和應(yīng)用。通過集中監(jiān)控系統(tǒng)及時(shí)發(fā)現(xiàn)系統(tǒng)中的故障,減少故障處理時(shí)間。我們要運(yùn)維監(jiān)控這個(gè)東西的什么屬性?比如CPU的使用率、負(fù)載、用戶態(tài)、內(nèi)核態(tài)、上下文切換。

基于信創(chuàng)環(huán)境建立信創(chuàng)運(yùn)維服務(wù)體系,滿足跨平臺(tái)對(duì)信創(chuàng)軟硬件設(shè)備提供運(yùn)維監(jiān)控管理功能,包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(國(guó)產(chǎn)數(shù)據(jù)庫及非國(guó)產(chǎn)數(shù)據(jù)庫)、應(yīng)用服務(wù)器、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時(shí)間發(fā)現(xiàn)問題、分析出原因、得出解決方案,使故障問題能夠在極短時(shí)間內(nèi)解決,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。Argus 運(yùn)維監(jiān)控平臺(tái)是跨區(qū)域、跨部門的運(yùn)維系統(tǒng)監(jiān)控平臺(tái),實(shí)現(xiàn)包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(國(guó)產(chǎn)數(shù)據(jù)庫及非國(guó)產(chǎn)數(shù)據(jù)庫)、中間件、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等運(yùn)維監(jiān)控。通過對(duì)基礎(chǔ)實(shí)施、信息系統(tǒng)、項(xiàng)目進(jìn)度的總體監(jiān)控實(shí)現(xiàn)運(yùn)維體系的有效運(yùn)行,保障信創(chuàng)項(xiàng)目順利開展。提供自動(dòng)化運(yùn)維、智能化運(yùn)維功能,打破了人工現(xiàn)場(chǎng)運(yùn)維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補(bǔ)丁分發(fā)等場(chǎng)景實(shí)現(xiàn)功能自動(dòng)化;利用智能學(xué)習(xí)、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)手段,實(shí)現(xiàn)故障從人工處理到無人值守的變革,降低故障處理時(shí)間的同時(shí),實(shí)現(xiàn)被動(dòng)運(yùn)維到主動(dòng)干預(yù)的轉(zhuǎn)變。以 zabbix 為采集中心配合自研的 ArgusNMS 增強(qiáng)模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實(shí)現(xiàn)監(jiān)管控的需求。智能運(yùn)維監(jiān)控平臺(tái)

Argus運(yùn)維監(jiān)控系統(tǒng)-IT網(wǎng)管的救命稻草!運(yùn)維監(jiān)控平臺(tái)

大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。

當(dāng)series數(shù)據(jù)超過300萬時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來運(yùn)行。壓測(cè)過程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。 運(yùn)維監(jiān)控平臺(tái)

上海觀縱科技有限公司是一家從事webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控研發(fā)、生產(chǎn)、銷售及售后的服務(wù)型企業(yè)。公司坐落在上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,成立于2022-11-14。公司通過創(chuàng)新型可持續(xù)發(fā)展為重心理念,以客戶滿意為重要標(biāo)準(zhǔn)。在孜孜不倦的奮斗下,公司產(chǎn)品業(yè)務(wù)越來越廣。目前主要經(jīng)營(yíng)有webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等產(chǎn)品,并多次以傳媒、廣電行業(yè)標(biāo)準(zhǔn)、客戶需求定制多款多元化的產(chǎn)品。上海觀縱科技有限公司研發(fā)團(tuán)隊(duì)不斷緊跟webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控行業(yè)發(fā)展趨勢(shì),研發(fā)與改進(jìn)新的產(chǎn)品,從而保證公司在新技術(shù)研發(fā)方面不斷提升,確保公司產(chǎn)品符合行業(yè)標(biāo)準(zhǔn)和要求。webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)品滿足客戶多方面的使用要求,讓客戶買的放心,用的稱心,產(chǎn)品定位以經(jīng)濟(jì)實(shí)用為重心,公司真誠期待與您合作,相信有了您的支持我們會(huì)以昂揚(yáng)的姿態(tài)不斷前進(jìn)、進(jìn)步。