中間件和數(shù)據(jù)庫(kù)組件監(jiān)控:中間件和數(shù)據(jù)庫(kù)組件都統(tǒng)一提供sidecar模式部署的exporter進(jìn)行指標(biāo)采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫(kù),也可以開(kāi)發(fā)自定義exporter(kingbase、greatdb等國(guó)產(chǎn)數(shù)據(jù)庫(kù)都走這個(gè)方式),也可以開(kāi)發(fā)指標(biāo)推到Prometheus的pushgateway(polardb國(guó)產(chǎn)數(shù)據(jù)庫(kù)走這個(gè)方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標(biāo)準(zhǔn)的metrics)。
各業(yè)務(wù)集群怎么部署監(jiān)控組件各業(yè)務(wù)集群都單獨(dú)部署Prometheus和grafana;在集群各節(jié)點(diǎn)部署有kubelet客戶(hù)端和demonset模式的node-exporter;在集群管理節(jié)點(diǎn)部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標(biāo)數(shù)據(jù);中間件和數(shù)據(jù)庫(kù)組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫(kù)時(shí)就開(kāi)始收集監(jiān)控?cái)?shù)據(jù)。 Argus單一業(yè)務(wù)環(huán)境下可以支持多 組采集單元(多zabbix-server),實(shí)現(xiàn)真正意義上的分布式采集。湖北運(yùn)維監(jiān)控共同合作
在發(fā)展“國(guó)內(nèi)循環(huán)為主體、國(guó)內(nèi)國(guó)際雙循環(huán)互相促進(jìn)的新發(fā)展格局”的關(guān)鍵時(shí)期,為了加強(qiáng)和完善國(guó)家創(chuàng)新體系建設(shè),提升產(chǎn)業(yè)基礎(chǔ)能力和產(chǎn)業(yè)鏈水平,在第十三屆全國(guó)人大會(huì)常務(wù)委員會(huì)中修訂通過(guò)了《中華人民共和國(guó)科學(xué)技術(shù)進(jìn)步法》,明確表示優(yōu)先采購(gòu)國(guó)內(nèi)信息技術(shù)創(chuàng)新產(chǎn)品。據(jù)《2021年中國(guó)信創(chuàng)生態(tài)研究報(bào)告》顯示,未來(lái)在國(guó)家政策的推動(dòng)下,中國(guó)信創(chuàng)行業(yè)發(fā)展?jié)摿Υ螅A(yù)計(jì)2025年市場(chǎng)規(guī)模將達(dá)8000億元。
觀縱始終走在自主研發(fā)的前沿,現(xiàn)在已經(jīng)形成了從IT運(yùn)維監(jiān)控、電力運(yùn)維到IoT運(yùn)維的產(chǎn)業(yè)布局。作為在信創(chuàng)產(chǎn)業(yè)中持續(xù)耕耘的企業(yè),目前觀縱已經(jīng)申報(bào)專(zhuān)利和產(chǎn)品軟著,并獲得ISO、ITSS、AIOps標(biāo)準(zhǔn)符合性、高新、知識(shí)產(chǎn)權(quán)管理體系、CMMI等多項(xiàng)認(rèn)證,以及多家廠商對(duì)觀縱信創(chuàng)產(chǎn)品的適配認(rèn)證。 要求運(yùn)維監(jiān)控什么價(jià)格Argus運(yùn)維監(jiān)控系統(tǒng)撥測(cè)分析模塊,從端口可用性等多個(gè)指標(biāo)、維度進(jìn)行撥測(cè)分析。
大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬(wàn)時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。
當(dāng)series數(shù)據(jù)超過(guò)300萬(wàn)時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來(lái)運(yùn)行。壓測(cè)過(guò)程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢(xún)效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。
Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。
環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高
無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集
事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢(xún)不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱(chēng)的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶(hù)組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 快來(lái)看看常用的運(yùn)維監(jiān)控必備知識(shí)!
Argus運(yùn)維監(jiān)控基于數(shù)據(jù)治理后重構(gòu)的應(yīng)用關(guān)系拓?fù)?,完成?shù)據(jù)治 理后關(guān)聯(lián)準(zhǔn)確度提升60%。 在自動(dòng)發(fā)現(xiàn)配置信息改變是檢查前后關(guān)聯(lián)信息,實(shí) 現(xiàn)同步維護(hù),配合定期檢查關(guān)聯(lián)缺失數(shù)據(jù),進(jìn)行修 正和補(bǔ)充,確保數(shù)據(jù)完整性。 基于圖數(shù)據(jù)庫(kù)的特性,解決深度遍歷和多實(shí)體關(guān)聯(lián) 的性能問(wèn)題,實(shí)現(xiàn)關(guān)系拓?fù)涿爰?jí)繪制。多維度健康診斷使用預(yù)警功能,使故障分析體系提前介入,有效提前故障發(fā)現(xiàn)實(shí)現(xiàn)。 每次預(yù)警觸發(fā)多維度分析,有效抑制無(wú)效告警,部分場(chǎng)景可實(shí)現(xiàn)根因定界。 分析模型使用成熟后,可以直接加入回復(fù)型作業(yè)節(jié)點(diǎn),形成故障自愈體系。 對(duì)于運(yùn)維監(jiān)控的告警信息,應(yīng)該如何分析,或者說(shuō)應(yīng)該從哪些方向去分析呢?山西運(yùn)維監(jiān)控管理
我們要運(yùn)維監(jiān)控這個(gè)東西的什么屬性?比如CPU的使用率、負(fù)載、用戶(hù)態(tài)、內(nèi)核態(tài)、上下文切換。湖北運(yùn)維監(jiān)控共同合作
Prometheus指標(biāo)采集和查詢(xún)存儲(chǔ)方案-2020年
我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。
該方案沒(méi)做到什么:
1.采集端Prometheus擴(kuò)容問(wèn)題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問(wèn)題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 湖北運(yùn)維監(jiān)控共同合作
上海觀縱科技有限公司是一家從事webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控研發(fā)、生產(chǎn)、銷(xiāo)售及售后的服務(wù)型企業(yè)。公司坐落在上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,成立于2022-11-14。公司通過(guò)創(chuàng)新型可持續(xù)發(fā)展為重心理念,以客戶(hù)滿(mǎn)意為重要標(biāo)準(zhǔn)。webfunny,walkingfunny,argus目前推出了webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等多款產(chǎn)品,已經(jīng)和行業(yè)內(nèi)多家企業(yè)建立合作伙伴關(guān)系,目前產(chǎn)品已經(jīng)應(yīng)用于多個(gè)領(lǐng)域。我們堅(jiān)持技術(shù)創(chuàng)新,把握市場(chǎng)關(guān)鍵需求,以重心技術(shù)能力,助力傳媒、廣電發(fā)展。上海觀縱科技有限公司研發(fā)團(tuán)隊(duì)不斷緊跟webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控行業(yè)發(fā)展趨勢(shì),研發(fā)與改進(jìn)新的產(chǎn)品,從而保證公司在新技術(shù)研發(fā)方面不斷提升,確保公司產(chǎn)品符合行業(yè)標(biāo)準(zhǔn)和要求。上海觀縱科技有限公司注重以人為本、團(tuán)隊(duì)合作的企業(yè)文化,通過(guò)保證webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)品質(zhì)量合格,以誠(chéng)信經(jīng)營(yíng)、用戶(hù)至上、價(jià)格合理來(lái)服務(wù)客戶(hù)。建立一切以客戶(hù)需求為前提的工作目標(biāo),真誠(chéng)歡迎新老客戶(hù)前來(lái)洽談業(yè)務(wù)。