產(chǎn)品運維監(jiān)控共同合作

來源: 發(fā)布時間:2023-04-10

十四五規(guī)劃和十九屆五中全會提出:

1、加強關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用 用聚焦芯片、操作系統(tǒng)、人工智能關(guān)鍵算法、傳感 器等關(guān)鍵領(lǐng)域,加快推進基礎(chǔ)理論、基礎(chǔ)算法、裝備 材料等研發(fā)突破與迭代應(yīng)用。加強通用處理器、 云計算系統(tǒng)和軟件技術(shù)一體化研發(fā)。

2、加快推動數(shù)字產(chǎn)業(yè)化 培育壯大人工智能、大數(shù)據(jù)、區(qū)塊鏈、云計算、網(wǎng)絡(luò) 安全等新興數(shù)字產(chǎn)業(yè),提升通信設(shè)備、關(guān)鍵電 子元器件、關(guān)鍵軟件等產(chǎn)業(yè)水平。

3、科技自強 ,科技自立 堅持創(chuàng)新在我國現(xiàn)代化建設(shè)全局中的重要地位,把 科技自立自強作為國家發(fā)展的戰(zhàn)略支撐。

Argus運維監(jiān)控系統(tǒng)在信息技術(shù)創(chuàng)新應(yīng)用的大背景下應(yīng)運而生。 對于運維監(jiān)控的告警信息,應(yīng)該如何分析,或者說應(yīng)該從哪些方向去分析呢?產(chǎn)品運維監(jiān)控共同合作

Prometheus指標(biāo)采集和查詢存儲方案-2020年

我們分一級監(jiān)控平臺和二級集群Prometheus監(jiān)控采集組件。一級提供kafka集群和Prometheus聚合組件,二級各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠程送數(shù)據(jù)到一級的kafka集群。

該方案優(yōu)點:

1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。

2.一級監(jiān)控平臺上只要有足夠的cpu、存儲資源,理論上可以水平擴展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級,吞吐量達370萬/s。

3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時序數(shù)據(jù)庫influxdb中,可以保存一個月數(shù)據(jù)量甚至更多。

該方案沒做到什么:

1.采集端Prometheus擴容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。

2.一級監(jiān)控平臺上時序數(shù)據(jù)庫influxdb有單點問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 產(chǎn)品運維監(jiān)控共同合作Argus運維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計結(jié)果一覽無余。

面向IT資源200+以上的各類型單位,產(chǎn)品提供一體化運維監(jiān)控功能,以幫助信息部門員高效管理IT運行環(huán)境、IT資產(chǎn),通過運維工具的自動化,提升單位IT服務(wù)質(zhì)量,提高運維效率,降低運維成本,減輕運維人員工作壓力。

Argus實時運維監(jiān)控分析系統(tǒng)是基于全球負有盛名的IT基礎(chǔ)監(jiān)控平臺Zabbix深度二次開發(fā)的運維監(jiān)控軟件,面向私有化及混合云數(shù)據(jù)中心提供多角度多層次的統(tǒng)一監(jiān)控和運維管理。幫助用戶實時對各類IT資源(網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲、數(shù)據(jù)庫、中間件等)執(zhí)行性能指標(biāo)監(jiān)控,實現(xiàn)事前運維。

遇到多集群場景問題

多達上百個集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個集群,其多集群場景特點有:

服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;

網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;

業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。

只用Prometheus能解決嗎?

Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時間等。 Argus運維監(jiān)控從聚合事件快速下探到具體事件, 并直觀呈現(xiàn)相關(guān)事件的發(fā)生趨勢。

2020年12月13日,據(jù)海外媒體報道,一個名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬客戶在其系統(tǒng)上部署了該更新,且對美國財政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。

SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國極大網(wǎng)絡(luò)安全事件。

“太陽風(fēng)”(SolarWinds) 是一家專職提供IT監(jiān)控和運維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測、設(shè)備性能維護管理、故障監(jiān)控、網(wǎng)絡(luò)實時流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓撲監(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過32萬家。SolarWinds作為一個齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個國內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 運維監(jiān)控體系一般來說包括數(shù)據(jù)采集、數(shù)據(jù)檢測、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。產(chǎn)品運維監(jiān)控共同合作

運維監(jiān)控中收到了故障報警,我們怎么處理呢?有什么更高效的處理流程嗎?產(chǎn)品運維監(jiān)控共同合作

運維監(jiān)控數(shù)據(jù)治理:

1、分析決策層:基于公共維度層封裝具體的分析決策場景;結(jié)合低代碼和看 板,形成運維BI分析平臺??捎蓪I(yè)團隊和工具團隊共同建 設(shè)。實現(xiàn)真正的以數(shù)據(jù)驅(qū)動作業(yè)。

2、公共維度層:建立數(shù)據(jù)資產(chǎn)清單,加工后的元數(shù)據(jù)進行數(shù)據(jù)的生命周期管 理、數(shù)據(jù)血緣分析、完整性監(jiān)控、綜合指標(biāo)管理。此層數(shù)據(jù) 由工具研發(fā)團隊實現(xiàn)。

3、元 數(shù) 據(jù) 層:基于現(xiàn)有自動化、監(jiān)控、日志、C M D B、云管、云平臺等常 用系統(tǒng)封裝插件式的數(shù)據(jù)處理工具,做到數(shù)據(jù)按需所取,標(biāo) 準(zhǔn)接入。按需索取,不做全量的數(shù)倉平臺。 產(chǎn)品運維監(jiān)控共同合作

上海觀縱科技有限公司致力于傳媒、廣電,以科技創(chuàng)新實現(xiàn)高質(zhì)量管理的追求。觀縱科技深耕行業(yè)多年,始終以客戶的需求為向?qū)В瑸榭蛻籼峁└哔|(zhì)量的webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控。觀縱科技不斷開拓創(chuàng)新,追求出色,以技術(shù)為先導(dǎo),以產(chǎn)品為平臺,以應(yīng)用為重點,以服務(wù)為保證,不斷為客戶創(chuàng)造更高價值,提供更優(yōu)服務(wù)。觀縱科技始終關(guān)注自身,在風(fēng)云變化的時代,對自身的建設(shè)毫不懈怠,高度的專注與執(zhí)著使觀縱科技在行業(yè)的從容而自信。