推薦運(yùn)維監(jiān)控好處

來(lái)源: 發(fā)布時(shí)間:2023-02-17

遇到多集群場(chǎng)景問題

多達(dá)上百個(gè)集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個(gè)集群,其多集群場(chǎng)景特點(diǎn)有:

服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無(wú)法發(fā)現(xiàn)多個(gè)集群的被監(jiān)控對(duì)象;

網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;

業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。

只用Prometheus能解決嗎?

Prometheus本身只支持單機(jī)部署,沒有自帶支持集群部署,對(duì)于集群化和水平擴(kuò)展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲(chǔ)空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個(gè)Prometheus所能存儲(chǔ)的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過(guò)期時(shí)間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過(guò)期時(shí)間等。 Argus運(yùn)維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計(jì)結(jié)果一覽無(wú)余。推薦運(yùn)維監(jiān)控好處

運(yùn)維監(jiān)控?cái)?shù)據(jù)治理:

1、分析決策層:基于公共維度層封裝具體的分析決策場(chǎng)景;結(jié)合低代碼和看 板,形成運(yùn)維BI分析平臺(tái)??捎蓪I(yè)團(tuán)隊(duì)和工具團(tuán)隊(duì)共同建 設(shè)。實(shí)現(xiàn)真正的以數(shù)據(jù)驅(qū)動(dòng)作業(yè)。

2、公共維度層:建立數(shù)據(jù)資產(chǎn)清單,加工后的元數(shù)據(jù)進(jìn)行數(shù)據(jù)的生命周期管 理、數(shù)據(jù)血緣分析、完整性監(jiān)控、綜合指標(biāo)管理。此層數(shù)據(jù) 由工具研發(fā)團(tuán)隊(duì)實(shí)現(xiàn)。

3、元 數(shù) 據(jù) 層:基于現(xiàn)有自動(dòng)化、監(jiān)控、日志、C M D B、云管、云平臺(tái)等常 用系統(tǒng)封裝插件式的數(shù)據(jù)處理工具,做到數(shù)據(jù)按需所取,標(biāo) 準(zhǔn)接入。按需索取,不做全量的數(shù)倉(cāng)平臺(tái)。 天津運(yùn)維監(jiān)控套餐Argus基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái)。

對(duì)于網(wǎng)絡(luò)設(shè)備的監(jiān)控,也一般從設(shè)備性能、質(zhì)量、狀態(tài)等維度入手。對(duì)于每臺(tái)網(wǎng)絡(luò)設(shè)備來(lái)說(shuō)運(yùn)維同學(xué)一般會(huì)關(guān)注如下等高頻場(chǎng)景:

網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)syslog(設(shè)備運(yùn)行日志)的監(jiān)控與告警;設(shè)備堆疊狀態(tài)下的(例如交換機(jī)堆疊)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上每個(gè)物理端口的、流量、包量、錯(cuò)包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上邏輯端口(物理端口組合)的性能與狀態(tài)。

對(duì)于網(wǎng)絡(luò)設(shè)備的syslog告警來(lái)說(shuō),同樣也會(huì)面臨諸如:不同的廠商、設(shè)備類型與設(shè)備型號(hào)日志標(biāo)準(zhǔn)不統(tǒng)一等問題。

所以對(duì)于網(wǎng)絡(luò)設(shè)備syslog監(jiān)控告警來(lái)說(shuō),首先是將眾多的網(wǎng)絡(luò)設(shè)備進(jìn)行邏輯分組,以便于在一個(gè)分組內(nèi)的設(shè)備均可以響應(yīng)同一個(gè)告警關(guān)鍵字,并且這個(gè)分組粒度建議較細(xì),這樣才能保障告警關(guān)鍵字的有效性與獨(dú)一性。在這里根據(jù)多年的運(yùn)維經(jīng)驗(yàn),建議syslog告警的分組模型由四個(gè)維度組成:廠商+類型+型號(hào)+用途例如:CISCO+交換機(jī)+EX43000-24T+內(nèi)網(wǎng)接入層交換機(jī),通過(guò)這個(gè)公式就描述出一個(gè)設(shè)備的邏輯分組。

一般公司里的運(yùn)維,大致可以分為基礎(chǔ)運(yùn)維、應(yīng)用運(yùn)維、運(yùn)維開發(fā)、監(jiān)控組四大部分,而運(yùn)維監(jiān)控是所有運(yùn)維的基礎(chǔ)。1、基礎(chǔ)運(yùn)維,負(fù)責(zé)IDC運(yùn)維,服務(wù)器上下架,網(wǎng)絡(luò)設(shè)備等。2、應(yīng)用運(yùn)維,也就是systemadministrator,系統(tǒng)管理員。3、運(yùn)維開發(fā),負(fù)責(zé)運(yùn)維工具的開發(fā),系統(tǒng)開發(fā)等,例如開發(fā)監(jiān)控系統(tǒng),代碼發(fā)布系統(tǒng)。4、監(jiān)控組,也就是24小時(shí)值班的工作人員,需要時(shí)刻關(guān)注服務(wù)器,網(wǎng)站的狀況,出現(xiàn)問題后,盡快時(shí)間聯(lián)系相關(guān)運(yùn)維以及研發(fā)人員。Argus運(yùn)維監(jiān)控系統(tǒng)數(shù)據(jù)采集與業(yè)務(wù)分析 展現(xiàn)分離架構(gòu)。

Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。

環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群 

監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高 

無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置

數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集 

事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) Argus運(yùn)維監(jiān)控系統(tǒng)可手動(dòng)設(shè)置貼合業(yè)務(wù)的事件聚合規(guī)則、消息分派規(guī)則,并可查看與管理事件集、事件。技術(shù)運(yùn)維監(jiān)控供應(yīng)

想要做好運(yùn)維監(jiān)控,這個(gè)命題很大,可想而知不是只要做好一件兩件的事就能實(shí)現(xiàn),必定是成體系、成規(guī)范。推薦運(yùn)維監(jiān)控好處

在信息系統(tǒng)的生命周期中,一般系統(tǒng)建設(shè)的時(shí)間大約為一年,而系統(tǒng)使用運(yùn)維的時(shí)間大約四到七年或更長(zhǎng),因此,業(yè)界提出了“三分建設(shè),七分管理”的運(yùn)維監(jiān)控管理。經(jīng)過(guò)大致兩輪的信息化建設(shè),企業(yè)信息化將逐步趨于成熟,后續(xù)信息化工作的重點(diǎn)之一便是做好系統(tǒng)的運(yùn)維工作,保障系系統(tǒng)平穩(wěn)運(yùn)行,支撐業(yè)務(wù)發(fā)展。

信息保障部門日常運(yùn)行管理?xiàng)l塊分割,網(wǎng)絡(luò)、應(yīng)用、IT基礎(chǔ)環(huán)境等資源需要不同技能分工人員,在不同時(shí)段值守,當(dāng)網(wǎng)絡(luò)設(shè)備發(fā)生變化時(shí),無(wú)法迅速的適應(yīng)。各類業(yè)務(wù)應(yīng)用系統(tǒng)缺乏針對(duì)性的管理平臺(tái),單從網(wǎng)元和資源個(gè)體進(jìn)行管理的角度無(wú)法解決業(yè)務(wù)系統(tǒng)的監(jiān)控要求,因?yàn)闃I(yè)務(wù)系統(tǒng)是由多個(gè)關(guān)聯(lián)資源及其關(guān)聯(lián)關(guān)系組成,一旦業(yè)務(wù)系統(tǒng)出現(xiàn)運(yùn)行過(guò)慢、無(wú)法登錄、應(yīng)用報(bào)錯(cuò)等問題時(shí),難以排查具體的故障點(diǎn),從而影響業(yè)務(wù)系統(tǒng)故障恢復(fù),也不利于業(yè)務(wù)系統(tǒng)的性能調(diào)優(yōu),造成單位IT資源與IT管理人員的“雙高”負(fù)荷運(yùn)轉(zhuǎn)。沒有統(tǒng)一的實(shí)時(shí)監(jiān)控IT運(yùn)維是依托經(jīng)驗(yàn)式、補(bǔ)救式的事后運(yùn)維。同樣的IT故障引發(fā)大范圍報(bào)障,需要通過(guò)監(jiān)控鎖定故障源合并事件;同樣的IT故障在缺乏監(jiān)控?cái)?shù)據(jù)描述和處置經(jīng)驗(yàn)的支撐時(shí),擅長(zhǎng)不同技能的運(yùn)維工程師處理效率有天壤之別;同樣的IT故障高頻復(fù)發(fā),需要監(jiān)控的分析優(yōu)化資源配置。 推薦運(yùn)維監(jiān)控好處

上海觀縱科技有限公司是一家集生產(chǎn)科研、加工、銷售為一體的****,公司成立于2022-11-14,位于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室。公司誠(chéng)實(shí)守信,真誠(chéng)為客戶提供服務(wù)。公司主要經(jīng)營(yíng)webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控,公司與webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控行業(yè)內(nèi)多家研究中心、機(jī)構(gòu)保持合作關(guān)系,共同交流、探討技術(shù)更新。通過(guò)科學(xué)管理、產(chǎn)品研發(fā)來(lái)提高公司競(jìng)爭(zhēng)力。公司與行業(yè)上下游之間建立了長(zhǎng)久親密的合作關(guān)系,確保webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控在技術(shù)上與行業(yè)內(nèi)保持同步。產(chǎn)品質(zhì)量按照行業(yè)標(biāo)準(zhǔn)進(jìn)行研發(fā)生產(chǎn),絕不因價(jià)格而放棄質(zhì)量和聲譽(yù)。上海觀縱科技有限公司以誠(chéng)信為原則,以安全、便利為基礎(chǔ),以優(yōu)惠價(jià)格為webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控的客戶提供貼心服務(wù),努力贏得客戶的認(rèn)可和支持,歡迎新老客戶來(lái)我們公司參觀。