廣東運維監(jiān)控常見問題

來源: 發(fā)布時間:2023-06-20

監(jiān)控貫穿應(yīng)用的整個生命周期。即從程序設(shè)計、開發(fā)、部署、下線,監(jiān)控是需要站在公司的業(yè)務(wù)角度去考慮,而不是針對某個監(jiān)控技術(shù)的使用。監(jiān)控的目標包括:對系統(tǒng)不間斷的實時監(jiān)控。實時反饋系統(tǒng)當前狀態(tài)。保證服務(wù)可靠性安全性。保證業(yè)務(wù)持續(xù)穩(wěn)定運行。

運維監(jiān)控方法包括:健康檢查。健康檢查是對應(yīng)用本身健康狀況的監(jiān)控,檢查服務(wù)是否還正常存活。日志。日志是排查問題的主要方式,日志可以提供豐富的信息用于定位和解決問題。調(diào)用鏈監(jiān)控。調(diào)用鏈監(jiān)控可以完整的呈現(xiàn)出一次請求的全部信息,包括服務(wù)調(diào)用鏈路、所耗時間等。指標監(jiān)控。指標是一些基于時間序列的離散數(shù)據(jù)點,通過聚合和計算后能反映出一些重要指標的趨勢。 什么是統(tǒng)一運維監(jiān)控平臺?真的能提高IT運維效率嗎?廣東運維監(jiān)控常見問題

對于服務(wù)器的監(jiān)控同樣也是從狀態(tài)、性能與容量這幾個維度入手。雖然SNMP也可以用于服務(wù)器監(jiān)控,但相對于agent主動上報指標與數(shù)據(jù)會少很多。

服務(wù)器的狀態(tài)監(jiān)控主要包含服務(wù)器是否ping的通、agent上報是否超時與電源運行狀態(tài)等等。對于性能與容量這兩類維度,主要依賴當前OS的數(shù)據(jù)捕獲,一般來說對于服務(wù)器監(jiān)控來說在通用場景下主要關(guān)注CPU、內(nèi)存、流量與包量這四個指標即可,但是別的指標也建議盡量捕獲。

單個監(jiān)控對象的數(shù)據(jù)豐富了會有如下好處:避免對象的監(jiān)控盲點不同的監(jiān)控數(shù)據(jù)點可以部分對應(yīng)出該服務(wù)器所承載的業(yè)務(wù)特性指標,例如存儲類業(yè)務(wù)也會關(guān)注disk_total_read、svctm_time_max、await_time_max等等系統(tǒng)指標生產(chǎn)的數(shù)據(jù)足夠豐富能夠催生出更加豐富的運維數(shù)據(jù)消費場景。服務(wù)器監(jiān)控相對是很標準的監(jiān)控模型,針對于物理服務(wù)器與虛擬機都有共性指標。這部分主要做到采集的數(shù)據(jù)豐富與上報的準確性(算法準確)。 服務(wù)運維監(jiān)控管理Argus運維監(jiān)控系統(tǒng)通過事件壓縮機制, 構(gòu)建了事件集的聚合業(yè)務(wù)。

Zabbix 是 B/S 架構(gòu),抓取數(shù)據(jù)是通過客戶端抓取的,在客戶端必須有服務(wù)啟動,該服務(wù)負責采集數(shù)據(jù),數(shù)據(jù)會主動上報給服務(wù)端,也可讓服務(wù)端連接客戶端去抓取數(shù)據(jù)??蛻舳朔譃閮煞N模式,即主動模式和被動模式。Argus運維監(jiān)平臺以 Zabbix 為基礎(chǔ),可同時兼容 不同版本的Zabbix,以 zabbix 為采集關(guān)鍵配合自研的 ArgusNMS 增強模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。單一業(yè)務(wù)環(huán)境下可以支持多 組采集單元(多zabbix-server),實現(xiàn)真正意義上的分布式采集。

2020年12月13日,據(jù)海外媒體報道,一個名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標。這次APT攻擊首先是對SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬客戶在其系統(tǒng)上部署了該更新,且對美國財政部高層領(lǐng)導使用的電子郵件系統(tǒng)也造成了影響。

SolarWinds的系統(tǒng)被攻擊之后,已導致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國極大網(wǎng)絡(luò)安全事件。

“太陽風”(SolarWinds) 是一家專職提供IT監(jiān)控和運維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測、設(shè)備性能維護管理、故障監(jiān)控、網(wǎng)絡(luò)實時流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓撲監(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過32萬家。SolarWinds作為一個齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個國內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 快來看看常用的運維監(jiān)控必備知識!

對于網(wǎng)絡(luò)設(shè)備的監(jiān)控,也一般從設(shè)備性能、質(zhì)量、狀態(tài)等維度入手。對于每臺網(wǎng)絡(luò)設(shè)備來說運維同學一般會關(guān)注如下等高頻場景:

網(wǎng)絡(luò)設(shè)備的運行狀態(tài)syslog(設(shè)備運行日志)的監(jiān)控與告警;設(shè)備堆疊狀態(tài)下的(例如交換機堆疊)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上每個物理端口的、流量、包量、錯包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上邏輯端口(物理端口組合)的性能與狀態(tài)。

對于網(wǎng)絡(luò)設(shè)備的syslog告警來說,同樣也會面臨諸如:不同的廠商、設(shè)備類型與設(shè)備型號日志標準不統(tǒng)一等問題。

所以對于網(wǎng)絡(luò)設(shè)備syslog監(jiān)控告警來說,首先是將眾多的網(wǎng)絡(luò)設(shè)備進行邏輯分組,以便于在一個分組內(nèi)的設(shè)備均可以響應(yīng)同一個告警關(guān)鍵字,并且這個分組粒度建議較細,這樣才能保障告警關(guān)鍵字的有效性與獨一性。在這里根據(jù)多年的運維經(jīng)驗,建議syslog告警的分組模型由四個維度組成:廠商+類型+型號+用途例如:CISCO+交換機+EX43000-24T+內(nèi)網(wǎng)接入層交換機,通過這個公式就描述出一個設(shè)備的邏輯分組。 Argus優(yōu)化了 Promethues Exporter Http 采集接入流程,可自動創(chuàng)建指標。方案運維監(jiān)控案例

Argus運維監(jiān)控系統(tǒng)針對 Zabbix 數(shù)據(jù)模型的場景優(yōu)化,定制了自定義拖拽的組合詳情頁面。廣東運維監(jiān)控常見問題

運維監(jiān)控系統(tǒng)智能告警的整體成效明顯。結(jié)合預警和健康診斷后終在告警觸發(fā)環(huán)節(jié)形成可配置 化派單和收斂模型??呻S時滿足運維團隊的各種派單規(guī)則。有效抑制同類型告警事件以及存在從屬關(guān)系告警事件, 同樣實現(xiàn)界面化配置,整體抑制無需處理的告警工單 40%。整個智能告警模塊全部自主研發(fā),并實現(xiàn)標準的告警接 入模塊,可快速對接開源監(jiān)控工具以及專業(yè)管理軟件提 供的監(jiān)控功能。以歷史監(jiān)控數(shù)據(jù)做為樣本,通過算法學習形成預警 基線。 實作為告警的前置動作,結(jié)合監(jiān)控數(shù)據(jù)觸發(fā)健康診 斷流程。 逐步擴充基線繪制的場景,在隱患出現(xiàn)期間提前介 入。廣東運維監(jiān)控常見問題

上海觀縱科技有限公司是我國webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控專業(yè)化較早的有限責任公司之一,觀縱科技是我國傳媒、廣電技術(shù)的研究和標準制定的重要參與者和貢獻者。公司承擔并建設(shè)完成傳媒、廣電多項重點項目,取得了明顯的社會和經(jīng)濟效益。觀縱科技將以精良的技術(shù)、優(yōu)異的產(chǎn)品性能和完善的售后服務(wù),滿足國內(nèi)外廣大客戶的需求。