數(shù)據(jù)是數(shù)字化轉(zhuǎn)型的基礎(chǔ)。無(wú)論是在傳統(tǒng)企業(yè),還是在IT成熟度較高的金融、互聯(lián)網(wǎng)等企業(yè)中,日志數(shù)據(jù)都是不可或缺的一個(gè)信息來(lái)源。日志記錄了服務(wù)器、工作站、防火墻和應(yīng)用軟件等IT資源運(yùn)行時(shí)的詳細(xì)信息,對(duì)于IT運(yùn)維有著重要的作用。Argus運(yùn)維監(jiān)控系統(tǒng)Syslog 日志接收和分析解決了以下難題:日志來(lái)源復(fù)雜,種類(lèi)繁多,日志采集操作復(fù)雜,效率低下;在每天TB級(jí)以上的數(shù)據(jù)增量下,開(kāi)源解決方案的擴(kuò)展性和穩(wěn)定性無(wú)法保證;日志數(shù)據(jù)中記錄了豐富的信息,且存量巨大,日志價(jià)值挖掘困難;停留在被動(dòng)排障階段,無(wú)法及時(shí)發(fā)現(xiàn)業(yè)務(wù)異常,不能主動(dòng)感知業(yè)務(wù)和IT的狀態(tài)。 Argus運(yùn)維監(jiān)控系統(tǒng)從展現(xiàn)、指標(biāo)模型構(gòu)建、數(shù)據(jù)采集等維度對(duì)Zabbix進(jìn)行增強(qiáng)。信息運(yùn)維監(jiān)控銷(xiāo)售
2020年12月13日,據(jù)海外媒體報(bào)道,一個(gè)名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠(chǎng)商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對(duì)SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進(jìn)行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬(wàn)客戶(hù)在其系統(tǒng)上部署了該更新,且對(duì)美國(guó)財(cái)政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱(chēng)為2020年美國(guó)極大網(wǎng)絡(luò)安全事件。
“太陽(yáng)風(fēng)”(SolarWinds) 是一家專(zhuān)職提供IT監(jiān)控和運(yùn)維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測(cè)、設(shè)備性能維護(hù)管理、故障監(jiān)控、網(wǎng)絡(luò)實(shí)時(shí)流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計(jì)、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶(hù)超過(guò)32萬(wàn)家。SolarWinds作為一個(gè)齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個(gè)國(guó)內(nèi)推廣的難題。像同一類(lèi)型的軟件Hostmonitor、CA Unicenter也是存在同樣的問(wèn)題。 信息運(yùn)維監(jiān)控銷(xiāo)售運(yùn)維監(jiān)控的目的是什么?
監(jiān)控是整個(gè)運(yùn)維以及產(chǎn)品整個(gè)生命周期非常重要的一環(huán),它旨在事前能夠及時(shí)預(yù)警發(fā)現(xiàn)故障,事中能夠結(jié)合監(jiān)控?cái)?shù)據(jù)定位問(wèn)題,事后能夠提供數(shù)據(jù)用于分析問(wèn)題。監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線(xiàn)。其主要的服務(wù)對(duì)象有:技術(shù)和業(yè)務(wù)。技術(shù)通過(guò)監(jiān)控系統(tǒng)可以了解技術(shù)的環(huán)境狀態(tài),可以幫助檢測(cè)、診斷、解決技術(shù)環(huán)境中的故障和問(wèn)題。然而運(yùn)維監(jiān)控系統(tǒng)的實(shí)質(zhì)目標(biāo)是業(yè)務(wù),是為了更好的支持業(yè)務(wù)運(yùn)行,確保業(yè)務(wù)的持續(xù)開(kāi)展。所以監(jiān)控的目的可以簡(jiǎn)單歸納如下:1、能夠?qū)ο到y(tǒng)進(jìn)行7*24小時(shí)的實(shí)時(shí)監(jiān)控 2、能夠及時(shí)反饋系統(tǒng)狀態(tài) 3、保證平臺(tái)的穩(wěn)定運(yùn)行 3、保證服務(wù)的安全可靠 4、保證業(yè)務(wù)的持續(xù)運(yùn)行
運(yùn)維監(jiān)控從原有的被動(dòng)式處理故障變?yōu)榻邮疹A(yù)警信息,提前發(fā)現(xiàn)潛在風(fēng)險(xiǎn)、提前解決問(wèn)題,在IT故障波及業(yè)務(wù)運(yùn)行之前的告警處置。及時(shí)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)各個(gè)單元故障,深度定位系統(tǒng)的故障根源,通過(guò)CMDB建立IT資源關(guān)聯(lián)關(guān)系并在故障發(fā)生時(shí)迅速發(fā)現(xiàn)潛在可能影響的業(yè)務(wù)。7*24小時(shí)不間斷、無(wú)遺漏監(jiān)控,相對(duì)于人工巡檢而言,發(fā)現(xiàn)問(wèn)題更及時(shí)完備。支持對(duì)不同硬件廠(chǎng)商/系列/型號(hào)、不同軟件類(lèi)型/版本的全類(lèi)指標(biāo)監(jiān)控和故障分析,內(nèi)置告警處置知識(shí)庫(kù),降低了運(yùn)維工作對(duì)人的依賴(lài)程度。方便IT組織部門(mén)對(duì)人與硬件資源、虛擬資源之間的維護(hù)關(guān)系管理,助力IT報(bào)障責(zé)任劃分體系建設(shè),為IT運(yùn)維人員的工作績(jī)效提供依據(jù)。使業(yè)務(wù)部門(mén)感知到的運(yùn)行故障頻次大量降低,提升對(duì)信息保障部門(mén)的信任度。以 zabbix 為采集中心配合自研的 ArgusNMS 增強(qiáng)模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實(shí)現(xiàn)監(jiān)管控的需求。
對(duì)于網(wǎng)絡(luò)出口與網(wǎng)絡(luò)專(zhuān)線(xiàn)的有效監(jiān)控與分析,既能協(xié)助業(yè)務(wù)運(yùn)維同學(xué)有效地定位業(yè)務(wù)異常、評(píng)估業(yè)務(wù)服務(wù)質(zhì)量等,也能有效地度量業(yè)務(wù)整體運(yùn)營(yíng)成本,畢竟現(xiàn)在帶寬的使用成本在整體運(yùn)營(yíng)成本中也是占比越來(lái)越大。相信運(yùn)維同學(xué)多少都會(huì)遇到下面等較高頻的使用場(chǎng)景:
這條專(zhuān)線(xiàn)當(dāng)前利用率多少?
在已經(jīng)使用的流量中,某個(gè)IP使用了多少流量?這些所產(chǎn)生的流量是基于什么協(xié)議與方向?
專(zhuān)線(xiàn)與網(wǎng)絡(luò)出口的丟包率與時(shí)延是怎么樣的?
每條專(zhuān)線(xiàn)中主要是哪些務(wù)在用?哪個(gè)是“地主客戶(hù)”?對(duì)
于網(wǎng)絡(luò)流量的監(jiān)控來(lái)說(shuō),其實(shí)中心是一個(gè)分析平臺(tái),通過(guò)把采集到的各種流量包抓取過(guò)來(lái),然后再把相應(yīng)的流量送入分析集群。 快速讀懂智能化運(yùn)維監(jiān)控如何賦能IT可觀(guān)察性!方案運(yùn)維監(jiān)控銷(xiāo)售
一個(gè)集運(yùn)維監(jiān)控、運(yùn)維自動(dòng)化、運(yùn)維安全合規(guī)、運(yùn)維成本管控、運(yùn)維協(xié)同等能力屬性的大一統(tǒng)平臺(tái),是比較好解。信息運(yùn)維監(jiān)控銷(xiāo)售
Prometheus指標(biāo)采集和查詢(xún)存儲(chǔ)方案-2020年
我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。
該方案沒(méi)做到什么:
1.采集端Prometheus擴(kuò)容問(wèn)題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問(wèn)題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 信息運(yùn)維監(jiān)控銷(xiāo)售
上海觀(guān)縱科技有限公司是以提供webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控內(nèi)的多項(xiàng)綜合服務(wù),為消費(fèi)者多方位提供webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控,觀(guān)縱科技是我國(guó)傳媒、廣電技術(shù)的研究和標(biāo)準(zhǔn)制定的重要參與者和貢獻(xiàn)者。觀(guān)縱科技致力于構(gòu)建傳媒、廣電自主創(chuàng)新的競(jìng)爭(zhēng)力,多年來(lái),已經(jīng)為我國(guó)傳媒、廣電行業(yè)生產(chǎn)、經(jīng)濟(jì)等的發(fā)展做出了重要貢獻(xiàn)。