在信息系統(tǒng)的生命周期中,一般系統(tǒng)建設(shè)的時(shí)間大約為一年,而系統(tǒng)使用運(yùn)維的時(shí)間大約四到七年或更長(zhǎng),因此,業(yè)界提出了“三分建設(shè),七分管理”的運(yùn)維監(jiān)控管理。經(jīng)過(guò)大致兩輪的信息化建設(shè),企業(yè)信息化將逐步趨于成熟,后續(xù)信息化工作的重點(diǎn)之一便是做好系統(tǒng)的運(yùn)維工作,保障系系統(tǒng)平穩(wěn)運(yùn)行,支撐業(yè)務(wù)發(fā)展。
信息保障部門(mén)日常運(yùn)行管理?xiàng)l塊分割,網(wǎng)絡(luò)、應(yīng)用、IT基礎(chǔ)環(huán)境等資源需要不同技能分工人員,在不同時(shí)段值守,當(dāng)網(wǎng)絡(luò)設(shè)備發(fā)生變化時(shí),無(wú)法迅速的適應(yīng)。各類(lèi)業(yè)務(wù)應(yīng)用系統(tǒng)缺乏針對(duì)性的管理平臺(tái),單從網(wǎng)元和資源個(gè)體進(jìn)行管理的角度無(wú)法解決業(yè)務(wù)系統(tǒng)的監(jiān)控要求,因?yàn)闃I(yè)務(wù)系統(tǒng)是由多個(gè)關(guān)聯(lián)資源及其關(guān)聯(lián)關(guān)系組成,一旦業(yè)務(wù)系統(tǒng)出現(xiàn)運(yùn)行過(guò)慢、無(wú)法登錄、應(yīng)用報(bào)錯(cuò)等問(wèn)題時(shí),難以排查具體的故障點(diǎn),從而影響業(yè)務(wù)系統(tǒng)故障恢復(fù),也不利于業(yè)務(wù)系統(tǒng)的性能調(diào)優(yōu),造成單位IT資源與IT管理人員的“雙高”負(fù)荷運(yùn)轉(zhuǎn)。沒(méi)有統(tǒng)一的實(shí)時(shí)監(jiān)控IT運(yùn)維是依托經(jīng)驗(yàn)式、補(bǔ)救式的事后運(yùn)維。同樣的IT故障引發(fā)大范圍報(bào)障,需要通過(guò)監(jiān)控鎖定故障源合并事件;同樣的IT故障在缺乏監(jiān)控?cái)?shù)據(jù)描述和處置經(jīng)驗(yàn)的支撐時(shí),擅長(zhǎng)不同技能的運(yùn)維工程師處理效率有天壤之別;同樣的IT故障高頻復(fù)發(fā),需要監(jiān)控的分析優(yōu)化資源配置。 對(duì)于運(yùn)維監(jiān)控的告警信息,應(yīng)該如何分析,或者說(shuō)應(yīng)該從哪些方向去分析呢?廣東運(yùn)維監(jiān)控供應(yīng)
監(jiān)控是一項(xiàng)非常重要的運(yùn)維工作,尤其對(duì)于一些比較重要的業(yè)務(wù),如果沒(méi)有監(jiān)控,就只能等著用戶反饋。常見(jiàn)的開(kāi)源監(jiān)控軟件有 Cacti、Nagios、Zabbix、Smokeping 和 Open-falcon 等。Cacti 和 Smokeping 傾向于基礎(chǔ)監(jiān)控,成圖非常漂亮。Cacti、Nagios 和 Zabbix 服務(wù)端監(jiān)控中心需要 PHP 環(huán)境支持,其中 Zabbix 和 Cacti 需要安裝 MySQL 作為存儲(chǔ)數(shù)據(jù)庫(kù)。Nagios 不用存儲(chǔ)歷史數(shù)據(jù),注重服務(wù)或監(jiān)控項(xiàng)的狀態(tài)。Zabbix 會(huì)獲取服務(wù)或監(jiān)控項(xiàng)目的數(shù)據(jù),把數(shù)據(jù)記錄到數(shù)據(jù)庫(kù)中,可以成圖查看。Argus是基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái),打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生態(tài)無(wú)縫兼容 福建運(yùn)維監(jiān)控共同合作Argus 單機(jī)支持1萬(wàn)+監(jiān)控對(duì)象,滿足不同設(shè)備監(jiān)控。從方方面面統(tǒng)計(jì)信息,可以直觀看出服務(wù)的可用性。
在云原生時(shí)代,基礎(chǔ)設(shè)施與應(yīng)用的部署構(gòu)建都發(fā)生了極大變化,傳統(tǒng)的監(jiān)控方式已經(jīng)無(wú)法適應(yīng)云原生的場(chǎng)景。Prometheus支持對(duì)kubernetes和容器的監(jiān)控,基本上是完美選擇,那么通過(guò)Prometheus監(jiān)控體系如何搭建PAAS監(jiān)控體系?監(jiān)控哪些對(duì)象?
k8s管理組件、節(jié)點(diǎn)、pod容器、各種中間件數(shù)據(jù)庫(kù)組件指標(biāo):mysql、redis、kafka、rocketmq、activemq、zookeeper、elasticsearch、mongodb、nginx、clickhouse。同時(shí),還提供了kingbase、polardb、GreatDB等國(guó)產(chǎn)數(shù)據(jù)庫(kù)的監(jiān)控。
怎么監(jiān)控?
k8s組件監(jiān)控:Prometheus直接拉取各組件的metrics接口數(shù)據(jù);
節(jié)點(diǎn)監(jiān)控:在各節(jié)點(diǎn)部署node_exporter,Prometheus自動(dòng)發(fā)現(xiàn)所有節(jié)點(diǎn)對(duì)象拉取exporter提供的數(shù)據(jù);
pod容器監(jiān)控:用各節(jié)點(diǎn)部署的kubelet的cadivisor功能,使Prometheus自動(dòng)發(fā)現(xiàn)并拉取cadivisor提供的容器運(yùn)行時(shí)指標(biāo),并部署kube-state-metrics拉取pod容器元數(shù)據(jù)。
不管是網(wǎng)絡(luò)設(shè)備,數(shù)據(jù)庫(kù),中間件,還是安全設(shè)備涉及的品牌以及同一廠家的版本都是繁多的,但是我們的Argus運(yùn)維監(jiān)控系統(tǒng)是都可以統(tǒng)一納入監(jiān)控的,可以說(shuō)目前市面上的品牌我們都可以監(jiān)控的到,能監(jiān)控這么多的品牌一個(gè)是得益于自己本身多年的積累,還有就是我們可以自定義監(jiān)控器,也就是說(shuō)如果某個(gè)廠家新出了一款設(shè)備如果運(yùn)維監(jiān)控系統(tǒng)監(jiān)控不到的話,咱們可以自定義一個(gè)適配的監(jiān)控器來(lái)對(duì)他進(jìn)行管理,而且以后再出現(xiàn)同類(lèi)型的就可以直接監(jiān)控了,非常的方便。 自研 ArgusNMS,增強(qiáng) Zabbix 網(wǎng)管功能, 實(shí)現(xiàn)模塊動(dòng)態(tài)擴(kuò)展。
基于信創(chuàng)環(huán)境建立信創(chuàng)運(yùn)維服務(wù)體系,滿足跨平臺(tái)對(duì)信創(chuàng)軟硬件設(shè)備提供運(yùn)維監(jiān)控管理功能,包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)(國(guó)產(chǎn)數(shù)據(jù)庫(kù)及非國(guó)產(chǎn)數(shù)據(jù)庫(kù))、應(yīng)用服務(wù)器、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時(shí)間發(fā)現(xiàn)問(wèn)題、分析出原因、得出解決方案,使故障問(wèn)題能夠在極短時(shí)間內(nèi)解決,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。Argus 運(yùn)維監(jiān)控平臺(tái)是跨區(qū)域、跨部門(mén)的運(yùn)維系統(tǒng)監(jiān)控平臺(tái),實(shí)現(xiàn)包括不限于服務(wù)器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)(國(guó)產(chǎn)數(shù)據(jù)庫(kù)及非國(guó)產(chǎn)數(shù)據(jù)庫(kù))、中間件、存儲(chǔ)、業(yè)務(wù)系統(tǒng)等運(yùn)維監(jiān)控。通過(guò)對(duì)基礎(chǔ)實(shí)施、信息系統(tǒng)、項(xiàng)目進(jìn)度的總體監(jiān)控實(shí)現(xiàn)運(yùn)維體系的有效運(yùn)行,保障信創(chuàng)項(xiàng)目順利開(kāi)展。提供自動(dòng)化運(yùn)維、智能化運(yùn)維功能,打破了人工現(xiàn)場(chǎng)運(yùn)維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補(bǔ)丁分發(fā)等場(chǎng)景實(shí)現(xiàn)功能自動(dòng)化;利用智能學(xué)習(xí)、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù)手段,實(shí)現(xiàn)故障從人工處理到無(wú)人值守的變革,降低故障處理時(shí)間的同時(shí),實(shí)現(xiàn)被動(dòng)運(yùn)維到主動(dòng)干預(yù)的轉(zhuǎn)變。自研ArgusNMS,增強(qiáng)網(wǎng)關(guān)功能,實(shí)現(xiàn)高效且準(zhǔn)確的網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)等功能。廣西運(yùn)維監(jiān)控
運(yùn)維、監(jiān)控系統(tǒng)的本質(zhì)是通過(guò)發(fā)現(xiàn)故障、解決故障、預(yù)防故障來(lái)為了保障業(yè)務(wù)的穩(wěn)定。廣東運(yùn)維監(jiān)控供應(yīng)
運(yùn)維監(jiān)控的流程包括:
發(fā)現(xiàn)問(wèn)題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息定位問(wèn)題:故障郵件一般都會(huì)寫(xiě)某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問(wèn)題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無(wú)法連接,又或者某開(kāi)發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。解決問(wèn)題:當(dāng)然我們了解到故障的原因后,就需要通過(guò)故障解決的優(yōu)先級(jí)去解決該故障??偨Y(jié)問(wèn)題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。 廣東運(yùn)維監(jiān)控供應(yīng)
上海觀縱科技有限公司屬于傳媒、廣電的高新企業(yè),技術(shù)力量雄厚。公司致力于為客戶提供安全、質(zhì)量有保證的良好產(chǎn)品及服務(wù),是一家有限責(zé)任公司企業(yè)。公司擁有專(zhuān)業(yè)的技術(shù)團(tuán)隊(duì),具有webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等多項(xiàng)業(yè)務(wù)。觀縱科技以創(chuàng)造***產(chǎn)品及服務(wù)的理念,打造高指標(biāo)的服務(wù),引導(dǎo)行業(yè)的發(fā)展。