可靠的智能化運(yùn)維監(jiān)控方案

來(lái)源: 發(fā)布時(shí)間:2023-06-16

數(shù)據(jù)準(zhǔn)入:所有數(shù)據(jù)對(duì)象化,定義固定字段、對(duì)象描述字段、對(duì)象具體數(shù)值三類,便于后續(xù)管理。數(shù)據(jù)血緣:數(shù)據(jù)采集階段記錄數(shù)據(jù)依賴關(guān)系,明確展示數(shù)據(jù)血緣,避免數(shù)據(jù)關(guān)聯(lián)錯(cuò)誤同時(shí)可比較大化減少數(shù)據(jù)冗余。數(shù)據(jù)生命周期:嚴(yán)格控制數(shù)據(jù)存儲(chǔ)生命周期,定時(shí)對(duì)冗余數(shù)據(jù)進(jìn)行清洗校驗(yàn),確保整體性能。數(shù)據(jù)完整性:基于數(shù)據(jù)血緣,對(duì)所有數(shù)據(jù)的完整性進(jìn)行校驗(yàn),不僅對(duì)單條數(shù)據(jù)本身同時(shí)需要對(duì)上下關(guān)聯(lián)數(shù)據(jù)進(jìn)行校驗(yàn)。數(shù)據(jù)責(zé)任制:將各類數(shù)據(jù)的正確性和關(guān)聯(lián)性責(zé)任到各個(gè)專業(yè)團(tuán)隊(duì),從源頭控制數(shù)據(jù)質(zhì)量。即使零經(jīng)驗(yàn)的小白用戶,也可以通過(guò)Argus管理IT運(yùn)維監(jiān)控,執(zhí)行運(yùn)維監(jiān)控管理。可靠的智能化運(yùn)維監(jiān)控方案

Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。

環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群 

監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高 

無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置

數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集 

事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 國(guó)內(nèi)運(yùn)維監(jiān)控管理系統(tǒng)運(yùn)維、監(jiān)控系統(tǒng)的本質(zhì)是通過(guò)發(fā)現(xiàn)故障、解決故障、預(yù)防故障來(lái)為了保障業(yè)務(wù)的穩(wěn)定。

基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤(pán)分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。

上海觀縱科技有限公司是Zabbix中國(guó)認(rèn)證合作伙伴,以天下沒(méi)有難做的運(yùn)維為愿景,致力于幫助用戶使用更簡(jiǎn)單、保障更完備的運(yùn)維監(jiān)控,成為業(yè)務(wù)運(yùn)行的堅(jiān)實(shí)后盾。本著為用戶創(chuàng)造價(jià)值的宗旨,觀縱做到釋放人力、集約資源的同時(shí),提升事件處理效率、減少運(yùn)維隱患。通過(guò)不斷積累行業(yè)經(jīng)驗(yàn)的匠維模型研發(fā),實(shí)現(xiàn)運(yùn)維自動(dòng)化、智能化。從而實(shí)現(xiàn)故障有歸因、處理有留痕,自動(dòng)預(yù)測(cè)運(yùn)維態(tài)勢(shì),讓企業(yè)把握運(yùn)維動(dòng)態(tài),降低潛在風(fēng)險(xiǎn),解放人力、節(jié)約時(shí)間成本。運(yùn)維監(jiān)控體系一般來(lái)說(shuō)包括數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。

對(duì)于網(wǎng)絡(luò)出口與網(wǎng)絡(luò)專線的有效監(jiān)控與分析,既能協(xié)助業(yè)務(wù)運(yùn)維同學(xué)有效地定位業(yè)務(wù)異常、評(píng)估業(yè)務(wù)服務(wù)質(zhì)量等,也能有效地度量業(yè)務(wù)整體運(yùn)營(yíng)成本,畢竟現(xiàn)在帶寬的使用成本在整體運(yùn)營(yíng)成本中也是占比越來(lái)越大。相信運(yùn)維同學(xué)多少都會(huì)遇到下面等較高頻的使用場(chǎng)景:

這條專線當(dāng)前利用率多少?

在已經(jīng)使用的流量中,某個(gè)IP使用了多少流量?這些所產(chǎn)生的流量是基于什么協(xié)議與方向?

專線與網(wǎng)絡(luò)出口的丟包率與時(shí)延是怎么樣的?

每條專線中主要是哪些務(wù)在用?哪個(gè)是“地主客戶”?對(duì)

于網(wǎng)絡(luò)流量的監(jiān)控來(lái)說(shuō),其實(shí)中心是一個(gè)分析平臺(tái),通過(guò)把采集到的各種流量包抓取過(guò)來(lái),然后再把相應(yīng)的流量送入分析集群。 Argus優(yōu)化了 Promethues Exporter Http 采集接入流程,可自動(dòng)創(chuàng)建指標(biāo)。業(yè)務(wù)智慧運(yùn)維監(jiān)控平臺(tái)

一個(gè)集運(yùn)維監(jiān)控、運(yùn)維自動(dòng)化、運(yùn)維安全合規(guī)、運(yùn)維成本管控、運(yùn)維協(xié)同等能力屬性的大一統(tǒng)平臺(tái),是比較好解??煽康闹悄芑\(yùn)維監(jiān)控方案

運(yùn)維監(jiān)控的流程包括:

發(fā)現(xiàn)問(wèn)題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息定位問(wèn)題:故障郵件一般都會(huì)寫(xiě)某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問(wèn)題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無(wú)法連接,又或者某開(kāi)發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。解決問(wèn)題:當(dāng)然我們了解到故障的原因后,就需要通過(guò)故障解決的優(yōu)先級(jí)去解決該故障。總結(jié)問(wèn)題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。 可靠的智能化運(yùn)維監(jiān)控方案

上海觀縱科技有限公司總部位于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,是一家一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷售;通信設(shè)備銷售;通訊設(shè)備銷售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門批準(zhǔn)文件或許可證件為準(zhǔn))的公司。公司自創(chuàng)立以來(lái),投身于webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控,是傳媒、廣電的主力軍。觀縱科技始終以本分踏實(shí)的精神和必勝的信念,影響并帶動(dòng)團(tuán)隊(duì)取得成功。觀縱科技始終關(guān)注自身,在風(fēng)云變化的時(shí)代,對(duì)自身的建設(shè)毫不懈怠,高度的專注與執(zhí)著使觀縱科技在行業(yè)的從容而自信。