統(tǒng)一運(yùn)維監(jiān)控平臺(tái),說到底本質(zhì)上也是一個(gè)監(jiān)控系統(tǒng),監(jiān)控的基本能力是必不可少的,回歸到監(jiān)控的本質(zhì),先梳理下整個(gè)監(jiān)控體系:①監(jiān)控系統(tǒng)的本質(zhì)是通過發(fā)現(xiàn)故障、解決故障、預(yù)防故障來為了保障業(yè)務(wù)的穩(wěn)定。②監(jiān)控體系一般來說包括數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。而數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)和告警處理是監(jiān)控的小閉環(huán),但如果想要真正把監(jiān)控系統(tǒng)做好,那故障管理閉環(huán)、視圖管理、監(jiān)控管理的模塊也缺一不可。argus運(yùn)維監(jiān)控平臺(tái)讓運(yùn)維工作不再繁瑣。機(jī)房智慧運(yùn)維監(jiān)控系統(tǒng)
整個(gè)餓了么監(jiān)控系統(tǒng)在演進(jìn)過程中主要分為如下3個(gè)階段:
第一階段:主要由Statsd/Graphite/Grafana負(fù)責(zé)業(yè)務(wù)層的監(jiān)控,ETrace負(fù)責(zé)全鏈路監(jiān)控,Zabbix負(fù)責(zé)服務(wù)器層面的監(jiān)控,ELog負(fù)責(zé)分布式日志搜索;
第二階段:整個(gè)餓了么也從單IDC演進(jìn)成異地多活架構(gòu),所以對(duì)監(jiān)控也提出了更高的要求,基于這個(gè)我們也自研LinDB,以支持多活架構(gòu)下的監(jiān)控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來的日志方案;
第三階段:主要做一個(gè)減法,即把原來StatsD/Graphite/ETrace/ESM/InfluxDB統(tǒng)一到了EMonitor+LinDB這樣的平臺(tái),以提供給用戶一套統(tǒng)一的監(jiān)控平臺(tái),日志開始使用阿里云的SLS。 IT智慧運(yùn)維監(jiān)控軟件快速讀懂智能化運(yùn)維監(jiān)控如何賦能IT可觀察性!
80多次“穩(wěn)”,3次提及“數(shù)字化”與“互聯(lián)網(wǎng)”,“數(shù)字經(jīng)濟(jì)”第6次被提到.....而在第十三屆全國人大會(huì)第五次會(huì)議上,工作報(bào)告,強(qiáng)調(diào)“著力穩(wěn)定宏觀經(jīng)濟(jì)大盤”與深入實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的同時(shí),重點(diǎn)就“加強(qiáng)數(shù)字中國建設(shè)整體布局、促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展”等方面作出部署。
為助力客戶加速實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,共同支持我國數(shù)字中國建設(shè),觀縱扎根于智慧運(yùn)維監(jiān)控領(lǐng)域,先后為金融、運(yùn)營商、能源、交通、制造等數(shù)十類行業(yè)的上百家客戶,提供了數(shù)字化運(yùn)維體系建設(shè)及全生命周期運(yùn)維管理解決方案。
2020年12月13日,據(jù)海外媒體報(bào)道,一個(gè)名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對(duì)SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進(jìn)行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬客戶在其系統(tǒng)上部署了該更新,且對(duì)美國財(cái)政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國極大網(wǎng)絡(luò)安全事件。
“太陽風(fēng)”(SolarWinds) 是一家專職提供IT監(jiān)控和運(yùn)維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測(cè)、設(shè)備性能維護(hù)管理、故障監(jiān)控、網(wǎng)絡(luò)實(shí)時(shí)流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計(jì)、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過32萬家。SolarWinds作為一個(gè)齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個(gè)國內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 基于正確的SNMP信息,Argus可實(shí)現(xiàn)獲取高準(zhǔn)確率的拓?fù)潢P(guān)系,并自動(dòng)生成拓?fù)鋱D。
運(yùn)維監(jiān)控系統(tǒng)智能告警的整體成效明顯。結(jié)合預(yù)警和健康診斷后終在告警觸發(fā)環(huán)節(jié)形成可配置 化派單和收斂模型??呻S時(shí)滿足運(yùn)維團(tuán)隊(duì)的各種派單規(guī)則。有效抑制同類型告警事件以及存在從屬關(guān)系告警事件, 同樣實(shí)現(xiàn)界面化配置,整體抑制無需處理的告警工單 40%。整個(gè)智能告警模塊全部自主研發(fā),并實(shí)現(xiàn)標(biāo)準(zhǔn)的告警接 入模塊,可快速對(duì)接開源監(jiān)控工具以及專業(yè)管理軟件提 供的監(jiān)控功能。以歷史監(jiān)控?cái)?shù)據(jù)做為樣本,通過算法學(xué)習(xí)形成預(yù)警 基線。 實(shí)作為告警的前置動(dòng)作,結(jié)合監(jiān)控?cái)?shù)據(jù)觸發(fā)健康診 斷流程。 逐步擴(kuò)充基線繪制的場景,在隱患出現(xiàn)期間提前介 入。Argus運(yùn)維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計(jì)結(jié)果一覽無余。業(yè)務(wù)智能運(yùn)維監(jiān)控
Argus運(yùn)維監(jiān)控大數(shù)據(jù)的提取與分析。機(jī)房智慧運(yùn)維監(jiān)控系統(tǒng)
中間件和數(shù)據(jù)庫組件監(jiān)控:中間件和數(shù)據(jù)庫組件都統(tǒng)一提供sidecar模式部署的exporter進(jìn)行指標(biāo)采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫,也可以開發(fā)自定義exporter(kingbase、greatdb等國產(chǎn)數(shù)據(jù)庫都走這個(gè)方式),也可以開發(fā)指標(biāo)推到Prometheus的pushgateway(polardb國產(chǎn)數(shù)據(jù)庫走這個(gè)方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標(biāo)準(zhǔn)的metrics)。
各業(yè)務(wù)集群怎么部署監(jiān)控組件各業(yè)務(wù)集群都單獨(dú)部署Prometheus和grafana;在集群各節(jié)點(diǎn)部署有kubelet客戶端和demonset模式的node-exporter;在集群管理節(jié)點(diǎn)部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標(biāo)數(shù)據(jù);中間件和數(shù)據(jù)庫組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫時(shí)就開始收集監(jiān)控?cái)?shù)據(jù)。 機(jī)房智慧運(yùn)維監(jiān)控系統(tǒng)
觀縱科技,2022-11-14正式啟動(dòng),成立了webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等幾大市場布局,應(yīng)對(duì)行業(yè)變化,順應(yīng)市場趨勢(shì)發(fā)展,在創(chuàng)新中尋求突破,進(jìn)而提升webfunny,walkingfunny,argus的市場競爭力,把握市場機(jī)遇,推動(dòng)傳媒、廣電產(chǎn)業(yè)的進(jìn)步。是具有一定實(shí)力的傳媒、廣電企業(yè)之一,主要提供webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域內(nèi)的產(chǎn)品或服務(wù)。同時(shí),企業(yè)針對(duì)用戶,在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等幾大領(lǐng)域,提供更多、更豐富的傳媒、廣電產(chǎn)品,進(jìn)一步為全國更多單位和企業(yè)提供更具針對(duì)性的傳媒、廣電服務(wù)。觀縱科技始終保持在傳媒、廣電領(lǐng)域優(yōu)先的前提下,不斷優(yōu)化業(yè)務(wù)結(jié)構(gòu)。在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域承攬了一大批高精尖項(xiàng)目,積極為更多傳媒、廣電企業(yè)提供服務(wù)。