十四五規(guī)劃和十九屆五中全會(huì)提出:
1、加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用 用聚焦芯片、操作系統(tǒng)、人工智能關(guān)鍵算法、傳感 器等關(guān)鍵領(lǐng)域,加快推進(jìn)基礎(chǔ)理論、基礎(chǔ)算法、裝備 材料等研發(fā)突破與迭代應(yīng)用。加強(qiáng)通用處理器、 云計(jì)算系統(tǒng)和軟件技術(shù)一體化研發(fā)。
2、加快推動(dòng)數(shù)字產(chǎn)業(yè)化 培育壯大人工智能、大數(shù)據(jù)、區(qū)塊鏈、云計(jì)算、網(wǎng)絡(luò) 安全等新興數(shù)字產(chǎn)業(yè),提升通信設(shè)備、關(guān)鍵電 子元器件、關(guān)鍵軟件等產(chǎn)業(yè)水平。
3、科技自強(qiáng) ,科技自立 堅(jiān)持創(chuàng)新在我國(guó)現(xiàn)代化建設(shè)全局中的重要地位,把 科技自立自強(qiáng)作為國(guó)家發(fā)展的戰(zhàn)略支撐。
Argus運(yùn)維監(jiān)控系統(tǒng)在信息技術(shù)創(chuàng)新應(yīng)用的大背景下應(yīng)運(yùn)而生。 對(duì)于運(yùn)維監(jiān)控的告警信息,應(yīng)該如何分析,或者說(shuō)應(yīng)該從哪些方向去分析呢?產(chǎn)品運(yùn)維監(jiān)控共同合作
Prometheus指標(biāo)采集和查詢存儲(chǔ)方案-2020年
我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。
該方案沒做到什么:
1.采集端Prometheus擴(kuò)容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 產(chǎn)品運(yùn)維監(jiān)控共同合作Argus運(yùn)維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計(jì)結(jié)果一覽無(wú)余。
面向IT資源200+以上的各類型單位,產(chǎn)品提供一體化運(yùn)維監(jiān)控功能,以幫助信息部門員高效管理IT運(yùn)行環(huán)境、IT資產(chǎn),通過運(yùn)維工具的自動(dòng)化,提升單位IT服務(wù)質(zhì)量,提高運(yùn)維效率,降低運(yùn)維成本,減輕運(yùn)維人員工作壓力。
Argus實(shí)時(shí)運(yùn)維監(jiān)控分析系統(tǒng)是基于全球負(fù)有盛名的IT基礎(chǔ)監(jiān)控平臺(tái)Zabbix深度二次開發(fā)的運(yùn)維監(jiān)控軟件,面向私有化及混合云數(shù)據(jù)中心提供多角度多層次的統(tǒng)一監(jiān)控和運(yùn)維管理。幫助用戶實(shí)時(shí)對(duì)各類IT資源(網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)、數(shù)據(jù)庫(kù)、中間件等)執(zhí)行性能指標(biāo)監(jiān)控,實(shí)現(xiàn)事前運(yùn)維。
遇到多集群場(chǎng)景問題
多達(dá)上百個(gè)集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個(gè)集群,其多集群場(chǎng)景特點(diǎn)有:
服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機(jī)制無(wú)法發(fā)現(xiàn)多個(gè)集群的被監(jiān)控對(duì)象;
網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;
業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機(jī)部署,沒有自帶支持集群部署,對(duì)于集群化和水平擴(kuò)展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲(chǔ)空間也受限于單機(jī)磁盤容量,磁盤容量決定了單個(gè)Prometheus所能存儲(chǔ)的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標(biāo)數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時(shí)間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標(biāo)、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時(shí)間等。 Argus運(yùn)維監(jiān)控從聚合事件快速下探到具體事件, 并直觀呈現(xiàn)相關(guān)事件的發(fā)生趨勢(shì)。
2020年12月13日,據(jù)海外媒體報(bào)道,一個(gè)名為APT的網(wǎng)絡(luò)入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標(biāo)。這次APT攻擊首先是對(duì)SolarWinds旗下的Orion網(wǎng)絡(luò)監(jiān)控軟件更新服務(wù)器進(jìn)行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬(wàn)客戶在其系統(tǒng)上部署了該更新,且對(duì)美國(guó)財(cái)政部高層領(lǐng)導(dǎo)使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導(dǎo)致全球許多組織的網(wǎng)絡(luò)遭到破壞,涉及的供應(yīng)鏈范圍極為廣大,被稱為2020年美國(guó)極大網(wǎng)絡(luò)安全事件。
“太陽(yáng)風(fēng)”(SolarWinds) 是一家專職提供IT監(jiān)控和運(yùn)維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡(luò)監(jiān)測(cè)、設(shè)備性能維護(hù)管理、故障監(jiān)控、網(wǎng)絡(luò)實(shí)時(shí)流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計(jì)、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控等功能于一體的網(wǎng)絡(luò)管理系統(tǒng)。該軟件主要是用于企業(yè)內(nèi)部網(wǎng)絡(luò)管理,目前全球客戶超過32萬(wàn)家。SolarWinds作為一個(gè)齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個(gè)國(guó)內(nèi)推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 運(yùn)維監(jiān)控體系一般來(lái)說(shuō)包括數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。產(chǎn)品運(yùn)維監(jiān)控共同合作
運(yùn)維監(jiān)控中收到了故障報(bào)警,我們?cè)趺刺幚砟兀坑惺裁锤咝У奶幚砹鞒虇??產(chǎn)品運(yùn)維監(jiān)控共同合作
運(yùn)維監(jiān)控?cái)?shù)據(jù)治理:
1、分析決策層:基于公共維度層封裝具體的分析決策場(chǎng)景;結(jié)合低代碼和看 板,形成運(yùn)維BI分析平臺(tái)。可由專業(yè)團(tuán)隊(duì)和工具團(tuán)隊(duì)共同建 設(shè)。實(shí)現(xiàn)真正的以數(shù)據(jù)驅(qū)動(dòng)作業(yè)。
2、公共維度層:建立數(shù)據(jù)資產(chǎn)清單,加工后的元數(shù)據(jù)進(jìn)行數(shù)據(jù)的生命周期管 理、數(shù)據(jù)血緣分析、完整性監(jiān)控、綜合指標(biāo)管理。此層數(shù)據(jù) 由工具研發(fā)團(tuán)隊(duì)實(shí)現(xiàn)。
3、元 數(shù) 據(jù) 層:基于現(xiàn)有自動(dòng)化、監(jiān)控、日志、C M D B、云管、云平臺(tái)等常 用系統(tǒng)封裝插件式的數(shù)據(jù)處理工具,做到數(shù)據(jù)按需所取,標(biāo) 準(zhǔn)接入。按需索取,不做全量的數(shù)倉(cāng)平臺(tái)。 產(chǎn)品運(yùn)維監(jiān)控共同合作
上海觀縱科技有限公司致力于傳媒、廣電,以科技創(chuàng)新實(shí)現(xiàn)高質(zhì)量管理的追求。觀縱科技深耕行業(yè)多年,始終以客戶的需求為向?qū)?,為客戶提供高質(zhì)量的webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控。觀縱科技不斷開拓創(chuàng)新,追求出色,以技術(shù)為先導(dǎo),以產(chǎn)品為平臺(tái),以應(yīng)用為重點(diǎn),以服務(wù)為保證,不斷為客戶創(chuàng)造更高價(jià)值,提供更優(yōu)服務(wù)。觀縱科技始終關(guān)注自身,在風(fēng)云變化的時(shí)代,對(duì)自身的建設(shè)毫不懈怠,高度的專注與執(zhí)著使觀縱科技在行業(yè)的從容而自信。