基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。自研 ArgusNMS,增強(qiáng) Zabbix 網(wǎng)管功能, 實(shí)現(xiàn)模塊動(dòng)態(tài)擴(kuò)展。國(guó)產(chǎn)運(yùn)維監(jiān)控創(chuàng)新
國(guó)產(chǎn)信創(chuàng)設(shè)備、軟件監(jiān)測(cè)管理之路面臨這兩大問(wèn)題與挑戰(zhàn)。挑戰(zhàn)一:信創(chuàng)產(chǎn)業(yè)帶來(lái)IT標(biāo)準(zhǔn)的重構(gòu),很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標(biāo)準(zhǔn),而這時(shí)的產(chǎn)品還處于可用階段,在這期間會(huì)產(chǎn)生許多問(wèn)題,為保障業(yè)務(wù)運(yùn)維的安全,亟需一個(gè)可以兼容信創(chuàng)體系和支持國(guó)產(chǎn)化環(huán)境部署的監(jiān)測(cè)軟件對(duì)其進(jìn)行監(jiān)測(cè)管理。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設(shè)備特用機(jī)房有多個(gè)品牌的國(guó)產(chǎn)化設(shè)備,需要一個(gè)系統(tǒng)既能監(jiān)測(cè)國(guó)外設(shè)備,又能監(jiān)測(cè)國(guó)外設(shè)備,而很多企業(yè),特別是國(guó)外的監(jiān)測(cè)軟件,不支持監(jiān)測(cè)信創(chuàng)的設(shè)備與信創(chuàng)的軟件。國(guó)產(chǎn)運(yùn)維監(jiān)控創(chuàng)新Argus優(yōu)化了 Promethues Exporter Http 采集接入流程,可自動(dòng)創(chuàng)建指標(biāo)。
大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬(wàn)時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。
當(dāng)series數(shù)據(jù)超過(guò)300萬(wàn)時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來(lái)運(yùn)行。壓測(cè)過(guò)程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。
IAAS層的監(jiān)控從IAAS層的組成這個(gè)維度來(lái)說(shuō),可以分為一個(gè)個(gè)獨(dú)一的資源對(duì)象來(lái)分類監(jiān)控,針對(duì)每一類對(duì)象可以分別從狀態(tài)、性能、容量、質(zhì)量這幾個(gè)維度描述,將不同的數(shù)據(jù)綜合為開(kāi)發(fā)與運(yùn)維的統(tǒng)一視角。監(jiān)控告警產(chǎn)品的建設(shè)是任重而道遠(yuǎn)的過(guò)程,坑也非常多。要考慮多種因素,技術(shù)后臺(tái)能力只是其中的一部分。
例如在DevOps的文化下,需要從更高的層面來(lái)統(tǒng)一視角(開(kāi)發(fā)視角&運(yùn)維視角)避免將監(jiān)控做成"開(kāi)發(fā)的監(jiān)控”與"運(yùn)維的監(jiān)控”。也需要更多的考慮監(jiān)控產(chǎn)品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權(quán)限(行業(yè)屬性)如何分類設(shè)計(jì)。 想要做好運(yùn)維監(jiān)控,這個(gè)命題很大,可想而知不是只要做好一件兩件的事就能實(shí)現(xiàn),必定是成體系、成規(guī)范。
在云原生時(shí)代,基礎(chǔ)設(shè)施與應(yīng)用的部署構(gòu)建都發(fā)生了極大變化,傳統(tǒng)的監(jiān)控方式已經(jīng)無(wú)法適應(yīng)云原生的場(chǎng)景。Prometheus支持對(duì)kubernetes和容器的監(jiān)控,基本上是完美選擇,那么通過(guò)Prometheus監(jiān)控體系如何搭建PAAS監(jiān)控體系?監(jiān)控哪些對(duì)象?
k8s管理組件、節(jié)點(diǎn)、pod容器、各種中間件數(shù)據(jù)庫(kù)組件指標(biāo):mysql、redis、kafka、rocketmq、activemq、zookeeper、elasticsearch、mongodb、nginx、clickhouse。同時(shí),還提供了kingbase、polardb、GreatDB等國(guó)產(chǎn)數(shù)據(jù)庫(kù)的監(jiān)控。
怎么監(jiān)控?
k8s組件監(jiān)控:Prometheus直接拉取各組件的metrics接口數(shù)據(jù);
節(jié)點(diǎn)監(jiān)控:在各節(jié)點(diǎn)部署node_exporter,Prometheus自動(dòng)發(fā)現(xiàn)所有節(jié)點(diǎn)對(duì)象拉取exporter提供的數(shù)據(jù);
pod容器監(jiān)控:用各節(jié)點(diǎn)部署的kubelet的cadivisor功能,使Prometheus自動(dòng)發(fā)現(xiàn)并拉取cadivisor提供的容器運(yùn)行時(shí)指標(biāo),并部署kube-state-metrics拉取pod容器元數(shù)據(jù)。 想吃透運(yùn)維監(jiān)控系統(tǒng),就這一篇足夠了!國(guó)產(chǎn)運(yùn)維監(jiān)控創(chuàng)新
即使零經(jīng)驗(yàn)的小白用戶,也可以通過(guò)Argus管理IT運(yùn)維監(jiān)控,執(zhí)行運(yùn)維監(jiān)控管理。國(guó)產(chǎn)運(yùn)維監(jiān)控創(chuàng)新
監(jiān)控是一項(xiàng)非常重要的運(yùn)維工作,尤其對(duì)于一些比較重要的業(yè)務(wù),如果沒(méi)有監(jiān)控,就只能等著用戶反饋。常見(jiàn)的開(kāi)源監(jiān)控軟件有 Cacti、Nagios、Zabbix、Smokeping 和 Open-falcon 等。Cacti 和 Smokeping 傾向于基礎(chǔ)監(jiān)控,成圖非常漂亮。Cacti、Nagios 和 Zabbix 服務(wù)端監(jiān)控中心需要 PHP 環(huán)境支持,其中 Zabbix 和 Cacti 需要安裝 MySQL 作為存儲(chǔ)數(shù)據(jù)庫(kù)。Nagios 不用存儲(chǔ)歷史數(shù)據(jù),注重服務(wù)或監(jiān)控項(xiàng)的狀態(tài)。Zabbix 會(huì)獲取服務(wù)或監(jiān)控項(xiàng)目的數(shù)據(jù),把數(shù)據(jù)記錄到數(shù)據(jù)庫(kù)中,可以成圖查看。Argus是基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái),打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生態(tài)無(wú)縫兼容 國(guó)產(chǎn)運(yùn)維監(jiān)控創(chuàng)新
上海觀縱科技有限公司坐落在上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室,是一家專業(yè)的一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷售;通信設(shè)備銷售;通訊設(shè)備銷售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門批準(zhǔn)文件或許可證件為準(zhǔn))公司。公司目前擁有專業(yè)的技術(shù)員工,為員工提供廣闊的發(fā)展平臺(tái)與成長(zhǎng)空間,為客戶提供高質(zhì)的產(chǎn)品服務(wù),深受員工與客戶好評(píng)。公司以誠(chéng)信為本,業(yè)務(wù)領(lǐng)域涵蓋webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控,我們本著對(duì)客戶負(fù)責(zé),對(duì)員工負(fù)責(zé),更是對(duì)公司發(fā)展負(fù)責(zé)的態(tài)度,爭(zhēng)取做到讓每位客戶滿意。公司力求給客戶提供全數(shù)良好服務(wù),我們相信誠(chéng)實(shí)正直、開(kāi)拓進(jìn)取地為公司發(fā)展做正確的事情,將為公司和個(gè)人帶來(lái)共同的利益和進(jìn)步。經(jīng)過(guò)幾年的發(fā)展,已成為webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控行業(yè)出名企業(yè)。