整個(gè)餓了么監(jiān)控系統(tǒng)在演進(jìn)過(guò)程中主要分為如下3個(gè)階段:
第一階段:主要由Statsd/Graphite/Grafana負(fù)責(zé)業(yè)務(wù)層的監(jiān)控,ETrace負(fù)責(zé)全鏈路監(jiān)控,Zabbix負(fù)責(zé)服務(wù)器層面的監(jiān)控,ELog負(fù)責(zé)分布式日志搜索;
第二階段:整個(gè)餓了么也從單IDC演進(jìn)成異地多活架構(gòu),所以對(duì)監(jiān)控也提出了更高的要求,基于這個(gè)我們也自研LinDB,以支持多活架構(gòu)下的監(jiān)控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來(lái)的日志方案;
第三階段:主要做一個(gè)減法,即把原來(lái)StatsD/Graphite/ETrace/ESM/InfluxDB統(tǒng)一到了EMonitor+LinDB這樣的平臺(tái),以提供給用戶一套統(tǒng)一的監(jiān)控平臺(tái),日志開(kāi)始使用阿里云的SLS。 Argus是觀縱科技自主研發(fā)的it運(yùn)維監(jiān)控系統(tǒng),旨在對(duì)信息中心軟硬件實(shí)施全天候無(wú)死角監(jiān)控。浙江運(yùn)維監(jiān)控哪里買(mǎi)
Prometheus指標(biāo)采集和查詢存儲(chǔ)方案-2020年
我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。
該方案沒(méi)做到什么:
1.采集端Prometheus擴(kuò)容問(wèn)題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問(wèn)題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 浙江運(yùn)維監(jiān)控哪里買(mǎi)Argus運(yùn)維監(jiān)控系統(tǒng)通過(guò)事件壓縮機(jī)制, 構(gòu)建了事件集的聚合業(yè)務(wù)。
一般公司里的運(yùn)維,大致可以分為基礎(chǔ)運(yùn)維、應(yīng)用運(yùn)維、運(yùn)維開(kāi)發(fā)、監(jiān)控組四大部分,而運(yùn)維監(jiān)控是所有運(yùn)維的基礎(chǔ)。1、基礎(chǔ)運(yùn)維,負(fù)責(zé)IDC運(yùn)維,服務(wù)器上下架,網(wǎng)絡(luò)設(shè)備等。2、應(yīng)用運(yùn)維,也就是systemadministrator,系統(tǒng)管理員。3、運(yùn)維開(kāi)發(fā),負(fù)責(zé)運(yùn)維工具的開(kāi)發(fā),系統(tǒng)開(kāi)發(fā)等,例如開(kāi)發(fā)監(jiān)控系統(tǒng),代碼發(fā)布系統(tǒng)。4、監(jiān)控組,也就是24小時(shí)值班的工作人員,需要時(shí)刻關(guān)注服務(wù)器,網(wǎng)站的狀況,出現(xiàn)問(wèn)題后,盡快時(shí)間聯(lián)系相關(guān)運(yùn)維以及研發(fā)人員。
對(duì)于IaaS層的監(jiān)控,本質(zhì)來(lái)說(shuō)就是監(jiān)控組成IaaS層的各個(gè)資源對(duì)象,那么資源對(duì)象代表什么呢?
例如物理服務(wù)器、交換機(jī)、一條專線與一個(gè)公網(wǎng)IP等等都是一個(gè)個(gè)資源對(duì)象。通常來(lái)說(shuō)對(duì)于資源對(duì)象的監(jiān)控可以分為以下4個(gè)維度。
狀態(tài)的監(jiān)控:通指設(shè)備的的狀態(tài),如設(shè)備的存活狀態(tài)、網(wǎng)絡(luò)設(shè)備的端口狀態(tài)、電源、風(fēng)扇狀態(tài)等;
性能監(jiān)控:通指設(shè)備內(nèi)存大小,端口流量包量、CPU利用率等等;
質(zhì)量監(jiān)控:通指設(shè)備的丟包率、錯(cuò)包率、網(wǎng)絡(luò)訪問(wèn)的延時(shí)等等;
容量監(jiān)控:通指設(shè)備的負(fù)載使用率、專線帶寬使用率、網(wǎng)絡(luò)設(shè)備的負(fù)載使用率、服務(wù)器的負(fù)載使用率等等。 自研ArgusNMS,增強(qiáng)網(wǎng)關(guān)功能,實(shí)現(xiàn)高效且準(zhǔn)確的網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)等功能。
運(yùn)維監(jiān)控的流程包括:
發(fā)現(xiàn)問(wèn)題:當(dāng)系統(tǒng)發(fā)生故障報(bào)警,我們會(huì)收到故障報(bào)警的信息定位問(wèn)題:故障郵件一般都會(huì)寫(xiě)某某主機(jī)故障、具體故障的內(nèi)容,我們需要對(duì)報(bào)警內(nèi)容進(jìn)行分析,比如一臺(tái)服務(wù)器連不上:我們就需要考慮是網(wǎng)絡(luò)問(wèn)題、還是負(fù)載太高導(dǎo)致長(zhǎng)時(shí)間無(wú)法連接,又或者某開(kāi)發(fā)觸發(fā)了防火墻禁止的相關(guān)策略等等,我們就需要去分析故障具體原因。解決問(wèn)題:當(dāng)然我們了解到故障的原因后,就需要通過(guò)故障解決的優(yōu)先級(jí)去解決該故障??偨Y(jié)問(wèn)題:當(dāng)我們解決完重大故障后,需要對(duì)故障原因以及防范進(jìn)行總結(jié)歸納,避免以后重復(fù)出現(xiàn)。 Argus運(yùn)維監(jiān)控系統(tǒng)-IT網(wǎng)管的救命稻草!浙江運(yùn)維監(jiān)控哪里買(mǎi)
什么是統(tǒng)一運(yùn)維監(jiān)控平臺(tái)?真的能提高IT運(yùn)維效率嗎?浙江運(yùn)維監(jiān)控哪里買(mǎi)
監(jiān)控是整個(gè)運(yùn)維以及產(chǎn)品整個(gè)生命周期非常重要的一環(huán),它旨在事前能夠及時(shí)預(yù)警發(fā)現(xiàn)故障,事中能夠結(jié)合監(jiān)控?cái)?shù)據(jù)定位問(wèn)題,事后能夠提供數(shù)據(jù)用于分析問(wèn)題。監(jiān)控貫穿應(yīng)用的整個(gè)生命周期。即從程序設(shè)計(jì)、開(kāi)發(fā)、部署、下線。其主要的服務(wù)對(duì)象有:技術(shù)和業(yè)務(wù)。技術(shù)通過(guò)監(jiān)控系統(tǒng)可以了解技術(shù)的環(huán)境狀態(tài),可以幫助檢測(cè)、診斷、解決技術(shù)環(huán)境中的故障和問(wèn)題。然而運(yùn)維監(jiān)控系統(tǒng)的實(shí)質(zhì)目標(biāo)是業(yè)務(wù),是為了更好的支持業(yè)務(wù)運(yùn)行,確保業(yè)務(wù)的持續(xù)開(kāi)展。所以監(jiān)控的目的可以簡(jiǎn)單歸納如下:1、能夠?qū)ο到y(tǒng)進(jìn)行7*24小時(shí)的實(shí)時(shí)監(jiān)控 2、能夠及時(shí)反饋系統(tǒng)狀態(tài) 3、保證平臺(tái)的穩(wěn)定運(yùn)行 3、保證服務(wù)的安全可靠 4、保證業(yè)務(wù)的持續(xù)運(yùn)行浙江運(yùn)維監(jiān)控哪里買(mǎi)
上海觀縱科技有限公司是一家一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷(xiāo)售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷(xiāo)售;通信設(shè)備銷(xiāo)售;通訊設(shè)備銷(xiāo)售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門(mén)批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門(mén)批準(zhǔn)文件或許可證件為準(zhǔn))的公司,是一家集研發(fā)、設(shè)計(jì)、生產(chǎn)和銷(xiāo)售為一體的專業(yè)化公司。觀縱科技深耕行業(yè)多年,始終以客戶的需求為向?qū)В瑸榭蛻籼峁└哔|(zhì)量的webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控。觀縱科技不斷開(kāi)拓創(chuàng)新,追求出色,以技術(shù)為先導(dǎo),以產(chǎn)品為平臺(tái),以應(yīng)用為重點(diǎn),以服務(wù)為保證,不斷為客戶創(chuàng)造更高價(jià)值,提供更優(yōu)服務(wù)。觀縱科技始終關(guān)注自身,在風(fēng)云變化的時(shí)代,對(duì)自身的建設(shè)毫不懈怠,高度的專注與執(zhí)著使觀縱科技在行業(yè)的從容而自信。