大集群場(chǎng)景特點(diǎn)數(shù)據(jù)規(guī)模大:監(jiān)控對(duì)象targets多,數(shù)千萬(wàn)時(shí)序數(shù)據(jù)time-series,單Prometheus負(fù)載非常高。
當(dāng)series數(shù)據(jù)超過(guò)300萬(wàn)時(shí),Prometheus內(nèi)存增長(zhǎng)較為明顯,需要使用較大內(nèi)存的機(jī)器來(lái)運(yùn)行。壓測(cè)過(guò)程中,我們使用了工具去生成預(yù)期數(shù)目的series,工具生成的series每個(gè)label的長(zhǎng)度及值的長(zhǎng)度都較小,固定為10個(gè)字符左右。我們的目的是觀察相對(duì)負(fù)載變化,實(shí)際生產(chǎn)中由于label長(zhǎng)度不同,服務(wù)發(fā)現(xiàn)機(jī)制(比如Pod頻繁重啟)的消耗不同,相同的series數(shù)目所消耗的負(fù)載會(huì)比壓測(cè)中高不少。目前Argus有好幾個(gè)集群的采集端Prometheus消耗內(nèi)存在30G以上,這會(huì)導(dǎo)致查詢效率下降,嚴(yán)重的會(huì)導(dǎo)致OOM,有的大集群內(nèi)存消耗達(dá)幾百G。 Argus基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái)。業(yè)務(wù)智能化運(yùn)維監(jiān)控管理方案
IAAS層的監(jiān)控從IAAS層的組成這個(gè)維度來(lái)說(shuō),可以分為一個(gè)個(gè)獨(dú)一的資源對(duì)象來(lái)分類監(jiān)控,針對(duì)每一類對(duì)象可以分別從狀態(tài)、性能、容量、質(zhì)量這幾個(gè)維度描述,將不同的數(shù)據(jù)綜合為開(kāi)發(fā)與運(yùn)維的統(tǒng)一視角。監(jiān)控告警產(chǎn)品的建設(shè)是任重而道遠(yuǎn)的過(guò)程,坑也非常多。要考慮多種因素,技術(shù)后臺(tái)能力只是其中的一部分。
例如在DevOps的文化下,需要從更高的層面來(lái)統(tǒng)一視角(開(kāi)發(fā)視角&運(yùn)維視角)避免將監(jiān)控做成"開(kāi)發(fā)的監(jiān)控”與"運(yùn)維的監(jiān)控”。也需要更多的考慮監(jiān)控產(chǎn)品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權(quán)限(行業(yè)屬性)如何分類設(shè)計(jì)。 系統(tǒng)智能運(yùn)維監(jiān)控管理軟件Argus運(yùn)維監(jiān)控多通道, 多用戶的事件靈活推送機(jī)制。
國(guó)產(chǎn)信創(chuàng)設(shè)備、軟件監(jiān)測(cè)管理之路面臨這兩大問(wèn)題與挑戰(zhàn)。挑戰(zhàn)一:信創(chuàng)產(chǎn)業(yè)帶來(lái)IT標(biāo)準(zhǔn)的重構(gòu),很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標(biāo)準(zhǔn),而這時(shí)的產(chǎn)品還處于可用階段,在這期間會(huì)產(chǎn)生許多問(wèn)題,為保障業(yè)務(wù)運(yùn)維的安全,亟需一個(gè)可以兼容信創(chuàng)體系和支持國(guó)產(chǎn)化環(huán)境部署的監(jiān)測(cè)軟件對(duì)其進(jìn)行監(jiān)測(cè)管理。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設(shè)備特用機(jī)房有多個(gè)品牌的國(guó)產(chǎn)化設(shè)備,需要一個(gè)系統(tǒng)既能監(jiān)測(cè)國(guó)外設(shè)備,又能監(jiān)測(cè)國(guó)外設(shè)備,而很多企業(yè),特別是國(guó)外的監(jiān)測(cè)軟件,不支持監(jiān)測(cè)信創(chuàng)的設(shè)備與信創(chuàng)的軟件。
監(jiān)控是一項(xiàng)非常重要的運(yùn)維工作,尤其對(duì)于一些比較重要的業(yè)務(wù),如果沒(méi)有監(jiān)控,就只能等著用戶反饋。常見(jiàn)的開(kāi)源監(jiān)控軟件有 Cacti、Nagios、Zabbix、Smokeping 和 Open-falcon 等。Cacti 和 Smokeping 傾向于基礎(chǔ)監(jiān)控,成圖非常漂亮。Cacti、Nagios 和 Zabbix 服務(wù)端監(jiān)控中心需要 PHP 環(huán)境支持,其中 Zabbix 和 Cacti 需要安裝 MySQL 作為存儲(chǔ)數(shù)據(jù)庫(kù)。Nagios 不用存儲(chǔ)歷史數(shù)據(jù),注重服務(wù)或監(jiān)控項(xiàng)的狀態(tài)。Zabbix 會(huì)獲取服務(wù)或監(jiān)控項(xiàng)目的數(shù)據(jù),把數(shù)據(jù)記錄到數(shù)據(jù)庫(kù)中,可以成圖查看。Argus是基于Zabbix的IT運(yùn)維監(jiān)控平臺(tái),打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生態(tài)無(wú)縫兼容 Argus單一業(yè)務(wù)環(huán)境下可以支持多 組采集單元(多zabbix-server),實(shí)現(xiàn)真正意義上的分布式采集。
信創(chuàng)終端運(yùn)維服務(wù)、數(shù)據(jù)中心運(yùn)維服務(wù)、業(yè)務(wù)系統(tǒng)運(yùn)維服務(wù)、適配遷移服務(wù)、安全運(yùn)維服務(wù)等信創(chuàng)運(yùn)維服務(wù)。通過(guò)信創(chuàng)運(yùn)維服務(wù)體系、信創(chuàng)安全管理體系、信創(chuàng)一體化服務(wù)保障平臺(tái)、信創(chuàng)現(xiàn)場(chǎng)和遠(yuǎn)程運(yùn)維服務(wù)管理平臺(tái),規(guī)范信創(chuàng)運(yùn)維服務(wù)過(guò)程,提升信創(chuàng)運(yùn)維服務(wù)保障能力,為客戶創(chuàng)建可視可控的運(yùn)維環(huán)境,保障信創(chuàng)終端、數(shù)據(jù)中心和業(yè)務(wù)應(yīng)用系統(tǒng)的可靠、高效、持續(xù)、安全運(yùn)行。
多種信創(chuàng)技術(shù)路線并存:信創(chuàng)運(yùn)維技術(shù)難度高,缺乏成熟運(yùn)維技術(shù)和經(jīng)驗(yàn)參考,信創(chuàng)運(yùn)維技術(shù)培訓(xùn)不健全。信創(chuàng)適配遷移困難:缺乏應(yīng)用系統(tǒng)適配改造經(jīng)驗(yàn),應(yīng)用遷移涉及重構(gòu)與重編譯,工作量大,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產(chǎn)品性能、可靠性、品質(zhì)、成熟度參差不齊,生態(tài)環(huán)境不成熟,產(chǎn)業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運(yùn)維管理復(fù)雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,運(yùn)維管理復(fù)雜。與國(guó)外成熟產(chǎn)品差距大,運(yùn)維難度高,要求較高的運(yùn)維技術(shù)能力。 運(yùn)維、監(jiān)控系統(tǒng)的本質(zhì)是通過(guò)發(fā)現(xiàn)故障、解決故障、預(yù)防故障來(lái)為了保障業(yè)務(wù)的穩(wěn)定。機(jī)房統(tǒng)一運(yùn)維監(jiān)控管理軟件
Argus運(yùn)維監(jiān)控網(wǎng)絡(luò)設(shè)備配置文件自動(dòng)備份。業(yè)務(wù)智能化運(yùn)維監(jiān)控管理方案
對(duì)于服務(wù)器的監(jiān)控同樣也是從狀態(tài)、性能與容量這幾個(gè)維度入手。雖然SNMP也可以用于服務(wù)器監(jiān)控,但相對(duì)于agent主動(dòng)上報(bào)指標(biāo)與數(shù)據(jù)會(huì)少很多。
服務(wù)器的狀態(tài)監(jiān)控主要包含服務(wù)器是否ping的通、agent上報(bào)是否超時(shí)與電源運(yùn)行狀態(tài)等等。對(duì)于性能與容量這兩類維度,主要依賴當(dāng)前OS的數(shù)據(jù)捕獲,一般來(lái)說(shuō)對(duì)于服務(wù)器監(jiān)控來(lái)說(shuō)在通用場(chǎng)景下主要關(guān)注CPU、內(nèi)存、流量與包量這四個(gè)指標(biāo)即可,但是別的指標(biāo)也建議盡量捕獲。
單個(gè)監(jiān)控對(duì)象的數(shù)據(jù)豐富了會(huì)有如下好處:避免對(duì)象的監(jiān)控盲點(diǎn)不同的監(jiān)控?cái)?shù)據(jù)點(diǎn)可以部分對(duì)應(yīng)出該服務(wù)器所承載的業(yè)務(wù)特性指標(biāo),例如存儲(chǔ)類業(yè)務(wù)也會(huì)關(guān)注disk_total_read、svctm_time_max、await_time_max等等系統(tǒng)指標(biāo)生產(chǎn)的數(shù)據(jù)足夠豐富能夠催生出更加豐富的運(yùn)維數(shù)據(jù)消費(fèi)場(chǎng)景。服務(wù)器監(jiān)控相對(duì)是很標(biāo)準(zhǔn)的監(jiān)控模型,針對(duì)于物理服務(wù)器與虛擬機(jī)都有共性指標(biāo)。這部分主要做到采集的數(shù)據(jù)豐富與上報(bào)的準(zhǔn)確性(算法準(zhǔn)確)。 業(yè)務(wù)智能化運(yùn)維監(jiān)控管理方案
上海觀縱科技有限公司辦公設(shè)施齊全,辦公環(huán)境優(yōu)越,為員工打造良好的辦公環(huán)境。專業(yè)的團(tuán)隊(duì)大多數(shù)員工都有多年工作經(jīng)驗(yàn),熟悉行業(yè)專業(yè)知識(shí)技能,致力于發(fā)展webfunny,walkingfunny,argus的品牌。公司不僅*提供專業(yè)的一般項(xiàng)目:技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、技術(shù)咨詢、技術(shù)交流、技術(shù)轉(zhuǎn)讓、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷售;通信設(shè)備銷售;通訊設(shè)備銷售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,經(jīng)相關(guān)部門批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門批準(zhǔn)文件或許可證件為準(zhǔn)),同時(shí)還建立了完善的售后服務(wù)體系,為客戶提供良好的產(chǎn)品和服務(wù)。自公司成立以來(lái),一直秉承“以質(zhì)量求生存,以信譽(yù)求發(fā)展”的經(jīng)營(yíng)理念,始終堅(jiān)持以客戶的需求和滿意為重點(diǎn),為客戶提供良好的webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控,從而使公司不斷發(fā)展壯大。