Flow是一種數(shù)據(jù)交換方式,其工作原理是:
Flow利用標準的交換模式處理數(shù)據(jù)流的第1個IP包數(shù)據(jù),生成Flow緩存,隨后同樣的數(shù)據(jù)基于緩存信息在同一個數(shù)據(jù)流中進行傳輸,不再匹配相關(guān)的訪問控制等策略,F(xiàn)low緩存同時包含了隨后數(shù)據(jù)流的統(tǒng)計信息。
一個Flow流定義為在一個源IP地址和目的IP地址間傳輸?shù)膯蜗驍?shù)據(jù)包流,且所有數(shù)據(jù)包具有共同的傳輸層源、目的端口號。
相對于會話(“Session”)而言,“Flow”具備更細致的標識特征,在傳統(tǒng)的TCP/IP五元組的基礎上增加了一些新的域值,至少包括以下幾個字段:
|源IP地址|目的IP地址|源端口|目的端口|IP層協(xié)議類型|ToS服務類型(dscp)|輸入物理端口(ifindex)|
以上七個字段可以唯1地確定任意一個數(shù)據(jù)包屬于哪個特定的Flow。
換而言之,任何一個字段出現(xiàn)了差異都意味著一個新Flow的發(fā)生。對于Flow的分析展示同樣也是要基于多維度的:
IP(目的與源)、port(目的與源)、業(yè)務、網(wǎng)絡架構(gòu)、城市、IDC等。
具體所需的維度依賴于自己的業(yè)務場景。Flow是廠商的私有協(xié)議,業(yè)界也有多種的Flow格式。例如CISCO、華為、juniper等等的主流廠商的Flow也是均有一定差異性與優(yōu)劣的,常用的有NetFlow與SFlow。所以這部分的后臺能力是需要有異構(gòu)。 Argus運維監(jiān)控系統(tǒng)可手動設置貼合業(yè)務的事件聚合規(guī)則、消息分派規(guī)則,并可查看與管理事件集、事件。一體化IT運維監(jiān)控方案
中間件和數(shù)據(jù)庫組件監(jiān)控:中間件和數(shù)據(jù)庫組件都統(tǒng)一提供sidecar模式部署的exporter進行指標采集,并配置監(jiān)控告警。如果不是集群納管的數(shù)據(jù)庫,也可以開發(fā)自定義exporter(kingbase、greatdb等國產(chǎn)數(shù)據(jù)庫都走這個方式),也可以開發(fā)指標推到Prometheus的pushgateway(polardb國產(chǎn)數(shù)據(jù)庫走這個方式),還可以配置Prometheus去拉取各組件的metrics(etcd等中間件有提供標準的metrics)。
各業(yè)務集群怎么部署監(jiān)控組件各業(yè)務集群都單獨部署Prometheus和grafana;在集群各節(jié)點部署有kubelet客戶端和demonset模式的node-exporter;在集群管理節(jié)點部署Deloyment模式的kube-state-metrics;而k8s的管理組件kube-scheduler、control-manager、etcd自帶metrics,不需要部署任何采集工具,而是在Prometheus的配置文件中配置各組件的metrics地址獲取指標數(shù)據(jù);中間件和數(shù)據(jù)庫組件內(nèi)帶有Sidecar模式的xxx-exporter(比如mysql-exporter),部署中間件和數(shù)據(jù)庫時就開始收集監(jiān)控數(shù)據(jù)。 有哪些穩(wěn)定的智能運維監(jiān)控產(chǎn)品Argus運維監(jiān)控大數(shù)據(jù)的提取與分析。
Prometheus指標采集和查詢存儲方案-2020年
我們分一級監(jiān)控平臺和二級集群Prometheus監(jiān)控采集組件。一級提供kafka集群和Prometheus聚合組件,二級各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠程送數(shù)據(jù)到一級的kafka集群。
該方案優(yōu)點:
1.業(yè)務系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級監(jiān)控平臺上只要有足夠的cpu、存儲資源,理論上可以水平擴展接入更多集群。2020年底采集的指標量每天3194億的量級,吞吐量達370萬/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時序數(shù)據(jù)庫influxdb中,可以保存一個月數(shù)據(jù)量甚至更多。
該方案沒做到什么:
1.采集端Prometheus擴容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級監(jiān)控平臺上時序數(shù)據(jù)庫influxdb有單點問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。
基于信創(chuàng)環(huán)境建立信創(chuàng)運維服務體系,滿足跨平臺對信創(chuàng)軟硬件設備提供運維監(jiān)控管理功能,包括不限于服務器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡設備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、應用服務器、存儲、業(yè)務系統(tǒng)等全域多視角地監(jiān)控和管理,幫助用戶在極短時間發(fā)現(xiàn)問題、分析出原因、得出解決方案,使故障問題能夠在極短時間內(nèi)解決,保證業(yè)務系統(tǒng)的連續(xù)性。Argus 運維監(jiān)控平臺是跨區(qū)域、跨部門的運維系統(tǒng)監(jiān)控平臺,實現(xiàn)包括不限于服務器(ARM架構(gòu)、MIPS架構(gòu)、X86架構(gòu)等)、網(wǎng)絡設備、數(shù)據(jù)庫(國產(chǎn)數(shù)據(jù)庫及非國產(chǎn)數(shù)據(jù)庫)、中間件、存儲、業(yè)務系統(tǒng)等運維監(jiān)控。通過對基礎實施、信息系統(tǒng)、項目進度的總體監(jiān)控實現(xiàn)運維體系的有效運行,保障信創(chuàng)項目順利開展。提供自動化運維、智能化運維功能,打破了人工現(xiàn)場運維效率低下的現(xiàn)狀;從信息采集、健康巡檢、補丁分發(fā)等場景實現(xiàn)功能自動化;利用智能學習、大數(shù)據(jù)分析、機器學習等技術(shù)手段,實現(xiàn)故障從人工處理到無人值守的變革,降低故障處理時間的同時,實現(xiàn)被動運維到主動干預的轉(zhuǎn)變。以 zabbix 為采集中心配合自研的 ArgusNMS 增強模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。
遇到多集群場景問題
多達上百個集群數(shù),而有些業(yè)務系統(tǒng)擁有多個集群,其多集群場景特點有:
服務發(fā)現(xiàn)隔離:Prometheus的服務發(fā)現(xiàn)機制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;
網(wǎng)絡隔離:跨集群可能存在連通性問題;
業(yè)務需求:業(yè)務系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務的指標數(shù)量、服務數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標、降低采集速率、設置較短的數(shù)據(jù)過期時間等。 Argus運維監(jiān)控系統(tǒng)撥測分析模塊,從端口可用性等多個指標、維度進行撥測分析。有什么好用的運維監(jiān)控管理軟件
Argus運維監(jiān)控體系全梳理!一體化IT運維監(jiān)控方案
Zabbix 是 B/S 架構(gòu),抓取數(shù)據(jù)是通過客戶端抓取的,在客戶端必須有服務啟動,該服務負責采集數(shù)據(jù),數(shù)據(jù)會主動上報給服務端,也可讓服務端連接客戶端去抓取數(shù)據(jù)。客戶端分為兩種模式,即主動模式和被動模式。Argus運維監(jiān)平臺以 Zabbix 為基礎,可同時兼容 不同版本的Zabbix,以 zabbix 為采集關(guān)鍵配合自研的 ArgusNMS 增強模塊為一組采集單元, ArgusEdge 的統(tǒng)一調(diào)度實現(xiàn)監(jiān)管控的需求。單一業(yè)務環(huán)境下可以支持多 組采集單元(多zabbix-server),實現(xiàn)真正意義上的分布式采集。 一體化IT運維監(jiān)控方案
上海觀縱科技有限公司是一家從事webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控研發(fā)、生產(chǎn)、銷售及售后的服務型企業(yè)。公司坐落在上海市奉賢區(qū)望園南路1288弄80號1904、1909室,成立于2022-11-14。公司通過創(chuàng)新型可持續(xù)發(fā)展為重心理念,以客戶滿意為重要標準。在孜孜不倦的奮斗下,公司產(chǎn)品業(yè)務越來越廣。目前主要經(jīng)營有webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控等產(chǎn)品,并多次以傳媒、廣電行業(yè)標準、客戶需求定制多款多元化的產(chǎn)品。我們以客戶的需求為基礎,在產(chǎn)品設計和研發(fā)上面苦下功夫,一份份的不懈努力和付出,打造了webfunny,walkingfunny,argus產(chǎn)品。我們從用戶角度,對每一款產(chǎn)品進行多方面分析,對每一款產(chǎn)品都精心設計、精心制作和嚴格檢驗。上海觀縱科技有限公司以市場為導向,以創(chuàng)新為動力。不斷提升管理水平及webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控產(chǎn)品質(zhì)量。本公司以良好的商品品質(zhì)、誠信的經(jīng)營理念期待您的到來!