在大模型訓(xùn)練與推理全面進(jìn)入“重算力、強(qiáng)分布式、異構(gòu)硬件”時(shí)代,DeepFlow 基于 eBPF 提供零侵?jǐn)_、全棧、可持續(xù)的可觀測(cè)性能力,覆蓋從 Python 代碼到 GPU/RDMA 網(wǎng)絡(luò),解決訓(xùn)練低效、推理體驗(yàn)不可控與異構(gòu)智算黑盒三大核心問題。
閱讀全文>>云杉網(wǎng)絡(luò)的DeepFlow可觀測(cè)性平臺(tái)近期連續(xù)獲得中國(guó)信通院多項(xiàng)認(rèn)證,其與東吳證券合作的金融全鏈路可觀測(cè)方案和與國(guó)網(wǎng)四川電力合作的電力智能運(yùn)維方案均入選優(yōu)秀案例。該平臺(tái)的核心創(chuàng)新在于深度融合“可觀測(cè)性”與“AI智能體”技術(shù),通過全域數(shù)據(jù)采集和智能分析,實(shí)現(xiàn)從被動(dòng)響應(yīng)到主動(dòng)預(yù)防的運(yùn)維模式轉(zhuǎn)變。目前,DeepFlow已在金融、電力等行業(yè)成功落地,有效提升了系統(tǒng)穩(wěn)定性與運(yùn)維效率,展現(xiàn)了其技術(shù)先進(jìn)性和跨行業(yè)普適價(jià)值,未來(lái)將繼續(xù)深化生態(tài)合作,助力更多行業(yè)數(shù)字化轉(zhuǎn)型。
閱讀全文>>本文詳細(xì)闡述了在SIGCOMM 2025下一代網(wǎng)絡(luò)可觀測(cè)性(NGNO)研討會(huì)上展示的一項(xiàng)行業(yè)實(shí)踐:某中國(guó)頭部保險(xiǎn)集團(tuán)與云杉網(wǎng)絡(luò)合作,基于DeepFlow智能體構(gòu)建的“IT健康評(píng)估與故障診斷平臺(tái)”。該案例針對(duì)金融保險(xiǎn)業(yè)在數(shù)字化轉(zhuǎn)型中面臨的復(fù)雜架構(gòu)運(yùn)維挑戰(zhàn),提出并落地了“可視-維穩(wěn)-智能”三階演進(jìn)的運(yùn)維新范式。方案依托eBPF零侵?jǐn)_采集、一體化數(shù)據(jù)平臺(tái)及大模型驅(qū)動(dòng)的智能體,實(shí)現(xiàn)了對(duì)超2000微服務(wù)、5000+容器節(jié)點(diǎn)的全棧觀測(cè),將故障定位時(shí)間縮短90%,并成功應(yīng)用于支付網(wǎng)關(guān)(峰值QPS >10萬(wàn))、核心保單處理(日超百萬(wàn)筆)等關(guān)鍵場(chǎng)景。本文系統(tǒng)分析了該方案的架構(gòu)、關(guān)鍵技術(shù)、實(shí)施路徑及量化效益,為金融行業(yè)構(gòu)建具備韌性、智能與合規(guī)性的新一代IT可觀測(cè)體系提供了可復(fù)制的參考模型。
閱讀全文>>本文系統(tǒng)性闡述了在云原生環(huán)境下,利用擴(kuò)展伯克利包過濾器(eBPF)技術(shù)實(shí)現(xiàn)大語(yǔ)言模型(LLM)推理服務(wù)全??捎^測(cè)性的方法與架構(gòu)。內(nèi)容涵蓋自建千億參數(shù)LLM推理服務(wù)在異構(gòu)硬件(如昇騰910B)與分布式框架(如vLLM, Ray)下面臨的挑戰(zhàn),分析了傳統(tǒng)可觀測(cè)性三大支柱(指標(biāo)、追蹤、日志)及新興性能剖析支柱的不足。文章重點(diǎn)介紹了DeepFlow平臺(tái)如何通過eBPF實(shí)現(xiàn)零代碼侵入的全棧指標(biāo)采集、全鏈路追蹤與混合棧(CPU/GPU)性能剖析,并輔以智能體應(yīng)用與中國(guó)移動(dòng)的落地案例,驗(yàn)證了該方案在優(yōu)化GPU利用率、定位推理延遲及適配流式協(xié)議等方面的有效性。
閱讀全文>>隨著金融數(shù)字化轉(zhuǎn)型的深入推進(jìn),銀行、證券、保險(xiǎn)等金融機(jī)構(gòu)的核心業(yè)務(wù)系統(tǒng)正面臨前所未有的復(fù)雜性挑戰(zhàn)。云原生改造、分布式架構(gòu)遷移、信創(chuàng)適配等多種技術(shù)路線并存,導(dǎo)致傳統(tǒng)運(yùn)維手段已無(wú)法滿足金融級(jí)穩(wěn)定性要求。
DeepFlow 基于“可觀-可控-全自動(dòng)”一體化運(yùn)維新范式,通過零侵?jǐn)_的全棧可觀測(cè)性技術(shù)和AI智能體,為金融核心業(yè)務(wù)系統(tǒng)提供從被動(dòng)響應(yīng)到主動(dòng)保障的全方位解決方案。該方案已在人保集團(tuán)、國(guó)泰君安等頭部金融機(jī)構(gòu)成功落地,實(shí)現(xiàn)了故障平均恢復(fù)時(shí)間(MTTR)降低70%、系統(tǒng)可用性提升0.42個(gè)百分點(diǎn)的顯著成效。
閱讀全文>>隨著大型語(yǔ)言模型(LLM)日臻成熟,AI 智能體(AI Agent)從概念走向?qū)嶋H應(yīng)用的時(shí)代已然到來(lái)。在眾多的智能體使用場(chǎng)景中,可觀測(cè)性天然具備智能體成功落地的三大要素:高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)、功能豐富的專業(yè)工具,以及明確的業(yè)務(wù)目標(biāo)——保障系統(tǒng)穩(wěn)定性。通過將先進(jìn)的 AI 技術(shù)與可觀測(cè)性場(chǎng)景融合,DeepFlow 智能體能夠自主感知環(huán)境、推理決策并執(zhí)行任務(wù),為 IT 團(tuán)隊(duì)提供從日常巡檢到快速診斷的全方位支持。這不僅提升了運(yùn)維效率,更將 IT 人員從繁瑣的日常任務(wù)中解放出來(lái),使他們能夠緊跟技術(shù)趨勢(shì),駕馭先進(jìn)的 AI 工具,為業(yè)務(wù)連續(xù)性提供更堅(jiān)實(shí)的保障。
閱讀全文>>在美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)旗艦會(huì)議 SIGCOMM 2025 的首屆 Next-Generation Network Observability (NGNO) Workshop 上,云杉網(wǎng)絡(luò)與中國(guó)某頭部保險(xiǎn)集團(tuán)展示“基于 DeepFlow 智能體的IT健康評(píng)估和故障診斷平臺(tái)”,成為全球產(chǎn)學(xué)研關(guān)注的焦點(diǎn)。作為保險(xiǎn)行業(yè)首個(gè)實(shí)現(xiàn) “可視 — 維穩(wěn) — 智能” 全階段落地的標(biāo)桿項(xiàng)目,其不僅印證了AI時(shí)代下智能體和可觀測(cè)性技術(shù)相結(jié)合的應(yīng)用價(jià)值,更為此保險(xiǎn)科技公司踐行 “科技資源整合、服務(wù)能力支撐、運(yùn)營(yíng)共享服務(wù)、價(jià)值創(chuàng)造” 四大戰(zhàn)略定位提供了核心技術(shù)支撐,為金融行業(yè) IT 轉(zhuǎn)型輸出了可復(fù)制的實(shí)踐路徑。
閱讀全文>>本文分享借助 DeepFlow 在某頭部劵商業(yè)務(wù)壓測(cè)場(chǎng)景中通過調(diào)用鏈追蹤快速定位問題的過程。解決在容器云內(nèi)等復(fù)雜調(diào)用場(chǎng)景中解決傳統(tǒng)監(jiān)控手段覆蓋不全面、排障定位無(wú)手段等痛點(diǎn)。分享利用 DeepFlow 如何快速在復(fù)雜的業(yè)務(wù)調(diào)用過程中抽絲剝繭,快速排除網(wǎng)絡(luò)問題,定位Pod服務(wù)自身業(yè)務(wù)邏輯問題,展現(xiàn) DeepFlow 產(chǎn)品價(jià)值。
閱讀全文>>金山私有化項(xiàng)目在可觀測(cè)性建設(shè)中,面臨數(shù)據(jù)孤島和缺乏全局視圖的挑戰(zhàn),影響了問題排查效率。為此,引入 DeepFlow 和 eBPF 技術(shù),打通了指標(biāo)、追蹤和日志數(shù)據(jù)的聯(lián)動(dòng),提供了全局微服務(wù)調(diào)用關(guān)系。通過分階段建設(shè),已完成第一期目標(biāo),實(shí)現(xiàn)了從被動(dòng)排障到主動(dòng)觀測(cè)的轉(zhuǎn)變,提升了系統(tǒng)穩(wěn)定性和運(yùn)維效率。
閱讀全文>>本文將詳細(xì)介紹 DeepFlow如何運(yùn)用創(chuàng)新全鏈路觀測(cè)技術(shù),從業(yè)務(wù)全鏈路視角、系統(tǒng)服務(wù)全鏈路視角為電網(wǎng)行業(yè)帶來(lái)全面的業(yè)務(wù)洞察和優(yōu)化體驗(yàn)。
閱讀全文>>