歡迎來到淘金地

清華團隊開源 Video - R1 視頻推理模型,性能超越

來源: 發(fā)布時間:2025-04-23

在人工智能飛速發(fā)展的當下,視頻推理領(lǐng)域迎來了重大突破。近日,清華大學團隊開源了一款名為 Video - R1 的視頻推理模型,該模型基于強化學習技術(shù),在 VSI - Bench 測試中展現(xiàn)出了優(yōu)越的性能,甚至超越了備受矚目的 GPT - 4o,引發(fā)了業(yè)內(nèi)的寬泛關(guān)注。

Video - R1 模型的誕生,是研究團隊深入探索和創(chuàng)新的成果。它1111111111將強化學習中的 R1 范式應用于視頻推理領(lǐng)域,為該領(lǐng)域的發(fā)展開辟了新的道路。在技術(shù)實現(xiàn)上,研究人員對舊版 GRPO 算法進行了升級,開發(fā)出了更懂時序的 T - GRPO 算法。這一算法的創(chuàng)新之處在于,它將 “考慮時序” 這一關(guān)鍵因素寫入了模型的獎勵邏輯中。具體而言,模型每次會接收兩組輸入,一組視頻幀隨機亂序,另一組則是順序的。只有當模型在 “順序” 輸入上答對題的比例更高時,才會獲得獎勵。通過這種方式,模型逐漸明白視頻并非簡單的 PPT 翻頁,而是由一個個邏輯線索串聯(lián)起來的故事,從而學會了在推理過程中考慮前因后果。

為了進一步提升模型的性能,研究人員還采用了圖像和視頻混合訓練的策略,并構(gòu)建了兩個關(guān)鍵數(shù)據(jù)集。其中,Video - R1 - COT - 165k 是以圖像為主的數(shù)據(jù)集,主要用于冷啟動模型思維,幫助 AI 打好 “邏輯底盤”,學會通用推理;而 Video - R1 - 260k 則是以高質(zhì)量視頻為中心的數(shù)據(jù)集,用于對模型進行精調(diào)強化訓練,促使模型理解時間邏輯和動態(tài)變化。這種圖像與視頻混合訓練的方式,不僅解決了視頻數(shù)據(jù)稀缺的問題,還成功讓模型實現(xiàn)了從 “看圖說話” 到 “視頻深思” 的進階跳躍,真正打通了多模態(tài)理解的任督二脈。

在實際測試中,Video - R1 模型的表現(xiàn)令人驚艷。在多個視頻推理測試基準上,尤其是在李飛飛團隊提出的 VSI - Bench 這一有名的圈內(nèi)人士評測中,Video - R1 - 7B 模型以 35.8% 的準確率超越了閉源前列大模型 GPT - 4o。與其他模型相比,Video - R1 在幾乎所有場景中都能穩(wěn)定輸出,展現(xiàn)出了極強的泛化能力。此外,研究還發(fā)現(xiàn),幀數(shù)越多,模型的推理越準確。當輸入的視頻幀數(shù)從 16 增加到 32,再到 64 時,測試表現(xiàn)也隨之提升。這充分說明,對時間線的理解力是視頻推理模型的決勝點,而 Video - R1 在這方面具有明顯的優(yōu)勢。

Video - R1 模型的開源,為眾多領(lǐng)域帶來了新的發(fā)展機遇。在影視剪輯領(lǐng)域,它能夠幫助剪輯師更高效地篩選和處理視頻素材。以往,剪輯師需要耗費大量時間和精力在海量的視頻片段中尋找合適的素材,而現(xiàn)在借助 Video - R1 模型,它可以快速理解視頻內(nèi)容,根據(jù)剪輯需求精細推薦相關(guān)素材,2222222222提高了剪輯效率。例如,在制作一部歷史紀錄片時,剪輯師可以通過該模型快速定位到包含特定歷史事件、人物或場景的視頻片段,從而節(jié)省大量的篩選時間,將更多精力投入到創(chuàng)意剪輯中。

在安防監(jiān)控領(lǐng)域,Video - R1 模型同樣具有巨大的應用潛力。它能夠?qū)崟r分析監(jiān)控視頻,準確識別異常行為,如入侵、斗毆、火災等。傳統(tǒng)的安防監(jiān)控系統(tǒng)往往只能進行簡單的運動檢測,對于復雜的行為模式難以準確判斷。而 Video - R1 模型憑借其強大的視頻推理能力,可以對監(jiān)控視頻中的人物動作、行為軌跡等進行深入分析,及時發(fā)現(xiàn)潛在的安全威脅,并向安保人員發(fā)出預警。例如,在一個大型商場的監(jiān)控系統(tǒng)中,該模型可以實時監(jiān)測人員流動情況,一旦發(fā)現(xiàn)有人在某個區(qū)域長時間停留且行為異常,或者出現(xiàn)人群聚集、奔跑等情況,就能立即發(fā)出警報,為安保人員及時處理突發(fā)事件提供有力支持。

此外,Video - R1 模型在教育、醫(yī)療、自動駕駛等領(lǐng)域也有著廣闊的應用前景。在教育領(lǐng)域,它可以用于智能教學系統(tǒng),對學生的課堂表現(xiàn)進行分析,為教師提供教學反饋;在醫(yī)療領(lǐng)域,它可以輔助醫(yī)生分析醫(yī)學影像視頻,幫助診斷疾病;在自動駕駛領(lǐng)域,它可以提升車輛對周圍環(huán)境的理解和判斷能力,提高駕駛安全性。

清華團隊開源的 Video - R1 視頻推理模型憑借其創(chuàng)新的技術(shù)和優(yōu)越的性能,為視頻推理領(lǐng)域帶來了新的活力。它的出現(xiàn)不僅推動了人工智能技術(shù)的發(fā)展,更為眾多行業(yè)的智能化升級提供了有力的支持。隨著該模型在各個領(lǐng)域的廣泛應用,我們有理由相信,它將為人們的生活和工作帶來更多的便利和創(chuàng)新。而這一成果也再次彰顯了我國在人工智能領(lǐng)域的強大科研實力和創(chuàng)新能力,激勵著更多的科研人員在該領(lǐng)域不斷探索前行。

公司信息

聯(lián) 系 人:

手機號:

電話:

郵箱:

網(wǎng)址:

地址:

新疆派威智研科技有限公司
SaaS智能營銷云平臺
本日新聞 本周新聞 本月新聞
返回頂部