清華團(tuán)隊(duì)開源 Video - R1 視頻推理模型，性能超越

來源：發(fā)布時間：2025-04-23

在人工智能飛速發(fā)展的當(dāng)下，視頻推理領(lǐng)域迎來了重大突破。近日，清華大學(xué)團(tuán)隊(duì)開源了一款名為 Video - R1 的視頻推理模型，該模型基于強(qiáng)化學(xué)習(xí)技術(shù)，在 VSI - Bench 測試中展現(xiàn)出了優(yōu)越的性能，甚至超越了備受矚目的 GPT - 4o，引發(fā)了業(yè)內(nèi)的寬泛關(guān)注。

Video - R1 模型的誕生，是研究團(tuán)隊(duì)深入探索和創(chuàng)新的成果。它1111111111將強(qiáng)化學(xué)習(xí)中的 R1 范式應(yīng)用于視頻推理領(lǐng)域，為該領(lǐng)域的發(fā)展開辟了新的道路。在技術(shù)實(shí)現(xiàn)上，研究人員對舊版 GRPO 算法進(jìn)行了升級，開發(fā)出了更懂時序的 T - GRPO 算法。這一算法的創(chuàng)新之處在于，它將 “考慮時序” 這一關(guān)鍵因素寫入了模型的獎勵邏輯中。具體而言，模型每次會接收兩組輸入，一組視頻幀隨機(jī)亂序，另一組則是順序的。只有當(dāng)模型在 “順序” 輸入上答對題的比例更高時，才會獲得獎勵。通過這種方式，模型逐漸明白視頻并非簡單的 PPT 翻頁，而是由一個個邏輯線索串聯(lián)起來的故事，從而學(xué)會了在推理過程中考慮前因后果。

為了進(jìn)一步提升模型的性能，研究人員還采用了圖像和視頻混合訓(xùn)練的策略，并構(gòu)建了兩個關(guān)鍵數(shù)據(jù)集。其中，Video - R1 - COT - 165k 是以圖像為主的數(shù)據(jù)集，主要用于冷啟動模型思維，幫助 AI 打好 “邏輯底盤”，學(xué)會通用推理；而 Video - R1 - 260k 則是以高質(zhì)量視頻為中心的數(shù)據(jù)集，用于對模型進(jìn)行精調(diào)強(qiáng)化訓(xùn)練，促使模型理解時間邏輯和動態(tài)變化。這種圖像與視頻混合訓(xùn)練的方式，不僅解決了視頻數(shù)據(jù)稀缺的問題，還成功讓模型實(shí)現(xiàn)了從 “看圖說話” 到 “視頻深思” 的進(jìn)階跳躍，真正打通了多模態(tài)理解的任督二脈。

在實(shí)際測試中，Video - R1 模型的表現(xiàn)令人驚艷。在多個視頻推理測試基準(zhǔn)上，尤其是在李飛飛團(tuán)隊(duì)提出的 VSI - Bench 這一有名的圈內(nèi)人士評測中，Video - R1 - 7B 模型以 35.8% 的準(zhǔn)確率超越了閉源前列大模型 GPT - 4o。與其他模型相比，Video - R1 在幾乎所有場景中都能穩(wěn)定輸出，展現(xiàn)出了極強(qiáng)的泛化能力。此外，研究還發(fā)現(xiàn)，幀數(shù)越多，模型的推理越準(zhǔn)確。當(dāng)輸入的視頻幀數(shù)從 16 增加到 32，再到 64 時，測試表現(xiàn)也隨之提升。這充分說明，對時間線的理解力是視頻推理模型的決勝點(diǎn)，而 Video - R1 在這方面具有明顯的優(yōu)勢。

Video - R1 模型的開源，為眾多領(lǐng)域帶來了新的發(fā)展機(jī)遇。在影視剪輯領(lǐng)域，它能夠幫助剪輯師更高效地篩選和處理視頻素材。以往，剪輯師需要耗費(fèi)大量時間和精力在海量的視頻片段中尋找合適的素材，而現(xiàn)在借助 Video - R1 模型，它可以快速理解視頻內(nèi)容，根據(jù)剪輯需求精細(xì)推薦相關(guān)素材，2222222222提高了剪輯效率。例如，在制作一部歷史紀(jì)錄片時，剪輯師可以通過該模型快速定位到包含特定歷史事件、人物或場景的視頻片段，從而節(jié)省大量的篩選時間，將更多精力投入到創(chuàng)意剪輯中。

在安防監(jiān)控領(lǐng)域，Video - R1 模型同樣具有巨大的應(yīng)用潛力。它能夠?qū)崟r分析監(jiān)控視頻，準(zhǔn)確識別異常行為，如入侵、斗毆、火災(zāi)等。傳統(tǒng)的安防監(jiān)控系統(tǒng)往往只能進(jìn)行簡單的運(yùn)動檢測，對于復(fù)雜的行為模式難以準(zhǔn)確判斷。而 Video - R1 模型憑借其強(qiáng)大的視頻推理能力，可以對監(jiān)控視頻中的人物動作、行為軌跡等進(jìn)行深入分析，及時發(fā)現(xiàn)潛在的安全威脅，并向安保人員發(fā)出預(yù)警。例如，在一個大型商場的監(jiān)控系統(tǒng)中，該模型可以實(shí)時監(jiān)測人員流動情況，一旦發(fā)現(xiàn)有人在某個區(qū)域長時間停留且行為異常，或者出現(xiàn)人群聚集、奔跑等情況，就能立即發(fā)出警報(bào)，為安保人員及時處理突發(fā)事件提供有力支持。

此外，Video - R1 模型在教育、醫(yī)療、自動駕駛等領(lǐng)域也有著廣闊的應(yīng)用前景。在教育領(lǐng)域，它可以用于智能教學(xué)系統(tǒng)，對學(xué)生的課堂表現(xiàn)進(jìn)行分析，為教師提供教學(xué)反饋；在醫(yī)療領(lǐng)域，它可以輔助醫(yī)生分析醫(yī)學(xué)影像視頻，幫助診斷疾??；在自動駕駛領(lǐng)域，它可以提升車輛對周圍環(huán)境的理解和判斷能力，提高駕駛安全性。

清華團(tuán)隊(duì)開源的 Video - R1 視頻推理模型憑借其創(chuàng)新的技術(shù)和優(yōu)越的性能，為視頻推理領(lǐng)域帶來了新的活力。它的出現(xiàn)不僅推動了人工智能技術(shù)的發(fā)展，更為眾多行業(yè)的智能化升級提供了有力的支持。隨著該模型在各個領(lǐng)域的廣泛應(yīng)用，我們有理由相信，它將為人們的生活和工作帶來更多的便利和創(chuàng)新。而這一成果也再次彰顯了我國在人工智能領(lǐng)域的強(qiáng)大科研實(shí)力和創(chuàng)新能力，激勵著更多的科研人員在該領(lǐng)域不斷探索前行。

標(biāo)簽：降低企業(yè) AI 應(yīng)用門檻 AI智能投放工具智能推廣工具

上一篇 華為發(fā)布昇騰 920 芯片，加速 AI 算力自主化???

下一篇 比亞迪攜手英偉達(dá)開發(fā) 5 納米車用 AI 芯片，邁向智能駕駛

相關(guān)新聞