報告題目:LLaDA: 擴散大語言模型新范式
主講人:文繼榮 教授(中國人民大學)
報告時間:2025年11月1日(周六)15:00—17:00
報告地點:西華大學6A-519
主辦單位:計算機與軟件工程學院
主講人簡介:
文繼榮,中國人民大學高瓴人工智能學院執行院長,曾任微軟亞洲研究院高級研究員和互聯網搜索與挖掘組主任。入選國家高層次人才計劃、北京市卓越青年科學家計劃等。長期從事人工智能領域的研究工作,至今已在國際著名學術會議和期刊上發表論文 500 余篇,論文總被引用 50000 余次,H-index 為 102。近年來專注大模型的研發,帶領團隊研發了第一個中文多模態大模型 “文瀾”、有自主知識產權的 “玉蘭” 系列大模型、第一個開源擴散大語言模型 LLaDA 等。擔任中央統戰部黨外知識分子建言獻策專家組成員、北京市第十四屆政協常委等。
內容簡介:
本次報告聚焦一個問題:自回歸是否是通向當前乃至更高水平的生成式智能的唯一范式?本次報告首先從統一概率建模的視角總當前新型生成模型的發展,并從這個視角出發指出大語言模型的性質(如可擴展性、指令追隨、情境學習、對話、無損壓縮)主要來自于生成式準則,而非自回歸建模。介紹擴散大語言模型 LLaDA 系列工作,包括基礎理論、擴展定律、大規模訓練、偏好對齊和多模態理解等。LLaDA 通過非自回歸的方式,展示了令人驚訝的可擴展性和多輪對話能力。這些結果不僅挑戰了自回歸的地位,更加深了我們對生成式人工智能的理解。

川公網安備 51010602000503號