報(bào)告題目:LLaDA: 擴(kuò)散大語言模型新范式
主講人:文繼榮 教授(中國(guó)人民大學(xué))
報(bào)告時(shí)間:2025年11月1日(周六)15:00—17:00
報(bào)告地點(diǎn):西華大學(xué)6A-519
主辦單位:計(jì)算機(jī)與軟件工程學(xué)院
主講人簡(jiǎn)介:
文繼榮,中國(guó)人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長(zhǎng),曾任微軟亞洲研究院高級(jí)研究員和互聯(lián)網(wǎng)搜索與挖掘組主任。入選國(guó)家高層次人才計(jì)劃、北京市卓越青年科學(xué)家計(jì)劃等。長(zhǎng)期從事人工智能領(lǐng)域的研究工作,至今已在國(guó)際著名學(xué)術(shù)會(huì)議和期刊上發(fā)表論文 500 余篇,論文總被引用 50000 余次,H-index 為 102。近年來專注大模型的研發(fā),帶領(lǐng)團(tuán)隊(duì)研發(fā)了第一個(gè)中文多模態(tài)大模型 “文瀾”、有自主知識(shí)產(chǎn)權(quán)的 “玉蘭” 系列大模型、第一個(gè)開源擴(kuò)散大語言模型 LLaDA 等。擔(dān)任中央統(tǒng)戰(zhàn)部黨外知識(shí)分子建言獻(xiàn)策專家組成員、北京市第十四屆政協(xié)常委等。
內(nèi)容簡(jiǎn)介:
本次報(bào)告聚焦一個(gè)問題:自回歸是否是通向當(dāng)前乃至更高水平的生成式智能的唯一范式?本次報(bào)告首先從統(tǒng)一概率建模的視角總當(dāng)前新型生成模型的發(fā)展,并從這個(gè)視角出發(fā)指出大語言模型的性質(zhì)(如可擴(kuò)展性、指令追隨、情境學(xué)習(xí)、對(duì)話、無損壓縮)主要來自于生成式準(zhǔn)則,而非自回歸建模。介紹擴(kuò)散大語言模型 LLaDA 系列工作,包括基礎(chǔ)理論、擴(kuò)展定律、大規(guī)模訓(xùn)練、偏好對(duì)齊和多模態(tài)理解等。LLaDA 通過非自回歸的方式,展示了令人驚訝的可擴(kuò)展性和多輪對(duì)話能力。這些結(jié)果不僅挑戰(zhàn)了自回歸的地位,更加深了我們對(duì)生成式人工智能的理解。

川公網(wǎng)安備 51010602000503號(hào)