開欄語


當人工智能的浪潮席卷全球,北京正以科技創(chuàng)新之姿,成為AI大模型領域的戰(zhàn)略高地。從智源的“悟道”大模型問世,到“天使投資人”模式孵化原創(chuàng)成果,再到月之暗面、智譜等人工智能獨角獸崛起,這座城市不僅匯聚了前沿技術,更以開放生態(tài)孕育突破性成果。


如今,北京正積極打造“全球開源之都”,一大批研發(fā)機構、企業(yè)積極擁抱開源,而開源也已深入到汽車、機器人等眾多行業(yè)。發(fā)展AI將是一場科技長征,在北京市科委、中關村管委會的支持下,新京報AI研究院推出“AI浪潮錄”系列專欄,深度訪談此次AI浪潮的親歷者與見證人,講述AI競爭新格局與背后的故事。



北京智源人工智能研究院理事長黃鐵軍。受訪者供圖


成府路150號,是一棟現(xiàn)代與歷史巧妙融合的7層建筑,紅磚幕墻外觀富有濃濃的學院氣息,屋頂花園和大玻璃窗設計則讓建筑更有科技范兒。這里曾是一座破舊廠樓,經(jīng)過設計師巧妙改造,現(xiàn)如今成了中國AI發(fā)展的策源地之一。


坐落于此的北京智源人工智能研究院(下稱“智源”)緊鄰清華大學,并與北京大學相望,天然資源優(yōu)勢催化下智源悄然成了中國大模型的“黃埔軍?!保浩吣陼r間,孵化了約20家AI創(chuàng)業(yè)公司。智譜唐杰、月之暗面楊植麟、面壁劉知遠……不少知名AI公司的創(chuàng)始人都曾在智源從事研究。


北京智源人工智能研究院理事長黃鐵軍經(jīng)常騎車往返于北大和智源之間,從1995年開始從事人工智能研究,他親歷了近30年AI發(fā)展的技術浪潮。2018年11月,擔任北京大學計算機系主任的黃鐵軍參與創(chuàng)立了北京智源人工智能研究院并擔任首任院長,28個月后,智源發(fā)布了超大規(guī)模信息智能模型“悟道1.0”,填補了中國大模型的空缺。


黃鐵軍當時表示,人工智能發(fā)展已經(jīng)從“大煉模型”逐步邁向了“煉大模型”,這也是“大模型”一詞首次在中文互聯(lián)網(wǎng)上被人所熟知。當ChatGPT出現(xiàn)并引發(fā)大模型熱潮時,智源作為新型研發(fā)機構已經(jīng)在前沿領域默默耕耘了四年。


黃鐵軍在接受新京報AI研究院專訪時表示,科學與技術不同,前者需要天才的靈感達成原始創(chuàng)新,后者則更需要物質條件的支持與反復試錯。而智源的任務是完成“從0到1”的創(chuàng)新,“做大學做不了,企業(yè)不愿做的”。他把智源定位為AI人才在北京發(fā)展的“第一站”,瞄準成為國際頂尖的AI機構?!叭绻枷肷喜灰I,只做別人做過的東西,誰會承認北京是國際科技創(chuàng)新中心?讓科技中心轉移到中國,人才密度大的北京責無旁貸?!?/p>


迭代·模型是技術不是一門科學


新京報AI研究院:作為研究人工智能多年的專家,如何看待AI大語言模型技術在近些年的迅猛發(fā)展?


黃鐵軍:首先我必須強調,人工智能大語言模型是一項技術,并不是一門科學。


科學要研究出原理、公式,而技術需要依靠不斷嘗試探索、優(yōu)化改進;科學的基本原理靠個人也可以突破,比如牛頓和愛因斯坦,但技術實現(xiàn)必須有方案方法和路線工藝;科學要回答“為什么”的問題,而技術解決“怎么做”的問題。舉例來說,指南針就是一項技術發(fā)明,但要明白指南針的原理,需要理解地球磁場的概念。


回到人工智能也是一樣,我們有技術能力做出大模型、做出智能系統(tǒng),但大模型為什么表現(xiàn)得如此優(yōu)秀?沒有任何科學家解釋得了。大模型作為人類最新的技術進展,正變得越來越智能、成本越來越低,這是技術和工藝不斷改進的結果。


從2018年到2022年,大模型實現(xiàn)了一個又一個版本的迭代,智能逐漸增強,這是技術角度上的進步。OpenAI和智源所做的都是“從1到10”,但大模型的“從0到1”,則要追溯到Yoshua Bengio(約書亞·本吉奧)在2000年和2003年發(fā)表關于使用神經(jīng)網(wǎng)絡預測下一個token(詞元)以訓練模型的文章,那時模型規(guī)模不夠大、算力有限、數(shù)據(jù)不足,所以智能不顯著,一直沒引起太多的關注。


2018年之后,上述幾項條件逐漸成熟,因此有團隊顯化了智能,就像發(fā)明了指南針。到2022年和2023年,我們已經(jīng)基本可以判斷大模型“有智能”,雖然有時它仍然存在幻覺,但大多數(shù)時候還“挺像那么回事”,目前我們就處在這樣的階段。


新京報AI研究院:“從0到1”的創(chuàng)新需要什么條件,當前DeepSeek等國內大模型公司在進行怎樣的創(chuàng)新?


黃鐵軍:包括DeepSeek在內的許多大模型公司所做的工作,實際上更多的是“從10到100”,即讓大模型智能更強、成本更低。由于不存在確定路徑,工藝積累只能通過不斷試錯進行,許多企業(yè)遇到的“卡脖子”技術大多屬于這一類。DeepSeek擁有很多算力,這就給了它試錯所必需的物質條件,雖然DeepSeek公布的模型訓練成本很低,但如果加上試錯成本,其投入也不會小。


對于科技發(fā)展,“從10到100”的創(chuàng)新需要足夠多的資本,單靠國家支持是不夠的。但“從0到1”的創(chuàng)新,公共性資金就可以支持,但此時不要去問科研人員“你怎么創(chuàng)新?”,他本人可能還沒想明白,我們此時能做的就是給這些有可能產(chǎn)生靈感的人穩(wěn)定的支持、基本的生活保障,讓他們“慢慢想”。


創(chuàng)新·放手做事,自由之外也有紅線


新京報AI研究院:據(jù)說DeepSeek團隊中不少人是北京大學的學生,DeepSeek和智源是否有過接觸?


黃鐵軍:深度求索公司(DeepSeek)在2023年7月成立后,就跟智源進行了接觸。我們也愿意和他們合作,智源跟中外所有企業(yè)、研發(fā)機構都持開放合作態(tài)度。


DeepSeek對我們比較有吸引力的點,在于其擁有較強的算力。DeepSeek的成功說明創(chuàng)新需要各種條件,缺一不可,算力就是其中之一。


DeepSeek成立時的第一處辦公室在蘇州橋,緊鄰北大西南門,離北大計算機學院不遠,我們多媒體實驗室的很多學生都到DeepSeek實習過,并發(fā)表了很多學術論文。DeepSeek的北京團隊中的關鍵崗位算法崗,北大計算機學院的學生占據(jù)了一半。充沛的算力也保證了研究條件,他們做的創(chuàng)新解法也成就了DeepSeek。這是好事,不管人才在杭州還是在北京,都為中國AI創(chuàng)新發(fā)展作出了貢獻。


新京報AI研究院:智源是在什么背景下成立的?


黃鐵軍:2017年,國家新一代人工智能發(fā)展規(guī)劃發(fā)布,2018年,北京市政府一號文件中提及了“建設世界一流新型研發(fā)機構”,而人工智能是重要的方向,智源就是在這樣的背景下誕生的。


“智源”這個名字最早由第一任理事長張宏江提出,希望我們成為“人工智能的源頭”。智源選址的位置方便周邊幾家機構,讓清華、北大、中國科學院的老師同學們能夠步行或騎自行車通勤,我有時也騎自行車往返北大,這樣大家交流起來更加方便。出于便利的角度,張鈸院士就在這里工作和接待來訪者。


新京報AI研究院:作為智源的首任院長和現(xiàn)任理事長,智源這樣的新型研發(fā)機構有何優(yōu)勢?


黃鐵軍:作為首任院長,我的工作包括確定智源的大致戰(zhàn)略和發(fā)展方向,以及牽頭準備論證報告等材料。


我在體制內多年,既申請過各類科技項目,也從事管理工作,對傳統(tǒng)科研體制的優(yōu)缺點心知肚明,當北京出現(xiàn)了新型研發(fā)機構、新管理體制,我也很愿意參與。智源風氣自由,但自由度之外也有紅線。


實際上,智源同時做到了“資源支持”和“讓團隊放手做事”。沒有支持、沒有資源,很多研究無法進行。但管理上干預過多也會帶來麻煩,如果科研人員一半的時間用在了管理上,創(chuàng)新也就只剩下了一半時間。


制度越織越密、管理越來越細致在某種程度上并不利于科技創(chuàng)新,這是因為科技創(chuàng)新是動態(tài)變化的,跟建樓、修橋不同,存在不確定性。做不到提前半年、一年就知道之后的路怎么走,需要自己摸索。


計劃內的創(chuàng)新首先要有人想到,但機會不是擺在大街上的,而是在細微之處,即便專業(yè)技術人員也不一定能創(chuàng)新,從事管理的領導想創(chuàng)新就更難。而智源作為北京新型研發(fā)機構,最大的創(chuàng)新就是破除項目立項制度以及繁瑣的管理流程,將方向和過程的管理完全交給各個院系自己決定。


拔尖·不拘一格招人才


新京報AI研究院:作為從事大模型研究最早的機構,智源將邁入第十個年頭,未來發(fā)展有何目標?


黃鐵軍:2028年11月,智源成立就滿10年了。目前,智源正在向10年的目標邁進——成為國際頂尖的人工智能機構。我們理解和定義的“頂尖”,是指國際前三,而其基本標志是一定要有國際公認的對人工智能發(fā)展具有重大影響的標志性成果。如2016年DeepMind推出AlphaGo擊敗了人類職業(yè)圍棋選手,2022年OpenAI推出ChatGPT引領了大模型浪潮。因此,它們是大家公認的頂尖的AI機構,而我們要做出不同。


我們是國內從事大模型研究最早的機構,也對生態(tài)作出了重大貢獻,但這和國際頂尖機構做出的貢獻相比還不夠。我們現(xiàn)在的目標是在2028年之前做出1到3項頂尖成果。


新京報AI研究院:北京有許多新型研發(fā)機構,智源和其他機構有什么不同?


黃鐵軍:智源和其他研發(fā)機構的關系,并不是“N+1”,而是“1+N”,有了這個“1”之后,讓這些“N”能夠互相打通。在AI領域,有了智源后,高校教授們可以不再各自為政走申請立項、發(fā)指南、進行評審程序的“老路”。智源成立后不久,就起到了平臺作用,聚集了AI領域的學者們,在經(jīng)歷了約一年的討論之后,立即開始了大模型領域的研發(fā)工作。


智源匯聚了國內主要AI人才,在我們的社區(qū)里,幾乎每天都有大大小小的討論會,平均每年兩三百場。在思想碰撞中,對于有價值的想法,我們會立刻動手去做。當然,由于資源有限,投入較大的想法需要在院務會上深入討論。而對于一些年輕人提出的并不耗費過多資源的想法,如果一段時間之后得不到驗證,我們也不再擴大支持。


在人才規(guī)模大、密度高的北京,智源提供了讓人才相互交流、快速行動的創(chuàng)新生態(tài)環(huán)境。當一個想法大學做不了、企業(yè)不愿做,就到智源這樣的新研發(fā)機構來。


智源是AI生態(tài)的一個窗口,是AI人才在北京發(fā)展的“第一站”。當一名國外歸來的人才去高校發(fā)展,就要按照高校的程序進行申請,如果當助理教授,需要至少半年到一年的人事周期才有可能批準,到企業(yè)則需要做企業(yè)產(chǎn)品。此時,智源靈活度高的優(yōu)勢就顯現(xiàn)出來了,這也是北京市給我們的任務:不拘一格招攬人才,人才在這只待三個月也行,未來無論想創(chuàng)業(yè)還是想當教授都可以。同時,我們對在這里研發(fā)的技術成果不追求高額利潤,對成果轉化持開放的態(tài)度。


簡而言之,智源負責把北京的人工智能做到世界領先,至于選擇什么技術路線、招哪些人、過程中遭遇哪些困難,需要自己解決。


新京報AI研究院:不少從智源走出來的人都創(chuàng)立了自己的公司,智源有意成為AI企業(yè)的“孵化器”嗎?


黃鐵軍:從智源走出去的人才,最后成立初創(chuàng)公司的大概有20個。不過,智源的定位是國際頂尖AI研究機構,創(chuàng)業(yè)是副產(chǎn)品,如果一開始是沖著創(chuàng)業(yè)和孵化的目的發(fā)展,我們的性質就發(fā)生了變化。成為世界頂尖機構不是靠創(chuàng)業(yè),我們現(xiàn)在從事的科研活動,有些暫時看不出未來有多大可能性變成產(chǎn)品,但不這么做就不能推動前沿技術發(fā)展。


我們相信這些工作一定會以某種方式在未來發(fā)揮作用,一開始做研究時卻不能這樣算賬,我們只能是做別人沒做過的事,做創(chuàng)新機構要做的事。和DeepSeek等大模型企業(yè)可能不同,我們應該是前沿,智源的成功應該是“從0到1”的成功。


新京報AI研究院:北京在科技創(chuàng)新上發(fā)揮什么作用?


黃鐵軍:當前,無論是智源還是字節(jié)、DeepSeek,其實都是在“從1到10”“從10到100”的過程中,一群人在不斷摸索更強模型、更低成本模型的過程。在此過程中,哪里人才密集度夠高,創(chuàng)新就在哪里發(fā)生。資金問題可以通過各種方式解決,但人才密度的分布是天然的,北京的人才密度從國際范圍來看都是足夠高的,所以可以預期,未來北京會發(fā)生更多的創(chuàng)新。


智源要做國際頂尖的AI機構,北京要做國際科技創(chuàng)新中心,要想科技中心轉移到中國,人才密度大的北京責無旁貸。


記者聯(lián)系郵箱:luoyidan@xjbnews.com


新京報貝殼財經(jīng)記者 羅亦丹


編輯 王進雨


校對 柳寶慶