今年春天,DeepSeek熱潮席卷全球,讓眾多AI大模型產(chǎn)品陸續(xù)進(jìn)入“深度思考”時(shí)代的同時(shí),并帶動(dòng)了智能體的發(fā)展。而在傳媒領(lǐng)域,大模型可以輔助記者進(jìn)行的文本生成事實(shí)核查與倫理判斷、信息檢索等媒體能力是否也有所提升?為此,新京報(bào)AI研究院聯(lián)合中國(guó)經(jīng)濟(jì)傳媒協(xié)會(huì),繼2024年7月、2025年1月的兩期測(cè)評(píng)后,再度啟動(dòng)第三期《中國(guó)AI大模型測(cè)評(píng)報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》(下稱:報(bào)告)。

本報(bào)告采用新京報(bào)人工智能研究院自行研發(fā)的針對(duì)大模型傳媒能力的測(cè)評(píng)體系,探討大模型對(duì)媒體人工作賦能的真實(shí)情況,呈現(xiàn)科技進(jìn)步如何提質(zhì)增效。

根據(jù)2025年1月的測(cè)評(píng)報(bào)告,大模型的信息搜集能力、翻譯能力、長(zhǎng)文本總結(jié)能力排名前三,而事實(shí)核查與倫理判斷能力以及新聞寫作能力則排名倒數(shù)。對(duì)比第一次測(cè)評(píng),上述五項(xiàng)維度中,大模型的信息搜集能力從第三名躍升至第一名,大模型的長(zhǎng)文本能力也得到了長(zhǎng)足進(jìn)步,從最后一名躍升至第三名??梢姶竽P彤a(chǎn)品在聯(lián)網(wǎng)搜索,以及長(zhǎng)文本總結(jié)上的應(yīng)用水平在最近半年內(nèi)獲得了增長(zhǎng)。

然而,最近半年,大模型領(lǐng)域又有了新的發(fā)展:一方面,DeepSeek出現(xiàn)并帶來深度思考能力流行,絕大多數(shù)主流大模型產(chǎn)品都推出了深度思考功能;另一方面,隨著近幾年AI應(yīng)用的不斷發(fā)展,互聯(lián)網(wǎng)中AI生成內(nèi)容呈現(xiàn)指數(shù)型爆發(fā),部分“幻覺”內(nèi)容污染了互聯(lián)網(wǎng)語(yǔ)料,導(dǎo)致大模型在聯(lián)網(wǎng)搜索生成結(jié)果時(shí)頻頻“出錯(cuò)”。

在這些“新情況”之下,大模型賦能媒體工作的效果是否同樣發(fā)生轉(zhuǎn)變,媒體人使用大模型產(chǎn)品時(shí)哪些“有用”哪些則略遜一籌,AI將如何賦能改變行業(yè),這些問題值得我們觀察和探討。

第三期報(bào)告的測(cè)評(píng)內(nèi)容將在今年7月中上旬的貝殼財(cái)經(jīng)峰會(huì)上公開發(fā)布,敬請(qǐng)期待!

新京報(bào)貝殼財(cái)經(jīng)記者 羅亦丹

編輯 楊娟娟

校對(duì) 趙琳