今年春天，DeepSeek熱潮席卷全球，讓眾多AI大模型產(chǎn)品陸續(xù)進(jìn)入“深度思考”時(shí)代的同時(shí)，并帶動(dòng)了智能體的發(fā)展。而在傳媒領(lǐng)域，大模型可以輔助記者進(jìn)行的文本生成事實(shí)核查與倫理判斷、信息檢索等媒體能力是否也有所提升？為此，新京報(bào)AI研究院聯(lián)合中國(guó)經(jīng)濟(jì)傳媒協(xié)會(huì)，繼2024年7月、2025年1月的兩期測(cè)評(píng)后，再度啟動(dòng)第三期《中國(guó)AI大模型測(cè)評(píng)報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》（下稱：報(bào)告）。

本報(bào)告采用新京報(bào)人工智能研究院自行研發(fā)的針對(duì)大模型傳媒能力的測(cè)評(píng)體系，探討大模型對(duì)媒體人工作賦能的真實(shí)情況，呈現(xiàn)科技進(jìn)步如何提質(zhì)增效。

根據(jù)2025年1月的測(cè)評(píng)報(bào)告，大模型的信息搜集能力、翻譯能力、長(zhǎng)文本總結(jié)能力排名前三，而事實(shí)核查與倫理判斷能力以及新聞寫作能力則排名倒數(shù)。對(duì)比第一次測(cè)評(píng)，上述五項(xiàng)維度中，大模型的信息搜集能力從第三名躍升至第一名，大模型的長(zhǎng)文本能力也得到了長(zhǎng)足進(jìn)步，從最后一名躍升至第三名?？梢姶竽Ｐ彤a(chǎn)品在聯(lián)網(wǎng)搜索，以及長(zhǎng)文本總結(jié)上的應(yīng)用水平在最近半年內(nèi)獲得了增長(zhǎng)。

然而，最近半年，大模型領(lǐng)域又有了新的發(fā)展：一方面，DeepSeek出現(xiàn)并帶來深度思考能力流行，絕大多數(shù)主流大模型產(chǎn)品都推出了深度思考功能；另一方面，隨著近幾年AI應(yīng)用的不斷發(fā)展，互聯(lián)網(wǎng)中AI生成內(nèi)容呈現(xiàn)指數(shù)型爆發(fā)，部分“幻覺”內(nèi)容污染了互聯(lián)網(wǎng)語(yǔ)料，導(dǎo)致大模型在聯(lián)網(wǎng)搜索生成結(jié)果時(shí)頻頻“出錯(cuò)”。

在這些“新情況”之下，大模型賦能媒體工作的效果是否同樣發(fā)生轉(zhuǎn)變，媒體人使用大模型產(chǎn)品時(shí)哪些“有用”哪些則略遜一籌，AI將如何賦能改變行業(yè)，這些問題值得我們觀察和探討。

第三期報(bào)告的測(cè)評(píng)內(nèi)容將在今年7月中上旬的貝殼財(cái)經(jīng)峰會(huì)上公開發(fā)布，敬請(qǐng)期待！

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹

編輯楊娟娟

校對(duì) 趙琳

9 +1

微博

微信

我要評(píng)論

直播

預(yù)告

直播丨國(guó)新辦發(fā)布會(huì)：介紹抗戰(zhàn)勝利80周年紀(jì)念活動(dòng)總體安排
2025-06-24 10:00
預(yù) 告 “應(yīng)急使命·2025”極端災(zāi)害事故場(chǎng)景新質(zhì)救援能力檢驗(yàn)性演習(xí)
2025-06-24 09:35

AI事實(shí)核查與倫理判斷能力如何？新京報(bào)第三期大模型測(cè)評(píng)啟動(dòng)

我要評(píng)論

直播

熱點(diǎn)

最新

熱議

AI事實(shí)核查與倫理判斷能力如何？新京報(bào)第三期大模型測(cè)評(píng)啟動(dòng)

我要評(píng)論

直播

熱點(diǎn)

最新

熱議

AI事實(shí)核查與倫理判斷能力如何？新京報(bào)第三期大模型測(cè)評(píng)啟動(dòng)