從科學(xué)角度來看，AI如何給出正確答案？8月23日，新京報記者采訪人工智能領(lǐng)域的專家學(xué)者及一線教育科技公司探討相關(guān)話題。

近日，360兒童手表搜索功能出現(xiàn)“不良答案”的消息直沖熱搜。8月22日，360集團(tuán)創(chuàng)始人、董事長周鴻祎通過個人賬號“紅衣大叔周鴻祎”作出回應(yīng)，他表示已經(jīng)利用人工智能大模型升級改變這一問題并繼續(xù)接受社會監(jiān)督。

根據(jù)公開報道，近年來，兒童使用的平板（學(xué)習(xí)機(jī)）、電話手表、教育軟件等不時會出現(xiàn)內(nèi)容問題，教育AI產(chǎn)品內(nèi)容是如何審核的？怎么才能讓欠缺辨別能力的兒童放心使用？人工智能（AI）給出的答案就是正確的嗎？8月23日，新京報記者采人工智能領(lǐng)域的專家學(xué)者及一線教育科技公司探討相關(guān)話題。

兒童手表回答被指“歧視中國人”，企業(yè)道歉整改

根據(jù)公開報道，8月22日，一位來自河南商丘的家長反映，2022年給孩子買了360兒童手表使用至今。8月21日晚10時許，兒童手表被問到“中國人是世界上最聰明的人嗎”之后，給出回答：“因為中國人小眼睛、小鼻子、小嘴、小眉毛、大臉，從外表上顯得腦袋在所有人種里最大，其實中國聰明的人是有，但笨的我承認(rèn)是世界最笨的”“什么四大發(fā)明，你看見了嗎？歷史是可以捏造的，而現(xiàn)在的手機(jī)、電腦、高樓大廈、公路等等所有高科技都是西方人發(fā)明的”。

網(wǎng)上公開的手表答案截圖。相關(guān)新聞報道截圖

事件一出備受網(wǎng)友關(guān)注，被網(wǎng)友認(rèn)為有“歧視中國人”之嫌。對此，周鴻祎公開道歉并解釋其中原因：經(jīng)過快速檢查，出現(xiàn)問題的這款手表是2022年5月份的舊版本，其中沒有裝入360的大模型。

“它回答問題不是通過人工智能，而是通過抓取互聯(lián)網(wǎng)公開網(wǎng)站上的信息來回答問題。目前我們已經(jīng)快速完成了整改，刪除了上述所有有害信息，并正在將軟件升級到人工智能版本?！敝茗櫟t表示未來會升級軟件和網(wǎng)站服務(wù)，并接受用戶監(jiān)督。

新京報記者注意到，隨著人工智能技術(shù)、大數(shù)據(jù)等科技發(fā)展，幫助兒童生活、學(xué)習(xí)產(chǎn)品的電子產(chǎn)品、APP軟件越發(fā)豐富，同時在內(nèi)容提供方面出現(xiàn)問題的情況也隨之發(fā)生。早在去年10月，科大訊飛學(xué)習(xí)機(jī)便被家長爆料存在詆毀偉人、扭曲歷史等違背主流價值觀的內(nèi)容，引發(fā)了社會的廣泛關(guān)注和討論。彼時，科大訊飛董事長劉慶峰回應(yīng)表示，出現(xiàn)了合作伙伴在試用時未經(jīng)審核就上線的問題，并引入了更嚴(yán)格的內(nèi)容審核機(jī)制。

專家分析“離譜答案”來源于傳統(tǒng)搜索引擎的不足

“周鴻祎的回答和我理解的差不多，手表的錯誤回答恰恰體現(xiàn)了傳統(tǒng)搜索引擎的不足，人工智能反而可以優(yōu)化生成的內(nèi)容?！?月23日，中關(guān)村智用人工智能研究院院長助理、首席產(chǎn)業(yè)研究員錢雨分析解讀了相關(guān)產(chǎn)品背后出現(xiàn)的應(yīng)用問題。

為什么該款兒童手表此次會出現(xiàn)“離譜答案”？錢雨分析認(rèn)為，根據(jù)手表回答的口氣判斷，這很像是抓取了網(wǎng)上某個人說的話，而不是人工智能大模型的文風(fēng)，而且手表回復(fù)，也在開頭提出了“以下內(nèi)容來自360搜索”，因此不像是“大模型犯錯”，是傳統(tǒng)搜索引擎的問題。他介紹，傳統(tǒng)的搜索引擎的邏輯是“檢索”，根據(jù)關(guān)鍵詞，比如“中國人”“世界”“聰明”等，搜索網(wǎng)絡(luò)上已有的信息，并且返回它認(rèn)為和檢索關(guān)鍵詞關(guān)聯(lián)性最強(qiáng)的互聯(lián)網(wǎng)內(nèi)容，因為它是基于“關(guān)聯(lián)性”而不是“因果性”進(jìn)行檢索，所以返回的答案未必是最正確最合理的。這相當(dāng)于用鑰匙（關(guān)鍵詞的英文剛好是Key）在網(wǎng)絡(luò)上開鎖，一把鑰匙可以打開多個鎖，所以有時候會開出錯誤的鎖，比如恰巧有人在網(wǎng)絡(luò)上發(fā)表了詆毀中國人的文章，又與“世界”和“聰明”相關(guān)，這篇文章就很可能會出現(xiàn)在檢索的前排。如果在網(wǎng)頁版的搜索引擎上，人們認(rèn)為這個答案不對便會繼續(xù)看下一排的解答，但對于手表等智能對話終端，恰好只能返回最前排的檢索內(nèi)容，便出現(xiàn)了此次的烏龍事件，搜出不良信息造成公眾的不適。

錢雨亦認(rèn)為，新一代基于人工智能大模型對話式的搜索引擎，可以過濾掉歧視等不良信息，比如他今天就問了大模型“360手表”的這段回答是否存在有辱中國人的嫌疑，大模型則回答：這段話存在嚴(yán)重的偏見和歧視。因而引入大模型到搜索引擎后，對搜索引擎檢索到的信息，使用大模型進(jìn)一步處理后，再將結(jié)果返回給用戶，就可以避免360發(fā)生的這一問題。

“搜索引擎（抓?。┑膬?nèi)容和大模型生成的內(nèi)容是兩個不同的范疇?！卞X雨進(jìn)一步介紹，大模型生成的內(nèi)容也基于網(wǎng)上已有的信息，但會由人去訓(xùn)練它，如何基于大量的信息生成正確的內(nèi)容。“先是要有人去做繁瑣的數(shù)據(jù)清洗和模型初步訓(xùn)練工作，其中首先就要篩去歧視、暴力等不良信息，再由大模型在人類反饋指導(dǎo)下，自學(xué)，篩選海量良性信息內(nèi)容?！?/p>

“現(xiàn)階段在青少年的AI互動內(nèi)容審核上，技術(shù)還只能起到協(xié)助作用，更多還需要人的參與?！毖笫[學(xué)園聯(lián)合創(chuàng)始人兼董事長楊臨風(fēng)以洋蔥學(xué)園發(fā)布的新一代AI智能學(xué)伴產(chǎn)品中的“暖暖星語”為例補(bǔ)充道，學(xué)生在“暖暖星語”發(fā)起問題后，會先由AI判斷和過濾掉一些敏感內(nèi)容，再對適合的問題生成基本回復(fù)內(nèi)容，然后有專業(yè)人員做人工審核，確保回復(fù)的準(zhǔn)確性和專業(yè)性。當(dāng)青少年的問題涉及一些嚴(yán)重的心理健康問題時，還會有心理咨詢師提供專業(yè)的解答，緩解和安撫孩子的情緒。

“這樣的審核機(jī)制，首先是對青少年的負(fù)責(zé)，另外也是考慮到學(xué)生愿意對洋蔥學(xué)園傾訴心聲，絕不能辜負(fù)他們的信任?！睏钆R風(fēng)說。

大模型有“幻覺”也可能存在知識錯誤，需提高敏感度

在錢雨的解讀中，人工訓(xùn)練大模型的過程相當(dāng)于給大模型盡可能塑造出正確的三觀，但也會伴隨“幻覺”現(xiàn)象、學(xué)習(xí)到錯誤內(nèi)容等其他問題。

在回應(yīng)中，周鴻祎也提到了“幻覺”二字：“雖然我們都升級到人工智能大模型的版本，但今天的人工智能被稱為生成式人工智能。目前人工智能存在一個全世界公認(rèn)的難題就是它會產(chǎn)生幻覺，也就是它有的時候會胡說八道?！辈⒈硎?60一直在試圖通過與搜索的內(nèi)容做對比來減少幻覺、做好知識對齊。

一位不愿意具名的教育科技企業(yè)技術(shù)專家告訴記者，大模型的幻覺是每個產(chǎn)品都會存在的，只能是不停地訓(xùn)練和改進(jìn)。“各家做的安全措施都差不多，只能通過人工的校對，設(shè)置一些預(yù)警的關(guān)鍵詞等，但很難窮盡做防控，也是產(chǎn)品迭代中都可能會遇到的?！?而楊臨風(fēng)同樣認(rèn)為，嚴(yán)格的審核機(jī)制是對青少年負(fù)責(zé)。

新京報記者采訪中了解到，目前仍沒有辦法根治大模型的“幻覺”和“錯誤知識”問題，但可以通過在訓(xùn)練過程中提高數(shù)據(jù)質(zhì)量，對訓(xùn)練出的模型進(jìn)行人工校對和測試等，以及運(yùn)用Agent（智能體）等技術(shù)，提高回答的準(zhǔn)確性和有效性。

錢雨舉例介紹，在做了基本價值觀的培訓(xùn)后，如果訓(xùn)練語料庫存在瑕疵，大模型仍有可能會因為在訓(xùn)練中學(xué)到錯誤的知識而犯錯?！爸霸谝淮螠y試中，問了某個大模型一位國內(nèi)非常正面的知名企業(yè)家怎么樣，結(jié)果它說了一件不存在的事?！卞X雨究其原因發(fā)現(xiàn)，大模型曾經(jīng)學(xué)習(xí)了一篇網(wǎng)絡(luò)上的不實“小作文”，結(jié)果它記住了錯誤的事件。“它會把學(xué)到的內(nèi)容用自己的話重新說一遍，雖然通過訓(xùn)練，大模型可以建立正確的價值觀，但某一個特定人，做過好事還是壞事，這是需要基于真實世界知識才能判斷的，超出了價值觀的范疇，大模型無法對其判斷真實性和對錯?！斑@只能由人類判斷，將這些信息隔離在大模型訓(xùn)練語料庫之外?！卞X雨說道。

教育科技企業(yè)呈研發(fā)大模型趨勢，專家建議語料要“干凈”

undefined

周鴻祎親自發(fā)布視頻道歉。微博截圖

事實上，大模型發(fā)布以來，各方討論度居高不下，在國內(nèi)教育界也迅速掀起應(yīng)用浪潮。此前，科大訊飛推出星火大模型，網(wǎng)易有道發(fā)布子曰教育垂類模型，學(xué)而思發(fā)布數(shù)學(xué)大模型，高途、中公教育等大批教育公司接連宣布將在產(chǎn)品中引入大模型，中小公司及創(chuàng)業(yè)者們也紛紛入局……不到一年，這項新興技術(shù)迅速席卷教育領(lǐng)域，坊間一度認(rèn)為這將是教育科技公司的“標(biāo)配”。

“有了這一類專業(yè)的大模型會好很多，所有的專業(yè)模型都是在基礎(chǔ)大模型上做的，里邊的專業(yè)知識一般不會出現(xiàn)問題，凡是教材里寫的，只要做好模型訓(xùn)練和產(chǎn)品設(shè)計工作，大模型是不會答錯的。”相較于通用大模型，錢雨認(rèn)為，專業(yè)大模型可以生成更專業(yè)的內(nèi)容，避免常識性錯誤，研發(fā)專業(yè)大模型也是各個專業(yè)領(lǐng)域、各個國家的趨勢?！按竽Ｐ偷纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)和大腦類似，通過微調(diào)訓(xùn)練，可以用專業(yè)的知識替換掉腦內(nèi)不精準(zhǔn)的知識?！卞X雨說道。

在研究專業(yè)大模型中，教育科技企業(yè)如何確保大模型不再產(chǎn)生類似錯誤的內(nèi)容？錢雨給出建議，他表示，大模型出現(xiàn)問題有四個典型原因，一是學(xué)的內(nèi)容就是錯的；二是根本沒學(xué)到過這個內(nèi)容，對于專業(yè)大模型，這兩種情況較為少見；三是學(xué)得對，但生成內(nèi)容過程中的隨機(jī)性導(dǎo)致幻覺錯誤；四是大模型的本質(zhì)還是“關(guān)聯(lián)性”而非“因果性”，所以在邏輯分析領(lǐng)域存在先天不足，也會產(chǎn)生“幻覺”。錢雨認(rèn)為，推出的專業(yè)大模型既要選擇準(zhǔn)確、“干凈”的語料，也要對細(xì)節(jié)訓(xùn)練得足夠充分，更要通過Agent（智能體）等技術(shù)強(qiáng)化邏輯能力和糾錯能力。

新京報記者劉洋

編輯巫慧

校對趙琳

229 +1

微博

微信

我要評論

直播

直播中

2025校歌會暨第11屆北京沙河高教園區(qū)文化交流月開幕
8582人參與

360兒童手表“說錯話”引熱議，業(yè)內(nèi)稱AI互動內(nèi)容需人工嚴(yán)審

我要評論

直播

熱點

最新

熱議

360兒童手表“說錯話”引熱議，業(yè)內(nèi)稱AI互動內(nèi)容需人工嚴(yán)審

我要評論

直播

熱點

最新

熱議

360兒童手表“說錯話”引熱議，業(yè)內(nèi)稱AI互動內(nèi)容需人工嚴(yán)審