免费大黄网站,久久午夜夜伦鲁鲁片免费无码影视 ,国产又色又爽又黄的,久久国产成人午夜av影院

當(dāng)前位置:首頁 > 百科 > 正文內(nèi)容

今年參加高考的AI,分?jǐn)?shù)出來了

長治禮品公司1年前 (2024-07-17)百科42
印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報(bào)價(jià)?聯(lián)系電話:138-1621-1622(微信同號)

ChatGPT喜提AI高考狀元!

作者:Jimmy

來源:三聯(lián)電子廠Pro(ID:cyberlife2024)

這幾天你還在等錄取通知書嗎?每次高考完,總有一些人特別招人煩。要么是高考博主分享人生感悟,也有復(fù)讀班??蛶悝?估分,最討厭的就屬一群中年人,在那里看著作文題高談闊論找存在感。

但他們敢做數(shù)學(xué)題嗎?今年之后,AI大概就會直接斷送了這些人吹牛的機(jī)會,甚至連張雪峰這樣的高考報(bào)志愿的投機(jī)倒把分子,都再也賣不出去自己兩萬一套的一對一報(bào)志愿指導(dǎo)。

01

AI沖上河南一本線

2024年的河南高考分?jǐn)?shù)線已經(jīng)出爐,文科本科一批錄取分?jǐn)?shù)線為521分,理科511分。

眾所周知,河南是人口大省,根據(jù)2023年的數(shù)據(jù),河南以9605萬排名全國第三。相應(yīng)地,河南也是高考大省,2023年河南高考考生高達(dá)131萬人。

經(jīng)歷過高考的人,都會記得班主任常常會說這樣一句話:“高考是你們?nèi)松形ㄒ灰淮喂降母偁帯?。在全國的大多?shù)省份,考生要想考上心儀的學(xué)校,除了過線,必須高出分?jǐn)?shù)線不少分才能被錄取,像是清北這樣的名校,甚至要超過百分。

數(shù)據(jù)也支持這樣的判斷,以河南省為例,在全國歷年985和211學(xué)校的錄取比例中,河南一直處于倒數(shù)5名左右,這意味著考生們不僅要和同學(xué)內(nèi)卷,更要和“名額數(shù)量”“錄取比例”斗爭。

如今,高考的賽道上又多了一名新“同學(xué)”。當(dāng)AI也參與其中之后,所取得的成績也同樣令人目瞪口呆,并且以我們意想不到的速度進(jìn)步著。

在2024年河南省高考新課標(biāo)Ⅰ卷大模型評測報(bào)告中,OpenAI的Chat GPT - 4o以562分在眾多AI中排名文科總分第一。Chat GPT - 4o不愧是全能(4o的o就是“Omini”,?cè)苤猓?。國?nèi)產(chǎn)品中,字節(jié)跳動旗下的豆包拔得頭籌,成績是542.5分,其后依次是吉印通文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。

與文科相比,大模型的理科成績要差很多,最高分還不到480分,大多數(shù)大模型的理科總分在400分以下。相比河南理科511分的一本線,大模型尚有較大差距。

各大模型高考評測取得的分?jǐn)?shù)

本次大模型高考評測與河南省高考考卷完全相同,按照錄取分?jǐn)?shù)線,豆包等三款國產(chǎn)AI成功沖上一本線。但如果豆包同學(xué)在河南,恐怕依然上不了一本大學(xué)。

在大模型的各個(gè)科目得分中我們不難發(fā)現(xiàn),無論是Chat GPT - 4o還是眾多的國產(chǎn)大模型,都有明顯的劣勢,尤其是數(shù)學(xué)和語文的寫作,都沒有獲得太高的分?jǐn)?shù)。

大模型也和人類一樣“偏科”

為什么寫作無法獲得高分?原因是Chat GPT實(shí)際上是無法真正理解問題的。Chat GPT所做的是模式匹配,它可以通過算法找到和輸入問題相關(guān)的信息,?cè)缓筇崛〕鲂畔⒅械拇鸢?。?/p>

這種答案其條理性、邏輯性拉滿,但是在閱卷過程中,還要考慮人類寫作的特點(diǎn),比如遞進(jìn)關(guān)系、思維過程、層次、修辭等等。在這些方面,?cè)斯ぶ悄艿谋憩F(xiàn)更像是信息的堆砌。

試著把大模型的寫作給專業(yè)的閱卷老師看,得到了?cè)缦禄貜?fù)。老師也是一眼辨識出了大模型寫作的結(jié)果,現(xiàn)場戳穿,大寫的尷尬。

AI寫作被一眼認(rèn)出

02

大模型是數(shù)學(xué)學(xué)渣嗎?

既然寫作不靈,那以推理與邏輯為主的數(shù)學(xué),為什么大模型反而也得不到高分呢?

還以2024年高考數(shù)學(xué)卷中的兩道題為例,從結(jié)果中可以看到,國產(chǎn)大模型幾乎全軍覆沒,只有Chat GPT給出了正確答案,其中一題是這樣的:

甲、乙兩人各有四張卡片,每張卡片上標(biāo)有一個(gè)數(shù)字,甲的卡片分別標(biāo)有數(shù)字 1,3,5,7,乙的卡片上分別標(biāo)有數(shù)字2,4,6,8,兩人進(jìn)行四輪比賽,在每輪比賽中,兩個(gè)各自從自己持有的卡片中隨機(jī)選一張,并比較所選卡片的數(shù)字的大小,數(shù)字大的人得1分,數(shù)字小的人得0分,?cè)缓蟾髯詶壷么溯喫x的卡片(棄置的卡片在此后的輪次中不能使用)。則四輪比賽后,甲的總得分小于2的概率為多少?

這道題,我是肯定算不出來的(你們可以試試),正確答案為1/2。再來看看大模型的作答結(jié)果。

原本以為算概率這種事情,應(yīng)該是計(jì)算機(jī)最擅長的。結(jié)果,國內(nèi)的8款大模型全部翻車。

究其原因還要從大模型自身講起,大模型是基于人類語言研發(fā)和訓(xùn)練的,要想準(zhǔn)確回答問題,首先是要理解人類語言,明白題目本身的含義。

來看一個(gè)非常典型的例子,“3個(gè)蘋果加2個(gè)梨總共有幾個(gè)水果”,這道小學(xué)生都會做的題,在大模型誕生之初,給出的回答往往是錯(cuò)誤或者不知所云的答案,原因就是人類可以很容易地把蘋果和梨抽象為水果,大模型無法做到。

而隨著技術(shù)的進(jìn)步,大模型的進(jìn)步已經(jīng)能夠給出這類抽象問題的答案,但如果你問點(diǎn)復(fù)雜的,大模型還是會胡扯。以足球運(yùn)動員為例:

而正確答案是:

這種抽象的概念,到了高中階段就會變得更加復(fù)雜,無法將語言題目轉(zhuǎn)化為數(shù)學(xué)公式是大模型是個(gè)數(shù)學(xué)學(xué)渣的原因之一。

其次是大模型回答問題的方式,前文提到過,大模型是通過匹配的方式找尋與之最相關(guān)的內(nèi)容再通過縝密的邏輯組合成答案。

比如我們讓模型畫一幅人類肖像,在模型的訓(xùn)練數(shù)據(jù)中海量的關(guān)系證明,眼睛下方是鼻子,鼻子下方是嘴,所以模型很容易通過找尋匹配的方式畫出與要求相近的答案。因?yàn)榻Y(jié)果單一,但文字不然。比如我們提到一款手機(jī),那與之相關(guān)的內(nèi)容可能是電路板,可能是價(jià)格,可能是品牌,大模型需要不斷地推理,找到最近似的結(jié)果。這就是所謂的擴(kuò)散模型。

所以當(dāng)給到模型的信息不全,或者存在很多隱含寓意的時(shí)候,模型就開始了一本正經(jīng)地胡說八道,這就是我們常說的“模型幻覺”。

問題其實(shí)是在問我有多少個(gè)水果,Chat GPT回答為16,它沒有正確理解“banana weighs 0.5 lbs and I have 7 lbs”這句話的含義,正確答案應(yīng)該是7/0.5+9=23個(gè)。

03

看不見的“試卷”

看多了大模型不著邊際的答案以及一本正經(jīng)的胡說八道之后,我們甚至?xí)岩商柗Q顛覆性的大模型技術(shù),連小學(xué)數(shù)學(xué)都做不利索,到底行不行?

答案是肯定的,大模型在很多專業(yè)領(lǐng)域,尤其是尖端科學(xué)領(lǐng)域,依然是人類社會的希望。

海量數(shù)據(jù)的處理能力

雖然在大模型之前也有類似的數(shù)據(jù)中心、超級計(jì)算機(jī),但是其本質(zhì)區(qū)別還是方法。傳統(tǒng)的方法是查找與匹配,找到近似的結(jié)果給用戶展示,大模型的工作機(jī)制除了查找與匹配之外還有推理,簡單說就是能夠像人一樣思考。這樣給出的結(jié)果更加精確。

泛化能力

我們都遇到過使用吉印通的時(shí)候搜不到結(jié)果的情況,是因?yàn)閷τ谖粗獢?shù)據(jù)確實(shí)是找不到結(jié)果的,機(jī)器也給了正確的返回。但其實(shí)機(jī)器并沒有思考輸入問題的本質(zhì),大模型可以通過不斷地理解和泛化,適應(yīng)新的未曾見過的數(shù)據(jù)。

自我學(xué)習(xí)進(jìn)化能力

目前人類自誕生以來有文字記載的各種知識、數(shù)據(jù)、資料都可以作為訓(xùn)練的數(shù)據(jù),以Chat GPT - 4o為例,據(jù)OpenAI表示大概已經(jīng)把目前人類的知識都看過一遍了。模型本身會不斷進(jìn)化,這個(gè)過程時(shí)刻都在發(fā)生。

基于這些強(qiáng)大基因,大模型已經(jīng)被應(yīng)用于很多專業(yè)領(lǐng)域,并取得了前人無法企及的成果。

一群來自上海財(cái)經(jīng)大學(xué)、哈爾濱工業(yè)大學(xué)(深圳)、北京語言大學(xué)、西安電子科技大學(xué)、加拿大皇后大學(xué)以及萬得信息技術(shù)吉印通的博士生和工程師收集了超過三萬七千個(gè)問題,以及對應(yīng)的超過8萬條人類專家回答和超過4萬條Chat GPT回答。覆蓋了開放域、計(jì)算機(jī)、金融、醫(yī)療、法律、心理學(xué)等多個(gè)領(lǐng)域。對比大模型和專家的作答。評判標(biāo)準(zhǔn)是在雙盲的情況下看誰的答案更加有用?結(jié)果如下:

大模型的答案略勝于人類專家,但是如果被評測者被告知哪個(gè)是大模型的話,結(jié)果是專家答案反超20%。可見大模型在專業(yè)知識方面接近人類專家水平,專家的優(yōu)勢在于能夠簡明扼要,直指核心,而大模型的回答略顯拖沓和格式化。

心理學(xué)領(lǐng)域,大模型在情感上比人類更中立,甚至偏積極,能夠更好地提供情緒支持和疏導(dǎo)。

在表述的方式上,?cè)祟惐却竽P蛽碛懈蟮脑~匯量且回答更加簡短。

除了普遍的語言問答,大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3發(fā)布,生物領(lǐng)域Al即將參與人類的生老病死

一款藥物從開始研發(fā)到上市銷售要經(jīng)歷漫長的時(shí)間,極端情況下,有些科學(xué)家甚至都看不到“孩子”上市就已經(jīng)離世。更別說研發(fā)期間巨大的資金消耗。所以像《我不是藥神》中提到的“格列衛(wèi)”,也經(jīng)歷了漫長的歲月。而作為壟斷企業(yè)的藥企,顯然不會輕易地交出專利。

但大模型的出現(xiàn)讓這個(gè)過程至少提高了36%的速度,其重要的功能就是在推測先導(dǎo)藥物分子式這一過程中,通過模型極強(qiáng)的學(xué)習(xí)和推理能力,極大地加快了發(fā)現(xiàn)新的分子式(新藥物基礎(chǔ))的過程。

也許幾年后就會有無數(shù)種新藥問世,它們可以治療多種目前束手無策的病癥,并大幅降低研發(fā)成本,而最終受益的依然是患者和家屬。整個(gè)人類群體的壽命和生活質(zhì)量也將同步提升。

04

關(guān)閉對中國的接口,更大的機(jī)會?

前幾天openAI宣布禁止中國地區(qū)用戶使用API(應(yīng)用編程接口)方式訪問其服務(wù),技術(shù)壟斷的背后,中國也在不遺余力地研發(fā)自己的技術(shù)。在同樣的技術(shù)背景下,其商業(yè)模式以及對用戶的影響,中美可能會走上兩條不同的路線。

如果回顧一下AI的上一波浪潮,即移動互聯(lián)網(wǎng),不難發(fā)現(xiàn),同樣的技術(shù)和終端,在商業(yè)模式上走上了兩條不同的道路。

細(xì)數(shù)移動互聯(lián)網(wǎng)誕生的十余年里,以原創(chuàng)產(chǎn)品為標(biāo)準(zhǔn)。中國涌現(xiàn)出了支付寶,字節(jié)跳動,美團(tuán)網(wǎng),共享自行車,短視頻,直播帶貨,手機(jī)游戲等。反觀美國企業(yè)則主要集中在生態(tài)和更上游,比如硬件制造的蘋果,操作系統(tǒng)安卓和iOS,云服務(wù)器等,元宇宙等。

再看當(dāng)下的AI生態(tài),中國的公司更聚焦在終端用戶的身上,比如AI虛擬人、AI繪圖作畫、AI寫ppt、AI做吉印通模特圖、AI試衣等等。并把上一波浪潮中的經(jīng)驗(yàn)完美融合其中,比如會員制訂閱收費(fèi)、營銷手段等等。移動互聯(lián)網(wǎng)“先圈用戶再賺錢”這個(gè)邏輯一直被默默地繼承了下來。

AI作圖的生硬“直譯”

誠然,美國也有多如牛毛的類似公司,比如C.AI(虛擬人)、Notion(寫作)、Replica(元宇宙)、Cavana(創(chuàng)意),但是目前在硅谷投資行業(yè)中更為投資人看好的,并已經(jīng)實(shí)現(xiàn)盈利的卻是一些“to B”(面向企業(yè))的生意。有個(gè)很生動的例子,闡釋了AI的巨大作用。

美國有一種工傷保險(xiǎn),當(dāng)員工因公受傷在家休養(yǎng)期間,保險(xiǎn)公司會支付50%的薪水給員工,該保險(xiǎn)由企業(yè)投保,員工受益。但是在被保險(xiǎn)客戶中,其傷愈的時(shí)間是因人而異的,很多人并不知道自己已經(jīng)可以回去上班領(lǐng)全額的薪水,也不知道自己的醫(yī)療到何種階段。這項(xiàng)工作以前是由人工完成的,即保險(xiǎn)公司致電每一個(gè)可以或即將可以上班的員工返回工作崗位。顯然這是極其低效的。AI應(yīng)用在電話回訪之后極大地提高了效率和準(zhǔn)確性,AI接收醫(yī)院的醫(yī)療信息,找出對應(yīng)的被保險(xiǎn)人,?cè)缓髶艽螂娫挘偀o需任何人為干預(yù),一天可以打幾百上千個(gè)電話。而一旦被保險(xiǎn)人返回工作,保險(xiǎn)公司便可以停止支付工傷期間的薪水。據(jù)統(tǒng)計(jì)一年下來,僅這一項(xiàng)應(yīng)用為該公司節(jié)省了至少6000萬美元的保費(fèi)。

所以,一個(gè)現(xiàn)存的需求,利用AI的高效率解決問題。這種生意顯然Open AI不會做,馬斯克也不會做,足夠的垂直和足夠大的體量,是極度受投資者青睞的。

反觀中國對于AI的投資,呈現(xiàn)兩種截然不同的境遇,其一是大廠做AI,不差錢但不能錯(cuò)過風(fēng)口,擔(dān)心“別人有我沒有”是戰(zhàn)略決策失誤,怕被落下。另一種是大模型套娃,大多雷同,投資人認(rèn)為門檻低復(fù)制簡單,也沒有競爭優(yōu)勢,絕大多數(shù)被冷遇。

留給中國大模型的機(jī)會很多,參加高考不過是牛刀小試,成績也不會像很多人進(jìn)了復(fù)讀班一樣,不升反降。AI能為人類提供更精密的推導(dǎo),更厲害的算力,我們很高興能看到這些被應(yīng)用在藥物研究、外太空探索之上。

但就像一個(gè)孩子說的一樣:科技是為人類服務(wù)的。大模型的出現(xiàn),是希望能夠給人類提供更多的機(jī)會和便捷的生活方式,而不是以一些急功近利的方式,?cè)儕Z人們賴以生存的手段。或許,智能駕駛是解決交通擁堵和未來人類出行的手段,但擠占人類的生存空間的方式,顯然不是人工智能的初衷。

過去一年,ChatGPT吃了多少官司?

*免責(zé)聲明:本文章為作者獨(dú)立觀點(diǎn),不代表i黑馬立場。

加入科技交流群

加入“AI應(yīng)用伙伴計(jì)劃”

成為 AI 產(chǎn)業(yè)新力量

立即報(bào)名

聯(lián)系我們

轉(zhuǎn)載開白或商務(wù)合作:15222191516

與主編交流溝通:chenfu3721

i黑馬,創(chuàng)業(yè)黑馬旗下媒體,讓創(chuàng)業(yè)者不再孤獨(dú)。

收藏0
標(biāo)簽: ChatGPT

發(fā)表評論

訪客

看不清,換一張

◎歡迎參與討論,請?jiān)谶@里發(fā)表您的看法和觀點(diǎn)。