大規(guī)模購入顯卡這件事兒,微軟和OpenAI絲毫沒有對外保密,甚至搞的格外高調(diào)。這邊剛一做完決定,立即就搞得滿世界都盡人皆知了。
“這……”紀弘看到相關(guān)消息,簡直有些哭笑不得:預(yù)測模型這么準的嗎?
想想很離譜,但仔細一分析,確實也在情理之中——因為微軟壓根兒就沒有第二條路可以走。
耳語系統(tǒng)雖然沒有表現(xiàn)出超強的攻擊力,卷耳智能科技甚至都沒有為它開過一個發(fā)布會,有點兒并不重視的樣子,但它的戰(zhàn)斗力就在那,任誰都沒法忽視。
哪怕根本就沒有正式在美歐地區(qū)銷售,就已經(jīng)開始慢慢的侵襲微軟的Windows市占率了。
如果下一個版本還不能扭轉(zhuǎn)過局勢來,那劣勢瞬間就會轉(zhuǎn)化為敗勢!
生態(tài)是護城河不假,但被護城河淹死在城內(nèi)的可是有先例——當(dāng)年諾基亞塞班系統(tǒng)市占率高吧?現(xiàn)在再看看,哪里還能看到它的影子!
護城河是對同級產(chǎn)品而言的,過于落后,掉到河里的只會是自己。
紀弘也是想到了這兒,隨后又看了看那個預(yù)測類AI模型:如果變量過多,時間很長,對它來說確實難度很大。
但如果變量很少,就像這次,預(yù)測GPU行業(yè),單單就這一個行業(yè),預(yù)測某些公司的短期動向,看起來還是很靠譜的。
“這東西包裝一下也是一個非常強大的產(chǎn)品!”紀弘這么想著:“先拿去給陳繼業(yè)做企業(yè)分析試試?!?br/>
“微軟這邊……”決心下的那么大,所有人都看出微軟要做什么了,紀弘當(dāng)然也不例外,這個時候,他在思考這樣一個問題:
“現(xiàn)在他們的大模型,Transformer這類的,靠無限制的堆積算力,就能無限的提高模型能力嗎?”
紀弘對此還真沒有研究——先前在創(chuàng)界,主要利用別家平臺進行接口對接開發(fā),后來自己創(chuàng)業(yè),上來就是類思考模型,對T模型屬于降維打擊,并不存在這樣的問題。
他對此沒有什么研究,但有一個人一直在關(guān)注著這方面——這個人就是孫博。
“靠無限制的堆積算力獲得高性能大模型,短期內(nèi)是可行的?!?br/>
孫博也是看到了微軟的行動,在CSDNBlog跟一群人正在探討相關(guān)的話題:
“長期的話,倒不是有上限,真要有魄力不計成本無限制的去堆積算力,理論上是真的能夠獲得無限制的性能提升的。
“但也僅僅只是理論上,這里邊有一個巨大的問題,根據(jù)我的研究,它的增長不是線性的。
“我大約計算過,實際的增長曲線就不說了,很復(fù)雜,但大約可以簡化為這個函數(shù):y=c·log(e)·(X+1)。
“這里邊y指的是性能,X你們就姑且理解為算力堆積的基本單位,大約趨勢如下圖。”
就算是對數(shù)學(xué)再不懂的人,看到這個公式也該看出來了,因為這個函數(shù)的曲線到最后,幾乎就是一條平平的橫線。
也就是說,當(dāng)顯卡堆積達到一定規(guī)模之后,就算再堆積硬件,性能雖然也會增加,但增加的也會十分有限,到最后甚至肉眼都不可見了。
這么說著,孫博還舉例道:“以現(xiàn)在的GPT4為例,如果想要一個2倍GPT4參數(shù)的大模型,對算力的需求大約會是多少呢?
“我計算過,大約需要十幾倍。而且公式計算的只是理論效果,而更大規(guī)模的集群,片間互聯(lián)的損失肯定也會更大,實際效果只會更差?!?br/>
孫博很是熱情,只要不涉及他自己工作的機密和核心,只要他在的時候,那幾乎是有問必答的。
紀弘也正好翻看到這兒,他沒有過多的驚訝,片間互聯(lián)損失這一塊兒本身就不好解決,要不然超大規(guī)模智算中心也不至于這么稀有了——河州大學(xué)搞的那個還是純國產(chǎn)第一例。
“按你這么說,微軟這孤注一擲的效果,不一定會好??!”有人這么回了一句。
“效果不好是一定的,花費兩倍的價格,可能能得到1.5倍的性能,最多也就如此了,想要趕上耳語的能力,我覺得不大行。
“其實OpenAI自己肯定也清楚,GPT4乃至后續(xù)沒有發(fā)布的4.5版本,之所以沒這么堆規(guī)模,就是在卡能效比的兩個節(jié)點。
“再堆規(guī)模下去,性價比會越來越低不高。但現(xiàn)在不是被耳語逼的沒辦法了嗎?”
孫博本就是研究前沿理論的,現(xiàn)有模型的理論上限他清楚的很,哪個算力節(jié)點卡一下性價比最高他大約也都清楚。
到了一定程度,盲目的加規(guī)??隙ǖ貌粌斒?。除非迫不得已,一般不會這么干的。
紀弘一邊看著孫博的回復(fù),一邊分析這個人,越分析越是感興趣了——這是一個有真材實料的理論家。
“如果能挖來卷耳科技,將會是一個巨大的臂助?!?br/>
……
紀弘在念叨孫博的時候,孫博也在念叨他——起因就是紀弘發(fā)的那個私信。
“最優(yōu)化理論的一個分支,目的是為了解決大模型之間交流的問題,這人該不會是卷耳智能科技的創(chuàng)始人紀弘吧?”
孫博看了好一會兒,想到了紀弘在河州大學(xué)采訪時說的一個兩個三個多個模型串聯(lián)得出更精準更切合先說你的結(jié)果,那些話。
“這是實現(xiàn)AGI通用人工智能的一個思路嗎?”
孫博看的有些迷,是因為很多關(guān)鍵點紀弘都給他略去了,但大致的框架還在,他知道這東西在解決什么問題。
事實上,他本人也在研究這個。
“但是,大模型之間的交流是以數(shù)據(jù)和信息為載體的,通常來說,交流只是擴大了信息量?!?br/>
比如可以利用一個大模型的數(shù)據(jù)去快速的訓(xùn)練另一個大模型——這一點大家都知道,千尋的文心一言用過GPT的數(shù)據(jù)。
后來,谷歌的大模型也被爆出過用了文心一言的訓(xùn)練數(shù)據(jù),大家利用來利用去的,這都不是些稀罕事兒。
“但這還是要走訓(xùn)練過程的啊,只是少了數(shù)據(jù)清洗和標定過程以及相關(guān)的人力成本而已,兩個模型的能力并不能直接相加,能利用的只是數(shù)據(jù)而已!”
“除非……”一個大膽的想法在孫博腦海里漸漸的浮現(xiàn)出來:“除非,有辦法讓智慧化的能力直接交流甚至融合。這……”
饒是只是一個想法,孫博也被自己嚇了一跳:如果兩個模型的智慧能力本身能夠融合和共同利用,但這可能嗎?相當(dāng)于人之間的交流了啊這!
“類思考……”
剛還想著絕不可能呢,但類思考三個字一出來,孫博腦袋直接“嗡”的一聲,這已經(jīng)有先例了:“這人絕對是紀弘沒跑,他這是對我有興趣?”