您現(xiàn)在的位置是：教育 > > 正文

國內最小的大模型創(chuàng)業(yè)團隊，靠另類創(chuàng)新出位天天通訊

時間：2023-06-16 17:03:46 來源：云掌財經阿爾法工場發(fā)布者：DN032

擁有多年NLP經驗的虎博科技，憑借自身獨特的技術創(chuàng)新，打破“成本魔咒”，重新定義“短小精悍”。

國內大模型創(chuàng)業(yè)迎來了新面孔。

(資料圖片僅供參考)

包含70億參數(shù)和1800億參數(shù)兩個版本的大模型TigerBot正式亮相，一經推出，就以獨特的實力，引起了外界矚目。

從評測結果可見，TigerBot與OpenAI同規(guī)模模型的得分十分接近

作為一款國產自研的多模態(tài)大語言模型，TigerBot不僅能進行編程、畫圖、翻譯，還支持多種辦公場景下的任務，具有高效的學習能力、創(chuàng)造力和可控性。

更重要的是，借助更先進的微調算法，TigerBot在只使用少量參數(shù)的情況下，就能快速理解人類的問題，提升回答的準確性。

在同樣50萬條數(shù)據(jù)訓練的情況下，TigerBot的收斂速度比斯坦福推出的Alpaca快5倍，在公開數(shù)據(jù)集上評測顯示性能提升17%。

有點難以置信的是，研發(fā)了如此強勁大模型的團隊，最初只有5個人，身為CEO兼首席科學家的團隊Leader陳燁，擔任了最核心的代碼工作。

后來成員規(guī)模雖有擴充，但也只控制在了10人左右。

那么，這個在激烈的大模型競爭中，TigerBot背后的中國企業(yè)——虎博科技，究竟是怎樣憑借犀利小團隊殺出一條血路的呢？

01 重新定義“精悍”

眾所周知，訓練大模型所需的高昂算力、成本，一度使得ChatGPT這樣的通用大模型，成為了少數(shù)科技巨頭的專利。

然而，擁有多年NLP經驗的虎博科技，卻憑借自身獨特的技術創(chuàng)新，打破了這一“成本魔咒”，并重新定義了何謂“短小精悍”。

具體來說，為了降低模型的訓練成本和難度，虎博科技在以下幾個方面進行了創(chuàng)新：

指令完成監(jiān)督微調

所謂指令完成監(jiān)督微調，主要就是讓模型更加理解人類提出的各種問題。

如果模型像一個學生，那么問題就像一個作業(yè)。

如果老師只是給學生一個作業(yè)，不告訴他這個作業(yè)要考察什么知識點，要用什么方法來解答，那么學生可能會很困惑，于是有些問題的回答質量往往就不佳。

面對這樣的問題，以往人們想到的辦法，是通過微調和提示的方式，來讓模型變得“更通人性”。

具體來說，微調是在大量的任務相關的數(shù)據(jù)上，重新訓練模型的參數(shù)，這就像給了學生一本厚厚的輔導書，雖然可以讓他學得更好，但也會花費很多時間和精力。

而提示則是在每個問題前加上一些特殊的單詞或符號，就像給學生一個小抄，讓小抄引導他寫出正確答案，但這一方法也需要老師花心思制作小抄，而且小抄的內容也會限制學生的應變能力。

對此，TigerBot的應對之策，是使用一種標記語言（Mark-up Language），在每個問題前加上一些特殊的符號。

這相當于給每個作業(yè)打上了“標簽”。

如此一來，學生就能明白，這個作業(yè)是數(shù)學題，要用加減乘除來解答；那個作業(yè)是英語題，要用翻譯來解答；從而讓模型快速地理解了各種問題。

但別看只是個“打標簽”的小小改動，真正要踐行這樣的技術創(chuàng)新，卻絕非易事。

因為標記語言并不是一種簡單的任務標簽，它需要有一定的語法規(guī)則和語義表達能力，才能讓 LLMs（大模型）準確地理解和執(zhí)行指令。

其次，標記語言并不是一種獨立的技術，要讓 LLMs 能夠有效地利用標記語言來完成各種任務，還需要借助預訓練、微調、元學習等其他多種技術。

因此，整合各種技術并設計一種通用且易用的標記語言，是一項具十分前沿的創(chuàng)新性工作，涉及多個方面的挑戰(zhàn)和難點。

唯有那些具備深厚理論基礎和實踐經驗的團隊，才能做出這類突破。

突破并行訓練難關

除了模型的底層架構上的改進外，TigerBot另一大降低訓練難度和成本的創(chuàng)新，就是突破了deep-speed等主流框架中的若干內存和通信問題，實現(xiàn)了千卡環(huán)境下訓練數(shù)月無間斷。

在此之前，要想千卡環(huán)境下進行數(shù)月無間斷的訓練，會面臨很大的技術難點。

這里可以用一個形象的比喻說明：

想象一下，在一個擁擠的馬路上，用很多輛小車來運送一座大山，要花費多大的時間和精力？要面對怎樣的擁堵和阻礙？

在這里，“小車”就象征著每個 GPU 的內存空間，“大山”象征著模型的參數(shù)和梯度。

雖然我們有一千輛小車可以用，但是每輛小車的載重能力都很有限，遠遠不夠裝下整座大山。

另一方面，模型的參數(shù)和梯度需要在多個 GPU 之間頻繁地交換和更新，需要消耗很多的通信資源。

這就像是要把一座大山從一個地方運到另一個地方，需要經過很多次的裝卸和轉運，不僅會耽誤時間，還會消耗大量的資源。

對此，TigerBot主要使用了三個技術，來進行并行訓練的優(yōu)化。

首先，TigerBot 使用了一種叫做ZeRO的技術，它可以把模型的參數(shù)和梯度分散到多個 GPU 上，從而減少每個 GPU 的內存占用。

這就像是把大山分成很多小塊，然后用不同的小車來運送一部分小塊。這樣，每輛小車就不會超載了，而且可以同時出發(fā)，提高訓練的效率。

其次，TigerBot 使用了一種叫做DeepSpeed的技術，它可以根據(jù)模型的參數(shù)和梯度的大小和分布，自動地選擇最合適的通信方式和路徑。

這就像是一個智能導航系統(tǒng)，它可以根據(jù)貨物的重量和目的地，自動地選擇最快的交通工具和路線，從而大大節(jié)約了時間和資源。

再次，TigerBot 使用了一種叫做BF16的技術，它可以降低模型的精度要求，從而減少計算的復雜度和內存的需求。

這就像是將同等大小的山體碎塊換成了塑料或紙板，從而大大從降低運輸?shù)呢摀?/p>

借由著這些技術，虎博科技每月在訓練上的開銷，能夠節(jié)省數(shù)十萬。

這也是為什么，他們能以10人左右小團隊，在幾個月時間內實現(xiàn)“媲美”O(jiān)penAI壯舉的原因之一。

02 正向突變

除了上述提到的技術外，虎博科技在大模型方面，還運用ensemble和probabilistic modeling的方法，讓模型在創(chuàng)造性和可控性上做出了適當?shù)臋嗪狻?/p>

同時，針對中文連續(xù)性強、多義歧義情況多等問題，虎博科技通過不斷吸取開源模型和代碼中的優(yōu)點，從tokenizer到訓練算法上，都做了相應優(yōu)化。

而這些提升性能、降低成本的技術創(chuàng)新，和自然界中的生物面臨環(huán)境壓力時，所激發(fā)出的“突變”和“進化”，有著異曲同工之妙。

面對訓練大模型所需的巨量算力、數(shù)據(jù)時，實力并不強勁的中小企業(yè)，也感到了某種“演化壓力”。

為了在這場AI競賽中不被時代拋棄，部分中小企業(yè)，只能被倒逼著選擇了一種更能降本增效的技術策略。

然而，這樣的“壓力”，卻并不總是能激發(fā)正向的“突變”與“進化”，部分實力羸弱的企業(yè)，可能直接倒在了這場殘酷的大模型競爭中，還有的企業(yè)干脆選擇了投機取巧，以炒作和公關來吸引融資。

既然如此，那虎博科技是如何在這樣的壓力下，完成正向“突變”的呢？

談到這個問題，我們就不得不提起虎博科技的創(chuàng)始人兼CEO——陳燁。

某種程度上，與OpenAI的Sam Altman一樣，陳燁也是一個心懷科技理想的天才創(chuàng)業(yè)者。

在AI領域的造詣上，陳燁不僅三次獲得人工智能頂級會議（KDD和SIGIR）最佳論文獎，在人工智能和機器學習領域發(fā)表了20余篇具有業(yè)界影響的論文，并擁有10余項專利。

并且還曾在美國的微軟、eBay和Yahoo擔任主任科學家和研發(fā)總監(jiān)等職位，成功實施過多個深具業(yè)界影響力的人工智能系統(tǒng)。

而每一個對AI技術進行過深度研究的人，都明白這項技術的遠大意義。

這樣的人，如果想在AI領域干一番事業(yè)，就絕不會僅僅只是為了賺錢。

在2017年，陳燁成立了虎博科技，開始專注于NLP技術的應用落地，愿景是用AI賦能下一代搜索引擎，連接人與全球信息，讓人們獲取知識更簡單。

然而，再遠大的理想，也要有現(xiàn)實的支撐。

深諳AI技術發(fā)展路徑的陳燁明白，人工智能的進步與迭代，需要漫長的研發(fā)周期，雖然短期來看，資本市場對這類技術有著很大熱情，也產生了很多泡沫，但如果長時間未能看見實際的應用或產出，各路資本就都會紛紛人走茶涼。

面對這個問題，理性而成熟的陳燁，選擇了一條更為穩(wěn)健的道路，來堅守自己的理想。

在彼時的國內AI賽道上，智能金融成為了陳燁首先瞄準的目標。

這是因為，金融行業(yè)的運轉，往往伴隨著巨大的數(shù)據(jù)量，且與教育、醫(yī)療等行業(yè)相比，金融領域的很多數(shù)據(jù)都是公開、且易于獲取的。

于是，結合自身的NLP技術，虎博科技研發(fā)的新一代智能金融信息搜索引擎——虎博搜索誕生了。

虎博搜索的數(shù)據(jù)覆蓋了A 股、港股及美股，包括行情、公告、研報、新聞等多維度信息。

利用語義挖掘、知識圖譜、機器翻譯等核心技術，虎博搜索不僅實現(xiàn)了口語化交流問答，并且還通過精確的數(shù)據(jù)抽取，以及跨越語言的功能，從海量信息中挖掘到深層次信息，并提供了本地編輯、報告全文、溯源定位等多種功能。

而這些功能背后的深度學習、知識圖譜、文本生成等技術，都是未來大模型所必將涉及的關鍵點。

在此后的發(fā)展歷程中，虎博科技又自主研發(fā)了各大金融領域的關鍵技術，包括智能推薦、翻譯、輿情分析等，而由此積累的NLP經驗，也為后來的TigerBot的誕生夯實了工程基礎。

03 總結

縱觀TigerBot誕生的過程，我們可以發(fā)現(xiàn)，這是一個既守住了飯碗，又贏得了理想的故事。

科研出身的陳燁，有技術，也有情懷，但卻并沒有在現(xiàn)實與理想之間顧此失彼，而是以用戶需求為導向，結合自身的技術優(yōu)勢，開發(fā)出多種適用于不同場景的AI產品。在此過程中，其依據(jù)對技術前沿趨勢的敏銳洞察，逐步提高了自身的開發(fā)能力和工程化水平，從而在后來的大模型研發(fā)中，突破了主流框架中的技術難點和瓶頸。

如果說，當下的大模型競爭，是一場物競天擇的競賽，那么唯有那些在廣泛的產品和服務中，積累了足夠多技術因子的企業(yè)，才能在壓力和挑戰(zhàn)面前，完成“進化”與“突變”。

標簽：

亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

首頁

資訊

熱點

專題

地產

創(chuàng)投

教育

財經

汽車

股票

產經

金融

國內最小的大模型創(chuàng)業(yè)團隊，靠另類創(chuàng)新出位天天通訊

搶先讀

相關文章

熱文推薦

精彩放送

國內最小的大模型創(chuàng)業(yè)團隊，靠另類創(chuàng)新出位 天天通訊

搶先讀

相關文章

熱文推薦

精彩放送

國內最小的大模型創(chuàng)業(yè)團隊，靠另類創(chuàng)新出位天天通訊