"> ">
(一)大模型簡(jiǎn)介 大模型,全稱(chēng)大型語(yǔ)言模型(Large Language Model,LLM),指具有龐大參 數(shù)規(guī)模和較高復(fù)雜程度的機(jī)器學(xué)習(xí)模型,通常具有數(shù)十億到數(shù)萬(wàn)億的參數(shù)量。 大模型的設(shè)計(jì)和訓(xùn)練旨在提供更強(qiáng)大、更準(zhǔn)確的模型性能,以處理更龐大、更 復(fù)雜的數(shù)據(jù)集或任務(wù)。大模型通常能夠?qū)W習(xí)到更細(xì)微的模式和規(guī)律,具有更強(qiáng) 的表達(dá)能力和泛化能力。大模型需要大量的計(jì)算資源和存儲(chǔ)空間,并且往往需 要進(jìn)行分布式計(jì)算和特殊的硬件加速技術(shù)。 自2019年以來(lái),國(guó)內(nèi)外知名AI科技公司先后在大模型領(lǐng)域有所布局。 OpenAI、谷歌、Meta、百度、阿里、科大訊飛、百川智能等國(guó)際、國(guó)內(nèi)科技公 司迅速開(kāi)發(fā)迭代多版大模型,掀起了大模型的發(fā)展熱潮??萍脊炯娂娀谧?身大模型推出一系列生成式 AI 應(yīng)用,并對(duì)外提供 API 接口。更多的創(chuàng)業(yè)公司、 科研機(jī)構(gòu)和新的科技廠商涌入該市場(chǎng),發(fā)布相關(guān)的產(chǎn)品服務(wù),拉開(kāi)了通用人工 智能(AGI)的發(fā)展序幕。
(二)訓(xùn)練流程 大模型的參數(shù)是在大量文本數(shù)據(jù)上訓(xùn)練得到的。大模型具有與小規(guī)模預(yù)訓(xùn) 練模型類(lèi)似的模型架構(gòu)(Transformer)和預(yù)訓(xùn)練目標(biāo)(語(yǔ)言建模),但是,大模 型在很大程度上擴(kuò)展了模型大小、預(yù)訓(xùn)練數(shù)據(jù)量及總體計(jì)算量。 GPT 系列模型的訓(xùn)練流程可粗略分為四個(gè)階段:預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。(1)預(yù)訓(xùn)練(Pretraining):讓模型通過(guò)自監(jiān)督學(xué)習(xí)的方式,從大規(guī)模文本 數(shù)據(jù)中獲得與具體任務(wù)無(wú)關(guān)的知識(shí)和語(yǔ)言能力,得到一個(gè)基礎(chǔ)模型。 (2)有監(jiān)督微調(diào)(Supervised Fine-Tune,SFT):根據(jù)標(biāo)注的有監(jiān)督微調(diào) 數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行有監(jiān)督的微調(diào),得到SFT模型。 (3)獎(jiǎng)勵(lì)建模(Reward Modeling,RM):收集人工標(biāo)注的對(duì)比數(shù)據(jù),訓(xùn)練 獎(jiǎng)勵(lì)模型。 (4)強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL):基于獎(jiǎng)勵(lì)模型,使用近 端策略?xún)?yōu)化(Proximal Policy Optimization,PPO)算法進(jìn)行強(qiáng)化學(xué)習(xí),得到RL 模型。 (三)能力增強(qiáng) 大模型具有強(qiáng)大的內(nèi)容生成能力和語(yǔ)言理解能力,同時(shí),大模型有較為全 面的技術(shù)生態(tài),可以通過(guò)工具、技巧進(jìn)行能力擴(kuò)展。 1. 推理能力:思維鏈(CoT) 思維鏈(CoT)是一種經(jīng)過(guò)改進(jìn)的prompt策略,可有效地提升大模型在復(fù)雜推理任務(wù)中的表現(xiàn),包括常識(shí)推理、算數(shù)推理和符號(hào)推理。思維鏈不是簡(jiǎn)單地 使用“輸入—輸出”對(duì)來(lái)構(gòu)建prompt,而是將產(chǎn)生最終輸出的中間推理步驟加入 prompt,大幅激發(fā)了大模型解決復(fù)雜推理任務(wù)的能力。 2. 行動(dòng)力:插件(Plugin) 行動(dòng)力的增強(qiáng)主要體現(xiàn)在以插件(Plugin)技術(shù)為代表的工具利用。大模型 的本質(zhì)是基于大規(guī)模文本語(yǔ)料訓(xùn)練的文本生成模型,大模型在數(shù)值計(jì)算、實(shí)時(shí) 信息檢索等非文本生成型任務(wù)上表現(xiàn)不佳。針對(duì)該問(wèn)題,業(yè)界使用外部工具來(lái) 彌補(bǔ)大模型能力的不足。例如,使用外部計(jì)算器進(jìn)行精確的數(shù)學(xué)運(yùn)算,使用搜 索引擎實(shí)現(xiàn)實(shí)時(shí)信息檢索。ChatGPT是利用外部的插件體系來(lái)擴(kuò)充大模型的能 力,為大模型“智慧的大腦”加上“靈巧的雙手”,提升了大模型的知識(shí)面廣 度、數(shù)據(jù)實(shí)時(shí)性及業(yè)務(wù)執(zhí)行力。
全國(guó)統(tǒng)一客服熱線 :400-000-1696 客服時(shí)間:8:30-22:30 杭州澄微網(wǎng)絡(luò)科技有限公司版權(quán)所有 法律顧問(wèn):浙江君度律師事務(wù)所 劉玉軍律師
萬(wàn)一網(wǎng)-保險(xiǎn)資料下載門(mén)戶(hù)網(wǎng)站 浙ICP備11003596號(hào)-4 浙公網(wǎng)安備 33040202000163號(hào)