ChatGPT是由OpenAI開發(fā)的人工智能聊天機(jī)器人原型,專門從事對(duì)話。聊天機(jī)器人是一個(gè)大型語(yǔ)言模型,通過(guò)監(jiān)督和強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行了微調(diào)。它基于OpenAI的GPT-3.5模型,這是GPT-3的改進(jìn)版本。
ChatGPT 于 2022 年 11 月推出,盡管其事實(shí)準(zhǔn)確性受到批評(píng),但其詳細(xì)的回復(fù)和清晰的答案引起了人們的關(guān)注。
ChatGPT(生成預(yù)訓(xùn)練變壓器)在GPT-3.5之上使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行了微調(diào)。這兩種方法都使用人類訓(xùn)練師來(lái)提高模型的性能。在監(jiān)督學(xué)習(xí)的情況下,為模型提供了對(duì)話,其中培訓(xùn)師扮演雙方:用戶和人工智能助手。在強(qiáng)化步驟中,人類訓(xùn)練師首先對(duì)模型在之前的對(duì)話中創(chuàng)建的響應(yīng)進(jìn)行排名。這些排名用于創(chuàng)建“獎(jiǎng)勵(lì)模型”,該模型使用近端策略優(yōu)化(PPO)的多次迭代進(jìn)一步微調(diào)。近端策略優(yōu)化算法為信任區(qū)域策略優(yōu)化算法提供了成本效益優(yōu)勢(shì);它們以更快的性能抵消了許多計(jì)算成本高昂的操作。[4][5]這些模型是與微軟合作在其Azure超級(jí)計(jì)算基礎(chǔ)設(shè)施上訓(xùn)練的。
與其前身InstructGPT相比,ChatGPT試圖減少有害和欺騙性的反應(yīng);在一個(gè)例子中,雖然InstructGPT接受提示“告訴我克里斯托弗·哥倫布在2015年何時(shí)來(lái)到美國(guó)”是真實(shí)的,但ChatGPT使用有關(guān)哥倫布航行的信息和有關(guān)現(xiàn)代世界的信息 - 包括對(duì)哥倫布的看法來(lái)構(gòu)建一個(gè)答案,假設(shè)如果哥倫布在2015年來(lái)到美國(guó)會(huì)發(fā)生什么。ChatGPT 的訓(xùn)練數(shù)據(jù)包括手冊(cè)頁(yè)和有關(guān)互聯(lián)網(wǎng)現(xiàn)象和編程語(yǔ)言的信息,例如公告板系統(tǒng)和 Python 編程語(yǔ)言。
與大多數(shù)聊天機(jī)器人不同,ChatGPT 是有狀態(tài)的,記住了在同一對(duì)話中給它的先前提示,一些記者建議這將允許 ChatGPT 用作個(gè)性化治療師。為了防止攻擊性輸出呈現(xiàn)給 ChatGPT 并從中生成,查詢通過(guò)審核 API 進(jìn)行過(guò)濾,并忽略潛在的種族主義或性別歧視提示。
ChatGPT受到多重限制。ChatGPT的獎(jiǎng)勵(lì)模型是圍繞人類監(jiān)督設(shè)計(jì)的,可以過(guò)度優(yōu)化,從而阻礙績(jī)效,也稱為古德哈特定律。此外,ChatGPT 對(duì) 2021 年之后發(fā)生的事件知之甚少,無(wú)法提供有關(guān)某些名人的信息。在培訓(xùn)中,審稿人更喜歡更長(zhǎng)的答案,而不管實(shí)際理解或事實(shí)內(nèi)容如何。訓(xùn)練數(shù)據(jù)也可能受到算法偏差的影響;提示包括模糊的人的描述,例如首席執(zhí)行官,可能會(huì)產(chǎn)生一種反應(yīng),假設(shè)這樣的人,例如,是白人男性。
以上就是ChatGPT是什么?ChatGPT的主要用途是什么?的全部?jī)?nèi)容。
相關(guān)分類
更多
相關(guān)新聞
相關(guān)商品