ChatGPT是由OpenAI開發(fā)的人工智能聊天機器人原型,專門從事對話。聊天機器人是一個大型語言模型,通過監(jiān)督和強化學(xué)習(xí)技術(shù)進行了微調(diào)。它基于OpenAI的GPT-3.5模型,這是GPT-3的改進版本。
ChatGPT 于 2022 年 11 月推出,盡管其事實準(zhǔn)確性受到批評,但其詳細的回復(fù)和清晰的答案引起了人們的關(guān)注。
ChatGPT(生成預(yù)訓(xùn)練變壓器)在GPT-3.5之上使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)進行了微調(diào)。這兩種方法都使用人類訓(xùn)練師來提高模型的性能。在監(jiān)督學(xué)習(xí)的情況下,為模型提供了對話,其中培訓(xùn)師扮演雙方:用戶和人工智能助手。在強化步驟中,人類訓(xùn)練師首先對模型在之前的對話中創(chuàng)建的響應(yīng)進行排名。這些排名用于創(chuàng)建“獎勵模型”,該模型使用近端策略優(yōu)化(PPO)的多次迭代進一步微調(diào)。近端策略優(yōu)化算法為信任區(qū)域策略優(yōu)化算法提供了成本效益優(yōu)勢;它們以更快的性能抵消了許多計算成本高昂的操作。[4][5]這些模型是與微軟合作在其Azure超級計算基礎(chǔ)設(shè)施上訓(xùn)練的。
與其前身InstructGPT相比,ChatGPT試圖減少有害和欺騙性的反應(yīng);在一個例子中,雖然InstructGPT接受提示“告訴我克里斯托弗·哥倫布在2015年何時來到美國”是真實的,但ChatGPT使用有關(guān)哥倫布航行的信息和有關(guān)現(xiàn)代世界的信息 - 包括對哥倫布的看法來構(gòu)建一個答案,假設(shè)如果哥倫布在2015年來到美國會發(fā)生什么。ChatGPT 的訓(xùn)練數(shù)據(jù)包括手冊頁和有關(guān)互聯(lián)網(wǎng)現(xiàn)象和編程語言的信息,例如公告板系統(tǒng)和 Python 編程語言。
與大多數(shù)聊天機器人不同,ChatGPT 是有狀態(tài)的,記住了在同一對話中給它的先前提示,一些記者建議這將允許 ChatGPT 用作個性化治療師。為了防止攻擊性輸出呈現(xiàn)給 ChatGPT 并從中生成,查詢通過審核 API 進行過濾,并忽略潛在的種族主義或性別歧視提示。
ChatGPT受到多重限制。ChatGPT的獎勵模型是圍繞人類監(jiān)督設(shè)計的,可以過度優(yōu)化,從而阻礙績效,也稱為古德哈特定律。此外,ChatGPT 對 2021 年之后發(fā)生的事件知之甚少,無法提供有關(guān)某些名人的信息。在培訓(xùn)中,審稿人更喜歡更長的答案,而不管實際理解或事實內(nèi)容如何。訓(xùn)練數(shù)據(jù)也可能受到算法偏差的影響;提示包括模糊的人的描述,例如首席執(zhí)行官,可能會產(chǎn)生一種反應(yīng),假設(shè)這樣的人,例如,是白人男性。
以上就是ChatGPT是什么?ChatGPT的主要用途是什么?的全部內(nèi)容。
相關(guān)分類
更多
相關(guān)新聞
相關(guān)商品