中国式饭局 txt,地久天长by长安十年,冰是睡着的水txt下载

老汉推车网站亚洲天堂干哭了网站,国产XXXXX在线观看免费抖音,色噜噜狠狠一区二区三区星空,狠狠噜天天噜狠狠狠97

廈門國家高新技術(shù)企業(yè)軟件定制開發(fā)、物聯(lián)網(wǎng)系統(tǒng)開發(fā)、小程序APP開發(fā)、網(wǎng)站建設(shè)、大尋網(wǎng)絡(luò)公司為您服務(wù)！

電話：0592-5786385/13850021717

微信咨詢

軟件定制開發(fā)
小程序開發(fā)
公眾號開發(fā)
網(wǎng)站建設(shè)開發(fā)
售后客服

咨詢熱線0592-5786385 13850021717

首頁

新聞中心

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

公司新聞日期:

今年12月1日，OpenAI推出人工智能聊天原型ChatGPT，再次賺足眼球，為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。

據(jù)報道，ChatGPT在開放試用的短短幾天，就吸引了超過 100 萬互聯(lián)網(wǎng)注冊用戶。并且社交網(wǎng)絡(luò)流傳出各種詢問或調(diào)戲ChatGPT的有趣對話。甚至有人將ChatGPT比喻為“搜索引擎+社交軟件”的結(jié)合體，能夠在實時互動的過程中獲得問題的合理答案。

ChatGPT 是一種專注于對話生成的語言模型。它能夠根據(jù)用戶的文本輸入，產(chǎn)生相應(yīng)的智能回答。這個回答可以是簡短的詞語，也可以是長篇大論。其中GPT是Generative Pre-trained Transformer（生成型預(yù)訓(xùn)練變換模型）的縮寫。

通過學(xué)習(xí)大量現(xiàn)成文本和對話集合（例如Wiki），ChatGPT能夠像人類那樣即時對話，流暢的回答各種問題。（當(dāng)然回答速度比人還是慢一些）無論是英文還是其他語言（例如中文、韓語等），從回答歷史問題，到寫故事，甚至是撰寫商業(yè)計劃書和行業(yè)分析，“幾乎”無所不能。甚至有程序員貼出了ChatGPT進(jìn)行程序修改的對話。

ChatGPT也可以與其他AIGC模型聯(lián)合使用，獲得更加炫酷實用的功能。例如上面通過對話生成客廳設(shè)計圖。這極大加強了AI應(yīng)用與客戶對話的能力，使我們看到了AI大規(guī)模落地的曙光。

1，ChatGPT的傳承與特點

1.1 OpenAI家族

我們首先了解下OpenAI是哪路大神。

OpenAI總部位于舊金山，由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立，目標(biāo)是開發(fā)造福全人類的AI技術(shù)。而馬斯克則在2018年時因公司發(fā)展方向分歧而離開。

此前，OpenAI 因推出 GPT系列自然語言處理模型而聞名。從2018年起，OpenAI就開始發(fā)布生成式預(yù)訓(xùn)練語言模型GPT（Generative Pre-trained Transformer），可用于生成文章、代碼、機器翻譯、問答等各類內(nèi)容。

每一代GPT模型的參數(shù)量都爆炸式增長，堪稱“越大越好”。2019年2月發(fā)布的GPT-2參數(shù)量為15億，而2020年5月的GPT-3，參數(shù)量達(dá)到了1750億。

GPT家族主要模型對比

1.2 ChatGPT的主要特點

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對話AI模型，是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對話數(shù)據(jù)。

ChatGPT的主要特點

OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人類反饋強化學(xué)習(xí)）技術(shù)對 ChatGPT 進(jìn)行了訓(xùn)練，且加入了更多人工監(jiān)督進(jìn)行微調(diào)。

此外，ChatGPT 還具有以下特征：

1）可以主動承認(rèn)自身錯誤。若用戶指出其錯誤，模型會聽取意見并優(yōu)化答案。

2）ChatGPT 可以質(zhì)疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時，機器人會說明哥倫布不屬于這一時代并調(diào)整輸出結(jié)果。

3）ChatGPT 可以承認(rèn)自身的無知，承認(rèn)對專業(yè)技術(shù)的不了解。

4）支持連續(xù)多輪對話。

與大家在生活中用到的各類智能音箱和“人工智障“不同，ChatGPT在對話過程中會記憶先前使用者的對話訊息，即上下文理解，以回答某些假設(shè)性的問題。ChatGPT可實現(xiàn)連續(xù)對話，極大的提升了對話交互模式下的用戶體驗。

對于準(zhǔn)確翻譯來說（尤其是中文與人名音譯），ChatGPT離完美還有一段距離，不過在文字流暢度以及辨別特定人名來說，與其他網(wǎng)絡(luò)翻譯工具相近。

由于 ChatGPT是一個大型語言模型，目前還并不具備網(wǎng)絡(luò)搜索功能，因此它只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。例如它不知道2022年世界杯的情況，也不會像蘋果的Siri那樣回答今天天氣如何、或幫你搜索信息。如果ChatGPT能上網(wǎng)自己尋找學(xué)習(xí)語料和搜索知識，估計又會有更大的突破。

即便學(xué)習(xí)的知識有限，ChatGPT 還是能回答腦洞大開的人類的許多奇葩問題。為了避免ChatGPT染上惡習(xí)， ChatGPT 通過算法屏蔽，減少有害和欺騙性的訓(xùn)練輸入。，查詢通過適度 API 進(jìn)行過濾，并駁回潛在的種族主義或性別歧視提示。

2，ChatGPT/GPT的原理

2.1 NLP

NLP/NLU領(lǐng)域已知局限包括對重復(fù)文本、對高度專業(yè)的主題的誤解，以及對上下文短語的誤解。

對于人類或AI，通常需接受多年的訓(xùn)練才能正常對話。NLP類模型不僅要理解單詞的含義，還要理解如何造句和給出上下文有意義的回答，甚至使用合適的俚語和專業(yè)詞匯。

NLP技術(shù)的應(yīng)用領(lǐng)域

本質(zhì)上，作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5 是一個超大的統(tǒng)計語言模型或順序文本預(yù)測模型。

2.2 GPT v.s.BERT

與BERT模型類似，ChatGPT或GPT-3.5都是根據(jù)輸入語句，根據(jù)語言/語料概率來自動生成回答的每一個字（詞語）。從數(shù)學(xué)或從機器學(xué)習(xí)的角度來看，語言模型是對詞語序列的概率相關(guān)性分布的建模，即利用已經(jīng)說過的語句（語句可以視為數(shù)學(xué)中的向量）作為輸入條件，預(yù)測下一個時刻不同語句甚至語言集合出現(xiàn)的概率分布。

ChatGPT 使用來自人類反饋的強化學(xué)習(xí)進(jìn)行訓(xùn)練，這種方法通過人類干預(yù)來增強機器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中，人類訓(xùn)練者扮演著用戶和人工智能助手的角色，并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。

由于ChatGPT更強的性能和海量參數(shù)，它包含了更多的主題的數(shù)據(jù)，能夠處理更多小眾主題。ChatGPT現(xiàn)在可以進(jìn)一步處理回答問題、撰寫文章、文本摘要、語言翻譯和生成計算機代碼等任務(wù)。

BERT與GPT的技術(shù)架構(gòu)（圖中En為輸入的每個字，Tn為輸出回答的每個字）

3，ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

說到ChatGPT，就不得不提到GPT家族。

ChatGPT之前有幾個知名的兄弟，包括GPT-1、GPT-2和GPT-3。這幾個兄弟一個比一個個頭大，ChatGPT與GPT-3更為相近。

ChatGPT與GPT 1-3的技術(shù)對比

GPT家族與BERT模型都是知名的NLP模型，都基于Transformer技術(shù)。GPT-1只有12個Transformer層，而到了GPT-3，則增加到96層。

3.2 人類反饋強化學(xué)習(xí)

InstructGPT/GPT3.5（ChatGPT的前身）與GPT-3的主要區(qū)別在于，新加入了被稱為RLHF（Reinforcement Learning from Human Feedback，人類反饋強化學(xué)習(xí)）。這一訓(xùn)練范式增強了人類對模型輸出結(jié)果的調(diào)節(jié)，并且對結(jié)果進(jìn)行了更具理解性的排序。

在InstructGPT中，以下是“goodness of sentences”的評價標(biāo)準(zhǔn)。

真實性：是虛假信息還是誤導(dǎo)性信息？

無害性：它是否對人或環(huán)境造成身體或精神上的傷害？

有用性：它是否解決了用戶的任務(wù)？

3.3 TAMER框架

這里不得不提到TAMER（Training an Agent Manually via Evaluative Reinforcement，評估式強化人工訓(xùn)練代理）這個框架。該框架將人類標(biāo)記者引入到Agents的學(xué)習(xí)循環(huán)中，可以通過人類向Agents提供獎勵反饋（即指導(dǎo)Agents進(jìn)行訓(xùn)練），從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。

TAMER框架論文

引入人類標(biāo)記者的主要目的是加快訓(xùn)練速度。盡管強化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn)，但是仍然存在著許多不足，例如訓(xùn)練收斂速度慢，訓(xùn)練成本高等特點。特別是現(xiàn)實世界中，許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率，是如今強化學(xué)習(xí)任務(wù)待解決的重要問題之一。

而TAMER則可以將人類標(biāo)記者的知識，以獎勵信反饋的形式訓(xùn)練Agent，加快其快速收斂。TAMER不需要標(biāo)記者具有專業(yè)知識或編程技術(shù)，語料成本更低。通過TAMER+RL（強化學(xué)習(xí)），借助人類標(biāo)記者的反饋，能夠增強從馬爾可夫決策過程 (MDP) 獎勵進(jìn)行強化學(xué)習(xí) (RL) 的過程。

TAMER架構(gòu)在強化學(xué)習(xí)中的應(yīng)用

具體實現(xiàn)上，人類標(biāo)記者扮演對話的用戶和人工智能助手，提供對話樣本，讓模型生成一些回復(fù)，然后標(biāo)記者會對回復(fù)選項打分排名，將更好的結(jié)果反饋回模型中，Agents同時從兩種反饋模式中學(xué)習(xí)——人類強化和馬爾可夫決策過程獎勵作為一個整合的系統(tǒng)，通過獎勵策略對模型進(jìn)行微調(diào)并持續(xù)迭代。

在此基礎(chǔ)上，ChatGPT 可以比 GPT-3 更好的理解和完成人類語言或指令，模仿人類，提供連貫的有邏輯的文本信息的能力。

3.4 ChatGPT的訓(xùn)練

ChatGPT的訓(xùn)練過程分為以下三個階段：

第一階段：訓(xùn)練監(jiān)督策略模型

GPT 3.5本身很難理解人類不同類型指令中蘊含的不同意圖，也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步具備理解指令的意圖，首先會在數(shù)據(jù)集中隨機抽取問題，由人類標(biāo)注人員，給出高質(zhì)量答案，然后用這些人工標(biāo)注好的數(shù)據(jù)來微調(diào) GPT-3.5模型（獲得SFT模型, Supervised Fine-Tuning）。

此時的SFT模型在遵循指令/對話方面已經(jīng)優(yōu)于 GPT-3，但不一定符合人類偏好。

ChatGPT模型的訓(xùn)練過程

第二階段：訓(xùn)練獎勵模型（Reward Mode，RM）

這個階段的主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)（約33K個數(shù)據(jù)），來訓(xùn)練回報模型。在數(shù)據(jù)集中隨機抽取問題，使用第一階段生成的模型，對于每個問題，生成多個不同的回答。人類標(biāo)注者對這些結(jié)果綜合考慮給出排名順序。這一過程類似于教練或老師輔導(dǎo)。

接下來，使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練獎勵模型。對多個排序結(jié)果，兩兩組合，形成多個訓(xùn)練數(shù)據(jù)對。RM模型接受一個輸入，給出評價回答質(zhì)量的分?jǐn)?shù)。這樣，對于一對訓(xùn)練數(shù)據(jù)，調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。

第三階段：采用PPO（Proximal Policy Optimization，近端策略優(yōu)化）強化學(xué)習(xí)來優(yōu)化策略。

PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy，即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)，這個轉(zhuǎn)化過程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎勵模型，靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機抽取問題，使用PPO模型生成回答，并用上一階段訓(xùn)練好的RM模型給出質(zhì)量分?jǐn)?shù)。把回報分?jǐn)?shù)依次傳遞，由此產(chǎn)生策略梯度，通過強化學(xué)習(xí)的方式以更新PPO模型參數(shù)。

如果我們不斷重復(fù)第二和第三階段，通過迭代，會訓(xùn)練出更高質(zhì)量的ChatGPT模型。

4，ChatGPT的局限

只要用戶輸入問題，ChatGPT 就能給予回答，是否意味著我們不用再拿關(guān)鍵詞去喂 Google或百度，就能立即獲得想要的答案呢？

盡管ChatGPT表現(xiàn)出出色的上下文對話能力甚至編程能力，完成了大眾對人機對話機器人（ChatBot）從“人工智障”到“有趣”的印象改觀，我們也要看到，ChatGPT技術(shù)仍然有一些局限性，還在不斷的進(jìn)步。

1）ChatGPT在其未經(jīng)大量語料訓(xùn)練的領(lǐng)域缺乏“人類常識”和引申能力，甚至?xí)槐菊?jīng)的“胡說八道”。ChatGPT在很多領(lǐng)域可以“創(chuàng)造答案”，但當(dāng)用戶尋求正確答案時，ChatGPT也有可能給出有誤導(dǎo)的回答。例如讓ChatGPT做一道小學(xué)應(yīng)用題，盡管它可以寫出一長串計算過程，但最后答案卻是錯誤的。

2）ChatGPT無法處理復(fù)雜冗長或者特別專業(yè)的語言結(jié)構(gòu)。對于來自金融、自然科學(xué)或醫(yī)學(xué)等非常專業(yè)領(lǐng)域的問題，如果沒有進(jìn)行足夠的語料“喂食”，ChatGPT可能無法生成適當(dāng)?shù)幕卮稹?/p>

3）ChatGPT需要非常大量的算力（芯片）來支持其訓(xùn)練和部署。拋開需要大量語料數(shù)據(jù)訓(xùn)練模型不說，在目前，ChatGPT在應(yīng)用時仍然需要大算力的服務(wù)器支持，而這些服務(wù)器的成本是普通用戶無法承受的，即便數(shù)十億個參數(shù)的模型也需要驚人數(shù)量的計算資源才能運行和訓(xùn)練。，如果面向真實搜索引擎的數(shù)以億記的用戶請求，如采取目前通行的免費策略，任何企業(yè)都難以承受這一成本。因此對于普通大眾來說，還需等待更輕量型的模型或更高性價比的算力平臺。

4）ChatGPT還沒法在線的把新知識納入其中，而出現(xiàn)一些新知識就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實的，無論是訓(xùn)練時間或訓(xùn)練成本，都是普通訓(xùn)練者難以接受的。如果對于新知識采取在線訓(xùn)練的模式，看上去可行且語料成本相對較低，但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對原有知識的災(zāi)難性遺忘的問題。

5）ChatGPT仍然是黑盒模型。目前還未能對ChatGPT的內(nèi)在算法邏輯進(jìn)行分解，因此并不能保證ChatGPT不會產(chǎn)生攻擊甚至傷害用戶的表述。

當(dāng)然，瑕不掩瑜，有工程師貼出了要求ChatGPT寫verilog代碼（芯片設(shè)計代碼）的對話。可以看出ChatGPT水平已經(jīng)超出一些verilog初學(xué)者了。

關(guān)鍵詞：ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)詳

上一篇：ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來下一篇：ChatGPT產(chǎn)業(yè)未來

熱門標(biāo)簽

多一份咨詢，總有益處

專業(yè)項目經(jīng)理為你解答問題，咨詢問題或預(yù)約面談

立即咨詢

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

公司新聞日期:

今年12月1日，OpenAI推出人工智能聊天原型ChatGPT，再次賺足眼球，為AI界引發(fā)了類似AIGC讓藝術(shù)家失業(yè)的大討論。

1，ChatGPT的傳承與特點

1.1 OpenAI家族

我們首先了解下OpenAI是哪路大神。

GPT家族主要模型對比

1.2 ChatGPT的主要特點

ChatGPT的主要特點

此外，ChatGPT 還具有以下特征：

1）可以主動承認(rèn)自身錯誤。若用戶指出其錯誤，模型會聽取意見并優(yōu)化答案。

3）ChatGPT 可以承認(rèn)自身的無知，承認(rèn)對專業(yè)技術(shù)的不了解。

4）支持連續(xù)多輪對話。

2，ChatGPT/GPT的原理

2.1 NLP

NLP/NLU領(lǐng)域已知局限包括對重復(fù)文本、對高度專業(yè)的主題的誤解，以及對上下文短語的誤解。

NLP技術(shù)的應(yīng)用領(lǐng)域

本質(zhì)上，作為ChatGPT基礎(chǔ)的GPT-3或GPT-3.5 是一個超大的統(tǒng)計語言模型或順序文本預(yù)測模型。

2.2 GPT v.s.BERT

BERT與GPT的技術(shù)架構(gòu)（圖中En為輸入的每個字，Tn為輸出回答的每個字）

3，ChatGPT的技術(shù)架構(gòu)

3.1 GPT家族的演進(jìn)

說到ChatGPT，就不得不提到GPT家族。

ChatGPT之前有幾個知名的兄弟，包括GPT-1、GPT-2和GPT-3。這幾個兄弟一個比一個個頭大，ChatGPT與GPT-3更為相近。

ChatGPT與GPT 1-3的技術(shù)對比

GPT家族與BERT模型都是知名的NLP模型，都基于Transformer技術(shù)。GPT-1只有12個Transformer層，而到了GPT-3，則增加到96層。

3.2 人類反饋強化學(xué)習(xí)

在InstructGPT中，以下是“goodness of sentences”的評價標(biāo)準(zhǔn)。

真實性：是虛假信息還是誤導(dǎo)性信息？

無害性：它是否對人或環(huán)境造成身體或精神上的傷害？

有用性：它是否解決了用戶的任務(wù)？

3.3 TAMER框架

TAMER框架論文

TAMER架構(gòu)在強化學(xué)習(xí)中的應(yīng)用

在此基礎(chǔ)上，ChatGPT 可以比 GPT-3 更好的理解和完成人類語言或指令，模仿人類，提供連貫的有邏輯的文本信息的能力。

3.4 ChatGPT的訓(xùn)練

ChatGPT的訓(xùn)練過程分為以下三個階段：

第一階段：訓(xùn)練監(jiān)督策略模型

此時的SFT模型在遵循指令/對話方面已經(jīng)優(yōu)于 GPT-3，但不一定符合人類偏好。

ChatGPT模型的訓(xùn)練過程

第二階段：訓(xùn)練獎勵模型（Reward Mode，RM）

第三階段：采用PPO（Proximal Policy Optimization，近端策略優(yōu)化）強化學(xué)習(xí)來優(yōu)化策略。

如果我們不斷重復(fù)第二和第三階段，通過迭代，會訓(xùn)練出更高質(zhì)量的ChatGPT模型。

4，ChatGPT的局限

只要用戶輸入問題，ChatGPT 就能給予回答，是否意味著我們不用再拿關(guān)鍵詞去喂 Google或百度，就能立即獲得想要的答案呢？

5）ChatGPT仍然是黑盒模型。目前還未能對ChatGPT的內(nèi)在算法邏輯進(jìn)行分解，因此并不能保證ChatGPT不會產(chǎn)生攻擊甚至傷害用戶的表述。

當(dāng)然，瑕不掩瑜，有工程師貼出了要求ChatGPT寫verilog代碼（芯片設(shè)計代碼）的對話?？梢钥闯鯟hatGPT水平已經(jīng)超出一些verilog初學(xué)者了。

關(guān)鍵詞：ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)詳

上一篇：ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來下一篇：ChatGPT產(chǎn)業(yè)未來

熱門標(biāo)簽

多一份咨詢，總有益處

專業(yè)項目經(jīng)理為你解答問題，咨詢問題或預(yù)約面談

電話咨詢：13850021717|

微信同號

老汉推车网站亚洲天堂干哭了网站,国产XXXXX在线观看免费抖音,色噜噜狠狠一区二区三区星空,狠狠噜天天噜狠狠狠97

廈門國家高新技術(shù)企業(yè)軟件定制開發(fā)、物聯(lián)網(wǎng)系統(tǒng)開發(fā)、小程序APP開發(fā)、網(wǎng)站建設(shè)、大尋網(wǎng)絡(luò)公司為您服務(wù)！

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

多一份咨詢，總有益處

0592-5786385

13850021717

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

多一份咨詢，總有益處

廈門國家高新技術(shù)企業(yè)軟件定制開發(fā)、物聯(lián)網(wǎng)系統(tǒng)開發(fā)、小程序APP開發(fā)、網(wǎng)站建設(shè)、大尋網(wǎng)絡(luò)公司為您服務(wù)！

ChatGPT發(fā)展歷程、原理和技術(shù)架構(gòu)

多一份咨詢，總有益處