原文链接:https://www.toutiao.com/article/7197292547457303073
原创:boomTec
GPT (Generative Pretrained Transformer) 是 OpenAI 公司在 2018 年推出的一种大型语言模型,其前世今生如下:
来源:GPT 是基于 Transformer 架构,Transformer 是 Google 在 2017 年提出的一种深度学习模型,用于处理序列数据,GPT 则在此基础上加以改进。
构成:GPT 是一种多层的神经网络,由多个 Transformer 层堆叠而成。它的核心组成部分是词嵌入层、位置编码层、多头注意力层以及前馈网络层。
前世今生:GPT 系列的第一代模型 GPT-1 在 2018 年推出,其后继者 GPT-2 在 2019 年推出,并引起了广泛的关注和争议,因为它的语言生成能力非常强,甚至能够生成看似合理的文本。随后,OpenAI 又推出了 GPT-3,这是目前世界上最大的语言模型,也是目前最先进的语言生成技术。
从大家熟知的GAN角度出发,两者的关系如下:
首先,GPT (Generative Pretrained Transformer) 和 GAN (Generative Adversarial Network) 是两种不同的生成模型。
其次,GPT 是一种预训练语言模型,它通过学习大量语料库的语法和语义,然后生成文本。它的构建基于 Transformer 架构,是一种非常先进的语言生成技术。
GAN 则是一种生成对抗网络,它由两部分组成:生成器和判别器。生成器的任务是生成新的样本,而判别器的任务是识别真实样本和生成样本。生成器和判别器在一个对抗的过程中逐步优化,最终生成器可以生成与真实样本相似的数据。
因此,GPT 和 GAN 是不同的生成模型,前者是预训练语言模型,后者是生成对抗网络。
从用法上讲,两者也有区别:
GAN (Generative Adversarial Network) 的主要用途有以下几点:
生成图像:GAN 可以生成与真实图像相似的图像,并可用于许多图像生成任务,如人脸生成、艺术品生成等。
- 超分辨率重建:GAN 可以通过将低分辨率图像转换为高分辨率图像,从而进行超分辨率重建。
- 缺失数据修复:GAN 可以通过生成缺失数据的补充部分,从而修复缺失数据。
- 降噪:GAN 可以通过学习真实数据的特征,从而降低噪声。
- 图像分类:GAN 可以用于图像分类任务,如将图像分类为狗、猫等不同的类别。
- 以上是 GAN 的主要用途,但它还有其他应用,如音频生成、语音生成等。
GPT (Generative Pretrained Transformer)的主要用途有以下几点:
- 自然语言生成:GPT 可以生成与人类语言相似的文本,如对话生成、文本生成等。
- 文本分类:GPT 可以用于文本分类任务,如将文本分类为科技、体育等不同的类别。
- 语言翻译:GPT 可以用于语言翻译,将一种语言翻译成另一种语言。
- 文本摘要:GPT 可以用于生成文本摘要,将长篇文本缩短成简要的摘要。
- 文本问答:GPT 可以用于文本问答,根据文本中的信息回答用户的问题。
以上是 GPT 的主要用途,但它还有其他应用,如命名实体识别、情感分析等。
GPT与Web3.0结合优势
2022年3月17日,中国证监会科技监管局局长姚前在《中国金融》发表文章《Web3.0:渐行渐近的新一代互联网》。文中指出,如今互联网正处在Web2.0向Web3.0演进的重要时点,加强Web3.0前瞻研究和战略预判,对我国未来互联网基础设施建设无疑具有重要意义。
智能生态网络IEN(Intelligent Eco Networking)是一种知识驱动的未来价值互联网新型架构方案,由北京大学深圳研究生院《深圳市内容中心网络与区块链重点实验室ICNLAB》主任雷凯团队在2018年IEEE HotICN国际会议上首次提出。IEN基于虚拟化、可编程设备、软硬结合的技术路线,改进信息中心网络构架构,综合分布式人工智能分析决策与区块链共识计算技术,考量存储、计算与带宽网络资源成本/效益指标,构建层次化、智能化、语义化的新型智联网络先进构架。
在GPT的应用方面,Web3.0可以通过将GPT与区块链技术结合,实现去中心化的语言生成和自然语言处理应用,以确保用户数据隐私和安全。
Web3.0的智能合约功能还可以使GPT与其他去中心化应用集成,以实现更广泛的应用场景。例如,在语音合成应用中,智能合约可以记录每个生成的语音样本,并确保所有样本都是公平和透明的,从而实现更安全和可靠的服务。
Web3.0的区块链和去中心化应用技术可以为GPT的应用提供更多的机会和可能性,以更好地满足用户需求并提高技术的可持续性。
因此,无论是区块链、NFT、元宇宙、Web 3.0,还是最近备受关注的GPT,技术的成熟、产业的落地都还有比较长的路要走。技术及应用的生态建设是其中最关键的关键,需求驱动、场景对齐。
当前亟需统一产业共识,探索技术集成方法,破解分布式身份认证、跨生态互联互通、数字资产流通、数字内容治理等焦点问题,加强区块链、人工智能、人机交互、物联网等多技术创新融合。利用新技术升级传统产业基础设施,建立工业元宇宙、城市元宇宙、金融元宇宙等创新型商业生态。
北京大学深圳研究生院ICNLAB实验室研究命名数据网络近13年,拥有20多个授权专利(包括2个美国专利),近年重点研究落在区块链相结合的新型网络架构设计上,聚焦前沿性高可信数算网融合网络基础架构探索,参与了国家重点示范项目“区块链+贸易金融”的物流联盟链项目,2020年承担了第一批广东省重点研发专项《自主可控的联盟区块链关键技术研究》,重点研发支持国产密码体系的自主可控联盟链平台并完成应用示范。
实验室团队一直持续专注于IEN架构的拓展深入,开源了IEN代码,先后迭代3个重要版本。IEN融合区块链、AI和5G网络技术优势为一体,面向Web3.0将呈现的分布式商业模式,提供价值数据内容权益治理的基础协议,助力跨地域、碳中和的“东数西算”市场形态,推动云、链、算、数、网集成为下一代互联网“新型网络体系结构与技术ICENAT”的发展。
“智能生态网络IEN”初心为磐,持续踔厉奋发、砥砺前行。注重科技伦理治理,研判隐私保护、技术歧视、算法绑架、非法集资等相关风险,制定金融服务管理、内容和资产合规监管、数字版权保护和用户在线权益保障等策略,推动形成可监督、有活力、可推广的技术与市场双轮联动共享共治机制。
相关阅读:
Web3.0 商业模式 — 智能生态网络IEN – IEN-“Intelligent Eco Networking” (ienlab.com)