大参考

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 2321|回复: 0

呙中校:OpenAI再放大招!AI喜忧参半:飞速进化的惊喜,伦...

[复制链接]
发表于 2023-3-15 21:00:30 | 显示全部楼层 |阅读模式
  在百度推出自然语言大模型“文心一言”以追赶OpenAI的ChatGPT之际,OpenAI在3月15日再放大招,对外发布众所期待的GPT-4!

  去年11月底ChatGPT的发布就已惊艳全世界,这个GPT-4还有什么能耐,将带给人们什么震撼?前不久,有人在社交媒体上公布了一张图:

  ChatGPT背后的大模型GPT3.5的参数规模是1750亿,就已经释放出惊人的能力,而下一代GPT-4拥有100万亿个参数,是GPT-3的500倍!这不仅意味着GPT-4拥有更为强大的能力,而且使语言模型在语言和逻辑方面更接近人脑。当然,只是接近,而不像某些传言所说的已经先进到“与人类无异”,甚至“通过了图灵测试”。

  不过,相比ChatGPT,GPT-4的确又有诸多令人震撼的新功能,也就是传说已久的多模态!GPT3.5还只能理解文本,而GPT-4可以同时处理文本、图像、语音和视频,也就是万物皆可输入输出!这简直要逆天了,也难怪关于媲美人脑的传言不断。

  然而,真正让人恐怖的不是AI达到的能力,而是恐怖的进化速度——2022年初OpenAI才发布GPT3.5,一年多一点时间就推出强大500倍的GPT4!

  实际上,过去一年多来AI在自然语言模型、图像生成等领域都突飞猛进,除了OpenAI公司的GPT之外,开源项目Stable Diffusion的图像生成也已成熟,一年前还只能生成不太准确的小图,但现在却可在自然语言下生成各种高清大图,进入商业化应用阶段!

  按照OpenAI公司创始人奥特曼(Sam Altman)的说法,AI正在以新的摩尔定律飞速进化……

  1、ChatGPT走红是一个意外

  奥特曼与马斯克创办OpenAI的初衷,就是担心AI会对人类构成威胁,为防患于未然,他们认为只有开放开源,大家都可看到AI代码,才能尽可能避免安全隐患。因此奥特曼与马斯克都不主张闭门训练AI算法这个方式,而是要尽可能让更多的人广泛参与,尽可能多的鼓励分享,这样就可以更容易发现AI的安全隐患。这也就是他们公司起名OpenAI的原因所在。

  后来微软投资参与OpenAI项目,OpenAI项目主要对接微软产品,因此被人批评“OpenAI成了CloseAI”。

  不过,在奥特曼的心中,让人们更安全地使用AI的初心始终没有变。GPT3.5推出后,其强大的性能让奥特曼觉得,应该让更多的人们尽快接触AI,不然,当通用人工智能(AGI)出现后,会把大家给吓着。他决定先推出一个交易的,大众化的聊天版本,让大家先适应适应。

  经过十几天的开发,OpenAI在GPT3.5的基础上加上一个UI界面,推出了ChatGPT,并在2022年11月对外发布。但是让奥特曼与OpenAI想不到的是,这个只花了十几天弄出来的对话模型,还是把大家吓着了——以前大家都还觉得AI是“人工智障”,但ChatGPT的表现惊艳,一下子就风靡全球,短短5天内注册用户超过100万,创下新纪录。

  原来,ChatGPT还只是OpenAI的小菜,主菜还是后面的GPT-4!

  不过,由于全球用户蜂拥而入,争相和ChatGPT聊骚,对OpenAI的GPU构成极大压力,服务过程中几次宕机,为此OpenAI不得已限流,以留出足够的GPU来训练GPT-4。

  GPT-4到底有哪些神奇功能呢?

  据微软德国首席技术官安德烈亚斯布劳恩所说,GPT-4多模态是基于微软之前的工作 Kosmos-1,因此GPT-4可以:

  1、多模式聊天:也就是就图片进行对话。

  2、广泛的视觉理解能力,如字幕、视觉问答、物体检测、场景布局、常识推理等。

  3、无 OCR 阅读理解:输入屏幕截图、扫描文档、路牌或任何包含文本的像素,AI都可以理解,而不像以前那样需要通过OCR识别后来处理。

  4、视觉智商测试;

  5、音频和语音识别。

  值得注意的是,现在,GPT-4还只对Plus等特别用户开放。GPT-4最终能发挥多大效用,还取决于使用者的水平。诸多的功能隐藏其后,恐怕就是连它的开发者都会想不到。而且GPT-4的功能是逐步开放的,其后续效应都难以评估。

  对中文用户来说,GPT-4的到来也是一个好消息。在ChatGPT聊天中,中国用户已经感觉到GPT对中国历史文化很无知,有时候甚至胡编乱造,比如“商朝是商鞅带领农民起义而建立”,等等。这是因为,GPT3.5主要以英文语料进行训练,中文训练严重不足导致。不过GPT-4有了很大改观,其中文回复水平可以达到GPT3.5的英文水准。

  2、图片生成狂飙突进

  相比于文本生成还只有OpenAI一家独秀,图片生成领域在过去一年狂飙突进,刚开始还只是精度不高的小图片,而且多数时候不准确,但一年之内就可准确根据文本提示生成高清大图!而且,技术门槛大幅降低,个人都可以训练自己的模型,从而开辟了落地应用的商业化可能。更重要的是,图片生成领域现在百花齐放,以Midjourney、Stable diffusion、OpenAI的DALLE-2、谷歌的imagen等项目处在前列,而且各自都有不同程度的商业化。其中,最值得一提的是开源项目Stable diffusion,因为开源、开放,从而吸引众多开发者争相投入,从而使图片生成技术狂飙突进。

  回顾一下AI图片生成的技术发展史,我们不得不感慨开源、开放生态的强大力量。

  文图生成技术的研究开始于2010年中期,伴随着深度学习技术的发展而进步。不过此后十年发展都非常缓慢,直到2020年UC 伯克利的Pieter Abbeel 等人提出去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM),在图像生成方面击败了 GAN,向世界展示了扩散模型的威力,扩散模型从此开始百花齐放。

  这一年,OpenAl 团队发布了 GPT-3 模型,也就是ChatGPT的前身——一种多模态的全能型大型语言模型,其中 DALL·E可以被视为将transformer功能自然扩展到计算机视觉领域。在 DALL·E 发表的同时,OpenAI 团队提出了一种图像和文本链接的解决方案,称为 CLIP。简而言之,CLIP 提供了一种将文本片段与其图像表示配对的可靠方法。那时候DALL·E 文生图不太准确,生成图片的精度也不高,但是激起市场强烈的兴趣。

  这段时间内基于Diffusion的图像生成出现多种路线。首先是2022年2月,Disco Diffusion的AI图像生成程序爆火,该程序可以根据描述的场景关键词渲染对应的图片。Disco Diffusion可以生成一些有氛围感的图片,但还无法生成精致的人脸。其次是MidJourney在4月内测,MidJourney也是使用扩散模型。Disco Diffusion和MidJourney显示了扩散模型在图片生成中的良好适用性。

  当然,OpenAI也没闲着,在MidJourney内测的时候,发布了新模型DALL-E 2,命名来源于著名画家Dali和机器人总动员Wall-E,同样支持Text-to-Image。相比Disco Diffusion,DALL-E 2可以非常清晰的画出人脸了。接着,谷歌在5月推出模型Imagen和Parti。

  而让图片生成技术大众化的技术出现在6月。2022年6月召开的CPRV会议发布一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。这篇论文提出的模型可在多任务上均有较好的表现,同时显著降低计算成本,直接推动了Stable Diffusion的诞生。

  2022年3月,超大规模图文数据集LAION-5B发布,包含有 58.5 亿个 CLIP过滤的图像-文本对的数据集。创建这一数据集的资助者是 Doodlebot、Hugging Face 和 Stability AI。Stable Diffusion 模型最初就是在 LAION-5B 的一个大子集上训练的。

  不到一个月,基于LAION-5B的文本-图像生成模型Stable Diffusion发布,并宣布建立完全开源生态。Stable Diffusion在创作的精致程度和作画速度上更上了一个新的台阶,AIGC落地门槛降低,在全球掀起AIGC热潮,各种应用层出不穷。

  Stable Diffusion在短短2-3个月内取得如此大的进展,与其开源生态密不可分。首先,Runway公司是Stable Diffusion算法的研究者之一。其次,LAION-5B 是Stable Diffusion数据集的提供者。任何AI系统想要获得好的效果,都需要高质量的数据集。最后,Stability AI 公司提供了Stable Diffusion模型训练的重要算力,就像微软给OpenAI提供算力一样。

  2022年8月,游戏设计师杰森 ·艾伦(Jason Allen)  利用AI绘图工具Midjourney生成AIGC 绘画作品《太空歌剧院》, 获得   “数字艺术/数字修饰照片”类别一等奖。Midjourney在数字艺术圈大火。

  8月30日,谷歌发布基于自家imagen模型研发的dreambooth。Stable Diffusion聚焦于用文本生成创意图片,Dreambooth则聚焦于有条件限制地“改造”图片,二次元宅男们把这两个开源产品一捣鼓,很快就搞出了一个可以将Stable Diffusion和Dreambooth结合使用的新工具,生成的真人照片以假乱真。

  至此,Stable Diffusion、DALL-E 2、MidJourney成为2022年AI生图的三座大山,引起了各种人群包括开发者、艺术家、美术工作者等等的兴趣、尝试和争论。其中,Stable Diffusion的开源和简单的过滤器功能,使其具有走向大众化的潜质,因此把Text-to-Image的热点和争议推向了高潮。

  Stable Diffusion的潜质吸引了投资者注意。2022年10月17日,英国开源人工智能公司Stability AI宣布获得1.01亿美元融资。同月,Runway公司踢开Stability AI,官宣发布了 Stable Diffusion v1.5,同时还把模型权重放到了 Hugging Face 的平台上。两家公司直接开撕。

  3、二次元宅男推动技术进步

  2022年11月是一个值得纪念的时间点。这个月底,OpenAI发布划时代的ChatGPT,AI热点转移到AI聊天。而Stable Diffusion 2.0也在这个月发布。2.0使用全新的文本编码器(**OpenCLIP**)训练文本到图像模型,这大大提高了生成图像的质量。

  各种图片生成技术虽然很成熟,但训练成本普遍很高,GPU烧起来吓死人,没有钱,一般的公司根本玩不起。好在2022年底,韩国科学技术院KAIST一位研究员@cloneofsimo与HuggingFace合作,将微软2021年推出的大语言模型微调技术LoRA扩展到Stable Diffusion上,不仅实现了单块11GB显存的RTX2080Ti实现模型完整微调,同时原始模型权重冻结,新训练出来的权重可以保存为3MB大小的单个文件发布。这项技术的创新应用在AI生图领域具有两大意义:

  1、首次被AI绘画爱好者用来让模型固定生成一个物体,以前AI画图生成的面孔是随机的,但是LoRA可以固定一个人物面孔,也就是可以一次性生成同一人物多张图片。

  2、AI生图门槛降低,现在用6GB的显卡也可以LoRA微调了。

  有了dreambooth和LoRA技术,各种图像训练模型纷纷冒出,尤其是二次元宅男爱好者,反复鼓捣这些技术,结果是模型质量大幅提高。2023年2月初,日本创作者的ChilloutMix模型出现在C站(分享社区CivitAI)不到两周时间,下载数量超过5万。ChilloutMix基于许多衍生模型合并(Merge)而来,专攻逼真的纹理和亚洲脸型,擅长半写实的“2.5D风格”。Chilloutmix+LoRA成为亚洲地区涩图爱好者的快乐圣典。

  2023年2月13日,情人节前一天,AI生图商业化的最后一块拼图由一个在斯坦福大学读博士的中国人完成。他叫张吕敏,在这一天发布一款叫ControlNet的SD插件,极大满足了广大爱好者在情人节里单相思的需要。这款插件在短短的两天内成为了AI绘画领域最新的热点。

  ControlNet的出现不仅提高了AI的成像质量和绘画精度、速度,同时也赋予了AI创作的可控性,让它可以广泛应用于艺术创作、游戏开发、室内设计和广告制作等领域。因此,AIGC(图片)工业化的最后关键环节让ControlNet补全了。在此之前,开发者们尝试过很多方法来让AI生成的结果尽可能符合要求,但效果都不理想。而ControlNet比之前的img2img更加精准有效,它可以直接提取画面的构图、人物的姿势和画面的深度等信息。有了它的帮助,创作者再也不需要频繁地使用提示词抽卡式地创作,而可以更加自如地掌控创作过程。

  现在,基于Stable Diffusion的各种模型,生成的真人照片可以以假乱真,已经让人担心道德伦理及法律问题。有人利用明星照片训练AI,然后生成高精度的岛国风图片,已经有侵犯肖像权、亵渎他人的问题。ChilloutMix的日本作者感到其中的法律风险,一度撤下来他训练好的模型。但是,魔盒已经打开,我们从心理上、法律上都已经准备好了吗?

  奥特曼等人创建OpenAI公司,试图以AI来解决AI的问题,但是AI进化速度之恐怖,恐怕是他自己也没想到的。

  不管怎样,未来已来,来的不仅仅是AI。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则




QQ|手机版|小黑屋|大参考

GMT+8, 2025-6-27 02:32 , Processed in 0.422097 second(s), 16 queries .

 

Powered by 大参考 X3.4 © 2001-2023 dacankao.com

豫公网安备41010502003328号

  豫ICP备17029791号-1

 
快速回复 返回顶部 返回列表