电脑基础 · 2023年4月3日

OpenAI GPT-4震撼发布:多模态大模型

OpenAI GPT-4震撼发布:多模态大模型

    • 发布要点
    • GPT4的新功能
      • GPT-4:我能玩梗图
      • GPT4:理解图片
      • GPT4:识别与解析图片内容
      • 怎样面对GPT4
    • 申请 GPT-4 API

前言:
🏠个人主页:以山河作礼。
📝​📝:本文章是帮助大家更加了解GPT4,一起见证Al的成长!
🎈🎈欢迎大家一起学习,一起成长!!

3 月 14 日晚间,OpenAI 宣布发布 GPT-4。
OpenAI GPT-4震撼发布:多模态大模型

“我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平”,OpenAI 表示。

发布要点

  • GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。
  • GPT-4在各种专业和学术基准上的表现达到 “人类水平”。例如,它通过了模拟的律师考试,分数约为应试者的前10%。
  • OpenAI花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了
    “史上最佳结果”。
  • 在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
  • GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning
    Cable适配器(下文有图片)。
  • 图像理解能力还没有向所有OpenAI的客户开发,OpenAI正在与合作伙伴Be My Eyes进行测试。
  • OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。
  • 开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。

OpenAI 联合创始人 Sam Altman 表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。

GPT4的新功能

GPT-4:我能玩梗图

OpenAI GPT-4震撼发布:多模态大模型
首先,看图能力可以用来解释表情包、梗图。
提问这张图哪里好笑?GPT-4可以按顺序描述出每一格的内容,并总结出笑点:

为什么这张图片很可笑?GPT-4 回答道,VGA 线充 iPhone。

GPT4:理解图片

当你给 GPT-4 发送下面这张图片,并询问它,该图片有哪些不寻常的地方?
OpenAI GPT-4震撼发布:多模态大模型
GPT-4 回答:这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

OpenAI GPT-4震撼发布:多模态大模型

(看图)手套掉下去会怎样?

GPT-4 回答道,它会掉到木板上,并且球会被弹飞

OpenAI GPT-4震撼发布:多模态大模型

拍一张照片上传给GPT-4,它就可以立马生成网站的HTML代码!
OpenAI GPT-4震撼发布:多模态大模型

GPT4:识别与解析图片内容

在性能表现上,OpenAI直接甩出一句话:

在各种专业和学术基准上和人类相当!

最近这几个月,ChatGPT 的爆火,让人们惊叹于人工智能强大的聊天能力。GPT4 出来后,可以看到,在聊天之外,人工智能的能力已不断扩展其外延。

ChatGPT 用的语言模型是 GPT-3.5。在谈到 GPT-4 比前一个版本强大在哪里时,OpenAI
称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4
更可靠、更有创意,并且能够处理更细微的指令。该公司表示,GPT-4 响应禁止内容请求的可能性比其前一个版本低 82%。OpenAI
表示,在内部评估中,GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且 GPT-4 是多模态的,同时支持文本和图像输入功能。此外,GPT-4 比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行成本更高。
OpenAI 称它使用了微软 Azure 来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

史上最强大模型

  1. 正如之前传言,GPT-4确实拥有多模态能力,可以接受图像输入并理解图像内容。
  2. 并且可接受的文字输入长度也增加到3.2万个token(约2.4万单词)。
  3. 升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。
  4. 比如模拟律师考试,GPT-4取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。
  5. 做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800)。

怎样面对GPT4

GPT-4 再次给我们敲响了警钟:拥有如此强大的编程能力,AI 真的会取代程序员?

前段时间,前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 还曾对此发出断言,表示“生成式 AI 将在 3 年内终结编程”,放在当下来看,也许 Welsh 所言非虚。

Welsh 认为,由于 ChatGPT 和 Copilot
等技术的出现,编程正处于从人类工作转变为机器人工作的转折点。在他看来,程序员需要演变成 AI
程序的“老师”——或者产品经理,或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去,因为机器正在取代这个角色。”Welsh说道。

也许我们正处于一个动荡的周期之中,现在的问题不是会不会被取代,而是 AI 将在多大程度上改变软件行业,而我们也需要为未来做好准备:现在就必须习惯人工智能,毕竟让 AI 帮助我们编程就在不远的未来。

OpenAI GPT-4震撼发布:多模态大模型

申请 GPT-4 API

目前,OpenAI 已面向开发者开放 GPT-4 API 的申请通道,大家想提前使用的话,可以先提交申请,进入 waitlist 中等待通过。
OpenAI GPT-4震撼发布:多模态大模型

申请通道:https://openai.com/waitlist/gpt-4-api
获得访问权限后,用户当前还是只能向 GPT-4 模型发出纯文本请求,图像请求可能得等稍晚一些时间才对外开放。

OpenAI GPT-4震撼发布:多模态大模型