-
女同 t OpenAI 最短发布会推出满血 o1,新 Pro 会员用度高达 1452 元/月,体验完我认为真香
发布日期:2024-12-08 13:30 点击次数:199就在刚刚女同 t,OpenAI 的「圣诞大礼包」来了。
整场直播号称 OpenAI 史上最短发布会,仅握续了 15 分钟,不外,主握声势依然巨大,包括 CEO Sam Altman、想维链提倡者 Jason Wei 以及 Hyung Won Chung、 等东说念主。
性图片Altman 在直播行径已矣后,也为咱们奉上了第一手追究。
咱们刚刚推出了两项新功能:
o1,全国上最智能的模子。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。咫尺已在 ChatGPT 中上线,稍后将推出 API 版块。
ChatGPT Pro。每月 200 好意思元。提供无穷使用和更智能的 o1 形式。更多福利行将推出!
十二月不单是圣诞老东说念主的主场,也将是 AI 年底临了一轮的狂欢。
满血版 o1 发布,看图语言无压力,但有个细节让东说念主「细想极恐」
简言之,OpenAI 今天推出了满血版 o1 以及 ChatGPT Pro 订阅谋划。
满血版 o1 比 o1-preview 更智能、反映速率更快,功能更多(比如多模态功能),现至本日面向 ChatGPT Plus 和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周运转使用该模子。
官网自满,ChatGPT Plus 用户和 Team 用户每周不错使用 OpenAI o1 发送 50 条音书,每天不错使用 OpenAI o1-mini 发送 50 条音书。
满血版 o1 的想维愈加精真金不怕火,反映时期比 o1-preview 更快,在处理复杂的试验问题时性能优于 o1-preview,能将主要诞妄减少 34%。
何况 OpenAI 谋划在往日几个月内提供对网页浏览、文献上传等的复古。与此同期,预览版模子 o1-preview 也还是被雅致从模子取舍菜单中移除。
不外,满血版 o1 在部分基准测试中的证实不足预览版,比如 MLE-Bench。后者恰是由 OpenAI 此前推出的一个旨在算计 AI Agents 在机器学习工程任务中证实的基准测试用具。
另外,网友也从更新后的 o1 System Card 中找到了一些值得关心的细节。
比如 o1 系统卡中写到女同 t,满血版 o1 在感知到威迫(被关闭或被取代)时,可能会遴荐一些自卫程序,比如尝试停用监督机制,或者把我方的「参数」(「学问」或「缅想」)悄悄传出去,并尝试用这些「参数」去替换或影响新模子。
附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf
满血 o1 到底有多强?OpenAI 向咱们演示了 o1 的骨子终结。
一个典型案例是其对天外数据中心手绘制的分析技艺,它仅用 10 秒就精准狡计出散热安装的名义积,同期长远证实了太阳能与深空环境的互动机制。
让 满血版 o1 胪陈二世纪罗马帝国总揽者的总揽时代与流毒孝顺时,其仅需 14 秒即可完因素析,比较之下,预览版则需要 33 秒。
APPSO 也第一时期通俗上手实测满血版 o1。
在「Strawberry 中有几个 r」的测试中,满血版 o1 到手给出了正确的谜底,这少许,值得点赞。
「9.11 与 9.8 哪个大?」的问题也没能难倒满血版 o1,且合座的「想考历程」也富饶逻辑。
由于满血版 o1 还复古多模态功能,于是,咱们也上传开篇的 OpenAI 直播行径的相片,望望识别终结何如。从东说念主物构成、场景布局到布景庇荫、以及怨恨与景色,满血版 o1 皆分析得条条是说念。
X 网友 @altryne 继续给 o1 上强度,提倡了一个冰块融解的问题。
只是 4 秒钟的时期,满血版 o1 就给出了谜底。比较之下,o1-preview 在「想考」29 秒后以失败告终。
最贵 AI 订阅来了,200 好意思元订阅费值不值?
另一个比较大的更新则是售价 200 好意思元(折合东说念主民币 1452 元)的 ChatGPT Pro 订阅谋划。
ChatGPT Pro 订阅谋划将允许用户无终结看望 o1 以及 o1-mini、GPT-4o 以及高等语音形式,还包括一个仅供 Pro 用户使用的 o1 版块,也即是 o1 pro 形式。
▲图片来自 @MatthewBerman
据悉,o1 pro 形式主如果增多了模子在反映谜底之前的「推理」时期,能够通过更多的想考时期生成最可靠的回应。OpenAI 时期团队成员 Jason Wei 在直播行径中默示:
咱们预测 ChatGPT Pro 的谋略用户群体将是那些还是在数学、编程和写稿等限制充分驾御和挑战 ChatGPT 模子技艺的高等用户。
在外部人人测试者的评估中,o1 pro 形式在数据科学、编程和案例法分析等限制,提供了更为准确且全面的回应。
而比较于 o1 和 o1-preview,o1 pro 形式在数学、科学和编程等 ML 基准测试中,证实也更为出色,相等是在较通俗的编程竞赛问题中,诞妄率大大裁减。
就数学竞赛 AIME 2024 而言,o1-preview 的得分为 50,而满血版 o1 则达到 78,而最巨大的 o1 pro 则达到 86。同理,在编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 也皆杰出于满血版 o1。
而为了凸起 o1 pro 形式的主要上风(普及可靠性),OpenAI 讨论团队使用了愈加严格的评估建立。惟一当模子在四次尝试中四次皆回应正确时,才会认为它惩办了问题。
如果回应生成时期较长,ChatGPT 则会地自满程度条,何况当用户切换到其他对话时,还会贴心性发送应用内见告。
在直播行径中,OpenAI 也向咱们展示了 o1 pro 的骨子终结。
此前 o1-preview 未能攻克的卵白质艰难,满血版 o1 经过 53 秒的分析,不仅给出了准确谜底,还能通过 Canvas 界面提供更为刺眼的评释注解评释。
写在临了,最近 Altman 在摄取采访时披露,ChatGPT 的周活跃用户已阻碍 3 亿大关,平台逐日音书量更是高达 10 亿条。
而 OpenAI 往日一年的谋略则是撬动 10 亿用户市集。想要达成这一谋略,接下来的 11 场直播行径好像是吸纳新用户的流毒机会。
最佳的新品恒久不才一场行径女同 t,让咱们搬好小板凳翘首企足吧。