昨晚,OpenAI正式发布了o1预览版,这是全新的AI模型系列,旨在通过更多思考时间来提升响应质量。
为什么叫o1?
OpenAI给出了解释:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为1,并将这一系列命名为OpenAI o1。
简单来说,OpenAI的o1模型的强大,甚至让它放弃了以往GPT系列的命名,重新启用了o系列。
o1的发布,标志着AI行业迈向AGI的快速发展。
OpenAI最新o1模型表现如何?
OpenAI最新的o1模型在数学、编程能力等理科领域表现出色。
在AIME 2024(一个高水平的数学竞赛)中,GPT-4o的准确率为13.4%,而o1预览版达到了56.7%,尚未发布的o1正式版则达到了83.3%。
在代码竞赛中,GPT-4o准确率为11.0%,o1预览版为62%,o1正式版则为89%。
在博士级科学问题(GPQA Diamond)测试中,GPT-4o为56.1,而人类专家为69.7,o1则达到了惊人的78%。
特别是在测试化学、物理和生物学领域的基准测试(GPQA-diamond)中,o1表现全面超越了人类博士专家,成为第一个取得此成就的模型。
OpenAI o1模型的优势
对于理科相关问题,可以选择使用OpenAI最新的o1-preview模型,而文科问题则可以使用Claude。
不过需要注意的是,当前o1模型在功能上有一定的限制,毕竟处于早期阶段。
如何使用OpenAI的o1模型?
目前,o1模型已逐步向所有ChatGPT Plus和Team用户开放,也就是仅付费用户才能使用最新的o1模型。
o1模型系列:
- o1:目前最强大的大模型,但由于其能力过强,暂时不公开。
- o1-preview:o1的预览版,已开放给ChatGPT Plus和API用户。
- o1-mini:提供更快速度、更高性价比,适用于需要推理但不涉及广泛世界知识的任务。
o1-mini更小、更快、性价比更高,适合数学和编程,但世界知识略显不足。
使用限制:
- o1-preview:每周30条限制。
- o1-mini:每周50条限制。
目前,只有ChatGPT Plus用户可以使用o1模型。
OpenAI o1模型使用体验
我尝试了o1模型,向其提出了一个几乎所有其他大语言模型都无法解答的问题,看看o1能否回答。
问题:农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处。问农夫该如何过河?
o1花了6秒钟,给出了完美的解答,令人震撼。
随后,我还尝试了一个更复杂的奥数题,o1在思考了约1分钟后,给出了完全正确的答案。
如何优化使用OpenAI o1模型的提示词?
在使用o1模型时,我发现采用以下提示词可以有效提高回答质量:
- 保持提示简洁明了,避免过多指示。
- 不需要“逐步思考”或“解释推理”的提示。
- 使用分隔符如三重引号或章节标题来提高输入的清晰度。
- 提供相关且简洁的上下文,避免过多干扰信息。
OpenAI o1模型的使用限制
目前,o1-preview每周使用次数限制为30条,o1-mini为50条。超过限制后,将会出现如下提示:
提示:You’ve hit the Plus plan limit for o1-preview
回应:直到次周再重置,使用其他模型直到限制重置。
OpenAI o1模型值得升级吗?
尽管o1是目前最强大的大语言模型,但由于它需要较长时间思考,每周的使用次数限制较少,它可能并不适合日常频繁使用。但从未来发展的角度来看,o1无疑是迈向下一个时代的基石。
如果你想尝试,可以使用GPT-4o进行日常任务。
如何升级使用OpenAI的o1模型?
如果你已经是ChatGPT Plus用户,可以直接体验o1模型。要升级为ChatGPT Plus,可以通过以下链接进行:
对于没有海外信用卡的用户,可以通过使用野卡虚拟信用卡轻松完成支付,解决了银行卡支付问题。
详细的升级步骤,可以访问野卡官网,以便完成ChatGPT Plus的付费升级,享受更多的服务。