OpenAI 2024 年“ shipmas ”的第一期今天发布。随着更新的到来,ChatGPT 订阅产品的首次升级:ChatGPT Pro。200美元的价格令人难以置信,仅针对最先进的 ChatGPT 用户。
最大的问题是:它真的值得吗?
我在这里为您解答这个问题。
细节
使用 GPT Pro 可以获得以下功能:
- 使用 4o、o1 和 o1-mini 进行无限制聊天
- 无限高级语音模式
- 访问 GPT o1-Pro(每周限制 50 条消息)
- 所有型号均具有完整的 128k 令牌上下文窗口(常规订阅为 32k)
…是的。就是这样。
当我第一次听到这个消息时,我的想法和你现在的想法是一样的。这怎么可能值得花这么多钱呢?
虽然可以无限扩展地访问其他型号很棒,但在我看来,这一切都取决于 GPT o1-Pro 的性能。如果它真的比普通的 o1 好很多,那可能就值得了。这就是我测试它的原因。
GPT o1-专业版
ChatGPT Pro 配备了前沿 AI 模型 o1-Pro,这是真正的 LLM 最新成果。问题是,它有多好?
根据 OpenAI 的说法,它比 o1 或 o1-preview(以及目前所有其他 LLM)更加智能、更加一致:
一些 LLM 基准测试结果显示,o1-Pro 相较于 o1 预览版有显著改进。来源: https: //openai.com/index/introducing-chatgpt-pro/
我没有时间对这个模型进行真正的考验,但我做了一些有趣的测试,尝试将其推向极限。
o1-Pro 测试 1:转换整个应用程序
我的第一个任务很大。我把我的一个Django应用程序的全部代码交给了 o1-Pro,并要求它将整个应用程序转换为Flask 框架。
这是 GPT-4o 根本无法开始做的事情(因为一次要处理的事情太多了),几天前当我尝试时,o1-preview 严重失败了这项任务。
这个应用程序需要考虑很多事情,比如数据库、身份验证系统和 Stripe 集成,更不用说其中的所有 AI 组件。
然而,o1-Pro表现出色,经过长时间的调试后,能够输出分步转换指南,并包含每个元素的书面代码!
以下是一组截图,显示了这项任务有多么艰巨。不过,它的表现非常出色!
o1-Pro 测试 2 — 读取模拟时钟
你可能会惊讶地发现,即使是GPT-o1也无法读取模拟时钟的图像:
彻底失败了。
然而,o1-Pro经过更深入的思考,得出了更接近正确的结论:
仍不正确,但是正在接近正确!
这项测试尚无定论,但仍然很有趣。是否有一个秘密的新视觉模型在后台为 o1-Pro 提供更好的数据?也许……
o1-Pro 测试 3 —密码测试
最后,我创建了一个密码测试来测试 4o、o1 和 o1-Pro 的纯逻辑强度。这是一个简单的凯撒密码,但为了让事情变得更难一些,我从移位中删除了一些字母(i、o 和其他一些字母)。这意味着简单的字母移位测试不起作用,因此需要逻辑操作来测试更多潜在的解决方案。
输入的密文如下:
我不太确定这个模型能否破解密码,因为这里没有足够的文本来真正得到有意义的答案。不过,我可能是错的!
以下是经过密码加密后的文本:
我 ar sox wo wyvj xmax xmiw rohjq 气体 woqbj gitmjv,fjgaywj xmjvj wirtqe iws’x jsoylm xjdx mjvj xo agxyaqe ljx a rjasislkyq aswcjv。 Mocjbjv,我 goyqh fj cvosl!
结果:
GPT-4o彻底失败了,无法给出连贯的回应。
然而,GPT-o1表现相当出色,其最终解码的答案是:
我不太确定这个模型能否破解密码,因为这里没有足够的文本来真正得到合理的答案。不过,我认为它是有效的!
它已经非常接近了,但是还是无法弄清楚一些部分。
令人惊讶的是,GPT-o1-Pro在这次测试中表现实际上更差,其最终答案是:
我不太确定这个密码是否能证明一个理论,无论如何,这里并没有足够的意义来充分得出合理的结论。不过,我认为它是有效的!
有点失望,但是试了好几次,还是没能超越o1。
评论(0)