我惊喜地通过了OpenAI预览版的四个AI编码测试

   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

  

一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的。

尽管OpenAI在5月中旬推出了全新的gpt - 40模型,但该公司依然忙碌不已。早在去年11月,路透社就曾报道OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们再次确认,正在以“草莓”(Strawberry)的代号进行Q*的开发。

实际上,“草莓”是一个名为“01 -preview”的模型,现在ChatGPT Plus的用户可以选择使用它。您可以从下拉菜单中选择模型:

如您所料,如果有新的ChatGPT模型可用,我会进行测试。这正是我在这里所做的。

新的“草莓”模型专注于推理,将提示和问题分解为多个步骤。OpenAI通过在每个答案前展示推理摘要来体现这种方法。

当01 -preview被问到问题时,它会进行思考,并显示思考所花费的时间。如果您切换下拉菜单,您会看到一些原因。以下是我进行编码测试的一个例子:

AI知道添加错误处理是个好主意,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。

我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一次测试中,我创建了一个WordPress插件,该模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比之前的模型提供了更多的信息。

然而,真正的效果还需实践验证。让我们对这个新模型进行标准测试,看看它的表现如何。

1. 编写一个WordPress插件

这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须将重复的条目分开,以确保它们不相邻。

01 -预览版表现出色。它首先以输入字段的形式呈现用户界面:

一旦输入数据并点击Randomize Lines,AI就会生成一个带有随机输出数据的输出字段。您可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:

在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。

2. 重写字符串函数

我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。

01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。

3. 寻找恼人的bug

这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。

提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。

并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。

01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。这非常有帮助。

4. 编写一个s图书馆的

这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。

回答这个问题需要理解这三种技术,以及它们是如何协同工作的。

再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。

一个非常健谈的聊天机器人

用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。

ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能显得有些冗长。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:

这是o1-preview对相同测试的反应:

我想说,哇,对吧?这是来自ChatGPT的大量聊天内容。您也可以打开推理下拉菜单,获取更多信息:

所有这些信息都很棒,但有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。

然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。

您试过用01 -preview编码吗?您的经历是什么?请在下面的评论中告诉我们。

您可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本文来自作者[春位]投稿,不代表少轩号立场,如若转载,请注明出处:https://m.06lm.cn/zlan/202508-1599.html

(31)

文章推荐

  • 国际原子能机构警告:乌克兰核电站爆炸后安全形势严峻

    (路透社)-国际原子能机构(IAEA)总干事拉斐尔·马里亚诺·格罗西表示,乌克兰扎波罗热核电站的安全状况正在恶化,周六无人机袭击了一条外围通道。俄罗斯塔斯社早些时候报道称,扎波罗热核电站的俄罗斯管理部门表示,一架乌克兰无人机在工作人员使用的道路上投放了一枚炸药。

    2025年09月18日
    0
  • 俄罗斯海军新型卡拉库尔特级护卫舰正式服役

    莫斯科,8月27日(IANS):俄罗斯国防部宣布,22800“阿穆尔河”号项目下的一艘新型小型导弹护卫舰,也被称为“卡拉库尔特级”,已经进入俄罗斯海军服役。据国防部称,周一在达吉斯坦共和国卡斯皮斯克市举行了庄严的接纳仪式,并在导弹船上升起了圣安德鲁旗,海军总司令亚历

    2025年09月18日
    4
  • 吉姆·乔丹力挺麦卡锡盟友麦克亨利担任临时议长

    俄亥俄州众议员乔丹(JimJordan)说,他将支持授权众议院临时议长、北卡罗来纳州众议员麦克亨利(PatrickMcHenry)推进立法,而共和党仍在为谁将领导众议院而争论不休。乔丹是前总统特朗普的发言人人选,但两次未能获得这一职位,他于周四上午在共和党党

    2025年09月18日
    5
  • 创新分子设计提升放射治疗的疗效与安全性

    放射治疗学体现了诊断和治疗放射药物融合到一个统一的平台。在癌症治疗中,放射治疗程序通常涉及使用抗体,这些抗体与癌细胞表面大量发现的蛋白质结合。这些抗体被贴上了合适的放射性同位素的标签,这有利于用于诊断癌症的成像程序,也可以用来瞄准癌细胞,用致命的辐射轰炸它们,作为

    2025年09月18日
    7
  • 英国国家医疗服务体系候诊名单连续三个月大幅上升

      根据英国独立电视台新闻政治记者利比·维纳的报道,英国国家医疗服务体系的等待名单已连续第三个月上升。最新数据显示,英国国家医疗服务体系(NHS)的候诊人数持续增加,已是第三个月的趋势。卫生大臣韦斯·斯特里廷指出,这些数据表明“保守

    2025年09月18日
    5
  • 安妮·萨库拉斯承认对英国少年哈里·邓恩死亡负责

    伦敦——美国公民AnneSacoolas,45岁,据她的律师说,她为美国情报机构工作,周四在英国法院承认粗心驾驶致人死亡,当时她开错了路,撞死了一名19岁的摩托车手。这一请求标志着这起高级别外交纠纷的进展,以及受害者哈里·邓恩(HarryDunn)的家人为伸

    2025年09月18日
    5
  • 孟加拉国医生警惕登革热死亡率达到数十年新高

      特殊的9月28日,孟加拉国首都达卡,一名登革热患者在医院接受治疗。(法新社)孟加拉国医生保持警惕,因为今年登革热死亡率是20多年来最高的。每年,登革热在7月至10月的季风季节成为一个主要的健康问题,成千上万的孟加拉国人感染了这种病毒和可能致

    2025年09月18日
    5
  • 新加坡总统选举:分析人士质疑陈建联独立性,反对党支持‘三位一体总统’的观点引发关注

        新加坡,8月29日——总统候选人陈建联声称自己是“独立候选人”的说法受到质疑,因为他得到了几位著名反对派政客的支持,尽管他们声称自己是以个人身份这样做的。  政治观察人士昨天(8月28日)发表了评论。此前,一些竞选材料开始在社交媒体和各种T

    2025年09月18日
    7
  • 爱尔兰姐妹以英雄兄弟之名为美军舰命名

      在缅因州巴斯(美联社)——周六,一位出生于爱尔兰的海军十字勋章获得者的三位姐妹,在爱尔兰国旗的映衬下,伴随着风笛的旋律,为一艘以他名字命名的军舰举行了命名仪式,并获得了该舰将访问爱尔兰的承诺。未来的帕特里克·加拉格尔号是一艘在巴斯钢铁厂建造的导弹驱逐舰,命

    2025年09月18日
    11
  • 加州母亲涉嫌在教堂驱魔中杀女儿,始终无悔意

    圣何塞,加州——据圣克拉拉县检察官称,一名母亲被指控于2021年在加州一座教堂内驱魔时杀死了自己3岁的女儿,据报道,她“从未表示过悔恨”。官员们表示,2021年9月24日,克劳迪娅·埃尔南德斯-桑托斯(ClaudiaHernandez-Santos)据称相信她的女

    2025年09月17日
    11

发表回复

本站作者后才能评论

评论列表(4条)

  • 春位
    春位 2025年08月14日

    我是少轩号的签约作者“春位”!

  • 春位
    春位 2025年08月14日

    希望本篇文章《我惊喜地通过了OpenAI预览版的四个AI编码测试》能对你有所帮助!

  • 春位
    春位 2025年08月14日

    本站[少轩号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 春位
    春位 2025年08月14日

    本文概览:   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

    联系我们

    邮件:少轩号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们