OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
作者:方泰攻略站时间:2025-04-10 15:26:33
本站 4 月 10 日消息,OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在缺陷,而该计划将专注于创建能够“设定优秀标准”的评估体系。
随着 AI 技术在各行业的应用加速普及,深入了解并提升其在现实世界中的影响力变得至关重要。OpenAI 在其博客中指出,创建特定领域的评估指标是更好地反映实际应用场景、帮助团队在实际且高风险环境中评估模型性能的有效途径之一。
近期,众包基准测试平台 LM Arena 与 Meta 的 Maverick 模型引发的争议凸显了一个问题:如今,人们很难明确区分不同 AI 模型之间的差异。许多广泛使用的 AI 基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易**纵,或者与大多数人的偏好不一致。
据本站了解,通过先锋计划,OpenAI 希望为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。该实验室表示,在未来几个月内,将与“多家公司”合作设计定制化的基准测试,并最终将这些基准测试公开,同时提供“行业特定”的评估。
OpenAI 在博客中提到,先锋计划的第一批参与者将专注于初创公司,这些公司将帮助奠定该计划的基础。他们将从众多初创公司中挑选出少数几家,这些公司都在从事高价值、应用广泛的用例,AI 在其中可以产生实际影响。
参与该计划的公司还将有机会与 OpenAI 团队合作,通过强化微调技术改进模型。这种技术可以针对一组特定任务优化模型,从而提升其在特定领域的表现。
然而,一个关键问题是 AI 社区是否会接受由 OpenAI 资助创建的基准测试。此前,OpenAI 曾在财务上支持过基准测试工作,并设计了自己的评估方法。但与客户合作发布 AI 测试可能会被视为在道德上存在争议。
相关文章
-
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
本站 4 月 10 日消息,OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在
-
已修复:三星确认微软 Swiftkey 输入法不兼容 One UI 7,解锁敲密码无回车键
本站 4 月 10 日消息,三星公司昨日确认,输入法应用 Microsoft Swiftkey 不兼容最新 One UI 7 0 更新,由于输入键盘没有显示回车按键,可能导致部分用户卡在锁屏界面无法进
-
三星 Galaxy Z Fold8 折叠手机被曝弃用屏下摄像头
本站 4 月 10 日消息,消息源 Yeux1122 于 4 月 9 日发布博文,爆料称三星考虑在 2026 年推出的 Galaxy Z Fold8 折叠手机上,放弃使用屏下摄像头。本站注:自 Gal
-
谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务
本站 4 月 10 日消息,在本周三的谷歌 Cloud Next 大会上,谷歌宣布其 AI 编程助手 Gemini Code Assist 新增“代理”功能。谷歌表示,Code Assist 如今能够
-
我国新型合成孔径雷达三维成像技术发布,将为遥感测绘、灾害监测等提供有力支撑
本站 4 月 9 日消息,据新华社报道,我国科研团队开发的新型合成孔径雷达(SAR)三维成像技术 4 月 9 日正式发布。此项技术可大幅减少 SAR 三维成像所需的数据采集量,同时提升成像精度,将为遥
-
我国新发现:嫦娥六号玄武岩揭示月球背面月幔更干燥
感谢本站网友 風見暉一 的线索投递! 本站 4 月 9 日消息,据央视新闻报道,近期,中国科学家利用嫦娥六号采回的月球背面样品首次获得月球背面月幔的水含量