OpenAI 推出新基准测试工具提升机器学习工程效能

编译／夏洛特

OpenAI推出了一款名为MLE-bench的全新基准测试工具，专为评估人工智慧（AI）在机器学习工程领域的效能而设计。这款开源工具旨在帮助AI开发者衡量AI系统的工程能力，并为未来的技术创新提供重要参考，相关研究已发表於arXiv预印本平台，并在OpenAI官方网站上进行了详细介绍。

OpenAI推出了一款名为MLE-bench的全新基准测试工具，专为评估人工智慧（AI）在机器学习工程领域的效能而设计。（图／123RF）

加速机器学习工程应用

随着AI技术的飞速发展，机器学习在工程领域的应用变得日益广泛，从进行复杂的工程思维实验到开发新程式码，AI不仅加快了技术创新步伐，还有望大幅降低开发成本。MLE-bench的推出，正是为了让开发者能够更准确地测量AI系统在真实世界中的应用潜力，并提升工程效率。

更多新闻：黄仁勳盛赞马斯克xAI 用「超人」速度打造超级电脑

AI工程的自主创新能力引起了业界广泛讨论。许多专家担心，随着AI技术的进一步发展，未来某些工程工作可能会被AI完全取代，进而对人类就业产生影响，虽然MLE-bench并未直接解决这些问题，但它为进一步开发预防性工具提供了基础，帮助开发者监控AI在工程领域的自主性发展。

MLE-bench包含75项来自Kaggle平台的实际测试，旨在检验AI系统能否解决现实中的复杂问题，其中，测试内容包括破解古老的卷轴文字或开发新型mRNA疫苗等，每项测试的结果将经过评估，并根据其在真实世界中的应用价值给予评分，进而为AI工程效能提供量化指标。

MLE-bench这一工具的推出，不仅为AI自主进行工程工作提供了测试平台，还让开发者能够透过这些测试结果来改善AI系统的创新能力，随着该工具的应用，AI技术在机器学习工程中的自主性和效能将持续提高，进而推动技术进步与应用落地的速度。

参考资料：techxplore

※探索职场，透视薪资行情，请参考【科技类-职缺百科】帮助你找到最适合的舞台！