首席数字与人工智能办公室(CDAO)成功完成了众包人工智能红队(CAIRT)保障计划试点项目,该项目重点关注大语言模型(LLM)聊天机器人在军事医学中的应用。CAIRT 计划支持国防部(DoD)创建自下而上、众包的人工智能保障和人工智能风险缓解方法。通过众包,项目能够获取大量数据并吸引广泛的利益相关者参与。
该 CAIRT LLM 试点项目由 Humane Intelligence(一家围绕算法评估建立实践社区的技术公司)与国防卫生局(DHA)和国防卫生管理系统项目执行办公室(PEO DHMS)合作开展。 Humane Intelligence 采用 "红队"(red-teaming)方法--利用对抗技术对系统的复原能力进行内部测试--能够有效地发现特定的系统漏洞。此外,"红色团队 "还吸引了希望接触新技术的参与者,他们作为未来的潜在受益者,有机会为系统改进做出贡献。此前,在 2024 年春季,CDAO 利用红色团队的经济回报举办了一次有价值的 CAIRT 演习。
在最近的一个试点项目中,人道智能公司在军事医学领域的两个很有前景的用例中使用了众包红包,这两个用例分别是:临床笔记总结和医疗建议聊天机器人。200 多名参与者,包括来自 DHA、Uniformed Services University of the Health Sciences 和各军种的临床服务提供者和健康分析师参加了此次演习,对三种流行的 LLM 进行了比较。这次演习发现了 800 多个与在这些预期用例中使用这些功能有关的潜在漏洞和偏差。通过开发可用于评估未来供应商和工具是否符合预期性能的基准数据集,这项工作将产生可重复和可扩展的成果。此外,这些发现还将在制定国防部政策和最佳实践方面发挥关键作用,以便负责任地使用生成式人工智能(GenAI),最终改善军事医疗护理。如果这些预期的任务后用例包括 OMB M-24-10 中定义的涵盖人工智能,它们将遵循所有必要的风险管理实践。
"由于在国防部内部将 GenAI 用于这些目的尚处于试点和实验的早期阶段,因此该计划充当了一个重要的先驱,以生成丰富的测试数据、揭示需要考虑的领域并验证缓解方案,这些方案将影响未来的研究、开发以及未来可能部署的 GenAI 系统的保障"。 注意到该倡议由 CDAO 牵头、 马修-约翰逊博士.
正如最近的试点项目和其他项目所显示的那样,通过 CAIRT 保证计划对 LLM 和 AI 系统进行持续测试,对于加速 CDAO 的快速 AI 能力单元、提高 GenAI 任务的有效性以及促进对国防部所有使用案例的合理信任至关重要。
关于 CDAO
CDAO 于 2022 年 6 月启动,致力于整合和优化整个国防部的人工智能能力。 该办公室负责加快国防部对数据、分析和人工智能的采用,使国防部的数字基础设施和政策采用能够为企业和联合用例提供可扩展的基于人工智能的解决方案,并保护国家免受当前和新出现的威胁。
五角大楼/ gnews- RoZ
插图 - pixabay