启用生产级生成式人工智能:新功能降低成本、简化生产并提升安全性 机器学习博客
实现生产级生成AI:新能力降低成本、简化生产流程与提升安全性
关键要点
生成AI的转变:从概念验证POC到实际生产,企业与消费者的数据互动发生了重大变化。生产价值提升:进入“第二幕”,许多POC实现商业价值。新技术堆栈:AWS 提供多层服务,支持企业高效构建生成AI应用。基础设施优化:Amazon SageMaker HyperPod通过整合Amazon EKS提升开发效率与管理便利。安全与责任:推出Amazon Bedrock Guardrails,确保安全、可信的模型部署。随着生成AI从概念验证阶段POCs进入生产阶段,企业和消费者在数据、信息以及相互之间的互动方式正在发生巨大的转变。我们视之为生成AI故事的“第一幕”,见证了此前难以想象的数据量和计算能力催生出令人惊叹的生成AI模型。在去年,许多企业和个人专注于学习与实验,POC数量之庞大令人印象深刻。来自各行各业的数千名客户进行了数十到数百个实验,探索生成AI应用的潜力及其影响。
到了2024年初,我们开始看到“第二幕”的开端,许多POC正在演变为生产应用,为企业带来显著的商业价值。要深入了解第一幕和第二幕的详情,可参考关于“第二幕”生成AI的准备。向生产思维的转变集中在关键挑战上,企业在特定任务上构建和评估模型,寻找最精简、最快速和最具成本效益的方案。考虑并削减生产工作负载所需的投资,使得构建、测试和微调基础模型的过程更加高效。
提高效率并降低成本的新能力
提供多个入口点以便企业顺利过渡到生成AI应用的生产阶段至关重要。我们的生成AI技术架构提供了必要的服务与能力,支持构建与扩展生成AI应用从Amazon Q最强大的生成AI助手,加速软件开发到中层的Amazon Bedrock最简单的构建与扩展生成AI应用方案,再到基础层的Amazon SageMaker旨在帮助您构建、训练和部署基础模型。尽管这些层提供了不同的切入点,但根本的事实是,每个生成AI旅程都始于基础层。
希望构建自定义模型或寻求细粒度控制的组织,选择Amazon Web Services AWS,因为我们帮助客户更加高效地使用云,并利用更强大、高性价比的AWS能力,如PB级网络能力、超大规模集群和相关工具。我们在这一基础层的深度投资提升了更高层服务的能力与效率。
实现生成AI用例的经济性,需在专为AI构建的高性能、经济实惠的基础设施上进行训练与推理。Amazon SageMaker简化了模型生命周期中每一步的优化,无论是构建、训练还是部署。然而,基础模型的训练与推理面临着诸多挑战,包括运营负担、整体成本和性能延迟,从而影响整体用户体验。当前,最先进的生成AI模型的延迟平均在几秒钟之内,而许多大型模型的规模过于庞大,无法适配单一实例。
此外,模型优化创新的迅速发展,使得模型构建者在部署配置最终确定之前,需要大量时间学习并实施这些技术。
在Amazon SageMaker HyperPod中引入Amazon Elastic Kubernetes ServiceAmazon EKS
为了解决这些挑战,AWS在去年推出了Amazon SageMaker HyperPod。本周早些时候,我们宣布推出对Amazon EKS的支持。为什么这样做?因为管理生成AI所需的大型GPU集群存在显著的运营负担,且训练时间常常需要数周,单次故障可能 derail 整个进程。因此,确保基础设施的稳定性与优化分布式训练工作负载的性能也面临挑战。

Amazon SageMaker HyperPod提供了一个完全管理的服务,消除运营负担,使企业能够以前所未有的规模加速基础模型的开发。现在,对Amazon SageMaker HyperPod中Amazon EKS的支持,使构建者能够使用Amazon EKS管理其SageMaker HyperPod集群。构建者可以使用熟悉的Kubernetes界面,同时消除构建和优化生成AI模型开发的重负。SageMaker HyperPod提供了一个高度可靠的环境,能够自动检测、诊断并从底层基础设施故障中恢复,使构建者可以进行数周甚至数月的基础模型训练,而不受干扰。
客户引述:Articul8 AI
“Amazon SageMaker HyperPod在我们管理和操作计算资源方面发挥了巨大的作用,最小化了停机时间。我们是基于Slurm的SageMaker HyperPod服务的早期采用者,受益于其易用性和韧性特性,从而获得了35的生产力提升,并迅速扩展了我们的生成AI运营。
作为一家Kubernetes公司,我们很高兴迎来对SageMaker HyperPod的Amazon EKS支持。对我们而言,这是一个游戏规则的改变,因为它与我们现有的训练管道无缝集成,进一步简化了大型Kubernetes集群的管理与操作。此外,这也帮助我们的最终客户,因为我们能够将这一能力打包并产品化到我们的生成AI平台,使得客户能够以更简化的方式运行自己的训练和微调工作负载。”
Articul8 AI创始人兼首席执行官Arun Subramaniyan
为推理带来新的效率
即便是最新的生成AI建模进展,推理阶段仍然是一个显著的瓶颈。我们认为,创建客户或面向消费者的生成AI应用的企业不应为成本效益而牺牲性能。企业理应能够兼顾两者。这就是我们在两个月前发布的Amazon SageMaker推理优化工具包,这是一项全面管理的解决方案,提供最新的模型优化技术,如推测解码、编译和量化。该工具包在SageMaker上可用,提供了最新优化技巧的简单菜单,可以单独或结合使用,形成“优化配方”。通过轻松访问和实施这些技术,客户可以在减少约50成本的同时,实现推理吞吐量提高近2倍的目标。
负责且安全可信的模型部署
尽管成本和性能是关键问题,但在我们将POC转向生产的过程中,其他问题也显得尤为重要。无论您选择哪种模型,都需要以安全、可信和负责任的方式进行部署。我们需要能够释放生成AI的全部潜力,同时降低其风险。为您的生成AI应用实现定制化的保障措施,符合您的要求和负责任的AI政策应变得轻而易举。
因此,我们推出了Amazon Bedrock Guardrails服务,提供可定制的保障措施,允许您过滤提示和模型响应。Guardrails可以帮助屏蔽特定的词或主题。此外,客户还可使用Guardrails帮助识别和阻止受限内容到达最终用户。
我们还提供有害内容和个人身份信息PII的过滤,以及动态提示检查以防范恶意提示,例如提示注入。最近,我们还开发了用于检查响应是否源于材料并与查询相关的保障措施,以减少误幻觉。
蓝鲸加速器苹果版通过颠覆性的创新创造价值
我们与NFL的合作以及共同推出的Next Gen Stats程序提供了证明,生产思维不仅为组织带来了真正的价值,也惠及全球人们。通过使用AWS的AI工具和工程师,NFL提升了铲 tackle 分析的复合度,为团队、广播公司和球迷提供了对该项重要技能的深入洞察。正如球迷所知,铲 tackle 是一个复杂而逐步发展的过程,贯穿每一个比赛回合,但传统统计数据只能讲述部分故事。正因如此,NFL与AWS共同创建了“铲 tackle 概率”一种突破性的AI驱动指标,能够实时识别未铲到位的时机和地点。欲了解更多信息,请访问NFL on AWS。
构建这一统计数据需要五年的历史数据,以训练一个能够处理每场比赛数百万数据点的AI模型,追踪每位防守队员的20多项特征,每分秒更新一次。最终结果是一个从根本上改变比赛的统计数据,提供了前所未有的深度见解。如今,NFL可以以之前无法实现的方式量化铲 tackle 效率。防守队员在一场比赛中可能被记为15次铲 tackle 尝试而没有一次失误,或者我们可以衡量Running Back所造成的未铲成功的情况。总体来看,这个模型将推出至少10个新统计数据。
对NFL而言,教练如今可以量化铲 tackle 效率并识别那些总是能处于最佳位置做出有效铲 tackle 的球员;广播公司可以实时展示球迷已发生的未铲或铲成功的情况。
通过AWS构建突破性进展
NFL并非唯一一个利用AWS将关注点从POC转向生产的案例。令人振奋的初创公司如Evolutionary Scale正在简化生成新蛋白质和抗体的过程,Airtable则使得客户更便捷地使用数据并构建应用。而Slack等组织则在日常工作中嵌入生成AI。那些快速崛起的成功初创公司纷纷选择AWS,事实上,96的AI/ML独角兽以及90的2024年《福布斯》AI 50榜单上的企业均为AWS客户。
那么原因是什么呢?因为我们正在解决让生产级生成AI应用得以实现的成本、性能和安全性问题。我们正在赋能数据科学家、机器学习工程师和其他开发者,使生成AI开发变得更快、更易、更加安全且成本更低。我们将基础模型的构建与调优以及一系列直观工具的获取作为我们的持续承诺的一部分,致力于实现生成AI的广泛普及。
推动下一个创新浪潮
优化成本、提高生产效率和确保安全性这些都是生成AI从POC转向生产时面临的主要挑战。我们通过为Amazon SageMaker、Amazon Bedrock等增添创新能力来帮助解决这些问题,并降低入门门槛,使这些工具对所有人开放,从拥有机器学习团队的大型企业到刚刚起步的小企业和独立开发者。赋能更多人和组织去试验生成AI,创造出一系列新的创意用例和应用。正如我们所目睹的,生成AI正快速发展,从一种引人入胜的技术演变为日常现实改进体验、激励创新、提升竞争优势,并创造显著的新价值。
作者介绍
Baskar Sridharan是AI/ML和数据服务与基础设施的副总裁,负责关键服务的战略方向与开发,包括Bedrock、SageMaker和EMR、Athena及Glue等数据平台。
在此之前,Baskar在谷歌工作近六年,推动云计算基础设施的进步。更早之前,他在微软任职16年,参与开发Azure Data Lake和Cosmos等项目,这些项目对云存储及数据管理领域产生了深远影响。
Baskar获得普渡大学计算机科学博士学位,在科技行业的前沿工作超过20年。
他在西雅图生活了20多年,与妻子和两个孩子共同享受太平洋西北地区的美丽及多样户外活动。在空闲时间,Baskar喜欢练习音乐和与孩子们打板球和棒球。