一年一度的亚马逊云科re:Invent全球大会上,亚马逊云科技发布的众多新技术吸引了全球的目光。在强大的算力基础之上,亚马逊云科技进一步降低了技术应用的门槛,发布了一系列AI开发能力,和用于数据治理的创新工具。
Amazon SageMaker是业内第一个基于云的机器学习开发平台,最早于2017年推出,用于构建、训练和部署深度学习算法。新推出的功能可以让开发者更快地进行机器学习模型的端到端部署。
在SageMaker Studio Notebooks上,现在AI可以帮助开发者发现数据处理过程中的错误,当你选择系统建议的补救方法时,工具会自动生成实施所需的代码。部署使用Jupyter创建的神经网络通常是一项耗时的任务。
SageMaker Studio Notebooks现在也可以将神经网络打包到软件容器中,无需开发者手动操作,不同团队现在也可以更方便地共享AI模型代码和其他软件组件。
使用SageMaker构建神经网络后,现在人们可以进行shadow testing测试,通过亚马逊云科技的人工智能算法来评估神经网络的可靠性。
在AI治理工作上,亚马逊提出了一系列工具,Amazon SageMaker Role Manager让管理员可以轻松控制用户对公司SageMaker环境的访问,Amazon SageMaker Model Cards则帮助软件团队管理项目机器学习部分产生的数据。最后是Amazon SageMaker模型仪表板,可用于在AI模型部署到生产环境后监控其可靠性。
在Keynote演讲中,亚马逊云科技CEO Adam Selipsky多次强调了ETL(Extraction-Transformation-Loading)对于数据工程师工作的挑战,它代表了大数据任务中数据抽取、转换和加载等一系列工作。在大数据任务中,ETL经常会花费整个项目的1/3的时间。
亚马逊云科技希望消灭ETL,让用户只需要专注于自己的业务逻辑,引入了Amazon Aurora zero ETL与Amazon Redshift的集成,让使用Aurora数据库和Redshift数据仓库的客户能够快速将数据应用于自家机器学习服务SageMaker打造AI应用,而无需自定义数据管道。
现在,亚马逊云科技支持Amazon EMR、Glue和Amazon SageMaker上的Apache Spark,具有完全兼容且专门优化的性能,比开源版本速度快3倍。
随着数据量的爆炸性增长,AI理所当然地成为了数据治理的新思路。Amazon DataZone是一项数据管理服务,可以帮助企业编目、发现、共享及管理自有数据,其中管理并组织数据内容的工作都被交由机器学习来自动完成。
此外,Amazon Security Lake可以帮助安全团队轻松地自动收集、组合和分析PB级的安全数据。
“在数据领域,亚马逊云科技基本实现了端到端的无服务器能力,接管了全部的数据处理”,Adam Selipsky说道。亚马逊云科技引导了开发模式的变更,实现了基于事件驱动的任务处理。