re:Invent 2023 | 亚马逊云科技可观测性和运行的新特点
在这段演讲中,作者详细阐述了亚马逊云科技及其在云计算领域的领先地位。演讲者首先强调了公司将亚马逊内部的优秀运营工具和经验分享给客户的重要性。接着,他讨论了运营事故的生命周期,包括检测、调查和修复阶段,并指出大多数时间都花费在了调查根本原因上。演讲的重点在于加强检测、调查和修复能力。例如,亚马逊云科技推出了CloudWatch日志异常检测和警报推荐等功能,利用机器学习技术识别异常并提供关于需要监控的
关键字: [Amazon Web Services re:Invent 2023, CloudWatch, Application Signals, Cloudwatch Logs Anomaly Detection, Cloudwatch Alarm Recommendations, Cloudwatch Natural Language Query, Cloudwatch Live Tail]
本文字数: 1600, 阅读完需: 8 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1RH4y1C7Co
导读
无论您是在云中运行还是迁移业务,亚马逊云科技都能帮助您管理多个环境中的应用程序和基础架构,并提供对这些应用程序和基础架构的深入了解。参加本次讲座,了解可用于提升和优化云计算运营的最新创新。通过 Amazon IT management tools 和可观测性解决方案的演示,深入了解最新发布。
演讲精华
以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
亚马逊云科技的Brian Denny和Greg Eppel两位主讲人开始了他们的讲座,强调亚马逊始终将运营卓越视为首要任务。Brian在十六年前初次加入亚马逊时,便被海量可供开发者用于了解系统内发生情况的遥测数据所震撼。这与他在之前工作的那些缺乏这种观察能力的公司截然不同。在加入亚马逊云科技的观测团队之前,Brian曾在亚马逊的零售网站和购物车团队工作了多年。他的同事Greg则是亚马逊云科技的云运营技术领导者。
Brian介绍了他团队的使命,那就是以产品和服务的形式将亚马逊积累的操作经验带给客户。在内部分析方面,亚马逊主要依赖CloudWatch来监控一切——数千名开发者每天使用它查看图表、设置警报、排查问题和实时解决问题。通过提供CloudWatch作为亚马逊云科技服务,客户可以对其系统获得与亚马逊开发者相同的观测能力。这些亚马逊云科技观测服务旨在在亚马逊云科技以及内部或多云环境中运行。
针对客户方面的观测和运营,有一些关键目标包括:轻松监控应用程序,利用机器学习快速解读大量数据,并尽可能自动化以节省时间和金钱。作为例子,Brian强调了几个亚马逊云科技客户如何使用像CloudWatch和CloudWatch Synthetics这样的观测服务来避免在凌晨3点调查问题的事件:
-
高盛集团使用CloudWatch来获取对其基础设施和应用程序的超过300,000个指标的可见性,从而更快地关联数据以排查问题。
-
美国在线使用CloudWatch来监控其应用程序和底层资源,从而在出现问题时迅速确定根本原因。这已将平均解决时间减少了30-50%。
-
携程旅行网使用CloudWatch Synthetics持续从全球各地测试其Web应用程序。这使得携程旅行网能够区分内部应用程序问题和外部网络问题。通过预先解决网络问题,它可以避免不必要的升级。
Cognizant利用亚马逊云科技的观测服务来对其为客户开发的应用程序进行端到端的可视化。这使得操作事故减少了60%,并节省了超过100万美元的成本。
-
技术公司Mahindra依赖于CloudWatch指标和控制台来实时监控客户应用程序。这提高了客户的正常运行时间和运营效率。
-
Wipro使用亚马逊云科技的观测产品组合来开发用于自动管理和修复IT事故的下一代AI驱动的解决方案。
Brian强调,对于今天运行应用程序和分布式架构的每一家公司来说,观测都是至关重要的。他分享了一个例子,说明EA Sports如何使用CloudWatch网络洞察来监控游戏应用程序的性能,以及JP摩根大通如何通过将来自不同工具的监控数据整合到CloudWatch中来减少运营复杂性。这为他们提供了每天处理超过10亿个指标、事件和日志数据点的可操作可见性。
接下来, Brian概述了操作事故的监测、调查和补救的生命周期。在监测阶段,机器学习算法可以处理大量数据以发现异常和模式。将业务目标映射到应用程序行为有助于突出显示数千个警报中哪些是有影响力的。在调查阶段,自动化可以加速揭示模式和评估根本原因。在补救阶段,运行手册将标准程序编码化,以便人类不必处理重复任务。事后分析和反馈循环的学习也允许补救过程的持续改进。
布莱恩将演示交给了格雷格,以展示亚马逊云科技的最新观测和运营功能。格雷格首先展示了在2022年re:Invent上推出的CloudWatch日志异常检测功能。该功能利用机器学习技术检测模式,对不同时间段的数据进行比较,并在日志数据中显示异常情况。即使只分析过去一小时的20,000个日志事件,也能迅速识别出166个常见模式和发生频率。通过对比过去一小时与之前一小时的数据,可以突出显示哪些新模式出现,以及哪些模式在两段时间内都存在。持续日志异常检测功能会持续监控日志并生成可触发警报的异常CloudWatch指标。这些功能有助于操作员在调查海量日志数据时快速定位问题。
接下来,格雷格展示了在re:Invent上推出的另一项重要功能——CloudWatch应用信号功能。用户只需点击一下,即可开始监控其示例Java应用程序在Amazon ECS上的运行情况,并提供与其服务和运营相关的预构建仪表板。当用户点击一个出错的操作时,它会显示相关联的轨迹,从而快速追踪问题的根源。他发现问题是由于过度频繁地调用SQS API所导致的。
格雷格还简要介绍了其他关键公告,如CloudWatch警报推荐、Prometheus集成、自然语言查询和新的CloudWatch日志Infrequent访问存储类。这类存储可以将成本降低50%,同时仍提供基本的摄入、存储、加密和查询功能。他还展示了用于亚马逊云科技系统管理器的新的可视运行记录设计师,用户可以通过拖放步骤而非编写YAML/JSON代码来构建运行记录。
总的来说,格雷格强调这些新功能如何满足了关键的观测目标:应用信号功能提供了针对应用的智能观测;日志异常检测功能实现了基于机器学习的智能运营;而新的Infrequent访问存储类使得CloudWatch日志具有低成本和高效率。他提供了一些更深入探讨新功能的re:Invent会议参考资料。
总体而言,Brian和Greg成功地传达了亚马逊云科技正迅速构建可观察性和运营服务,旨在将亚马逊的运营卓越带给所有客户的信息。过去20个月的发布包括检测异常、调查问题和解决故障——所有这些都利用自动化和机器学习来减少复杂性。这从根本上使公司能够提高观察和运营分布式应用程序和架构的能力。通过提高生产率并降低成本,这些服务实现了云计算的承诺。
演示中包含的一些关键数据点和细节包括:
- CloudWatch每月处理超过9千亿的指标观测。
- CloudWatch日志每月处理艾字节的日志数据。
- 模式分析在20000个日志事件中识别出166个常见模式。
- 排名第一的模式代表了20000个日志事件中的11000个,约占58%。
- JP摩根大通在合并到CloudWatch后,每天可以观察到超过10亿的指标、事件和日志。
- 新的不频繁访问的CloudWatch日志存储选项可以将日志存储和摄入的成本降低50%。
- CloudWatch警报建议提供设置警报的内置指南,包括CloudFormation的JSON/YAML代码片段。
- 仪表板变量允许根据维度切割和拼切指标,而无需创建多个仪表板。
- 新的CloudWatch Prometheus集成用于ECS集群,可以实现一键设置船运指标。
- 自然语言查询将纯文本问题转换为Log Insights或Metric Insights语法。
- 新的可视运行手册设计器允许拖放式创建Systems Manager Automation运行手册。
通过提供详细的示例、数据点和指标,Brian和Greg强调了这些服务的巨大规模。这展示了这些可观察性工具在亚马逊规模上的实际测试和使用,这给了客户信心,他们可以依靠这些服务来应对其关键任务系统。这些发布的目的是让任何运行亚马逊云科技上应用程序的公司更容易、更智能、更高效地进行可观察性和运营管理。
下面是一些演讲现场的精彩瞬间:
领导者向观众提问,是否有过被突然叫醒的经历,这与他本人曾在凌晨3点醒来解决技术问题的经历有关。
领导者强调,在应对突发事件的过程中,调查环节往往是最耗时的一部分。
亚马逊云科技通过在整个组织内一键部署监控代理,简化了可操作性的入门过程。
X-Ray服务地图为用户提供了组件间服务调用关系的可视化时间线,有助于快速定位问题所在。
CloudWatch的自然语言查询功能使开发者能够通过自然语言搜索日志和指标,而非依赖于复杂的语法,从而自动生成查询以提高效率。
一种名为“频繁访问日志”的新日志类别为用户提供了一种成本效益高的解决方案,无需具备高级功能。
领导者重点介绍了亚马逊云科技的三种关键资源:可观察最佳实践指南、可观察工作坊和集中式操作工作坊,以帮助用户建立信任并深入了解可观察性、事故管理和安全状态维护等功能。
总结
在这段演讲中,作者详细阐述了亚马逊云科技及其在云计算领域的领先地位。演讲者首先强调了公司将亚马逊内部的优秀运营工具和经验分享给客户的重要性。接着,他讨论了运营事故的生命周期,包括检测、调查和修复阶段,并指出大多数时间都花费在了调查根本原因上。
演讲的重点在于加强检测、调查和修复能力。例如,亚马逊云科技推出了CloudWatch日志异常检测和警报推荐等功能,利用机器学习技术识别异常并提供关于需要监控的指标的建议。此外,还推出了CloudWatch应用信号,能够将指标、日志和轨迹关联起来,以便更快地排除故障。
在修复方面,亚马逊云科技推出了一种新的可视化工作流设计器,简化了自动化运行书的创建过程。其他值得关注的发布还包括一种更经济的CloudWatch日志类别选项以及集中监控多数据源查询的功能。
演讲者最后回顾了一些新功能如何支持以应用程序为中心的、智能和高效的运营方式。他建议读者参加深入的研讨会和实际操作工作坊,以便继续学习和掌握这些新技术。
演讲原文
https://blog.csdn.net/just2gooo/article/details/134829168
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。
更多推荐
所有评论(0)