re:Invent 2023 | 在亚马逊云科技上优化 Kubernetes 应用程序的最佳实践（由 Dynatrace 赞助）

goandstop25

1589人浏览 · 2023-12-05 19:12:20

goandstop25 · 2023-12-05 19:12:20 发布

关键字: [Amazon Web Services re:Invent 2023, Dynatrace, Observability Data For Understanding Performance, Leverage Ai On Observable Data, Use Slos To Check Quality Of Releases, Security Lens On Observable Data, Foster Devops Collaboration]

本文字数: 1600, 阅读完需: 8 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1rN4y1e73P

导读

在亚马逊云科技上有效部署 Kubernetes 的重要性怎么强调都不为过。自动化、安全分析和因果 AI 等关键技术将帮助您优化 Kubernetes 应用程序，同时更快地交付更高质量的软件。在本讲座中，您将了解在亚马逊云科技基础架构上运行 Kubernetes 的最佳实践，并获得可行性见解，以提升您在亚马逊云科技上的 Kubernete 部署。本讲座由亚马逊云科技合作伙伴 Dynatrace 为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华，共1300字，阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

资深首席解决方案工程师玛丽·杜比（Mary Duby）和杰森·特洛伊（Jason Troy）在亚马逊云科技re:Invent上发表了一场关于利用可观察性数据和自动化优化Kubernetes应用的见解深刻的演讲。作为Dynatrace公司的专家，他们凭借丰富的经验为企业客户提供成功的可观察性解决方案。

玛丽·杜比在Dynatrace公司工作了将近12年，她在获得计算机科学本科及硕士学位后，起初从事软件开发，但她发现自己更倾向于与他人合作，而非独自编程。她发现Dynatrace正是她理想的舞台，让她能够与来自不同行业的客户紧密合作，了解他们的环境，并分享经过验证的可观察性方法。

同样，杰森·特洛伊也在Dynatrace公司工作了9年，他凭借计算机工程的背景加入了该公司。在他的职业生涯中，他已经帮助组织改善了可观察性的战略，以支持创新并提升客户体验。他强调了他的角色如何使他成为连接客户和Dynatrace的研发实验室之间的桥梁，将现实生活中的用例带入产品开发。玛丽鼓励与会者在演讲结束后参观Dynatrace的展位，以分享他们自己的问题和挑战。

在演讲中，玛丽概述了他们的话题范围，包括打破可观察性的孤岛、利用AI和自动化、实施服务级别目标以及改进Kubernetes的安全性等方面的最佳实践。然而，在深入讨论之前，她先简要介绍了Dynatrace及其在可观察性领域的能力。

Dynatrace是一个可观察性和分析平台，用于收集应用程序、基础设施、安全和业务关键绩效指标的数据。支撑Dynatrace平台的核心组件包括专门针对可观察性优化的Davis AI引擎、自动发现和代码级仪器化的OneAgent，以及与OpenTelemetry等开源标准和云提供商数据的集成。随着可观察性需求的发展，Dynatrace已经从最初的分布式追踪扩展到了今天的云原生环境。

Dynatrace公司在Gartner和其他分析师报告中一直被誉为顶级的观测供应商已超过13年，这强调了该公司在应用性能监控和可观察性方面的领导地位。最近，Dynatrace被Gartner评为2022年应用性能监控和可观察性领域的绝对领导者。此外，Dynatrace还与Amazon Web Services保持着稳固的合作关系，并已在后者基础设施上运行了其软件即服务（SaaS）平台并获得多项认证。

谈及Kubernetes，Mary引用了CNCF发布的数据，展示了Kubernetes在云环境中的采用呈指数级增长，因为它们提供灵活性并增强敏捷性。然而，她同时指出Kubernetes环境的复杂性使得统一观测数据变得至关重要。为了解决这个问题，Jason强调了获取上下文中观测数据的重要性，这是优化应用程序、提高用户体验以及加速发布更高质量软件的基础。尽管指标、日志和追踪都是常见的观测数据类型，但Jason认为使用完整的平台来提取答案和价值非常重要。

Jason进一步阐述了观测解决方案的三个关键要素。首先，对OpenTelemetry、Prometheus和代理等不同数据源的灵活访问能力。其次，支持水平和垂直拓扑连接的可扩展聚合功能。最后，具备可扩展性，以便在各种不同用途中，从性能到安全性再到业务分析等方面都能得到支持。随着数据量和类型的持续增长，Jason解释道，观测平台需要能够进行相应的调整、关联和扩展。

Mary和Jason还讨论了将跟踪ID链接到日志所带来的变革性影响，它为故障排除提供了即时背景信息。这使得团队能够快速找到与失败交易相关的确切日志，而无需筛选大量日志。尽管Dynatrace可以自动生成这种链接，但Jason也表示，像OpenTelemetry这样的开源选项也支持这一做法。通过在实体如应用程序和集群上加载拓扑数据的丰富日志，增加了更多有用的上下文信息。

在优化Kubernetes应用领域，玛丽强调了对整个技术栈的全面了解至关重要。这涵盖了从应用程序到工作负载、命名空间、节点以及整个集群的各个层面。在应用程序层面上，关键指标包括响应时间、错误率、吞吐量和单次交易的性能。理解服务间的交互有助于发现潜在的影响。为了解决问题，分布式跟踪提供了详细的代码级信息。整合大量可观察数据能显著提高故障排除的速度。

贾森主张从用户体验的角度出发，而不仅仅是关注服务的可用性。通过分布式跟踪，可以揭示性能如何影响客户和业务流程。统一的观测数据还回答了关于底层Kubernetes平台的健康状况和资源利用效率的问题。这使得在保证充足资源和高可用性的同时优化应用程序成为可能。贾森指出，人工智能和自动化能够利用这些数据来自动发现和解决在影响用户之前的问题。

在此基础上，贾森详细解释了如何通过服务水平目标（SLO）来创建一种通用的应用程序质量和可靠性的衡量标准。SLO使得数据驱动的发布和资源优先级调整成为可能。在大规模动态环境中（如Kubernetes），自动化检查SLO合规性变得至关重要。贾森概述了一个DevOps用例，即在CI/CD管道中验证SLO以防止性能下降。观测平台可以从CI/CD工具中接收部署通知，执行性能测试，并根据SLO进行评估，然后将结果反馈给管道以实现自动批准或拒绝。

玛丽强调，由于现代应用程序的复杂性和快速变化，自动化变得尤为重要。她以一个金融服务客户为例，他们花费32小时进行手动验证发布，而这一过程通过自动化可以轻松解决。贾森补充说，随着时间的推移，追踪SLO合规性可提供有关趋势的有价值见解，从而指导改进方向。

在可靠性方面，玛丽通过一个场景展示了分离的微服务中变更带来风险的方式。尽管开发人员在部署更改后进行了自己服务的验证，但其他团队可能会在同一时间发布影响同一服务的更新。她强调统一的观测数据和分布式追踪对于评估服务健康状况至关重要，无论其他因素如何。然后，自动化可以撤消违反SLO的更改以快速恢复服务。

转向安全性方面，玛丽提到了随着发布速度的增加，开发者面临的新的漏洞威胁问题。在很少的时间来扫描和修复问题的情况下，安全性和速度之间存在着有风险的权衡。然而，她认为将安全纳入过程并不意味着会阻碍速度，只要采用正确的解决方案。

玛丽注意到了漏洞的普遍存在，平均每个Java应用程序至少包含50个漏洞。虽然其中一些可能被证明风险很高，但仅根据扫描结果对漏洞进行优先级排序缺乏生产环境背景。她主张使用运行时的统一观测数据来理解实际漏洞暴露和业务风险。这使我们能够精确地确定优先事项并自动化隔离受损害的资源，而不是广泛地中断生产。

杰森赞同这一观点，详细介绍了如何使用分布式追踪和日志进行威胁狩猎、事件调查和审计。通过提供具体的交易级别证据，观测数据加速了安全工作流程。它还促进了开发人员和安全团队之间的合作，揭示了真正影响生产系统的漏洞。

总结关键收获，杰森建议利用观测数据来理解Kubernetes平台本身内的应用程序性能。然后，AI驱动的自动化可以使用这些数据来预先解决问题。实施SLO提供了针对应用程序健康的业务关注视图以指导优先事项。最后，安全和观测应联手，利用统一的数据来保护生产中最重要的事情。

在总结中，玛丽和杰森详细阐述了如何运用可观察性和自动化技术来优化、诊断和保护Kubernetes应用程序。借助生动的案例和实用的建议，他们展示了如何打破孤立，实现更出色的业务成果。与会者们无疑会带着关于如何提高其环境中Kubernetes的可视性、可靠性和安全性的策略，从re:Invent上满载而归。

下面是一些演讲现场的精彩瞬间：

玛丽·杜比（Mary Duby）是Dynatrace公司的一名首席解决方案工程师，她在计算机科学和开发领域开始职业生涯后，已经在该公司工作了将近12年。

她介绍了自己并分享了她的工作经历。

杜比女士强调了Dynatrace在可观察性方面的长期历史和领导地位，公司在15年前就率先推出了分布式追踪技术，并被Gartner等机构评为该领域的顶尖表现者。

Dynatrace的Davis AI引擎和OneAgent允许自动仪器和代码级别的应用程序分析。

讨论的一个精彩时刻是管理Kubernetes环境的复杂性和动态性的重要性。

杜比女士强调了在整个基于Kubernetes的云原生分布式应用程序中实现全面可观察性的重要性。

领导者们谈论了如何利用可观察数据，从安全角度进行审计、进行法医调查、寻找漏洞并根据生产系统、互联网连接和数据库访问等风险因素对漏洞进行优先排序。

总结

该视频探讨了在亚马逊云计算技术中优化Kubernetes应用的最佳实践，即通过运用可观察性和自动化数据来实现这一目标。主讲人强调了深入了解应用堆栈各个层次的重要性，包括从应用本身到基础基础设施的各个层面。这有助于更快速地发现性能问题并加以解决。他们还建议通过添加trace ID来丰富日志记录，以便能够跨服务追踪交易并理解它们之间的依赖关系。强调应利用人工智能（AI）和机器学习来自动识别可观察性数据的异常情况，从而找出问题的根源。建议设定服务等级目标（SLO）并将之作为部署流程的一部分，以实现自动化验证，确保发布的内容符合性能和可靠性标准。在安全方面，主讲人强调除了早期开发阶段的扫描外，还应采用运行时漏洞管理策略。跟踪运行时的漏洞可以提供优先级背景，因为这样可以根据组件之间是如何互动的来进行处理。总的来说，核心观点是运用可观察性数据来优化应用，通过自动化手段确保质量和安全标准的落实，以及通过共享可观察性数据来推动团队合作。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134815050

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。