© 2023, Amazon Web Services, Inc. or its affiliates Operations priorities How do you determine what your priorities are? OPS 1 Operating model How do you structure your organization to support your business outcomes? OPS 2 Organizational culture How does your organizational culture support your business outcomes? OPS 3  Your teams need to have a shared understanding of your entire workload their role in it and shared business goals to set the priorities that will enable business success Well defined priorities will maximize the benefits of your efforts Evaluate internal and external customer needs involving key stakeholders including business development and operations teams to determine where to focus efforts Evaluating customer needs will ensure that you have a thorough understanding of the support that is required to achieve business outcomes Ensure that you are aware of guidelines or obligations defined by your organizational governance and external factors such as regulatory compliance requirements and industry standards that may mandate or emphasize specific focus Validate that you have mechanisms to identify changes to internal governance and external compliance requirements If no requirements are identified ensure that you have applied due diligence to this determination Review your priorities regularly so that they can be updated as needs change Evaluate threats to the business for example business risk and liabilities and information security threats and maintain this information in a risk registry Evaluate the impact of risks and tradeoffs between competing interests or alternative approaches For example accelerating speed to market for new features may be emphasized over cost optimization or you may choose a relational database for non relational data to simplify the effort to migrate a system without refactoring Manage benefits and risks to make informed decisions when determining where to focus efforts Some risks or choices may be acceptable for a time it may be possible to mitigate associated risks or it may become unacceptable to allow a risk to remain in which case you will take action to address the risk Your teams must understand their part in achieving business outcomes Teams need to understand their roles in the success of other teams the role of other teams in their success and have shared goals Understanding responsibility ownership how decisions are made and who has authority to make decisions will help focus efforts and maximize the benefits from your teams The needs of a team will be shaped by the customer they support their organization the makeup of the team and the characteristics of their workload It s unreasonable to expect a single operating model to be able to support all teams and their workloads in your organization Ensure that there are identified owners for each application workload platform and infrastructure component and that each process and procedure has an identified owner responsible for its definition and owners responsible for their performance Having understanding of the business value of each component process and procedure of why those resources are in place or activities are performed and why that ownership exists will inform the actions of your team members Clearly define the responsibilities of team members so that they may act appropriately and have mechanisms to identify responsibility and ownership Have mechanisms to request additions changes and exceptions so that you do not constrain innovation Define agreements between teams describing how they work together to support each other and your business outcomes Provide support for your team members so that they can be more effective in taking action and supporting your business outcomes Engaged senior leadership should set expectations and measure success They should be the sponsor advocate and driver for the adoption of best practices and evolution of the organization Empower team members to take action when outcomes are at risk to minimize impact and encourage them to escalate to decision makers and stakeholders when they believe there is a risk so that it can be address and incidents avoided Provide timely clear and actionable communications of known risks and planned events so that team members can take timely and appropriate action Encourage experimentation to accelerate learning and keeps team members interested and engaged Teams must grow their skill sets to adopt new technologies and to support changes in demand and responsibilities Support and encourage this by providing dedicated structure time for learning Ensure your team members have the resources both tools and team members to be successful and scale to support your business outcomes Leverage cross organizational diversity to seek multiple unique perspectives Use this perspective to increase innovation challenge your assumptions and reduce the risk of confirmation bias Grow inclusion diversity and accessibility within your teams to gain beneficial perspectives … Organization Design for workload insights How do you design your workload so that you can understand its state? OPS 4 Development and integration How do you reduce defects, ease remediation, and improve flow into production? OPS 5 Mitigation of deployment risks How do you mitigate deployment risks? OPS 6 Operational readiness How do you know that you are ready to support a workload? OPS 7  To prepare for operational excellence you have to understand your workloads and their expected behaviors You will then be able design them to provide insight to their status and build the procedures to support them Design your workload so that it provides the information necessary for you to understand its internal state for example metrics logs events and traces across all components in support of observability and investigating issues Iterate to develop the telemetry necessary to monitor the health of your workload identify when outcomes are at risk and enable effective responses When instrumenting your workload capture a broad set of information to enable situational awareness for example changes in state user activity privilege access utilization counters knowing that you can use filters to select the most useful information over time Adopt approaches that improve the flow of changes into production and that enable refactoring fast feedback on quality and bug fixing These accelerate beneficial changes entering production limit issues deployed and enable rapid identification and remediation of issues introduced through deployment activities or discovered in your environments Adopt approaches that provide fast feedback on quality and enable rapid recovery from changes that do not have desired outcomes Using these practices mitigates the impact of issues introduced through the deployment of changes Plan for unsuccessful changes so that you are able to respond faster if necessary and test and validate the changes you make Be aware of planned activities in your environments so that you can manage the risk of changes impacting planed activities Emphasize frequent small reversible changes to limit the scope of change This results in easier troubleshooting and faster remediation with the option to roll back a change It also means you are able to get the benefit of valuable changes more frequently Evaluate the operational readiness of your workload processes procedures and personnel to understand the operational risks related to your workload You should use a consistent process including manual or automated checklists to know when you are ready to go live with your workload or a change This will also enable you to find any areas that you need to make plans to address Have runbooks that document your routine activities and playbooks that guide your processes for issue resolution Understand the benefits and risks to make informed decisions to allow changes to enter production … Prepare Workload health How do you understand the health of your workload? OPS 8 Operations health How do you understand the health of your operations? OPS 9 Event response How do you manage workload and operations events? OPS 10  Successful operation of a workload is measured by the achievement of business and customer outcomes Define expected outcomes determine how success will be measured and identify metrics that will be used in those calculations to determine if your workload and operations are successful Operational health includes both the health of the workload and the health and success of the operations activities performed in support of the workload for example deployment and incident response Establish metrics baselines for improvement investigation and intervention collect and analyze your metrics and then validate your understanding of operations success and how it changes over time Use collected metrics to determine if you are satisfying customer and business needs and identify areas for improvement Efficient and effective management of operational events is required to achieve operational excellence This applies to both planned and unplanned operational events Use established runbooks for well understood events and use playbooks to aid in investigation and resolution of issues Prioritize responses to events based on their business and customer impact Ensure that if an alert is raised in response to an event there is an associated process to be executed with a specifically identified owner Define in advance the personnel required to resolve an event and include escalation triggers to engage additional personnel as it becomes necessary based on urgency and impact Identify and engage individuals with the authority to make a decision on courses of action where there will be a business impact from an event response not previously addressed Communicate the operational status of workloads through dashboards and notifications that are tailored to the target audience for example customer business developers operations so that they may take appropriate action so that their expectations are managed and so that they are informed when normal operations resume … Operate Operations evolution How do you evolve operations? OPS 11  You must learn share and continuously improve to sustain operational excellence Dedicate work cycles to making continuous incremental improvements Perform post incident analysis of all customer impacting events Identify the contributing factors and preventative action to limit or prevent recurrence Communicate contributing factors with affected communities as appropriate Regularly evaluate and prioritize opportunities for improvement for example feature requests issue remediation and compliance requirements including both the workload and operations procedures Include feedback loops within your procedures to rapidly identify areas for improvement and capture learnings from the execution of operations Share lessons learned across teams to share the benefits of those lessons Analyze trends within lessons learned and perform cross team retrospective analysis of operations metrics to identify opportunities and methods for improvement Implement changes intended to bring about improvement and evaluate the results to determine success … Evolve The ability to support development and run workloads effectively, gain insight into their operations, and to continuously improve supporting processes and procedures to deliver business value. Operational Excellence Secure Operations How do you securely operate your workload? SEC 1 To operate your workload securely you must apply overarching best practices to every area of security Take requirements and processes that you have defined in operational excellence at an organizational and workload level and apply them to all areas … Security Authentication How do you manage identities for people and machines? SEC 2 Authorization and access control How do you manage permissions for people and machines? SEC 3 Identity and access management are key parts of an information security program ensuring that only authorized and authenticated users and components are able to access your resources and only in a manner that you intend For example you should define principals that is accounts users roles and services that can perform actions in your account build out policies aligned with these principals and implement strong credential management These privilege management elements form the core of authentication and authorization … Identity & Access Management Security events How do you detect and investigate security events? SEC 4 You can use detective controls to identify a potential security threat or incident They are an essential part of governance frameworks and can be used to support a quality process a legal or compliance obligation and for threat identification and response efforts There are different types of detective controls For example conducting an inventory of assets and their detailed attributes promotes more effective decision making and lifecycle controls to help establish operational baselines You can also use internal auditing an examination of controls related to information systems to ensure that practices meet policies and requirements and that you have set the correct automated alerting notifications based on defined conditions These controls are important reactive factors that can help your organization identify and understand the scope of anomalous activity … Detection Network protection How do you protect your network resources? SEC 5 Compute protection How do you protect your compute resources? SEC 6 Infrastructure protection encompasses control methodologies such as defense in depth necessary to meet best practices and organizational or regulatory obligations Use of these methodologies is critical for successful ongoing operations in either the cloud or on premises … Infrastructure Protection Data classification How do you classify your data? SEC 7 Data protection at rest How do you protect your data at rest? SEC 8 Data protection in transit How do you protect your data in transit? SEC 9 Before architecting any system foundational practices that influence security should be in place For example data classification provides a way to categorize organizational data based on levels of sensitivity and encryption protects data by way of rendering it unintelligible to unauthorized access These tools and techniques are important because they support objectives such as preventing financial loss or complying with regulatory obligations … Data Protection Incident response How do you anticipate, respond to, and recover from incidents? SEC 10 Application security How do you incorporate and validate the security properties of applications throughout the design, development, and deployment lifecycle? SEC 11 Even with extremely mature preventive and detective controls your organization should still put processes in place to respond to and mitigate the potential impact of security incidents The architecture of your workload strongly affects the ability of your teams to operate effectively during an incident to isolate or contain systems and to restore operations to a known good state Putting in place the tools and access ahead of a security incident then routinely practicing incident response through game days will help you ensure that your architecture can accommodate timely investigation and recovery … Incident Response The ability to protect data, systems, and assets to take advantage of cloud technologies to improve your security. Security Service quotas and contraints How do you manage service quotas and constraints? REL 1 Network topology How do you plan your network topology? REL 2 Foundational requirements are those whose scope extends beyond a single workload or project Before architecting any system foundational requirements that influence reliability should be in place For example you must have sufficient network bandwidth to your data center … Foundations Service architecture How do you design your workload service architecture? REL 3 Design interactions to prevent failures How do you design interactions in a distributed system to prevent failures? REL 4 Design interactions to mitigate failures How do you design interactions in a distributed system to mitigate or withstand failures? REL 5 A reliable workload starts with upfront design decisions for both software and infrastructure Your architecture choices will impact your workload behavior across all five Well Architected pillars For reliability there are specific patterns you must follow … Workload Architecture Resource monitoring How do you monitor workload resources? REL 6 Demand handling How do you design your workload to adapt to changes in demand? REL 7 Change management How do you implement change? REL 8 Changes to your workload or its environment must be anticipated and accommodated to achieve reliable operation of the workload Changes include those imposed on your workload such as spikes in demand as well as those from within such as feature deployments and security patches … Change Management Data backup How do you back up data? REL 9 Fault isolation How do you use fault isolation to protect your workload? REL 10 Resiliency implementation How do you design your workload to withstand component failures? REL 11 Reliability testing How do you test reliability? REL 12 Disaster recovery How do you plan for disaster recovery (DR)? REL 13 In any system of reasonable complexity it is expected that failures will occur Reliability requires that your workload be aware of failures as they occur and take action to avoid impact on availability Workloads must be able to both withstand failures and automatically repair issues … Failure Management The ability of a workload to perform its intended function correctly and consistently when it’s expected to. This includes the ability to operate and test the workload through its total lifecycle. This paper provides in-depth, best practice guidance for implementing reliable workloads on AWS. Reliability Architecture selection How do you select the best performing architecture? PERF 1 Compute selection How do you select your compute solution? PERF 2 Storage selection How do you select your storage solution? PERF 3 Database selection How do you select your database solution? PERF 4 Networking selection How do you configure your networking solution? PERF 5  The optimal solution for a particular workload varies and solutions often combine multiple approaches Well architected workloads use multiple solutions and enable different features to improve performance … Selection Evolving architecture How do you evolve your workload to take advantage of new releases? PERF 6 Cloud technologies are rapidly evolving and you must ensure that workload components are using the latest technologies and approaches to continually improve performance You must continually evaluate and consider changes to your workload components to ensure you are meeting its performance and cost objectives New technologies such as machine learning and artificial intelligence AI can allow you to re imagine customer experiences and innovate across all of your business workloads … Review Monitor performance How do you monitor your resources to ensure they are performing? PERF 7  After you implement your workload you must monitor its performance so that you can remediate any issues before they impact your customers Monitoring metrics should be used to raise alarms when thresholds are breached … Monitoring Performance tradeoffs How do you use tradeoffs to improve performance? PERF 8  When you architect solutions think about tradeoffs to ensure an optimal approach Depending on your situation you could trade consistency durability and space for time or latency to deliver higher performance … Tradeoffs The ability to use computing resources efficiently to meet system requirements, and to maintain that efficiency as demand changes and technologies evolve. Performance Efficiency Cloud Financial Management How do you implement cloud financial management? COST 1  With the adoption of cloud technology teams innovate faster due to shortened approval procurement and infrastructure deployment cycles A new approach to financial management in the cloud is required to realize business value and financial success This approach is Cloud Financial Management and builds capability across your organization by implementing organizational wide knowledge building programs resources and processes Many organizations are composed of many different units with different priorities The ability to align your organization to an agreed set of financial objectives and provide your organization the mechanisms to meet them will create a more efficient organization A capable organization will innovate and build faster be more agile and adjust to any internal or external factors … Practice Cloud Financial Management Usage governance How do you govern usage? COST 2 Usage and cost monitoring How do you monitor usage and cost? COST 3 Resource decommissioning How do you decommission resources? COST 4 The increased flexibility and agility that the cloud enables encourages innovation and fast paced development and deployment It eliminates the manual processes and time associated with provisioning on premises infrastructure including identifying hardware specifications negotiating price quotations managing purchase orders scheduling shipments and then deploying the resources However the ease of use and virtually unlimited on demand capacity requires a new way of thinking about expenditures Many businesses are composed of multiple systems run by various teams The capability to attribute resource costs to the individual organization or product owners drives efficient usage behavior and helps reduce waste Accurate cost attribution allows you to know which products are truly profitable and allows you to make more informed decisions about where to allocate budget … Expenditure & usage awareness Service selection How do you evaluate cost when you select services? COST 5 Resource type, size and number selection How do you meet cost targets when you select resource type, size and number? COST 6 Pricing model selection How do you use pricing models to reduce cost? COST 7 Data transfer planning How do you plan for data transfer charges? COST 8 Using the appropriate instances and resources for your workload is key to cost savings For example a reporting process might take five hours to run on a smaller server but one hour to run on a larger server that is twice as expensive Both servers give you the same outcome but the smaller server incurs more cost over time A well architected workload uses the most cost effective resources which can have a significant and positive economic impact You also have the opportunity to use managed services to reduce costs For example rather than maintaining servers to deliver email you can use a service that charges on a per message basis … Cost-effective resources Manage demand and supply resources How do you manage demand, and supply resources? COST 9 When you move to the cloud you pay only for what you need You can supply resources to match the workload demand at the time they re needed this eliminates the need for costly and wasteful over provisioning You can also modify the demand using a throttle buffer or queue to smooth the demand and serve it with less resources resulting in a lower cost or process it at a later time with a batch service … Manage dem& & supply resources New service evaluation How do you evaluate new services? COST 10 Effort cost evaluation How do you evaluate the cost of effort? COST 11 As AWS releases new services and features it s a best practice to review your existing architectural decisions to ensure they continue to be the most cost effective As your requirements change be aggressive in decommissioning resources entire services and systems that you no longer require … Optimize over time The ability to run systems to deliver business value at the lowest price point. Cost Optimization Region selection How do you select Regions for your workload? SUS 1 Choose Regions where you will implement your workloads based on both your business requirements and sustainability goals … Region selection Alignment to demand How do you align cloud resources to your demand? SUS 2 The way users and applications consume your workloads and other resources can help you identify improvements to meet sustainability goals Scale infrastructure to continually match demand and verify that you use only the minimum resources required to support your users Align service levels to customer needs Position resources to limit the network required for users and applications to consume them Remove unused assets Provide your team members with devices that support their needs and minimize their sustainability impact … Alignment to demand Software and architecture How do you take advantage of software and architecture patterns to support your sustainability goals? SUS 3 Implement patterns for performing load smoothing and maintaining consistent high utilization of deployed resources to minimize the resources consumed Components might become idle from lack of use because of changes in user behavior over time Revise patterns and architecture to consolidate under utilized components to increase overall utilization Retire components that are no longer required Understand the performance of your workload components and optimize the components that consume the most resources Be aware of the devices your customers use to access your services and implement patterns to minimize the need for device upgrades … Software & architecture Data How do you take advantage of data management policies and patterns to support your sustainability goals? SUS 4 Implement data management practices to reduce the provisioned storage required to support your workload and the resources required to use it Understand your data and use storage technologies and configurations that best support the business value of the data and how it s used Lifecycle data to more efficient less performant storage when requirements decrease and delete data that s no longer required … Data Hardware and services How do you select and use cloud hardware and services in your architecture to support your sustainability goals? SUS 5 Look for opportunities to reduce workload sustainability impacts by making changes to your hardware management practices Minimize the amount of hardware needed to provision and deploy and select the most efficient hardware and services for your individual workload … Hardware & services Process and culture How do your organizational processes support your sustainability goals? SUS 6 Look for opportunities to reduce your sustainability impact by making changes to your development test and deployment practices … Process & culture The discipline of sustainability addresses the long-term environmental, economic, and societal impact of your business activities. The United Nations World Commission on Environment and Development defines sustainable development as "development that meets the needs of the present without compromising the ability of future generations to meet their own needs." Your business or organization can have negative environmental impacts like direct or indirect carbon emissions, unrecyclable waste, and damage to shared resources like clean water. Sustainability