티스토리 뷰

기타

DevOps와 SRE 무엇이 다른가?

jckim 2022. 2. 21. 15:06

결론부터 이야기하자면 SRE(도구)는 DevOps(문화)를 구현하는 역할이다.

 


DevOps란

Developement 와 Operations의 합성어로
개발과 운영의 구분없이 모두 수행하는 문화, 원칙을 말한다.
 
실제로 운영팀과 구축(개발)팀의 상황에서만 봐도 각각의 입장 차이가 있어
서로의 입장차이를 조율하는데 있어서 프로젝트 관리자의 역할이 중요한 상황이 빈번하게 발생한다.
 
때문에 개발, 테스트, 배포, 운영까지 모두 개발팀과 운영팀 구분없이 모든 일을 하나의 조직에서 진행하는 문화, 원칙이 탄생하게 된 것으로 보인다.
 

데브옵스 특징

  • 기존 개발/운영의 분리의 사일로(분권) 조직을 줄임.
  • 개발/배포 중 문제 발생 확률을 줄이려는 데 집중
 

데브옵스 장점

  • 최소 인원으로 개발, 운영이 가능함.
  • 운영하고 있는 환경이기 때문에 별도 개발팀에 새롭게 파악하는 것보다 빠름
  • 운영하고 있는 환경이기 때문에 작업에 따른 영향도 파악이 정확하여 배포에 따른 운영 안정성 향상
  • 하나의 팀에서 개발, 테스트, 배포 등 모두를 담당하기 때문에 개발에서 배포까지의 속도 향상

SRE란

SRE(사이트 안정성 엔지니어링)란 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 달성하도록 지원하는 엔지니어링 분야이다.
 

SRE 역할

DevOps 문화를 바탕으로 개발자들이 테스트, 배포, 모니터링 할 수 있는 플랫폼을 개발하는 역할

Metrics & Monitoring (장애탐지)
모니터링의 지표를 정의하고, 해당 지표를 모니터링 시스템에서도 적용하여 모니터링 할 수 있게하여
모든 것은 데이터로 남겨 해당 데이터를 기반으로 의사결정을 진행.
    - SLI (Service Level Indictor) : 서비스 수준을 판단할 수 있는 몇 가지를 정량적으로 측정할 수 있는 척도
    - SLO (Service Level Objective) : SLI에 의해 측정된 서비스 수준의 목표 값 혹은 일정 범위의 값
SLI를 먼저 정하고, 각각의 지표에 대한 안정성 목표를 SLO로 설정하여 운영관리
 
Capacity Planning(용량 계획)
누적된 데이터를 통해서 시스템 운영에 필요한 충분한 하드웨어 리소스 확보, 설계 및 관리
 
Change Management (장애탐지, 장애복구)
배포시 장애가 발생하였을 때 신속하고 정확하게 문제를 찾아낼 수 있도록 해야함
문제가 발생하였을 때 신속하게 롤백 가능하게 해야함
 
Emergency Response (장애복구, 장애재발방지, 장애예방)
장애가 발생하더라도 신속하게 롤백 될 수 있도록 복구 또한 자동화 해야함.
 
Culture
장애리뷰, 장애재발방지, 장애예방을 위해 장애경험을 공유하고 누적된 데이터를 기반으로 의견 공유 및 결정을 할 수 있도록 해야함.

 

  • 조직적인 사일로(silo : 분권) 줄임
  • 일반적인 실패허용
  • 점진적인 변화
  • 도구 활용 및 자동화
  • 모든 것을 측정

 

 

참고자료

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함