"토스에서의 SRE는 토스 서비스의 높은 신뢰성과 안정성을 지키기 위해 최전선에서 고민하고 있어요"
장애가 발생하지 않도록 예방하는것과 혹여 장애가 나더라도 빠르게 복구하는 것을 목표로 하고 있어요. 이상 징후를 빠르게 감지할 수 있도록 효과적인 모니터링 시스템을 구축하기도 하고, 장애 발생 시 누구나 복구할 수 있는 시스템을 설계하기도 합니다.
오픈소스 제품을 실험하고 도입도 적극적으로 검토하지만, 요건을 만족하는 적합한 오픈소스가 없거나, 운영하는 오픈 소스들의 Integration이 필요할 때는 서버/웹을 직접 구현하기도 합니다. 서비스 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하는 것도 중요한 목표 중 하나이기 때문에, 이런 과정에 즐거움이 있는 분이라면 좋을 것 같아요.