Resumen
Estamos buscando un Ingeniero SRE Senior (enfocado en Operaciones de Billetera) para garantizar la estabilidad, disponibilidad y rendimiento de nuestra infraestructura central de negocio en AWS. El puesto implica gestionar entornos de producción globales, construir sistemas escalables y de alta disponibilidad, implementar plataformas de automatización y observabilidad, y mantener estándares de seguridad y cumplimiento.
Propósito del Puesto
- Responsable de los despliegues.
- Garantiza que los sistemas funcionen de manera fiable, eficiente y a escala.
- Desarrolla herramientas para mejorar el tiempo de actividad, el rendimiento y la respuesta ante incidentes.
Responsabilidades
- Garantizar la estabilidad, disponibilidad y rendimiento de la infraestructura global en AWS para las operaciones centrales del negocio, asumiendo la responsabilidad de los SLA de producción.
- Diseñar, operar y solucionar problemas en componentes nativos de la nube como Kubernetes, Envoy, malla de servicios (Istio/Linkerd) y controladores Ingress.
- Mejorar la eficiencia operativa mediante la automatización y herramientas de plataforma (IaC, CI/CD), logrando observabilidad del sistema, autocuración y recuperación rápida ante incidentes.
- Implementar y mantener prácticas de seguridad operativa, incluyendo control de acceso (AWS IAM/K8s RBAC), políticas de seguridad de red, gestión de vulnerabilidades y respuesta a incidentes.
- Construir y mejorar un sistema de operaciones global, que incluya planificación de capacidad, monitorización y alertas (Prometheus/ELK), pipelines de CI/CD (GitLab/Jenkins), recuperación ante desastres y recuperación automática de fallos.
- Comprender en profundidad la arquitectura del negocio y participar en el diseño de soluciones de alta disponibilidad y recuperación ante desastres, con optimización continua de costos.
Cualificaciones
- Más de 5 años de experiencia en operaciones Linux, SRE o DevOps, con experiencia en la gestión de sistemas distribuidos a gran escala.
- Dominio de los servicios principales de AWS (EC2, S3, VPC, IAM, ELB, RDS, etc.) con experiencia en arquitectura, operaciones y optimización de costos.
- Conocimientos profundos de la arquitectura de Kubernetes, incluyendo la gestión, resolución de problemas y ajuste de rendimiento de clústeres de producción a gran escala.
- Familiaridad con Envoy, mallas de servicios Istio/Linkerd o controladores Ingress Nginx/Istio para la gestión de tráfico L7.
- Sólida conciencia y prácticas de seguridad operativa, incluyendo vulnerabilidades comunes en sistemas operativos, redes y aplicaciones, y medidas de mitigación.
- Dominio de al menos un lenguaje de programación (Go/Python/Shell) para implementar soluciones de automatización a desafíos operativos.
- Amplia experiencia con stacks de observabilidad como Prometheus y ELK, capaz de construir plataformas de monitorización eficientes.
- Experiencia demostrada en planificación de capacidad y pruebas de rendimiento, con capacidad para cuantificar cuellos de botella del sistema y planificar en consecuencia.
Requisitos Deseables:
- Experiencia en la gestión de equipos de SRE, de herramientas o de plataforma.
- Familiaridad con stacks de observabilidad como Prometheus, Grafana y ELK.
- Certificaciones profesionales como AWS (SAA/SAP) o Kubernetes (CKA/CKE/CKS) son una ventaja.