Senior SRE Engineer

Ingeniero Senior de Confiabilidad del Sitio

Moledao

Negociable

RemotoExp de Yrs 5-10BaceleroTiempo completo

Detalles remotos

Abrir país：A nivel mundial

Requisitos de idioma：Inglés

Descripción del trabajo

Mostrar texto original

Resumen

Estamos buscando un Ingeniero SRE Senior (enfocado en Operaciones de Billetera) para garantizar la estabilidad, disponibilidad y rendimiento de nuestra infraestructura central de negocio en AWS. El puesto implica gestionar entornos de producción globales, construir sistemas escalables y de alta disponibilidad, implementar plataformas de automatización y observabilidad, y mantener estándares de seguridad y cumplimiento.

Propósito del Puesto

Responsable de los despliegues.
Garantiza que los sistemas funcionen de manera fiable, eficiente y a escala.
Desarrolla herramientas para mejorar el tiempo de actividad, el rendimiento y la respuesta ante incidentes.

Responsabilidades

Garantizar la estabilidad, disponibilidad y rendimiento de la infraestructura global en AWS para las operaciones centrales del negocio, asumiendo la responsabilidad de los SLA de producción.
Diseñar, operar y solucionar problemas en componentes nativos de la nube como Kubernetes, Envoy, malla de servicios (Istio/Linkerd) y controladores Ingress.
Mejorar la eficiencia operativa mediante la automatización y herramientas de plataforma (IaC, CI/CD), logrando observabilidad del sistema, autocuración y recuperación rápida ante incidentes.
Implementar y mantener prácticas de seguridad operativa, incluyendo control de acceso (AWS IAM/K8s RBAC), políticas de seguridad de red, gestión de vulnerabilidades y respuesta a incidentes.
Construir y mejorar un sistema de operaciones global, que incluya planificación de capacidad, monitorización y alertas (Prometheus/ELK), pipelines de CI/CD (GitLab/Jenkins), recuperación ante desastres y recuperación automática de fallos.
Comprender en profundidad la arquitectura del negocio y participar en el diseño de soluciones de alta disponibilidad y recuperación ante desastres, con optimización continua de costos.

Cualificaciones

Más de 5 años de experiencia en operaciones Linux, SRE o DevOps, con experiencia en la gestión de sistemas distribuidos a gran escala.
Dominio de los servicios principales de AWS (EC2, S3, VPC, IAM, ELB, RDS, etc.) con experiencia en arquitectura, operaciones y optimización de costos.
Conocimientos profundos de la arquitectura de Kubernetes, incluyendo la gestión, resolución de problemas y ajuste de rendimiento de clústeres de producción a gran escala.
Familiaridad con Envoy, mallas de servicios Istio/Linkerd o controladores Ingress Nginx/Istio para la gestión de tráfico L7.
Sólida conciencia y prácticas de seguridad operativa, incluyendo vulnerabilidades comunes en sistemas operativos, redes y aplicaciones, y medidas de mitigación.
Dominio de al menos un lenguaje de programación (Go/Python/Shell) para implementar soluciones de automatización a desafíos operativos.
Amplia experiencia con stacks de observabilidad como Prometheus y ELK, capaz de construir plataformas de monitorización eficientes.
Experiencia demostrada en planificación de capacidad y pruebas de rendimiento, con capacidad para cuantificar cuellos de botella del sistema y planificar en consecuencia.

Requisitos Deseables:

Experiencia en la gestión de equipos de SRE, de herramientas o de plataforma.
Familiaridad con stacks de observabilidad como Prometheus, Grafana y ELK.
Certificaciones profesionales como AWS (SAA/SAP) o Kubernetes (CKA/CKE/CKS) son una ventaja.