Responsabilidades del puesto
1. Infraestructura y operación de servidores (Responsabilidad principal)
- Diseñar, implementar y optimizar la arquitectura del clúster de servidores de la empresa (OCI / AWS).
- Gestionar servidores Linux, entorno del sistema, permisos de usuario, claves SSH, SFTP, Firewall y grupos de seguridad.
- Configurar Nginx, SSL, proxy inverso, dominios y gestión de certificados, manteniendo alta disponibilidad y seguridad.
- Mantener máquinas virtuales, balanceadores de carga (LB), almacenamiento de objetos, redes VPC/VCN, subredes y políticas de grupos de seguridad.
- Resolver incidencias en entornos de producción: puertos ocupados, errores de permisos, servicios que no arrancan, discos llenos, anomalías de red, etc.
2. CI/CD y gestión de despliegues
- Diseñar, implementar y mantener canalizaciones de CI/CD (GitHub Actions / GitLab CI / Jenkins).
- Desarrollar y mantener scripts de despliegue y de construcción automatizada, gestión de variables de entorno y procesos de publicación de versiones.
- Definir estrategias de despliegue y de reversión para entornos de pruebas, UAT y producción; implementando despliegues blue-green y canary.
- Colaborar con el equipo de desarrollo en lanzamientos rutinarios, correcciones de emergencia y gestión de configuraciones.
3. Estabilidad y disponibilidad del sistema (Enfoque SRE)
- Establecer un sistema de monitorización de aplicaciones (Prometheus, Grafana, ELK, CloudWatch).
- Implementar un sistema de alertas para CPU, memoria, disco, anomalías de servicio y de interfaces.
- Definir y aplicar SLA, SLO y SLI para mejorar la estabilidad del sistema.
- Realizar planificación de capacidad, optimización de rendimiento y pruebas de estrés periódicas.
4. Seguridad y gestión de permisos
- Administrar cuentas de servidor, cuentas en la nube, permisos de repositorio Git y accesos a sistemas Jira/Wiki.
- Implementar y mantener bastiones (Jump Server/Bastion) siguiendo el principio de privilegios mínimos.
- Redactar políticas de base de seguridad y realizar actualizaciones de parches, análisis de vulnerabilidades e inspecciones de seguridad periódicas.
- Colaborar con los equipos de seguridad y de gestión de riesgos en la resolución de incidentes (ataques de fuerza bruta, tráfico anómalo, vulnerabilidades de servicio, etc.).
5. Mantenimiento de bases de datos y middleware
- Gestionar el despliegue, respaldo y configuración maestro-esclavo de servicios como MySQL, PostgreSQL, Redis y Kafka.
- Optimizar el rendimiento de bases de datos, analizar consultas lentas y configurar pools de conexiones.
- Implementar estrategias de respaldo, copias de seguridad automáticas, recuperación ante desastres en ubicaciones remotas y ejercicios de restauración periódicos.
6. Documentación y gestión de activos
- Mantener registros de servidores, certificados de dominios y listas de permisos.
- Redactar y actualizar documentación de operaciones: guías de despliegue, procesos de puesta en producción, políticas de seguridad y diagramas de arquitectura.
- Gestionar activos de operaciones: especificaciones de servidores, paneles de monitorización, claves, configuraciones de entorno y topología de red.
7. Construcción de equipo y procesos
- Supervisar la gestión diaria y el desarrollo del equipo de operaciones.
- Promover la implementación de procesos de cambio en producción, procedimientos de despliegue, gestión de permisos y planes de recuperación ante desastres.
- Coordinarse con equipos de desarrollo, backend, DBA y seguridad para resolver fallos críticos.
Requisitos
- Dominio de la administración de sistemas Linux, scripting en Shell y fundamentos de redes (capas 3/4/7).
- Experiencia en operación de plataformas en la nube: OCI / AWS.
- Dominio de Nginx, SSL, proxy inverso, Keepalived y balanceo de carga.
- Experiencia con Docker y Kubernetes (al menos Docker y Docker Compose de forma experta).
- Conocimiento de canalizaciones CI/CD (GitHub Actions / GitLab CI / Jenkins).
- Dominio de MySQL, replicación maestro-esclavo, respaldos, recuperaciones y optimización de rendimiento.
- Conocimiento de al menos uno de los siguientes middleware: Redis, Kafka o RabbitMQ.
- Experiencia en la implementación de sistemas de monitorización: Prometheus, Grafana, ELK o Loki.
Valorable
- Alta capacidad de análisis lógico y resolución rápida de incidencias en producción.
- Visión integral de un sistema de operaciones: monitorización, alertas, seguridad, permisos y procesos.
- Excelentes habilidades de documentación para estructurar inventarios de activos, topologías de red y procedimientos.
- Habilidad para comunicarse y coordinarse con múltiples equipos.
- Experiencia en operaciones en los sectores financiero, de bolsa o blockchain.
- Conocimiento en diseño de arquitecturas de alta concurrencia y alta disponibilidad.