Este glosario se centra en los términos que los equipos utilizan realmente al planificar la infraestructura, solucionar incidentes y evaluar proveedores.
Términos clave
- Tiempo de actividad: Porcentaje de tiempo que un servicio está disponible para los usuarios.
- Latencia: Tiempo que tarda una solicitud en viajar y regresar.
- TTFB: Tiempo hasta el primer byte; un indicador clave de la respuesta del servidor.
- CDN: Red de borde distribuida utilizada para entregar activos estáticos más rápido.
- DNS: Sistema que asigna nombres de dominio a direcciones de servidor.
- SSL/TLS: Capa de cifrado para la comunicación segura cliente-servidor.
- Copia de seguridad: Copia de los datos utilizada para la recuperación tras un fallo o eliminación.
- Punto de restauración: Instantánea de respaldo específica a la que puedes recuperar.
- Cortafuegos: Filtrado de tráfico basado en reglas a nivel de red o de host.
- WAFCortafuegos de aplicaciones web para el filtrado de amenazas a nivel HTTP.
Términos de Aplicación y Operaciones
- Balanceador de carga: Componente que distribuye el tráfico entre múltiples instancias.
- Autoescalado: Ajuste automático de recursos según la demanda.
- El contenedor: Paquete de tiempo de ejecución aislado para el despliegue de aplicaciones.
- CI/CD: Canalización automatizada de compilación, pruebas y despliegue.
- Acuerdo de Nivel de Servicio: Acuerdo de Nivel de Servicio que define los objetivos de soporte y disponibilidad.
- Incidente: Evento no planificado que degrada o interrumpe el servicio.
- Autopsia: Análisis estructurado después de un incidente con acciones correctivas.
- RTO: Objetivo de tiempo de recuperación, tiempo objetivo para restaurar el servicio.
- RPO: Objetivo de Punto de Recuperación, ventana de pérdida de datos aceptable.
- ObservabilidadCapacidad para comprender el comportamiento del sistema a partir de registros, métricas y trazas.
Utiliza este glosario como un lenguaje común dentro de tu equipo. Una terminología clara mejora las decisiones de arquitectura y reduce la confusión en los incidentes.
Línea base de KPI de infraestructura
Utiliza una línea base pequeña de KPI para mantener las decisiones objetivas: tiempo de actividad, TTFB, tasa de errores y tiempo de restauración. La revisión regular de estas métricas mejora la priorización y previene la resolución de problemas de manera reactiva.
- Realiza un seguimiento de los cambios semanales en el tiempo de respuesta y la tasa de errores.
- Valida mensualmente el éxito de las copias de seguridad y la duración de la restauración.
- Documente los incidentes recurrentes y las tareas de prevención.