Calidad de Datos · Actualidad

¿El dato sigue siendo válido para la decisión que soporta? — frescura + latencia

Principio fundamental: Un dato exacto pero desactualizado es una fotografía vieja del mundo. Actualizar con frecuencia no garantiza frescura: un pipeline que corre cada hora con 72h de atraso sigue siendo obsoleto.

🔁 Anatomía del tiempo en un pipeline

Evento
event_time
Ingesta
ingest_time
ETL / Proceso
Disponible
available_time
Uso / Decisión
now
Latencia ingesta = ingest − event
Latencia total  = available − event
Freshness      = now − event_time

🕐 Frescura (Freshness)

Por registro
now − event_time
Antigüedad real del dato en el momento de uso.
Estadísticas útiles
Media, P95, distribución por fuente.
⭐ P95 más informativo que media
Alerta crítica
Si usás timestamp de carga en vez de evento, subestimás la frescura real.

📋 SLA de Frescura

Cumplimiento
registros con freshness ≤ umbral / total
Define un umbral operativo según el proceso de negocio.
Ejemplos de umbral
Fraude: segundos · Ambiental: 48h · Catastro: semanas
Reporte
% de cumplimiento SLA por fuente y dominio, en el tiempo.

⚡ Latencia end-to-end

Latencia total
available_time − event_time
Mide el pipeline completo: API → Cola → ETL → Lake → Dashboard.
Métricas a monitorear
Media · P95 · Máxima · Desviación estándar
La variabilidad importa tanto como el promedio

⚠ Trampas frecuentes

Frecuencia ≠ Frescura: actualizar cada hora con datos de 72h de atraso no es fresco, es periódicamente viejo.

Data staleness estructural: una dirección exacta pero irrelevante porque cambió el centro operativo.

En ML: retrasos sistemáticos en el pipeline causan data drift y concept drift silenciosos.

⏱ SLA según contexto

Fraude financierosegundos
Alerta calidad de aire< 1 hora
Reporte ambiental48 horas
Dashboard agroproductivo24 horas
Catastro / padrón fiscaldías / semanas

La pregunta madura: ¿sigue siendo útil para la decisión que pretende soportar?