Calidad de Datos · Consistencia

Coherencia interna del ecosistema — mismo objeto, mismo significado, en todos los sistemas y momentos

Principio fundamental: No es exactitud (vs. realidad) ni integridad (relaciones estructurales). Es que el mismo objeto no tenga dos identidades según quién lo mire. Sin consistencia, el data warehouse se convierte en una federación de relatos paralelos.

1 · Sintáctico

Mismo formato y tipo.
"UY" vs "Uruguay" vs "858"

2 · Semántico

Mismo significado.
fecha_creacion = ¿alta comercial o carga técnica?

3 · Temporal

Coherente a lo largo del tiempo.
Sin modificaciones retroactivas sin trazabilidad.

📏 Reglas intra-tabla

Tasa de inconsistencias
registros que violan regla / n
Define la regla primero, luego mide.
Ejemplo
Regla: si estado_pago = "Pagado"fecha_pago no puede ser NULL.
ideal = 0

🔀 Discrepancias entre fuentes

Match Rate
coincidencias exactas / total comparado
Para valores categóricos entre sistemas que representan lo mismo.
MAE entre fuentes
mean(|fuente_A − fuente_B|)
Para variables numéricas. Segmentar por fuente y canal de captura.
¿cuál es el system of record?

⚖️ Reglas de negocio

Violaciones por regla
count(violaciones) y tasa por regla
Ejemplos
Si tipo = "Empresa" → CUIT válido obligatorio.
Si fecha_baja existe → estado ≠ "Activo".
semántica avanzada

⏱ Inconsistencia transitoria vs. estructural — el caso de la asincronía

Sistema A actualiza estado
10:01
ventana de inconsistencia ecosistema temporalmente inconsistente
Sistema B sincroniza
10:05
Ecosistema consistente
10:05+
Transitoria → tolerable según SLA Estructural → error de diseño

⚠ Trampas frecuentes

Mismo nombre, distinto significado: fecha_creacion en sistema A = alta comercial; en B = carga técnica. Sintácticamente igual, semánticamente opuesto.

En ML: un target con estados contradictorios según la fuente introduce ambigüedad ontológica — el modelo aprende incertidumbre estructural, no ruido estadístico.

✅ Herramientas de control

Definir el system of record por dominio — quién es la fuente de verdad.
Diccionario de datos versionado con definición semántica de cada campo.
Glosario corporativo + stewardship activo para detectar inconsistencias semánticas.
% de registros históricos alterados sin log de cambio como métrica de consistencia temporal.