Calidad de Datos · Exactitud

¿Cuánto refleja el dato la realidad? — requiere fuente de referencia externa (golden record)

Principio fundamental: Exactitud ≠ Consistencia. Un dataset puede ser internamente perfecto y completamente falso. Para medir exactitud siempre se necesita una fuente más confiable contra la cual comparar.
▲ Variables Numéricas
MAE
mean(|valor_real – valor_obs|)
Interpretable, robusto. Preferible en gobernanza.
⭐ Recomendado
RMSE
√mean((real – obs)²)
Penaliza errores grandes. Útil si outliers importan.
Bias medio
mean(valor_obs – valor_real)
Detecta subdeclaración sistemática (ej: emisiones).
⊞ Variables Categóricas
Match Rate
coincidencias / total
Coincidencia exacta registro a registro.
Jaro-Winkler
Similitud para strings cortos con errores tipográficos.
Sintáctico
Cosine (embeddings)
"Min. Ambiente" vs "Min. Medio Ambiente" → misma entidad.
Semántico
⚑ Variables Geoespaciales
Error medio (m)
Distancia promedio respecto a coordenada de referencia.
Percentil 95
El 95% de puntos está dentro de X metros. Robusto a outliers.
% bajo umbral
puntos con error < 50m / total
Crítico en ambiental: 50m puede cambiar jurisdicción normativa.
⚠ Trampa Clásica

Un padrón de clientes que replica mal un sistema externo, pero lo hace coherentemente.

Resultado: perfectamente consistente, completamente inexacto.

La exactitud es dinámica: un dato exacto hoy puede ser inexacto mañana (cargos, precios, direcciones).

🔑 Fuentes de Referencia (Golden Record)
La pregunta profunda no es "¿qué tan exacto?" sino "¿dónde y por qué se degrada?"