Calidad de Datos · Integridad

Coherencia estructural del modelo — unicidad, relaciones válidas, cardinalidades y trazabilidad

Principio fundamental: Si la integridad falla, el problema no es estadístico — es ontológico. El modelo dejó de representar correctamente las entidades del mundo. Todo lo construido encima (ML, reportes, decisiones) es sospechoso.

🔑 Unicidad (PK)

Tasa de duplicación
PKs repetidas / n
Si no es 0, la tabla no tiene identidad.
ideal = 0
Duplicados semánticos
PK técnica única, pero mismo hecho capturado dos veces. Frontera con deduplicación.

🔗 Referencial (FK)

FK Coverage
FK con PK válida / total FK no nulas
ideal = 1.0
Huérfanos
Registros cuya FK no encuentra padre. En data lakes: no hay constraints físicos → medir como regla de calidad.

📐 Cardinalidades

Hijos por padre
mean + distribución de hijos
Si esperas 1 y obtienes 3.7 → relación rota o modelo mal definido.
Violaciones típicas
Más de 1 hijo en relación 1:1 · Explosión combinatoria en joins · Hijos sin padre en 1:N

🧵 Lineage / Trazabilidad

Estabilidad de ID
% IDs conservados raw → curated → feature
Un ID que cambia arbitrariamente entre capas rompe auditabilidad.
ideal = 100%
En reporting regulatorio
Romper lineage impide reconstruir la cadena de evidencia.

🔍 Integridad referencial: válida vs. rota

Tabla A (Padre)

PK: 001
PK: 002
PK: 003
FK → PK 1 : N

✓ Íntegra

FK: 001 ✓
FK: 001 ✓
FK: 003 ✓
FK: 002 ✓

✗ Con huérfanos

FK: 001 ✓
FK: 099 ✗ huérfano
FK: 003 ✓
FK: 047 ✗ huérfano

⚠ Trampas frecuentes

Data lakes sin constraints físicos: el motor no aplica reglas → integridad invisible hasta que falla.

Integridad temporal (SCD): una relación válida en t₁ puede ser inválida en t₂. Sin control histórico, la integridad actual oculta una historia rota.

En ML: entrenar sobre un modelo con huérfanos o duplicados es aprender sobre una estructura que no representa el mundo.

✅ Buenas prácticas

En OLTP (Postgres/SQL Server): aplicar constraints físicos PK/FK como garantía ejecutable.
En data lake / lakehouse: medir duplicados, huérfanos y cardinalidades como reglas de calidad explícitas.
Delta Lake / Iceberg: constraints declarativos + versionado de tablas elevan integridad a garantía.
Monitorear lineage de IDs en cada capa del pipeline (raw → curated → feature store).