Coherencia estructural del modelo — unicidad, relaciones válidas, cardinalidades y trazabilidad

Principio fundamental: Si la integridad falla, el problema no es estadístico — es ontológico. El modelo dejó de representar correctamente las entidades del mundo. Todo lo construido encima (ML, reportes, decisiones) es sospechoso.

🔑 Unicidad (PK)

Tasa de duplicación

PKs repetidas / n

Si no es 0, la tabla no tiene identidad.

ideal = 0

Duplicados semánticos

PK técnica única, pero mismo hecho capturado dos veces. Frontera con deduplicación.

🔗 Referencial (FK)

FK Coverage

FK con PK válida / total FK no nulas

ideal = 1.0

Huérfanos

Registros cuya FK no encuentra padre. En data lakes: no hay constraints físicos → medir como regla de calidad.

📐 Cardinalidades

Hijos por padre

mean + distribución de hijos

Si esperas 1 y obtienes 3.7 → relación rota o modelo mal definido.

Violaciones típicas

Más de 1 hijo en relación 1:1 · Explosión combinatoria en joins · Hijos sin padre en 1:N

🧵 Lineage / Trazabilidad

Estabilidad de ID

% IDs conservados raw → curated → feature

Un ID que cambia arbitrariamente entre capas rompe auditabilidad.

ideal = 100%

En reporting regulatorio

Romper lineage impide reconstruir la cadena de evidencia.

🔍 Integridad referencial: válida vs. rota

Tabla A (Padre)

PK: 001

PK: 002

PK: 003

FK → PK → 1 : N

✓ Íntegra

FK: 001 ✓

FK: 003 ✓

FK: 002 ✓

✗ Con huérfanos

FK: 001 ✓

FK: 099 ✗ huérfano

FK: 003 ✓

FK: 047 ✗ huérfano

⚠ Trampas frecuentes

Data lakes sin constraints físicos: el motor no aplica reglas → integridad invisible hasta que falla.

Integridad temporal (SCD): una relación válida en t₁ puede ser inválida en t₂. Sin control histórico, la integridad actual oculta una historia rota.

En ML: entrenar sobre un modelo con huérfanos o duplicados es aprender sobre una estructura que no representa el mundo.

✅ Buenas prácticas

En OLTP (Postgres/SQL Server): aplicar constraints físicos PK/FK como garantía ejecutable.

En data lake / lakehouse: medir duplicados, huérfanos y cardinalidades como reglas de calidad explícitas.

Delta Lake / Iceberg: constraints declarativos + versionado de tablas elevan integridad a garantía.

Monitorear lineage de IDs en cada capa del pipeline (raw → curated → feature store).

Calidad de Datos · Integridad