Data Mapping Agent para Data Cloud.
Conectar nuevas fuentes a Data Cloud sin meses de mapping manual ni tickets infinitos.
El agente OOTB de Agentforce que automatiza el mapping de fuentes externas (Snowflake, BigQuery, Databricks zero-copy, S3, Mulesoft endpoints, Salesforce sources) a los DMOs de Data Cloud. Auto-detecta tipos, sugiere DMO destino o creación, propone transformaciones, valida sample data, configura Data Streams con monitoreo y avisa cuando hay schema drift. Pensado para Data Engineer, Integration Architect y Data Steward.
¿Qué hace Data Mapping Agent?
Es un agente OOTB de Agentforce que reduce el mapping de fuentes externas a Data Cloud, una de las tareas que más tiempo consume al equipo data, a un proceso asistido por IA. Conecta a la fuente, descubre el schema, infiere tipos, hace matching contra DMOs estándar y custom, propone transformaciones (normalización de email, formato E.164, masking de PII), valida con sample data y deja el Data Stream configurado con alertas de schema drift listas.
Cómo funciona paso a paso
De ingesta de metadata a Data Stream en producción. 6 pasos en una conexión típica.
Ingesta de metadata
El agente conecta a la fuente (Snowflake, BigQuery, Databricks zero-copy, S3, Mulesoft endpoints, Salesforce sources) y descubre el schema completo: tablas, columnas, tipos y relaciones.
Inferencia de tipos
Analiza muestras de datos para refinar la inferencia de tipos. Detecta columnas que se ven como string pero contienen fechas, códigos o JSON estructurado.
Matching contra DMOs
Compara cada tabla y columna contra el catálogo de DMOs estándar y custom. Sugiere DMO destino, mapping campo a campo o creación de DMO custom donde no haya match razonable.
Composición de transformaciones
Propone transformaciones por columna: normalización de email, formato E.164 para teléfonos, conversión de fechas, hashing de PII, mappings condicionales de status u otros valores.
Validación con sample
Ejecuta el mapping completo sobre un sample de filas, muestra el resultado al Data Engineer y permite ajuste antes del deploy. Reporta tasa de errores y casos límite.
Deploy del Data Stream
Configura el Data Stream con la frecuencia adecuada, deja alertas activas para schema drift y notifica al owner. El stream queda monitoreado y con audit trail.
Ejemplo de interacción
[Conexión a Snowflake]
[Propuesta de mapping]
Arquitectura técnica
Topics, Actions, Hydrators, Effectors, Channels, DMOs, Trust Layer y Memory que sostienen al agente.
Topics
Dominios de razonamiento
- Schema Discoverer
- Type Inferer
- DMO Matcher
- Transformation Composer
- Validation Sampler
- Stream Configurator
Actions y canales
Lo que ejecuta y dónde vive
- analyzeSource
- proposeMapping
- validateSample
- deployStream
- monitorIngestion
- Lightning
- Slack vía MCP
Hydrators y DMOs
Contexto y memoria
- Source schema vía metadata APIs
- DMO catalog
- Mappings previos
- Business glossary
- Sample data de la fuente
- Memory: decisiones del Steward
Effectors y Trust Layer
Escrituras y guardrails
- Crear Data Stream definition
- Transformation rules
- Monitoring alerts
- PII detection automática
- Masking automático donde aplica
- Audit trail de cada mapping
Cómo se implementa en 5 fases
De fuentes externas dispersas a Data Streams configurados con governance.
Discovery de fuentes y conectividad
Identificamos las fuentes a conectar (Snowflake, BigQuery, Databricks, S3, Mulesoft, Salesforce sources). Validamos conectividad, credenciales y políticas de seguridad de red.
Configuración del agente
Configuramos Topics, Actions y permisos. Definimos política de PII detection, naming convention destino y matriz de approval para mappings sensibles.
Primera fuente como piloto
Conectamos la primera fuente (típicamente la más madura: Snowflake o BigQuery) para validar el flujo end-to-end. El Data Engineer revisa propuestas y se ajusta el agente.
Expansión a fuentes adicionales
Activamos las fuentes restantes en cohortes. El agente reutiliza decisiones previas para acelerar mappings de fuentes con schemas similares.
Monitoreo y schema drift
El agente vigila schema drift y propone ajustes cuando una fuente upstream cambia. Cadencia mensual de revisión con el Data Engineering Lead.
Equipo típico de implementación
Requisitos para arrancar
Lo que necesitás listo antes de poner el Data Mapping Agent en producción.
Datos
- Source schemas documentados o accesibles vía metadata APIs
- Sample data representativo en staging
- Naming conventions destino definidas
- Identity Resolution targets claros
Integraciones
- Conectores Data Cloud habilitados (Snowflake, BigQuery, Databricks, S3)
- Mulesoft o equivalente para endpoints custom
- Slack vía MCP para alertas
- Service Cloud / Jira / Linear para tickets
Organizacional
- Owner de cada source claro
- Ambientes de staging y producción
- Política de approval de mappings sensibles
- Sponsor en Data Engineering
Trust y compliance
- Trust Layer activo
- Política de PII handling
- Cumplimiento LGPD, Habeas Data, LFPDPPP
- Audit trail habilitado
Qué se busca optimizar
Lo que el agente busca mejorar — los rangos exactos dependen del baseline de cada compañía.
Time-to-stream
Pasar de días o semanas para conectar y mappear una fuente nueva a horas con propuesta y validación previa.
Mappings aceptados sin override
Subir el porcentaje de mappings que el Data Engineer acepta sin modificación manual significativa.
Errores post go-live
Bajar la tasa de errores de tipado y de transformación que se descubren después del deploy. Validación previa con sample.
Detección de schema drift
Detectar cambios de schema upstream antes de que rompan ingestas o segmentos downstream.
Cobertura de PII detection
Aumentar el porcentaje de columnas de PII identificadas automáticamente con masking propuesto, reduciendo riesgo de exposición.
Tiempo del Data Engineer
Liberar capacidad del equipo de Data Engineering del trabajo manual repetitivo de mapping, dejando tiempo para diseño y casos complejos.
Qué considerar al implementar
Decisiones de diseño que vale la pena tomar al principio. Solu acompaña cada una con un patrón probado.
Acceso a metadata APIs
Sin metadata APIs, el agente no puede hacer schema discovery automático. Solu valida conectividad y permisos de metadata antes del kick-off, lo que evita sorpresas en la fase de mapping.
Conectividad Hyperforce ↔ source documentada
VPC peering, allowlists y latencia entre Data Cloud y la fuente importan. Solu coordina con Seguridad para que la conectividad esté lista antes de la fase de piloto.
Staging vs. producción claros
Sin separación clara, los mappings se prueban en producción y rompen ingestas críticas. Solu propone un patrón de staging para validación con sample y promoción controlada a producción.
Ownership de cada source
Una fuente sin owner termina sin mantenimiento cuando hay schema drift. Solu acompaña la asignación de ownership por source y un patrón ligero de revisión trimestral.
PII detection con review explícito
La auto-detección no debería operar sin revisión humana en datos sensibles. Solu configura un workflow donde mappings con PII pasan por approval del Steward antes del deploy.
Preguntas Frecuentes
Sí. Soporta los conectores zero-copy de Data Cloud para Snowflake, BigQuery y Databricks. En zero-copy el dato no se replica: Data Cloud lee la fuente in-place. El agente igualmente hace schema discovery, propone mapping a DMOs y configura el equivalente del Data Stream en zero-copy.
Para fuentes con conector nativo en Data Cloud, no. Para sistemas legacy on-premise, endpoints custom o orquestación compleja, Mulesoft sigue siendo el camino recomendado. El agente convive con flows de Mulesoft, no los reemplaza.
Combina patrones por nombre de columna (email, phone, document_id, dni, cpf, rfc, curp), patrones de valor (formato de email, regex de teléfonos, formato de IDs locales) y heurísticas estadísticas. Cuando la confianza es alta, propone masking automático. Cuando hay duda, marca para revisión del Steward.
Sí, vía Mulesoft o un connector intermedio. La conectividad de red se diseña con Seguridad: VPN, peering o gateway. El agente trabaja sobre el conector ya configurado, sin acceso directo a la red on-premise.
Cada Data Stream queda con monitoring activo. Cuando una columna cambia de tipo, desaparece o aparece una nueva, el agente alerta al owner, propone el ajuste de mapping y abre un ticket en el ITSM existente con el contexto técnico necesario.
Sí. Cuando el matching contra DMOs estándar no es razonable, el agente propone la creación de un DMO custom con campos derivados del schema de la fuente. La creación requiere approval del Data Architect para mantener gobierno del modelo.
El agente ejecuta el mapping completo sobre un sample de filas (típicamente miles), reporta la tasa de errores, los casos límite y la distribución resultante. El Data Engineer revisa, ajusta si hace falta y aprueba el deploy.
Conectar nuevas fuentes a Data Cloud sin meses de mapping manual.
Hablá con un Solu Architect. Auditamos tus fuentes, validamos conectividad y diseñamos el rollout del Data Mapping Agent.