Data Pipeline Health Agent.
Pipelines silenciados que rompen segmentos enteros dejan de ser una sorpresa de las 9 de la mañana.
Agente custom de Agentforce que vigila la ingestion de Data Cloud en tiempo real: Data Streams, zero-copy mounts y pipelines en Mulesoft, Heroku o Fivetran. Detecta failures, late arrivals, schema mismatches, anomalías de volumen y violaciones de SLA. Triage por impacto downstream, ticket con owner, propuesta de remediación y comunicación a stakeholders sin pasar por bandejas de email.
¿Qué hace el Data Pipeline Health Agent?
Es un agente custom desarrollado sobre Agentforce que opera como SRE de plataforma de datos. Mantiene un heartbeat continuo sobre cada Data Stream y zero-copy mount de Data Cloud, cruza el estado con pipelines externos (Mulesoft, Heroku, Fivetran, Stitch, Airbyte) y mide latencia y volumen contra SLA. Cuando detecta un evento accionable, identifica el impacto sobre los consumers downstream (DMOs, CIs, segmentos, activaciones), abre un ticket con priority y owner correctos, sugiere la remediación más probable y notifica a los stakeholders por el canal adecuado.
Cómo funciona paso a paso
Del heartbeat al cierre con learning archivado. 6 pasos diseñados para minimizar MTTD y MTTR.
Heartbeat continuo
El agente consulta metadata de Data Streams, estado de zero-copy mounts y logs de pipelines externos en una ventana móvil corta. Cada pipeline crítico tiene un check explícito vinculado a su SLA.
Detección del evento accionable
Pipeline Heartbeat Monitor distingue entre ruido transitorio, late arrival, schema mismatch, anomalía de volumen y violación de SLA. Filtra eventos auto-resueltos antes de generar incidente.
Triage por impacto
Cruza el incidente con el downstream consumer map: qué DMOs, CIs, segmentos y activaciones se ven afectadas. Calcula priority en función del business value y de las campañas activas.
Apertura de ticket con owner
raiseIncident genera el ticket en el ITSM elegido (PagerDuty, Jira, Linear o Service Cloud) con la priority calculada, asignación al owner correcto y el contexto completo: pipeline, impacto downstream y eventos relacionados.
Remediación sugerida
Recovery Recommender propone la acción más probable según incidentes históricos. Para escenarios seguros (retry de un stream con backoff, rerouteSource a una réplica) puede ejecutar con approval humano. Para el resto, deja el playbook listo en el ticket.
Cierre con learning archivado
Una vez resuelto, postIncidentReport sintetiza root cause, acciones tomadas y duración. El agente actualiza su memoria de patterns para mejorar el próximo triage similar.
Ejemplo de interacción
[09:14 — Slack canal #data-ops, mensaje del agente]
[Ticket abierto en PagerDuty]
Arquitectura del agente
Topics, Actions, Hydrators, Effectors, Channels, DMOs, Trust Layer y Memory.
Topics
Dominios de razonamiento
- Pipeline Heartbeat Monitor
- Late Arrival Detector
- Schema Mismatch Catcher
- Volume Anomaly
- Latency SLA Watcher
- Recovery Recommender
Actions y Channels
Lo que ejecuta y dónde comunica
- checkPipeline · raiseIncident
- retryIngestion · rerouteSource
- notifyStakeholders · postIncidentReport
- PagerDuty
- Slack vía MCP · Microsoft Teams
- Email · Lightning
Hydrators y DMOs
Fuentes de contexto
- Data Stream metadata
- Ingestion logs
- Zero-copy mount status
- Mulesoft pipeline state
- Heroku worker logs
- Downstream consumers map
- Incident History DMO
Effectors, Trust Layer y Memory
Escrituras, guardrails y aprendizaje
- Abrir Service Cloud Case / Jira / Linear / PagerDuty
- Post Slack y Teams
- Retry de stream con backoff
- Audit trail completo
- Sin PII en payload de alertas
- Memory de incident patterns y root causes recurrentes
Implementación en 5 fases
El driver crítico es la calidad del catálogo de pipelines y del downstream consumer map. Timing típico: 8 a 12 semanas.
Discovery y catálogo de pipelines
Inventariamos Data Streams, zero-copy mounts y pipelines externos. Definimos SLA explícito de latencia y volumen para cada pipeline crítico. Validamos con Data Engineering qué incidentes son auto-recuperables.
Downstream consumer map
Modelamos el grafo de dependencias entre pipelines, DMOs, CIs, segmentos y activaciones. Es el insumo crítico para el triage por impacto.
Agent build e integración con ITSM
Construimos Topics y Actions en Agent Builder, conectamos PagerDuty, Jira o Linear, definimos templates de notificación en Slack y Teams. Configuramos el Trust Layer para excluir PII de los payloads.
Shadow mode y calibración
El agente opera en shadow: detecta incidentes sin abrir tickets reales. Comparamos su salida contra los registros de monitoring vigentes y ajustamos thresholds para minimizar falsos positivos.
Go-live y mejora continua
Cutover. Monitoreamos MTTD, MTTR, tasa de falsos positivos y tickets cerrados con remediación sugerida ejecutada. La memoria del agente se enriquece con cada incidente cerrado.
Equipo típico de implementación
Requisitos para arrancar
Lo que conviene tener listo antes del go-live.
Datos mínimos
- Catálogo de pipelines críticos versionado
- SLA explícito de latencia y volumen por pipeline
- Histórico de incidentes mínimo de 6 meses
- Logs accesibles desde Data Cloud o vía MCP
Licencias
- Salesforce Data Cloud
- Agentforce Platform
- Data Cloud Connectors según fuentes (Mulesoft, etc.)
- ITSM elegido con licencia de API
Integraciones
- Mulesoft, Heroku, Fivetran, Stitch o Airbyte según el stack
- PagerDuty, Jira, Linear o Service Cloud Case
- Slack vía MCP y Microsoft Teams
- Email transaccional para notificaciones formales
Org readiness
- Ownership claro por pipeline crítico
- Runbooks de remediación documentados
- On-call rotation definido en el ITSM
- Política de privacidad de logs sin PII
Qué se busca optimizar
Lo que el agente busca mejorar — los rangos exactos dependen del baseline de cada compañía.
No prometemos cifras atribuidas a casos. Detallamos las dimensiones que el Data Pipeline Health Agent ataca y la dirección esperada del cambio.
MTTD (mean time to detection)
Detección que pasa de horas a minutos en pipelines críticos cubiertos por monitoreo continuo y SLA-aware.
MTTR de incidentes
Resolución que pasa de días a horas cuando el agente provee triage correcto, owner claro y remediación sugerida con contexto.
Cobertura de pipelines críticos
% de pipelines críticos bajo monitoreo automático, con el objetivo de tender a la totalidad del catálogo crítico.
Tasa de falsos positivos
Calibrada para que cada alerta sea accionable y se evite el alert fatigue que erosiona la confianza del equipo de Data Ops.
Tiempo de recovery automático
Para escenarios seguros (retry, rerouting), reducción del tiempo entre detección y remediación cuando el agente puede ejecutar con approval.
Calidad del impact scoring
Validada por feedback humano: % de incidentes con priority correcta y % de stakeholders downstream notificados a tiempo.
Qué considerar al implementar
Cinco prácticas que aceleran el time-to-value y sostienen la confianza del equipo.
Definir SLAs explícitos por pipeline
Sin SLA por pipeline crítico, el agente no puede distinguir lo aceptable del incidente real. Empezar por los 10 a 20 pipelines más críticos y expandir.
Mantener el downstream consumer map vivo
El triage por impacto depende de un mapa actualizado. Hay que automatizar la actualización del grafo cuando se crean o deprecian DMOs, CIs y segmentos.
Ownership claro por pipeline
Cada pipeline necesita un owner y un on-call. El agente abre tickets dirigidos al owner correcto. Sin ownership, el ticket queda en una cola anónima y se diluye.
Integración cuidada al ITSM elegido
PagerDuty, Jira, Linear y Service Cloud tienen modelos distintos de priority y assignment. La traducción de la priority del agente al modelo del ITSM debe estar bien calibrada para que las priority high lleguen al on-call adecuado.
Privacidad de logs y payloads
Los logs de pipelines pueden contener PII por error. Conviene aplicar masking en los payloads de alerta y validar con seguridad antes del go-live para evitar fugas en notificaciones.
Preguntas frecuentes
No. El agente automatiza la detección, el triage y la apertura de tickets, y propone remediación. La decisión final, la ejecución riesgosa y la post-mortem siguen siendo del equipo. Lo que cambia es que el equipo deja de gastar tiempo en deduplicar alertas y armar tickets a mano.
Con conectores nativos vía MCP o APIs REST. El agente abre el incidente con el payload completo (pipeline, downstream impact, hipótesis de root cause, runbook sugerido) y mantiene sincronía bidireccional para no duplicar alertas cuando un humano ya está trabajando el ticket.
Sí. El agente lee estado y logs vía las APIs de cada herramienta. Para Mulesoft y Heroku usa conectores nativos. Para Fivetran, Stitch y Airbyte se conecta vía sus APIs administrativas. Cualquier pipeline que exponga estado y logs vía API queda dentro del scope del agente.
Abre el incidente con el contexto completo y marca explícitamente "root cause indeterminado". Nunca inventa una hipótesis sin base. Los humanos de on-call investigan; el aprendizaje se vuelca a la memoria del agente para que el próximo caso similar tenga hipótesis fundada.
Sí. Para clientes con varias orgs Salesforce o múltiples instancias de Data Cloud, el agente se configura con un catálogo unificado y un mapping de pipelines por org. La priority y el ownership se preservan por org.
Tres mecanismos: deduplicación de eventos relacionados al mismo incidente, supresión cuando un ticket ya está siendo trabajado y filtro por priority configurable por canal. Slack puede recibir solo high y critical mientras Teams recibe todo, según la preferencia del equipo.
Tus pipelines ya generan eventos. Solo falta un agente que los entienda.
Hablá con un Data Architect de Solu. Mapeamos tu catálogo de pipelines, definimos SLAs y proyectamos el lift en MTTD y MTTR para tu operación.