20 de marzo de 2026

Desafíos Multi-Nube, Balanceo de Carga Inteligente y Flujos de Trabajo Potenciados por IA: Databricks en SRECon 2026

Los ingenieros de Databricks están avanzando en la confiabilidad y eficiencia de la infraestructura con contribuciones de código abierto. Obtén más información sobre el trabajo que los equipos lideran en SREcon 2026.
Conoce el enfoque de Databricks para desafíos complejos de infraestructura, incluido el balanceo de carga del lado del cliente para Kubernetes en multi-nube y la depuración potenciada por IA para instancias de bases de datos a gran escala.
Explora Dicer, el sistema de auto-particionamiento de código abierto que mejora la disponibilidad y el rendimiento de servicios críticos como Unity Catalog al optimizar la distribución de datos.

Los ingenieros de infraestructura de Databricks se dirigen a SRECon 2026 en Seattle el 24 de marzo. Estamos emocionados de compartir parte del trabajo que hemos estado haciendo para escalar, operar y evolucionar la infraestructura detrás de la Plataforma Databricks.

Únete a nosotros para conversar con ingenieros de nuestros equipos de infraestructura, incluidos los Bricksters que trabajan en service mesh, enrutamiento de tráfico, gestión de configuración y ejecución de servicios con estado. Esta es una gran oportunidad para explorar los mayores problemas que los ingenieros están resolviendo y las innovaciones en infraestructura que están impulsando.

¡Además, no te pierdas estas sesiones técnicas!

Balanceo de Carga Inteligente de Kubernetes en Databricks

Databricks ejecuta miles de microservicios en AWS, Azure y GCP. A esta escala, el balanceo de carga predeterminado de Kubernetes falla. El modelo integrado kube-proxy y ClusterIP opera en la Capa 4, distribuyendo conexiones en lugar de solicitudes. Para servicios gRPC con conexiones HTTP/2 de larga duración, esto genera una severa desviación del tráfico: algunos pods se sobrecargan mientras que otros permanecen inactivos. El resultado son picos de latencia en cola, cómputo desperdiciado y comportamiento impredecible del servicio.

Construimos una solución personalizada para abordar esto y en esta charla repasaremos la arquitectura, las compensaciones que consideramos (incluyendo por qué elegimos no adoptar Istio o un service mesh completo), y las lecciones que aprendimos al implementarla en una flota multi-nube.

Para obtener más detalles técnicos, consulta nuestra publicación anterior en el blog: Balanceo de Carga Inteligente de Kubernetes en Databricks.

Cómo Depuramos Miles de Bases de Datos con IA

Databricks opera miles de instancias de bases de datos OLTP en tres nubes y cientos de regiones. Cuando algo sale mal, los ingenieros históricamente tenían que unir señales de paneles de Grafana, herramientas de línea de comandos, consolas de proveedores de nube y runbooks internos. La experiencia de depuración era fragmentada, lenta y dependía en gran medida del conocimiento tribal. Los nuevos ingenieros podían tardar semanas en volverse efectivos para diagnosticar problemas de bases de datos.

Construimos una plataforma asistida por IA para cambiar esto; comenzando desde un prototipo de hackathon y haciéndola crecer hasta convertirla en un sistema de producción. En esta charla, compartiremos el viaje de cero a producción, las decisiones arquitectónicas que hicieron que funcionara, y lo que hemos aprendido sobre la construcción de herramientas operativas potenciadas por IA a escala.

Para más detalles, consulta nuestra publicación anterior en el blog: Cómo Depuramos Miles de Bases de Datos con IA en Databricks.

Evento de Networking: Inmersión Profunda en Dicer

A principios de este año, hicimos de código abierto Dicer, nuestro sistema de auto-particionamiento para construir servicios particionados de alta disponibilidad y baja latencia. Dicer aborda una tensión fundamental en los sistemas distribuidos: las arquitecturas sin estado son simples pero costosas (cada solicitud llega a la base de datos o caché remota), mientras que las arquitecturas particionadas estáticamente son eficientes pero frágiles (los reinicios causan caídas de disponibilidad, las claves calientes causan desequilibrio y el escalado requiere intervención manual).

Dicer resuelve esto gestionando continua y dinámicamente las asignaciones de particiones. Divide las particiones sobrecargadas, fusiona las infrautilizadas, replica datos críticos para la disponibilidad y mueve particiones durante reinicios graduales para mantener las tasas de acierto de caché. En Databricks, Dicer potencia algunos de nuestros servicios más críticos: Unity Catalog logra tasas de acierto de caché del 90-95% con Dicer, nuestro motor de orquestación de consultas SQL elimina las caídas de disponibilidad durante los reinicios, y nuestra caché remota mantiene las tasas de acierto incluso durante despliegues graduales.

Estamos organizando un evento de networking dedicado durante SRECon donde profundizaremos en Dicer: cómo funciona, cómo lo usamos en producción y cómo puedes usarlo en tu propia infraestructura. Esta es una sesión interactiva con bebidas y aperitivos, no una charla formal. Trae tus preguntas sobre particionamiento, caché y construcción de servicios con estado a escala.

El espacio es limitado. Regístrate aquí: Evento de Networking de Databricks @ SRECon 2026

En Qué Están Trabajando Nuestros Equipos de Infraestructura

Más allá de las charlas y el evento de networking, nuestros equipos de infraestructura están abordando algunos de los problemas más difíciles en operaciones multi-nube. Algunas áreas que nos entusiasman:

Entrega de servicios multi-nube: Databricks se ejecuta en AWS, Azure y GCP simultáneamente. Cada servicio, cada configuración, cada pipeline de despliegue debe funcionar en las tres nubes y sus respectivas regiones gubernamentales y soberanas. Nuestros equipos están construyendo las herramientas y abstracciones que hacen esto manejable, desde configuraciones de ubicación unificadas que definen dónde se ejecutan los servicios, hasta pipelines de despliegue que manejan las diferencias entre los proveedores de nube.

Service mesh y enrutamiento de tráfico: A medida que nuestra flota de servicios crece, enrutar el tráfico de manera eficiente y confiable se vuelve cada vez más complejo. Estamos invirtiendo en descubrimiento de servicios, enrutamiento entre clústeres y regiones, e integración entre nuestros sistemas de balanceo de carga y particionamiento. A medida que nuestra flota ha crecido, el espacio del problema se ha expandido desde optimizar el tráfico dentro de un solo clúster hasta enrutar entre clústeres, entre regiones e incluso entre proveedores de nube.

Gestión de configuración a escala: Gestionar la configuración en miles de servicios, múltiples nubes y diferentes entornos (desarrollo, staging, producción, regiones gubernamentales) es un problema que se agrava con cada nuevo servicio y cada nueva región. Nuestros equipos están construyendo sistemas para hacer que los cambios de configuración sean seguros, auditables y consistentes. Consulta nuestra publicación en el blog sobre Feature Flagging de Alta Disponibilidad en Databricks.

Encuéntranos en SRECon

Databricks es Patrocinador Plata. Encuéntranos en el Stand #214 en el Piso de Exposiciones. Varios ingenieros de nuestros equipos de infraestructura estarán allí, incluidos Bricksters que trabajan en service mesh, enrutamiento de tráfico, gestión de configuración y ejecución de servicios con estado. Ven a conversar sobre los problemas que estamos resolviendo y los sistemas que estamos construyendo.

Si nos extrañas en SREcon y estás interesado en unirte a nuestro equipo, visita nuestro sitio de Carreras para ver las últimas oportunidades.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs