Archivo de glosarios

Glossary

El descenso del gradiente es el método de optimización más comúnmente utilizado en los algoritmos de aprendizaje automático y aprendizaje profundo. Se usa para entrenar un modelo de aprendizaje automático.Tipos de descenso de gradiente En los algorit{...}

Agentes de IA

¿Qué son los agentes de IA?ResumenComprende qué diferencia a los agentes de IA de los sistemas de IA tradicionales, incluida la forma en que perciben, deciden y actúan de forma autónoma.Explora la evolución de los agentes de IA desde los primeros pro{...}

Ajuste preciso

Comprender el ajuste precisoAl entrenar modelos de inteligencia artificial (IA) y aprendizaje automático (ML) para un propósito específico, los científicos de datos e ingenieros descubrieron que es más fácil y menos costoso modificar modelos de lengu{...}

Alfabetización de datos

¿Qué es la alfabetización de datos?La alfabetización de datos es la capacidad de leer, trabajar, analizar y comunicar datos de manera efectiva. Se trata de entender qué significan los datos, cómo se crean y cómo usarlos para poder hacer las preguntas{...}

Almacén de datos

¿Qué es un almacén de datos?Un almacén de datos (DWH) es un sistema de gestión de datos que guarda los datos actuales e históricos de varias fuentes con el fin de favorecer a las empresas y facilitarles la obtención de información y la elaboración de{...}

Almacén de datos empresariales (EDW)

¿Qué es un almacén de datos empresarial (EDW)?Un almacén de datos empresariales (EDW) es un repositorio centralizado y estructurado diseñado para consolidar y administrar los datos de una organización. El beneficio principal de un EDW es que proporci{...}

Almacén de datos unificado

¿Qué es un almacén de datos unificado?Una base de datos unificada, también conocida como almacén de datos empresarial, contiene toda la información empresarial de una organización y la hace accesible en toda la empresa. Hoy en día, la mayoría de las {...}

Análisis de Big Data

La diferencia entre datos y análisis de Big DataAntes de la invención de Hadoop, las tecnologías que sustentaban los sistemas modernos de almacenamiento y cómputo eran relativamente básicas, lo que limitaba a las empresas principalmente al análisis d{...}

Análisis de datos unificados

Unified Data Analytics es una nueva categoría de soluciones que unifican el procesamiento de datos con tecnologías de AI, lo que hace que la AI sea mucho más factible para las empresas y les permite acelerar sus iniciativas de AI. Unified Data Analyt{...}

Análisis de streaming

¿Cómo funciona el análisis de streaming?El análisis de streaming, también conocido como procesamiento de flujos de eventos, es el análisis de enormes volúmenes de datos actuales y “en movimiento” mediante el uso de consultas continuas, denominadas fl{...}

Análisis en tiempo real

¿Qué es el análisis en tiempo real?El análisis en tiempo real se refiere a la práctica de recopilar y analizar datos de streaming a medida que se generan, con una latencia mínima entre la generación de los datos y su análisis. El análisis en tiempo r{...}

Análisis predictivo

¿Qué es el análisis predictivo?El análisis predictivo es una forma de análisis avanzado que utiliza datos nuevos e históricos para determinar patrones y predecir resultados y tendencias futuros.¿Cómo funciona el análisis predictivo?El análisis predic{...}

Apache Hive

¿Qué es Apache Hive?Apache Hive es un software de almacenamiento de datos de código abierto diseñado para leer, escribir y gestionar grandes conjuntos de datos extraídos del sistema de archivos distribuido Apache Hadoop (HDFS), un aspecto de un ecosi{...}

Apache Kudu

¿Qué es Apache Kudu?Apache Kudu es un sistema de almacenamiento en columnas gratuito y de código abierto desarrollado para Apache Hadoop. Es un motor destinado a datos estructurados que admite acceso aleatorio de baja latencia a escala de milisegundo{...}

Apache Kylin

¿Qué es Apache Kylin?Apache Kylin es un motor de procesamiento analítico en línea (OLAP) distribuido y de código abierto para el análisis interactivo de Big Data. Apache Kylin está diseñado para proporcionar una interfaz SQL y análisis multidimension{...}

Apache Spark como servicio (Spark as a Service)

¿Qué es Apache Spark como servicio?Apache Spark es un marco de computación en clúster de código abierto para el procesamiento rápido de datos a gran escala en tiempo real. Desde su creación en 2009 en el AMPLab de la Universidad de California en{...}

Apache Spark™

¿Qué es Apache Spark?Apache Spark es un motor de análisis de código abierto que se usa para cargas de trabajo de big data. Puede manejar cargas de trabajo tanto por lotes como de análisis en tiempo real y de procesamiento de datos. Apache Spark {...}

API de Spark

Si trabajas con Spark, te encontrarás con las tres API: DataFrames, Datasets y RDDs¿Qué son los Resilient Distributed Datasets?Un RDD, o conjunto de datos distribuido resiliente, es una colección de registros con computación distribuida que son toler{...}

API de Tensorflow Estimator

¿Qué es la API de Tensorflow Estimator?Los Estimators representan un modelo completo, pero también son lo suficientemente intuitivos para los usuarios con menos experiencia. La API de Estimator proporciona métodos para entrenar el modelo, evaluar su {...}

Aplicaciones continuas

Las aplicaciones continuas son aplicaciones de extremo a extremo que reaccionan a los datos en tiempo real. En particular, a los desarrolladores les gustaría usar una única interfaz de programación para dar soporte a los aspectos de las aplicaciones {...}

Aplicaciones de Spark

Las aplicaciones de Spark se componen de un proceso de controlador y un conjunto de procesos de ejecutor. El proceso del driver ejecuta tu función main(), se encuentra en un nodo del clúster y es responsable de tres cosas: mantener la información sob{...}

Aprendizaje profundo

¿Qué es el aprendizaje profundo?El aprendizaje profundo es un subconjunto del aprendizaje automático que se ocupa de grandes cantidades de datos con algoritmos inspirados en la estructura y función del cerebro humano, por lo que los modelos de aprend{...}

Arquitectura de datos

El panorama empresarial ha evolucionado hasta convertir los datos y la inteligencia artificial en elementos fundamentales para obtener una ventaja competitiva. Los datos se han convertido en un activo clave para cualquier empresa, y su gestión debe d{...}

Arquitectura Lambda

¿Qué es la Arquitectura Lambda?La arquitectura Lambda es una forma de procesar grandes cantidades de datos (es decir, “Big Data”) que ofrece acceso a métodos de procesamiento por lotes y procesamiento de transmisión con un enfoque híbrido. La arquite{...}

Arquitectura Medallion

¿Qué es una arquitectura medallion?Una arquitectura Medallion es un patrón de diseño de datos que se utiliza para organizar los datos de forma lógica en un lakehouse, con el objetivo de mejorar de forma incremental y progresiva la estructura y {...}

Automatización de datos

A medida que crece la cantidad de datos, fuentes de datos y tipos de datos, las organizaciones requieren cada vez más herramientas y estrategias para transformar esos datos y obtener insights empresariales. Procesar datos sin procesar y desordenados {...}

Base de datos vectorial

¿Qué es una base de datos de vectores?Una base de datos de vectores es una base de datos especializada diseñada para almacenar y gestionar datos como vectores de alta dimensión. El término proviene de los vectores, que son representaciones matemática{...}

Biblioteca de aprendizaje automático (MLlib)

La Biblioteca de Machine Learning (MLlib) de Apache Spark está diseñada para ofrecer simplicidad, escalabilidad y una fácil integración con otras herramientas. Con la escalabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los científi{...}

Bioinformática

La bioinformática es un campo de estudio que emplea la informática para extraer conocimiento de grandes colecciones de datos biológicos.La bioinformática se refiere al uso de TI en biotecnología para el almacenamiento, la recuperación, la organizació{...}

Bóveda de datos

¿Qué es un Data Vault?Una bóveda de datos es un patrón de diseño de modelado de datos utilizado para construir un almacenamiento de datos para análisis a escala empresarial. La bóveda de datos tiene tres tipos de entidades: concentradores, enlaces y {...}

Canalizaciones de ML

Normalmente, al ejecutar algoritmos de aprendizaje automático, se realiza una secuencia de tareas que incluye etapas de preprocesamiento, extracción de características, ajuste del modelo y validación. Por ejemplo, clasificar documentos de texto podrí{...}

Capa convolucional

En el aprendizaje profundo, una red neuronal convolucional (CNN o ConvNet) es una clase de redes neuronales profundas, que generalmente se usan para reconocer patrones presentes en imágenes, pero también se usan para el análisis de datos espaciales, {...}

Capa semántica

Qué es la capa semánticaUna capa semántica es una interfaz apta para empresas que acorta la brecha entre los modelos de datos complejos y los usuarios empresariales. Actúa como una capa de abstracción que traduce estructuras de datos técnicas en térm{...}

Catálogo de datos

¿Qué es un catálogo de datos?Un catálogo de datos es un sistema centralizado de inventario y gestión que sirve como el “mapa del tesoro” definitivo para los activos de datos de su organización. Proporciona un repositorio completo y con capacidad de b{...}

Clúster de Hadoop

¿Qué es un clúster de Hadoop?Apache Hadoop es un marco de software de código abierto basado en Java y un motor de procesamiento de datos en paralelo. Permite que las tareas de procesamiento de análisis de big data se dividan en tareas más pequeñas qu{...}

Comprensión de la calidad de los datos

Hoy más que nunca, las organizaciones dependen de una variedad de conjuntos de datos complejos para impulsar su toma de decisiones. Es crucial que estos datos sean confiables, precisos y relevantes para que las empresas puedan tomar decisiones estrat{...}

Comprensión de los modelos de IA

¿Qué son los modelos de IA?Los modelos de IA son programas informáticos que usan datos para reconocer patrones y hacer predicciones y tomar decisiones. Los modelos de IA usan algoritmos: reglas paso a paso basadas en aritmética, repetición y lógica d{...}

Computación sin servidor

La computación sin servidor es la evolución más reciente de la infraestructura de computación. Las organizaciones solían necesitar servidores físicos para ejecutar aplicaciones web. Luego, el auge del cloud computing les permitió crear servidores vir{...}

Conjunto de datos

¿Qué es un conjunto de datos?Un conjunto de datos es una colección estructurada de datos organizados y almacenados en conjunto para su análisis o procesamiento. Los datos dentro de un conjunto de datos suelen estar relacionados de alguna manera y se {...}

Conjunto de datos distribuido y resiliente (RDD)

RDD fue la API principal para el usuario en Spark desde su creación. En esencia, un RDD es una colección distribuida inmutable de elementos de tus datos, particionada entre los nodos de tu clúster, que se puede operar en paralelo con una API de bajo {...}

Cubos de hash

En informática, una tabla hash [hash map] es una estructura de datos que proporciona acceso prácticamente directo a objetos basados en una clave [una cadena única o un entero]. Una tabla hash utiliza una función hash para calcular un índice en una ma{...}

Data Governance

What is Data Governance? Data governance is the oversight to ensure data brings value and supports the business strategy. Data governance is more than just a tool or a process. It aligns data-related requirements to the business strategy using a fram{...}

Data Lakehouse

¿Qué es un Data Lakehouse?Un data lakehouse es una nueva arquitectura de gestión de datos abierta que combina la flexibilidad, la rentabilidad y la escalabilidad de los lagos de datos con la gestión de datos y las transacciones ACID de los almacenes {...}

Data Mart

¿Qué es un data mart?Un data mart es una base de datos curada que incluye un conjunto de tablas diseñadas para satisfacer las necesidades específicas de un único equipo de datos, comunidad o línea de negocio, como el departamento de marketing o el de{...}

Data Mesh

Los datos son críticos para las empresas, y sirven como materia prima para la innovación y el avance. Su importancia crece a medida que las organizaciones se vuelven más centradas en los datos y las decisiones, lo que crea grandes desafíos para las o{...}

Databricks Runtime

Databricks Runtime es el conjunto de artefactos de software que se ejecutan en los clústeres de máquinas administrados por Databricks. Incluye Spark, pero también agrega varios componentes y actualizaciones que mejoran sustancialmente la usabilidad, {...}

DataFrames

¿Qué es un DataFrame?Un DataFrame es una estructura de datos que organiza los datos en una tabla bidimensional de filas y columnas, muy parecida a una hoja de cálculo. Los DataFrames son una de las estructuras de datos más comunes utilizadas en el an{...}

Datos alternativos

¿Qué son los datos alternativos?Los datos alternativos son información recopilada mediante el uso de fuentes alternativas de datos que otros no están usando; fuentes de información no tradicionales. El análisis de datos alternativos puede propor{...}

Detección de anomalías

La detección de anomalías es la técnica de identificar observaciones o eventos raros que pueden levantar sospechas por ser estadísticamente diferentes del resto de las observaciones. Este comportamiento “anómalo” generalmente se traduce en algún tipo{...}

Ecosistema de Hadoop

¿Qué es el Ecosistema de Hadoop?El ecosistema de Apache Hadoop hace referencia a los diversos componentes de la biblioteca de software Apache Hadoop; incluye proyectos de código abierto, así como una gama completa de herramientas complementarias. Alg{...}

Eficiencia general del equipo

¿Qué es la Efectividad General del Equipo?La Efectividad Global del Equipo(OEE) es una métrica de qué tan bien se utiliza una operación de manufactura (instalaciones, tiempo y material) en comparación con su máximo potencial, durante los períodos en {...}

Esquema de base de datos: una guía completa de estructura, diseño e implementación

Introducción: Comprensión de los esquemas de bases de datos en la gestión de datos modernaUn esquema de base de datos actúa como un plano de cómo se organiza y estructura una base de datos. Define cómo se disponen las tablas de la base de datos, qué {...}

Esquema de copo de nieve

¿Qué es un esquema de copo de nieve?Un esquema de copo de nieve es un modelo de datos multidimensional que es una extensión de un esquema de estrella, en el que las tablas de dimensiones se desglosan en subdimensiones. Los esquemas de copo de n{...}

Esquema de estrella

¿Qué es un esquema de estrella?Un esquema de estrella es un modelo de datos multidimensional que se utiliza para organizar datos en una base de datos de modo que sea fácil de entender y analizar. Los esquemas de estrella pueden aplicarse a almacenes {...}

Extracción, transformación y carga (ETL)

¿Qué es ETL?A medida que crece la cantidad de datos, fuentes de datos y tipos de datos en las organizaciones, también crece la importancia de utilizar esos datos en iniciativas de analítica, ciencia de datos y aprendizaje automático para obtener insi{...}

Finanzas personalizadas

¿Qué son las finanzas personalizadas?Los productos y servicios financieros se están convirtiendo cada vez más en productos básicos y los consumidores son más exigentes, ya que los sectores de los medios de comunicación y el comercio minorista han aum{...}

Flujo de datos

¿Qué es el flujo de datos?El flujo de datos describe el movimiento de datos a través de la arquitectura de un sistema, de un proceso o componente a otro. Describe cómo se introducen, procesan, almacenan y se generan los datos dentro de un sistema inf{...}

Framework unificado de AI

La inteligencia artificial unificada o UAI fue anunciada por Facebook durante el F8 de este año. Esto reúne 2 frameworks de aprendizaje profundo específicos que Facebook creó y publicó: PyTorch se enfocaba en la investigación y asumía el acceso a rec{...}

Función de fecha de Hive

¿Qué es una función de fecha en Hive?Hive ofrece muchas funciones integradas que nos ayudan en el procesamiento y la consulta de datos. Algunas de las funcionalidades que ofrecen estas funciones incluyen la manipulación de cadenas, la manipulación de{...}

Gemelos digitales

¿Qué es un gemelo digital?La definición tradicional de gemelo digital es: “Un gemelo digital es un modelo virtual diseñado para reflejar con precisión un objeto físico”. – IBM[KVK4] Para un proceso de fabricación discreto o continuo, un gemelo digita{...}

Generación aumentada por recuperación

ResumenAprende cómo funciona la generación aumentada por recuperación (RAG) al combinar modelos de lenguaje grandes (LLMs) con datos externos y en tiempo real para obtener resultados más precisos y relevantes.Descubre cómo RAG resuelve problemas espe{...}

Generative AI

Generative AI is changing the way humans create, work and communicate. Databricks explains how generative AI works and where it’s heading next. {...}

Genómica

La genómica es un área de la genética que se ocupa de la secuenciación y el análisis del genoma de un organismo. Su tarea principal es determinar la secuencia completa del ADN o la composición de los átomos que lo forman y los enlaces químicos entre {...}

Gestión de datos

¿Qué es la gestión de datos?Empecemos con una definición de gestión de datos.La gestión de datos es la práctica de organizar, procesar, almacenar, proteger y analizar los datos de una organización a lo largo de su ciclo de vida. A través de un manejo{...}

Gestión de la cadena de suministro

¿Qué es la gestión de la cadena de suministro?La gestión de la cadena de suministro es el proceso de planificar, implementar y controlar las operaciones de la cadena de suministro con el objetivo de producir y entregar productos y servicios de manera{...}

Gestión del riesgo de los modelos de IA

La gestión de riesgos de modelos se refiere a la supervisión de los riesgos derivados de las posibles consecuencias adversas de las decisiones basadas en modelos incorrectos o utilizados de forma inadecuada. El objetivo de la gestión del riesgo de mo{...}

Hadoop Distributed File System (HDFS)

HDFSHDFS (Hadoop Distributed File System) es el sistema de almacenamiento principal utilizado por las aplicaciones de Hadoop. Este marco de código abierto funciona transfiriendo datos rápidamente entre nodos. A menudo es utilizado por empresas que ne{...}

Ingeniería de características

Ingeniería de características para el aprendizaje automáticoLa ingeniería de características, también conocida como preprocesamiento de datos, es el proceso de transformar datos sin procesar en características que se pueden utilizar para desarrollar {...}

Ingeniería de prompts

La ingeniería de prompts es un campo emergente a la vanguardia del desarrollo de la inteligencia artificial (AI) que se enfoca en los procesos críticos de creación de entradas efectivas para los modelos de AI generativa (GenAI). A medida que los sist{...}

Ingesta de datos

La ingesta de datos es el primer paso en el ciclo de vida de la ingeniería de datos. Consiste en recopilar datos de diversas fuentes, como bases de datos, aplicaciones SaaS, fuentes de archivos, API y dispositivos de IoT, en un repositorio centraliza{...}

Integración de datos

¿Qué es la integración de datos?La integración de datos es el proceso de combinar datos de múltiples sistemas en una vista unificada y confiable. Reúne información de bases de datos, aplicaciones, flujos de eventos, archivos, API y plataformas de ter{...}

Inteligencia artificial general: comprender la próxima frontera de la IA

La inteligencia general artificial (IAG) se refiere a una forma hipotética de inteligencia artificial (IA) capaz de realizar toda la gama de tareas intelectuales a nivel humano. Más concretamente, la inteligencia artificial general se refiere a siste{...}

Inteligencia empresarial vs. análisis de negocios: una descripción general

La inteligencia empresarial o IE (Business intelligence) es un conjunto de tecnologías, procesos y estrategias diseñados para generar información procesable a partir de datos empresariales. Los sistemas de IE recopilan y almacenan datos de operacione{...}

Intercambio de datos

¿Qué es el uso compartido de datos?El uso compartido de datos es la capacidad de poner los mismos datos a disposición de uno o varios consumidores. La cantidad cada vez mayor de datos se ha convertido en un activo estratégico para cualquier empresa. {...}

Jupyter Notebook

¿Qué es un Jupyter Notebook?Un Jupyter Notebook es una aplicación web de código abierto que permite a los científicos de datos crear y compartir documentos que incluyen código en vivo, ecuaciones y otros recursos multimedia.¿Para qué se utilizan los {...}

La base de datos PostgreSQL: explicación de sus características y ventajas

Introducción a PostgreSQLUna base de datos PostgreSQL es un sistema de gestión de bases de datos relacionales de código abierto que almacena, organiza y recupera datos estructurados. Esta base de datos relacional impone relaciones entre las tablas de{...}

Lakehouse para el comercio minorista

¿Qué es Lakehouse para Retail?Lakehouse for Retail es el primer lakehouse específico de la industria de Databricks. Ayuda a los minoristas a empezar a operar rápidamente a través de aceleradores de soluciones, capacidades de uso compartido de datos y{...}

Linaje de datos

¿Qué es el linaje de datos?El linaje de datos es el proceso de registro, seguimiento y visualización de datos e IA a lo largo del tiempo, desde el origen hasta el consumo. Un linaje de datos eficaz proporciona a los equipos de datos una vista integra{...}

LLMOps

¿Qué es LLMOps?Las operaciones de modelos de lenguaje grande (LLMOps) abarcan las prácticas, técnicas y herramientas que se usan para la gestión operativa de modelos de lenguaje grande en entornos de producción.Los últimos avances en LLM, destacados {...}

Mantenimiento predictivo

¿Qué es el mantenimiento predictivo?El mantenimiento predictivo, en pocas palabras, consiste en determinar cuándo se debe mantener un activo y qué actividades de mantenimiento específicas se deben realizar según la condición o el estado real del acti{...}

MapReduce

¿Qué es MapReduce?MapReduce es un framework de ejecución distribuida basado en Java dentro del ecosistema Apache Hadoop. Elimina la complejidad de la programación distribuida al exponer dos pasos de procesamiento que los desarrolladores implementan: {...}

Mejores prácticas para la evaluación de agentes: evaluación eficaz de la IA

¿Qué es la evaluación de agentes de IA? Una guía completaLa evaluación de agentes de IA es la disciplina que mide la eficacia con la que un sistema de IA autónomo realiza tareas, guía sus propias decisiones, interactúa con herramientas, razona en múl{...}

Mercado de Datos

¿Qué es un data marketplace o mercado de datos?Los mercados de datos, o data marketplaces, son tiendas en línea que permiten el uso compartido de datos y la colaboración. Conectan a los proveedores y consumidores de datos y les ofrecen a los particip{...}

Migración de datos

Las empresas dependen de los datos ahora más que nunca. Para garantizar la utilidad de tus datos, debes utilizar la mejor plataforma de datos posible, lo que puede requerir una migración de datos.Si tienes preguntas sobre la migración de datos y cómo{...}

MLOps

¿Qué es MLOps?MLOps significa Operaciones de aprendizaje automático. MLOps es una función fundamental de la ingeniería de Machine Learning, enfocada en agilizar el proceso de llevar los modelos de machine learning a producción y, luego, mantenerlos y{...}

Modelo de Keras

¿Qué es un modelo de Keras?Keras es una biblioteca de alto nivel para el aprendizaje profundo, construida sobre Theano y Tensorflow. Está escrito en Python y ofrece una forma clara y cómoda de crear una amplia gama de modelos de aprendizaje profundo.{...}

Modelos de aprendizaje automático

¿Qué es un modelo de aprendizaje automático?Un modelo de aprendizaje automático es un programa que puede encontrar patrones o tomar decisiones a partir de un conjunto de datos nunca antes visto. Por ejemplo, en el procesamiento del lenguaje natural, {...}

Modelos de lenguaje grande (LLM)

¿Qué son los modelos de lenguaje grande (LLM)?Los modelos de lenguaje son un tipo de IA generativa (GenAI) que usan el procesamiento del lenguaje natural (PLN) para comprender y generar lenguaje humano. Los modelos de lenguaje grande (LLM) son los má{...}

Modernización de datos: transformación de la infraestructura heredada para mejorar la eficiencia y la escalabilidad

El imperativo de la modernización de datosLa modernización de datos es la transformación integral de la infraestructura, las prácticas y las herramientas de datos de una organización para permitir la agilidad, la innovación y la toma de decisiones ba{...}

Open Banking

¿Qué es la banca abierta?La banca abierta es una forma segura de dar acceso a los datos financieros de los consumidores, siempre que se cuente con su consentimiento.² Impulsada por una dinámica regulatoria, tecnológica y competitiva, la banca abierta{...}

Optimización de Spark

¿Qué es la optimización del rendimiento de Spark?La optimización del rendimiento de Spark consiste en el proceso de ajustar la configuración de la memoria, los núcleos y las instancias que utiliza el sistema. Este proceso garantiza que Spark tenga un{...}

Optimizador Catalyst

En el núcleo de Spark SQL se encuentra el optimizador Catalyst, que aprovecha las características avanzadas del lenguaje de programación (p. ej.: el patrón de coincidencia y las cuasi-citas o "quasiquotes" de Scala) de una forma novedosa para cr{...}

Orquestación

¿Qué es la orquestación?La orquestación es la coordinación y gestión de múltiples sistemas informáticos, aplicaciones o servicios, que encadena varias tareas para ejecutar un flujo de trabajo o proceso más grande. Estos procesos pueden constar de múl{...}

pandas DataFrame

Cuando se trata de la ciencia de datos, no es exagerado decir que puedes transformar la forma en que funciona tu negocio si aprovechas todo el potencial de pandas DataFrame. Para ello, necesitarás las estructuras de datos adecuadas. Esto te ayudará a{...}

Parquet

{...}

Pipelines de datos

¿Qué es una canalización de datos?Una canalización de datos se refiere a las formas en que los datos fluyen de un sistema a otro. Consiste en una serie de pasos que se realizan en un orden específico, donde el resultado de un paso actúa como entrada {...}

Plataforma de analítica de datos unificada

La Plataforma Unificada de Análisis de Datos de Databricks ayuda a las organizaciones a acelerar la innovación al unificar la ciencia de datos con la ingeniería y los negocios. Con Databricks como su plataforma unificada de analítica de datos, puede {...}

Plataforma de análisis de datos

¿Qué es una plataforma de análisis de datos?Una plataforma de análisis de datos es un ecosistema de servicios y tecnologías que necesita realizar análisis de datos voluminosos, complejos y dinámicos que le permitan recuperar, combinar, interactuar, e{...}

Polars vs. pandas: elegir la biblioteca de DataFrame de Python adecuada para tu flujo de trabajo de datos

Introducción: comprender las opciones de bibliotecas de DataFrameLos DataFrames son estructuras de datos bidimensionales, generalmente tablas, similares a hojas de cálculo, que permiten almacenar y manipular datos tabulares en filas de observaciones {...}

Previsión de la demanda

¿Qué es la previsión de la demanda?La previsión de la demanda es el proceso de proyectar la demanda de los consumidores (equivalente a los ingresos futuros). En concreto, se trata de proyectar la variedad de productos que los compradores adquirirán u{...}

Procesamiento de datos

¿Qué es el procesamiento de datos?El procesamiento de datos se refiere a la transformación integral de datos sin procesar en información significativa y útil. Las organizaciones confían en estos sistemas para procesar datos estructurados y no estruct{...}

Procesamiento de eventos complejos

¿Qué es el procesamiento de eventos complejos [CEP]?El procesamiento de eventos complejos [CEP], también conocido como procesamiento de eventos, de flujos o de flujos de eventos, es el uso de tecnología para consultar datos antes de almacenarlos en u{...}

PyCharm

PyCharm es un entorno de desarrollo integrado (IDE) que se utiliza en la programación de computadoras, creado para el lenguaje de programación Python. Cuando usas PyCharm en Databricks, por defecto, PyCharm crea un entorno virtual de Python, pero pue{...}

PySpark

¿Qué es PySpark?Apache Spark está escrito en el lenguaje de programación Scala. PySpark se lanzó para admitir la colaboración entre Apache Spark y Python; en realidad, es una API de Python para Spark. Además, PySpark te ayuda a interactuar con conjun{...}

Recopilación de datos: métodos, herramientas y prácticas recomendadas

¿Qué es la recopilación de datos?La recopilación de datos es el proceso sistemático de reunir y medir información de diferentes fuentes que luego se utilizará para la toma de decisiones, generar información valiosa y potenciar los sistemas basados en{...}

Red neuronal

¿Qué es una red neuronal?Una red neuronal es un modelo de computación cuya estructura en capas se asemeja a la estructura de red de las neuronas en el cerebro. Cuenta con elementos de procesamiento interconectados llamados neuronas que trabajan en co{...}

Red neuronal artificial

¿Qué es una red neuronal artificial?Una red neuronal artificial (ANN) es un sistema informático que imita el funcionamiento de las neuronas en el cerebro humano.¿Cómo funcionan las redes neuronales artificiales?Las redes neuronales artificiales se pu{...}

Red neuronal bayesiana

¿Qué son las redes neuronales bayesianas?Las redes neuronales bayesianas (BNNs) se refieren a la extensión de redes estándar con inferencia posterior para controlar el sobreajuste. Desde una perspectiva más amplia, el enfoque bayesiano usa la metodol{...}

Resumen de herramientas de inteligencia empresarial

Las herramientas de inteligencia empresarial (BI) son una categoría fundamental de aplicaciones de software diseñadas para recopilar, procesar, analizar y presentar datos empresariales de forma significativa. En esencia, estas herramientas transforma{...}

Secuencia de ADN

¿Qué es una secuencia de ADN?La secuenciación del ADN es el proceso de determinar la secuencia exacta de nucleótidos del ADN (ácido desoxirribonucleico). La secuenciación del ADN, en el orden de los cuatro componentes químicos: adenina, guanina{...}

Seguridad de datos

En el mundo altamente conectado de hoy, las amenazas de ciberseguridad y los riesgos internos son una preocupación constante. Las organizaciones necesitan tener visibilidad sobre los tipos de datos que tienen, prevenir el uso no autorizado de los dat{...}

Sesgo de automatización

¿Qué es el sesgo de automatización?El sesgo de automatización es una dependencia excesiva de las ayudas automatizadas y los sistemas de apoyo de decisiones. A medida que aumenta la disponibilidad de ayudas automatizadas para la toma de decisiones, ca{...}

Sistemas de IA compuestos

¿Qué son los sistemas de IA compuestos?Los sistemas de IA compuestos, tal como los define el blog de Berkeley AI Research (BAIR), son sistemas que abordan tareas de IA combinando varios componentes que interactúan. Estos componentes pueden incluir va{...}

Spark Elasticsearch

¿Qué es Spark Elasticsearch?Spark Elasticsearch es una base de datos NoSQL distribuida que almacena, recupera y gestiona datos orientados a documentos y semiestructurados. Es un motor de búsqueda RESTful de código abierto de GitHub construido sobre A{...}

Spark gestionado

¿Qué es Managed Spark?Un servicio gestionado de Spark le permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático. Con este tipo de automatización podrás{...}

Spark hospedado

¿Qué es Hosted Spark (Spark hospedado)?Apache Spark es un sistema de computación en clúster rápido y general para Big Data construido en torno a la velocidad, la facilidad de uso y el análisis avanzado que se creó originalmente en 2009 en UC Berkeley{...}

Spark SQL

Muchos científicos de datos, analistas y usuarios de inteligencia de negocios utilizan consultas SQL interactivas para explorar datos. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de progra{...}

Spark Streaming

Apache Spark Streaming es la generación anterior del motor de streaming de Apache Spark. Ya no hay actualizaciones para Spark Streaming y es un proyecto heredado. Hay un motor de streaming más nuevo y fácil de usar en Apache Spark llamado Structured {...}

Sparklyr

¿Qué es Sparklyr?Sparklyr es un paquete de código abierto que proporciona una interfaz entre R y Apache Spark. Ahora puedes aprovechar las capacidades de Spark en un entorno de R moderno, gracias a la capacidad de Spark para interactuar con datos dis{...}

SparkR

SparkR es una herramienta para ejecutar R en Spark. Sigue los mismos principios que todos los demás enlaces de lenguaje de Spark. Para usar SparkR, simplemente lo importamos a nuestro entorno y ejecutamos nuestro código. Todo es muy similar a la API {...}

Tensor denso

Los tensores densos almacenan valores en un bloque de memoria contiguo y secuencial donde todos los valores están representados. Los tensores o arreglos multidimensionales se utilizan en un conjunto diverso de aplicaciones de análisis de datos multid{...}

Tensor disperso

Python ofrece una biblioteca incorporada llamada numpy para manipular arreglos multidimensionales. La organización y el uso de esta biblioteca son un requisito principal para desarrollar la biblioteca pytensor. Sptensor es una clase que representa el{...}

TensorFlow

En noviembre de 2015, Google lanzó su framework de código abierto para el aprendizaje automático y lo llamó TensorFlow. Admite el aprendizaje profundo, las redes neuronales y los cálculos numéricos generales en CPU, GPU y clústeres de GPU. Una de las{...}

Transacciones ACID

¿Qué es una transacción?En el contexto de las bases de datos y los sistemas de almacenamiento de datos, una transacción es cualquier operación que se trata como una sola unidad de trabajo, que se completa en su totalidad o no se completa en absoluto,{...}

Transformación de datos.

¿Qué es la transformación de datos?La transformación de datos es el proceso de tomar datos sin procesar que se han extraído de fuentes de datos y convertirlos en conjuntos de datos utilizables. Las canalizaciones de datos suelen incluir varias transf{...}

Transmisión de datos

¿Qué es el streaming de datos?La transmisión de datos es la recopilación, el procesamiento y el análisis continuos de datos a medida que se generan, lo que permite a las organizaciones actuar sobre la información en tiempo real. En los últimos años, {...}

Transmisión estructurada

Structured Streaming es una API de alto nivel para el procesamiento de streams que estuvo lista para producción en Spark 2.2. Structured Streaming te permite realizar las mismas operaciones que haces en modo por lotes con las API estructuradas de Spa{...}

Tungsten

¿Qué es el proyecto Tungsten?Tungsten es el nombre en clave del proyecto general para realizar cambios en el motor de ejecución de Apache Spark que se enfoca en mejorar sustancialmente la eficiencia de la memoria y la CPU para las aplicaciones de Spa{...}

Venta minorista en tiempo real

¿Qué son los datos en tiempo real para el sector retail?El retail en tiempo real es el acceso a los datos en tiempo real. Dejar el acceso, análisis y procesamiento por lotes permitirá que los datos estén “siempre disponibles” y permitan las decisione{...}

Virtualización de datos: acceso unificado en tiempo real a múltiples fuentes de datos

¿Qué es la virtualización de datos?La virtualización de datos es un método de integración de datos que permite a las organizaciones crear vistas unificadas de la información de múltiples fuentes de datos sin necesidad de mover ni copiar los datos fís{...}

Vistas materializadas

¿Qué es una vista materializada?Una vista materializada es un objeto de base de datos que almacena los resultados de una consulta como una tabla física. A diferencia de las vistas de base de datos regulares, que son virtuales y derivan sus datos de l{...}

¿Qué es el análisis aumentado?

El análisis aumentado representa la evolución de la inteligencia empresarial (BI) mediante la integración de la inteligencia artificial (IA) y el aprendizaje automático (ML) en el flujo de trabajo del análisis de datos. En lugar de sustituir a los an{...}

¿Qué es el aprendizaje automático (ML) operativo?

Autor: Kevin Stumpf, Cofundador y CTOEn 2015, cuando comenzamos a implementar la plataforma de aprendizaje automático de Uber, Michelangelo, notamos un patrón interesante: el 80 % de los modelos de ML lanzados en la plataforma impulsaban casos d{...}

¿Qué es el aprendizaje automático vs. el aprendizaje profundo?

Comprende las diferencias fundamentales y en qué contexto encaja cada una dentro de la IAComprender la jerarquía de la IA, el ML y el DLEn el amplio mundo de la inteligencia artificial (IA), los conceptos de aprendizaje automático y aprendizaje profu{...}

¿Qué es el modelado de datos?

El modelado de datos es un proceso clave en el diseño y la organización de estructuras de datos para respaldar el almacenamiento, la recuperación y el análisis eficientes de la información. Es la base arquitectónica de cualquier sistema de almacenami{...}

¿Qué es el procesamiento de transacciones en línea (OLTP)?

OLTP, o procesamiento de transacciones en línea, es un tipo de procesamiento de datos que puede manejar de manera eficiente un gran número de transacciones cortas y rápidas con baja latencia. En esencia, OLTP está diseñado para almacenar y recuperar {...}

¿Qué es el Protocolo de Contexto del Modelo (MCP)? Una guía práctica para la integración de la IA

Introducción: Comprensión del Protocolo de Contexto de ModeloEl Protocolo de Contexto de Modelo (MCP) es un estándar abierto que permite a las aplicaciones de IA conectarse sin inconvenientes con fuentes de datos, herramientas y sistemas externos. Pi{...}

¿Qué es extraer, cargar y transformar? (ELT, por sus siglas en inglés)

ELT, abreviatura de extraer, cargar, transformar, es un enfoque moderno de integración de datos diseñado para plataformas de análisis nativas de la nube. En una canalización ELT, los datos primero se extraen de los sistemas de origen, luego se cargan{...}

¿Qué es Hadoop?

Apache Hadoop es una plataforma de software de código abierto basada en Java que gestiona el procesamiento y almacenamiento de datos para aplicaciones de big data. La plataforma funciona distribuyendo trabajos de big data y análisis de Hadoop entre n{...}

¿Qué es la captura de datos de cambios?

¿Qué es la captura de datos de cambios?La captura de datos de cambios (CDC) es una técnica de integración de datos que identifica y registra los cambios realizados a nivel de fila en un conjunto de datos, como inserciones, actualizaciones y eliminaci{...}

¿Qué es la clasificación de datos?

La clasificación de datos es el proceso de organizar los datos en categorías claramente definidas según su sensibilidad, valor y riesgo para la organización. Estas categorías, a menudo expresadas como niveles tales como público, interno, confidencial{...}

¿Qué es la gobernanza de la IA? Una guía clara para una IA responsable

¿Qué es la gobernanza de la IA?La gobernanza de la IA es el conjunto de marcos, políticas y procesos que utilizan las organizaciones para garantizar que los sistemas de inteligencia artificial se desarrollen, implementen y operen de manera responsabl{...}

¿Qué es la IA agéntica?

Comprensión de los sistemas autónomos de IA y sus aplicaciones en el mundo realIntroducción a la IA agénticaLa IA agéntica se refiere a plataformas inteligentes que pueden planificar, decidir y actuar de forma autónoma para alcanzar objetivos con una{...}

¿Qué es la ingeniería de datos?

La ingeniería de datos es la práctica de diseñar, construir y mantener sistemas que recopilan, almacenan, transforman y entregan datos para su análisis, generación de informes, aprendizaje automático y toma de decisiones. Se trata de asegurarse de qu{...}

¿Qué es la inteligencia de datos?

La inteligencia de datos es el proceso de usar sistemas de inteligencia artificial (AI) para aprender, comprender y razonar sobre los datos de una organización, lo que permite la creación de aplicaciones de AI personalizadas y democratiza el acceso a{...}

¿Qué es la inteligencia empresarial?

La inteligencia empresarial (BI) es un conjunto de estrategias, tecnologías y procesos que recopilan, gestionan y analizan datos empresariales para transformarlos en información útil que permita tomar mejores decisiones. Los sistemas de BI transforma{...}

¿Qué es la minería de datos?

Introducción a la minería de datosLa minería de datos es el proceso de descubrir patrones, relaciones e información valiosa a partir de grandes volúmenes de datos. Se basa en técnicas de estadística, aprendizaje automático y gestión de datos para rev{...}

¿Qué es la narración de datos?

{...}

¿Qué es la observabilidad de datos?

La observabilidad de datos es la práctica y los procesos que se usan para supervisar continuamente la salud, la calidad, la confiabilidad y el rendimiento de los sistemas de datos (desde las canalizaciones de ingesta hasta las capas de almacenamiento{...}

¿Qué es la visión por computadora?

La visión artificial es un campo de estudio dentro de la informática que se centra en permitir que las máquinas analicen y comprendan la información visual lo más fielmente posible a como lo hacen los seres humanos mediante el poder de la vista. En e{...}

¿Qué es la visualización de datos?

La visualización de datos es el proceso de convertir datos sin procesar en formatos visuales que facilitan la interpretación de patrones y relaciones. La conversión de datos sin procesar a formatos como gráficos, diagramas o mapas convierte la inform{...}

¿Qué es OLAP? Comprensión del procesamiento analítico en línea para la inteligencia empresarial

OLAP es una forma de analizar datos en múltiples dimensiones de forma rápida e interactiva. El procesamiento analítico en línea estructura la información para que los usuarios puedan explorar tendencias e investigar cuestiones relacionadas con el ren{...}

¿Qué es un almacén de características?

Actualizado: 15 de mayo de 2025Acerca de los autores:Mike Del Balso, director ejecutivo y cofundador de TectonWillem Pienaar, creador de FeastLos equipos de datos están comenzando a darse cuenta de que el aprendizaje automático operacional requiere r{...}

¿Qué es un grafo acíclico dirigido (DAG)?

Un grafo acíclico dirigido, comúnmente conocido como DAG, es un concepto fundamental en ingeniería de datos, análisis e IA. Proporciona una forma estructurada de representar tareas, dependencias y flujos de información. Ya sea que estés construyendo {...}

¿Qué es una base de datos relacional (RDBMS)? Características y usos clave

¿Qué es una base de datos relacional?Una base de datos relacional es un tipo de base de datos que almacena y proporciona acceso a datos en tablas que pueden vincularse entre sí mediante columnas y filas compartidas, denominadas relaciones, con identi{...}

¿Qué es una plataforma de características para el aprendizaje automático?

Hasta hace dos años, solo las grandes empresas tecnológicas tenían los recursos y la experiencia necesarios para crear productos que dependieran por completo de los sistemas de aprendizaje automático. Piensa en Google gestionando las subastas de anun{...}

¿Qué es una plataforma de inteligencia empresarial?

Una plataforma de inteligencia empresarial (BI) es una solución tecnológica integral que ayuda a las organizaciones a recopilar, comprender y visualizar sus datos para tomar decisiones de negocios informadas. Estas plataformas sirven como la columna {...}