Ir al contenido principal

Glossary

El descenso del gradiente es el método de optimización más comúnmente utilizado en los algoritmos de aprendizaje automático y aprendizaje profundo. Se usa para entrenar un modelo de aprendizaje automático.Tipos de descenso de gradiente En los algorit{...}
¿Qué son los agentes de IA?ResumenComprende qué diferencia a los agentes de IA de los sistemas de IA tradicionales, incluida la forma en que perciben, deciden y actúan de forma autónoma.Explora la evolución de los agentes de IA desde los primeros pro{...}
Comprender el ajuste precisoAl entrenar modelos de inteligencia artificial (IA) y aprendizaje automático (ML) para un propósito específico, los científicos de datos e ingenieros descubrieron que es más fácil y menos costoso modificar modelos de lengu{...}
¿Qué es la alfabetización de datos?La alfabetización de datos es la capacidad de leer, trabajar, analizar y comunicar datos de manera efectiva. Se trata de entender qué significan los datos, cómo se crean y cómo usarlos para poder hacer las preguntas{...}
¿Qué es un almacén de datos?Un almacén de datos (DWH) es un sistema de gestión de datos que guarda los datos actuales e históricos de varias fuentes con el fin de favorecer a las empresas y facilitarles la obtención de información y la elaboración de{...}
¿Qué es un almacén de datos empresarial (EDW)?Un almacén de datos empresariales (EDW) es un repositorio centralizado y estructurado diseñado para consolidar y administrar los datos de una organización. El beneficio principal de un EDW es que proporci{...}
¿Qué es un almacén de datos unificado?Una base de datos unificada, también conocida como almacén de datos empresarial, contiene toda la información empresarial de una organización y la hace accesible en toda la empresa. Hoy en día, la mayoría de las {...}
La diferencia entre datos y análisis de Big DataAntes de la invención de Hadoop, las tecnologías que sustentaban los sistemas modernos de almacenamiento y cómputo eran relativamente básicas, lo que limitaba a las empresas principalmente al análisis d{...}
Unified Data Analytics es una nueva categoría de soluciones que unifican el procesamiento de datos con tecnologías de AI, lo que hace que la AI sea mucho más factible para las empresas y les permite acelerar sus iniciativas de AI. Unified Data Analyt{...}
¿Cómo funciona el análisis de streaming?El análisis de streaming, también conocido como procesamiento de flujos de eventos, es el análisis de enormes volúmenes de datos actuales y “en movimiento” mediante el uso de consultas continuas, denominadas fl{...}
¿Qué es el análisis en tiempo real?El análisis en tiempo real se refiere a la práctica de recopilar y analizar datos de streaming a medida que se generan, con una latencia mínima entre la generación de los datos y su análisis. El análisis en tiempo r{...}
¿Qué es el análisis predictivo?El análisis predictivo es una forma de análisis avanzado que utiliza datos nuevos e históricos para determinar patrones y predecir resultados y tendencias futuros.¿Cómo funciona el análisis predictivo?El análisis predic{...}
¿Qué es Apache Hive?Apache Hive es un software de almacenamiento de datos de código abierto diseñado para leer, escribir y gestionar grandes conjuntos de datos extraídos del sistema de archivos distribuido Apache Hadoop (HDFS), un aspecto de un ecosi{...}
¿Qué es Apache Kudu?Apache Kudu es un sistema de almacenamiento en columnas gratuito y de código abierto desarrollado para Apache Hadoop. Es un motor destinado a datos estructurados que admite acceso aleatorio de baja latencia a escala de milisegundo{...}
¿Qué es Apache Kylin?Apache Kylin es un motor de procesamiento analítico en línea (OLAP) distribuido y de código abierto para el análisis interactivo de Big Data. Apache Kylin está diseñado para proporcionar una interfaz SQL y análisis multidimension{...}
¿Qué es Apache Spark como servicio?Apache Spark es un marco de computación en clúster de código abierto para el procesamiento rápido de datos a gran escala en tiempo real. Desde su creación en 2009 en el AMPLab de la Universidad de California en{...}
¿Qué es Apache Spark?Apache Spark es un motor de análisis de código abierto que se usa para cargas de trabajo de big data. Puede manejar cargas de trabajo tanto por lotes como de análisis en tiempo real y de procesamiento de datos. Apache Spark {...}
Si trabajas con Spark, te encontrarás con las tres API: DataFrames, Datasets y RDDs¿Qué son los Resilient Distributed Datasets?Un RDD, o conjunto de datos distribuido resiliente, es una colección de registros con computación distribuida que son toler{...}
¿Qué es la API de Tensorflow Estimator?Los Estimators representan un modelo completo, pero también son lo suficientemente intuitivos para los usuarios con menos experiencia. La API de Estimator proporciona métodos para entrenar el modelo, evaluar su {...}
Las aplicaciones continuas son aplicaciones de extremo a extremo que reaccionan a los datos en tiempo real. En particular, a los desarrolladores les gustaría usar una única interfaz de programación para dar soporte a los aspectos de las aplicaciones {...}
Las aplicaciones de Spark se componen de un proceso de controlador y un conjunto de procesos de ejecutor. El proceso del driver ejecuta tu función main(), se encuentra en un nodo del clúster y es responsable de tres cosas: mantener la información sob{...}
¿Qué es el aprendizaje profundo?El aprendizaje profundo es un subconjunto del aprendizaje automático que se ocupa de grandes cantidades de datos con algoritmos inspirados en la estructura y función del cerebro humano, por lo que los modelos de aprend{...}
El panorama empresarial ha evolucionado hasta convertir los datos y la inteligencia artificial en elementos fundamentales para obtener una ventaja competitiva. Los datos se han convertido en un activo clave para cualquier empresa, y su gestión debe d{...}
¿Qué es la Arquitectura Lambda?La arquitectura Lambda es una forma de procesar grandes cantidades de datos (es decir, “Big Data”) que ofrece acceso a métodos de procesamiento por lotes y procesamiento de transmisión con un enfoque híbrido. La arquite{...}
 ¿Qué es una arquitectura medallion?Una arquitectura Medallion es un patrón de diseño de datos que se utiliza para organizar los datos de forma lógica en un lakehouse, con el objetivo de mejorar de forma incremental y progresiva la estructura y {...}
A medida que crece la cantidad de datos, fuentes de datos y tipos de datos, las organizaciones requieren cada vez más herramientas y estrategias para transformar esos datos y obtener insights empresariales. Procesar datos sin procesar y desordenados {...}
¿Qué es una base de datos de vectores?Una base de datos de vectores es una base de datos especializada diseñada para almacenar y gestionar datos como vectores de alta dimensión. El término proviene de los vectores, que son representaciones matemática{...}
La Biblioteca de Machine Learning (MLlib) de Apache Spark está diseñada para ofrecer simplicidad, escalabilidad y una fácil integración con otras herramientas. Con la escalabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los científi{...}
La bioinformática es un campo de estudio que emplea la informática para extraer conocimiento de grandes colecciones de datos biológicos.La bioinformática se refiere al uso de TI en biotecnología para el almacenamiento, la recuperación, la organizació{...}
Business intelligence (BI) tools are a critical category of software applications designed to collect, process, analyze and present business data in meaningful ways. At their core, these tools transform raw data into actionable insights that drive st{...}
¿Qué es un Data Vault?Una bóveda de datos es un patrón de diseño de modelado de datos utilizado para construir un almacenamiento de datos para análisis a escala empresarial. La bóveda de datos tiene tres tipos de entidades: concentradores, enlaces y {...}
Normalmente, al ejecutar algoritmos de aprendizaje automático, se realiza una secuencia de tareas que incluye etapas de preprocesamiento, extracción de características, ajuste del modelo y validación. Por ejemplo, clasificar documentos de texto podrí{...}
En el aprendizaje profundo, una red neuronal convolucional (CNN o ConvNet) es una clase de redes neuronales profundas, que generalmente se usan para reconocer patrones presentes en imágenes, pero también se usan para el análisis de datos espaciales, {...}
¿Qué es un catálogo de datos?Un catálogo de datos es un sistema centralizado de inventario y gestión que sirve como el “mapa del tesoro” definitivo para los activos de datos de su organización. Proporciona un repositorio completo y con capacidad de b{...}
¿Qué es un clúster de Hadoop?Apache Hadoop es un marco de software de código abierto basado en Java y un motor de procesamiento de datos en paralelo. Permite que las tareas de procesamiento de análisis de big data se dividan en tareas más pequeñas qu{...}
Hoy más que nunca, las organizaciones dependen de una variedad de conjuntos de datos complejos para impulsar su toma de decisiones. Es crucial que estos datos sean confiables, precisos y relevantes para que las empresas puedan tomar decisiones estrat{...}
¿Qué son los modelos de IA?Los modelos de IA son programas informáticos que usan datos para reconocer patrones y hacer predicciones y tomar decisiones. Los modelos de IA usan algoritmos: reglas paso a paso basadas en aritmética, repetición y lógica d{...}
La computación sin servidor es la evolución más reciente de la infraestructura de computación. Las organizaciones solían necesitar servidores físicos para ejecutar aplicaciones web. Luego, el auge del cloud computing les permitió crear servidores vir{...}
¿Qué es un conjunto de datos?Un conjunto de datos es una colección estructurada de datos organizados y almacenados en conjunto para su análisis o procesamiento. Los datos dentro de un conjunto de datos suelen estar relacionados de alguna manera y se {...}
RDD fue la API principal para el usuario en Spark desde su creación. En esencia, un RDD es una colección distribuida inmutable de elementos de tus datos, particionada entre los nodos de tu clúster, que se puede operar en paralelo con una API de bajo {...}
En informática, una tabla hash [hash map] es una estructura de datos que proporciona acceso prácticamente directo a objetos basados en una clave [una cadena única o un entero]. Una tabla hash utiliza una función hash para calcular un índice en una ma{...}
What is Data Governance? Data governance is the oversight to ensure data brings value and supports the business strategy. Data governance is more than just a tool or a process. It aligns data-related requirements to the business strategy using a fram{...}
Data ingestion is the first step in the data engineering lifecycle. It involves gathering data from diverse sources such as databases, SaaS applications, file sources, APIs and IoT devices into a centralized repository like a data lake, data warehous{...}
¿Qué es un Data Lakehouse?Un data lakehouse es una nueva arquitectura de gestión de datos abierta que combina la flexibilidad, la rentabilidad y la escalabilidad de los lagos de datos con la gestión de datos y las transacciones ACID de los almacenes {...}
What is data lineage?Data lineage is the process of recording, tracking and visualizing data and AI over time, from origin to consumption. Effective data lineage provides data teams with an end-to-end view of how data is transformed and flows across {...}
¿Qué es un data mart?Un data mart es una base de datos curada que incluye un conjunto de tablas diseñadas para satisfacer las necesidades específicas de un único equipo de datos, comunidad o línea de negocio, como el departamento de marketing o el de{...}
Los datos son críticos para las empresas, y sirven como materia prima para la innovación y el avance. Su importancia crece a medida que las organizaciones se vuelven más centradas en los datos y las decisiones, lo que crea grandes desafíos para las o{...}
What Is Data Processing?Data processing refers to the end-to-end transformation of raw data into meaningful, actionable insights. Organizations rely on these systems to process structured and unstructured data in real time (or at scale) to make timel{...}
What is Data Streaming?Data streaming is the continuous collection, processing and analysis of data as it is generated, allowing organizations to act on information in real time. Over the last several years, the need for real-time data has grown expo{...}
Databricks Runtime es el conjunto de artefactos de software que se ejecutan en los clústeres de máquinas administrados por Databricks. Incluye Spark, pero también agrega varios componentes y actualizaciones que mejoran sustancialmente la usabilidad, {...}
¿Qué es un DataFrame?Un DataFrame es una estructura de datos que organiza los datos en una tabla bidimensional de filas y columnas, muy parecida a una hoja de cálculo. Los DataFrames son una de las estructuras de datos más comunes utilizadas en el an{...}
¿Qué son los datos alternativos?Los datos alternativos son información recopilada mediante el uso de fuentes alternativas de datos que otros no están usando; fuentes de información no tradicionales. El análisis de datos alternativos puede propor{...}
La detección de anomalías es la técnica de identificar observaciones o eventos raros que pueden levantar sospechas por ser estadísticamente diferentes del resto de las observaciones. Este comportamiento “anómalo” generalmente se traduce en algún tipo{...}
¿Qué es el Ecosistema de Hadoop?El ecosistema de Apache Hadoop hace referencia a los diversos componentes de la biblioteca de software Apache Hadoop; incluye proyectos de código abierto, así como una gama completa de herramientas complementarias. Alg{...}
¿Qué es la Efectividad General del Equipo?La Efectividad Global del Equipo(OEE) es una métrica de qué tan bien se utiliza una operación de manufactura (instalaciones, tiempo y material) en comparación con su máximo potencial, durante los períodos en {...}
 ¿Qué es un esquema de copo de nieve?Un esquema de copo de nieve es un modelo de datos multidimensional que es una extensión de un esquema de estrella, en el que las tablas de dimensiones se desglosan en subdimensiones. Los esquemas de copo de n{...}
¿Qué es un esquema de estrella?Un esquema de estrella es un modelo de datos multidimensional que se utiliza para organizar datos en una base de datos de modo que sea fácil de entender y analizar. Los esquemas de estrella pueden aplicarse a almacenes {...}
¿Qué es ETL?A medida que crece la cantidad de datos, fuentes de datos y tipos de datos en las organizaciones, también crece la importancia de utilizar esos datos en iniciativas de analítica, ciencia de datos y aprendizaje automático para obtener insi{...}
¿Qué son las finanzas personalizadas?Los productos y servicios financieros se están convirtiendo cada vez más en productos básicos y los consumidores son más exigentes, ya que los sectores de los medios de comunicación y el comercio minorista han aum{...}
¿Qué es el flujo de datos?El flujo de datos describe el movimiento de datos a través de la arquitectura de un sistema, de un proceso o componente a otro. Describe cómo se introducen, procesan, almacenan y se generan los datos dentro de un sistema inf{...}
La inteligencia artificial unificada o UAI fue anunciada por Facebook durante el F8 de este año. Esto reúne 2 frameworks de aprendizaje profundo específicos que Facebook creó y publicó: PyTorch se enfocaba en la investigación y asumía el acceso a rec{...}
¿Qué es una función de fecha en Hive?Hive ofrece muchas funciones integradas que nos ayudan en el procesamiento y la consulta de datos. Algunas de las funcionalidades que ofrecen estas funciones incluyen la manipulación de cadenas, la manipulación de{...}
¿Qué es un gemelo digital?La definición tradicional de gemelo digital es: “Un gemelo digital es un modelo virtual diseñado para reflejar con precisión un objeto físico”. – IBM[KVK4] Para un proceso de fabricación discreto o continuo, un gemelo digita{...}
ResumenAprende cómo funciona la generación aumentada por recuperación (RAG) al combinar modelos de lenguaje grandes (LLMs) con datos externos y en tiempo real para obtener resultados más precisos y relevantes.Descubre cómo RAG resuelve problemas espe{...}
Generative AI is changing the way humans create, work and communicate. Databricks explains how generative AI works and where it’s heading next. {...}
La genómica es un área de la genética que se ocupa de la secuenciación y el análisis del genoma de un organismo. Su tarea principal es determinar la secuencia completa del ADN o la composición de los átomos que lo forman y los enlaces químicos entre {...}
¿Qué es la gestión de datos?Empecemos con una definición de gestión de datos.La gestión de datos es la práctica de organizar, procesar, almacenar, proteger y analizar los datos de una organización a lo largo de su ciclo de vida. A través de un manejo{...}
¿Qué es la gestión de la cadena de suministro?La gestión de la cadena de suministro es el proceso de planificar, implementar y controlar las operaciones de la cadena de suministro con el objetivo de producir y entregar productos y servicios de manera{...}
La gestión de riesgos de modelos se refiere a la supervisión de los riesgos derivados de las posibles consecuencias adversas de las decisiones basadas en modelos incorrectos o utilizados de forma inadecuada. El objetivo de la gestión del riesgo de mo{...}
HDFSHDFS (Hadoop Distributed File System) es el sistema de almacenamiento principal utilizado por las aplicaciones de Hadoop. Este marco de código abierto funciona transfiriendo datos rápidamente entre nodos. A menudo es utilizado por empresas que ne{...}
Ingeniería de características para el aprendizaje automáticoLa ingeniería de características, también conocida como preprocesamiento de datos, es el proceso de transformar datos sin procesar en características que se pueden utilizar para desarrollar {...}
La ingeniería de prompts es un campo emergente a la vanguardia del desarrollo de la inteligencia artificial (AI) que se enfoca en los procesos críticos de creación de entradas efectivas para los modelos de AI generativa (GenAI). A medida que los sist{...}
La inteligencia empresarial o IE (Business intelligence) es un conjunto de tecnologías, procesos y estrategias diseñados para generar información procesable a partir de datos empresariales. Los sistemas de IE recopilan y almacenan datos de operacione{...}
¿Qué es el uso compartido de datos?El uso compartido de datos es la capacidad de poner los mismos datos a disposición de uno o varios consumidores. La cantidad cada vez mayor de datos se ha convertido en un activo estratégico para cualquier empresa. {...}
¿Qué es un Jupyter Notebook?Un Jupyter Notebook es una aplicación web de código abierto que permite a los científicos de datos crear y compartir documentos que incluyen código en vivo, ecuaciones y otros recursos multimedia.¿Para qué se utilizan los {...}
Introducción a PostgreSQLUna base de datos PostgreSQL es un sistema de gestión de bases de datos relacionales de código abierto que almacena, organiza y recupera datos estructurados. Esta base de datos relacional impone relaciones entre las tablas de{...}
¿Qué es Lakehouse para Retail?Lakehouse for Retail es el primer lakehouse específico de la industria de Databricks. Ayuda a los minoristas a empezar a operar rápidamente a través de aceleradores de soluciones, capacidades de uso compartido de datos y{...}
¿Qué es LLMOps?Las operaciones de modelos de lenguaje grande (LLMOps) abarcan las prácticas, técnicas y herramientas que se usan para la gestión operativa de modelos de lenguaje grande en entornos de producción.Los últimos avances en LLM, destacados {...}
¿Qué es el mantenimiento predictivo?El mantenimiento predictivo, en pocas palabras, consiste en determinar cuándo se debe mantener un activo y qué actividades de mantenimiento específicas se deben realizar según la condición o el estado real del acti{...}
¿Qué es MapReduce?MapReduce es un framework de ejecución distribuida basado en Java dentro del ecosistema Apache Hadoop. Elimina la complejidad de la programación distribuida al exponer dos pasos de procesamiento que los desarrolladores implementan: {...}
¿Qué es la evaluación de agentes de IA? Una guía completaLa evaluación de agentes de IA es la disciplina que mide la eficacia con la que un sistema de IA autónomo realiza tareas, guía sus propias decisiones, interactúa con herramientas, razona en múl{...}
¿Qué es un data marketplace o mercado de datos?Los mercados de datos, o data marketplaces, son tiendas en línea que permiten el uso compartido de datos y la colaboración. Conectan a los proveedores y consumidores de datos y les ofrecen a los particip{...}
Las empresas dependen de los datos ahora más que nunca. Para garantizar la utilidad de tus datos, debes utilizar la mejor plataforma de datos posible, lo que puede requerir una migración de datos.Si tienes preguntas sobre la migración de datos y cómo{...}
¿Qué es MLOps?MLOps significa Operaciones de aprendizaje automático. MLOps es una función fundamental de la ingeniería de Machine Learning, enfocada en agilizar el proceso de llevar los modelos de machine learning a producción y, luego, mantenerlos y{...}
¿Qué es un modelo de Keras?Keras es una biblioteca de alto nivel para el aprendizaje profundo, construida sobre Theano y Tensorflow. Está escrito en Python y ofrece una forma clara y cómoda de crear una amplia gama de modelos de aprendizaje profundo.{...}
¿Qué es un modelo de aprendizaje automático?Un modelo de aprendizaje automático es un programa que puede encontrar patrones o tomar decisiones a partir de un conjunto de datos nunca antes visto. Por ejemplo, en el procesamiento del lenguaje natural, {...}
¿Qué son los modelos de lenguaje grande (LLM)?Los modelos de lenguaje son un tipo de IA generativa (GenAI) que usan el procesamiento del lenguaje natural (PLN) para comprender y generar lenguaje humano. Los modelos de lenguaje grande (LLM) son los má{...}
El imperativo de la modernización de datosLa modernización de datos es la transformación integral de la infraestructura, las prácticas y las herramientas de datos de una organización para permitir la agilidad, la innovación y la toma de decisiones ba{...}
¿Qué es la banca abierta?La banca abierta es una forma segura de dar acceso a los datos financieros de los consumidores, siempre que se cuente con su consentimiento.² Impulsada por una dinámica regulatoria, tecnológica y competitiva, la banca abierta{...}
¿Qué es la optimización del rendimiento de Spark?La optimización del rendimiento de Spark consiste en el proceso de ajustar la configuración de la memoria, los núcleos y las instancias que utiliza el sistema. Este proceso garantiza que Spark tenga un{...}
En el núcleo de Spark SQL se encuentra el optimizador Catalyst, que aprovecha las características avanzadas del lenguaje de programación (p. ej.: el patrón de coincidencia y las cuasi-citas o "quasiquotes" de Scala) de una forma novedosa para cr{...}
¿Qué es la orquestación?La orquestación es la coordinación y gestión de múltiples sistemas informáticos, aplicaciones o servicios, que encadena varias tareas para ejecutar un flujo de trabajo o proceso más grande. Estos procesos pueden constar de múl{...}
Cuando se trata de la ciencia de datos, no es exagerado decir que puedes transformar la forma en que funciona tu negocio si aprovechas todo el potencial de pandas DataFrame. Para ello, necesitarás las estructuras de datos adecuadas. Esto te ayudará a{...}
¿Qué es una canalización de datos?Una canalización de datos se refiere a las formas en que los datos fluyen de un sistema a otro. Consiste en una serie de pasos que se realizan en un orden específico, donde el resultado de un paso actúa como entrada {...}
La Plataforma Unificada de Análisis de Datos de Databricks ayuda a las organizaciones a acelerar la innovación al unificar la ciencia de datos con la ingeniería y los negocios. Con Databricks como su plataforma unificada de analítica de datos, puede {...}
¿Qué es una plataforma de análisis de datos?Una plataforma de análisis de datos es un ecosistema de servicios y tecnologías que necesita realizar análisis de datos voluminosos, complejos y dinámicos que le permitan recuperar, combinar, interactuar, e{...}
Introduction: Understanding DataFrame Library OptionsDataFrames are two-dimensional data structures, usually tables, similar to spreadsheets, that allow you to store and manipulate tabular data in rows of observations and columns of variables, as wel{...}
¿Qué es la previsión de la demanda?La previsión de la demanda es el proceso de proyectar la demanda de los consumidores (equivalente a los ingresos futuros). En concreto, se trata de proyectar la variedad de productos que los compradores adquirirán u{...}
¿Qué es el procesamiento de eventos complejos [CEP]?El procesamiento de eventos complejos [CEP], también conocido como procesamiento de eventos, de flujos o de flujos de eventos, es el uso de tecnología para consultar datos antes de almacenarlos en u{...}
PyCharm es un entorno de desarrollo integrado (IDE) que se utiliza en la programación de computadoras, creado para el lenguaje de programación Python. Cuando usas PyCharm en Databricks, por defecto, PyCharm crea un entorno virtual de Python, pero pue{...}
¿Qué es PySpark?Apache Spark está escrito en el lenguaje de programación Scala. PySpark se lanzó para admitir la colaboración entre Apache Spark y Python; en realidad, es una API de Python para Spark. Además, PySpark te ayuda a interactuar con conjun{...}
¿Qué es la recopilación de datos?La recopilación de datos es el proceso sistemático de reunir y medir información de diferentes fuentes que luego se utilizará para la toma de decisiones, generar información valiosa y potenciar los sistemas basados en{...}
¿Qué es una red neuronal?Una red neuronal es un modelo de computación cuya estructura en capas se asemeja a la estructura de red de las neuronas en el cerebro. Cuenta con elementos de procesamiento interconectados llamados neuronas que trabajan en co{...}
¿Qué es una red neuronal artificial?Una red neuronal artificial (ANN) es un sistema informático que imita el funcionamiento de las neuronas en el cerebro humano.¿Cómo funcionan las redes neuronales artificiales?Las redes neuronales artificiales se pu{...}
¿Qué son las redes neuronales bayesianas?Las redes neuronales bayesianas (BNNs) se refieren a la extensión de redes estándar con inferencia posterior para controlar el sobreajuste. Desde una perspectiva más amplia, el enfoque bayesiano usa la metodol{...}
¿Qué es una secuencia de ADN?La secuenciación del ADN es el proceso de determinar la secuencia exacta de nucleótidos del ADN (ácido desoxirribonucleico).  La secuenciación del ADN, en el orden de los cuatro componentes químicos: adenina, guanina{...}
En el mundo altamente conectado de hoy, las amenazas de ciberseguridad y los riesgos internos son una preocupación constante. Las organizaciones necesitan tener visibilidad sobre los tipos de datos que tienen, prevenir el uso no autorizado de los dat{...}
Understanding the semantic layerA semantic layer is a business-friendly interface that bridges the gap between complex data models and business users. Acting as an abstraction layer, it translates technical data structures into familiar business term{...}
¿Qué es el sesgo de automatización?El sesgo de automatización es una dependencia excesiva de las ayudas automatizadas y los sistemas de apoyo de decisiones. A medida que aumenta la disponibilidad de ayudas automatizadas para la toma de decisiones, ca{...}
¿Qué son los sistemas de IA compuestos?Los sistemas de IA compuestos, tal como los define el blog de Berkeley AI Research (BAIR), son sistemas que abordan tareas de IA combinando varios componentes que interactúan. Estos componentes pueden incluir va{...}
¿Qué es Spark Elasticsearch?Spark Elasticsearch es una base de datos NoSQL distribuida que almacena, recupera y gestiona datos orientados a documentos y semiestructurados. Es un motor de búsqueda RESTful de código abierto de GitHub construido sobre A{...}
¿Qué es Managed Spark?Un servicio gestionado de Spark le permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático. Con este tipo de automatización podrás{...}
¿Qué es Hosted Spark (Spark hospedado)?Apache Spark es un sistema de computación en clúster rápido y general para Big Data construido en torno a la velocidad, la facilidad de uso y el análisis avanzado que se creó originalmente en 2009 en UC Berkeley{...}
Muchos científicos de datos, analistas y usuarios de inteligencia de negocios utilizan consultas SQL interactivas para explorar datos. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de progra{...}
Apache Spark Streaming es la generación anterior del motor de streaming de Apache Spark. Ya no hay actualizaciones para Spark Streaming y es un proyecto heredado. Hay un motor de streaming más nuevo y fácil de usar en Apache Spark llamado Structured {...}
¿Qué es Sparklyr?Sparklyr es un paquete de código abierto que proporciona una interfaz entre R y Apache Spark. Ahora puedes aprovechar las capacidades de Spark en un entorno de R moderno, gracias a la capacidad de Spark para interactuar con datos dis{...}
SparkR es una herramienta para ejecutar R en Spark. Sigue los mismos principios que todos los demás enlaces de lenguaje de Spark. Para usar SparkR, simplemente lo importamos a nuestro entorno y ejecutamos nuestro código. Todo es muy similar a la API {...}
Los tensores densos almacenan valores en un bloque de memoria contiguo y secuencial donde todos los valores están representados. Los tensores o arreglos multidimensionales se utilizan en un conjunto diverso de aplicaciones de análisis de datos multid{...}
Python ofrece una biblioteca incorporada llamada numpy para manipular arreglos multidimensionales. La organización y el uso de esta biblioteca son un requisito principal para desarrollar la biblioteca pytensor. Sptensor es una clase que representa el{...}
En noviembre de 2015, Google lanzó su framework de código abierto para el aprendizaje automático y lo llamó TensorFlow. Admite el aprendizaje profundo, las redes neuronales y los cálculos numéricos generales en CPU, GPU y clústeres de GPU. Una de las{...}
¿Qué es una transacción?En el contexto de las bases de datos y los sistemas de almacenamiento de datos, una transacción es cualquier operación que se trata como una sola unidad de trabajo, que se completa en su totalidad o no se completa en absoluto,{...}
¿Qué es la transformación de datos?La transformación de datos es el proceso de tomar datos sin procesar que se han extraído de fuentes de datos y convertirlos en conjuntos de datos utilizables. Las canalizaciones de datos suelen incluir varias transf{...}
Structured Streaming es una API de alto nivel para el procesamiento de streams que estuvo lista para producción en Spark 2.2. Structured Streaming te permite realizar las mismas operaciones que haces en modo por lotes con las API estructuradas de Spa{...}
¿Qué es el proyecto Tungsten?Tungsten es el nombre en clave del proyecto general para realizar cambios en el motor de ejecución de Apache Spark que se enfoca en mejorar sustancialmente la eficiencia de la memoria y la CPU para las aplicaciones de Spa{...}
¿Qué son los datos en tiempo real para el sector retail?El retail en tiempo real es el acceso a los datos en tiempo real. Dejar el acceso, análisis y procesamiento por lotes permitirá que los datos estén “siempre disponibles” y permitan las decisione{...}
¿Qué es la virtualización de datos?La virtualización de datos es un método de integración de datos que permite a las organizaciones crear vistas unificadas de la información de múltiples fuentes de datos sin necesidad de mover ni copiar los datos fís{...}
¿Qué es una vista materializada?Una vista materializada es un objeto de base de datos que almacena los resultados de una consulta como una tabla física. A diferencia de las vistas de base de datos regulares, que son virtuales y derivan sus datos de l{...}
A business intelligence (BI) platform is a comprehensive technology solution that helps organizations gather, understand and visualize their data to make informed business decisions. These platforms serve as the technological backbone of a company’s {...}
Up until two years ago, only giant technology companies had the resources and expertise to build products that fully depended on machine learning systems. Think Google powering ad auctions, TikTok recommending content, and Uber dynamically adjusting {...}
Updated: May 15, 2025About the authors:Mike Del Balso, CEO & Co-Founder of TectonWillem Pienaar, Creator of FeastData teams are starting to realize that operational machine learning requires solving data problems that extend far beyond the creati{...}
What Is a Relational Database?A relational database is a type of database that stores and provides access to data in tables that can be linked to each through shared columns and rows, called relations, with unique identifiers (keys) that show the dif{...}
Understanding Autonomous AI Systems and Their Real-World ApplicationsIntroduction to Agentic AIAgentic AI refers to intelligent platforms that can autonomously plan, decide and act to achieve goals with minimal human intervention, rather than respond{...}
What Is AI Governance?AI governance is the set of frameworks, policies, and processes organizations use to ensure artificial intelligence systems are developed, deployed, and operated responsibly throughout their lifecycle. The term refers to any ove{...}
Business intelligence (BI) is a set of strategies, technologies and processes that collect, manage and analyze business data to transform it into actionable insights for better decision-making. BI systems transform raw data into meaningful informatio{...}
What is Change Data Capture?Change Data Capture (CDC) is a data integration technique that identifies and records row-level changes made to a dataset, such as inserts, updates, and deletes. Instead of repeatedly extracting entire tables, CDC captures{...}
Data classification is the process of organizing data into clearly defined categories based on its sensitivity, value and risk to the organization. These categories — often expressed as levels such as public, internal, confidential or restricted — es{...}
Data modeling is a key process in designing and organizing data structures to support efficient storage, retrieval and analysis of information. It is the architectural foundation for any data warehousing system, and effective data modeling can help o{...}
Understand foundational distinctions and where each fits within AI.Understanding the AI, ML and DL HierarchyIn the broader world of artificial intelligence (AI), the concepts of machine learning and deep learning are often confused. AI is the broad f{...}
OLTP, or Online Transaction Processing, is a type of data processing that can efficiently handle large numbers of short, fast transactions with low latency. At its core, OLTP is designed to store and retrieve data quickly. It focuses on day-to-day es{...}
Author: Kevin Stumpf, Co-founder and CTOIn 2015, when we started rolling out Uber’s Machine Learning Platform, Michelangelo, we noticed an interesting pattern: 80% of the ML models launched on the platform powered operational machine learning use cas{...}
Introduction: Understanding the Model Context ProtocolThe Model Context Protocol (MCP) is an open standard that enables AI applications to connect seamlessly with external data sources, tools, and systems. Think of the Model Context Protocol as a USB{...}
El análisis aumentado representa la evolución de la inteligencia empresarial (BI) mediante la integración de la inteligencia artificial (IA) y el aprendizaje automático (ML) en el flujo de trabajo del análisis de datos. En lugar de sustituir a los an{...}
ELT, abreviatura de extraer, cargar, transformar, es un enfoque moderno de integración de datos diseñado para plataformas de análisis nativas de la nube. En una canalización ELT, los datos primero se extraen de los sistemas de origen, luego se cargan{...}
Apache Hadoop es una plataforma de software de código abierto basada en Java que gestiona el procesamiento y almacenamiento de datos para aplicaciones de big data. La plataforma funciona distribuyendo trabajos de big data y análisis de Hadoop entre n{...}
La inteligencia de datos es el proceso de usar sistemas de inteligencia artificial (AI) para aprender, comprender y razonar sobre los datos de una organización, lo que permite la creación de aplicaciones de AI personalizadas y democratiza el acceso a{...}
La observabilidad de datos es la práctica y los procesos que se usan para supervisar continuamente la salud, la calidad, la confiabilidad y el rendimiento de los sistemas de datos (desde las canalizaciones de ingesta hasta las capas de almacenamiento{...}
La visión artificial es un campo de estudio dentro de la informática que se centra en permitir que las máquinas analicen y comprendan la información visual lo más fielmente posible a como lo hacen los seres humanos mediante el poder de la vista. En e{...}
La visualización de datos es el proceso de convertir datos sin procesar en formatos visuales que facilitan la interpretación de patrones y relaciones. La conversión de datos sin procesar a formatos como gráficos, diagramas o mapas convierte la inform{...}
OLAP es una forma de analizar datos en múltiples dimensiones de forma rápida e interactiva. El procesamiento analítico en línea estructura la información para que los usuarios puedan explorar tendencias e investigar cuestiones relacionadas con el ren{...}
Un grafo acíclico dirigido, comúnmente conocido como DAG, es un concepto fundamental en ingeniería de datos, análisis e IA. Proporciona una forma estructurada de representar tareas, dependencias y flujos de información. Ya sea que estés construyendo {...}