Ir para o conteúdo principal

Glossary

A-Z

Um dos algoritmos mais populares para otimização em machine learning e deep learning é o gradiente descendente. Ele é usado para treinar modelos de machine learning. Tipos de gradiente descendente Atualmente, existem três tipos principais de gradient{...}
O que é ajuste de desempenho do Spark? O ajuste de desempenho do Spark é o processo de ajuste das configurações para registro de memória, núcleos e instâncias usadas pelo sistema. Esse processo oferece excelente desempenho ao Spark e também ajuda a e{...}
A diferença entre análise de dados e de big data Antes da invenção do Hadoop, as tecnologias que sustentavam sistemas modernos de armazenamento e compute eram relativamente básicas, limitando as empresas basicamente à análise de "dados pequenos". Por{...}
Como funciona a análise de stream? A análise de streaming, também conhecida como processamento de stream de eventos, é a análise de grandes grupos de dados atuais e "em movimento" por meio do uso de queries contínuas, chamadas streams de eventos. Es{...}
O que é a análise em tempo real? A análise em tempo real refere-se à prática de coleta e análise de dados de streaming à medida que são gerados, com latência mínima entre a geração dos dados e a sua análise. A análise em tempo real costuma ser usada {...}
O que é análise preditiva? Análise preditiva é uma forma de análise avançada que usa dados novos e históricos para determinar padrões e prever tendências e resultados futuros. Como funciona a análise preditiva? A análise preditiva usa muitas técnicas{...}
O que é o Apache Hive? O Apache Hive é um software de data warehouse de código aberto projetado para ler, gravar e gerenciar grandes conjuntos de dados extraídos do Apache Hadoop Distributed File System (HDFS), um aspecto de um ecossistema Hadoop mai{...}
O que é o Apache Kudu? Apache Kudu é um sistema de armazenamento em formato de colunas gratuito e de código aberto desenvolvido para o Apache Hadoop. É um mecanismo destinado a dados estruturados compatível com acesso aleatório de baixa latência em e{...}
What is Apache Kylin? Apache Kylin is a distributed open source online analytics processing (OLAP) engine for interactive analytics Big Data. Apache Kylin has been designed to provide SQL interface and multi-dimensional analysis (OLAP) on Hadoop/Spar{...}
O que é o Apache Spark? O Apache Spark é um mecanismo de análise de código aberto usado para cargas de trabalho de big data. Ele consegue lidar com lotes, cargas de trabalho de análise e processamento de dados em tempo real. O Apache Spark começ{...}
O que é o Apache Spark como serviço? O Apache Spark é uma estrutura de computação de cluster de código aberto para processamento rápido de dados em grande escala em tempo real. Desde o início em 2009, no AMPLab da UC Berkeley, o Spark teve um gr{...}
Ao trabalhar com o Spark, você encontrará as três APIs: DataFrames, Datasets e RDDs. O que são conjuntos de dados distribuídos resilientes? Resilient Distributed Datasets (RDD) são uma coleção de registros que usam computação distribuída e é tolerant{...}
O que é a API Estimator do TensorFlow? O Estimator representa um modelo completo, mas só parece intuitivo para poucos usuários. A API Estimator fornece métodos para treinar o modelo, julgar a precisão do modelo e gerar previsões. O TensorFlow oferece{...}
Aplicativos Spark consistem em um processo de driver e um conjunto de processos executores. O processo de driver executa a função main() e é executado nos nós do cluster. Ele também tem três responsabilidades: gerenciar informações sobre o aplicativo{...}
As aplicações contínuas são aplicações de ponta a ponta que reagem aos dados em tempo real. Em especial, os desenvolvedores querem usar uma única interface de programação para dar suporte às facetas das aplicações contínuas que atualmente são tratada{...}
O que é a arquitetura Lambda? A arquitetura Lambda é uma forma de processar enormes quantidades de dados ("Big Data") que fornece acesso a métodos de processamento em batch e de stream com uma abordagem híbrida. A arquitetura Lambda é usada para reso{...}
O que é uma arquitetura medallion? A arquitetura medallion se refere ao design de dados usado para organizar logicamente os dados do lakehouse, que visa melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que flue{...}
À medida que a quantidade de dados, as fontes de dados e os tipos de dados crescem, as organizações exigem cada vez mais ferramentas e estratégias para ajudá-las a transformar esses dados e obter percepções de negócios. Processar dados brutos e díspa{...}
A biblioteca de Machine Learning (MLlib) do Apache Spark é uma ferramenta projetada para ser simples, altamente escalável e facilmente integrada a outras ferramentas. A escalabilidade, compatibilidade de linguagem e alta velocidade do Spark permitem {...}
A bioinformática é um campo de estudo que usa a computação para extrair conhecimento de grandes coleções de dados biológicos. Bioinformática refere-se ao uso de TI em biotecnologia para armazenar, recuperar, organizar e analisar dados biológicos. Uma{...}
Tabelas hash [HashMaps] na computação são estruturas de dados que efetivamente permitem acesso direto a objetos com base em suas chaves [strings ou integer exclusivos]. Uma tabela hash usa uma função hash para indexar em uma matriz de buckets ou slot{...}
Em deep learning, uma rede neural convolucional (CNN ou ConvNet) é uma classe de redes neurais profundas, normalmente usadas para reconhecer padrões presentes em imagens, mas também para análise de dados espaciais, visão computacional, processamento {...}
No centro do Spark SQL está o Catalyst Optimizer, que usa recursos avançados de linguagem de programação (por exemplo, correspondência de padrões do Scala e quasi quotes) em uma nova maneira de construir um otimizador de queries extensível. O Catalys{...}
O que é um cluster Hadoop? O Apache Hadoop é um framework de software de código aberto baseado em Java e um mecanismo de processamento paralelo de dados. Ele permite que tarefas de processamento de análise de big data sejam divididas em tarefas menor{...}
O que é dataset? Dataset é uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados dentro de um dataset são normalmente relacionados de alguma forma e retirados de uma única fonte ou destinados a um ú{...}
Os conjuntos de dados distribuídos resilientes (RDDs) têm sido a principal API voltada para o usuário do Spark desde seu lançamento. Um RDD é uma coleção imutável de elementos de dados localizados em vários nós em um cluster e pode ser usado juntame{...}
O que são dados alternativos? Dados alternativos são informações coletadas usando fontes alternativas de dados que outros não estão usando;  fontes de informações não tradicionais. A análise de dados alternativos pode fornecer percepções além da{...}
O que é data lakehouse? Um data lakehouse é uma arquitetura aberta e nova de gerenciamento de dados que incorpora a flexibilidade, a economia e a escalabilidade de um data lake com o gerenciamento de dados e os recursos de transações ACID de um data {...}
O que é data mart? Data mart é um banco de dados com curadoria que inclui um conjunto de tabelas projetadas para atender às necessidades específicas de uma única equipe de dados, comunidade ou linha de negócios, como o departamento de marketing ou en{...}
O que é compartilhamento de dados? O compartilhamento de dados é a capacidade de disponibilizar os mesmos dados para vários usuários. Atualmente, a quantidade de dados cada vez maior se tornou um ativo estratégico crítico para qualquer empresa. Compa{...}
O que é Data Vault? O Data Vault é um padrão de design de modelagem de dados usado para construir data warehouse para análise em escala empresarial. Um Data Vault tem três tipos de entidades: hubs, links e satélites. Os hubs representam os conceitos {...}
O que é um data warehouse unificado? Um banco de dados unificado, também conhecido como data warehouse corporativo, armazena todas as informações comerciais de uma organização e as torna acessíveis para toda a empresa. A maioria das empresas de hoje {...}
O Databricks Runtime é o conjunto de artefatos de software executados nos clusters de máquinas gerenciadas pela Databricks. Ele inclui o Spark, mas também adiciona vários componentes e atualizações que melhoram consideravelmente a usabilidade, o des{...}
Em termos de data science, não é exagero dizer que você pode transformar a operação da sua empresa usando-a em todo o seu potencial com o DataFrame do Pandas. Para fazer isso, você precisará das estruturas de dados certas. Elas ajudarão você a ter o{...}
O que é um DataFrame? DataFrame é uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, como uma planilha. Os DataFrames são uma das estruturas de dados mais comuns na análise de dados moderna, pois são uma man{...}
O que é deep learning? Deep learning é um subconjunto de machine learning relacionado a grandes quantidades de dados com algoritmos inspirados na estrutura e nas funções do cérebro humano, e é por isso que os modelos de deep learning costumam ser cha{...}
A detecção de anomalia é a técnica de identificar eventos raros ou observações que podem levantar suspeitas por serem estatisticamente diferentes do resto das observações. Esse comportamento "anômalo" normalmente se traduz em algum tipo de problema, {...}
O que é o ecossistema Hadoop? O ecossistema Apache Hadoop se refere aos vários componentes da biblioteca de software Apache Hadoop. Ele inclui projetos de código aberto, bem como todas as ferramentas complementares. Algumas das ferramentas mais conhe{...}
O que é a eficácia geral do equipamento? A Eficácia Geral do Equipamento(EGE) é uma medida do desempenho de uma operação de manufatura (instalações, tempo e material) em comparação com seu potencial total, durante os períodos em que está programada p{...}
Engenharia de recursos para machine learning A engenharia de recursos, também chamada de pré-processamento de dados, é o processo de conversão de dados brutos em recursos que podem ser usados para desenvolver modelos de machine learning. Este tópico {...}
O que é um esquema em estrela? Um esquema em estrela é um modelo multidimensional que organiza os dados em um banco de dados para torná-los mais fáceis de entender e analisar. Pode ser aplicado a data warehouses, bancos de dados, data marts e outras {...}
O que é um esquema em floco de neve? Um esquema em floco de neve é um modelo de dados multidimensional e uma extensão do esquema em estrela, subdividindo as tabelas de dimensão em tabelas de subdimensão. Os esquemas em floco de neve são comumente usa{...}
A inteligência artificial unificada (UAI) foi anunciada pelo Facebook durante a F8 este ano. Ela reúne duas estruturas de aprendizagem profunda específicas que o Facebook criou e terceirizou: a PyTorch se concentrou em pesquisas que assumem o acesso {...}
O que é ETL? À medida que as organizações crescem em dados, fontes de dados e tipos de dados, torna-se mais importante focar em análise, data science e machine learning para aproveitar os dados e gerar insights de negócios. Uma etapa fundamental para{...}
O que são finanças personalizadas? Os produtos e serviços financeiros estão cada vez mais comoditizados, e os consumidores estão cada vez mais exigentes, já que os setores de varejo e mídia social aumentam a propensão para experiências personalizadas{...}
O que é uma função de data do Hive? O Hive fornece muitas funções integradas para ajudar você a processar e consultar seus dados. Algumas das funcionalidades fornecidas por essas funções incluem manipulação de string, manipulação de data, conversão d{...}
Genômica é uma área da genética que diz respeito ao sequenciamento e análise do genoma de um organismo. Sua principal tarefa é determinar a sequência completa do DNA ou a composição dos átomos que compõem o DNA e as ligações químicas entre os átomos {...}
O que é geração aumentada de recuperação (RAG)? A geração aumentada de recuperação (RAG) é uma abordagem de arquitetura que pode melhorar a eficácia das aplicações de grandes modelo de linguagem (LLM) usando dados personalizados. Isso é feito recuper{...}
O gerenciamento de risco de modelo se refere a possíveis consequências adversas resultantes da tomada de decisões com base em erro de modelo ou uso indevido. O gerenciamento de risco de modelo visa incorporar técnicas e práticas para identificar, med{...}
O que é gestão da cadeia de suprimentos? A gestão da cadeia de suprimentos é o processo de planejamento, implementação e controle das operações da cadeia de suprimentos com o objetivo de produzir e entregar produtos e serviços de forma eficiente e ef{...}
O que é governança de dados? Governança de dados é a supervisão para garantir que os dados agreguem valor e ofereçam suporte à estratégia de negócios. A governança de dados é mais do que apenas uma ferramenta ou um processo. Ela alinha os requisitos {...}
O que são grandes modelos de linguagem (LLMs)? Os grandes modelos de linguagem (LLMs) são uma nova classe de modelos de processamento de linguagem natural (PLN) que superaram significativamente seus antecessores em termos de desempenho e capacidade e{...}
O que é um gêmeo digital? A definição clássica de gêmeo digital é: "um modelo virtual projetado para refletir com precisão um objeto físico". - IBM[KVK4] Para um processo de fabricação discreto ou contínuo, um gêmeo digital reúne o sistema e processa{...}
HDFS HDFS (Hadoop Distributed File System) é o principal sistema de armazenamento usado pelos aplicativos Hadoop. Este framework de código aberto funciona fornecendo transferência rápida de dados entre nós. É frequentemente usado por empresas que pre{...}
O que é hosted Spark? O Apache Spark é um sistema de computação de cluster rápido e de uso geral para big data construído em torno da velocidade, facilidade de uso e análise avançada. Foi criado na UC Berkeley em 2009. Ele fornece APIs de alto nível {...}
A IA generativa está mudando a maneira como os humanos criam, trabalham e se comunicam. Databricks explica como a IA generativa funciona e para onde está indo a seguir. {...}
O que é um Jupyter Notebook? Um Jupyter Notebook é um aplicativo da web de código aberto usado principalmente por data scientists para criar e compartilhar documentos contendo códigos ao vivo, fórmulas e outros recursos multimídia. Para que servem os{...}
O que é o lakehouse para o setor de varejo? O lakehouse para o setor de varejo é o primeiro lakehouse da Databricks para um setor específico. Ele ajuda os varejistas a entrarem em operação rapidamente por meio de aceleradores de soluções, recursos de{...}
O que é LLMOps? As operações de grandes modelos de linguagem (LMOps) englobam as práticas, técnicas e ferramentas usadas para o gerenciamento operacional de grandes modelos de linguagem em ambientes de produção. Os mais recentes avanços em LLMs, dest{...}
O que é manutenção preditiva? A manutenção preditiva, em poucas palavras, trata de descobrir quando um ativo deve ser mantido e quais atividades de manutenção específicas precisam ser realizadas, com base na condição ou estado real de um ativo, em ve{...}
O que é MapReduce? MapReduce é uma estrutura de execução distribuída baseada em Java que faz parte do ecossistema Apache Hadoop.  Ele remove a complexidade da programação distribuída ao expor duas etapas de processamento para os desenvolvedores {...}
O que é data marketplace ou mercado de dados? Os data marketplaces, ou mercados de dados, são lojas online que permitem o compartilhamento de dados e a colaboração. Eles conectam provedores de dados e consumidores de dados, oferecendo aos participant{...}
O que é MLOps? MLOps significa Machine Learning Operations. No centro da engenharia de machine learning, os MLOps se concentram em colocar modelos de machine learning em produção e simplificar o processo de manutenção e monitoramento. Os MLOps geralm{...}
O que é o modelo Keras? Keras é uma biblioteca de alto nível para deep learning, desenvolvida sobre Theano e TensorFlow. Ele é escrito em Python e fornece uma maneira limpa e conveniente de criar uma variedade de modelos de deep learning. O Kera{...}
O que é um modelo de machine learning? Um modelo de machine learning é um programa que descobre padrões e extrai decisões de conjuntos de dados desconhecidos. Por exemplo, no processamento de linguagem natural, os modelos de machine learning podem an{...}
O Apache Hadoop é uma plataforma de software de código aberto baseada em Java que gerencia o processamento e o armazenamento de dados para aplicações de big data. A plataforma funciona distribuindo jobs de big data e análise do Hadoop entre nós em um{...}
O que é open banking? Open banking é uma forma segura de fornecer acesso aos dados financeiros dos consumidores, contanto que haja o consentimento do cliente.² Impulsionado por regulamentação, tecnologia e dinâmica competitiva, o open banking exige a{...}
O que é orquestração? A orquestração é a coordenação e o gerenciamento de vários sistemas de computador, aplicativos e/ou serviços, agrupando várias tarefas para executar fluxos de trabalho e processos em larga escala. Esses processos consistem em di{...}
O que é o Parquet? O Apache Parquet é um formato de arquivo de dados em coluna de código aberto projetado para armazenamento e recuperação de dados eficientes. Ele fornece esquemas eficientes de compressão e codificação de dados para agrupar dados co{...}
Se você trabalha em uma função que interage com dados, já se deparou com um pipeline de dados, independentemente de ter percebido isso ou não. Muitas organizações modernas usam uma variedade de plataformas e tecnologias baseadas em nuvem para executa{...}
A execução de um algoritmo de machine learning geralmente envolve uma série de tarefas, como pré-processamento, extração de recursos, ajuste de modelo e estágios de validação. Por exemplo, a classificação de documentos de texto inclui segmentação e l{...}
O que é uma plataforma de análise de dados? Uma plataforma de análise de dados é um ecossistema de tecnologias e serviços necessários para analisar grandes quantidades de dados complexos e dinâmicos. Ela permite capturar, combinar, interligar, explo{...}
A plataforma Unified Data Analytics da Databricks ajuda as organizações a acelerar a inovação unificando data science, engenharia e negócios. Com a Databricks como sua plataforma Unified Data Analytics, você pode preparar e limpar dados rapidame{...}
O que é previsão da demanda? Previsão da demanda é o processo de projetar a demanda do consumidor (em relação à receita futura). Especificamente, ela projeta a variedade de produtos que as pessoas comprarão usando dados quantitativos e qualitativos. {...}
O que é processamento de eventos complexos (CEP)? O processamento de eventos complexos (CEP), também conhecido como evento, stream ou processamento de stream de eventos, usa técnicas para consultar dados antes de armazená-los em um banco de dados ou,{...}
PyCharm é um ambiente de desenvolvimento integrado (IDE) usado em programação de computadores, criado para a linguagem de programação Python. Ao usar o PyCharm na Databricks, por padrão, o PyCharm cria um ambiente virtual Python, mas você pode confi{...}
O que é PySpark? O Apache Spark é escrito na linguagem de programação Scala. PySpark é uma API em Python para executar o Spark e foi lançado para oferecer suporte à colaboração entre Apache Spark e Python. O PySpark também oferece suporte à interface{...}
O que é uma rede neural? Rede neural é um modelo de computação cuja estrutura em camadas se assemelha à estrutura em rede dos neurônios no cérebro. Ela tem elementos de processamento interconectados chamados neurônios, que trabalham juntos para produ{...}
O que é uma rede neural artificial? Uma rede neural artificial (ANN) é um sistema de computação padronizado após a operação de neurônios no cérebro humano. Como funcionam as redes neurais artificiais? As redes neurais artificiais são como gráficos di{...}
O que são redes neurais bayesianas? Redes neurais bayesianas se referem a uma extensão de redes-padrão com posterior inferência de probabilidade com a finalidade de controlar o sobreajuste. Em um sentido mais amplo, a abordagem bayesiana usa metodolo{...}
No mundo altamente conectado de hoje, ameaças à segurança cibernética e riscos internos são uma preocupação constante. As organizações precisam ter visibilidade dos tipos de dados que têm, evitar o uso não autorizado de dados e identificar e mitigar {...}
O que é sequenciamento de DNA? Sequenciamento de DNA é o processo de determinar a sequência exata de nucleotídeos de DNA (ácido desoxirribonucleico).  O sequenciamento de DNA refere-se à ordem dos quatro blocos construtores químicos (adenina, gu{...}
O que é um data warehouse? Data warehouse é um sistema de gerenciamento de dados que armazena dados atuais e históricos de várias fontes para as empresas obterem facilmente insights e relatórios. Os data warehouses são normalmente usados para busines{...}
O que é o Spark Elasticsearch? O Spark Elasticsearch é um banco de dados distribuído NoSQL que armazena, recupera e gerencia dados semiestruturados e orientados a documentos. É um mecanismo de pesquisa RESTful de código aberto GitHub, desenvolvido so{...}
O que é o Spark gerenciado? Um serviço Spark gerenciado permite aproveitar as ferramentas de dados de código aberto para processamento em lotes, queries, streaming e machine learning. Ao usar essa automação, você poderá criar rapidamente clusters sob{...}
Muitos data scientists, analistas e usuários em geral de business intelligence usam queries SQL para explorar dados. O Spark SQL é um módulo do Spark projetado para processamento de dados estruturados. Ele oferece uma camada de abstração na programaç{...}
O Apache Spark Streaming é a geração anterior do mecanismo de streaming do Apache Spark. Não há mais atualizações para o Spark Streaming, e é um projeto legado. Há um mecanismo de streaming mais novo e mais fácil de usar no Apache Spark chamado strea{...}
O que é o Sparklyr? O Sparklyr é um pacote de código aberto que fornece uma interface entre R e Apache Spark. Agora, você pode aproveitar os recursos do Spark em um ambiente R moderno, graças à capacidade do Spark de interagir com dados distribuídos {...}
O SparkR é uma ferramenta para executar o R no Spark. Ele segue os mesmos princípios de todas as outras ligações de linguagem do Spark. Para usar o SparkR, basta importá-lo para nosso ambiente e executar nosso código. É tudo muito semelhante à API do{...}
O streaming estruturado é uma API de alto nível para processamento de dados por streaming que ficou pronta para produção no Spark 2.2. Com o streaming estruturado, é possível realizar as mesmas operações em formato de streaming que você realiza no mo{...}
Tensores densos armazenam valores em um bloco sequencial contíguo de memória onde todos os valores são representados. Tensores ou matrizes multidimensionais são usados em um conjunto diversificado de aplicações de análise de dados multidimensionais. {...}
O Python oferece uma biblioteca integrada chamada Numpy para manipular matrizes multidimensionais. A organização e o uso dessa biblioteca é um requisito primário para o desenvolvimento da biblioteca pytensor. Sptensor é uma classe que representa o te{...}
Em novembro de 2015, o Google lançou um framework de código aberto para machine learning e deu o nome de TensorFlow. É compatível com deep learning, redes neurais e computação numérica geral em CPUs, GPUs e clusters de GPU. Uma das maiores vantagens{...}
O que é uma transação? Uma transação em um banco de dados ou sistema de armazenamento de dados é qualquer operação tratada como uma unidade de trabalho. As transações são totalmente executadas ou não executadas, mantendo o sistema de armazenamento em{...}
Transações com vários comandos para tabelas do Databricks Delta A Databricks é compatível com transações com vários comandos se as tabelas subjacentes forem tabelas do Databricks Delta.  Isso significa que todos os comandos dentro da transação s{...}
O que é transformação de dados? A transformação de dados é o processo de pegar dados brutos que foram extraídos de fontes de dados e transformá-los em datasets utilizáveis. Os pipelines de dados muitas vezes incluem várias transformações de dados, co{...}
O que são transformações? No Spark, as estruturas de dados principais são imutáveis, o que significa que não podem ser alteradas depois de criadas. Talvez esse seja um conceito estranho no começo: se você não pode alterar, como vai usar? Para modific{...}
O que é o Projeto Tungsten? Tungsten é o codinome do projeto guarda-chuva que modifica o mecanismo de execução do Apache Spark. Seu foco é melhorar drasticamente a memória e a eficiência da CPU para aplicativos Spark, aproximando o desempenho dos lim{...}
Unified Data Analytics é uma nova categoria de soluções que unifica o processamento de dados com tecnologias de IA, tornando a implantação da IA muito mais viável para organizações empresariais e permitindo acelerar suas iniciativas de IA. Com a Unif{...}
O que são dados em tempo real para o setor de varejo? Varejo em tempo real é o acesso em tempo real aos dados. A mudança do acesso, análise e compute baseados em batch permitirá que os dados estejam "sempre ativos", o que promove decisões precisas e {...}
O que é uma visualização materializada? Uma visualização materializada é um objeto de banco de dados que armazena os resultados de uma query como tabela física. Ao contrário das visualizações de banco de dados regulares, que são virtuais e derivam se{...}
O que é viés de automação? Viés de automação é uma dependência excessiva de auxílios automatizados e sistemas de suporte à decisão. À medida que aumenta a disponibilidade de auxílios de decisão automatizados, adições a contextos críticos de tomada de{...}