O que é um conjunto de dados?

Coleção estruturada de dados relacionados, organizados para análise, aprendizado de máquina ou geração de relatórios, desde tabelas de banco de dados e arquivos CSV até formatos complexos com vários arquivos e esquemas.

por Equipe da Databricks

As características incluem esquema definido especificando tipos e estrutura de dados, metadados descrevendo proveniência, linhagem e métricas de qualidade, controle de versão rastreando alterações ao longo do tempo e controles de acesso gerenciando permissões para diferentes grupos de usuários.
Os tipos abrangem conjuntos de dados estruturados (tabelas relacionais, arquivos Parquet), dados semiestruturados (JSON, XML), coleções não estruturadas (imagens, documentos de texto), dados de séries temporais e conjuntos de dados geoespaciais com formatos especializados.
O gerenciamento envolve catalogação para descoberta, perfil de qualidade detectando anomalias, rastreamento de linhagem mostrando o fluxo de dados, particionamento para desempenho e documentação explicando o contexto de negócios e as diretrizes de uso.

O que é dataset?

Dataset é uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados dentro de um dataset são normalmente relacionados de alguma forma e retirados de uma única fonte ou destinados a um único projeto. Por exemplo, um dataset pode conter uma coleção de dados de negócios (dados de vendas, informações de contato dos clientes, transações etc.). Um dataset pode incluir muitos tipos diferentes de dados, desde valores numéricos até texto, imagens ou gravações de áudio. Os dados em um dataset normalmente podem ser acessados individualmente, em combinação ou gerenciados como uma entidade inteira.

Os datasets são uma ferramenta fundamental em análise de dados e machine learning (ML), fornecendo os dados sobre os quais os analistas obtêm insights e tendências. Eles são essenciais para o ML porque selecionar o dataset adequado para um projeto de ML é uma das etapas iniciais mais cruciais do treinamento bem-sucedido e da implantação de um modelo de ML.

O certo é data set ou dataset?

Existe um debate sobre a grafia da palavra dataset, se deve ser separada ou junta. O dicionário Merriam-Webster a lista como uma palavra, mas outras fontes, como Dictionary.com, usam data set. A preferência da Databricks é por dataset.

Dataset e base de dados

Muitas vezes, também há confusão entre os termos dataset e base de dados. Embora base de dados e dataset sejam termos relacionados usados para descrever a organização e o gerenciamento de dados, eles diferem de várias maneiras significativas:

Conforme definido na primeira seção, dataset é uma coleção de dados usada para análise e modelagem e normalmente organizada em um formato estruturado. Esse formato estruturado pode ser uma planilha do Excel, um arquivo CSV, um arquivo JSON ou outros formatos. Os dados em um dataset podem ser organizados de várias maneiras e criados a partir de uma grande variedade de fontes, como uma enquete com clientes, um experimento ou uma base de dados existente. Um dataset pode ser usado para muitos fins, incluindo treinamento e testes de modelos de machine learning, visualização de dados, pesquisa ou análise estatística. Os datasets podem ser compartilhados publicamente ou de forma privada. Um dataset é normalmente menor do que uma base de dados.

Uma base de dados é projetada para armazenamento e gerenciamento de longo prazo de grandes quantidades de dados organizados armazenados eletronicamente, permitindo que os dados sejam facilmente acessados, manipulados e atualizados. Em outras palavras, a base de dados é uma coleção organizada de dados armazenados como múltiplos datasets. Existem muitos tipos diferentes de bases de dados, incluindo bases de dados relacionais, bases de dados de documentos e bases de dados do tipo chave-valor.

Quais são alguns exemplos de datasets?

Um dataset pode incluir números, texto, imagens, gravações de áudio ou mesmo descrições básicas de objetos. Um dataset pode ser organizado em várias formas, incluindo tabelas e arquivos. Alguns exemplos incluem:

Um dataset que inclui uma lista de todas as vendas de imóveis em uma área geográfica específica durante um período determinado
Um dataset que contém informações sobre todos os meteoritos que caíram na Terra
Um dataset sobre a qualidade do ar regional em uma área específica durante um período determinado
Um dataset que inclui a taxa de frequência para alunos de escolas públicas do ensino fundamental por grupo de alunos e por distrito durante o ano letivo 2021-2022

Datasets públicos

Os datasets públicos são dados públicos organizados em torno de um tema ou tópico que são acessíveis ao público. Os datasets públicos são especialmente valiosos para os data scientists porque geralmente são gratuitos e fornecem dados facilmente acessíveis e para download que podem ser usados para treinar modelos de ML.

"Por exemplo, a Administração Nacional Oceânica e Atmosférica dos EUA (NOAA) disponibiliza dados sobre diversos temas, desde a qualidade da água até as mudanças climáticas. Os dados de Vigilância Dependente Automática por Radiodifusão (ADS-B) permitem o monitoramento em tempo real do movimento de aeronaves comerciais. Além disso, a Administração de Serviços Gerais dos EUA mantém o Data.gov, um repositório com mais de 200.000 conjuntos de dados distribuídos em centenas de categorias.

A Databricks também fornece uma variedade de datasets disponibilizados por terceiros que podem ser usados no Databricks Workspace. O uso desses datasets em coordenação com a IA e o machine learning na Databricks permite que as equipes de ML preparem e processem dados, simplifica a colaboração entre equipes e padroniza todo o ciclo de vida do machine learning, da experimentação à produção, inclusive para IA generativa e grandes modelos de linguagem.

Usando datasets

Existem várias maneiras diferentes de usar datasets. Os analistas os usam para explorar e visualizar dados para fins de business intelligence. Data scientists usam datasets para treinar modelos de ML. No entanto, antes que os datasets possam ser usados, os dados precisam ser ingeridos em um data lake ou em um lakehouse usando processos de engenharia de dados como Extrair, Transformar e Carregar (ETL). O ETL permite que os engenheiros extraiam dados de várias fontes, transformem esses dados em recursos utilizáveis e confiáveis e os carreguem nos sistemas que os usuários finais podem acessar e usar para resolver problemas de negócios.

Gerenciamento, catalogação e proteção de datasets

Antes que os datasets possam ser usados, eles devem ser catalogados, governados e armazenados de forma segura com um sistema de governança. A implementação de uma estratégia eficaz de governança de dados permite que as organizações disponibilizem os dados prontamente para a tomada de decisões orientada por dados, protegendo os dados contra acesso não autorizado e garantindo a conformidade com os requisitos normativos.

Para enfrentar os desafios de governança de dados, a Databricks desenvolveu o Unity Catalog, uma solução de governança unificada para dados e ativos de IA no lakehouse. Com o Unity Catalog, as organizações podem governar perfeitamente dados estruturados e não estruturados, modelos de machine learning, notebooks, dashboards e arquivos em qualquer cloud ou plataforma. Data scientists, analistas de dados e engenheiros de dados podem usar o Unity Catalog para descobrir, acessar e colaborar com segurança em dados confiáveis e ativos de IA.

Compartilhando datasets

A maioria dos data scientists não quer só coletar e analisar datasets, mas também compartilhá-los. O compartilhamento de dados incentiva mais conexão e colaboração, o que pode resultar em novas descobertas significativas. O Delta Sharing é uma ferramenta de código aberto integrada ao Unity Catalog que permite que data scientists e analistas de dados compartilhem facilmente dados e ativos de IA entre clouds, regiões e plataformas para desbloquear novos fluxos de receita e gerar valor comercial sem depender de formatos proprietários, processos de ETL complexos ou replicação de dados dispendiosa.

Recursos adicionais

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs