Conjunto de dados
O que é dataset?
Dataset é uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados dentro de um dataset são normalmente relacionados de alguma forma e retirados de uma única fonte ou destinados a um único projeto. Por exemplo, um dataset pode conter uma coleção de dados de negócios (dados de vendas, informações de contato dos clientes, transações etc.). Um dataset pode incluir muitos tipos diferentes de dados, desde valores numéricos até texto, imagens ou gravações de áudio. Os dados em um dataset normalmente podem ser acessados individualmente, em combinação ou gerenciados como uma entidade inteira.
Os datasets são uma ferramenta fundamental em análise de dados e machine learning (ML), fornecendo os dados sobre os quais os analistas obtêm insights e tendências. Eles são essenciais para o ML porque selecionar o dataset adequado para um projeto de ML é uma das etapas iniciais mais cruciais do treinamento bem-sucedido e da implantação de um modelo de ML.
Continue explorando
O grande livro de casos de uso de machine learning — 2ª edição
Seu guia completo de instruções para colocar o machine learning em prática, além de casos de uso, exemplos de código e notebooks.
Introdução ao ETL
Saiba mais sobre pipelines ETL com esta pré-visualização do guia O'Reilly.
Fundamentos de IA generativa
Saiba mais sobre IA generativa, incluindo LLMs, fazendo este treinamento sob demanda.
O certo é data set ou dataset?
Existe um debate sobre a grafia da palavra dataset, se deve ser separada ou junta. O dicionário Merriam-Webster a lista como uma palavra, mas outras fontes, como Dictionary.com, usam data set. A preferência da Databricks é por dataset.
Dataset e base de dados
Muitas vezes, também há confusão entre os termos dataset e base de dados. Embora base de dados e dataset sejam termos relacionados usados para descrever a organização e o gerenciamento de dados, eles diferem de várias maneiras significativas:
Conforme definido na primeira seção, dataset é uma coleção de dados usada para análise e modelagem e normalmente organizada em um formato estruturado. Esse formato estruturado pode ser uma planilha do Excel, um arquivo CSV, um arquivo JSON ou outros formatos. Os dados em um dataset podem ser organizados de várias maneiras e criados a partir de uma grande variedade de fontes, como uma enquete com clientes, um experimento ou uma base de dados existente. Um dataset pode ser usado para muitos fins, incluindo treinamento e testes de modelos de machine learning, visualização de dados, pesquisa ou análise estatística. Os datasets podem ser compartilhados publicamente ou de forma privada. Um dataset é normalmente menor do que uma base de dados.
Uma base de dados é projetada para armazenamento e gerenciamento de longo prazo de grandes quantidades de dados organizados armazenados eletronicamente, permitindo que os dados sejam facilmente acessados, manipulados e atualizados. Em outras palavras, a base de dados é uma coleção organizada de dados armazenados como múltiplos datasets. Existem muitos tipos diferentes de bases de dados, incluindo bases de dados relacionais, bases de dados de documentos e bases de dados do tipo chave-valor.
Quais são alguns exemplos de datasets?
Um dataset pode incluir números, texto, imagens, gravações de áudio ou mesmo descrições básicas de objetos. Um dataset pode ser organizado em várias formas, incluindo tabelas e arquivos. Alguns exemplos incluem:
- Um dataset que inclui uma lista de todas as vendas de imóveis em uma área geográfica específica durante um período determinado
- Um dataset que contém informações sobre todos os meteoritos que caíram na Terra
- Um dataset sobre a qualidade do ar regional em uma área específica durante um período determinado
- Um dataset que inclui a taxa de frequência para alunos de escolas públicas do ensino fundamental por grupo de alunos e por distrito durante o ano letivo 2021-2022
Datasets públicos
Os datasets públicos são dados públicos organizados em torno de um tema ou tópico que são acessíveis ao público. Os datasets públicos são especialmente valiosos para os data scientists porque geralmente são gratuitos e fornecem dados facilmente acessíveis e para download que podem ser usados para treinar modelos de ML.
Por exemplo, a Administração Nacional Oceânica e Atmosférica dos EUA (NOAA) fornece dados sobre tudo, desde a qualidade da água até as mudanças climáticas. Os dados de vigilância automática de dependência (ADS-B) mostram o movimento de aeronaves comerciais em tempo real, e a Administração de Serviços Gerais dos EUA oferece o Data.gov, que inclui mais de 200.000 datasets e centenas de categorias.
A Databricks também fornece uma variedade de datasets disponibilizados por terceiros que podem ser usados no Databricks Workspace. O uso desses datasets em coordenação com a IA e o machine learning na Databricks permite que as equipes de ML preparem e processem dados, simplifica a colaboração entre equipes e padroniza todo o ciclo de vida do machine learning, da experimentação à produção, inclusive para IA generativa e grandes modelos de linguagem.
Usando datasets
Existem várias maneiras diferentes de usar datasets. Os analistas os usam para explorar e visualizar dados para fins de business intelligence. Data scientists usam datasets para treinar modelos de ML. No entanto, antes que os datasets possam ser usados, os dados precisam ser ingeridos em um data lake ou em um lakehouse usando processos de engenharia de dados como Extrair, Transformar e Carregar (ETL). O ETL permite que os engenheiros extraiam dados de várias fontes, transformem esses dados em recursos utilizáveis e confiáveis e os carreguem nos sistemas que os usuários finais podem acessar e usar para resolver problemas de negócios.
Gerenciamento, catalogação e proteção de datasets
Antes que os datasets possam ser usados, eles devem ser catalogados, governados e armazenados de forma segura com um sistema de governança. A implementação de uma estratégia eficaz de governança de dados permite que as organizações disponibilizem os dados prontamente para a tomada de decisões orientada por dados, protegendo os dados contra acesso não autorizado e garantindo a conformidade com os requisitos normativos.
Para enfrentar os desafios de governança de dados, a Databricks desenvolveu o Unity Catalog, uma solução de governança unificada para dados e ativos de IA no lakehouse. Com o Unity Catalog, as organizações podem governar perfeitamente dados estruturados e não estruturados, modelos de machine learning, notebooks, dashboards e arquivos em qualquer cloud ou plataforma. Data scientists, analistas de dados e engenheiros de dados podem usar o Unity Catalog para descobrir, acessar e colaborar com segurança em dados confiáveis e ativos de IA.
Compartilhando datasets
A maioria dos data scientists não quer só coletar e analisar datasets, mas também compartilhá-los. O compartilhamento de dados incentiva mais conexão e colaboração, o que pode resultar em novas descobertas significativas. O Delta Sharing é uma ferramenta de código aberto integrada ao Unity Catalog que permite que data scientists e analistas de dados compartilhem facilmente dados e ativos de IA entre clouds, regiões e plataformas para desbloquear novos fluxos de receita e gerar valor comercial sem depender de formatos proprietários, processos de ETL complexos ou replicação de dados dispendiosa.