Deseja um projeto de analítica real que você possa compartilhar publicamente, falar sobre ele em entrevistas ou adicionar ao seu currículo ou portfólio, tudo sem precisar de um cartão de crédito?
A Databricks Free Edition oferece a estudantes, jovens profissionais e curiosos por IA acesso às mesmas ferramentas de dados+IA usadas em empresas líderes, com a quantidade certa de compute para projetos pessoais, e as ferramentas de analítica e AI/BI dashboard da Databricks são um ótimo lugar para começar. Neste blog, você aprenderá a usar alguns datasets públicos para analisar, criar um painel sofisticado e contar uma história clara sobre as tendências e os insights ocultos neles.
Seja você um usuário avançado de planilhas querendo aprimorar suas habilidades com SQL e Python ou um engenheiro de BI experiente testando analítica com tecnologia de IA, estes projetos foram criados para ajudar você a construir algo tangível e rápido. Se quiser se aprofundar, você pode explorar o treinamento de IA/BI gratuito e individualizado da Databricks, os cursos aprofundados para autores de IA/BI ou participar de uma sessão de onboarding gratuita e ao vivo. Você também pode acessar dezenas de outras demonstrações públicas instaláveis aqui.
Se você ainda não tiver uma conta, pode se inscrever no Databricks Free Edition aqui, sem necessidade de cartão de crédito ou número de telefone. Você tem acesso gratuito e permanente ao Databricks para experimentação e aprendizado com o Databricks Free Edition. Observação: o Free Edition é para uso pessoal, não para uso comercial ou em produção. Se você está procurando uma plataforma de dados de nível de produção e com suporte completo para sua empresa, entre em contato com o Databricks aqui.
Uma última dica antes de começar: se você encontrar erros ou ficar travado em algum momento, o Databricks Assistant (o diamante roxo no canto superior direito) é incrivelmente útil para depuração, gerar SQL e explicar conceitos ao longo do processo.
Com a configuração concluída, vamos lá!
Começaremos com um aquecimento fácil. Para uma pequena empresa, acompanhar as operações e tendências é fundamental para o sucesso. O proprietário de uma pequena empresa pode estar procurando percepções como encontrar o produto mais vendido, perguntar quais são as filiais com melhor desempenho ou prever como serão as vendas no próximo ano.
Todo workspace do Databricks vem com um conjunto de dados de amostra pré-instalado no catálogo 'samples', que é um ótimo ponto de partida para experimentar novos recursos. O dataset simulado 'bakehouse' de fornecedores, avaliações e transações, especificamente, é um bom lugar para praticar como contar uma história sobre o desempenho da 'nossa' pequena empresa. Você pode encontrar o dataset na seção 'catalog' na barra lateral de menu à esquerda do Databricks, que é o núcleo de todo workspace e permite explorar os datasets disponíveis para análise.
Neste caso, você pode expandir o catálogo 'samples' e o esquema 'bakehouse' para encontrar os dados.
Para começar, crie um novo painel clicando em ‘new->Dashboard’ no canto superior esquerdo do workspace e, em seguida, na guia ‘data’ do painel, selecione uma das tabelas usando SQL como abaixo (ou escolha no seletor de tabelas da interface):
No canvas do painel, adicione visualizações e texto que ajudem a contar uma história clara. Por exemplo, você pode usar gráficos de pizza para composição (como mix de produtos), gráficos de linha para tendências (como vendas ao longo do tempo) e contadores para destacar números importantes, como o total de transações ou a receita.
O conjunto de dados Bakehouse também inclui avaliações de clientes simuladas, o que o torna um ótimo lugar para experimentar a análise assistida por IA usando a função AI_Query(). Isso cria um novo dataset aplicando um modelo de IA diretamente aos seus dados — neste caso, classificando cada avaliação como positiva, negativa ou neutra. Você também pode modificar o prompt para gerar uma resposta automática para cada avaliação (e pode querer fazer experimentos pedindo diferentes tons de voz).
Próximo Desafio: Você consegue encontrar uma maneira de aplicar outra função de IA como ai_classify() ou ai_gen()? Você consegue ajustar o prompt de AI_Query() para criar comentários de painel para você? Ou respostas automáticas para as avaliações? Você consegue ir além e criar um agente para gerar automaticamente textos de marketing com base nas principais avaliações, como Kasey Uhlenhuth fez no Data & AI Summit 2024?
Dados imobiliários costumam ser um ótimo ponto de partida para exercitar seu músculo analítico — há muitas correlações fortes a serem encontradas, como clima e taxas de juros, e existe uma infinidade de dados de alta qualidade divulgados por fontes oficiais (geralmente governamentais). Como alguns exemplos, os datasets abertos da Zillow Research oferecem ótimos dados imobiliários dos EUA, enquanto o Office for National Statistics do governo do Reino Unido fornece dados de censo de alta qualidade. Perguntas de análise comuns são do tipo: ‘Qual estado/província tem as maiores taxas de crescimento?’, ‘Onde há mais novas construções?’, ou ‘Qual é a relação entre os custos de moradia e as taxas de juros?’
Meu favorito pessoal é um ‘preço de aluguel solicitado’ dataset do portal de Governo Aberto do Governo do Canadá, que contém um conjunto de aluguéis anunciados com atributos como ano, área metropolitana, número de quartos, etc. Eu acho que a maneira como os dados têm os anos dispostos como linhas individuais facilita a filtragem e a análise.
Para colocar os dados em seu workspace, baixe o conjunto de dados do portal, extraia o arquivo de dados do zip ('46100092.csv'), em seguida, clique no botão 'carregar dados' na página inicial do seu workspace para seguir um pequeno assistente para analisar o formato CSV e convertê-lo em uma tabela.
Por padrão, a tabela resultante será nomeada com o mesmo nome técnico do arquivo, então fique atento à oportunidade de renomeá-la para algo significativo como 'Housing_data'. Depois de criada, use a seção 'catalog' do workspace para encontrá-la e crie um dashboard usando o botão 'create' para obter um pré-preenchido com uma estrutura básica em torno do conjunto de dados.
Para aprimorar o painel inicial, você pode adicionar outras fatias e comparações que acrescentem contexto e cor à análise. Você pode considerar comparar os aluguéis médios ou o crescimento em outras cidades, ou examinar a proporção de unidades de um quarto em relação a outros tipos de moradia. Qual é a cidade mais cara para você? Lembre-se também de adicionar filtros para que os usuários possam se concentrar em suas cidades específicas ou tipos de unidades de interesse.
Em alguns casos, talvez seja necessário escrever uma consulta SQL diferente ou incorporar outros dados; lembre-se de que o Databricks Assistant (diamante roxo no canto superior direito) pode ser útil. No meu exemplo, pedi ao Assistant para adicionar latitude/longitude para as cidades para que eu pudesse criar a view do mapa.
Para gerar uma previsão, comece com um gráfico de linhas normal que tenha o eixo x como data de referência e o preço inicial (valor) como eixo y. Em seguida, procure o botão ‘adicionar previsão’ na barra lateral. Isso adicionará uma nova visualização de previsão à tela do seu dashboard, criada com base em um novo dataset SQL com a função SQL ‘AI_Forecast()’ do Databricks, que chama um modelo de ML de séries temporais e o aplica aos seus dados. Este recurso beta ainda está em desenvolvimento (adoraríamos receber seu feedback!), mas já é um ponto de partida útil para aplicar ML a um caso de uso do mundo real. Lembre-se também que o Databricks Assistant pode sempre te ajudar a criar seu próprio SQL personalizado para novos datasets.
Desafio de próximo nível: embora o AI_Forecast() seja ótimo para uma previsão de referência rápida, uma previsão mais precisa envolveria a combinação de outros pontos de dados e a aplicação de um algoritmo de machine learning personalizado - você pode ver como seria uma solução completa disso (nesse caso, prever a manutenção de turbinas eólicas) em nosso site de demonstrações da Databricks.
Em cidades que são frequentemente usadas como cenário de filmes, você pode ter a sorte de se deparar com caminhões de filmagem, assistentes de produção e pequenas cabines de diretores perto de prédios históricos ou partes pitorescas da cidade. Antes que as produções de cinema possam bloquear propriedades públicas para essas filmagens, elas devem obter licenças de filmagem, que são então publicadas em datasets abertos por agências governamentais.
Embora não tenha licenças futuras, um dos melhores exemplos desse tipo de dataset é a listagem do Portal de Dados Abertos da Cidade de Nova York para licenças de filmagem. Ele lista o tipo de filmagem (ou seja, notícias, longa-metragem ou série) juntamente com o horário de início e término da filmagem, o distrito e o código postal. Ao segmentar e analisar o dataset, você pode identificar os locais mais comuns e, com sorte, espiar uma estrela trabalhando.
Assim como nos exemplos anteriores, temos que começar carregando os dados no Databricks. O portal de dados abertos de Nova York permite que você faça o download facilmente do arquivo .csv e o importe por meio do "upload de dados" na UI, como fizemos nos exercícios anteriores. No entanto, uma característica interessante deste dataset é que ele é atualizado diariamente. Vamos obter esses dados programaticamente para que possamos executá-los em um programa. Isso é muito mais próximo de como você abordaria o problema em um contexto empresarial.
O Databricks torna muito fácil a execução do Python de que precisamos por meio dos Notebooks. Nesse caso, crie um notebook (novo->notebook no canto superior esquerdo), copie e cole o código abaixo e clique em execução para download o CSV em seu workspace e analisá-lo em uma tabela. Lembre-se de que, se encontrar problemas, você sempre poderá usar o Databricks Assistant (pelo diamante roxo) para ajudar!
Este primeiro trecho de código cria um Volume (um local para armazenar arquivos arbitrários) e, em seguida, faz o download do dataset usando a biblioteca URLLib do Python. Fique à vontade para modificar os nomes do catálogo e do esquema para se adequar ao seu estilo!
Este segundo trecho de código pega o arquivo bruto e cria uma tabela chamada ‘film_permits’ que podemos usar em nosso painel. Tente pedir ao Assistente para explicar, se precisar.
Se funcionou corretamente, você poderá encontrar a tabela na parte do catálogo do workspace ou abrindo a barra lateral do explorador de dados (ícone de três formas) no notebook e, em seguida, expandindo o catálogo databricks_demo и o esquema open_nyc para ver a tabela. Talvez seja necessário clicar no botão "refresh" se ele já estiver aberto.
Lembrete: Se você encontrar algum problema com o código, lembre-se de que sempre pode abandonar a abordagem do código e importar os dados manualmente, fazendo o download do portal e fazendo o Upload por meio do botão ‘Upload Data’ na página inicial do seu workspace.
Depois que a tabela for carregada, é hora de analisar os dados e apresentar uma história! Você pode querer verificar tendências com um gráfico de linhas: há mais filmagens para séries ou longas-metragens? Isso está mudando com o tempo? Ou você pode pensar na distribuição com um gráfico de barras ou de pizza: os locais de filmagem de notícias ou comerciais se sobrepõem muito aos de filmes?
Se você tentar criar uma visualização de mapa, poderá notar que, embora as licenças de filmagem tenham um código postal, a visualização de mapa do dashboard de IA/BI exige atributos de latitude e longitude. Felizmente, datasets de mapeamento de código postal para coordenadas são fáceis de encontrar online e podem ser importados para o dashboard usando o Assistant. Você pode fazer o download deste open dataset (licenciado sob Creative Commons) e depois criar um novo dataset no seu dashboard, pedindo ao Assistant para gerar uma combined query. Aqui está o prompt que eu usei (ajuste para os nomes específicos do seu catálogo e tabela):
E aqui está uma versão de como seu dashboard final pode ficar!
Desafio: Que outros dados do OpenNYC você poderia sobrepor, talvez volumes de táxi ou de caronas compartilhadas? Marcos importantes? Se você é politicamente ativo, existe uma análise que ajudaria a sua causa? Outras cidades e estados oferecem datasets abertos semelhantes, como o dataset Building Energy Benchmark de emissões de Seattle, que pode ser mais próximo da sua realidade.
Você pode estender a análise geoespacial usando as "ST Functions"nativas do Databricks para procurar outros pontos mais próximos?
Minha parte favorita da analítica são os momentos de "eureca" que você tem ao seguir sua curiosidade, e espero que estes exemplos tenham despertado algumas ideias. Se você quiser aprender mais ou decidir obter uma certificação que possa incluir no seu currículo, pode acessar o curso de treinamento introdutório de AI/BI gratuito e individualizado do Databricks aqui, um curso de treinamento para autores mais aprofundado aqui ou join uma aula de onboarding ao vivo e gratuita! O site de documentação do Databricks também é um ótimo lugar para consultar recursos específicos
Se você quiser importar qualquer um dos dashboards de exemplo neste blog, pode conferir este repo para obter o código-fonte. As especificações do AI/BI dashboard são apenas json, então faça o download do arquivo e importe-o pelo dropdown na página inicial dos dashboards.
Por fim, você pode encontrar dezenas de demonstrações instaláveis que vão desde ML e criação de dashboards até IA agentiva no Centro de Demonstrações da Databricks. Experimente algo novo ou compartilhe o que você construiu com a comunidade Databricks na sua plataforma de mídia social favorita. Boas criações!
Comece a construir com o Databricks Free Edition
Inicie seu workspace gratuito— não é necessário cartão de crédito — e transforme esses projetos em dashboards prontos para portfólio hoje mesmo.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Produto
June 12, 2024/11 min de leitura

