Um modelo de machine learning é um programa que descobre padrões e extrai decisões de conjuntos de dados desconhecidos. Por exemplo, no processamento de linguagem natural, os modelos de machine learning podem analisar e reconhecer corretamente a intenção por trás de frases e combinações de palavras anteriormente inaudíveis. O reconhecimento de imagem também pode reconhecer objetos, como carros e cachorros, treinando modelos de machine learning. Os modelos de machine learning podem ser “treinados” em grandes conjuntos de dados para executar tarefas como as descritas acima. No treinamento, os algoritmos de machine learning são otimizados para descobrir padrões e resultados específicos de conjuntos de dados, dependendo da tarefa. A saída desse processo geralmente é um programa de computador com regras e estruturas de dados específicas, chamado de modelo de machine learning.
Algoritmos de machine learning são técnicas matemáticas para encontrar padrões em conjuntos de dados. Os algoritmos de machine learning geralmente usam conhecimento de estatística, cálculo e álgebra linear, e exemplos típicos incluem regressão linear, árvores de decisão, florestas aleatórias e XGBoost.
O processo de executar um algoritmo de machine learning em um conjunto de dados chamado dados de treinamento e otimizar o algoritmo para descobrir determinados padrões ou saídas é chamado de treinamento de modelo. A função com as regras resultantes e a estrutura de dados também é chamada de modelo de machine learning treinado.
As técnicas de machine learning são classificadas principalmente em aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço.
No aprendizado supervisionado, os algoritmos são desafiados e otimizados para atender a um conjunto específico de saídas de acordo com um conjunto de dados de entrada. Por exemplo, no reconhecimento de imagens, uma técnica chamada classificação é amplamente utilizada no aprendizado supervisionado. Uma técnica chamada regressão também é usada para prever dados demográficos, como crescimento populacional e estado de saúde.
No aprendizado não supervisionado, um algoritmo recebe um conjunto de dados de entrada, mas não é recompensado ou otimizado para uma saída específica e é treinado para agrupar objetos no conjunto de dados por características comuns. Por exemplo, o mecanismo de recomendação de uma loja online usa uma técnica de aprendizado não supervisionado chamada clustering.
No aprendizado por reforço, o algoritmo se treina por meio de muitas iterações de tentativa e erro. O aprendizado por reforço é obtido fazendo com que o algoritmo interaja continuamente com o ambiente, em vez de depender de dados de treinamento. A direção autônoma é um exemplo típico de aprendizado por reforço.
Existem muitos modelos de machine learning, a maioria dos quais é baseada em algoritmos específicos. Os algoritmos comuns de classificação e regressão se enquadram no aprendizado supervisionado, enquanto os algoritmos de clustering são utilizados em cenários de aprendizado não supervisionado.
Uma árvore de decisão é uma técnica de previsão em ML que indica a qual classe um objeto pertence. Como o nome sugere, é um fluxograma semelhante a uma árvore que usa critérios específicos para determinar passo a passo a classe de um objeto.
Árvore de decisão visualizada no Databricks Lakehouse. Fonte: https://www.databricks.com/blog/2019/05/02/detecting-financial-fraud-at-scale-with-decision-trees-and-mlflow-on-databricks.html
A regressão em data science e machine learning é uma técnica estatística que pode prever resultados com base em um conjunto de variáveis de entrada. O valor resultante geralmente depende da combinação de variáveis de entrada.
Modelo de regressão linear executado no Databricks Lakehouse. Fonte: https://www.databricks.com/blog/2015/06/04/simplify-machine-learning-on-spark-with-databricks.html
Um classificador é um algoritmo de machine learning que atribui objetos como membro de uma categoria ou grupo. Por exemplo, os classificadores são usados para detectar se um e-mail é spam ou se uma transação é fraudulenta.
Muitos! O machine learning é um campo em evolução e diversos modelos são desenvolvidos o tempo todo.
O melhor modelo de machine learning para uma determinada situação depende dos resultados desejados. Por exemplo, ao prever o número de carros comprados em uma determinada cidade a partir de dados anteriores, a técnica de aprendizado supervisionado, como a regressão linear, é considerada a mais eficaz. Por outro lado, uma árvore de decisão pode ser a melhor maneira de identificar se um cliente em potencial que mora em uma cidade compraria um carro com base em sua renda e histórico de deslocamento.
A implantação do modelo refere-se ao processo de disponibilizar um modelo de machine learning em um ambiente de teste ou produção. O modelo geralmente é integrado por meio de APIs com outros aplicativos, como bancos de dados e UI, no ambiente. Após a implantação, as organizações podem realmente ver o retorno de seu investimento significativo no desenvolvimento do modelo.
O ciclo de vida completo de um modelo de machine learning no Databricks Lakehouse. Fonte: https://www.databricks.com/blog/2019/09/18/productionizing-machine-learning-from-deployment-to-drift-detection.html
Um modelo de deep learning é um tipo de modelo de ML que imita a maneira como os humanos processam informações. O modelo consiste em várias camadas de processamento para extrair recursos de alto nível dos dados fornecidos. Cada camada de processamento transmite uma representação de dados mais abstrata para a próxima camada, e a camada final obtém insights mais semelhantes aos humanos. Ao contrário dos modelos tradicionais de ML, que exigem dados rotulados, os modelos de deep learning podem ingerir grandes quantidades de dados não estruturados, permitindo funções mais semelhantes aos humanos, como reconhecimento facial e processamento de linguagem natural.
Representação simplificada de deep learning. Fonte: https://www.databricks.com/discover/pages/the-democratization-of-artificial-intelligence-and-deep-learning
Um modelo de machine learning para séries temporais é um modelo no qual a variável independente contém um período de tempo contínuo (minutos, dias, anos etc.) e está relacionado à variável dependente ou preditora. Os modelos de machine learning para séries temporais são usados para prever eventos relacionados ao tempo, como o clima da próxima semana, o número esperado de clientes do próximo mês e a orientação de receita do próximo ano.
