Métricas para avaliação de Modelos de Regressão- Variáveis contínuas/numéricas

Gutelvam Rodrigues
6 min readJun 15, 2020

Antes de mais nada, para entender as métricas de avaliação dos modelos de regressão, se faz necessário um pequeno review de como este modelo funciona de forma simplificada e sem conceitos matemáticos.

O que são regressões?

Fundamentalmente podemos definir como “uma forma de estimar a relação entre duas variáveis”, esta “tem como resultado uma equação matemática que descreve o relacionamento entre variáveis”. Desta forma, podemos observar este tipo de relacionamento conforme as perguntas a seguir:

  • De acordo com as características de um carro (cor, modelo, ano, e entre outros), qual o valor comercial de venda?
  • Se você é dono de uma loja e contrata um serviço de marketing o quanto isso vai impactar as vendas?

Perguntas como essa são possíveis de ter um entendimento utilizando regressões como ferramenta, ou seja, estes modelos são formas de “entender o presente para estimar o futuro”. Como visto no ensino fundamental, as equações lineares de y = ax + b, os modelos também são descritos no plano cartesiano, conforme a Figura 1.

Figura 1 — Regressões

Imaginando o cenário na figura, cada ponto representa uma observação e cada linha de cor vermelha representa uma regressão, sabendo que existem regressões “boas” e regressões “ruins”. Levantando a seguinte questão, qual destas linhas melhor representa a distribuição dos dados? Intuitivamente observando a imagem escolheríamos a linha 2, pois o raciocínio mais lógico é que a reta que está mais próxima dos pontos deve ser a que melhor se adequará, e é isso mesmo! Esta é a que melhor se encaixa no comportamento dos dados.

Desta forma a melhor regressão tem a capacidade de minimizar a distância entre todos os pontos da distribuição de dados, cada distância dos pontos vermelhos para a reta azul conforme a Figura 2 abaixo representa o erro que esta regressão acumula, vale a pergunta, toda regressão tem erro?

Figura 2 — Regressão ótima

A resposta correta é não, porém caímos nos conceitos de Overfiting e Underfiting que refere-se a capacidade do modelo de regressão de generalizar os dados. Neste contexto imagine o seguinte cenário, seu modelo de regressão passa exatamente em todos os pontos (entender o presente) qual vai ser a capacidade deste modelo de “prever o futuro”? O desempenho do modelo será ruim, é como decorar as questões da lista de exercícios antes de realizar uma prova, quando cair questões que não estavam presentes na lista dificilmente seria possível solucionar as questões, em suma, decorar e ao invés de aprender o comportamento dos dados é o que acontece com este tipo de abordagem. Vale ressaltar que os exemplos que foram ilustrados teve o comportamento linear, porém a regressão pode ter comportamento não-linear conforme a Figura 3.

Figura 3- Regressão não-linear

Portanto a melhor regressão é aquela que consegue descrever o comportamento dos dados de forma similar ao comportamento real. Beleza, ok! Ainda não está claro, onde consigo aplicar regressão ? A regressão pode ser utilizadas em diversos lugares como:

  • Mensura de tendências.
  • Previsão de vendas.
  • Análise de impacto de ações.

A regressão é uma ferramenta simples de entender, e dá uma pista muito boa por onde começar a trabalhar, esta ferramenta possibilita encontrar relações entre os dados.

Quais as maneiras de mensurar os erros do modelo de regressão?

Quando se trata de erros para regressão temos como as principais métricas de avaliação utilizadas no mercado o Mean Absolute Error (Erro absoluto médio) — MAE, Mean Squared Error (Erro médio quadrático) — MSE e Median Absolute Deviation (Erro Mediano Absoluto) — MAD.

Erro médio absoluto (MAE)

É o erro mais básico e intuitivo quando lidamos com regressão, que nada mais é que a média do erro que cada ponto tem em relação a linha de regressão. Voltando a Figura 2 é como somar todas as distâncias entre os pontos vermelhos e a linha azul, e fazer uma divisão pela quantidade de pontos explorado com a formula abaixo.

Este erro é simples de entender, quanto maior o valor resultante do MAE, maior será o erro do modelo. Tá, entendi! Então eu posso usar o erro médio absoluto sempre? A resposta é não, depende do problema que queira resolver, por exemplo imagine um cenário onde a distribuição dos dados fique conforme a Figura 4.

Figura 4 — Problemas com MAE

Conforme a observado na imagem este problema acontece pois o erro médio absoluto tenta minimizar o erro de todos os pontos e tende a se aproximar das anomalias (outliers) deixando o modelo totalmente impreciso, em suma, o MAE é sensível a outlier. Logo, caso queira utilizar esta métrica é interessante que os dados sejam tratados com antecedência para evitar estes empecilhos.

Erro médio quadrado (MSE)

Provavelmente a métrica mais popular, de forma simplória este erro é similar ao erro absoluto onde é feita a soma acumulativa dos erros, porém com uma única diferença, cada valor é elevado ao quadrado antes da soma. Desta forma é feita uma penalização em erros maiores conforme observado na Figura 5.

Figura 5- Erro Médio Quadrático vs Erro Médio Absoluto

Observando a figura fica claro que ao escolher como métrica o MSE torna menos tolerante a outliers, ou seja, ele não considera os outliers com tanta relevância quanto o MAE para desenhar a melhor linha de regressão, e pode ser descrita pela seguinte forma:

Erro Mediano Absoluto (MAD)

O Erro mediano funciona como na estatística, dos erros computados é necessário ordenar os elementos e em seguida encontrar aquele que divide no meio todos os erros, por exemplo, imagine que você tenha computado os erros [2,1,4,3,5] para 5 observações respectivamente. Neste contexto, o próximo passo é colocar na ordem [1,2,3,4,5] e posteriormente entender qual elemento divide exatamente o meio deste conjunto de erros, no caso seria o número 3.

O que significa isso?

Este erro é resistente a anomalias, ignora pontos mais extremos e privilegia manter a forma geral da distribuição, ou seja, ignora os pontos mais extremos do gráfico. Voltando a Figura 4 o MAD seria representado pela linha vermelha. Ok, entendi! Então quer dizer que devo usar sempre o Erro Mediano Absoluto? A resposta é não! Sempre depende do problema e o que você espera dos dados, o MAD pode acabar ignorando informações necessárias, pois o mesmo sempre vai levar em consideração o valor do meio, porém pode ser que os dados estejam concentrados praticamente em todo o espaço amostral conforme a Figura 6.

Figura 6- Cenário não adequado de usar o MAD

Conclusão

As três métricas vistas aqui, cada uma tem sua peculiaridade. Os erros médios absolutos e quadráticos captam melhor as tendências, o quadrático tende a ter erros homogêneos e de longe é a métrica mais popular para avaliar regressões de valores contínuos. Já o erro mediano absoluto é o mais resistente a anomalias dos abordados neste artigo. Desta forma, cabe aqui uma reflexão que a utilização destas métricas não são excludentes e sim complementares, cada uma com suas potencialidades, cabe a pessoa saber qual utilizar e qual se adequará melhor ao problema que se queira resolver.

--

--