Machine Learning de caixinha

Motivação do estudo

O objetivo deste estudo é apresentar algumas visões sobre a complexidade de se criar modelos de Aprendizagem de Máquinas de forma genérica para responder necessidades de predição, em específico, para problemas de Regressão Linear.
Soluções de Machine Learning são direcionados à dados, e não apenas às estruturas que os armazenam. Em um software tradicional, ao fazer o mapeamento de um campo da tela com um campo do banco de dados, independente do valor armazenado neste campo, a referência sempre será a mesma. É importante entender que Machine Learning não funciona desta forma. Processos de aprendizagem de máquina trabalham com soluções de problemas em cima dos dados, e os valores armazenados influenciam diretamente no resultado.

Para suportar o experimento em dados, e sustentar a proposta, serão usados dados HadCRUT4 obtidos pelo Metoffice.

Base de Dados

Alguns detalhes sobre a base de dados que será usada no experimento:

  • Quantidade de Anos Medidos: 2004
  • Menor Ano: 1850
  • Maior Ano: 2016
  • Menor variação de temperatura: -0.974
  • Maior variação de temperatura: 111

A motivação de fazer este tipo de análise, parte da combinação entre as sensações térmicas de aumento da temperatura global coletada desde 1850; e a solicitação de empresas em diversos momentos, pedindo para desenvolvermos um modelo de Aprendizagem de Máquinas que seja genérico a ponto de atender todos os clientes independente de como estão os dados. A Figura 1 representa, em animação, a variação de temperatura medida desde 1850 e ajudará a entender o comportamento deste estudo.

Figura 1 – Variação de Temperatura

Repare que na animação apresentada, os dados variam em crescimento ano após ano. Este tipo de comportamento dos dados de temperatura, pode ser extrapolado e servir de base para analogias envolvendo necessidades diferentes, aplicadas à cenários no qual atendam as expectativas do leitor do estudo.

Exploração inicial dos dados

Para iniciar o experimento proposto, decidimos partir para análise mensal dos dados e entender como eles se comportam.

Nas Figuras 2 e 3 foram segmentadas as temperaturas desde 1850 até 2017, olhando seu comportamento mensal. Ao continuar as segmentações de meses seguintes, os resultados são similares.

 


Figura 2 – Temperatura do período completo, somente de Janeiro


Figura 3 – Temperatura do período completo, somente de Fevereiro

Repare que os comportamentos mensais sofreram, isoladamente, com o fenômeno de aquecimento global ao passar dos anos.

Ao analisar os dados mensais e visualizar que a temperatura realmente aumentou com o passar dos anos, pode-se realizar a mesma exploração com todos os dados existentes, independente do mês, e acompanhar que este fenômeno comportamental do aumento da temperatura também é visível. Veja esta representação na Figura 4.

 


Figura 4 – Temperatura do período completo, independente do mês

Observando os dados no decorrer do período analisado, foi possível encontrar 4 épocas em que as coletas de temperaturas apresentaram similaridades entre seu comportamento, mas que mudam significantemente no todo. Na Figura 5 estes períodos estão destacados com uma linha vertical azul, sendo os períodos:

  • De 1850 a 1910
  • De 1910 a 1955
  • De 1955 a 2000
  • De 2000 a 2016
  • 2017 está fora por não estar completo


Figura 5 – Períodos de similaridade do comportamento dos dados

Estas épocas permitem com que os dados sejam analisados de forma separadas, como se fossem conjutos de dados independentes. Evitando que os dados dos outros sub-conjuntos, ou épocas como apresentado anteriormente, influenciem os resultados do sub-conjunto.

Regressão Linear Bivariada

A equação proposta para resolver o problema da Regressão Linear Bivariada, onde existe uma variável explicativa que incide em uma variável resposta. A variável explicativa é conhecida também como variável independente, enquanto a variável resposta é conhecida como variável dependente.

Em uma abordagem bivariada, onde existem apenas duas variáveis no processo, a variável explicativa é a X e a resposta, Y, ou seja, o fenômeno ocorrido na variável X explica o acontecimento da variável Y.

Acompanhe a equação da Regressão Linear Bivariada.

E seus coeficientes, Alpha e Beta.

No propósito da equação, o valor resultante de Beta representa o ponto no qual a reta da regressão toca o eixo Y quando o eixo X for zero. E o Alpha é a inclinação da reta, a cada ponto de crescimento no eixo X, este é o valor que cresce no eixo Y.

As Figuras 6 a 9 apresentam os gráficos, valores de coeficientes e métricas de cada uma das regressões realizadas nos períodos informados acima.


Figura 6 – Segmento por período – Antes de 1910

Coeficientes retornados pelo modelo no período de antes de 1910

Alpha Beta R^2 Sigma
-0.334 0.001 0 0.186


Figura 7 – Segmento por período – entre 1910 e 1955

Coeficientes retornados pelo modelo no período entre 1910 e 1955

Alpha Beta R^2 Sigma
-0.196 0.004 0.005 0.195


Figura 8 – Segmento por período – entre 1955 e 2000

Coeficientes retornados pelo modelo no período entre 1955 e 2000

Alpha Beta R^2 Sigma
0.065 -0.002 0.002 0.198


Figura 9 – Segmento por período – entre 2000 e 2016

Coeficientes retornados pelo modelo no período entre 2000 e 2016

Alpha Beta R^2 Sigma
0.528 0 0 0.146

Com base neste cenário, olhando os dados para predição de cada período sendo estimado descobrir a variação de temperatura no mês de Julho, os resultados são estes:

Predições de cada período

Período Valor Estimado
Até 1910 -0.329833547008547
Entre 1910 e 1955 -0.169189875342049
Entre 1955 e 2000 0.0486583814735989
Entre 2000 e 2016 0.528236013986014

Se o objetivo fosse uma regressão não linear, analisando todo o período observado, o resultado é similar ao encontrado na Figura 10.


Figura 10 – Regressão não linear

Observando todas as regressões em uma mesma distribuição de tempo, entre 1850 e 2016, o resultado é como aprensentado na Figura 11.


Figura 11 – Todas regressões em uma mesma visão

Validação do Modelo

Esta seção tem o propósito de explicar o que é o R Quadrado, e não especificamente o quanto este modelo (regressão linear ajustado ao conjunto de dados de temperatura global) está bom — que por sinal, está bem ruim! Repare que durante a explicação do texto os números de validação do R Quadrado são apresentados em cada segmento.

Obrigado Fabrício Catae pela sugestão do parágrafo.

Para saber se o modelo está bem ajustado aos dados, umas métrica bem comum de ser usada em Regressão é o cálculo do R Quadrado, também conhecido como Coeficiente de Determinação. A resposta é normalizada entre 0 e 1 e explica o percentual de quanto o modelo consegue explicar sobre os valores observados. Quanto mais próximo de 1 for o R Quadrado, mais explicativo é o modelo.

A representação na Figura 12 ilustra uma predição com R Quadrado alto, sendo que o valor de X e de Y são idênticos. Este comportamento apresenta uma correlação perfeita entre as variáveis observadas. Inclusive, neste tipo de comportamento, um alerta é gerado dizendo que o modelo pode não ser válido por causa do resultado apresentado.


Figura 12 – Regressão com R Quadrado alto

Alpha Beta R^2 Sigma
0 1 1 0

 

Já na Figura 13 o valor de X e Y são diferentes, gerados de forma aleatória, e neste caso a correlação não é alta. Por não ter uma similaridade de valores entre as variáveis, o ajuste do modelo não é perfeito, gerando um R Quadrado baixo.

Alpha Beta R^2 Sigma
4.917 -0.069 0.004 1.838


Figura 13 – Regressão com R Quadrado baixo

Suporte visual

Um dos pontos mais complexos e difíceis em tentar automatizar os elementos de um processo de Machine Learning, é acreditar que apenas uma evidência pode inferir em verdade absoluta. É comum algumas pessoas afirmarem que algo está tendendo para um lado ou para outro, observando apenas uma evidência.

Dadas as devidas proporções, pode-se usar para quebrar este paradigma um estudo que o estatístico Francis J. Anscombe, criou chamado de Quarteto de Anscombe na década de 70. Este estudo consiste em quatro conjuntos de dados, cada um com duas variáveis e onze observações. Estes conjuntos de dados, apesar de possuirem valores diferentes, ao observar alguns elementos de estatística descritiva básica, como média e variância, os resultados são similares. O objetivo principal do estudo é demonstrar a importância da observação dos dados antes de começar uma análise. Ao extrapolar o estudo de Anscombe para este, a idéia é mostrar a complexidade de observar os valores resultantes nos modelos, para automatizar o trabalho.

Os dados utilizados no primeiro sub-conjunto, que são base para criar a Figura 14, são:

x1 y1
10 8.04
8 6.95
13 7.58
9 8.81
11 8.33
14 9.96
6 7.24
4 4.26
12 10.84
7 4.82
5 5.68


Figura 14 – Quarteto de Anscombe com o primeiro conjunto de dados

As métricas do primeiro conjunto de dados, pode ser observada nesta tabela

Operação Variável Resultado
Média x 9
Média y 7.501
variância 4.127
Correlação 0.816
Alpha Beta R^2 Sigma
3 0.5 0.667 1.237

Os dados utilizados no segundo sub-conjunto, que são base para criar a Figura 15, são:

x2 y2
10 9.14
8 8.14
13 8.74
9 8.77
11 9.26
14 8.10
6 6.13
4 3.10
12 9.13
7 7.26
5 4.74


Figura 15 – Quarteto de Anscombe com o segundo conjunto de dados

As métricas do segundo conjunto de dados, pode ser observada nesta tabela

Operação Variável Resultado
Média x 9
Média y 7.501
variância 4.128
Correlação 0.816
Alpha Beta R^2 Sigma
3.001 0.5 0.666 1.237

Os dados utilizados no terceiro sub-conjunto, que são base para criar a Figura 16, são:

x3 y3
10 7.46
8 6.77
13 12.74
9 7.11
11 7.81
14 8.84
6 6.08
4 5.39
12 8.15
7 6.42
5 5.73


Figura 16 – Quarteto de Anscombe com o terceiro conjunto de dados

As métricas do terceiro conjunto de dados, pode ser observada nesta tabela

Operação Variável Resultado
Média x 9
Média y 7.5
variância 4.123
Correlação 0.816
Alpha Beta R^2 Sigma
3.002 0.5 0.666 1.236

Os dados utilizados no quarto sub-conjunto, que são base para criar a Figura 17, são:

x4 y4
8 6.58
8 5.76
8 7.71
8 8.84
8 8.47
8 7.04
8 5.25
19 12.50
8 5.56
8 7.91
8 6.89


Figura 17 – Quarteto de Anscombe com o quarto conjunto de dados

As métricas do quarto conjunto de dados, pode ser observada nesta tabela

Operação Variável Resultado
Média x 9
Média y 7.501
variância 4.123
Correlação 0.817
Alpha Beta R^2 Sigma
3.002 0.5 0.667 1.236

 

Conclusão

O propósito deste estudo não é criar um modelo de predição que acerte a variação de temperatura mensal, a partir do ano estipulado. Este estudo tem como objetivo apresentar evidências que suportam a complexidade de se criar modelos de aprendizagem de máquinas de forma genérica. Acredito, pelas evidências apresentadas, que o resultado proposto foi alcançado. Entendo que trabalhos futuros podem ser derivados deste, tal como melhorias em explicações nas explicações. Caso tenha interesse em colaborar com o estudo, fique a vontade para nos enviar as sugestões.

About Diego Nogare

Diego Nogare é CDO - Chief Data Officer na NGR Solutions e Microsoft MVP em Artificial Intelligence.