Introdução ao Soccer Analytics: O Que é xG?

Introdução ao Soccer Analytics: O Que é xG?

Conteúdo desenvolvido pela AstaFut. Crédito da imagem de capa: Paul Hanna.

1) O que é o xG

Se você é novo no mundo de ‘soccer analytics’ prepare-se para ouvir muito sobre xG, o famoso “expected goal”, ou “goal esperado” em português. O xG é uma estatística que ao longo dos últimos anos ganhou muita força nas análises sobre futebol por ser uma excelente forma de medir a qualidade das chances ofensivas criadas por uma equipe. Muitas vezes o xG nos diz mais sobre a performance de uma equipe em um jogo do que o número de gols marcados ou até chutes a gol.

Mas então o que exatamente o xG nos indica? Cada chute ganha um valor de xG entre 0 e 1, o que indica a probabilidade daquele chute se tornar um gol. Por exemplo um chute com um xG de 0.43 tem 43% de chance de balançar as redes. Portanto quanto maior o valor de xG do chute, maior a probabilidade dele se tornar um gol, logo dizemos que é uma chance de maior qualidade que foi criada pela equipe.

Para calcular o xG de um chute, usamos características do chute e da jogada. Algumas das características mais importantes que podem influenciar o xG são:

  1. Posição do jogador: as coordenadas do jogador (x, y) e o ângulo do jogador em relação ao gol adversário.
  2. Distância ao gol: a distância euclidiana do jogador em relação ao gol adversário. Se baseia nas coordenadas do jogador e coordenadas do gol.
  3. Tipo do passe: a forma como o passe foi feito para o jogador, se foi uma assistência de bola rolando, de falta,  ou um cruzamento.
  4. Desenvolvimento do ataque: a forma como o ataque do time se desenvolveu em relação à defesa – se foi um contra-ataque, uma bola roubada no ataque, ou um ataque de possessão normal.
  5. Tipo do chute: se foi feito com pé direito, esquerdo, ou uma cabeçada.

Nem todas as características são igualmente importantes para definir a probabilidade de gol de um chute. Para definir quais incluir no modelo, devemos analisar o quanto uma mudança em uma das variáveis – seja de 0 para 1 em uma variável binária, ou uma diferença gradual em uma variável numérica contínua – influencia a probabilidade do um chute virar um gol

2) Importância e usos do xG

E por que isso é tão importante? A avaliação de xG é mais efetiva na análise de equipes pois ela reflete a capacidade de criação de boas chances, e elimina ambiguidades sobre estatísticas simplistas como chutes a gol. Com isso em mente, podemos calcular, baseado no xG, probabilidade de gols de um chute, de uma jogada (coleção de chutes) e até o valor esperado de gols em um jogo. Para tal, vamos definir:

1)  xG: valor esperado de gols marcado em um jogo – soma dos xG de cada jogada. Também conhecido como xG a favor.

2)  xG contra: valor esperado de gols levados em um jogo – soma dos xG de cada jogada do outro time.

3)   Diferencial de xG: se calcula subtraindo o valor esperado do xG contra do valor esperado do xG a favor. Seria parecido com o saldo de gols em competições . Em geral,  pode sugerir o quão bem uma equipe estaria indo no campeonato.

Os usos mais importantes do xG podem ser resumidos em:

  • Previsão dos resultados das partidas: calculando o valor esperado de gols baseado na soma de xGs de cada time, podemos prever qual time tem a maior probabilidade de ganhar a partida. Como vamos ver, nem sempre o time com o maior número de chutes tem uma chance maior de ganhar o jogo. 
  • Análise de performance geral de time : podemos comparar, como um todo, o valor esperado de gols de um time baseado no xG com o número real de gols do mesmo time. A diferença entre esses dois valores nos mostra a capacidade de finalização ou a sorte dos jogadores desse time. Por exemplo, se o número real de gols é maior que o valor esperado de gols pelo xG em muitos jogos, esse time provavelmente possui finalizadores talentosos, que finalizam com uma capacidade acima da média.
  • Análise de performance individual: para um jogador específico, podemos comparar o número de gols real com o número esperado usando o xG de seus chutes. Além disso, podemos separar a análise por aspectos específicos do jogador, por exemplo, comparando a sua performance no pé esquerdo, com pé direito, e cabeça.
  • Analisar tipos de jogadas de times: podemos comparar o número de gols de equipes em bola parada, com o valor esperado de gols baseado no xG do time em bola parada. Essa análise pode sugerir que uma equipe deveria priorizar o treino de bola parada, defensiva ou ofensiva, por exemplo.

Quer um exemplo? Imagine uma partida entre as equipes A e B. Equipe A chutou 7 vezes em diferentes ataques equipe B chutou 3 em diferentes ataques, e o placar final foi uma vitória da equipe B por 1-0. Agora responda essa pergunta: a Equipe B jogou melhor que a Equipe A? Apenas com chutes a gol não é possível responder essa pergunta, porque a Equipe A pode ter arriscado 7 chutes, mas todos foram chutes de longe ou desequilibrados sem nenhum real perigo ao gol da Equipe B, que em contrapartida arriscou apenas 3 vezes, porém todos de dentro da área depois de jogadas bem trabalhadas e com um bom ângulo para o chute. Logo, apesar de ter criado menos chances em quantidade, a Equipe B criou mais chances em qualidade, e isso ficará evidente pelo xG.

No final da partida o xG de cada jogada das equipes é somado para nos mostrar quantos gols eram esperados de cada equipe julgando a qualidade das chances criadas. Nesse exemplo, o placar final de xG seria provavelmente uma vitória para a equipe B por algo como 1.2 contra 0.4, e arredondando para número esperado de gols teríamos então um 1-0 para a Equipe B.

Na última rodada do Brasileirão de 2019, podemos analisar dois jogos importantes em que o time com menos chutes teve o maior xG, e também, a vitória: Cruzeiro x Palmeiras e Fortaleza x Bahia. No fatídico jogo para os cruzeirenses, o time finalizou 8 vezes e teve um xG total de 0.43, enquanto o Palmeiras finalizou somente 6 vezes com um xG total de 0.58.

Já no duelo dos clubes nordestinos melhores colocados no campeonato, o Bahia finalizou 10 vezes com um xG 0.67, enquanto o Fortaleza totalizou um xG de 1.48 com 7 chutes. Sem mais informação, fica difícil entender como uma equipe pode ter um xG de quase o triplo do outro, com menos chances criadas. Para isso, usamos um mapa de finalização para ajudar entender a qualidade das chances criadas.

xG de Jogadas 

Agora você deve estar se perguntando o como se calcula o xG de uma jogada com mais de uma chance criada. Para ataques com mais de um chute, o xG total da jogada não é igual a soma dos xGs dos chutes. Vamos pensar em um exemplo: imagine que um atacante, chamado Didi, chutou 3 vezes seguidas em uma jogada, com os chutes individuais tendo xGs de 0.8, 0.3, e 0.5. Uma simples soma dos xGs dos chutes levaria a um valor de gol esperado de 1.6 nessa jogada – mas sabemos que em um jogo de futebol o Didi só poderia marcar no máximo um gol em uma jogada.  Também sabemos que o resultado do primeiro chute influencia a existência dos outros chutes, porque se o Didi marcasse no primeiro chute, os outros chutes não existiriam. Por isso, em um exemplo dessa forma, precisamos calcular o xG da jogada da seguinte forma:

Probabilidade de gol na jogada = 1 – probabilidade de nenhum dos chutes terminarem em gol

E para calcular a probabilidade de nenhum chute terminar em um gol na jogada, multiplicamos as probabilidades individuais dos chutes não terminarem em gol. Nesse caso:

Probabilidade de não gol = (1 – 0.8) * (1 – 0.3) * (1 – 0.5) = 0.07

E também:

Probabilidade de gol na jogada = 1 – 0.07 = 0.93.

Isso quer dizer que o xG da jogada seria 0.93 em vez de 1.6. Por essa questão, quando se tem mais de um chute em uma jogada, o xG total de um jogo não é igual a soma de xG dos chutes, mas sim a soma de xG das jogadas.  

Um detalhe importante é que o xG sempre é calculado desconsiderando qual jogador fez o chute. Não importa se o chute é de Lionel Messi ou daquele atacante do seu time que estraga o seu domingo toda vez que isola a bola, se o chute foi feito do mesmo lugar do campo com as mesmas condições, eles terão mesmo xG. Obviamente isso é uma falha, mas é muito difícil conseguir dados visuais para identificar os jogadores e incluir isso como um fator, então para conseguir calcular o xG de qualquer chute, esse é um sacrifício que precisamos fazer.  Logo sempre que você vir um xG pense que é um atacante de habilidades médias arriscando o chute, porém isso não é de todo ruim, pois nos permite avaliar muito mais efetivamente a performance e habilidade de jogadores, pois introduz a comparação entre o jogador em questão com um jogador de habilidades medianas.

xG de Pênaltis

Como o cálculo do xG de um chute não inclui informações do jogador, todos os chutes de pênaltis tem o mesmo xG de 0.76, já que todos possuem as mesmas características. Por exemplo, todos os pênaltis tem a mesma distância do gol, ângulo, e são batidos de bola parada. Portanto, podemos analisar a qualidade de batedores de pênaltis,ou de goleiros, comparando a percentagem de gols deles com o xG de 0.76. Ao mesmo tempo, podemos analisar a qualidades dos goleiros no mesmo quesito. 

Performance de Jogadores e Equipes

Vamos analisar um novo jogo, agora entre os grandes rivais Equipe C x Equipe D, com foco nos goleadores natos em campo: Carlão da Equipe C e Didi da Equipe D. Carlão finalizou 4 vezes ao gol durante o jogo, e a soma do xG de seus chutes foi 1.1, porém Carlão não marcou nenhum gol. Já Didi chutou apenas 2 vezes ao gol, e a soma de seus xG foi 0.3, porém Didi marcou o único gol da partida.

Como o xG explica isso? Temos que pensar que Carlão teve melhores chances de marcar, e que era esperado que ele fizesse ao menos um gol na partida, então nós devemos buscar respostas para explicar o motivo de Carlão não marcar. É possível que os chutes de Carlão tenham sido bons, mas um deles parou na trave, e o goleiro da Equipe D estava em uma partida inspirada e impediu os outros gols com ótimas defesas. Se esse fosse o caso você culparia Carlão? Talvez não. Agora pense que é possível que um dos chutes de Carlão foi após um passe açucarado do lateral da equipe que deixou ele cara a cara com o goleiro, mas Carlão tentou um toque por cobertura e a bola saiu por cima do gol. A única conclusão possível é que se existe uma diferença entre o número de gols esperados e o número real de gols, algo fora do usual aconteceu: ou o atacante teve uma performance decepcionante, ou o sistema defensivo funcionou muito bem.

Em busca de mais pistas vamos olhar para o outro goleador em campo. Didi teve um xG total de 0.3, mas marcou o gol da vitória. E agora o que temos a dizer sobre isso? Primeiro os fatos: ambas as chances de Didi foram de baixa probabilidade de gol, o que significa que não deveríamos esperar que ele marcasse. Talvez ele estivesse muito longe do gol, tivesse um ângulo ruim, ou muita pressão da defesa no momento do chute, porém o fato é que ele marcou. O próximo passo é tentar explicar isso, e duas explicações são as mais possíveis. A primeira é que Didi é verdadeiramente um goleador nato, e como os grandes craques, ele é capaz de marcar mais gols do que o esperado, pois mesmo a probabilidade sendo baixa para um atacante comum, ele não é um atacante qualquer, e para ele é muito mais fácil marcar gols em situações difíceis. A segunda explicação não é tão gentil com Didi quanto a primeira, pois pode ser o caso que simplesmente Didi teve sorte. Em um chute de fora da área sem muito ângulo a bola de Didi desviou na coxa do zagueiro da Equipe C e matou o goleiro, transformando um chute de baixo xG em um gol, já que realmente a grande maioria dos chutes semelhantes a esse de Didi não teriam a sorte do desvio e teriam sido defendidos.

O jeito mais fácil de eliminar essas dúvidas é simplesmente assistir ao jogo, como todos fazemos há décadas. As imagens deixarão claro se Carlão desperdiçou chances claras ou se Didi é o novo camisa nove do hexa. Por isso o último ponto que eu gostaria de fazer sobre o xG é que ele sozinho também não é uma estatística toda poderosa que vai explicar tudo que acontece em campo. Nunca será possível analisar um conjunto de números para entender tudo que se passou dentro das quatro linhas por noventa minutos, mas o xG é um passo na direção correta de incorporar a análise de dados para orientar jogadores e ajudá-los a entender melhor seu comportamento em campo e aprimorarem seu jogo.

3) Como é feito o cálculo de xG

Agora que você chegou até aqui você já sabe o que é xG, e você ouviu que algumas coisas como a distância até o gol, o ângulo de chute, e alguns outros fatores fazem parte do cálculo, mas até agora isso pode ter parecido um pouco de mágica. Vamos demonstrar agora que xG não é na verdade mágica nem palpite, mas sim muita estatística e técnicas avançadas de análise de dados. Como a questão a ser respondida é extremamente técnica, naturalmente essa sessão será bem mais matemática do que o normal, porém não se preocupe se você não quiser acompanhar todos os detalhes, o importante é saber que xG se trata de ciência e não de opinião!

O primeiro a ser observado é que todo modelo de xG leva em conta uma quantidade gigantesca de chutes para basear os cálculos. O modelo introdutório desenvolvido por nós da AstaFut analisou quase 50,000 chutes para chegar em uma fórmula. Para contexto, as partidas da Premier League geralmente têm em torno de 24 chutes por jogo, logo se fossemos usar apenas partidas da liga inglesa precisaríamos de mais de 2000 partidas para coletar todos os dados.

Uma vez que os dados então disponíveis, é necessário ajustá-los usando algumas técnicas de data science (“ciência de dados”), pois os dados coletados são as informações brutas diretamente registradas pelas câmeras em campo, e alguns cálculos precisam ser feitos, como determinar distância do chute em relação ao gol em função da posição do jogador em campo, e o ângulo de chute baseado nas imagens. Isso é feito para deixar esses dados prontos para serem analisados, e esse processo nos permite criar uma tabela com as informações cruciais de todos os chutes, de forma que os cálculos possam ser feitos.

A partir desse ponto a análise estatística entre em cena. Existem diversas técnicas que podem ser aplicadas para converter a tabela de dados em uma fórmula, e estas variam desde técnicas mais simples da estatística como a regressão logística, até técnicas avançadas de machine learning (“aprendizado de máquina”) como neural networks (“redes neurais”). Por agora vamos nos manter aos modelos mais simples, que usam a regressão logística.

A regressão logística transforma cada chute em um ponto com diversas coordenadas. Da mesma forma que você poderia criar um gráfico de peso e altura de diversas pessoas, nós criamos um gráfico com uma grande quantidade de eixos para representar a distância, ângulo, posição e outros atributos, e por fim uma diferenciação entre chutes que foram gols e chutes que não foram. A partir disso é possível encontrar uma fórmula que gera uma probabilidade de um novo chute ser um gol baseado nos exemplos disponíveis. O resultado é um número entre 0 e 1 que representa essa probabilidade, tal como: “xG = 0.216”, o que indica que o chute em questão tem uma probabilidade de 21.6% de chance de ser gol.

De qualquer forma, essa fórmula ainda parece um pouco misteriosa, portanto, é necessário investigar quais fatores têm maior peso em determinar se um chute será gol ou não gol por uma técnica chamada feature importance score (“nota de importância de fator”), que indica o quanto um determinado fator influencia na fórmula do xG. Os resultados estão demonstrados abaixo, e fica evidente que os fatores mais importantes são o ângulo de chute e a distância do gol.

Ao longo dos anos modelos mais e mais sofisticados vem surgindo, levando em conta cada vez mais fatores em seus cálculos. Mesmo assim os modelos atuais já realizam um ótimo trabalho em analisar os jogos. Por exemplo, com o nosso modelo introdutório – que ainda vamos melhorar usando mais dados e incluindo outros fatores da jogada – , acertamos 92% do resultado dos chutes! Modelos como este permitem que jogadores e técnicos pensem mais estrategicamente em como criar e utilizar suas chances ofensivas a fim de potencializar suas chances de vitória com o poder da matemática!

Referências:

+ posts

Formado em Ciência da Computação com foco em sistemas inteligentes e concentração em Economia na Columbia University, em Nova York. Como parte da graduação, especializou-se nos campos da inteligência artificial, machine learning e deep learning

Durante a faculdade estagiou como cientista de dados no Facebook e na Go4it, agencia e fundo de tecnologia de esportes. Assim desenvolveu uma paixão por aplicar técnicas da ciência da computação no futebol. Seu tópico de maior interesse é a utilização desses modelos para otimização de resultados

Estudante de quarto ano em Ciência da Computação com foco em Inteligência Artificial e Matemática Computacional no Georgia Institute of Technology nos Estados Unidos

Com passagem pelo Facebook como estagiário de Data Science e pela Univesidade de Oxford como aluno de Astrofísica, seu tópico de maior interesse em soccer analytics são modelos estatísticos que auxiliam na tomada de decisões por jogadores e treinadores

Leave a Reply

Your email address will not be published. Required fields are marked *