Descubra os bastidores técnicos de como transformamos CSVs caóticos em dados limpos e comparáveis.
Tema: Dados
Recebe novas análises sobre Dados
Avisamos quando saírem artigos novos sobre este tema, além de atualizações importantes do modelo.
Continua a leitura
Metodologia
Como comparar institutos sem ignorar cobertura e timing
Entenda por que um número sozinho não diz tudo. Cobertura geográfica e a data da coleta são os segredos para ler pesquisas como um profissional.
Análise
Viés ideológico nas pesquisas eleitorais: a direita é subestimada, não a esquerda superestimada
Os dados de 2014, 2018 e 2022 confirmam um padrão: candidatos de direita são sistematicamente subestimados pelas pesquisas eleitorais, inflando a vantagem projetada do campo oposto. O problema não é onde a maioria imagina.
Eleições
Como funciona o segundo turno nas eleições presidenciais brasileiras
Entenda a regra do segundo turno, como as pesquisas simulam esse cenário e por que a transferência de votos dos candidatos eliminados é o maior desafio para os institutos de pesquisa.
Nenhum comentário ainda. Seja o primeiro a participar.
Carregando sessão...
Se você já tentou abrir um CSV de pesquisas eleitorais, sabe que a bagunça é a regra. Um instituto coloca "Lula", outro coloca "Luiz Inácio Lula da Silva". Um testa um cenário com 12 candidatos, outro testa apenas o segundo turno. Como transformar esse caos em um gráfico limpo?
No projeto Viés, desenvolvemos uma metodologia de padronização que segue três pilares:
Em vez de ter uma coluna para cada candidato, transformamos cada resposta de cada candidato em uma linha única.
Pesquisa ID | Lula % | Bolsonaro % | Ciro %Pesquisa ID | Candidato: Lula | Valor: 45Pesquisa ID | Candidato: Bolsonaro | Valor: 38Isso permite que o dashboard filtre qualquer candidato sem precisar reescrever o código do gráfico.
Uma única pesquisa pode ter 5 cenários diferentes. Qual escolher? Nossa regra de ouro é: Priorizar o cenário estimulado mais completo do 1º Turno. Se houver múltiplos cenários similares, buscamos aquele que foi reportado de forma consistente pela maioria dos outros institutos na mesma semana.
Criamos um dicionário de "Sinônimos". Não importa se o dado bruto diz "Bolsonaro", "Jair Bolsonaro" ou "Capitão Bolsonaro"; nosso pipeline de dados em Python limpa tudo para um ID único antes de chegar ao banco de dados.
Veja como dados de origens diferentes convergem quando aplicamos a mesma régua:
Tendência
Dados normalizados de 4 fontes diferentes
Tendência
Linha suavizada sobre os dados brutos de todas as pesquisas registadas.
Linha contínua = resultado oficial TSE · Linha pontilhada = histórico suavizado · Pontos = pesquisas individuais
Linha suavizada (kernel gaussiano 30 dias) · Pontos = pesquisas individuais
Sem padronização, o erro não seria estatístico, seria de leitura. Ao limpar a base, garantimos que o que você vê no dashboard é uma comparação de maçãs com maçãs.
Conclusão: Dados eleitorais são sujos por natureza. O papel de um agregador sério é ser a vassoura que limpa o ruído para deixar o sinal brilhar.