Déjà vu Ibope

Nem vou entrar no mérito das pesquisas da véspera. Olhando apenas o resultado das pesquisas de boca de urna, vemos que os caras do Ibope não aprenderam nada nos últimos anos (se eles lessem o que o Zeletron falou em 2012…)

Olhe a definição que costuma acompanhar as pesquisas:

O levantamento foi realizado entre os dias 1 e 4 de outubro. Foram entrevistados 2.002 eleitores. A margem de erro é de dois pontos percentuais, para mais ou para menos. O nível de confiança é de 95%, o que quer dizer que, se levarmos em conta a margem de erro de dois pontos, a probabilidade de o resultado retratar a realidade é de 95%.

Agora veja a realidade (em vermelho a boca de urna e em azul a realidade):

São Paulo:

Geraldo Alckmin (PSDB) – 52%
Paulo Skaf (PMDB) – 22%

Geraldo Alckmin (PSDB) – 57%
Paulo Skaf (PMDB) – 21%

Rio de Janeiro:

Pezão (PMDB) – 34%
Garotinho (PR) – 28%
Crivela (PRB) 18%

Pezão (PMDB) – 40%
Garotinho (PR) – 19%
Crivela (PRB) 20%

Brasil

Dilma (PT) – 44%
Aécio (PSDB) – 30%

Dilma (PT) – 41%
Aécio (PSDB) – 33%

Qualquer explicação que não seja um pedido de desculpa e uma promessa de estudar estatística (e ler o Zeletron) soa a desonestidade.

eleicoes-2014-datas-candidatos

O Ibope e o problema de amostragem

Ontem li sobre a pesquisa do Ibope que mostra Fernando Haddad na frente de José Serra por 49×33 com margem de erro de 3%. Eu pessoalmente espero que Haddad perca, mas isto não vem ao caso agora, queria mostrar como são feitas as pesquisas e como são feitos os erros (propositais ou não).

Se você quiser ler o texto do Reinaldo Azevedo de hoje que compila os erros do Ibope no primeiro turno em todo o Brasil, em alguns casos muito fora da margem de erro. Reproduzo abaixo o caso do Amazonas.

Como se vê o erro foi enorme.

Como se calcula a precisão da amostragem de uma pesquisa de opinião?

A grosso modo, sem refinar muito o modelo pode-se dizer que para uma amostragem aleatória de n indivíduos de uma população grande a margem de error (com um intervalo de confiança de 99%) é:

e = 1.29 / \sqrt{n}

Esta fórmula mostra que a taxa de erro converte assintóticamente para 0 e que a partir de um certo número (1000 por exemplo, não adianta aumentar o n que o erro não muda muito).

Isto quer dizer que feitas 100 pesquisas somente uma poderia ficar fora da margem de erro. Como no primeiro turno erraram a maior parte das pesquisas, isto quer dizer que há problemas. E o Zeletron vai mostrar onde estão estes problemas.

O programa abaixo em Python mostra para você incréu como funciona.

#!/usr/bin/env python
import urllib2
import random
import math
 
random.seed()
group1 = ['a','A','e','E','i','I','o','O','f','l','r']
AmostragemHonesta = False
 
genesis = [i for i in urllib2.urlopen('http://pastebin.com/raw.php?i=uuAYXcjm').read()]
genesis.sort()
rndGenesis = []
if AmostragemHonesta:
        for i in xrange(2000):
                rndGenesis.append(random.choice(genesis))
else:
        for i in xrange(2000):
                rndGenesis.append(genesis[24*i+7000])
 
n_es = [i for i in genesis if i in group1]
n_as = [i for i in genesis if i not in group1]
 
n_r_es = [i for i in rndGenesis if i in group1]
n_r_as = [i for i in rndGenesis if i not in group1]
 
num_as = float(len(n_as))
num_es = float(len(n_es))
num_r_as = float(len(n_r_as))
num_r_es = float(len(n_r_es))
 
num_gen = float(len(genesis))
num_sample = float(len(rndGenesis))
 
print "Real: %.2f %.2f"%(num_as/num_gen,num_es/num_gen)
print "Amostra: %.2f %.2f"%(num_r_as/num_sample,num_r_es/num_sample)
print "Margem de Erro: %.2f"%(1.29/math.sqrt(num_sample))

Resultado:

 Real: 0.61 0.39 Amostra: 0.59 0.41 Margem de Erro: 0.03

Mas o que acontece se a amostra não é aleatória? Bom aí, simplesmente a coisa não funciona bem. Vamos ver?

Basta trocar no programa acima a variável AmostragemHonesta de True para False.

Resultado:

Real: 0.61 0.39 Amostra: 0.46 0.54 Margem de Erro: 0.03

Mas como um instituto de pesquisa pode amostrar errado? Fácil. Introduzindo no método de amostragem um viés que privilegie determinado lado. No nosso exemplo amostrando mais para o final do array gera uma desvantagem para o um dos lados.

Mas e numa população? Como fazer um erro?

Se um determinado candidato tem um público preferencial de mais baixo nível aquisitivo você privilegia este candidato amostrando em pontos de fluxo (em SP na praça da Sé). Se amostrar em domicílio também pois o acesso a condomínios fechados é mais restrito que a casas de baixa renda.

Vamos aguardar a eleição, mas agora você pode entender melhor a razão do erro gigante de alguns institutos de pesquisa. Chamam de margem de erro, mas algumas vezes pode ser margem de lucro…

Acerte na Loteria com nosso método infalível

O título acima obviamente que é uma piada. Na MegaSena e em outras loterías do gênero, não existem métodos infalíveis para ganhar (obviamente há um mas só te conto se me pagar 100 obamas 🙂 ).

Neste contexto estatístico, algumas vezes vemos na rua umas pérolas e as fotografamos com nossos celulares.
Olhe a foto abaixo:

Este cartaz estava afixaado numa banca perto da Avenida Paulista. Se você não consegue ler, não tem problema, no site dos caras tem a mesma coisa:

A grande frase é: “Não aposte aleatóriamente”

Esta frase tem uma contradição já que as loterias com sorteios de números, se não são fraudadas, são totalmente aleatórias. Qualquer análise estatistica do passado como eles prometem fazer não tem o mínimo valor e não prediz o que ocorrerá no futuro.

Numa MegaSena não existem números fáceis e números difíceis. A combinação 01, 02, 03, 04, 05, 06 é tão provável como 03, 09, 17, 23, 27, 34, 46

A conclusão é que ganhar na megasena é uma grande sorte. Não gaste seu dinheiro em empresas que prometem estudar números que não saem há muito tempo, ou números que sairam muitas vezes, isto não é de nenhuma ajuda nos jogos futuros devido a independência dos eventos.

Então todos os jogos são assim? Não! Há jogos em que um uso inteligente da estatística pode levar você a ganhar. O exemplo mais básico disto é o BlackJack ou 21.

Se você ficou curioso com o assunto recomendo que leia o livro que indico abaixo:



Bom feriado!

Resultado da Enquete

Com a mudança do layout do blog, não pude aproveitar todos os widgets do layout antigo. Com isso, a enquete teve de ser finalizada.

Para quem não sabia, havia uma enquete na barra lateral perguntando qual era o celular S60 que o leitor tinha (eu sei que ficou um cacófato, mas deixarei assim).

Conforme minhas expectativas, o celular campeão disparado foi o N95 (e seu irmão N95 8GB), seguido não tão de perto, pelo N73, que foi, antes do N95 aparecer, o celular S60 mais vendido pela Nokia.

Tecnicamente empatados em segundo lugar, estão o N73, o N81/N81 8GB e o famigerado E62, que foi o celular preferido das promoções das operadoras Claro, TIM e Vivo.

Minha maior surpresa foi o E51 (que vai ter o seu review publicado aqui no blog em breve) que ficou logo atrás desse segundo lugar técnico. Não esperava que tanta gente tivesse esse celular. Eu, pelo menos, estou satisfeitíssimo com o meu.

Mas chega de blá-blá-blá e vamos logo ao gráfico e à tabela que eu finalmente consegui fazer, apesar do Excel 2007 ser muito chato e tão diferente das versões anteriores.


Por falar em Excel, meu outro irmão (que tem um celular Siemens, eca) montou um blog com dicas de Excel e eu também estou escrevendo umas coisinhas por lá. Anotem aí o endereço do blog dele: http://excelgredo.blogspot.com/ (Mais um blog na família)

Seguindo a sugestão do leitor Ricardo Henrique (RHesus), a coluna semanal Freewares de Sábado passou a se chamar Freewares da semana. Portanto, tenho até sábado que vem para postar algum freeware que preste. Aguardem!

Também gostaria de saber que celulares apareceram em “Outros”. Quem votou em “Outros”, poderia apresentar seu ceular S60? Fiquei curioso.