Em manutenção!!!

quarta-feira, 7 de dezembro de 2011

As pesquisas eleitorais e o Seminário Real do Bulandi - As fórmulas prontas - Final.




Já se passara quase uma manhã inteira e todos já estavam visivelmente cansados. Mesmo com um cafezinho e algumas guloseimas engordativas, ainda restava uma leve sonolência entre os participantes. Foi neste clima que o cientista retomou sua palestra, e com muita vontade de terminar.

“Caro Rei,

Espero que todos tenham entendido tudo até aqui, pois partiremos agora para os finalmentes e deles dependerão a decisão de V.M. sobre o processo de amostragem no reino. Já vimos que ela nada mais é do que uma forma de economizar dinheiro, embora em certos casos, seu uso seja obrigatório. Por exemplo, nunca se fez exame de sangue usando o sangue todo do paciente, pois isto o mataria, nem exame de fezes usando todo o material produzido por um indivíduo, pois neste caso penso, nenhum analista aguentaria o mau cheiro.

Nas pesquisas eleitorais, as quais são nosso objetivo específico aqui, ela é feita não porque não se poderia usar todo mundo, mas, porque isto não é prático, além de ser muito caro, como já tentamos explicar. Mesmo os chamados “censos” que se dizem dispostos a consultar toda a população, não passam de grandes amostras de indivíduos, ou seja, um grande número deles, e que também têm suas “margens de erro”, embora, seja muito difícil algum cientista ter a cabeça cortada pelos seus resultados.

Mas, vamos começar a explicar e resumir o que os estatísticos encontraram, de uma forma que até o mais humilde súdito de V.M. entenda.

Em primeiro lugar, eles encontraram fórmulas matemáticas, algumas bastante complicadas, quando eles querem impressionar a plateia, que resumem todo o processo. Mas, mesmo sabendo que todos os presentes passaram no ENEM, com notas altas, não convém complicar o processo, pois ainda não temos nossa margem de erro desta afirmativa.

Com mais simplicidade podemos dizer que os estatísticos encontraram uma fórmula quase mágica que mostra ser a margem de erro de um processo probabilístico de amostragem dependentes de duas coisas. Uma delas é o que eles chamaram de “confiabilidade” e que está relacionado com o que chamamos na sessão anterior de “normalidade”. A outra está relacionada a algo chamado “erro padrão”, que nada mais é do que uma medida da variabilidade do que queremos medir.

Um exemplo, penso eu, esclarecerá a questão. Suponha que o a proporção de pessoas que dizem votar no Zé Abílio é de 30%, em toda a população. Como sabemos, isto é o que o Rei quer saber e não sabe. Quando ele escolhe uma parte das pessoas, usando menos dinheiro para isto (o que sempre é prudente fazer mesmo que não sejamos gregos nem estejamos na zona do euro), será obtido um valor que para esta proporção que poderá ser menor, maior ou igual àquela verdadeira, e que não conhecemos. Vimos que há um Intervalo de Confiança, que nos dá um percentual para o qual podemos dizer quanto podemos esperar que esta diferença entre o real e o estimado, deve cair dentro do Intervalo. Por exemplo, se este Intervalo for de 95%, isto quer dizer que podemos esperar, se forem sorteadas 100 amostras de um determinado tamanho, 95 delas estejam dentro da margem de erro, e outros 5% estarão foram, e esta será a chance de eu ter a cabeça cortada por V.M. Quando calculada em valor absoluto, que é metade do Intervalo de Confiança, ela é dependente das duas coisas faladas acima: confiabilidade e variabilidade.

Continuando o exemplo, suponha (o que é verdadeiro na maioria dos casos das pesquisas eleitorais), queiramos ter 95% de certeza de que nossa cabeça não será cortada, o fator de normalidade será aproximadamente de 2, se quisermos uma certeza de 90% este valor será aproximadamente de 1,6 enquanto se quisermos um certeza de 99%, ou um resultado “praticamente certo”, ele será de 3. Não usarei estes números, em um fórmula, de forma explícita aqui, mas abaixo reproduzimos uma imagem em que temos as variáveis aqui discutidas. Pois, elas estão todas tabeladas e mostradas nos livros introdutórios de amostragem. Para findar, basta apenas exemplificar o que significa o tal do “erro padrão”. Suponha que no Bulandi já se saiba a priori que todos os eleitores votarão em Zé Abílio, por algum motivo. Por exemplo, eles não querem levar uma surra depois da votação, já que o voto secreto só apareceu recentemente aqui no reino. Ou mesmo porque acharam sua administração tão boa, que todos votarão nele. Pensem que num caso como este até o processo de amostragem é inócuo, pois o resultado é sabido e o “erro padrão” do que se quer estimar é 0 (zero). No entanto, suponha que não seja assim, e haja uma grande diversificação no voto, ou seja, as proporções podem ser de 20%, 40% ou 50%, por exemplo. Neste caso há um maior “variabilidade” no comportamento da população e é claro que se quiser saber o resultado, com uma margem de erro dada, é necessário se consultar mais indivíduos do que se se a variabilidade fosse menor.

Vamos mudar de quadro-negro para não ficar muito maçante. Então, pelo dito, quanto maior se quer está certo (confiabilidade) e quanto mais variam as opiniões (erro padrão), maior será a margem de erro. Dada a confiabilidade, quanto menor for a variabilidade maior, menor será erro. O que os estatísticos descobriram é que esta variabilidade que existe na população pode ser estimada a partir daquela que se encontra na amostra e que seu valor depende muito do tamanho da amostra, ou seja, de quantos indivíduos são escolhidos para serem perguntados em quem votarão.

Então, meu Rei,  resumindo. Se V.M. me pedir que estime a proporção de pessoas que votarão num candidato nas próximas eleições, eu o poderei dar fazendo a seguintes pergunta: “Qual a percentagem de garantia que o senhor quer para, se algo der errado eu não perca a cabeça?” Então eu sentarei com os meus pares, já dizendo a eles que se eu perder a cabeça, não perderei sozinho, e apenas mando de volta a conta para V.M. (quanto se gastará na pesquisa) para lhe dizer qual é esta proporção.

Costumeiramente, as pesquisas eleitorais e de outras áreas que envolvem pessoas a confiabilidade é fixada em 5% (que é chamado de nível de significância), o que é razoável, para arriscar nossas cabeças, e nos dará uma “precisão” razoável. O erro padrão, ou “variabilidade” já é mais ou mesmo conhecido de outras eleições. Então o que resta para gerar despesas maiores ou menores é número de pessoas a serem entrevistadas, ou seja, o tamanho da amostra. Então eu direi a V.M. que estarei pronto para fazer o levantamento se o reino estiver pronto para gastar o que eu pedir.

Chegamos a um ponto em que palavras são palavras e nada mais do que palavras. Os símbolos se tornam mais importantes. Aí abaixo está uma fórmula que relaciona as 3 variáveis discutidas, e a seguir temos uma tabela e logo depois um exemplo. Se V.M. não conseguiu entender nada então, pode me cortar a cabeça logo, pois fracassei em minha missão. Se entendeu alguma coisa e outras não, estou aqui para responder as perguntas dos interessados.

Nossa relação básica e que tentamos descrever, a duras penas, durante todo o seminário é a seguinte:

Margem de Erro  = Confiabilidade x Variabilidade

 Vamos chamar, para facilitar ou para complicar, nesta matéria nunca sabemos, Margem de Erro de E, Confiabilidade de Z e Variabilidade de S

O Z é dado pelo grau de confiança que queremos ter que nossa amostra se encontre dentro de uma certo intervalo (que é aqui definido por uma distribuição normal, seguindo algo que não explicamos e nem podemos fazê-lo aqui que é um tal de Teorema do Limite Central), enquanto o S identifica as variáveis que mostram a maior ou menor homogeneidade da população. A fórmula mais conhecida e fácil de usar é aquela que mostra este relacionamento da seguinte forma:



Onde N é o tamanha da amostra necessária para se atingir o valor das outras variáveis da fórmula. Quando se trata de estimar as proporções a variável S é estimada através da variável P que representa um estimativa da proporção que algum evento tem na população, ou seja, no caso dos candidatos, pode-se pode dizer que espera-se que, por exemplo Zé Abílio teria 30% do votos, então P = 0,30. Vejam a nova fórmula nestas condições mais próximas do nosso caso.



Um exemplo de seu emprego valerá mais do que mil palavras. Suponha que se deseja um margem de errro de 5% na proporção encontrada para mais ou para menos, isto é: E = 0,05; uma confiabilidade de 95%, o que nos indica, pela tabela da distribuição normal Z = 1,96; e que esperamos (estimativa feita a partir de amostras pilotos) que um o candidato tenha um proporção de votos,  de 30%, o que daria, como vimos P = 0,30, (1 – P) = 0,70. Teríamos então, o valor de para N, ou seja um tamanho da amostra, que nos permitiria fazer o orçamento da pesquisa de 322 amostrados. Com exemplo suponha que queiramos diminuir a margem de erro para 2%, para mais ou para menos, mantendo-se as outras variáveis o valor o número de amostrados seria de aproximadamente de 2016, o que encareceria muito a pesquisa.

Bem, Majestade, isto é o que posso fazer para esclarecer suas decisões. Qualquer dúvida que tenham, manifeste-a agora ou se cale até depois do seminário, onde estarei em meu gabinete, espero com a cabeça sobre os ombros para tirar outras dúvidas.

E assim terminou o Seminário, pois nem o Rei teve coragem de fazer perguntas. Eu tenho certeza de que não foi por não o tê-las, mas porque nestas situações não é politicamente correto se mostrar tão ignorante quanto somos. Eu fecho minhas notas desta última parte, e, finalmente, das publico. Qualquer dúvida, por favor enviá-las A Gazeta Digital, com o assunto: Seminário Real do Bulandi, que as repassarei ao cientista “nerd”. Aceitamos dúvidas de anônimos para manter a coerência do Blog.

Nenhum comentário:

Postar um comentário