Autoría de Domingo• 16 junio, 2024• 10:36 am• Desde la UNAM

Las encuestas, las muestras y el azar/Doctor Ramón Zúñiga Dávila Madrid

En estos tiempos electorales se habla mucho de los resultados de las “encuestas”. Las encuestas son mecanismos para identificar preferencias o patrones cotidianos en una población de personas. En el caso actual, se trata de identificar preferencias de partidos o candidatos a un puesto de elección popular, antes de la jornada electoral. Sin embargo, el proceso detrás de una encuesta descansa fundamentalmente en dos factores:

En primer lugar, en la gran mayoría de los casos y en el caso de una elección nacional, no es posible encuestar a la totalidad de la población a la que se pretende conocer. En segundo lugar, como consecuencia del punto anterior, es necesario utilizar muestras representativas de dicha población a las que se dirige la encuesta.

Lo segundo plantea el gran desafío de garantizar la representatividad de la muestra. Por ejemplo, si la encuesta es telefónica, las muestras están sesgadas al segmento de la población con líneas telefónicas, excluyendo principalmente a las poblaciones rurales en zonas aisladas. Es decir, no son muestras representativas de la población en general. En poblaciones grandes y heterogéneas, es difícil garantizar que una muestra capturará todas las características relevantes. Los métodos de muestreo estratificado y por conglomerados intentan abordar este problema dividiendo la población en subgrupos y seleccionando muestras de cada uno de ellos.

Por otro lado, se requiere garantizar, hasta donde sea posible, que los integrantes de la muestra sean elegidos “al azar”, es decir, aleatoriamente. Generar muestras aleatorias es un proceso fundamental en estadística y ciencia de datos. Sin embargo, detrás de esta aparentemente sencilla tarea se esconde otro desafío complejo con implicaciones profundas.

En su esencia, una muestra aleatoria también debe representar fielmente a la población de la cual se extrae, sin sesgos ni distorsiones. Este requisito es crucial para obtener conclusiones válidas a partir de los datos. Pero, ¿cómo logramos realmente esa aleatoriedad?

Un primer obstáculo radica en la definición misma de “aleatorio”. ¿Qué significa algo realmente aleatorio? En un mundo determinista, como el nuestro, generar verdadera aleatoriedad es imposible. Por lo tanto, nos conformamos con imitarla mediante algoritmos que producen secuencias de números aparentemente aleatorias, conocidos como generadores de números pseudoaleatorios.

Sin embargo, incluso estos algoritmos tienen sus limitaciones. Si las “semillas” iniciales o el algoritmo subyacente son predecibles, las secuencias generadas pueden ser reproducibles, lo que puede llevar a sesgos inadvertidos en el análisis.

Además, en el contexto de conjuntos de datos masivos, como los generados por sensores IoT o por las plataformas de redes sociales, la aleatoriedad puede verse comprometida por la presencia de sesgos inherentes a la recopilación de datos, algoritmos de selección o al medio mismo (las redes sociales comúnmente se dirigen a segmentos particulares de la población).

En resumen, generar muestras aleatorias es un proceso que va más allá de simplemente seleccionar casos (personas, datos, etc.) al azar. Requiere una comprensión profunda de los datos y de los métodos estadísticos para garantizar que las muestras sean verdaderamente representativas y libres de sesgos, lo que a su vez contribuye a la validez y fiabilidad de cualquier análisis realizado sobre ellas.

Es por lo anterior que las “casas encuestadoras”, a las que se hace tanta alusión en estos días, deben hacer saber sus métodos y éxitos sobre resultados pasados, de manera que la población conozca la calidad de los números que ofrecen, y que no sean carnada para atraer gente ingenua o publicidad negativa, y de esa manera sesgar por sí mismos los resultados de una elección.

El Doctor Ramón Zúñiga Dávila Madrid es investigador del Instituto de Geociencias de la UNAM, campus Juriquilla

(Visited 79 times, 1 visits today)