Reporte de Validación de Dashboard AEJ

Autor/a

Frank Leyva

1. Introducción

El propósito de este informe es documentar el proceso de validación del Dashboard de Análisis Estadístico para las encuestas del informe Así Estamos Juárez (AEJ). El dashboard de desarrollo, se puede acceder desde esta liga: https://frankleyva-dev-dashboard.share.connect.posit.cloud/

2. Resumen Ejecutivo

  • El dashboard realiza el análisis dentro de margenes de diferencia aceptables (menores al 10%).

  • Se identificaron diferencias causadas por los conjuntos de datos utilizados, se hará un reporte evaluando estas dos versiones de las encuestas.

  • Se actualizaron visualizaciones y funciones en los modulos, para hacer que las visualizaciones fueran similares a las del informe

3. Datos Utilizados

3.1 Origen y características de los datos

Los datos analizados en este dashboard provienen de dos encuestas aplicadas por la Agencia Estadística de Mercados (AEM) durante el año 2023, utilizando metodología de muestreo semilla en los diferentes distritos de la ciudad:

  • Encuesta de Percepción Ciudadana (PER): Aplicada en 2023, consta de 196 preguntas con una muestra de 1,531 participantes.
  • Encuesta de Participación Ciudadana y Buen Gobierno (PAR): Aplicada también en 2023, comprende 371 preguntas con una muestra de 1,506 participantes.

3.2 Estructura y procesamiento de datos

Los datos originales fueron proporcionados en formato SPSS (.sav) y posteriormente transformados en archivos CSV para facilitar su procesamiento y análisis. Para cada encuesta, se generaron dos tipos de archivos:

Tipos de archivos por encuesta
Tipo_Archivo Descripción Nombre_PER Nombre_PAR
Metadatos Contiene información estructural sobre cada pregunta, incluyendo su ID, texto completo y esquema de codificación PER_2023_metadata_classified.csv PAR_2023_metadata_classified.csv
Respuestas Almacena las respuestas de los participantes organizadas por ID de pregunta PER_2023_responses.csv PAR_2023_responses.csv

Estructura de los archivos de metadatos

Los archivos de metadatos incluyen la siguiente información para cada pregunta:

Estructura de los archivos de metadatos
Variable Descripción
variable Identificador único de la variable/pregunta
label Texto completo de la pregunta
type Tipo de dato (numérico, texto, etc.)
has_value_labels Indicador de presencia de etiquetas de valor
value_labels Esquema de codificación que relaciona valores numéricos con etiquetas
scale_type Clasificación estadística de la variable (añadida manualmente)

La variable scale_type clasifica cada pregunta según su naturaleza estadística en seis categorías:

Tipos de variables según scale_type
Tipo Descripción
Razón Variables con cero absoluto y donde los ratios tienen sentido
Intervalo Variables numéricas con intervalos iguales pero sin cero absoluto
Ordinal Variables con categorías ordenadas pero sin intervalos iguales
Categórica Variables con categorías sin orden inherente
Binaria Variables con solo dos posibles valores
Nominal (Abierta) Variables de texto abierto sin categorías predefinidas

3.3 Clasificación de variables

La clasificación de variables según scale_type se realizó inicialmente mediante un proceso automatizado basado en la estructura y codificación de cada pregunta, y posteriormente fue validada mediante revisión manual utilizando un dashboard especializado para este propósito.

3.4 Datos geoespaciales

Para el análisis geográfico, se incorporó un archivo GeoJSON con la delimitación de los distritos de la ciudad, lo que permite vincular las respuestas con su distribución espacial correspondiente.

Información del archivo geoespacial
Característica Descripción
Archivo Jrz_Map.geojson
Formato GeoJSON
Identificador No_Distrit
Vinculación Se vincula con la columna Q2 de los archivos de respuestas

Resumen estadístico de los conjuntos de datos

Resumen estadístico de los conjuntos de datos
Encuesta Total_Preguntas Total_Participantes Preguntas_Razón Preguntas_Intervalo Preguntas_Ordinal Preguntas_Categórica Preguntas_Binaria Preguntas_Nominal
PER_2023 196 1531 6 61 6 10 82 17
PAR_2023 371 1506 92 61 4 10 150 14

La clasificación y estructuración de estos datos permite realizar análisis diferenciados según el tipo de variable, facilitando la aplicación de métodos estadísticos apropiados para cada caso y la generación de visualizaciones adecuadas en el dashboard.

4. Metodología de Validación

La validación del dashboard se ha realizado siguiendo un enfoque pragmático que garantiza la precisión de los resultados mostrados, utilizando dos fuentes de referencia principales:

  1. Comparación con resultados publicados: Se contrastan los resultados mostrados en el dashboard con aquellos publicados en el informe “Así estamos Juárez”, verificando la consistencia de los principales indicadores y estadísticas.

  2. Verificación con datos originales: Se realiza un análisis directo de los archivos CSV fuente utilizando herramientas como Excel y R para confirmar que los cálculos del dashboard son correctos.

4.1 Proceso de validación

Para cada tipo de variable (Razón, Intervalo, Ordinal, Categórica, Binaria y Nominal), se ha seguido el siguiente proceso:

  1. Captura de resultados del dashboard: Se toman capturas de pantalla de las tablas y gráficas generadas por el dashboard para preguntas representativas de cada tipo.

  2. Análisis directo de datos: Se realizan cálculos básicos sobre los archivos CSV originales:

    • Para variables numéricas: cálculo de media, mediana y desviación estándar
    • Para variables categóricas: distribuciones de frecuencia y porcentajes
    • Para variables binarias: porcentajes de respuestas positivas y negativas
  3. Comparación visual y numérica: Se contrastan los resultados obtenidos, verificando que las diferencias se encuentren dentro de márgenes aceptables (±0.5% para porcentajes, ±0.1 para medias).

  4. Documentación de discrepancias: En caso de encontrar diferencias significativas, se documentan y analizan para identificar posibles causas.

4.2 Herramientas utilizadas

  • Excel: Para análisis básicos y verificación rápida de distribuciones y estadísticas descriptivas.
  • R: Para cálculos más complejos y verificación de la lógica de procesamiento.
  • Captura de pantalla: Para documentar los resultados del dashboard.
  • PDF del informe “Así estamos Juárez”: Como referencia oficial para los resultados publicados.

4.3 Criterios de validación

Se considerará que los resultados del dashboard son válidos cuando:

  1. Coincidan con los valores publicados en “Así estamos Juárez” con una tolerancia de ±1%.
  2. Los cálculos directos desde los archivos CSV produzcan resultados consistentes con los mostrados en el dashboard.
  3. Las visualizaciones representen correctamente las distribuciones y tendencias de los datos.

Esta metodología permite realizar una validación eficiente pero exhaustiva, centrándose en la precisión de los resultados sin comprometer excesivos recursos de tiempo.

5. Validación por Tipo de Variable

5.1 Variables de Razón

Las variables de razón son aquellas que tienen un cero absoluto y donde los ratios entre valores tienen sentido (por ejemplo, edad, ingresos, número de hijos).

5.1.1 Variable: PER Q66 - Cuantos vehículos de motor hay disponibles en su hogar? Si no tiene ninguno, poner 0)

Resultado del dashboard

Reporte del informe

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 1.37 1.37 0 0%
Mediana 1 1 0 0%
Desv. Est. 0.72 0.71 0.1 1.39%

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Ningun Vehículo 27.9% 27.7% .2 0.7%
1 Vehículo 52.1% 52.5% .4 .76%
2 Vehículos 15.5% 15.6% .1 .67%
3 Vehículos o más 4.3% 4.3% 1.3 0%

Conclusión: Válido - Los resultados coinciden con margen aceptable.

5.1.2 Variable: PAR Q24 - Durante el 2023, Cuantos tramites ante el Gobierno MUNICIPAL hizo durante este tiempo?

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 1.49 1.49 0 0%
Mediana 1 1 0 0%
Desv. Est. 1.3 1.30 0
.26 22.22%

Conclusión: Válido - Los resultados coinciden con margen aceptable.

5.1.3 Conclusiones para Variables de Razón

La evidencia apunta a que las variables de razón analizadas muestran consistencia entre el dashboard y las fuentes de verificación.

5.2 Variables de Intervalo

Las variables de intervalo son aquellas donde los intervalos entre valores son iguales, pero no existe un cero absoluto (por ejemplo, temperatura en grados Celsius, año de nacimiento).

5.2.1 Variable: PER Q4 - En comparacion con el año pasado, Diria usted que su situacion economica personal ha mejorado, ha empeorado o sigue igual?

Resultado del dashboard

Reporte del informe

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 3.07 3.07 0 0%
Mediana 3 3 0 0%
Desv. Est. 0.87 0.87 0 0%

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Distrito 2 19.9% 20.3% .4 2%
Distrito 3 23.9% 26.3% 2.4 10%
Distrito 4 30.1% 27.4% 2.7 9%
Distrito 5 20.3% 23% 2.7 13.3%
Distrito 6 18.9% 18.9% 0 0%
Distrito 7 16% 16.9% .9 5.6%
Distrito 8 18.5% 16% 2.5 13.5%
Distrito 9 16.8% 15.6% 1.2 7.14%
Distrito 10 18% 19.9% 1.9 10.6%

Conclusión: Cuestionable - Los resultados no coinciden con superior al 10%, además las interpretaciones son diferentes.

5.2.2 Variable: PAR Q139 - Para usted, votar es…

Resultado del dashboard

Reporte del informe

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 3.07 3.07 0 0%
Mediana 3 3 0 0%
Desv. Est. 0.87 0.87 0 0%

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Distrito 2 78.7% 78.7% 0 0%
Distrito 3 78.1% 78.1% 0 0%
Distrito 4 84.7% 84.7% 0 0%
Distrito 5 82.6% 82.6% 0 0%
Distrito 6 18.9% 18.9% 0 0%
Distrito 7 16% 16.9% .9 5.6%
Distrito 8 83.4% 83.4% 0 0%
Distrito 9 76.3% 76.3% 0 0%
Distrito 10 77.6% 77.6% 0 0%

Conclusión: Aceptable - Los resultados coinciden con margen aceptable.

5.3 Variables ordinales

Las variables de intervalo son aquellas donde los intervalos entre valores son iguales, pero no existe un cero absoluto (por ejemplo, temperatura en grados Celsius, año de nacimiento).

5.3.1 Variable: PER Q5 - Con el total del ingreso familiar, usted diria que…? (En 2023)

Resultado del dashboard

Reporte del informe

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 2.14 2.14 0 0%
SD 2 2 0 0%
Moda 2 2 0 0%

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Distrito 2 27.7% 25.1% 2.6 9.4%
Distrito 3 26.9% 24.3% 2.6 9.7%
Distrito 4 22% 20.2% 1.8 8.2%
Distrito 5 28% 29.3% 1.3 4.6%
Distrito 6 38.9% 39.4% .5 1.3%
Distrito 7 30.7% 30.3% .4 1.3%
Distrito 8 27.2% 27.6% .4 1.5%
Distrito 9 27.1% 26.9% .2 0.7%
Distrito 10 33.3% 32.1% 1.2 3.6%

Conclusión: Aceptable - Los resultados coinciden con margen aceptable. ### 5.3.2 Variable: PAR Q146 - Rango de edad

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Media 2.41 2.41 0 0%
Mediana 2 2 0 0%
Moda 2 2 0 0%

Comparación por categorías” :

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
18 a 29 años 329 329 0 0%
30 a 44 años 486 486 0 0%
45 a 59 años 434 434 0 0%
60 años o mas 257 257 0 0%

Conclusión: Aceptable - Los resultados coinciden con margen aceptable.

5.4 Variables Categóricas

Las variables categóricas representan categorías sin un orden inherente (por ejemplo, estado civil, distrito, ocupación).

5.4.1 Variable: PER Q97 - De las siguientes problematicas medioambientales, cual cree que sea el mayor problema de la colonia?

Resultado del dashboard

Reporte del informe

Estadístico Dashboard Datos Brutos Diferencia Diferencia (%)
Moda Calles sucias/basura en calles 558 Calles sucias/basura en calles 558 0 0%

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Calles Sucias 36.6% 36.7% .1 .3%
Llantas tiradas 21.7% 21.6% .1 .5%
Terrenos Baldíos 14.8% 14.8% 0 0%
Basureros/Tiraderos Clandestinos 14% 13.9% .1 .7%
Parques sucios/descuidados 8.3% 8.3% 0 0%
Otros 4.6% 4.6% 0 0%

Conclusión: Aceptable - Los resultados coinciden con margen aceptable.

5.5 Variables Binarias

Las variables binarias solo pueden tomar dos valores posibles (por ejemplo, sí/no, presencia/ausencia, acuerdo/desacuerdo).

5.5.1 Variable: PER 84 - En el ultimo año (2023), Siente que sus garantias o derechos han sido violentados por alguna autoridad o dependencia gubernamental?

Resultado del dashboard

Reporte del informe

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Distrito 2 14.1% 13.5% 0.6 4.3%
Distrito 3 5.7% 6.3% 0.6 10.5%
Distrito 4 11.2% 12.2% 1 8.9%
Distrito 5 10.8% 10.6% 0.2 1.9%
Distrito 6 13.6% 11.7% 1.9 14%
Distrito 7 4.9% 7.9% 3 61.2%
Distrito 8 4% 5.1% 1.1 27.5%
Distrito 9 8.5% 6.3% 2.2 25.9%
Distrito 10 4.7% 3.8% 0.9 19.1%

Conclusión: No aceptable - Los resultados parcialmente coinciden con margen cuestionable, la interpretación de ambos resultados es diferente.

5.5.2 Variable: PAR 140.1:140.3 - ¿HA PARTICIPADO EN ALGUNO DE LOS SIGUIENTES MECANISMOS ESTABLECIDOS

EN LA LEY DE PARTICIPACIÓN CIUDADANA DEL ESTADO DE CHIHUAHUA?

Resultado del dashboard

Reporte del informe

Comparación con informe “Así estamos Juárez” :

Estadístico Dashboard Informe Diferencia Diferencia (%)
Revocación de mandato 47.4% 47.4% 0 0%
Audiencias Públicas 30.3% 30.3% 0 0%
Consultas Públicas 29.1% 29.1% 0 0%
La iniciativa ciudadana 25.8% 25.8% 0 0%
Comités de participación 18.3% 18.3% 0 0%
Cabildo abierto 15% 15% 3 0%
Consejos consultivos 12.5% 12.5% 0 0%
Planeación participativa 11.6% 11.6% 0 0%
Presupuesto participativo 9.4% 9.4% 0 0%
El Plebiscito 7.5% 7.5% 0 0%
Mecanismos de participación social para niñas, niños y adolescentes 7.2% 7.2% 0 0%
Contralorías sociales 6.9% 6.9% 0 0%
El referendum 6.6% 6.6% 0 0%

Conclusión: Aceptable - Los resultados coinciden con margen aceptable.

5.6 Variables Nominales (Abiertas)

Las variables nominales abiertas contienen respuestas de texto libre. Dado que este tipo de variables tiene un tratamiento diferente y posiblemente sean removidas en futuras versiones del dashboard, se ha realizado una validación simplificada.

5.6.1 Variable: PER Q65 - Mencione un lugar/edificio/monumento que considere emblematico y representativo de Juarez

Nube de palabras en el dashboard

Top 10 palabras más frecuentes (análisis manual)

Se ha verificado que:

  • El número total de respuestas procesadas coincide entre el dashboard y los datos brutos.
  • Las palabras más frecuentes identificadas en el dashboard aparecen también entre las más frecuentes en el análisis manual.
  • El proceso de limpieza (eliminación de stopwords y caracteres especiales) funciona correctamente.

Conclusión: El procesamiento básico de texto para variables nominales funciona adecuadamente dentro de los límites esperados para este tipo de análisis exploratorio.

5.6.2 Consideraciones sobre Variables Nominales

  • Las variables nominales (abiertas) son principalmente útiles para análisis exploratorio y contextual, no para inferencias estadísticas precisas.
  • Pequeñas diferencias en el preprocesamiento del texto pueden resultar en variaciones en los conteos exactos de palabras, lo cual es esperado y aceptable.

Conclusiones

Las diferencias que se encontraron que no se consideran aceptables han sido examinadas a detalle. La causa principal es el uso de una base de datos alternativa proveida por AEM. En un subsecuente reporte se examinarán las diferencias entre ambas versiones para decidir cual versión utilizar, y posteriormente cargar a la base de datos.