4. Procedimientos de Selección de Variables para los Dominios

Como se mencionó anteriormente, cada Sub-población no solo será modelado de manera independiente, sino que todo el proceso de selección de las variables también será desarrollado de modo exclusivo para cada una de ellas. Este proceso de selección de variables se va a ilustrar con el realizado para los Dominios de Estudio y que se presenta a continuación.

4.1. Lima Metropolitana

1. De la matriz de correlación obtenida para las seis variables de intervalo de Lima Metropolitana se obtiene la información del Cuadro Nº 1 y de la cual se deducen los siguientes resultado:

Claramente se observa que las variables:

  • Escolaridad promedio, y
  • Escolaridad del que gana más,

Están altamente correlacionadas (0.868), lo que implica que la información que una proporciona está siendo también proporcionada (de manera redundante) por la otra.

¿Cuál de las dos variables eliminar?

En el cuadro también se presentan las correlaciones entre la variable respuesta, (Logaritmo del Ingreso) con cada una de las variables explicativas, por tanto, para decidir por la variable que queda para el modelo, se observan las correlaciones entre el Logaritmo del Ingreso y la otras dos, de modo que se prescindirá de la variable que esté menos asociada a la variable respuesta.

Según lo descrito, se eliminan

  • Escolaridad Promedio.
  • Total miembros

Además, otra de las condiciones que aseguran una buena aplicación del Modelo de Regresión, son las relaciones (correlaciones) entre el Logaritmo del Ingreso y las variables explicativas, que deben ser altas. Por tanto, otro criterio para la eliminación de variables, será seleccionar las que no presenten una correlación con el Logaritmo del Ingreso cercana a cero. En general se aceptarán las variables cuyas correlaciones con el Logaritmo del Ingreso sean mayores a ½0.21½.

Según esta regla, las variables:

  • Edad del que gana más, y
  • Total de miembros en el hogar

    También serán eliminadas del modelo.

    En resumen, de las 5 variables de intervalo, (sin considerar el Logaritmo del Ingreso) quedan para posteriores análisis:

    • Tasa de Dependencia
    • Escolaridad del que gana más.
    • Perceptores

    CUADRO Nº 1

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, proporciona los siguientes resultados

    Las cinco variables nominales, además de la variable Logaritmo del Ingreso, previamente categorizada en cinco intervalos, son:

    • Logaritmo del Ingreso (LOGING)
    • Necesidades Básicas insatisfechas (NBI)
    • Fuente de Mayor Ingreso (FMI)
    • Tenencia de Vivienda (TENVIV)
    • Estrato Geográfico (EST-GEO)
    • Categoría Ocupacional del perceptor que más gana (CAT-OC)

    Los resultados del modelo, muestran lo siguiente.

    Prueba de asociaciones parciales

    El Modelo Loglineal, muestra que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están relacionadas de modo considerable, y de ellas, la que más se correlaciona con el Logaritmo del Ingreso es Categoría Ocupacional, por tanto es posible prescindir de la variable Fuente de Mayor Ingreso.

    3. En principio, el Modelo de Regresión Múltiple que se construirá para describir el ingreso en Lima Metropolitana estará conformado por 6 variables independientes:

    Variables que entrarán en el modelo:

    4.2. Costa Norte

    1. De la matriz de correlación obtenida para las variables cuantitativas en el Dominio Costa Norte se obtiene la información que se detalla en el Cuadro Nº 2, y de la cual se deducen los siguientes resultados.

    Se observa entonces nuevamente que las variables:

    • Escolaridad promedio, y
    • Escolaridad del que gana más,

    Están altamente correlacionadas (0.88), y de las cuales se elimina la variable Escolaridad del que más gana, por estar menos correlacionada con el Logaritmo del Ingreso que la escolaridad promedio.

    CUADRO Nº 2

    Por lo que se puede apreciar en el Cuadro Nº 2, También se elimina la variable Edad del que gana más por su muy reducida correlación con el Logaritmo del Ingreso.

    En resumen, de las 5 variables cuantitativas, quedan para posteriores análisis:

    • Tasa de Dependencia
    • Escolaridad promedio
    • Total de perceptores en el hogar.

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, proporciona los siguientes resultados.

    Prueba de asociaciones parciales

    El Modelo Loglineal muestra, que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están relacionadas de modo considerable, y de ellas, la que más se correlaciona con el Logaritmo del Ingreso es Categoría Ocupacional, por tanto es posible prescindir de la variable Fuente de Mayor Ingreso.

    3. Las variables con las cuales se cuenta para la aplicación del Modelo de Regresión Múltiple para el Dominio de la Costa Norte son:

    Variables que entrarán en el modelo:

    4.3. Costa Centro

    1. Los resultados en el Dominio de la Costa Centro, se detallan a continuación:

    Siguiendo los anteriores procesos de eliminación de variables, así como los resultados que se presentan en el Cuadro Nº 3, se observa que las variables de intervalo con las cuales se construirá el Modelo de Regresión para la Costa Centro son:

  • Escolaridad del que gana más
  • Total de perceptores

    CUADRO Nº 3

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indican que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. Las variables con las cuales se construirá el modelo son las siguientes:

    Variables que entraran en el Modelo

    4.4. Costa Sur

    1. Se presenta el Cuadro Nº 4 construido en base a la matriz de correlación.

    CUADRO Nº 4

    Las variables cuantitativas con las cuales se construirá el Modelo de Regresión para la Costa Sur son:

    • Escolaridad promedio
    • Total de perceptores

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indican que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. En resumen, las variables, tanto cuantitativas como categóricas en base a las cuales se formulará el Modelo de Regresión para el Dominio de la Costa Sur son:

    Variables que entrarán en el modelo:

    4.5. Sierra Norte

    1. Se presenta el Cuadro Nº 5 construido en base a la matriz de correlación.

    CUADRO Nº 5

    Las variables cuantitativas con las cuales se construirá el Modelo de Regresión para la Sierra Norte son:

    • Escolaridad promedio
    • Total de perceptores
    • Tasa de Dependencia

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indican que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. En resumen, las variables, tanto cuantitativas como categóricas en base a las cuales se formulará el Modelo de Regresión para el Dominio de la Sierra Norte es:

    Variables que entrarán en el modelo:

    4.6. Sierra Centro

    1. Se presenta el cuadro Nº6 construido en base a la matriz de correlación.

    CUADRO Nº 6

    Las variables de intervalo con las cuales se construirá el Modelo de Regresión para la Sierra Centro son:

    • Tasa de Dependencia
    • Escolaridad promedio
    • Total de perceptores

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indican que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. En resumen, las variables, tanto cuantitativas como categóricas en base a las cuales se formulará el Modelo de Regresión para el Dominio de la Sierra Centro son:

    Variables que entrarán en el modelo:

    4.7. Sierra Sur

    1. Se presenta el Cuadro Nº 7 construido en base a la matriz de correlación.

    CUADRO Nº 7

    Las variables cuantitativas con las cuales se construirá el Modelo de Regresión para la Sierra Sur son:

    • Escolaridad promedio
    • Total de perceptores
    • Total miembros
    • Edad del que más gana

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indican que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. En resumen, las variables, tanto cuantitativas como categóricas en base a las cuales se formulará el Modelo de Regresión para el Dominio de la Sierra Sur son:

    Variables que entrarán en el modelo:

    4.8. SELVA

    1. Se presenta el cuadro Nº8 construido en base a la matriz de correlación.

    Las variables cuantitativas con las cuales se construirá el Modelo de Regresión para la Sierra Sur son:

    • Número de perceptores
    • Escolaridad promedio

    2. El Modelo Loglineal Jerárquico aplicado a las variables nominales, indica que las variables Fuente de Mayor Ingreso y Categoría Ocupacional están altamente asociadas, eliminándose la Fuente de Mayor Ingreso para el Modelo de Regresión a construirse.

    3. En resumen, las variables, tanto cuantitativas como categóricas en base a las cuales se formulará el Modelo de Regresión para el Dominio de la Selva son:

    CUADRO Nº 8

    Variables que entrarán en el modelo: