![]() ![]() ![]() |
V. FORMULACION DEL MODELO |
Un Modelo de Regresión es eficiente en la medida que proporcione un buen ajuste de los datos que lo explican, así mismo, debe ser posible predecir comportamientos de la variable respuesta (o dependiente) condicionadas a determinadas situaciones en las variables independientes.
Para que el Modelo de Regresión Múltiple resultante cumpla con la eficiencia necesaria, es importante que los datos que lo originan cumplan con algunos requisitos para eliminar posibles distorsiones en el modelo. Distorsiones que pueden ser producto de existencia de dependencia entre las variables explicativas.
Particularmente en nuestro estudio, interesa que las variables independientes sean independientes entre sí, pero que a su vez tengan la mayor correlación posible con el Ingreso. Entonces, en esta parte se tiene como objetivo encontrar variables independientes que estén altamente correlacionadas entre sí, lo que indicaría que ambas proporcionan la misma información y por lo tanto se puede prescindir de una de ellas. El criterio para determinar la variable que se excluye del análisis es, a su vez, la que esté menos relacionada con el Logaritmo del Ingreso.
Cabe recordar que el objetivo de este proyecto es formular un Modelo de Regresión Lineal Múltiple para el Ingreso de los Hogares de las siguientes Sub-poblaciones:
. Los "Dominios de Estudio" de la muestra (Lima Metropolitana, Costa Norte, Costa Centro, Costa Sur, Sierra Norte, Sierra Centro, Sierra Sur y Selva),
La selección de variables se realiza de manera independiente para cada Sub-población, porque como es lógico, el comportamiento del Ingreso varía de una Sub-población a otra, presentando cada uno particularidades únicas que interesan conocer, analizar y modelar.
5.1 SELECCIÓN INICIAL DE VARIABLES
Como punto de partida se seleccionaron un conjunto de variables que se suponían podían estar relacionadas con el Logaritmo del Ingreso. Estas eran 12 incluyendo el Logaritmo del Ingreso del Hogar (7 variables cuantitativas y 5 variables nominales) que se enumeran a continuación: . Variables Cuantitativas
2. Número de Miembros del Hogar 3. Número de Perceptores del Hogar 4. Tasa de Dependencia (Número promedio de personas que dependen de cada perceptor) 5. Escolaridad Promedio de los Perceptores 6. Escolaridad del Perceptor que Más gana 7. Edad del Perceptor que Más gana . Variables Nominales (Incluye una variable ordinal)
a. Ninguna 2. Fuente de Mayor Ingreso
a. Trabajo asalariado 3. Tenencia de Vivienda
a. Propia 4. Estrato Geográfico Para Lima Metropolitana : a. Norte, conformado por los iguientes distritos:
Ancón - Puente Piedra - Ventanilla - Comas - Carabayllo - Independencia - Rímac - San Juan de Lurigancho - San Martín de Porres - Los Olivos b. Centro 1, conformado por los siguientes distritos:
Lima (Cercado) - Breña - La Victoria - El Agustino - Santa Anita - San Luis - Ate - San Miguel - Jesús María - Lince - Pueblo Libre - Magdalena del Mar - Callao - La Perla - Bellavista - Carmen de La Legua - Lurigancho (Chosica) - Chaclacayo c. Centro 2, conformado por los siguientes distritos:
San Isidro - Miraflores - Santiago de Surco - San Borja - La Molina d. Sur, conformado por los siguientes distritos:
Surquillo - Chorrillos - Villa El Salvador - San Juan de Miraflores - Villa María del Triunfo - Pachacámac- Barranco - Lurín
Para otras Sub-poblaciones:
a. Capitales de Provincias y Grandes Ciudades 5. Categoría Ocupacional del que Más gana.
a. Empleador
Partiendo de este conjunto de variables se trabajó a nivel de cada Sub-población.
Algunas de las variables cuantitativas tuvieron que ser transformadas o extraídas mediante procesos previos, tal es el caso de las que se refieren a características del Perceptor que Más gana.
En lo que respecta a las variables nominales, la mayoría tuvo que ser recodificada o construida en base a la información de la base de datos proporcionada. Así, la variable Estrato Geográfico para Lima Metropolitana tuvo que ser construida en base a la ubicación geográfica de los conglomerados.
La variable "Logaritmo del Ingreso" para ser procesada con el procedimiento Loglineal, fue recodificada en 5 estratos, los cuales se determinaron utilizando el método de Dalenius. |