Predictores e indicadores de la fortuna de 642 familias rurales en Bio Bio, Chile



1. Introducción

Este artículo pretende ser un aporte pues no existe material publicado en el contexto nacional de las ciencias sociales en especial en el campo de la economía colonial en Chile que aborde directamente la relación entre las fortunas de padrones o matrículas de estratificación socioeconómica de familias y estadística multivariada. El presente estudio[1]se basa, por un lado, en una muestra intencional definitiva de 642 familias total obtenidas del padrón de (638 familias total) 456 depuradas familias rurales de Perquilauquén de 1754 que se encuentra en el Archivo Nacional de Chile de la Capitanía General (volumen 938, fs.145-176), y por otro lado, en el padrón de (430 familias total) 186 depuradas familias rurales de Chillán de 1737 ambas de la región del Bío-Bío de Chile que se encuentra en el Archivo Nacional de Chile de la Real Audiencia (volumen 2755, pieza 18, fs.149-160, y pieza 20, fs. 206-210v.). Además, se emplea información esencial de los Archivos Judiciales y Notariales de Talca, Cauquenes, San Fernando, por la proximidad a Perquilauquén o San Carlos, Chillan. Los archivos de Chillán, San Carlos, Quirihue, que deberían ser los más adecuados por la zona, no se ocupan pues no existen cercanos al año 1754. El problema básico es: ¿Cuáles son los predictores o variables más significativas estadísticamente hablando que influyen en el logro de la fortuna de cada familia?. La solución es aplicar un Análisis factorial y de un Análisis de regresión múltiple de predictores e indicadores de la fortuna de 642 familias rurales –depuradas estadísticamente, pues se eliminan los indigentes y marginales. Aquí, se habla de familias nucleares rurales, entendida ésta como la constitución del supuesto esposo, esposa e hijos si los hay. Son ocho listas o "poblaciones" de familias detalladas más adelante. En la recogida de los datos nos encontramos con algunas imprecisiones, errores, todos intencionados o no. De hecho, se confiesa poseer menos bienes por temor a exacciones por parte del estado. Por lo tanto, los datos descriptivos finales en los anexos tienen aproximaciones a veces –por ejemplo, dos fanegas igual a una fanega más ocho almudes-, pues se trató de aprovechar todo, aunque una vez subsanados en general se esmeró en la estricta precisión en el análisis factorial y regresión múltiple. El padrón señala por familia: la cantidad de animales –ganado mayor: caballos, vacas, mulas y ganado menor: cabras, ovejas-, todas las cuales son las variables independientes o predictores que son sumadas al ser convertidas en pesos y reales de la época, y por último, también se construye artificialmente y agrega la variable dependiente o indicador que es la fortuna de la familia, también expresada y convertida en pesos. En todo caso, se aprecia claramente que son familias rurales de variada condición socioeconómica. Se realiza un ensayo estadístico a una muestra intencional de 642 familias con tres variables independientes: tierra (1), ganado mayor (2), ganado menor (3), y la variable dependiente fortuna (7). A la luz de los resultados, en esta etapa, el modelo del Análisis de Regresión Múltiple de las 642 familias se valida con el programa Excell de una muestra de 99 familias del primer Censo Agrícola de 1832 de Santiago. El resultado final son los datos cuantitativos expresados en sus promedios, desviaciones estándares y los resultados del Análisis Factorial y del Análisis de Regresión Múltiple. Aquí no interesa cuáles son las familias más acaudaladas o las más pobres, quién tiene más tierras, sino qué variables –la tierra, los caballos, las vacas, las mulas, las cabras, etc.- aportan significativamente desde el punto de vista estadístico para que tiendan a ser más ricas o prosperas, por lo menos consideradas estáticamente en el año de 1754 y 1738. ¿En este contexto, se puede predecir una fortuna familiar?. Creemos que si. La solución es aplicar técnicas estadísticas multivariadas -ya probadas en diversos campos- cuales son el Análisis Factorial y del Análisis de Regresión Múltiple.

2. Objetivos

El objetivo general es estudiar la influencia estadística de las variables independientes de la posesión de las cuadras de tierra (1), ganado mayor (2) –caballos, vacas, mulas-, ganado menor (3) –ovejas, cabras-, que determinan el logro de la variable dependiente fortuna (4) de 642 familias depuradas total, compuestas por 456 familias de Perquilauquén de 1754 de la región del Bío-Bío y de 186 familias rurales de Chillán de 1737 de la región del Bío-Bío, ambas de Chile.

El objetivo específico n°1 es determinar las características descriptivas de las variables de las cuadras de tierra, ganado mayor, ganado menor, y la fortuna de cada familia de una muestra intencional de 642 familias total, compuesta por 456 familias de Perquilauquén de 1754 de la región del Bío-Bío y de 186 familias rurales de Chillán de 1737 de la región del Bío-Bío, ambas de Chile a través de un análisis estadístico de la planilla Excel, caso a caso, de la media aritmética y la desviación estándar expresada en pesos y en cantidad real. El objetivo específico n°2 es determinar el número y la contribución de los factores que justifican la intercorrelación significativa entre las cuadras de tierra, el ganado mayor, el ganado menor, y la fortuna en un ensayo a la muestra indicada de 642 familias total, compuesta por 456 familias de Perquilauquén de 1754 de la región del Bío-Bío y de 186 familias rurales de Chillán de 1737 de la región del Bío-Bío, ambas de Chile a través de la matriz de correlación, de un Análisis Factorial, y su validación, expresada en pesos y en cantidad real. Se agrega la matriz de probabilidades y la matriz de probabilidades de Bonferroni. El objetivo específico n°3 es determinar el aporte predictivo de las variables independientes de las cuadras de tierra, ganado mayor, ganado menor, sobre la fortuna en un ensayo a la muestra señalada de 642 familias total, compuesta por 456 familias de Perquilauquén de 1754 de la región del Bío-Bío y de 186 familias rurales de Chillán de 1737 de la región del Bío-Bío, ambas de Chile a través de un Análisis de Regresión Múltiple, expresada en pesos y en cantidad real y una validación en Excel con una muestra de 99 familias del primer Censo Agrícola de 1832 de Santiago.

3. Diseño y metodología

El estudio corresponde a un diseño multivariado[2]no experimental[3]de tipo transversal correlacional/causal[4]ex post facto[5] Metodología Se obtiene la información esencial del padrón de 638 familias rurales de Perquilauquén de 1754 y de 186 familias rurales de Chillán de 1737 de la región del Bío-Bío de Chile. Además, se recaba información importante y complementaria de los Archivos Judiciales y Notariales de Talca, Cauquenes, San Fernando. Se aplica un Análisis Factorial y de Análisis de Regresión Múltiple de predictores e indicadores de la fortuna de 642 familias rurales –depuradas estadísticamente, pues se eliminan los indigentes y marginales. Se aplica a dicha muestra con tres variables independientes: tierra, ganado mayor, ganado menor, y la variable dependiente fortuna. A la luz de los resultados, en esta etapa, se valida[6]el modelo del Análisis de Regresión Múltiple con las 99 familias tomadas aleatoriamente del primer Censo Agrícola de 1832 de Santiago. Se escoge intencionalmente una muestra mayor o cercana a 100 sujetos. Criterios de especificación de las variables Las muestras históricas casi siempre tienen errores, imprecisiones, ambigüedades. La nuestra posee datos faltantes inevitables a veces, pues no todas las familias tienen tierras. La fortuna está completa. Es decir, como supuesta distribución estadística normal no todas las 642 familias definitivas poseen todas las variables completas con los datos respectivos. Para el proceso estadístico asignamos un valor numérico determinado a la categoría definida de una variable y un cero (0) a las demás que señalan la inexistencia del bien. Ahora bien, de la muestra de 642 familias los datos faltantes o error de las tres variables independientes son: la tierra, hay 237 (37%) familias sin tierras y 405 (63%) con tierras; el ganado mayor, sólo 26 (4%) familias sin ellos y 616 (96%) con ellos; el ganado menor, hay 55 (8.6%) familias sin ellos y 587 (91.4%) familias con ellos. La fortuna como resultado obviamente está completa. Desde las tres variables independientes, hay 319 (49.7%, o sea, 50% aproximado) familias con todas las variables completas y la otra mitad falta aleatoria y segmentadamente, solo 1 variable, pero no es toda una variable completa la que falta. Específicamente, de la tierra: con tierras hay 405 familias (63%) y supuestamente sin tierras un 37% o 237 familias. Del ganado mayor, hay 616 familias (96%) con todas las variables completas y un 4% o 26 familias sin animales. Del ganado menor, hay 587 o 91.4% familias con todas las variables completas y un 8.6% o 55 familias sin animales.

Nunnally y Bernstein[7]indican respecto de los datos faltantes que si un sujeto en una encuesta no responde a la pregunta 1 pero responde a las preguntas 2 y 3, la correlación entre las variables 1 y 2 y 1 y 3 se basa en la menor observación que hubiera podido obtenerse si el sujeto hubiera respondido la pregunta 1, pero la correlación entre las variables 2 y 3 no es afectada. O sea, se compensan de alguna manera los datos completos con los datos faltantes. Es evidente que se pueden haber omitido otras variables más importantes que influyan en la fortuna. Ahora bien, ¿Por qué estas variables se convierten en la moneda de pesos de 1754 y 1737 y no se toman como tal –o sea, por ejemplo, 20 cuadras de tierra- para hacer el análisis estadístico?. Por una decisión personal de procesar todos los datos en la misma moneda de pesos nivelando todas las variables comprometidas. Así, los cálculos son más viables y parejos al estar medidos y evaluados en las mismas unidades. Por lo tanto, se crea artificialmente una nueva variable: la fortuna económica de cada familia que es la sumatoria de todos los bienes o recursos económicos. Para simplificar el análisis las variables fueron agrupadas: los animales mayores en el ganado mayor y los animales menores o pequeños en el ganado menor para simplificar el número de variables. La moneda del real o moneda de plata se transforma a pesos, la moneda principal. El criterio de conversión es que el real vale 0.25 pesos, o la cuarta parte del peso[8]Todos los cálculos de los bienes o recursos económicos o variables independientes –en los asientos originales hay errores- se basan en los datos de los archivos notariales y judiciales señalados. Las variables independientes, todas expresadas en pesos, son:

X = 1 Las cuadras de tierra (TIERRA).

X = 2 El ganado mayor (GMAYOR): las vacas, los caballos, yeguas, las mulas.

X = 3 El ganado menor (GMENOR): las ovejas, las cabras.

Variable Dependiente o Indicador Se refiere a la fortuna de cada familia expresada en pesos como la sumatoria de todos sus bienes económicos (tierra, animales) de Perquilauquén y Chillán de la región de Bío-Bío de Chile.

Y =1 La fortuna (FORTUNA) de cada familia. Fundamentos de elección del criterio de los bienes/recursos: En base a la revisión de los Archivos Judiciales y Notariales ya señalados se captura la mayor cantidad de datos representativa pero cercana al año de 1754 y 1737. Así, nuestros datos oscilan entre 7 y 26 precios por cada bien. Luego, se dividen obteniendo la media aritmética precisa, aunque no necesariamente aproximé, pues traté de cuidar la exacta cifra original. El problema estadístico es cómo decidir que promedio elegir por cada bien de manera que sea representativo de la muestra (muestra es toda parte representativa de un conjunto, población o universo, cuyas características debe reproducir en pequeño lo más exactamente posible -Sierra[9]pues además tenemos como otros indicadores las medidas de tendencia central y de dispersión: la moda y la mediana. Entonces, debemos considerar si la muestra de 642 familias es una distribución simétrica o no. Nuestros resultados estadísticos señalan que efectivamente no es simétrica. Nuestra variable fortuna concuerda con lo que señala Sierra[10]citando a Mueller (1970, p. 142: Statiscal reasoning in Socioloy. Boston), que muchos datos sociológicos –salarios, tamaños de ciudades, de familias, etc- son fuertemente asimétricos. Sin embargo, conforme a Ary, Cheser y Razavieh[11]la media como estadística de intervalo o de razón da una medición más exacta que la mediana o el modo y es la más estable. Por supuesto, se agrega la desviación estándar en la descriptiva para consolidar científicamente el proceso. Así, se toman los años más cercanos a la base de 1754 y 1737 de la matrícula de nuestro padrón investigado por sus representatividad en el tiempo. Ahora, dependiendo del bien y la representatividad de este, si hay pocos datos para tomar más variedad (y no caer estadísticamente en la homogeneidad) se toman datos relativamente antes y/o después de 1750, aunque si hay más y variados datos dentro del lapso de 1750 se prefieren estos. Se promedian y se dividen por el número de casos. En resumen, el criterio promedio final de cada bien o recurso económico y el precio respectivo es: Ovejas: $0.6 pesos[12]Cabras: $0.8 pesos[13]Vacas:$3 pesos[14]Yeguas: $2.7 pesos[15]Caballos:$4 pesos[16]Tierra: $3.4 pesos por cuadra[17]Mulas: $3.5 pesos[18] A veces, los criterios no son seguidos -1a, 1b, etc-, porque no existen tales fuentes. Las fuentes y siglas son AJCT=Archivo Judicial Civil de Talca; ANSF=Archivo Notarial de San Fernando; AJCC=Archivo Judicial Civil Cauquenes; AJCSF=Archivo Judicial civil de San Fernando; l.=legajo; s.=sin; p=pieza.

La población y la muestra La población o el universo la constituyen todos -declarados u omitidos- los vecinos de Perquilauquén y Chillán que constituyan familias en la zona. La muestra intencional[19]es de 642 familias, y se trabaja en definitiva con 456 depuradas familias rurales de Perquilauquén de 1754 y con 186 depuradas familias rurales de Chillán de 1737 de la región del Bío-Bío de Chile. En efecto, se afirma[20]del tamaño de la muestra que cuanto mayor el tamaño muestra, mayor será la probabilidad de encontrar un coeficiente de correlación similar en otras muestras, y en la población general como un todo. Sierra[21]indica citando a Blalock[22]que éste afirma que es grande siempre o casi siempre una muestra de N >100.y también de N>50 si se tiene evidencia empírica de que la desviación de la población en relación a la normalidad no es importante. La ventaja de la muestra intencional como afirma Hernández et. al[23]es su utilidad, su controlada elección de sujetos con ciertas características. La muestra de vecinos seleccionados depende de dos condiciones: por un lado, que los lugares o pueblos presenten un número suficiente de familias radicadas y por otro lado, estadístico, esto es, que las variables independientes medidas presenten un mínimo de 10 sujetos o datos[24]por variable, donde unos dicen 5 datos o sujetos por 1 variable;10 por 1 y 20 por 1, o familias por variable independiente o predictor. En nuestro caso, se cumple la condición o no hay problema, pues tenemos 642 sujetos y solo cuatro variables.

4. Análisis y procesamiento de datos

El análisis y procesamiento de los datos se lleva a cabo esencialmente mediante el software estadístico denominado Systat, versión 5.0, 1990-1994 por S. P. S. S., para analizar los datos con las técnicas del Análisis de Regresión Múltiple, modalidad Step-wise[25]o paso a paso, y el Análisis Factorial, modalidad Varimax. También, alternativamente se emplea el software denominado Minitab, versión 16, obteniendo resultados similares sino idénticos, y el Excel de Microsoft. El análisis de los datos se realiza conforme a los tres objetivos específicos: 1. Análisis Descriptivo, mediante el uso de la planilla Excel, caso a caso. 2. Análisis de Regresión Múltiple, modalidad Step-wise. 3. Análisis Factorial, modalidad Varimax. En lo esencial, en el Análisis de Regresión Múltiple, Kazmier señala que las únicas limitaciones asociadas con el Análisis de Regresión Múltiple son los temas de la multicolinealidad y la autocorrelación, la cual no interesa aquí. La colinealidad se refiere cuando las variables independientes de un análisis múltiple regresión están correlacionadas entre si –lo cual se percibe al ser relativamente altas, positivas o negativas, las correlaciones-, entonces los coeficientes de regresión parcial son poco confiables en términos de significado. Asimismo, se cuestiona los coeficientes de correlación parcial. Según Kazmier, un coeficiente de correlación significativo no necesariamente indica causalidad, sino que puede simplemente indicar una asociación común con otros eventos. Una correlación "significativa" (comillas del autor) no es necesariamente una correlación importante. En una muestra grande, una correlación de r= +0.10 puede ser significativamente diferente de 0 al nivel de alfa=0.005 o nivel de significancia del 5% de error. Sierra[26]indica de los coeficientes de correlación que:"en cuanto a la significación de los coeficientes de asociación, aunque no existe una norma valida para todos los casos, pues tal significación, no depende solo de su tamaño, se admite que su significación es la siguiente: + 0.70 muy fuerte;+ 0.50 a 0.69 sustancial;+ 0.30 a 0.49 moderada;+ 0.10 a 0.29 baja;+ 0.01 a 0.09 despreciable".

Según Morales M.[27], los pasos a seguir, que nosotros cumplimos, en un Análisis de Regresión Múltiple son seis:

1. Ajustar el modelo de regresión con algún software estadístico. O sea, usar alguno.

2. Analizar la significancia estadística de los parámetros a través de un Anova, análisis de varianza, para la regresión. O sea, analizar si los coeficientes son positivos o no.

3. Diagnóstico del modelo. Hay que probar la normalidad -los errores siguen una distribución normal-, homocedasticidad -varianza de los errores es constante- e independencia –las observaciones son independientes. En la práctica se asumen simplemente que se dan.

4. Calcular los criterios de bondad de ajuste. O sea, el coeficiente de Determinación R², y el coeficiente de Determinación R² ajustado y el Error Estándar de Estimación –éste indica el error probable que se comete al estimar la variable dependiente mediante un modelo en particular. O sea, analizar si los coeficientes son significativos o no.

5. Calcular los criterios de bondad de predicción. Todos estos indicadores generados en el reporte final de los análisis: 1. El Error Cuadrático Medio –un modelo es bueno cuando el ECM es cercano a cero; 2. Diferencia agregada –como medida de sesgo, un valor positivo indica que el modelo subestima el verdadero valor y un valor de DIFA negativo indica una sobrestima del verdadero valor; 3. El Error Medio Absoluto –como medida de error, un modelo es bueno si este es cercano a cero. Analizar su significancia.

6. Chequear el nuevo modelo con una muestra independiente –realizado en una muestra de Chillán de 1737, en nuestro estudio.

Por último, respecto del alcance de la predicción. Walpole[28]señala que en la ecuación de regresión múltiple un objetivo relevante es llegar a la ecuación de predicción más efectiva. En efecto, Walpole, indica que la calidad de la respuesta estimada de Y, en nuestro caso fortuna, es importante. Por otro lado, se indica que necesariamente la predicción de la fortuna de las familias implica su análisis como un concepto a corto plazo[29]–ciertamente sugerimos nunca más de un año probable-, o sea, aquí por lo menos tomemos el año temporal de plantación y mantención de los bienes/productos agrícolas. El tema y/o problema es qué variables son mejores parcialmente para optimizar en mejor grado probabilístico la producción de la empresa o sistema agrícola del campo chileno, qué contexto es el más adecuado para tales siembras, etc. Ahora bien, la fortuna o indicador tiene como propósito proporcionar un índice de la capacidad económica que poseen las familias. A partir de este índice se puede inferir, en términos de probabilidad estadística, el comportamiento futuro. Sin embargo, ello no implica que cada uno de los factores –tierra, animales, yunta- que componen la capacidad económica sea tan constante que no experimente ningún cambio en ese lapso. Significa más bien que los cambios observados no son repentinos sino que ocurren dentro de ciertos límites que pueden ser determinados previamente. Aquí, se puede tomar en sentido general que la estabilidad de los factores de producción se entiende como la presencia relativamente invariante en el tiempo de un rasgo o más en un sujeto o entidad. Este argumento de la estabilidad señalada es el que permite hacer juicios predictivos.

Análisis Factorial Exploratorio, modalidad Varimax.

En lo esencial, se recomienda el análisis factorial tipo exploratorio como un método complementario para la solución del problema de multicolinealidad del modelo de regresión, pues explica cuáles de las variables predictoras están correlacionadas. Para validar preliminarmente el modelo es necesario realizar una matriz de correlaciones entre las variables de la relación entre las variables, que indicarán el grado y la forma de relación existente entre ellas, la cual podría ser positiva (o negativa) lineal (o no lineal); mientras más se acerca su valor a –1 y +1 mayor será su relación y cuando se acerque a cero, ello indica; su escasa vinculación. Morales V.,[30] señala respecto del número de sujetos en el análisis factorial que no existe un criterio o norma definitiva sobre el número de sujetos necesario. En principio, son preferibles muestras grandes porque el error típico de los coeficientes de correlación será menor. Hay que tener en cuenta dos criterios: 1) La proporción de sujetos con respecto al número de variables (o ítems). 2) El número mínimo recomendable de sujetos en términos absolutos. Un criterio que puede considerarse como mínimo es: 2. a) Que el número de sujetos sea el doble que el número de variables. 2. b) Que la muestra no baje de unos 100 sujetos, (Kline 1986, 1994) aunque el número de variables sean muy pocas. Otros autores recomiendan utilizar una muestra 10 veces mayor que el número de variables o ítems (N = 10k;Nunnally, 1978; Thorndike, 1982). Una orientación más segura es que el número de sujetos no baje de 200 y que al menos haya 5 sujetos por ítem. Independientemente del número de sujetos por variable, la recomendación de Beavers y otros (2013) es que la muestra inicial sea al menos de 150 sujetos después de eliminar los outliers (residuos) o sujetos con puntuaciones muy extremas. A su vez, agregan, Frías-Navarro y Soler,[31] respecto de otra cuestión importante cual es decidir el tamaño de la muestra con el objetivo de facilitar un adecuado funcionamiento de la técnica estadística del análisis factorial exploratorio. Señalan que hay diversidad de opiniones. Citando a Hair, Anderson, Tatham y Black (2004) indican que nunca se debe realizar el análisis con una muestra inferior a 50 observaciones, siendo preferible trabajar con 100 o más unidades. Otros opinan que la muestra nunca debería ser inferior a 100 (Gorsuch, 1983; Kline, 1994). Guilford (1954) recomienda un tamaño de muestra mínimo de 200 casos y Cattell (1978) opinaba que un N o muestra entre 200-250 casos sería aceptable aunque proponía 500 como un buen tamaño muestral. De Winter, Dodou y Wieringa (2009) señalan que un N=50 es un valor mínimo razonable. De la proporción de número de casos por variable medida no existe acuerdo entre los investigadores, antes ya señalado. Gorsuch (1983) sugiere una proporción de cinco sujetos por variable medida, pero Nunnally (1978) y Everitt (1975) proponen una relación de 10 sujetos:1 mientras que Hair, Anderson, Tatham y Grablowsky (1979) opinan que debería ser de 20 sujetos:1. Morales V.[32], señala respecto del criterio de raíz latente, que se escoge utilizar un porcentaje de varianza explicado que esté en torno al 60%, valor admitido habitualmente en ciencias sociales (Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. 1999. Análisis de datos multivariante, editorial Prentice Hall). Según Salvia[33]existen diversos criterios para determinar el número de factores a conservar. Uno de los más usados es la regla de Kaiser: "conservar aquellos factores cuyos valores propios (eigenvalues) son mayores a la unidad". Nunnally y Bernstein[34]confirman este criterio de aceptar mayor o igual a la unidad o 1. Salvia[35]extrema al señalar que hay que eliminar las variables con cargas factoriales bajas: aquellas por debajo de 0, 25. Morales V.[36], indica de los criterios para valorar la magnitud de las correlaciones variable-factor que los pesos de las variables que definen un factor se interpretan como los coeficientes de correlación de cada variable con cada factor. Podemos valorar estos coeficientes como cualquier otro coeficiente de correlación (con N =100 una correlación de 0.20, más o menos, ya es estadísticamente significativa). Morales V., indica que aunque no hay un valor óptimo de referencia, desde el punto de vista de la relevancia se considera un valor en torno a 0.30 como mínimo (explica aproximadamente el 10% de la varianza); en torno a 0.40 ya es más relevante, y valores en torno a 0.50 son de relevancia práctica; estas orientaciones pueden encontrarse en muchos autores como Hair et. al., 1999). El tamaño de la muestra y el número de variables (o ítems) también son datos que hay que tener en cuenta para valorar estos coeficientes. En general, a mayor número de sujetos los coeficientes pueden ser menores, aunque no deben ser inferiores a 0.30, para tenerlos en cuenta como representativos de un factor (Kline, 1994) o entre 0.30 y 0.35 (Spector, 1992, Costello y Osborne, 2005). Un criterio puede ser éste: con N= 100, podemos considerar valores relevantes los que están en torno a 0.50, con N= 200 nos bastan valores de 0.40 y con 300 sujetos 0.30 es suficiente; éstos valores son orientaciones. También tiene que ver el número de variables: a mayor número de variables y factores, se aceptan valores menores. Cuando hay muchos factores, los ítems o variables que definen los últimos factores deben tener pesos mayores para considerarse. Morales V., respecto de la proporción de varianza explicada por los diversos factores señala que frecuentemente nos encontraremos con una aceptable proporción total de varianza explicada por los factores que oscila entre el 50 y 60%, aunque algunos autores[37]proponen una varianza explicada en torno al 75%, 80% como resultado satisfactorio. Por último, Kerlinger[38]indica que las cargas factoriales iguales o mayores que 0.40 (algunas veces 0.30, otras veces otro criterio) se consideran lo bastante grandes como para ameritar su interpretación.

5. Resultados e interpretación

Muestra de 642 familias de Perquilauquén (n:456) y Chillán (n:186) Objetivo n°1: Análisis Descriptivo en cantidad real y pesos Tabla n°1 Descriptiva y Desviación Estándar de predictores e indicadores

Predictores e Indicadores

Descriptiva Pesos:

Total, promedio, desviación estándar

Descriptiva Cantidad:

Total,promedio, desviación estándar

1.Tierra (cuadras)*

$391.727= total; $2.568= prom.; $3.840= d.s.

206.948= total, (324.908 ap. Hectáreas[39] 765 ap. prom.; 1.167 ap. d.s.

2. Ganado mayor *

$108.185= total; $271= prom.; $931= d.s.

37.712 ap. total; 113 ap. prom.; 309 ap. d.s.

3. Ganado menor *

$147.635= total; $470= prom.; $690= d.s.

156.627 ap.total; 1.124 ap. prom.; 2047 ap. d.s.

7.Fortuna**

$955.946= total; $3.426= prom.; $2.358= d.s.

0

Notas * : Variable Independiente o predictor. ** : Variable Dependiente o indicador.

ap. : Aproximado prom. : promedio d.s. : desviación estándar Interpretación Solo esta tabla se realiza con planilla Excell, al detalle. Se puede apreciar que la sumatoria, promedios y desviación estándar de los predictores e indicadores no presentan en general variaciones significativas, pues corresponden a una muestra de familias rurales con escasos capitales, tierras, animales. El ganado mayor tiene 37.712 animales aproximado en total y su promedio es 113 aproximado y su desviación estándar es de 309 aproximado. El ganado menor tiene 156.627 animales aproximado en total, y su promedio es 1.124 animales aproximado y su desviación estándar es 2047 aproximado. Este tipo de ganado como es más barato que el ganado mayor, aumenta la demanda tendiendo mayor cantidad de los mismos. La fortuna total de las 456 familias de Perquilauquén más las 186 familias de Chillán suma $955.946= aproximado, y su promedio es $3.426= aproximado y su desviación estándar es de $2.358= .

Muestra de 642 familias de Perquilauquén (n:456) y Chillán (n:186) Objetivo n°2: Análisis factorial Tabla n°2 Matriz de Correlación Pearson

Fortuna

Gmayor

Gmenor

Tierra

Fortuna

1

Gmayor

0.662

1

Gmenor

0.561

0.283

1

Tierra

0.932

0.499

0.404

1

BARTLETT Chi² STATISTIC: 2251.435 D.F.= 6 PROB= 0.000 NUMBER OF OBSERVATIONS: 642 Notas:

D.F. : grados de libertad (D. F. degree free) PROB : probabilidad o valor p Interpretación Los resultados muestran que la variable fortuna presenta la más alta correlación R -en adelante R- con 0.932 con la tierra, sigue ganado mayor R con 0.662, sigue ganado menor R con 0.561. En resumen, en su mayoría presenta altas correlaciones, arriba de 0.6, por lo cual corresponde realizar el Análisis Factorial. Además, la correlación Pearson produce el test Chi² Barlett que examina si la matriz de la correlación de la población tiene una identidad. Aquí, el test es significativo, pues indica que puede existir alguna correlación entre las variables. Mientras más alto el valor del Chi², nuestro caso 2251.435, mayor es la probabilidad de que exista una diferencia estadísticamente significativa entre los dos grupos o variables que estás comparando. Sin embargo, para saber exactamente, hay que mirar el valor p en una tabla de Chi²;en nuestro caso, el chi² tabulado para 6 g.l. es 16.812 con el 1% de confianza. Entonces, el valor calculado Chi² 2251.435 es mayor que el Chi² tabulado 16.812. Por tanto, hay diferencia significativa. En nuestro caso, el valor p o probabilidad es positivo para nosotros, o sea, cero:Prob= 0.000. En resumen, presenta en general aceptables valores. Muestra de 642 familias de Perquilauquén (n:456) y Chillán (n:186) MATRIX OF PROBABILITIES

Fortuna

Ganado mayor

Ganado menor

Tierra

Fortuna

0.000

Ganado mayor

0.000

0.000

Ganado menor

0.000

0.000

0.000

tierra

0.000

0.000

0.000

0.000

La matriz de probabilidades muestra las probabilidades asociadas con cada coeficiente de correlación, la cual nos permite evaluar la significancia de las correlaciones de los "p values" o valores p. En nuestro caso, el "P-value" es 0.0000. En efecto, nuestro criterio de nivel de significancia es del 1%, el cual no es sobrepasado por el 0.0 o dicho de otra manera, cualquier valor p generado debe tener un valor estadístico menor de 0.01. En resumen, se acepta este coeficiente.

MATRIX OF BONFERRONI PROBABILITIES

Fortuna

Ganado mayor

Ganado menor

Tierra

Fortuna

0.000

Ganado mayor

0.000

0.000

Ganado menor

0.000

0.000

0.000

tierra

0.000

0.000

0.000

0.000

Y la Matriz de Bonferroni muestra las probabilidades ajustadas Bonferroni, la cual nos permite evaluar la significancia de las correlaciones de los "p values" o valores p. En nuestro caso, el "P-value" es 0.0000. En efecto, nuestro criterio de nivel de significancia es del 1%, el cual no es sobrepasado por el 0.0 o dicho de otra manera, cualquier valor p generado debe tener un valor estadístico menor de .01. En resumen, se acepta este coeficiente.

Validación del modelo:

Según de la Fuente[40]el último paso en el Análisis Factorial es estudiar la validez del modelo. El proceso debe realizarse en dos direcciones: a) Analizando la bondad de ajuste y b) la generalidad de los resultados. La bondad de ajuste. Con el fin de determinar el ajuste del modelo, se examinan las diferencias (o residuos) entre las correlaciones observadas (matriz de correlación de entrada) y las correlaciones reproducidas (como se estiman a partir de la matriz factorial). El modelo factorial es aceptable cuando los residuos son pequeños. Si hay un porcentaje elevado de residuos superiores a una cantidad pequeña prefijada (por ejemplo, 0,05), será una indicación de que el modelo factorial estimado no se ajusta a los datos. Agrega, que hay más estabilidad en los resultados si el número de casos por variable es alto. Generalidad de los resultados. Es adecuado verificar los resultados del primer análisis factorial realizando nuevos análisis factoriales sobre nuevas muestras extraídas de la población objeto de estudio y, o sobre submuestras de la muestra original. Así, en nuestro análisis las diferencias entre la correlación de entrada y la matriz factorial rotada son: Tierra 0.873- 0.848.= 0.025 o 2.5% residuo bajo: aceptable Ganado Mayor 0. 600- 0.570= 0.030 o 3.0% residuo bajo: aceptable Ganado Menor 0.565 - 0.696= -0.131 o 1.3% residuo bajo: aceptable Fortuna 0.998 - 0.901= 0.097 o 9.7% residuo bajo: aceptable En resumen, se acepta el modelo validado según los resultados.

Muestra de 642 familias de Perquilauquén (n:456) y Chillán (n:186) Objetivo n°2: Análisis Factorial Tabla n°3 Contribución de factores comunes significativos a la explicación de la varianza de la fortuna

Muestra 642 familias

Factor 1

Factor 2

Patrón Factores Rotados

Tierra 0. 848 Gmayor 0. 570 Fortuna 0. 901

Gmenor 0. 696

Raíz latente

2.491 *

0.276 *

Varianza explicada Factores Rotados

1.922

0.792

Porcentaje Varianza explicada total

48.045%**

19.796%**

Total Varianza explicada 67.841%

NOTAS:

* : Criterio de aceptación mayor o igual a 1.

** : Criterio de aceptación mayor o igual al 50%.

Interpretación A. Patrón de los factores rotados: resultan dos factores. El factor 1 está altamente saturado (altas correlaciones) por las siguientes variables: tierra con 0.848, ganado mayor (gmayor) con 0.570, fortuna con 0.901, todas las cuales se aceptan. El factor 2 se presenta solo con 1 alta saturación: ganado menor: 0.696, por ser muy buena correlación se aceptan. En resumen, el criterio de aceptación de los factores rotados es dejar las correlaciones positivas arriba o igual a 0.5[41] B. Raíces latentes: resultan dos raíces mayores que el criterio aceptado=1.0, o sea, el factor 1 con 2.491 y el factor 2 con 0.276. Aquí, el criterio de aceptación de la raíz latente es según Nunnally y Bernstein[42]el criterio de Kaiser (1960) basado en el valor propio o "eigenvalue" igual o mayor que uno. En resumen, se aceptan la primera raíz y se rechaza la segunda raíz según criterio.

C. La varianza explicada de los factores rotados son dos: factor 1 con 1.922 y el factor 2 con 0.792. Se aceptan ambos. En resumen, el criterio de aceptación es nuevamente la regla de Kaiser, o sea, se acepta igual o mayor que 1: se acepta solo el primer factor.

D. El porcentaje del total de la varianza explicada son dos factores: factor 1 con 48.045, o sea, explica relativamente poco –no se acerca al criterio de aceptación de 50%-, pero no explica su contraparte 51.995%, aunque es el mejor factor y el factor 2 con 19.796 explica muy poco de la varianza y no explica el 80.204%. En resumen, conforme a Morales V.[43], el criterio es aceptar valores que oscilan entre el 50 y 60%. Sin embargo, transitoriamente se acepta el factor 1, pues acerca más al criterio señalado.

E. Total de la varianza explicada: Como el total es un muy buen indicador, pues arroja un 67.841% se aceptan los dos factores. En resumen, se sigue el criterio de Morales V, ya señalado.

En resumen, el análisis factorial acepta y agrupa todas las variables en dos factores. El primer factor se asocia en orden valórico descendente a tierra, ganado mayor. El segundo factor se asocia a ganado menor.

Muestra de 642 familias de Perquilauquén (n:456) y Chillán (n:186) Objetivo n°3: Análisis de Regresión Múltiple Tabla n°4 Contribución de la correlación parcial de los predictores a la explicación de la varianza de la fortuna

Predictores

Contribución Correlación parcial

R

R²

Varianza Explicada %

Varianza no Explicada %

1. tierra

0.959

0.976

0.953

95.3

4.7

2.ganado mayor

1.094

0.662

0.438

43.8

56.2

3.ganado menor

1.369

0.768

0.589

58.9

41.1

Notas:

R : Coeficiente de Correlación Múltiple R² : Coeficiente de determinación múltiple Correlación entre los predictores y la fortuna

Correlación R múltiple

Correlación R² múltiple

Correlación R² ajustado

error estándar de estimación

0.976

0.953

0.952

611.253