Análisis Multivariado. Aplicación al consumo de proteínas en Europa

Introducción

El diplomado en Estadística Aplicada a las
Ciencias Sociales con el propósito de actualizar los
conocimientos del talento humano en la generación,
gestión y análisis de estadísticas sociales,
económicas, administrativas y salud, entre otras, en la
planificación y toma de decisiones en la gestión
pública y privada; donde el uso de herramientas y
técnicas de estadística exige una formación
especializada de funcionarios, profesionales y personas de las
diferentes ramas del saber que tengan que ver con el manejo,
análisis y desarrollo de informes.

Por lo antes expuesto, el objetivo del presente trabajo,
consistió en poner en práctica los conocimientos
adquiridos sobre análisis multivariado bajo la
conducción de la Lic. Anny Guilarte; para lo cual, estudia
el consumo de proteínas en Europa.

Desarrollo

La matriz de datos que a continuación se
presenta, es del tipo individuo por variable y tiene
dimensión 25 x 9, 25 individuos que corresponden a 25
países europeos y 9 variables que representan el
porcentaje de consumo de proteína que cada tipo de
alimento proporciona. Las variables son: Carnes rojas (CR),
carnes blancas (CB), huevos (H), Leche (Leche), pescado (Pesc),
Cereales (Cer), fécula (Fec), nueces (Nue), frutas y
verduras (FV); cuya data fue proporcionada por la Prof. Anny
Guilarte (Anexo 1).

Para el estudio planteado se emplean dos métodos
de análisis multivariados: 1) Análisis de
componentes principales y 2) Análisis de conglomerados,
bajo el programa estadístico InfoStat.

Análisis de Componentes Principales, el
cual comprende tres objetivos:

1) Reducir la dimensionalidad del problema que
se está estudiando.
2) Generar nuevas variables que puedan
expresar la información contenida en el conjunto
original de datos.
3) Descubrir interrelaciones en los
datos.

Análisis de Conglomerados. El
análisis de conglomerados es una herramienta
estadística que se utiliza con la finalidad de clasificar
las observaciones en grupos, de tal forma que cada grupo sea
homogéneo y que estos grupos sean lo más distintos
posibles unos de otros. Tiene como objetivo buscar
relación en los datos para determinar cuáles son
más parecidos entre ellos, para lo cual se empleó
la misma data de los 25 países europesos y 9 variables que
representan el consumo de proteína, para el
análisis de conglomerados jerárquico con distancia
euclídea al cuadrado y el método de
Ward.

Resultados y
discusión

Antes de proceder a realizar el análisis por
componentes principales se debe conocer si existe
correlación entre las variables para poder aplicarlo
Análisis de Correlación.

De acuerdo al Cuadro 1, se puede apreciar que existe
correlación entre las variables, lo que se resalta en
amarillo en dicho Cuadro; por ejemplo, existe una alta
correlación positiva (0,83) entre el consumo de huevos y
el de frutas y verduras; al igual que el del consumo de cereales
y de frutas y verduras. Por lo antes expuesto, se procede a
realizar el análisis de componentes
principales.

Cuadro 1. Correlación de Pearson:
Coeficientesprobabilidades, a las variables: CR, CB, H, Leche,
Pesc, Cer, Fec, Nue y FV

Monografias.com

¿Cuantos componentes deben
retenerse?

En el Cuadro 2 se presentan los autovalores. Para
deducir cuantos componentes principales se deben retener y
así tener un alto porcentaje de variación
explicada, se tiene, que de acuerdo con el Criterio del Promedio
de Kaiser se deben retener aquellos componentes cuyos autovalores
sean mayores que 1.

Decisión

En conclusión, se deciden retener los 3 primeros
componentes ya que según el criterio de Kaiser, sus
autovalores son mayores a 1 y con estos se logra explicar el 75%
de la variabilidad de los datos originales.

Cuadro 2. Autovalores

Monografias.com

Interpretación de componentes

Análisis de cada componente (Cuadro 3),
generando las nuevas variables, denominadas componentes
principales.

El 1er componente principal es un componente de
forma, en el que se oponen las variables: consumo de carnes
rojas, carnes blancas, huevo, leche pescado y fécula al
consumo de cereales, nueces, frutas y verduras. También se
observa que la variable consumo de cereales tiene el más
alto coeficiente de correlación (0,88) con este
componente, lo que indica que dicha variable contribuye bastante
en la variabilidad explicada por este componente; siguiendo el
consumo de huevos, nueces, leche. Las variables consumo de carnes
blancas, carnes rojas y fécula, también contribuyen
en la variabilidad explicada por este componente pero en menor
proporción que las variables antes mencionadas. Por otra
parte, las variables consumo de pescado, frutas y verduras
contribuyen en menor proporción a la variabilidad
explicada, ya que presentan los coeficientes de
correlación más bajos.

Por lo antes expuesto, éste primer componente
representa las variables que reflejan el consumo de
proteína aportado por cereales, frutos secos, huevos y la
ganadería bovina, féculas, por tener los más
altos coeficientes de correlación. Este componente
podría ser un indicador del CONSUMO DE PROTEINA DE ORIGEN
VEGETAL Y ANIMAL.

El 2do componente principal es un componente de
forma, en el que se oponen cinco de las variables (consumo de
carnes rojas, carnes blancas, huevos, leche y cereales) al
consumo de pescado, frutas y verduras, féculas y nueces.
También se observa que la variable consumo de pescado
tiene el coeficiente de correlación más alto (0,83)
con este componente, lo que indica que la mayor parte de la
variabilidad explicada por este componente, es por parte de la
variable consumo de pescado, siguiendo en orden de importancia el
consumo de frutas y verduras. Las variables que en el 1er
componente tenían una alta correlación con este,
pierden fuerza en el 2do componente principal. Por otro lado, las
variables consumo de carnes rojas y huevo, por tener un
coeficiente de correlación cercano a cero, no son
representativas para este 2do componente. Por lo antes expuesto,
éste 2do componente, podría ser un indicador del
CONSUMO DE PESCADO Y FRUTAS – VERDURAS.

El 3er componente principal también es un
componente de forma, en el que se oponen 4 de las variables
(consumo de carnes rojas, leche, pescado, nueces) al resto de las
variables. Aquí, la variable que más contribuye en
la variabilidad explicada por este componente es el consumo de
carnes blanca. Las variables representativas en los componentes
anteriores pierden fuerza en este. Cabe destacar que la variable
consumo de nueces que contribuía significativamente en la
variabilidad explicada por el 1er componente, que en este
componente pierden mucha fuerza resultando ser las menos
significativas o las que menos contribuye en la variación
explicada por el 3er componente. Este componente podría
ser un indicador del CONSUMO DE CARNES BLANCAS.

Cuadro 3. Correlaciones con las
variables originales

Monografias.com

Interpretación
geométrica

En la Figura 1, se presenta el biplot para el 1er y el
2do componente principal.

Monografias.com

Figura 1. Análisis de componentes
principales CP1 y CP2

En la Figura anterior, en el cuadrante # 3, las
variables que representan el consumo de CB, CR, huevo y leche
aparecen muy cerca una de la otra, lo que indica que entre ellas
existe una fuerte asociación lineal directa. En el resto
de las variables no se observa una relación lineal
significativa. Mientras que en cuadrante 2, se observa
asociación entre el consumo de pescado y fécula. La
variable consumo de cereales no está cerca de las
demás variables por lo tanto no tiene relación
lineal significativa con el resto de las variables.

A continuación se presenta el biplot para el 1er
y el 3er componente principal (Figura 2).

Monografias.com

Figura 2. Análisis de componentes
principales CP1 y CP3

Al igual que en la Figura anterior, se observa una
asociación lineal directa en las variables referidas al
consumo de CB, Fécula, huevo (cuadrante # 2) y CR, Leche y
Pescado, concentradas en cuadrante # 3; mientras que la variable
consumo de fécula, se encuentra sola en el cuadrante # 4.
En las variables consumo de cereales y frutas-verduras (cuadrante
# 2) no se observa una relación lineal
significativa.

A continuación se presenta el biplot para el 2do
y el 3er componente principal (Figura 3).

Monografias.com

Figura 3. Análisis de componentes
principales CP2 y CP3

Leyenda referente a los países de
Europa, que se muestran en las Figuras 1, 2 y 3.

1	Albania
2	Austria
3	Belgica
4	Bulgaria
5	Checoslovakia
6	Dinamarca
7	Alemania E
8	finlandia
9	Francia
10	Grecia
11	Hungria
12	Irlanda
13	Italia
14	Paises Bajos
15	Noruega
16	Polonia
17	Portugal
18	Rumania
19	Espana
20	Suecia
21	Suiza
22	Reino Unido
23	Rusia
24	Alemania O
25	Yugoslavia

En la Figura 3, se observa una asociación lineal
directa significativa en las variables referidas al consumo de
huevo, carnes blancas y cereales, concentradas en cuadrante #
2.

Finalmente, de acuerdo a las interpretaciones
anteriores, cabe destacar que en el lado derecho de los
gráficos se encuentran las variables referidas al consumo
de carnes blancas, carnes rojas, huevo, Leche, Pescado y
Fécula; lo que indica una asociación lineal entre
ellas.

Análisis
de conglomerados

Medida de similaridad

Uno de los primeros pasos a seguir en la
ejecución de un análisis de conglomerados, es
establecer un indicador que presente en qué medida cada
par de observaciones se parecen entre sí. Para esto, a
continuación se tiene la matriz de distancias, aplicando
como medida de similaridad la distancia Euclídea al
cuadrado:

Método Ward

Distancia: (Euclidea^2)

Correlación cofenética=
0,439

Variables no
estandarizadas

Casos leidos 25

Casos omitidos 0

Variables

Leche

Pesc

Cer

Fec

Nue

Criterios de
clasificación:

País

"Ward o método de mínima varianza (Ward,
1963): Es similar al método del centroide, pero cuando une
conglomerados realiza una ponderación (por el
tamaño de cada grupo) de todos los conglomerados
participantes, así en cada unión la pérdida
de información es minimizada. Define la distancia entre
dos grupos como la suma de las sumas de cuadrados del ANAVA entre
los dos grupos sobre todas las variables. El método es
recomendado para datos con distribución normal y matrices
de covarianzas esféricas, homogéneas entre grupos.
Tiende a producir grupos con igual número de observaciones
y puede ser muy afectado por valores extremos. Los procedimientos
jerárquicos descriptos anteriormente no realizan ninguna
acción diferencial con observaciones aberrantes. Si una
observación rara fue clasificada en etapas tempranas del
procedimiento en algún grupo, esta permanecerá
ahí en la configuración final. Por ello, es
importante revisar cuidadosamente las configuraciones finales. La
práctica de aplicar más de un procedimiento y
más de una medida de distancia, usualmente ayuda a
diferenciar entre agrupamientos naturales y artificiales. Algunos
experimentadores, usan la técnica de la
perturbación (introducción de errores en los datos
y reagrupamiento bajo la nueva situación) para probar la
estabilidad de la clasificación jerárquica. La
técnica de muestreo reiterado conocida como bootstrap es
también recomendada para probar estabilidad de los nodos
logrados en un agrupamiento particular" (Di Rienzo et
al., 2014).

Monografias.com

Figura 4. Dendograma

Al observar en la Figura 4, se distinguen 3 grupos
homogéneos o conglomerados, es decir, que cada uno de
los Estados que pertenecen a un determinado grupo, son muy
parecidos entre ellos en cuanto a que, tienen casi el mismo
consumo promedio de carnes rojas (CR), carnes blancas (CB),
huevos (H), Leche (Leche), pescado (Pesc), Cereales (Cer),
fécula (Fec), nueces (Nue), frutas y verduras
(FV).

Estos grupos están conformados por:

1er grupo: Estados: Finlandia, Noruega, Suecia,
Dinamarca, Reino Unido, Francia, Bélgica, Suiza,
Irlanda, Austria, Países bajos, Alemania O.
2do grupo: Rumania, Yugoslavia y
Bulgaria.
3er grupo: Portugal, España, Alemania E.,
Hungria, Polonia, Chescolovakia, Rusia, Italia, Grecia y
Albania.

Conclusiones

Se determinó que existe asociación entre
cada una de las variables (correlación): consumo de carnes
rojas (CR), carnes blancas (CB), huevos (H), Leche (Leche),
pescado (Pesc), Cereales (Cer), fécula (Fec), nueces
(Nue), frutas y verduras (FV); lo que permitió realizar el
análisis de componentes principales.

Se logró reducir la dimensionalidad del problema
planteado, al retener los 3 primeros componentes, permitiendo
explicar el 75% de la variabilidad de los datos originales y
finalmente determinadas interrelaciones entre los
datos.

Se decidió retener tres (3) conglomerados, donde
cada uno de los Estados que pertenecen a un determinado grupo,
son muy parecidos entre ellos en cuanto a que, tienen casi el
mismo consumo promedio de carnes rojas, carnes blancas, huevos,
leche, pescado, cereales, fécula, nueces, frutas y
verduras.

Bibliografía citada

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez
L., Tablada M., Robledo C.W. InfoStat versión 2014. Grupo
InfoStat, FCA, Universidad Nacional de Córdoba, Argentina.
URL http://www.infostat.com.ar

Guilarte, A. (2014). Estadística
Multivariada.pdf. 26 p.

Guilarte, A. (2012). Análisis de Componentes
Principales y Análisis de Conglomerados. Universidad de
Los Andes, Facultad de Ciencias Económicas y Sociales.
Escuela de Estadística.pdf. 17 p.

Anexo

Anexo 1. Data consumo de
Proteína en 25 países de Europa

País	CR	CB	H	Leche	Pesc	Cer	Fec	Nue	FV
Albania	10,1	1,4	0,5	8,9	0,2	42,3	0,6	5,5	1,7
Austria	8,9	14	4,3	19,9	2,1	28	3,6	1,3	4,3
Bélgica	13,5	9,3	4,1	17,5	4,5	26,6	5,7	2,1	4
Bulgaria	7,8	6	1,6	8,3	1,2	56,7	1,1	3,7	4,2
Checoslovaquia	9,7	11,4	2,8	12,5	2	34,3	5	1,1	4
Dinamarca	10,6	10,8	3,7	25	9,9	21,9	4,8	0,7	2,4
Alemania E	8,4	11,6	3,7	11,1	5,4	24,6	6,5	0,8	3,6
Finlandia	9,5	4,9	2,7	33,7	5,8	26,3	5,1	1	1,4
Francia	18	9,9	3,3	19,5	5,7	28,1	4,8	2,4	6,5
Grecia	10,2	3	2,8	17,6	5,9	41,7	2,2	7,8	6,5
Hungría	5,3	12,4	2,9	9,7	0,3	40,1	4	5,4	4,2
Irlanda	13,9	10	4,7	25,8	2,2	24	6,2	1,6	2,9
Italia	9	5,1	2,9	13,7	3,4	36,8	2,1	4,3	6,7
Países Bajos	9,5	13,6	3,6	23,4	2,5	22,4	4,2	1,8	3,7
Noruega	9,4	4,7	2,7	23,3	9,7	23	4,6	1,6	2,7
Polonia	6,9	10,2	2,7	19,3	3	36,1	5,9	2	6,6
Portugal	6,2	3,7	1,1	4,9	14,2	27	5,9	4,7	7,9
Rumania	6,2	6,3	1,5	11,1	1	49,6	3,1	5,3	2,8
España	7,1	3,4	3,1	8,6	7	29,2	5,7	5,9	7,2
Suecia	9,9	7,8	3,5	24,7	7,5	19,5	3,7	1,4	2
Suiza	13,1	10,1	3,1	23,8	2,3	25,6	2,8	2,4	4,9
Reino Unido	17,4	5,7	4,7	20,6	4,3	24,3	4,7	3,4	3,3
Rusia	9,3	4,6	2,1	16,6	3	43,6	6,4	3,4	2,9
Alemania O	11,4	12,5	4,1	18,8	3,4	18,6	5,2	1,5	3,8
Yugoslavia	4,4	5	1,2	9,5	0,6	55,9	3	5,7	3,2

Autor:

Carmela Culicetto

Ana Prato

Gelis Trinidad Torrealba
Núñez

Facilitador: Lic. Anny Guilarte

Universidad Central de Venezuela

Facultad de Agronomía

Coordinación de
Extensión

Diplomado en Estadística Aplicada a
las Ciencias Sociales

Maracay, noviembre 2014

Análisis Multivariado. Aplicación al consumo de proteínas en Europa

Introducción

Desarrollo

Resultados y discusión

Análisis de conglomerados

Conclusiones

Bibliografía citada

Anexo

Resultados y
discusión

Análisis
de conglomerados