Análisis de componentes principales

ACP de una distribución normal multivariante centrada en (1,3) con desviación estándar 3 en la dirección aproximada (0,866, 0,5) y desviación estándar 1 en la dirección perpendicular a la anterior. Los vectores muestran los autovectores de la matriz de correlación escalados mediante la raíz cuadrada del correspondiente autovalor, y desplazados para que su origen coincidan con la media estadística.

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para describir un conjunto de datos en términos de nuevas variables («componentes») no correlacionadas. Los componentes se ordenan por la cantidad de varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad de un conjunto de datos.

Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal llamadas componentes principales.

El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

Debe diferenciarse del análisis factorial con el que tiene similitudes formales y en el cual puede ser utilizado como un método de aproximación para la extracción de factores.

En el análisis de datos, el primer componente principal de un conjunto de $p$ variables, que se supone están distribuidas normalmente de forma conjunta, es la variable derivada formada como combinación lineal de las variables originales que explica la mayor parte de la varianza. El segundo componente principal explica la mayor varianza de lo que queda una vez eliminado el efecto del primer componente, y podemos proceder a través de $p$ iteraciones hasta que se explique toda la varianza. PCA se utiliza más comúnmente cuando muchas de las variables están altamente correlacionadas entre sí y es deseable reducir su número a un conjunto independiente.

PCA se utiliza en análisis exploratorio de datos y para hacer modelos predictivos. Se utiliza comúnmente para reducción de dimensionalidad proyectando cada punto de datos en sólo los primeros componentes principales para obtener datos de menor dimensión preservando tanta variación de los datos como sea posible. El primer componente principal puede definirse equivalentemente como una dirección que maximiza la varianza de los datos proyectados. La $i$ -ésima componente principal puede tomarse como una dirección ortogonal a las primeras $i-1$ componentes principales que maximiza la varianza de los datos proyectados.

Para cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos. Por lo tanto, los componentes principales se calculan a menudo por eigendecomposition de la matriz de covarianza de datos o descomposición en valores singulares de la matriz de datos. El ACP es el más sencillo de los análisis multivariantes basados en vectores propios y está estrechamente relacionado con el análisis factorial. El análisis factorial suele incorporar supuestos más específicos del dominio sobre la estructura subyacente y resuelve eigenvectores de una matriz ligeramente diferente. PCA también está relacionado con análisis de correlación canónica (CCA). El CCA define sistemas de coordenadas que describen de forma óptima la covarianza cruzada entre dos conjuntos de datos, mientras que el PCA define un nuevo sistema de coordenadas ortogonales que describe de forma óptima la varianza en un único conjunto de datos.^[1]^[2]^[3]^[4] También se han propuesto variantes del ACP estándar basadas en Robust y norma L1^[5]^[6]^[7]^[4]

Historia

El PCA fue inventado en 1901 por Karl Pearson,^[8] como un análogo del teorema del eje principal en mecánica; más tarde fue desarrollado independientemente y nombrado por Harold Hotelling en la década de 1930.^[9] Dependiendo del campo de aplicación, también se denomina transformada discreta Karhunen-Loève (KLT) en procesamiento de señales, la Hotelling en control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición en valores singulares (SVD) de X (inventada en el último cuarto del siglo XX^[10]), descomposición en valores propios de una matriz (EVD) de X^TX en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y factor analysis (ver Ch. 7 de Principal Component Analysis de Jolliffe),^[11] Teorema de Eckart-Young (Harman, 1960), o funciones ortogonales empíricas (EOF) en meteorología (Lorenz, 1956), descomposición empírica de la función propia (Sirovich, 1987), modos cuasiarmónicos (Brooks et al., 1988), descomposición espectral en ruido y vibraciones, y análisis modal empírico en dinámica estructural.

Fundamento

El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente. Para construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales.

El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo orden a veces contienen el aspecto "más importante" de la información, y los demás componentes se pueden ignorar. Existen diferentes técnicas para estimar el número de componentes principales que son relevantes; la técnica más apropiada dependerá de la estructura de correlaciones en los datos originales.^[12]

Matemáticas del ACP

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias) $F_{j}.\;$ El ACP permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente principal, de ahí el nombre del método.

Existen dos formas básicas de aplicar el ACP:

Método basado en la matriz de correlación, cuando los datos no son dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias medidas no es el mismo.
Método basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogéneos y presentan valores medios similares.

Método basado en correlaciones

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias $F_{j}\,$ . Para cada uno de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz:

(F_{j}^{\beta })_{j=1,\ldots ,m}^{\beta =1,\ldots ,n}

.

Obsérvese que cada conjunto

{\mathcal {M}}_{j}=\{F_{j}^{\beta }|\beta =1,\ldots ,n\}

puede considerarse una muestra aleatoria para la variable $F_{j}\,$ . A partir de los $m\times n$ datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:

$\mathbf {R} =[r_{ij}]\in M_{m\times m}\,,\qquad$ donde $\ \qquad r_{ij}={\frac {{\mbox{cov}}(F_{i},F_{j})}{\sqrt {{\mbox{var}}(F_{i}){\mbox{var}}(F_{j})}}}\ .$

Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios $\lambda _{i}\,$ verifican:

$\sum _{i=1}^{m}\lambda _{i}=m$

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz $\mathbf {R}$ . Está claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.

Método basado en las covarianzas

El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor pérdida de información útil posible utilizando para ello la matriz de covarianza.

Se parte de un conjunto n' de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que, cada una de esas muestras, se describa con solo I variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la menor de las dimensiones de X.

$l\leq \min\{n,m\}$

Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por su desviación estándar).

$\mathbf {X} =\sum _{a=1}^{l}\mathbf {t} _{a}\mathbf {p} _{a}^{T}+\mathbf {E}$

Los vectores $\scriptstyle \mathbf {t} _{a}$ son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras además, tienen la propiedad de ser ortogonales. Los vectores $\scriptstyle \mathbf {p} _{a}$ se llaman loadings e informan de la relación existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz $\scriptstyle \mathbf {E}$ .

El PCA se basa en la descomposición en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente ecuación:

${\mbox{cov}}(X)={\frac {X^{T}X}{n-1}}$
${\mbox{cov}}(X)\ {\mathbf {p} _{a}}={\lambda _{a}}\ {\mathbf {p} _{a}}$
$\sum _{a=1}^{m}\lambda _{a}=1$

Donde $\scriptstyle \lambda _{a}$ es el valor propio asociado al vector propio $\scriptstyle \mathbf {p} _{a}$ . Por último,

$\mathbf {t} _{a}=X\ \mathbf {p} _{a}$

Esta ecuación la podemos entender como que $\scriptstyle \mathbf {t} _{a}$ son las proyecciones de X en $\scriptstyle \mathbf {p} _{a}$ , donde los valores propios $\scriptstyle \lambda _{a}$ miden la cantidad de varianza capturada, es decir, la información que representan cada uno de los componentes principales. La cantidad de información que captura cada componente principal va disminuyendo según su número es decir, el componente principal número uno representa más información que el dos y así sucesivamente.

Limitaciones

La aplicación del ACP está limitada por varios supuestos^[13]

Suposición de linealidad: Se asume que los datos observados son combinación lineal de una cierta base.

Ejemplos

Un conjunto de datos puede describir la altura y el peso de 100 niños entre 2 y 15 años. Ambas variables están, obviamente, correlacionadas (los niños de más edad son más altos y pesan más). El análisis de componentes principales describe los datos en términos de dos nuevas variables. El primer componente se puede interpretar como "tamaño" o "edad" y recoge la mayor parte de la varianza de los datos originales. El segundo componente describe variabilidad en los datos que no está correlacionada en absoluto con el primer componente principal "tamaño", y (probablemente) sea difícil de interpretar. Si el objetivo es reducir la dimensionalidad de los datos, se puede descartar este segundo componente principal. Lo mismo aplica si el conjunto de datos contiene un número mayor de variables que se pueden interpretar como medidas aproximadas de "tamaño". Por ejemplo, longitud del fémur, longitud de los brazos, peso, altura, etc. Un conjunto de datos de este tipo podría describirse generalmente con un único componente principal que se podría interpretar como "tamaño" o "edad".
Un análisis consideró las calificaciones escolares de n = 15 estudiantes en m = 8 materias (lengua, matemáticas, física, inglés, filosofía, historia, química, gimnasia). Los dos primeros componentes principales explicaban juntos el 82,1% de la varianza. El primero de ellos parecía fuertemente correlacionado con las materias de humanidades (lengua, inglés, filosofía, historia) mientras que el segundo aparecía relacionado con las materias de ciencias (matemáticas, física, química). Así parece que existe un conjunto de habilidades cognitivas relacionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades son estadísticamente independientes por lo que un alumno puede puntuar alto en solo uno de ellos, en los dos o en ninguno.^[14]
Una análisis de 11 indicadores socieconómicos de 96 países, reveló que los resultados podían explicarse en alto grado a partir de solo dos componentes principales, el primero de ellos tenía que ver con el nivel de PIB total del país y el segundo con el índice de ruralidad.

Aplicación en filogenética

Se puede realizar el análisis de componentes principales (PCA) con perfiles de expresión génica. En un artículo publicado en 2019 en la revista Nature communications ^[15] se utiliza esta técnica con los perfiles de expresión de 19 muestras de diferentes cepas del complejo proteico de Mycobacterium tuberculosis, como resultado se obtiene que muestras pertenecientes al mismo linaje filogenético están agrupados estrechamente en el PCA.

Referencias

↑ Barnett, T. P.; R. Preisendorfer. (1987). «Orígenes y niveles de habilidad de previsión mensual y estacional para las temperaturas del aire en superficie de los Estados Unidos determinados por el análisis de correlación canónica». Monthly Weather Review 115 (9): 1825. Bibcode:1987MWRv..115.1825B.
↑ Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). Un algoritmo espectral para el aprendizaje de modelos de markov ocultos. Bibcode:2008arXiv0811.4413H.
↑ Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 de agosto de 2017). «Análisis eficiente de componentes principales L1-norma mediante inversión de bits». IEEE Transactions on Signal Processing 65 (16): 4252-4264. Bibcode:2017ITSP...65.4252M. S2CID 7931130. arXiv:1610.01959.
↑ ^a ^b Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 de noviembre de 2019). «Descomposición tensorial de L1-norm Tucker». IEEE Access 7: 178454-178465. arXiv:1904.06455.
↑ Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (Octubre 2014). «Optimal Algorithms for L1-subspace Signal Processing». IEEE Transactions on Signal Processing 62 (19): 5046-5058. Bibcode:2014ITSP...62.5046M. S2CID 1494171. arXiv:1405.6785.
↑ Zhan, J.; Vaswani, N. (2015). «ACP robusto con conocimiento parcial del subespacio». IEEE Transactions on Signal Processing 63 (13): 3332-3347. Bibcode:2015ITSP...63.3332Z. S2CID 1516440. arXiv:1403.1591.
↑ Kanade, T.; Ke, Qifa (June 2005). «Factorización robusta de normas L1 en presencia de valores atípicos y datos perdidos mediante programación convexa alternativa». 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) 1 (IEEE). p. 739. ISBN 978-0-7695-2372-9. S2CID 17144854.
↑ Pearson, K. (1901). «Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio». Philosophical Magazine 2 (11): 559-572.
↑ Hotelling, H. (1933). Análisis de un complejo de variables estadísticas en componentes principales. Journal of Educational Psychology', 24', 417-441, y 498-520.
Hotelling, H (1936). «Relaciones entre dos conjuntos de variantes». Biometrika 28 (3/4): 321-377. JSTOR 2333955.
↑ Stewart, G. W. (1993). «Sobre la historia temprana de la descomposición del valor singular». SIAM Review 35 (4): 551-566.
↑ Jolliffe, I. T. (2002). Análisis de componentes principales. Springer Series in Statistics (en inglés). Nueva York: Springer-Verlag. ISBN 978-0-387-95442-4.
↑ Peres-Neto, Pedro R.; Jackson, Donald A.; Somers, Keith M. «How many principal components? stopping rules for determining the number of non-trivial axes revisited». Computational Statistics & Data Analysis 49 (4): 974-997. doi:10.1016/j.csda.2004.06.015. Consultado el 22 de abril de 2018.
↑ Jonathon Shlens.A Tutorial on Principal Component Analysis.
↑ Ejemplos de PCA (www.uoc.edu) Archivado el 29 de diciembre de 2009 en Wayback Machine.
↑ Chiner-Oms, Álvaro; Berney, Michael; Boinett, Christine; González-Candelas, Fernando; Young, Douglas B.; Gagneux, Sebastien; Jacobs, William R.; Parkhill, Julian et al. (2019-12). «Genome-wide mutational biases fuel transcriptional diversity in the Mycobacterium tuberculosis complex». Nature Communications (en inglés) 10 (1): 3994. ISSN 2041-1723. PMC 6728331. PMID 31488832. doi:10.1038/s41467-019-11948-6. Consultado el 28 de enero de 2020.

Enlaces externos

Matemáticas del ACP y ejemplos (Universidad Carlos III de Madrid)

Datos: Q2873
Multimedia: Principal component analysis / Q2873

[1] Barnett, T. P.; R. Preisendorfer. (1987). «Orígenes y niveles de habilidad de previsión mensual y estacional para las temperaturas del aire en superficie de los Estados Unidos determinados por el análisis de correlación canónica». Monthly Weather Review 115 (9): 1825. Bibcode:1987MWRv..115.1825B.

[2] Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). Un algoritmo espectral para el aprendizaje de modelos de markov ocultos. Bibcode:2008arXiv0811.4413H.

[mark2017-3] Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 de agosto de 2017). «Análisis eficiente de componentes principales L1-norma mediante inversión de bits». IEEE Transactions on Signal Processing 65 (16): 4252-4264. Bibcode:2017ITSP...65.4252M. S2CID 7931130. arXiv:1610.01959.

[l1tucker-4] Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 de noviembre de 2019). «Descomposición tensorial de L1-norm Tucker». IEEE Access 7: 178454-178465. arXiv:1904.06455.

[mark2014-5] Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (Octubre 2014). «Optimal Algorithms for L1-subspace Signal Processing». IEEE Transactions on Signal Processing 62 (19): 5046-5058. Bibcode:2014ITSP...62.5046M. S2CID 1494171. arXiv:1405.6785.

[6] Zhan, J.; Vaswani, N. (2015). «ACP robusto con conocimiento parcial del subespacio». IEEE Transactions on Signal Processing 63 (13): 3332-3347. Bibcode:2015ITSP...63.3332Z. S2CID 1516440. arXiv:1403.1591.

[7] Kanade, T.; Ke, Qifa (June 2005). «Factorización robusta de normas L1 en presencia de valores atípicos y datos perdidos mediante programación convexa alternativa». 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) 1 (IEEE). p. 739. ISBN 978-0-7695-2372-9. S2CID 17144854.

[8] Pearson, K. (1901). «Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio». Philosophical Magazine 2 (11): 559-572.

[9] Hotelling, H. (1933). Análisis de un complejo de variables estadísticas en componentes principales. Journal of Educational Psychology', 24', 417-441, y 498-520.
Hotelling, H (1936). «Relaciones entre dos conjuntos de variantes». Biometrika 28 (3/4): 321-377. JSTOR 2333955.

[10] Stewart, G. W. (1993). «Sobre la historia temprana de la descomposición del valor singular». SIAM Review 35 (4): 551-566.

[Jolliffe2002-11] Jolliffe, I. T. (2002). Análisis de componentes principales. Springer Series in Statistics (en inglés). Nueva York: Springer-Verlag. ISBN 978-0-387-95442-4.

[12] Peres-Neto, Pedro R.; Jackson, Donald A.; Somers, Keith M. «How many principal components? stopping rules for determining the number of non-trivial axes revisited». Computational Statistics & Data Analysis 49 (4): 974-997. doi:10.1016/j.csda.2004.06.015. Consultado el 22 de abril de 2018.

[13] Jonathon Shlens.A Tutorial on Principal Component Analysis.

[14] Ejemplos de PCA (www.uoc.edu) Archivado el 29 de diciembre de 2009 en Wayback Machine.

[15] Chiner-Oms, Álvaro; Berney, Michael; Boinett, Christine; González-Candelas, Fernando; Young, Douglas B.; Gagneux, Sebastien; Jacobs, William R.; Parkhill, Julian et al. (2019-12). «Genome-wide mutational biases fuel transcriptional diversity in the Mycobacterium tuberculosis complex». Nature Communications (en inglés) 10 (1): 3994. ISSN 2041-1723. PMC 6728331. PMID 31488832. doi:10.1038/s41467-019-11948-6. Consultado el 28 de enero de 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]