Observatório da Universidade

Por que um livro sobre análise de dados composicionais? Dados composicionais (ou CoDa, no acrônimo em inglês) consistem de vetores cujas componentes são proporções ou porcentagens de algum total. Sua peculiaridade é que sua soma está restrita a uma constante: 1 para proporções, 100 para porcentagens ou, possivelmente, outra constante c, como em partes por milhão (ppm) em composições de traços de elementos. Mas uma olhada superficial para estes dados dá a impressão de serem vetores com números reais. Por esta razão, lamentavelmente nas últimas décadas todos os métodos estatísticos concebidos para dados sem restrições foram empregados em dados composicionais. Isso ocorre apesar dos profissionais estarem conscientes (ao menos deveriam estar) de que o espaço amostral para vetores composicionais é radicalmente diferente do espaço euclidiano real associado a dados sem restrições. Várias advertências foram feitas, algumas há mais de um século, como a de Karl Pearson em 1897, citado em Pawlowsky-Glahn et al. [2015], sobre correlações espúrias em dados composicionais. Ou o alerta do geólogo Felix Chayes, em 1960, citado em Pawlowsky-Glahn et al. [2015]. Em um primeiro momento, as tentativas para superar os problemas se limitaram a identificar o que estava dando errado quando se aplicavam diretamente as técnicas de análise multivariada a dados composicionais. Mas foi somente a partir dos trabalhos de John Aitchison [2003] que uma nova teoria matemática foi desenvolvida para tratar adequadamente dos problemas relacionados a dados composicionais. Os marcos do desenvolvimento dessa teoria foram erigidos por alguns pesquisadores, dentre eles, Aitchison [2003], Pawlowsky-Glahn e Egozcue [2015], responsáveis por importantes contribuições teóricas ao seu desenvolvimento. A implementação computacional da teoria resultou no pacote Compositions desenvolvido por Boogaart & Tolosana-Delgado [2006]. Exemplos típicos em diferentes campos são:

geologia (dados geoquímicos);
economia (distribuição de renda/consumo);
medicina (composição do corpo: gordura, ossos, músculos);
indústria alimentícia (composição de alimentos);
ecologia (abundância de espécies);
ciências ambientais (contaminação do solo).

Este livro aborda nas três primeiras unidades a fundamentação teórica básica, definições e propriedades. Nas quatro unidades seguintes, são apresentadas aplicações típicas da estatística composicional: modelos de regressão, análise de componentes principais, análise de agrupamento e geoestatística. Um dataset real e aberto do US Geological Survey e um pacote aberto Compositions no ambiente R são utilizados para ilustrar os conceitos apresentados. É desejável que o leitor tenha conhecimentos de álgebra linear, estatística multivariada, geoestatística e a linguagem R. Para geoestatística, recomendamos o livro de Braga [2014].

OBSERVATÓRIO DA UNIVERSIDADE

Cursos e Livros

https://obsuni.plataformaensineonline.com/

Retrospectiva 2022

Retrospectiva 2021

Retrospectiva 2020

Retrospectiva 2019

Retrospectiva 2018

Retrospectiva 2017

Retrospectiva 2016

Retrospectiva 2015