2

Gerei meus dados. E agora?

Um bom gráfico, uma bela figura e uma tabela bem organizada sempre me chamaram a atenção. Não sei dizer quando ou o motivo. Talvez seja uma daquelas coisas irresistíveis a um certo temperamento, tipo preferir gatos aos cachorros. O fato é: nada me anima mais quando eu faço ciência do que a organização, interpretação e visualização dos meus dados, principalmente quando envolve um desafio novo (na terceira vez provavelmente eu já estou me arrastando). Como a melhor forma de se aprender e fixar um conhecimento é ensinando, resolvi unir o útil ao agradável: vou unir num local tudo que eu aprendi ou estou aprendendo (e acho relevante) enquanto ensino da forma mais didática que eu consigo. Sobre esses assuntos, claro.

Outra coisa que eu certamente gosto é de uma boa definição. Um dado nada mais é do que o registro da observação de um fenômeno (que por si, é um fato observável). Um cientista, em fundamento e excluindo os abstratos, é um observador de fenômenos, sejam eles naturais ou manipulados por experimentos. Se o trabalho principal de um cientista é anotar fenômenos, apresentar o coração do seu trabalho de qualquer jeito é equivalente a um padeiro rechear um pão de sonho mofado com o melhor creme do mundo. Deixando a péssima analogia de lado, a apresentação do trabalho é tão importante quanto o conteúdo em si. De pouco vale um belo experimento se a forma como ele é comunicado é ineficiente. Separei este meu primeiro post para expôr uma das primeiras lições (e acredito que uma das mais importantes) que tive dentro da comunicação de dados: as principais formas de se apresentar suas observações e quando cada uma é recomendada. Lembrando que muito do que consta aqui é meramente fruto de experiência ou opinião pessoal.

Não pretendo fazer uma listagem excessiva de todos os tipos de gráficos disponíveis (até porque a lista faz curvas em esquinas, e não para de crescer), pois acredito que algumas poucas já servem para a maioria dos casos, outras são adaptações das tradicionais e algumas nem deveriam ser utilizadas (principalmente aquelas com nome de comida). Sem mais delongas (rufam os tambores), eles são:

1. Simplesmente escreva no texto.

Imaginem o esforço dos nossos antepassados de terem que planejar, esboçar e manualmente traçar uma série de eixos, pontos e linhas com precisão para representar os dados de seus experimentos. Embora me dê preguiça só de pensar, certamente isso é um contraste do valor atribuído a criação, já que no século XXI, alguns cliques separam meus números tabulados de um gráfico. Com grandes poderes vêm grandes responsabilidades. Nada grita mais alto ‘desperdício de espaço’ do que um gráfico como este:

Figura 1. Porcentagem de pacientes curados pela droga controle e pela droga x (n=100).

Robert A. Day, no livro How to Write & Publish a Scientific Paper (1998) disse algo que talvez sintetize o que quero dizer: “Isso vale repetir pois muitos autores, especialmente aqueles que ainda são iniciantes, pensam que uma tabela, gráfico ou esquema, de alguma forma, acrescenta importância aos dados. Assim, na busca por credibilidade, há uma tendência de converter alguns poucos elementos em um gráfico ou tabela com aparência impressionante. Meu conselho é não fazê-lo.” Além de não acrescentar relevância, existe uma grande possibilidade da mensagem se perder na imensidão de pixels. Veja agora a mesma informação do gráfico colocada como um texto simples:
“20% dos pacientes foram curados quando submetidos a droga controle e 50% quando aplicada a droga x (n = 100 para cada grupo).”

Bem mais rápido e eficaz, não é? Um tempo atrás eu me deparei com uma forma bem elegante de mostrar esse tipo de resultado em apresentações em um livro chamado Storytelling com Dados (2019), da Cole Nussbaumer Knaflic, (que também possui um blog):

http://localhost/wordpress/wp-content/uploads/2020/05/image-2.png

A ideia aqui é passar de forma visual a mesma mensagem do texto escrito (com certo destaque visual), para um apresentação. Um exemplo com contexto e interpretação pode ser observado aqui.

2. Tabelas.

Eu adoro tabelas. Tabelas devem ser utilizadas quando a precisão numérica ou categórica dos dados deve ser transmitida com precisão. Parece difícil, mas até que não é. Enquanto gráficos mostram uma tendência ou visão geral dos seus dados, em uma tabela, o leitor consegue inspecionar todos os elementos. Em uma tabela, os elementos gráficos recebem importância secundária, logo, o uso de bordas claras e ausência de “enfeites” é altamente recomendado. Para nossa sorte, existe um modelo que costuma ser requisitado para a maior parte das revistas científicas:

Algumas coisas devem ser evitadas em tabelas, como o uso excessivo de casas após a vírgula. Eu costumo (com base em alguma literatura que já me esqueci qual é) utilizar até duas casas após a vírgula. Mais do que isso torna-se cansativo e não necessariamente acrescenta maior precisão. Caso os números sejam muito pequenos (ou maiores), que tal transformá-los em notação científica? Evite também dados desnecessariamente repetidos. Sempre que possível, enxugue o número de colunas e linhas. E sempre priorize adicionar linhas ao invés de colunas, já que é mais fácil para o leitor analisar seus dados verticalmente que horizontalmente (não me pergunte o motivo). Para apresentações, um mapa de calor costuma ser uma boa forma de tirar as tendências de uma tabela de uma forma rápida e intuitiva:

Mais exemplos e discussões podem ser observados aqui  e aqui.

3. Gráficos de barras.

São simples, combinam com diversos tipos diferentes de dados e talvez sejam os mais utilizados. É o ‘pretinho básico’ da visualização. Por serem tão comuns, as diferenças entre as categorias são rapidamente extraídas e entendidas. Esses costumam ser verticais ou horizontais (o qual eu recomendo quando o nome das categorias forem longos), únicos ou agrupados:

Como boas práticas, eu certamente recomendaria sempre começar o seu eixo Y (ou X caso use barras horizontais) no valor 0, já que pequenas diferenças podem se tornar enormes quando isso não é feito (pretendo abordar essa e outras práticas que ‘enganam’ em outro post). Procure sempre manter agrupadas de forma próxima e lógica suas categorias (no gráfico da direita acima, a proximidade dos anos permite a comparação rápida e intuitiva do desenvolvimento de cada país). E claro, sempre que seus valores forem médias, inclua uma barra de erros (especificando na legenda qual métrica de dispersão você utilizou). 

4. Gráficos de barras empilhadas.

Esse talvez seja o tipo mais controverso da minha lista. Basicamente, são gráficos de barras convencionais, onde você empilha diversos valores. Isto permite a comparação de subcategorias de um todo. O problema vem com o excesso de subcategorias e cores, onde embora os extremos sejam fáceis de comparar, os valores intermediários se perdem na aritmética mental. Vamos ver quantos e quais refrigerantes eu tomei nos últimos anos:

http://localhost/wordpress/wp-content/uploads/2020/05/REFRIGERANTE.png

Embora a comparação seja fácil para os valores de 2015, sem a linha de base, os valores para 2016, 2017 e 2018 se complicam. Imagine um gráfico com 30 categorias! No entanto, esse tipo de abordagem pode ser eficiente caso você tenha múltiplas categorias, ao invés de criar séries em gráficos de barra e tornar as comparações ainda mais complicadas. No geral, eu recomendo esse tipo de gráfico para dar uma visão geral das coisas, permitindo até comparar os grupos com base no perfil de cores ou tamanhos de categorias entre eles. Existe também a opção de representar essas barras em porcentagens (chegando a 100%). Como porcentagens são relativizações dos seus valores brutos, recomendo fortemente colocar os valores originais dentro de cada subseção.

5. Gráficos de linhas.

Nenhum outro tipo de gráfico representa tendências ou mudanças temporais tão bem quanto esse tipo de gráfico. A ideia dele é simples e intuitiva: acompanhe uma linha e alguns pontos ao longo de sua tela. Veja como ela sobe ou desce e você facilmente consegue ler as variações:

http://localhost/wordpress/wp-content/uploads/2020/05/temporal-1.png

A utilidade desse tipo de gráfico é facilmente entendida. Evite apenas múltiplas linhas em uma mesma imagem, pois nesse caso o seu gráfico viraria um espaguete, e eu recomendo fortemente que não se utilize gráficos com nome de comida.

6. Gráficos de dispersão.

Gráficos de dispersão são uma excelente ferramenta para se pesquisar a correlação entre duas variáveis, já que cada ponto recebe um valor para X e Y e essa se torna sua posição relativa no gráfico. Vejamos o consumo de margarina nos EUA quando comparado com a taxa de divórcios:

http://localhost/wordpress/wp-content/uploads/2020/05/correlação.png

Veja como é possível representar a relação entre cada libra de margarina consumida com a taxa de divórcios de determinada época. Mais do que isso, eles representam uma relação linear quase perfeita! É certo inferir que um aumento no consumo de margarina aumenta a taxa de divórcios? Ou ainda, que quanto mais divórcios, mais as pessoas se consomem margarina? Eis um dos problemas do relacionamento arbitrário entre duas variáveis: as relações espúrias! Correlação não implica causalidade. Acho que o meu exemplo favorito dessa falácia é a da correlação entre o decréscimo do número de piratas e o aumento da temperatura média global, mas isso fica para outro dia. Um gráfico de dispersão também é útil para se visualizar padrões nos seus dados (buracos em determinados valores, outliers, agrupamentos, tendências lineares). Um texto adicional para se ler sobre pode ser encontrado aqui.

7. Boxplot (diagrama de caixa).

De todos os gráficos, esse talvez seja o meu predileto. Um boxplot é construído a partir de quartis. Também parece complicado, mas não é. Imagine que você tenha 11 valores aleatórios. Atribua uma ordem a eles, do menor ao maior valor. O primeiro quartil, ou quartil inferior, delimita ou marca os menores valores, representando 25% do total (logo, 75% dos valores estão acima dele). O segundo quartil, ou mediana, separa as observações no meio, deixado metade dos valores acima e metade abaixo.  O terceiro quartil delimita a posição em que 75% dos valores estão abaixo, e consequentemente, 25% estão acima. Adicione uma marcação para os extremos, o maior e o menor valor, e voilà. Nous avons un boxplot: 

Nos programas de estatística, o limite superior é calculado por Q3+1,5*IQR (intervalo interquartil, Q3-Q1) e o limite inferior por Q1-1,5*IQR. Quaisquer valores acima ou abaixo do calculado por esses limites é considerado como um outlier, um valor aberrante afastado dos demais, e costuma ser representado como pontos após as barras que representam os limites. 

E por qual motivo os boxplots são tão valiosos? Pois eles representam a distribuição e dispersão dos seus dados enquanto mantém a categorização em um eixo. Quando se calcula uma média e um desvio ou variância ao redor dessa, se assume que seus dados se dispersam, ou se afastam da média, de forma simétrica em ambas as direções. Isso nem sempre é a realidade (vide exemplo acima, que mostra valores mais amontoados entre a mediana e o limite superior). Existe até a opção de se representar a densidade de valores ao longo da caixa, através de um violino:

Logo, um boxplot é a melhor opção quando a distribuição de seus dados não é simétrica em torno da média, permitindo a comparação de atributos adicionais, que seriam mascarados por um gráfico convencional. Pretendo abordar isso futuramente quando falar um pouco de estatística não-paramétrica e distribuições de dados. Alguns exemplos e discussões a respeito desse tipo de gráfico podem ser vistas aquiaqui.

8. Não represente.

Apenas porque você gerou algum tipo de dado, não significa que ele precise ser comunicado. Entender a relevância e a necessidade de comunicar um resultado é uma das maiores virtudes de um bom cientista. Alguns experimentos podem servir para ganhos de experiência ou até aperfeiçoamento de uma metodologia. Gráficos feitos de dados preliminares, experimentos secundários ou mal-sucedidos podem servir como análise exploratória, mostrando o caminho para algo que tenha relevância no seu tema de estudo. Aaronson em Style in scientific writing (1977) disse: “A compulsão de se incluir tudo, sem deixar nada de fora, não prova que se tem informação ilimitada; isso prova que falta uma discriminação.”

Você deve evitar:

1. Gráficos 3D: escondem ou dificultam a comparação de dados (exemplos e discussões: aqui)

2. Gráficos de área: É uma tarefa árdua extrair dados numéricos ou comparações a partir de áreas ou tamanhos de círculos praticamente idênticos. São poucos os casos em que dão certo. Facilite a vida dos leitores e não os utilize.

3. Gráficos de pizza, rosca ou donut: Embora sejam amplamente utilizados (talvez por serem esteticamente os mais fáceis de serem deduzidos) esses certamente são os gráficos mais criticados. É difícil fazer comparações visuais com base em ângulos, e as vezes, nós lemos os dados de forma errada. Tudo complica ainda mais quando se adicionam legendas, e precisamos ir e voltar com os olhos para ler cada um dos segmentos. É possível ler mais sobre aqui e aqui, com exemplos de outras formas de representar os dados de forma mais precisa.

Acredito ter colocado um pouco do que aprendi ao longo desses anos acima. Quando o assunto é a representação visual de dados, o importante é nunca assumir receitas prontas. Explore seus dados, veja qual a melhor forma de se passar sua mensagem. Eles devem ser intuitivos, ter apenas o necessário de informação visual e  serem transparentes quanto aos valores (não exacerbando ou omitindo determinados valores, permitindo uma leitura e interpretação isenta por parte do leitor). Embora todos façam de uma determinada forma, as vezes ela não é a melhor (mas pode ser, então tenha cuidado). Talvez eu aborde alguns “dos and don’ts” no próximo post: o que fazer e o que não fazer para seus gráficos e figuras ficarem mais efetivos. Ou talvez eu fale de culinária, quem sabe.

Até uma próxima,

Douglas Monteiro.

Print Friendly, PDF & Email
Compartilhe:

Douglas Monteiro

Doutorando em Microbiologia. Entusiasta de ciência de dados, bioinformática, estatística e comunicação científica.

2 Comentários

  1. Vou deixar meu elogio aqui, mesmo não chegando até o final dos textos ! ( lerei a metade mais tarde ). O blog é bem convidativo, a linguagem tá bem legal, não está maçante! Parabéns pela bela iniciativa ! Tirou onda ! Ajudará muitas pessoas, não tenha dúvida !

Deixe uma resposta