COLETANDO DADOS EM REDES SOCIAIS

Tutorial para a difícil conversa com as APIs das plataformas

Márcio Carneiro dos Santos
6 min readFeb 13, 2022

Um problema comum dos pesquisadores que atualmente precisam coletar volumes maiores de dados em redes sociais como Twitter , Facebook ou Instagram é como extrair material destas plataformas. Nas minhas oficinas e palestras sobre Métodos Digitais esse tipo de questão sempre aparece.

Nesse texto vou apontar as dificuldades gerais dessa tarefa e mostrar algumas possibilidades que, no momento em que escrevo, estão funcionando. Até quando não sei. Leia o resto e vai entender. Ao final também disponibilizo um link para uma pasta com vários textos sobre Métodos Digitais , Big Data e temas afins.

Se você não sabe, esse contato se dá através de uma API , do inglês Application Programming Interface, uma interface de programação de aplicação. Ou seja, API é um conjunto de normas que possibilita a comunicação entre máquinas através de uma série de padrões e protocolos. Ainda de um jeito mais simples: se você quer extrair dados do Twitter, por exemplo, você tem que fazer o seu pedido , com a sintaxe da API que o servidor deles entende, isto é usando a API deles.

ENTENDENDO O(S) PROBLEMA(S)

Isso nos leva ao primeiro problema. Para fazer requisições de dados o pesquisador precisa usar algum tipo de ferramenta ou programa que consiga fazer as requisições que deseja, convertendo o pedido usando as regras da API que vai consultar. Isso já implica em conhecer alguma solução assim ou desenvolver uma do zero usando alguma linguagem de programação.

Como aqui falo para pesquisadores das áreas de Ciências Sociais e Humanidades, principalmente para os meus colegas da Comunicação, sabemos que isso não é tão simples assim.

De uns tempos para cá muita gente começou a se interessar por análise de redes sociais (ARS) e , com isso, passou a conhecer e usar ferramentas como NODE XL, Netlytic , Gephi e outras. Nelas é possível fazer coletas e, se você já está nessa fase, pelo menos o insumo básico para o seu trabalho, ou seja, os dados, estão garantidos.

Com as soluções de ARS também é possível gerar aqueles grafos (representações de rede) coloridos e interessantes que já estão virando figurinha fácil nos trabalhos. Se você entende as métricas ligadas a eles , excelente. Se não estudou o que significam, faça isso ou rapidamente vai ficar dando voltas em círculos, mostrando sempre a mesma coisa.

Como nem tudo é perfeito, essas soluções as vezes tem limitações e para contorná-las pode ser que você tenha que pagar algo. Outra coisa importante, que muita gente afobada não entende, é que ARS é um tipo de abordagem que tem foco nas estruturas das redes formadas por determinado tipo de entes e as relações que estabelecem entre si e os grafos mapeiam. Para algumas outras finalidades ARS pode não ser a melhor solução.

O problema número 2 é pior. Como os dados acumulados nos servidores das plataformas de redes sociais são o produto principal das empresas que as controlam, junto com a inteligência de mercado que é possível extrair a partir deles, o acesso a estes dados para não pagantes (exemplo: pesquisadores da Comunicação, como nós) tem ficado cada vez mais difícil.

O Twitter tem um tipo de acesso acadêmico para pesquisadores, o que permite, pelo menos, contornar a limitação de ter apenas os últimos sete dias de postagens, vigente para a maioria, e ver todo o arquivo deles desde o início da operação da plataforma. Mas, pelo que sei, se quiser os comentários, vai ter que mudar para um acesso pago.

Se a conversa for com o Facebook , atual Meta, aí é que fica difícil e , é bem comum, mesmo para pesquisadores como nós, que querem dados para fins não comerciais, ter até as contas bloqueadas depois de algumas tentativas de acesso. É por isso que a maioria dos artigos acadêmicos sobre o tema usa dados do Twitter porque, apesar de tudo, ainda é a API mais amigável ao fornecer dados para fins acadêmicos.

A questão 2 leva à dificuldade seguinte. Mesmo que você consiga encontrar uma ferramenta que coleta o que você quer, as chances dela um belo dia parar de funcionar é grande, principalmente ser for gratuita. É que as empresas vivem mudando e atualizando as suas APIs e aí, depois que isso acontece, sua tentativa não funciona mais porque já não está de acordo com a norma vigente. Seu pedido não é mais entendido, gera um erro na API e você fica sem poder coletar nada.

Quando a ferramenta é paga rapidamente solta uma atualização e tudo se resolve. As que são free dependem de desenvolvedores e pesquisadores que nem sempre estão disponíveis para resolver e adaptar o código às mudanças.

É como se, de um dia para o outro, você acordasse no mesmo país mas a língua falada ali tivesse mudado e de morador fluente você se tornasse um estrangeiro que não consegue se comunicar com ninguém.

Eu mesmo, entre 2018 e 2020, desenvolvi uma ferramenta chamada LTweet, para coletar dados do Twitter. Funcionou bem neste período. Compartilhei como pude e muita gente também usou para suas pesquisas. No segundo semestre de 2020 a plataforma mudou a API e daí em diante começamos a ter problemas e até hoje não tive condições ainda de atualizar.

Devido a este conjunto de dificuldades, falo sempre para os meus alunos: se tem uma ferramenta que está funcionando, não deixe para amanhã o material que você pode coletar hoje. Essa regra de ouro evita muita dor de cabeça e atrasos na sua pesquisa.

REDUZIR AS AMOSTRAS NÃO É SOLUÇÃO

Comecei listando os problemas para que você entenda melhor onde está se metendo e o grau de dificuldade da tarefa. Para os que ainda acham que dá para coletar manualmente e que uma amostra pequena pode resolver, preciso dizer que, na maioria das vezes, discordo.

Como você vai entender o que está acontecendo num movimento na rede que gerou um trend, ou seja, um tópico com muitas publicações e engajamento a partir de uma amostra de , sei lá, 10 ou 100 posts? Objetos digitais como tweets, neste tipo de cenário, chegam fácil a mais de 1000 publicações POR MINUTO. Assim, entendo que uma amostra tão insignificante não tem capacidade de gerar inferências ou identificar padrões em universos muito maiores.

Já vi pesquisadores fazendo isso e achando que tudo estava bem. Interpretar e analisar textos ao bel prazer das próprias convicções é passatempo comum na área mas dificilmente nos traz algo com valor científico em situações onde o volume, a variedade e a velocidade dos dados estão em níveis de big data, ou seja, muito diferente do que a sua vã filosofia será capaz de apreender.

Se quiser entender isso melhor tenho um texto de 2017 que talvez ainda possa ajudar.

Se você chegou até aqui te devo uma solução ou pelo menos um caminho a seguir. Assim na segunda parte desse texto vou te ensinar a usar a ferramenta SNSCRAPE que tem salvado meus dias , por enquanto. Vou tentar fazer de um jeito que qualquer pesquisador da nossa área , sem nenhum conhecimento prévio de programação, consiga coletar dados em massa.

Se quiser já ir adiantando esta parte, para usar o SNSCRAPE você vai precisar estar com o Python instalado na sua máquina. Não se preocupe. Vou te ensinar em 7 minutos, se tiver paciência de assistir o vídeo abaixo. Fazendo isso, já estará pronto para, com a parte 2 , instalar a ferramenta e já começar a extrair dados.

Espero que continue comigo e, me seguindo aqui no Medium, toda vez que tiver material novo você vai saber. Fica como sugestão.

Como prometido também, se quiser conhecer mais o meu trabalho sobre Métodos Digitais, Big Data e uma reconfiguração nas práticas de pesquisa quando lidamos com objetos digitais, tenho uma pasta com algum material que pode te ajudar.

Sei que esse tipo de caminho ainda representa um nicho no que se ensina hoje, principalmente nos programas de pós para formação de pesquisadores. Contudo, entendo que já está mais do que na hora de arejar um pouco nossas possibilidades metodológicas, sem excluir nada que já existe.

Principalmente quando se trata de entender objetos digitais é cada vez mais necessário aumentar nossa caixinha de ferramentas para lidar com coisas que ainda não entendemos plenamente num nível de complexidade crescente que nos desafia. Algumas considerações teóricas e práticas para continuarmos produzindo material científico relevante a partir deste olhar você encontrará aqui.

Espero que seja útil.

A parte 2 já está disponível. Aguarde pela 3.

--

--

Márcio Carneiro dos Santos

Professor do programa de Pós em Comunicação Profissional da UFMA. Coordenador do LABCOM. Publicações sobre Design Science, IAG e Jornalismo Digital.