Está aqui

Pesquisas na Wikipedia ajudam a prever epidemias

Investigadores norte-americanos usam dados da enciclopédia virtual para detetar a ocorrência de doenças contagiosas com precisão e mais rapidamente que as próprias autoridades de saúde. Por Javier Salas, Materia
A Wikipedia permite que sejam consultadas as estatísticas de uso de cada entrada, atualizando-as diariamente, o que oferece uma infinidade de dados aos pesquisadores que queiram usá-los.

O uso de ferramentas sociais – redes como Twitter ou pesquisadores como o Google – para prever o comportamento das massas está a desenvolver-se cada vez mais nos dias de hoje. Começou como uma série de experiências no âmbito académico, mas essas ferramentas já estão a ser utilizadas por várias empresas e entidades com o objetivo de aproveitar todo o conhecimento do big data: milhões de cibernautas a fazer a mesma coisa ao mesmo tempo têm de significar alguma coisa. O problema é calibrar, ajustar o que verdadeiramente significa uma avalanche de twits ou de pesquisas num sentido, num momento, num lugar. A última ferramenta a somar-se à festa dos dados sociais foi a Wikipedia, depois de investigadores da Escola de Medicina de Harvard terem determinado que o seu uso é capaz de prever com precisão, em tempo real, a chegada dos vírus da gripe aos EUA.

Como a enciclopédia online está muito presente nas nossas vidas, parece lógico pensar que determinados picos ou tendências de uso têm de ter um significado. Não é por acaso que a Wikipedia já é a primeira fonte de informação médica entre pacientes e os próprios trabalhadores da área de saúde. Se num determinado dia as pesquisas sobre uma doença contagiosa disparam consideravelmente, isso deve supor que há uma epidemia em gestação.

Os pesquisadores David McIver e John Brownstein centraram-se nas visitas que receberam um conjunto de 35 entradas da Wikipedia em inglês relacionadas com a gripe: desde “constipação comum” até “febre”, passando por todas as variedades do vírus conhecidas (H1N1, H5N1 etc.) e remédios como o Tamiflu. Recolheram informações de 294 semanas, em que, em média, foram realizadas pelo menos 30 mil consultas diárias, com picos de 334 mil visitas. Ao cruzar esses dados com as estatísticas dos Centros para o Controlo e a Prevenção de Doenças dos Estados Unidos (CDC), descobriram que podiam prever com precisão o número de casos de gripe com uma diferença de apenas 0,27% em relação aos dados oficiais.

Se num determinado dia as pesquisas sobre uma doença contagiosa disparam consideravelmente, isso deve supor que há uma epidemia em gestação.

E, o mais importante, podiam oferecer esses dados quase em tempo real: duas semanas antes das autoridades médicas, que levam todo esse tempo para elaborar as suas previsões a partir das seus próprios sistemas de informação. Isso porque a Wikipedia permite que sejam consultadas as estatísticas de uso de cada entrada, atualizando-as diariamente, o que oferece uma infinidade de dados aos pesquisadores que queiram usá-los.

“A principal vantagem dos dados da Wikipedia é que são completamente abertos e para todos, porque qualquer pessoa pode criar os seus próprios modelos ou melhorar o nosso”, explica David McIver, referindo-se ao Google Flu Trends (GFT), a ferramenta que o motor de busca desenvolveu para prever os sintomas da gripe e que gerou um intenso debate académico logo após começar a falhar. Os dados que o Google usa são conhecidos somente pelo próprio Google, e os dados usados pela Wikipedia são de livre acesso, o que permite fazer ciência com eles: reutilizá-los quantas vezes for necessário para replicar os resultados ou melhorar as avaliações de outros.

Um dos pontos frágeis do GFT era mostrar-se muito sensível à influência dos media: as buscas relacionadas com a gripe não são unicamente pessoais, mas também influenciadas pelo “tsunami” informativo, como no caso de pandemias mundiais que ocupam portais de notícias e telejornais. “O nosso modelo provou que durante os momentos de grande atenção mediática, como a pandemia da gripe suína H1N1, os 35 artigos da Wikipedia que estudamos foram muito mais bem-sucedidos na hora de calcular de forma precisa as afeções da gripe nesses momentos”, assegura McIver.

Até agora, as pesquisas na Wikipedia serviram para muitos tipos de previsões, como por exemplo inferir os líderes de bilheteira através da medição da atividade no verbete de um determinado filme logo antes da estreia. No entanto, no caso da gripe, há um dado importante: não se pode localizar geograficamente a incidência da doença. O Google não tornava públicos os seus dados, mas sabemos que a empresa usa os endereços IP dos computadores dos utilizadores para realizar previsões específicas por países e regiões.

Se muitos utilizadores consultam o artigo em alemão na Wikipedia de um filme prestes a estrear, podemos supor que será bem-sucedido na Alemanha. Porém, quando se trata de idiomas muito mais compartilhados pelo mundo, como o inglês, ou o espanhol, as previsões complicam-se. Os investigadores de Harvard reconhecem abertamente que esse é um fator importante, e ainda assim conseguiram que o seu modelo da gripe funcionasse, apesar de 59% das consultas em inglês serem realizadas fora dos Estados Unidos (11% delas no Reino Unido).

As fragilidades da Wikipedia

Por esse motivo, já foram realizadas com relativo sucesso diferentes experiências usando o Twitter, rede social que permite geolocalizar as mensagens, para prever epidemias em tempo real em lugares concretos, ao fazer o acompanhamento de expressões como “medicina”, “febre” ou “tosse”.

Por outro lado, os artigos da Wikipedia não se livram da influência da agenda informativa: numa sexta-feira, com a notícia da morte do treinador de futebol espanhol Tito Vilanova, as consultas de “parótida” (glândula que estava afetada com cancro) multiplicaram-se por mais de cem em relação à média diária habitual. Logicamente, um pico de visitas como esse nem sempre vai ter importância epidemiológica: por isso, não se pode contar com os dados dessa ferramenta (ou de qualquer outra) de forma isolada, mas no conjunto de todas as que forem acessíveis.

“O uso de dados de redes sociais ou de outros sites para fazer estimativas ou previsões ainda é uma ciência que está na sua infância”, reconhece McIver. E acrescenta: “Acreditamos que esse tipo de dado representa uma grande promessa devido ao seu tamanho, profundidade e ubiquidade, porém ainda estamos a criar modelos na medida em que desenvolvemos a disciplina.”

Segundo o epidemiologista, as previsões sobre saúde pública ou doenças utilizando esses tipos de dados devem ser usadas junto a fontes tradicionais de vigilância, como os dados dos CDCs ou da Organização Mundial de Saúde: “Não estão desenvolvidos para substituí-los. O objetivo é encontrar uma forma de unir essas diferentes fontes de dados para obter a imagem mais precisa e pontual da saúde pública que podemos conseguir”.

Tradução de Mary-Jô Zilveti para o Opera Mundi

Artigo original publicado em Materia, site espanhol que publica artigos e reportagens sobre ciência e tecnologia.

Adaptação para Portugal por Luis Leiria

Artigos relacionados: 

Termos relacionados Sociedade
(...)