CMAI – COMPETÊNCIA E MEDIAÇÃO EM AMBIENTES DE INFORMAÇÃO


  • O objetivo do grupo CMAI se concentra em aprofundar percepções teóricas e práticas da Ciência da Informação, Biblioteconomia e áreas correlatas, que dialoguem com as temáticas oriundas da sociedade contemporânea. As repercussões do grupo estão focadas em um sistema aberto de retroalimentação constante, no qual reflexões se interrelacionam com as práticas, direcionadas para a consolidação da comunidade científica e profissionais mais atuantes, criativos, motivados, inovadores e protagonistas. O grupo reúne pesquisadores, alunos e profissionais interessados em investigar objetos de estudo que dialogam com as teorias basilares do CMAI, quais sejam: Competência em Informação e Midiática; Comunicação e Divulgação Científica; Mediação, visando propor diagnósticos, reflexões, ações e modelos que atendam as demandas sociais.

USO DA INTELIGÊNCIA ARTIFICIAL EM REVISÕES SISTEMÁTICAS

Marllus Lustosa

Algoritmos de Inteligência Artificial (IA) estão cada vez mais presentes em nossas vidas, seja na simples escolha de qual música ouvir até o planejamento detalhado do trajeto de casa ao trabalho. Parece não haver limites para implementação de soluções que buscam facilitar ou tornar mais eficientes tarefas antes realizadas de forma manual e, às vezes, cansativa. Na área científica não é diferente, mas há um fato interessante: um produto originado de formulações teóricas retorna hoje para ser utilizado como suporte aos que o criaram. Em outras palavras, a IA surgiu por meio da ciência, e agora de forma ativa retorna a ela.

Não há espaço, neste breve ensaio, para descrever minuciosamente como a IA está atuando como recurso ferramental nas múltiplas frentes da pesquisa científica, porém, é possível perceber os benefícios do uso dessas técnicas em áreas como a Revisão Sistemática da Literatura (RSL), tanto na redução do tempo total necessário para essa tarefa, como em um maior refinamento dos resultados esperados. Esse texto traz, portanto, argumentos em favor do uso dessas técnicas, demonstrando como os pesquisadores podem utilizá-las, visando a melhoria dos seus processos de trabalho.

Não é possível falar sobre evolução científica sem citar as diferentes contribuições acadêmicas em questão, portanto é consenso que os pesquisadores devem realizar um trabalho de levantamento sobre os materiais prévios já publicados, elencando, para isso, tudo que foi gerado de conhecimento para, a partir de então, eles mesmos prosseguirem com suas próprias investigações. Esse processo se dá pelo nome de revisão da literatura. Quando essa revisão é trilhada através de um protocolo previamente definido (portanto, replicável), dizemos que trata-se de uma Revisão Sistemática da Literatura (RSL) (KOLLER; DE PAULA COUTO; VON HOHENDORFF, 2014).

De forma geral, os passos necessários para uma boa RSL consistem em: 1 - delimitação da questão a ser pesquisada; 2 - escolha das fontes de dados; 3 - eleição das palavras-chave/descritores para a busca; 4 - busca e armazenamento dos resultados; 5 - seleção dos trabalhos, de acordo com critérios de inclusão e exclusão; 6 - extração dos dados dos artigos selecionados; 7 - avaliação dos artigos e 8 - síntese e interpretação dos dados (KOLLER; DE PAULA COUTO; VON HOHENDORFF, 2014).

Em grande parte da academia atual, esse processo é ainda desenvolvido de forma manual. Sugerem-se dois pesquisadores para a realização da busca nas fontes de dados, seguindo os critérios de inclusão/exclusão e, logo após a extração, o estado é comparado entre os dois, visando a proximidade entre os resultados até então alcançados, em busca de vieses ou erros cometidos. Estes, podem ocorrer por inúmeros motivos, seja de ordem de confirmação (do próprio pesquisador) ou pela fadiga da triagem.

A enorme quantidade atual de artigos publicados em periódicos e conferências, ou seja, o acúmulo de conhecimento sobre várias áreas acadêmicas traz uma maior possibilidade de descoberta de conhecimento em tempo cada vez mais reduzido (como o exemplo das vacinas da covid-19), porém, isso se traduz em um trabalho hercúleo para quem vai analisar e sistematizar esses achados. Segundo a plataforma Dimensions (DIGITAL SCIENCE, 2022), somente entre os anos de 2020 e 2021 foram publicados mais de 12 milhões de artigos científicos em todo o mundo.

Diante deste desafio, processos automatizados com base em IA para ‘amenizar’ certas operações manuais estão cada vez mais sendo colocados à disposição de pesquisadores – e concomitantemente, sendo lançados por eles próprios, cito dois: Active Learning e Latent Dirichlet Allocation - LDA.

Dados mostram que o total de artigos relevantes após a primeira triagem (fase 5 supracitada), fica abaixo dos 5%, e que além disso, pesquisadores humanos deixam de identificar cerca de 10% dos artigos relevantes (CORMACK, 2015). Considerando dois resumos por minuto a velocidade média calculada que um pesquisador experiente gasta nessa triagem manual; digamos que uma literatura de 50 mil artigos, durante oito horas ininterruptas diariamente, levaria algo em torno de 52 dias para concluir a rotulagem, para descarte ou seleção de todo o material. Na prática, geralmente o que acontece é uma seleção muito menor de trabalhos, assumindo o risco de perder estudos relevantes, porém, com a vantagem de concluir o trabalho em tempo hábil. Imagine esse processo cuja finalidade seja criar uma vacina! Muitas horas de trabalho, e muitas perdas, certamente.

O Aprendizado Ativo (Active Learning - AL) ajuda o pesquisador que irá rotular os artigos, ou seja, no processo de classificá-los em relevantes ou não, seja por duplicidade, fuga do tema ou outro critério. O método consiste em receber algumas rotulagens prévias do pesquisador humano (como forma de aprendizagem da máquina) e depois a própria Inteligência Artificial dá o ‘veredito’ de quais artigos são relevantes - dentro de um nível de confiança -, em todos os artigos do banco de dados. Isso quer dizer que o pesquisador não precisa mais analisar – naquele nosso exemplo – todos os 50 mil artigos, mas bastaria 10% deles. Mesmo assim ainda é uma grande quantidade, então por que a IA não faz tudo sozinha? Isso se deve ao fato de que ela precisa saber o que é relevante, e tudo isso precisa de um contexto. Quem fornece isso é o próprio pesquisador, de acordo com sua área de estudo, algo que pode variar bastante. Por exemplo, você pode querer escolher artigos não relevantes sobre um tema, considerando que essa busca seja semanticamente a finalidade do estudo. Esse tipo de ‘dica’ que damos a uma IA chamamos de aprendizado supervisionado.

Segundo Van de Schoot (2021), o número de resumos relevantes encontrados pela IA após a rotulagem manual de 10% dos resumos variou de 70% a 100%. Em suma, há uma economia de muitas horas de trabalho com baixo esforço computacional, com uma acurácia pouco vista antes, ainda mais considerando um ambiente de escassez de recursos para a ciência. A ferramenta descrita no artigo é chamada ASReview e implementa o Aprendizado Ativo, além disso tem o código fonte aberto para ampla utilização.

Outro método timidamente utilizado na academia em estudos de revisão sistemática é o Latent Dirichlet Allocation (LDA). Ele é um modelo generativo do grupo da modelagem de tópicos, que consiste em gerar tópicos visando a organização de uma coleção de documentos (ASMUSSEN, 2019). Basicamente, ele gera esses tópicos latentes com base no grau de proximidade entre as palavras contidas no corpus textual inserido como entrada. Quebrando o texto em palavras, ele remove as menos significativas (como por exemplo ‘o’, ‘da’, ‘em’, ‘a’, ‘de’...) e cria uma matriz com os tópicos e as palavras em cada documento. Tudo sem necessidade de informação prévia do pesquisador. Já para este processo, damos o nome de aprendizado não supervisionado. A IA ‘entende’ os dados por conta própria, com base em seus próprios métodos probabilísticos e estatísticos.

No entanto, o tópico em si não é nomeado por ela, mas sim reconhecido, dentre um conjunto de palavras agrupadas por similaridade (co-ocorrência), por exemplo: (água, copo e geladeira) e (fogo, isqueiro e calor) seriam modelados por dois tópicos distintos, porém não nomeados. Ela acharia o padrão de similaridade, mas não saberia dizer o que significa. É aí que entra o pesquisador, na análise e categorização desses padrões e, através disso, prosseguir com a análise sobre os achados. Esse tipo de método é bastante interessante pois, além da grande economia de tempo, um pesquisador não especialista pode iniciar previamente um estudo, gerando tópicos latentes a partir de um corpus textual sem a expertise de um especialista na definição de tópicos a-priori, além disso, abre possibilidade de detecção de insights em análises exploratórias.

Com isso, encerro este ensaio defendendo a utilização dos dois métodos consecutivos, como esboço de um framework de dois passos para elaboração de uma revisão sistemática, a saber: 1 - Utilização de Aprendizado Ativo para seleção de artigos em corpus pesquisados e 2 - aplicação do modelo LDA na geração de tópicos para rotulagem a-posteriori. Certamente, isso sugere a construção futura de um arcabouço conceitual para uma nova proposta de protocolo de Revisão Sistemática na Literatura, com base em métodos e técnicas de Inteligência Artificial, alinhadas aos desafios da contemporaneidade. Sem dúvida, também abre novas portas para discussões epistemológicas sobre autoria e meta autoria nos processos de desenvolvimento de estudos acadêmicos.

Referências

ASMUSSEN, Claus Boye; MØLLER, Charles. Smart literature review: a practical topic modelling approach to exploratory literature review. Journal of Big Data, v. 6, n. 1, p. 1-18, 2019.

CORMACK, Gordon V.; GROSSMAN, Maura R. Autonomy and reliability of continuous active learning for technology-assisted review. arXiv preprint arXiv:1504.06868, 2015.

DIGITAL SCIENCE. Dimensions [Software] 2018. Disponível em: https://app.dimensions.ai. Acessado em 30 set. 2022.

KOLLER, Sílvia H.; DE PAULA COUTO, Maria Clara P.; VON HOHENDORFF, Jean. Manual de produção científica. Penso Editora, 2014.

VAN DE SCHOOT, Rens et al. An open source machine learning framework for efficient and transparent systematic reviews. Nature Machine Intelligence, v. 3, n. 2, p. 125-133, 2021.


   603 Leituras


Saiba Mais





Próximo Ítem

author image
INFORMAÇÃO E DEMOCRACIA: O PERIGO DA DESINFORMAÇÃO
Março/2023

Ítem Anterior

author image
PERIÓDICOS CIENTÍFICOS BRASILEIROS E A REVISÃO POR PARES ABERTA
Janeiro/2023



author image
CMAI – COMPETÊNCIA E MEDIAÇÃO EM AMBIENTES DE INFORMAÇÃO

O objetivo do grupo CMAI se concentra em aprofundar percepções teóricas e práticas da Ciência da Informação, Biblioteconomia e áreas correlatas, que dialoguem com as temáticas oriundas da sociedade contemporânea. As repercussões do grupo estão focadas em um sistema aberto de retroalimentação constante, no qual reflexões se interrelacionam com as práticas, direcionadas para a consolidação da comunidade científica e profissionais mais atuantes, criativos, motivados, inovadores e protagonistas. O grupo reúne pesquisadores, alunos e profissionais interessados em investigar objetos de estudo que dialogam com as teorias basilares do CMAI, quais sejam: Competência em Informação e Midiática; Comunicação e Divulgação Científica; Mediação, visando propor diagnósticos, reflexões, ações e modelos que atendam as demandas sociais.