O uso dos conteúdos jornalísticos para treinar os modelos de linguagem criados através de inteligência artificial, sem que os autores dos conteúdos sejam compensados, tem dado origem a disputas judiciais em muitos países, opondo as empresas jornalísticas lesadas por esta prática às empresas tecnológicas que alimentam o seu negócio com os dados publicados.
Em Portugal foi notícia o desenvolvimento de um modelo de linguagem LLM nacional, com o Governo de Luís Montenegro a anunciar um investimento de 5,5 milhões de euros com fundos do PRR no projeto Amália (Assistente Multimodal Automático de Linguagem com Inteligência Artificial), desenvolvido por cinco instituições de ensino superior públicas. À semelhança dos seus congéneres, este “ChatGPT português” irá alimentar-se pela informação disponível online, entre ela a dos trabalhos jornalísticos produzidos em Portugal. No início de maio, a Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa anunciou ter concluído a versão beta do projeto, por enquanto acessível apenas a investigadores do consórcio.
Foi por essa razão que o Sindicato dos Jornalistas solicitou uma reunião aos responsáveis do projeto Amália para discutir a situação. Mas dois meses depois, ainda não houve qualquer resposta, afirma o sindicato em comunicado, dizendo estranhar o silêncio daqueles responsáveis. O sindicato avisa que o uso de informação feita por profissionais habilitados, neste caso os jornalistas, “não se pode fazer à pirata” e que esse trabalho “tem de ser pago a quem o produz”.
“Temos presente o dano causado pelas grandes empresas tecnológicas à sustentabilidade do jornalismo, absorvendo a esmagadora maioria do bolo publicitário que o financiou durante anos, e agora usurpando trabalhos jornalísticos para construir modelos de linguagem que alimentam os seus negócios globais”, refere o sindicato, concluindo que não pode aceitar que um LLM português, “ainda por cima com financiamento público, cometa os mesmos pecados, ignorando a lei dos direitos de autor, por exemplo”.
Os jornalistas portugueses querem saber se a utilização dos conteúdos do “arquivo.pt“, da Fundação para a Ciência e Tecnologia, no treino deste LLM público “está a ter em conta os direitos de autor dos jornalistas, ao aceder a conteúdos de órgãos de comunicação social”. Mas também querem perceber como operará este modelo no recurso e referência a conteúdos jornalísticos, “que vêm sendo canibalizados sem atribuição por inteligências artificiais”.