Na semana passada, tivem o privilégio de participar num colóquio do EMLex em Braga, Portugal, onde discutimos um tema fascinante: o impacto da inteligência artificial no âmbito da lexicografia e da criação de dicionários. Neste colóquio, a Mª José Domínguez, o Iván Arias e eu apresentámos uma comunicação em que defendemos que, ainda que o panorama da lexicografia vaia sofrer profundas transformações, as pessoas vão continuar a desempenhar um papel fundamental na criação de dicionários. Neste post, vou explorar uma série de ideias que me fôrom surgindo durante a preparação da nossa apresentação e refletir sobre o papel da inteligência artificial na criação de dicionários.
Dicionários de referência e política linguística.
Uma das ideias-chave que surgiu no colóquio é que, à medida que a inteligência artificial se torna uma ferramenta comum no domínio da lexicografia, os dicionários produzidos e validados por humanos vão adquirir maior relevância. Apesar do avanço da IA, continuará a haver necessidade de dicionários de referência, dicionários normativos, especialmente em contextos jurídicos, educativos e administrativos. Os dicionários normativos, sejam os das academias linguísticas (RAG para o galego, RAE para o espanhol, etc.) ou os de editoras de prestígio (por exemplo, Duden para o alemão), baseiam-se frequentemente em decisões políticas e afectam os textos escolares, legislativos ou administrativos. Isto reforça a importância de continuar a dispor de dicionários no formato tradicional, em linha ou em papel, isto é, um registo alfabético e exaustivo do corpus linguístico normativo. Por último, não se deve esquecer que a produção destes dicionários normativos é essencial no processo de codificação das línguas. Polo menos na Europa, nenguma língua pode ser utilizada em domínios de prestígio ou alcançar um estatuto oficial sem a elaboração destes dicionários de referência. Esta foi uma condição necessária para a normalização linguística do catalão, do galego e do basco, e está a sê-lo para o occitano, o aragonês ou o asturiano.
Dicionários específicos para comunidades particulares
No colóquio, também sublinhamos a necessidade de continuar a desenvolver dicionários específicos para dialetos locais, falares de grupos sociais, ou as chamadas tribos urbanas, e glossários terminológicos. Estes dicionários são essenciais para compreender certas comunidades linguísticas e comunicar eficazmente em contextos específicos. Mas, no caso dos dialetos e dos falares, o dicionário pode tornar-se também num instrumento de construção de identidade. De facto, no European Survey on Dictionary Use and Culture, em que Mª José Domínguez e eu participamos, verificou-se que os dicionários se tornam muitas vezes verdadeiros monumentos nacionais ou símbolos de identidade para pequenas comunidades de falantes. Em geral, parece que a elaboração de dicionários continuará a ser a melhor forma de registar e preservar o património linguístico.
O desafio dos prompts.
Um desafio crucial que a inteligência artificial coloca é a qualidade dos prompts ou perguntas que lhe fazemos. É também o caso da lexicografia. As experiências realizadas para a nossa apresentação em Braga por Iván Árias mostram que o Chat GPT continua a gerar entradas de dicionário inadequadas. Mas talvez a qualidade das respostas geradas pola IA dependa, em grande medida, da clareza e da precisão dos prompts que utilizamos. É aí que surge o prompt engineering ou engenharia de prompts, entendida como as técnicas utilizadas no desenvolvimento de modelos de linguagem, como os baseados em inteligência artificial, para direcionar o comportamento do modelo e obter as respostas desejadas. Melhorar esta área é uma tarefa necessária na investigação em IA e será também uma prioridade no trabalho lexicográfico. Será, sem dúvida, também uma linha de investigação interessante em lexicografia.
Consultas lexicográficas com IA: rumo à pesquisa conversacional?
Provavelmente, em vez de procurarem entradas completas de dicionário, os utilizadores tenderão a dialogar com a inteligência artificial para obter informações linguísticas específicas: um significado, um equivalente, indicações sobre a pronúncia ou a ortografia correctas, exemplos de utilização de uma palavra, etc. Isto levanta a necessidade de os utilizadores aprenderem a fazer perguntas adequadas e a utilizar “linguagem metalinguística” para obterem respostas precisas. Da necessidade de ensinar os utilizadores a utilizar dicionários, passamos agora à necessidade de os ensinar a conversar com modelos de IA para poderem obter as informações linguísticas que precisam. Mas aqui surge outra questão: em que medida pode uma IA dar respostas adequadas a utilizadores que não conhecem ou tenhem dificuldade em ter presente o significado de termos como adjetivo, aceção, equivalente ou polissemia? Para ser eficaz neste tipo de consulta conversacional, a IA devia ser acessível aos utilizadores que não têm um conhecimento profundo da gramática ou da terminologia linguística. Assim, a IA tem de ser capaz de compreender perguntas em linguagem natural ou espontânea e de lhes dar resposta de forma simples, adaptada ao nível de conhecimentos linguísticos de quem pergunta.
Keep calm and compile dictionaries.
Terminamos a nossa apresentação com uma frase muito otimista com uma prquena nota de humor: Keep calm and compile dictionaries. Durante o debate, alguém nos qualificou de ingénuos e optimistas. Somosoptimistas por natureza, é verdade, mas não ingénuos e conhecemos bem as ameaças que se adivinham no campo da lexicografia. A inteligência artificial está destinada a desempenhar um papel importante na elaboração dos dicionários, vai permitir a criação de recursos mais específicos e precisos, mas é evidente que, como na maioria das profissões, serão necessários muitos menos profissionais. Por outro lado, a utilização da IA pode vir a aprofundar as desigualdades sociais, profissionais e culturais já existentes entre os falantes. É essencial, pois, que esta tecnologia seja acessível a utilizadores com diferentes níveis de conhecimentos linguísticos. Em todo o caso, estamos convencidos de que a lexicografia não desaparecerá e continuará a ser um domínio dinâmico, onde a colaboração entre humanos e máquinas conduzirá a avanços surpreendentes na compreensão e documentação das línguas.