Para além da nossa atividade docente, muitas das pessoas que fazemos investigação científica temos dificuldade em explicar às pessoas, mesmo à nossa família, o que fazemos exatamente. Isso leva-nos a simplificar tanto que, por vezes, acabamos por nos sentir como naquel famoso meme “As a accountant“, respondendo que fazemos algo que pouco tem a ver co que realmente fazemos, mas que mata a curiosidade de quem nos pergunta. Por isso, quando me perguntam o que eu fago no projeto em que estou a trabalhar, costumo dizer que fago listas de vocabulário, quando na verdade o que desenvolvo é… extração massiva de dados para criar pacotes lexicais anotados semanticamente.

Felizmente, ainda existem conferências e seminários presenciais onde especialistas numa determinada área ou técnica nos juntamos para nos pormos ao corrente dos nossos progressos ou dificuldades. Em muitas ocasiões, a troca de ideias que se dá nestes encontros fornece-nos um feedback valioso que nos permite melhorar ou reorientar o nosso trabalho. No meu caso, um desses fóruns é, sem dúvida, o Mestrado Europeu em Lexicografia, EMLex, que tem a prestigiada distinção Erasmus Mundus.

Durante a minha participação no semestre de verão deste mestrado, organizado este ano de 2024 pola Universidade de Hildesheim, tivem a oportunidade de apresentar o processo de elaboração de pacotes lexicais. Estes pacotes são um elemento essencial nos diferentes projetos que temos vindo a desenvolver ao longo dos anos no PORTLEX, a estrutura de I+D liderada por María José Dominguez na Universidade de Santiago de Compostela. Inicialmente concebidos para alimentar os nossos geradores de sintagmas nominais e os seus contextos oracionais, estes pacotes lexicais tenhem diferentes utilizações, incluindo o ensino de línguas ou a criação de glossários e léxicos.

Precisamente, a possibilidade de reutilizar estes pacotes lexicais para elaborar um etiquetador semântico é o objetivo do projeto em andamento do PORTLEX: ESMAS-ES+. Um etiquetador semântico é uma ferramenta digital que classifica as palavras dum texto de acordo co seu significado. Estes etiquetadores podem ajudar as pessoas a compreender um texto, destacando palavras difíceis e dando pistas sobre o seu nível linguístico. Para as máquinas, um etiquetador semântico melhora a sua compreensão do significado dum texto ou torna-as capazes de obter resultados mais precisos nas pesquisas de informação. Com estas ideias, estamos a trabalhar em PORTLEX para reutilizar dados de projetos anteriores e aproveitá-los para criar um etiquetador semântico de substantivos.

Durante a minha apresentação em Hildesheim, não só tive a oportunidade de detalhar o processo de elaboração e anotação semântica dos nossos pacotes léxicos, mas também de mostrar a ontologia de etiquetas semânticas que fomos desenvolvendo em paralelo para classificar todos estes ficheiros. Centenas de etiquetas organizadas hierarquicamente constituem este recurso, que também está a ser reutilizado para desenvolver o etiquetador do projeto ESMAS-ES+.

A receção do público, composto por estudantado de mestrado EMLex e professorado da Universidade de Hildesheim, foi muito positiva. Os comentários recebidos dos professores Ulrich Heid e Gertrud Faaß, dous profissionais de referência em diferentes domínios da linguística aplicada, fôrom particularmente relevantes. Estes e outros comentários servirão, sem dúvida, para melhorar a revisão e a anotação semântica dos pacotes lexicais já produzidos, bem como o desenvolvimento de novos pacotes.