Use este identificador para citar ou linkar para este item:
http://www.monografias.ufop.br/handle/35400000/8902| Título: | Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro. |
| Autor(es): | Vieira, Matheus Peixoto Ribeiro |
| Orientador(es): | Silva, Pedro Henrique Lopes |
| Membros da banca: | Costa, Arthur Negrão de Faria Martins da Gonçalves Júnior, Ederson Naves Fernandes Silva, Pedro Henrique Lopes |
| Palavras-chave: | Embeddings Tokens Transformer Modelo multilíngue Modelo monolíngue Plasticidade Rigidez |
| Data do documento: | 2026 |
| Referência: | VIEIRA, Matheus Peixoto Ribeiro. Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro. 2026. 80 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2026 |
| Resumo: | Este trabalho investiga comparativamente modelos de embeddings globais e monolíngues aplicados ao português brasileiro, analisando o equilíbrio entre plasticidade e rigidez das representações semânticas sob diferentes regimes de uso. São avaliadas sete famílias de modelos em quatro tarefas de processamento de linguagem natural (classificação, clusterização, inferência textual e similaridade semântica textual) considerando tanto o regime de linear probing quanto a adaptação supervisionada via fine-tuning eficiente de parâmetros com LoRA. Os resultados indicam que, embora modelos globais apresentem desempenho competitivo em linear probing, modelos monolíngues tendem a demonstrar maior estabilidade e ganhos mais consistentes após a adaptação, especialmente em tarefas sensíveis à geometria do espaço de embeddings, como STS. Adicionalmente, análises quantitativas e qualitativas de tokenização revelam que somente vocabulários especializados não garantem maior eficiência ou desempenho, evidenciando um dilema entre alinhamento morfológico, robustez a empréstimos linguísticos e compactação das representações. As descobertas contribuem para uma compreensão mais profunda dos trade-offs envolvidos na escolha e adaptação de modelos de embeddings para aplicações em português brasileiro, oferecendo subsídios práticos para decisões em cenários reais de PLN. |
| Resumo em outra língua: | This work presents a comparative investigation of global and monolingual embedding models applied to Brazilian Portuguese, analyzing the balance between plasticity and rigidity of semantic representations under different usage regimes. Seven families of models are evaluated across four natural language processing tasks (classification, clustering, natural language inference and semantic textual similarity) considering both linear probing and supervised adaptation via parameter-efficient fine-tuning with LoRA. The results indicate that, although global models achieve competitive performance under linear probing, monolingual models tend to exhibit greater stability and more consistent gains after adaptation, particularly in tasks sensitive to the geometry of the embedding space, such as STS. In addition, quantitative and qualitative analyses of tokenization reveal that specialized vocabularies do not inherently guarantee higher efficiency or performance, highlighting a trade-off between morphological alignment, robustness to lexical borrowings, and representation compactness. These findings contribute to a deeper understanding of the trade-offs involved in selecting and adapting embedding models for Brazilian Portuguese, providing practical insights for decision-making in real-world NLP applications |
| URI: | http://www.monografias.ufop.br/handle/35400000/8902 |
| Aparece nas coleções: | Ciência da Computação |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| MONOGRAFIA_PlasticidadeRigidezModelo.pdf | 3,74 MB | Adobe PDF | Visualizar/Abrir |
Os itens na BDTCC estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.
