Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/5575
Título: Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho.
Autor(es): Abreu, Carlos Henrique Pereira
Orientador(es): Medeiros, Talles Henrique de
Membros da banca: Medeiros, Talles Henrique de
Brito, Darlan Nunes de
Ribeiro, Eduardo da Silva
Palavras-chave: Arquitetura Transformer
Visão computacional
Devito framework
Joey
Python
Data do documento: 2023
Referência: ABREU, Carlos Henrique Pereira. Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho. 2023. 53 f. Monografia (Graduação em Sistemas de Informação) - Instituto de Ciências Exatas e Aplicadas, Universidade Federal de Ouro Preto, João Monlevade, 2023.
Resumo: Os Transformers atualmente representam uma das classes mais poderosas de modelos de aprendizado de máquina por sua versatilidade e alto poder de processamento de dados sequenciais de forma paralela, sem a necessidade de processar uma entrada sequencial de dados. Desde o seu surgimento em 2017, a arquitetura Transformer tem sido amplamente utilizada em muitos problemas de processamento de linguagem natural (PLN), incluindo tradução automática, análise de sentimentos, geração e classificação de textos, e tem sido amplamente considerada como um dos modelos mais poderosos disponíveis. Neste trabalho, exploramos a construção da rede Transformer aplicada a problemas de visão computacional, utilizando o framework Joey. Para a implementação, novas camadas e funções auxiliares foram incorporadas ao framework. Os resultados produzidos pela rede, mesmo que inferiores em comparação com o framework PyTorch, representam uma evolução da gama de possíveis aplicações para o Joey.
Resumo em outra língua: Transformers currently represent one of the most powerful classes of machine learning models due to their versatility and high processing power for sequential data in parallel, without the need to process input data sequentially. Since their emergence in 2017, the Transformer architecture has been widely used in many natural language processing (NLP) tasks, including machine translation, sentiment analysis, text generation, and text classification, and has been widely considered as one of the most powerful models available. In this work, we explore the construction of the Transformer network applied to computer vision problems using the Joey framework. For implementation, new layers and auxiliary functions were incorporated into the framework. The results produced by the network, although inferior compared to the PyTorch framework, represent an evolution of the range of possible applications for Joey.
URI: http://www.monografias.ufop.br/handle/35400000/5575
Aparece nas coleções:Sistema de Informação - JMV

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MONOGRAFIA_ImplementacaoArquiteturaVision.pdf2,36 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons