Please use this identifier to cite or link to this item: http://repositoriosenaiba.fieb.org.br/handle/fieb/891
Title: Análise de agrupamento: o problema da identificação de línguas em textos por meio de bi-gramas
Other Titles: SENAI CIMATEC
Authors: Sampaio, Renelson Ribeiro
Souza Júnior, Cleônidas Tavares de
Pereira, Hernane Borges de Barros
Senna, Valter de
Rosa, Marcos Grilo
Keywords: Mineração de dados
Análise de frequência – Pares de letras
Variação linguística
N-gramas
Issue Date: 22-Feb-2018
Publisher: Centro Universitário SENAI CIMATEC
Citation: SOUZA JUNIOR, Cleônidas Tavares de; SAMPAIO, Renelson Ribeiro (Orientador). Análise de agrupamento: o problema da identificação de línguas em textos por meio de bi-gramas. Salvador, 2018. 101 f. TCCP (Mestrado em Modelagem Computacional e Tecnologia Industrial ) - SENAI CIMATEC, Salvador, 2018.
Abstract: Algoritmos de aprendizado supervisionado baseados em frequência de letras têm sido usados para identificar as línguas de origem de textos; no entanto, eles são imprecisos quando, por exemplo, tentam distinguir os textos nas línguas norueguesa e dinamarquesa. Os objetivos deste trabalho são: (i) identificar padrões na análise de frequência de pares de letras que possam ser utilizados para agrupar os textos que compartilham uma mesma língua; e (ii) identificar os motivos que levam alguns algoritmos baseados em análise de frequência de letras a serem imprecisos da identificação de algumas línguas. A hipótese inicial é que línguas com uma grande quantidade de palavras em comum e que são variedades/ dialetos de uma língua dificilmente são diferenciadas umas das outras por meio da análise de frequência de letras. Para testar essa hipótese, foram desenvolvidos dois algoritmos: (i) um para verificar se a análise de frequência de letras gera resultados suficientes para agrupar os textos de mesma língua em um mesmo agrupamento; e (ii) o outro para verificar a quantidade de palavras compartilhadas por algumas línguas. Os resultados obtidos por meio da análise de agrupamentos revelaram que variedades de uma mesma língua permanecem em um mesmo agrupamento; isso sugere uma proximidade entre elas. Este trabalho contribui (i) para os estudos da linguagem, ao apresentar que variedades de uma mesma língua não podem ser diferenciadas por meio de análise de frequência de pares de letras (com escrita alfabética, com alfabeto latino-europeu); e (ii) para as áreas da computação interessadas em processamento de línguas naturais, com algoritmos que, a partir de um conjunto de textos, identificam e agrupam, graficamente, os textos de mesma variedade linguística ou de mesma língua.
URI: http://repositoriosenaiba.fieb.org.br/handle/fieb/891
Appears in Collections:Dissertações de Mestrado (PPG MCTI)

Files in This Item:
File Description SizeFormat 
Cleônidas Tavares de Souza Júnior.pdfTCCP / DISSERTAÇÃO MCTI / SENAI CIMATEC5.7 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.