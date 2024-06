A Google anunciou hoje que o Google Tradutor (Google Translate) suporta agora mais 110 idiomas. A adição mais notável é o cantonês, que tem mais de 85 milhões de falantes. Além disso, a empresa refere um foco maior nas variações linguísticas. Será agora que teremos no Google Tradutor o português de Portugal?

Apoio à tradução para mais de 500 mil milhões de pessoas

Do cantonês ao Qʼeqchiʼ, estas novas línguas representam mais de 614 milhões de falantes, permitindo traduções para cerca de 8% da população mundial. Algumas são as principais línguas mundiais, com mais de 100 milhões de falantes; outras são faladas por pequenas comunidades de povos indígenas; e algumas quase não têm falantes nativos, mas têm esforços ativos de revitalização.

Cerca de um quarto das novas línguas provém de África, representando a maior expansão de línguas africanas até à data, incluindo Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof.

Agora, o Google Translate (Google Tradutor) suporta mais 110 idiomas. A empresa observa que o seu modelo de linguagem grande PaLM 2 foi fundamental para ajudar o Tradutor a aprender com mais eficiência idiomas que estão intimamente relacionados.

Em 2022, adicionámos 24 novos idiomas utilizando a tradução automática Zero-Shot, em que um modelo de aprendizagem automática aprende a traduzir para outro idioma sem nunca ter visto um exemplo. E anunciámos a Iniciativa 1.000 Línguas, um compromisso para criar modelos de IA que suportem as 1.000 línguas mais faladas em todo o mundo. Agora, estamos a utilizar a IA para expandir a variedade de idiomas que suportamos. Graças ao nosso modelo de linguagem de grande dimensão PaLM 2, estamos a lançar 110 novos idiomas no Google Translate, a nossa maior expansão de sempre.

Eis algumas das novas línguas suportadas pelo Google Tradutor:

O afar é uma língua tonal falada no Djibuti, na Eritreia e na Etiópia. De todas as línguas neste lançamento, o Afar foi a que recebeu mais contribuições voluntárias da comunidade.

é uma língua tonal falada no Djibuti, na Eritreia e na Etiópia. De todas as línguas neste lançamento, o Afar foi a que recebeu mais contribuições voluntárias da comunidade. O cantonês é, desde há muito, uma das línguas mais solicitadas pelo Google Translate. Como o cantonês sobrepõe-se frequentemente ao mandarim na escrita, é difícil encontrar dados e treinar modelos.

é, desde há muito, uma das línguas mais solicitadas pelo Google Translate. Como o cantonês sobrepõe-se frequentemente ao mandarim na escrita, é difícil encontrar dados e treinar modelos. O manx é a língua celta da Ilha de Man. Quase foi extinta com a morte do seu último falante nativo em 1974. Mas graças a um movimento de revitalização em toda a ilha, existem agora milhares de falantes.

é a língua celta da Ilha de Man. Quase foi extinta com a morte do seu último falante nativo em 1974. Mas graças a um movimento de revitalização em toda a ilha, existem agora milhares de falantes. O NKo é uma forma normalizada das línguas Manding da África Ocidental que unifica muitos dialetos numa língua comum. O seu alfabeto único foi inventado em 1949 e tem uma comunidade de investigação ativa que desenvolve recursos e tecnologia para ele atualmente.

é uma forma normalizada das línguas Manding da África Ocidental que unifica muitos dialetos numa língua comum. O seu alfabeto único foi inventado em 1949 e tem uma comunidade de investigação ativa que desenvolve recursos e tecnologia para ele atualmente. Punjabi (Shahmukhi) é a variedade do Punjabi escrita em escrita perso-árabe (Shahmukhi) e é a língua mais falada no Paquistão.

(Shahmukhi) é a variedade do Punjabi escrita em escrita perso-árabe (Shahmukhi) e é a língua mais falada no Paquistão. O t amazight (Amazigh) é uma língua berbere falada no Norte de África. Embora existam muitos dialetos, a forma escrita é geralmente compreensível para todos. Escreve-se em escrita latina e em escrita Tifinagh, ambas suportadas pelo Google Tradutor.

(Amazigh) é uma língua berbere falada no Norte de África. Embora existam muitos dialetos, a forma escrita é geralmente compreensível para todos. Escreve-se em escrita latina e em escrita Tifinagh, ambas suportadas pelo Google Tradutor. Tok Pisin é um crioulo de base inglesa e a língua franca da Papua-Nova Guiné. Se fala inglês, tente traduzir para Tok Pisin - talvez consiga perceber o significado!

Finalmente é referido o suporte ao português de Portugal

As línguas têm uma enorme quantidade de variações: variedades regionais, dialetos, diferentes padrões ortográficos. De facto, muitas línguas não têm uma forma padrão, pelo que é impossível escolher a variedade "certa".

Na informação partilhada no seu blog, a abordagem é dar prioridade às variedades mais utilizadas de cada língua. Por exemplo, o Romani é uma língua que tem muitos dialetos em toda a Europa. Os modelos produzem um texto que se aproxima mais do Romani do Vlax do Sul, uma variedade comummente utilizada online. Mas também misturam elementos de outras, como o Vlax do Norte e o Romani dos Balcãs.

Aqui, conforme é descrito pela da empresa, cabe o português de Portugal. E, apesar da versão atual da aplicação Google Tradutor não estar ainda a fazer esta destrinça, a ideia será haver uma maior correção na tradução do nosso idioma.

Pode começar a traduzir a partir de translate.google.com ou através da app Google Translate para Android e para iOS.