Chat with us, powered by LiveChat

Processo de desenvolvimento de tradução automática neural personalizada

Para lançar um novo Motor de tradução automática neural personalizado (CNMTE), a Trusted Translations precisa de um período de treinamento e configuração iniciais. Em seguida, é apresentado um processo de implementação típico para a construção de um novo motor NMT.

Selecionando um motor de base

Uma enorme quantidade de conteúdo está sendo desenvolvida na democratização de algoritmos. No entanto, esse conceito deve ser mais abrangente. Por exemplo, a democratização das soluções tecnológicas está começando a deixar os motores de base robustos, uma boa base sobre a qual construir uma solução personalizada. As ofertas de serviços do Google, Microsoft ou Amazon ajudarão a alimentar seus próprios dados limpos para motores que já estão bem treinados.

Seleção de dados e preparação do corpus

Existem várias abordagens para a coleta de dados de treinamento para a construção de um motor personalizado.

  • Conteúdo traduzido existente:

    O ponto de partida ideal para qualquer motor de tradução automática neural personalizado é encontrar e utilizar material previamente traduzido, envolvendo conteúdo que seja o mais semelhante possível ao que se deseja traduzir. Quanto mais material previamente traduzido estiver disponível, mais barato e rápido será o processo. Se a origem e o destino não estiverem associados como unidades de memória de tradução, um alinhamento poderá ser realizado para obter o conteúdo bilíngue necessário para aumentar o desempenho do motor

  • Dados monolíngues existentes:

    Se houver quantidades suficientes de conteúdo de referência de tradução, é possível aproveitar todo o estilo e terminologia, adicionando-os à mistura. É provável que esse conteúdo tenha sido desenvolvido do zero pelas SME locais, e seu valor é inigualável. É desnecessário dizer que a terminologia específica do domínio ou mesmo do cliente é um excelente trunfo ao personalizar os motores baseados na tecnologia NMT, cuja terminologia foi identificada como sua principal fraqueza.

  • Criando um corpus especializado a partir de outras fontes:

    Além de utilizar dados monolíngues, pesquisaremos na web materiais que sejam alinhados o máximo possível com o conteúdo que será executado no motor. Novamente, investir tempo na busca do corpora de melhor qualidade sempre compensa. O mesmo se aplica aos dados bilíngues que podem ser obtidos nos mercados de dados. Os dados paralelos encontrados na web precisarão ser limpos (verificação ortográfica, verificação de alinhamento, exclusão de duplicatas, etc.) antes de serem usados ​​como dados de treinamento para um sistema MT. Quantidades muito maiores de envolvimento manual são necessárias neste cenário quando comparado com quando o cliente é capaz de fornecer desde o início quantidades suficientes de dados alinhados de boa qualidade. Levará de 4 a 6 semanas para construir o novo motor.

Conforme mais e mais resultados são pós-editados, isso pode ser convertido em dados de treinamento de boa qualidade. Esse modelo adaptável fará com que a qualidade do resultado do sistema melhore rapidamente com o passar do tempo.

Reciclagem: Novos CNMTEs melhoram com pós-edição humana

Existem vários fluxos de trabalho que envolvem motores de tradução automática neural personalizados. Uma configuração comum é integrar um processo humano de pós-edição. Neste fluxo de trabalho, o resultado do Motor de tradução automática neural personalizado é editado por um de nossos linguistas especializados para melhorar a qualidade do resultado atual, bem como para reciclar o motor para futuras traduções. Enquanto o revisor modifica o resultado para melhorar sua qualidade, o motor se torna mais inteligente usando um modelo adaptável dinâmico. À medida que mais traduções passam pelo motor, mais inteligente ele se torna. Em outras palavras, a diferença de qualidade entre uma tradução completamente humana e essa solução diminui drasticamente, enquanto o tempo de entrega e os custos estão sendo significativamente reduzidos. Na nossa opinião, esses motores se tornarão um recurso e um diferencial de mercado para qualquer cliente que tenha essa necessidade.