6m715u

Volume 12 number 1

Pages: 64-70


Slabas Como Unidades Fonticas Para o Reconhecimento Automtico de Voz Contnua em Portugus

Sidney Cerqueira Bispo dos Santos, Abraham Alcaim

    Dep Eng Eltrica - IME - DE/3
    Pa Gen Tibrcio, 80 - Praia Vermelha
    22290 - 000 Rio de Janeiro - RJ
    Tel/Fax: (021) 546 7030
    E-mail: [email protected]
    CETUC - PUC Rio
    Rua Marqus de So Vicente, 225 Gvea
    22453-900 Rio de Janeiro RJ
    Tel (021) 529 92 54, 529 93 84
    E-mail: [email protected]
Resumo:
Este artigo examina o papel das slabas como unidades fonticas (UF) em Sistemas de Reconhecimento de Voz Contnua (RVC) para o portugus. Essas unidades possuem um desempenho muito pobre em reconhecedores baseados em lngua inglesa e uma possvel razo para isso que o ingls no possui uma diviso silbica trivial. O portugus, por outro lado, uma lngua silbica por natureza onde a slaba o ncleo com que se formam as palavras. Essas unidades se tornam atraentes pelo seu nmero reduzido quando comparado ao nmero necessrio de trifones para a mesma tarefa, alm do seu grau de consistncia, quando comparadas aos fones independentes do contexto. Foram realizados dois testes. Os resultados obtidos, 98,81% no modo dependente do locutor e 95,01% no modo independente do locutor, permitem concluir que as slabas so UFs bastante atraentes para utilizao no RVC quando o nmero de modelos a serem treinados pequeno. Entretanto, para dicionrios grandes o nmero de modelos torna o treinamento invivel, quando ento, outras unidades am a ser mais atraentes. Com base nesses resultados e nos trabalhos de reconhecimento de voz para a lngua inglesa, conclui-se que as slabas possuem um desempenho melhor para o idioma portugus do que para o idioma ingls.
Palavras Chave: Reconhecimento de voz contnua; unidades fonticas.
Abstract: Syllables as phonetic units in Portuguese-based continuous speech recognition systems.
This paper examines the role of syllables as phonetic units (PU) in Portuguese-based continuous speech recognition (CSR) systems. These units have not shown promising results for the English language. This is probably due to the fact that English does not have a trivial syllabic splitting. However, in the Portuguese language these structures are simple and constitute the nucleus on which words are formed. They are attractive due to the extremely reduced number, as compared to triphones, and because of their consistency, as compared to context-independent units. The test results (98.81% in the speaker-dependent mode and 95.01% in the speaker-independent mode) allow us to conclude that syllables are attractive PUs for small-sized vocabularies CSR schemes. However, for large vocabularies the inventories may be excessively large and other units may be more appealing. Based on these results, we conclude that syllables offer a better performance for Portuguese than for the English language.
Keywords: Continuous speech recognition; phonetic units.

PDF copy (95 kbytes)

Back to Volume 12 index.


Click here to obtain
get acrobat reader
Last modifications:
by jro