This thesis focuses on acoustic and prosodic (fundamental frequency (F0), duration, intensity) analyses of French from large-scale audio corpora portraying different speaking styles: prepared and spontaneous speech. We are interested in particularities of segmental phonetics and prosody that may characterize pronunciation. In French, many errors caused by automatic speech recognition (ASR) systems arise from frequent homophone words, for which ASR systems depend on language model weights. Automatic classification (AC) was conducted to discriminate homophones by only acoustic and prosodic properties depending on their part-of-speech function or their position within prosodic words. Results from AC of two homophone pairs, et/est (and/is) and à/a (ton/has), revealed that the et/est pair was more discriminable. A selection of prosodic and inter-phoneme attributes, that is 15 attributes, performed as good results as with 62 attributes. Then corresponding perceptual tests have been conducted to verify if humans also use acoustico-prosodic parameters for the discrimination. Results suggested that acoustic and prosodic information might help in operating the correct choice in similar ambiguous syntactic structures. From the hypothesis that pronunciation variants were due to varying prosodic constraints, we examined overall prosodic properties of French on a lexical and phrase level. The comparison between lexical and grammatical words revealed F0 rise and lengthening at the end of final syllable on lexical words, while these phenomena were not observed for grammatical words. Analyses also revealed that the mean profile of a n length noun phrase could be different from that of a n length noun with a low F0 at the beginning of a noun phrase. The prosodic profiles can be helpful to locate word boundaries. Findings in this thesis will lead to localize focus and named-entity using discriminative classifiers, and to improve word boundary locations by an ASR post-processing step.

Cette thèse porte sur des analyses acoustiques et prosodiques du français à partir de grandes masses de données orales illustrant différents styles de parole (préparée et spontanée). Nous nous sommes intéressées aux attributs acoustiques et prosodiques qui pourraient caractériser la prononciation. En français, de nombreuses erreurs de reconnaissance automatique de la parole (RAP) sont dues à des mots fréquents homophones. Pour ces mots, la solution correcte dépend du modèle de langage. Une classification automatique (CA) a été effectuée pour discriminer deux paires homophones (‘et/est’ et ‘à/a’) par des propriétés acoustiques et prosodiques. Les résultats de la CA ont montré que le paire ‘et/est’ était plus dissociable. La CA par des attributs prosodiques et inter-segmentaux (15 attributs) s’est avérée aussi performante que celle utilisant la totalité des 62 attributs. Un test perceptif a été également effectué pour vérifier si les humains utilisaient eux aussi ces paramètres. Les résultats ont suggéré que des informations acoustiques et prosodiques pourraient être utiles pour effectuer un choix correct de mots dans des structures syntaxiquement ambigües. Ensuite, nous avons examiné des propriétés prosodiques globales aux niveaux du nom et du syntagme nominal. La comparaison entre mots lexicaux et grammaticaux a montré que la fréquence fondamentale (F0) montante et l’allongement vocalique de la dernière syllabe caractérisent les mots lexicaux, par opposition aux mots grammaticaux. Ainsi, le profil de F0 moyenne d’un syntagme nominal de longueur n pourrait être différent de celui du nom avec une valeur de F0 basse au début du syntagme. Les profils prosodiques peuvent être utiles pour localiser frontières de mots. Les résultats de ce travail pourront servir à localiser le focus et les entités-nommées par des classifieurs discriminants, et de manière plus générale à améliorer les techniques de localisation des frontières des mots pour la RAP.

Large-scale acoustic and prosodic investigations of french

Analyses acoustiques et prosodiques du français à partir de grandes masses de données orales

Abstract