CHANTER

Projet ANR Cha(nt)N(umérique)Te(mps)R(éel)

Outils pour utilisateurs

Outils du site


projets:start

English version

Projets

L’objectif du projet est de réaliser et de tester l’utilisation de systèmes de synthèse de chant de haute qualité, avec prononciation des paroles. Le synthétiseur fonctionne sur deux modes :

  • Le mode « Chant à partir du texte » (Text‑To‑Chant : TTC) dans lequel l’utilisateur doit saisir le texte à chanter et les notes de la partition (durées et hauteurs), que la machine transforme en son, en temps différé.
  • Le mode « Instrument chanteur » dans lequel l’utilisateur utilise des interfaces de contrôle temps réel pour contrôler le synthétiseur de chant comme un instrument.

Chant à partir du texte

Il s’agit de réaliser un système de synthèse de voix chantée à partir des paroles et de la partition. La synthèse par sélection d’unités a été choisie.

Réalisation d'un corpus

En premier lieu un corpus de texte pour couvrir les diphones du français à été construit. Acapela a testé différentes approches pour couvrir ces unités avec des textes français et au final nous obtenons en sortie d'ʹun algorithme greedy coverage une liste de 770 mots à enregistrer (monosyllabiques et di‑syllabiques qui ont des fréquences d'apparition assez élevées en français + quelques séquences à l'interface de mots, e.g. « pont onde », « biche fin »…). Début avril nous avons enregistré Marlène Schaff et Raphael Treiner sur un sous-ensemble des mots ci‑dessus qui a été calculé pour pouvoir interpréter des extraits de chansons populaires françaises + 1 extrait lyrique (Carmen). La supervision de ces sessions avec les partenaires a permis de s'assurer de la faisabilité du projet et aussi de procéder à des ajustements. En décembre 2014/janvier 2015 nous avons enregistré Raphael Treiner (style Yves Montand), Eléonore Lemaire (style lyrique) et Marlène Schaff (style Céline Dion). Chacune des voix correspond à 897 fichiers wav, et grâce à l'expérience acquise sur la maquette nous les avons segmenté automatiquement en phonèmes et en mots. Pendant une seconde phase nous avons revu manuellement chacun de ces fichiers pour ajuster les frontières de phonèmes et/ou ajouter des coups de glottes, respirations etc. Ces fichiers de segmentation ont été mis à la disposition des partenaires pour la mise au point des premiers systèmes.

Synthèse concaténative à partir du texte

Ces enregistrement se sont accompagnés du développement d’un système TTC (text-to-chant) fonctionnel, basé sur la concaténation de diphones avec le moteur SuperVP. Des moteurs de synthèse alternatifs basés sur le modèle aHM, et PaReSy ont été étudiés pour le système TTC. Un premier modèle de génération automatique de la mélodie (f0) permettant de reproduire des variations propres à différents styles de chant a été développé, ainsi qu’un algorithme pour la transformation du timbre. Celui-ci a déjà été intégré au système pour des transformations de l’intensité et pourra s’appliquer à la suite à d’autres propriétés du timbre.


Instruments Chanteurs

Un instrument chanteur permet de contrôler une voix de synthèse en temps réel. Il est donc composé d'un moteur de synthèse vocale et d'une interface de contrôle, faisant le lien entre geste du musicien et synthétiseur. L'enjeu de la conception d'instruments chanteurs est double : il s'agit d'abord de concevoir une interface permettant une grande richesse de possibilités musicales, associant identité sonore, finesse de contrôle, expressivité et un important potentiel d'exploration. Il est ensuite nécessaire de développer un moteur de synthèse fonctionnant en temps-réel, c'est-à-dire étant capable de produire un son en réponse aux gestes du musicien.

Interfaces étudiées

La tablette graphique

L'attrait pour cet outil peut être justifié de trois manières. D’abord, du point de vue technologique, la tablette est un outil de qualité fournissant de multiples paramètres à hautes résolutions spatiales et temporelles. Les tablettes Wacom Intuos 5M possèdent une résolution de 5080 lignes par pouce (0.005 mm) et 2048 niveaux de pression et la résolution temporelle de ces tablettes est de 5 ms avec un stylet et 20 ms avec les doigts. Ces faibles résolutions produisent l'illusion que le son et le geste sont connectés par une causalité directe, comme un instrument de musique acoustique.

Ensuite, un son synthétique est d'autant plus réaliste que ses paramètres ne sont pas statiques. Par conséquent, l'interface doit suggérer des gestes précis, reproductibles, intuitifs et dynamiques. Le stylet, initialement conçu pour du dessin sur ordinateur, remplit ces critères en proposant un geste connu et pratiqué depuis l'enfance : l'écriture. Comparé à la souris ou au trackpad, la tablette offre la possibilité de jouer de légères modulations de paramètres, essentielles pour la qualité du son. La technologie tactile utilise l'avantage de l'utilisation massive de ses doigts sur tablettes ou smartphones.

Le Dualo Du-touch

Plus d'informations : http://dualo.org/le-principe-dualo/

Les instruments développés

Aujourd'hui, deux instruments chanteurs ont été développés: le Cantor Digitalis et Calliphony. Ces deux logiciels utilisent une tablette graphique comme interface de contrôle. Le contrôle de la mélodie et de la force de voix sont effectués à l'aide d'un stylet tenu par la main principale, et l'articulation des voyelles et/ou consonnes se contrôle avec l'autre main. Chacun de ces instruments utilise une méthode de synthèse qui lui est propre.

Cantor Digitalis

Le Cantor Digitalis utilise un synthétiseur vocal paramétrique, produisant un son entièrement artificiel dont les propriétés sont modifiables par un ensemble de paramètre. Il implémente le modèle source-filtre linéaire et acoustique de la production de la voix. La “source”, i.e. la vibration des cordes vocales est calculée par le Causal-Anticausal Linear Model (CALM). Les paramètres de source sont combinés pour contrôler la mélodie et quatre dimensions vocales : la tension de la voix, le souffle, la rugosité, et l'effort vocal. Le “filtre”, i.e. l'influence des conduits buccal et nasal sur le son de source, est calculé par une structure parallèle de résonateurs du second ordre appelés formants. Les paramètres de filtre sont combinés pour contrôler l'articulation des voyelles du français.

L'ensemble des paramètres de source (mélodie et qualité vocale) et de filtre (articulation) sont contrôlables continûment sur la tablette graphique ou à l'aide de la souris sur une interface dédiée. Le stylet sur la tablette contrôle les paramètres de source : sa position sur l'axe horizontal définit la mélodie, et sa pression est liée à l'effort vocal. La position d'un doigt dans un triangle vocalique permettra de contrôler l'articulation. L'emplacement des notes ainsi que des voyelles cibles du français sont affichés sur la tablette graphique. Le musicien peut donc contrôler la note avec précision et de façon expressive en faisant glisser le stylet sur la tablette, et peut également articuler les voyelles de façon naturelle en faisant glisser son doigt au sein du triangle vocalique.

/*La méthode de synthèse qui y est utilisée est dite “par règles”. 5 filtres passe-bande modélisent les 5 premiers formants d'un signal de voix chantée. Leur gain, leur fréquence de coupure et leur largeur de bande sont fixés pour toutes les voyelles orales du Français. Ces paramètres sont ensuite interpolés lors de transitions voyelle-voyelle afin de produire une articulation convaincante.*/

Pour plus d'informations : https://cantordigitalis.limsi.fr/

Calliphony

Calliphony est un système de modification de signaux de parole préenregistrés. Il offre la possibilité de contrôler en temps réel la hauteur et le rythme du signal enregistré. Tout comme le Cantor Digitalis, la note et l'effort vocal sont contrôlés à l'aide d'un stylet tenu par la main principale. La question du contrôle du pitch ayant été déjà largement explorée lors des travaux portant sur le Cantor Digitalis, la question qui se pose aujourd’hui est la suivante : Comment contrôler le rythme de la parole et du chant ?

Dans la littérature, une syllabe est composée de 3 parties : l’attaque, le noyau vocalique et la coda. Pour ce qui est du contrôle du rythme en temps réel, le principe de la syllabe doit être mis de côté afin de mettre en évidence celui des phases rythmiques. Nous allons définir pour le Français deux types de phase rythmique : la phase vocalique, correspondant aux voyelles, et la phase consonantique, correspondant aux consonnes. Une première méthode de contrôle consiste donc à assimiler la phase vocalique à l'appui d'une touche, et la phase consonantique à son relâchement: le musicien déclenchera une voyelle en enfonçant la touche de contrôle, et une consonne en la relâchant. Dans un contexte musical, ce mode de contrôle peut être parfois gênant, car il ne permet aucune liberté sur la durée des transitions entre voyelles et consonnes. La précision du contrôle des transitions, et donc du rythme, peut être améliorée en remplaçant l’interface binaire qu’est la touche par une interface continue de type potentiomètre.

Ce système permettra le contrôle temps-réel de la synthèse concaténative de voix chantée à partir du texte développée par l'IRCAM et Acapela dans le cadre de ce projet.

projets/start.txt · Dernière modification: 2016/01/29 17:01 par pointal