Manuel du transcripteur
Conventions de transcription pour
les enregistrements radio-t�l�diffus�s
Version 1.22, f�vrier 2005
(valable avec les version 1.4.1 et plus r�centes de Transcriber)
- Respiration
- Autres bruits de bouche et de gorge
- Ajout des conventions de transcriptions pour les préfixes agglutinés ou non-agglutinés (cf. �� 3.1.11))
- Mise � jour des conventions d'annotations des mots mals prononc�s : ceux-ci doivent toujours �tre pr�c�d�s d'une �toile m�me si une balise de prononciation effective "+[pron=...]" est pr�sente (cf. �� 3.3.6)
- Ajout de conventions concernant la segmentation des passages sans locuteurs (musique, jingle, etc.) par cr�ation d'un tour de parole sans locuteur (cf. �� 2.3.1)
- Correction de l'orthographe de "pourcent" qui doit s'�crire "pour cent".
- Diverses modifications mineures : mise en coh�rence des pr�sentes conventions avec l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...] devient [pron=...] ...
- Conventions concernant les tours de parole traduite simultan�ment explicit�es (cf. �� 2.3.4)
- Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. �� 3.1.7)
- Mise � jour des conventions concernant les chiffres romains (cf. �� 3.1.9) et les adresses internet (�� 3.1.10)
- L'exemple de
France-Inter
est remplac� par la graphie officielleFrance Inter
. - Ajout de pr�cisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. �� 3.2.3)
- Explicitation de l'utilisation du raccourci % (cf. fin �� 3.1.7)
- Le marquage des entit�s sp�cifiques par des guillemets est rendu facultatif dans l'attente de conventions plus d�taill�es (cf. �� 3.1.1)
- Abandon de la notation
.point
ou,virgule
pour la ponctuation �pel�e. - L'enregistrement correspond � la totalit� de l'enregistrement � transcrire.
- L'enregistrement est d�coup� en sections, d�limitant les parties des �missions � transcrire, les encha�nements journalistiques, ou les parties non-transcrites.
- � l'int�rieur d'une section on va distinguer les tours de parole (turn) qui correspondent � des changements de locuteur.
- Les tours de paroles sont eux-m�mes d�coup�s en segments plus courts au moyen de points de synchronisation. La transcription proprement dite n'intervient qu'� ce niveau de structuration.
- A certains points de synchronisation, des changements durables de bruit de fond sont indiqu�s ; cette segmentation en conditions acoustiques est ind�pendante de la structuration en tours et sections.
- D�marrez Transcriber (cf. manuel de r�f�rence !)
- Cr�ez une nouvelle transcription avec le menu [
Fichier
]/[Nouvelle transcription
]. Une fen�tre de dialogue propose de choisir le fichier son � transcrire. - Indiquez les informations g�n�rales associ�es
� l'enregistrement dans la fen�tre [
Fichiers
]/[Param�tres de l'�pisode
]. - Si vous voulez r�utiliser certains locuteurs ou sujets d'une
transcription pr�c�dente, vous pouvez le faire d�s
� pr�sent avec [
Edition
]/[Locuteurs
]/[Importer � partir du fichier...
] et [Edition
]/[Sujets
]/[Importer � partir du fichier...
]. - Enregistrez la nouvelle transcription vide avec [
Fichier
]/[Enregistrer
]. Un nom par d�faut d�riv� du nom du signal sera propos�. - Enregistrez la configuration avec [
Options
]/[Enregistrer la configuration
], afin de r�ouvrir automatiquement ces fichiers au prochain d�marrage - l'identit� du transcripteur (par exemple
Claire Montaigne
) est automatiquement remplie ; - le nom du fichier son � transcrire (par exemple
france-inter980428-0700:0820
) est automatiquement renseign� ; - la date et le num�ro de version de la transcription sont automatiquement renseign�s par le logiciel et ne peuvent pas �tre modifi�s ;
- le programme: la provenance du document sonore (c'est-�-dire
qui a enregistr�), la cha�ne qui a diffus� le
document (par exemple
France Inter
) et le nom de l'�mission (par exempletranche matinale 7-9
) ; - la date de diffusion ;
- la langue principale de diffusion.
- d�but et fin d'�locution,
- respiration,
- ponctuation,
- mauvaise prononciation,
- bruit instantan�,
- d�but et fin de musique...
- Choisissez une r�solution d'environ 30 secondes pour l'affichage du signal.
- Lancez la restitution � partir du d�but du signal ou du d�but de la section non encore transcrite.
- Pendant la restitution, � chaque instant correspondant �
un changement de locuteur ou une zone de silence, une pause, une respiration,
un changement de conditions acoustiques... ins�rez une fronti�re
en pressant la touche
Return
. Une nouvelle ligne pr�c�d�e d'un petit cercle appara�t dans la fen�tre de texte, et la segmentation sous le signal est scind�e au niveau du curseur. - Affichez le signal � une r�solution d'environ 30 secondes ou plus et �coutez le signal.
- Si un nouveau locuteur prend la parole au d�but du segment courant,
indiquez le d�but d'un nouveau tour de parole avec [
Segmentation
]/[Cr�er un tour...
] ou le raccourciControl-t
. - Le locuteur du tour doit �tre identifi� :
- Si le locuteur est connu et existe d�j� dans la liste, il suffit de cliquer sur son nom.
- Pour un nouveau locuteur, le nom peut �tre tap� directement
au clavier. Si l'identit� est inconnue cliquez simplement sur
Cr�er un locuteur
. Les caract�ristiques du locuteur (l'orthographe pr�cise de son nom, le genre, l'accent...) peuvent �tre modifi�es plus tard. - S'il s'agit de parole superpos�e, validez l'option correspondante et identifiez le deuxi�me locuteur de la m�me fa�on.
- D'autres caract�ristiques du tour (type de parole, canal, qualit�) peuvent �ventuellement �tre renseign�s.
- Des tours de parole sp�cifiques avec l'indication "Pas de locuteur" doivent �tre utilis�s pour les passages sans parole (musique, jingle, silence,etc.) d'une dur�e significative ( de l'ordre de 1s ou plus ) :
- un identificateur du locuteur,
- le type de parole : pr�par�, spontan�
- la qualit� du son : bon, moyen, faible
- le canal de transmission : intervention t�l�phonique ou prise en studio
- le nom du locuteur s'il est identifi�, sinon un num�ro de locuteur avec un qualificatif (au titre duquel l'inconnu est intervenu dans l'�mission).
- le statut : orthographe connue ou incertaine.
- le sexe du locuteur :
homme, femme, inconnu
- langue maternelle : oui/non.
- l'accent : on peut sp�cifier ici les diff�rents accents : r�gionaux, francophones, �trangers.
- le statut global/local : un nom est global s'il est identifiable en dehors du contexte de la transcription (par exemple, un journaliste, un homme politique connu, etc.)
- Un locuteur parle, et un autre intervient ponctuellement par des interjections
(
hum oui
...) ; il convient de noter ces derni�res comme de simples bruits se superposant � la parole. - Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles � un niveau moindre (par exemple la voix d'un traducteur est superpos�e � la voix d'origine) ; seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type parole ou conversation) doit �tre utilis�.
- Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent simultan�ment sur plusieurs mots. Le m�canisme de gestion de parole simultan�e d�crit ci-apr�s peut �tre appliqu�. En cas de difficult�, les segments pourront �tre annot�s comme parole "non-transcrite" .
- Si plus de deux locuteurs interviennent � un fort niveau sonore, il faut annoter la portion de signal comme "non-transcrite".
- Les segments de type report r�f�rent �
des parties d'�mission � transcrire (journal, chronique...).
Pour chaque section journalistique, le transcripteur peut indiquer un th�me
g�n�ral (
journal, revue de presse, chronique, politique, faits de soci�t�, �conomie, bourse, culture, sports, m�t�o
) choisi dans une liste pr�d�finie, suivi �ventuellement d'un titre r�sum�. - Les segments de type filler ne concernent pas directement le th�me journalistique abord�, mais r�f�rent plut�t � l'organisation r�dactionnelle, � l'encha�nement des journalistes ou des invit�s etc.
- Les segments de type non-trans sont les parties de l'enregistrement
dont la transcription n'est pas souhait�e ; il convient d'indiquer
au moins la nature de ces segments suivi �ventuellement d'un titre
r�sum� (par exemple :
publicit� - les pr�ts malins du CA
). - Affichez le signal � une r�solution d'environ 30 secondes ou plus et �coutez le signal.
- A chaque changement d'�mission ou de sujet (et en fonction des
consignes donn�es), indiquez le d�but d'une nouvelle section
avec [
Segmentation
]/[Cr�er une section...
] ou le raccourciControl-e
. - Indiquez pour chaque section :
- le type de la section :�report, filler, non-transcribed
- un th�me g�n�ral (
journal, politique int�rieure, international
,
bourse, �conomie, culture, sports, m�t�o, faits de soci�t�, revue, chronique, ...)
suivi �ventuellement d'une courte description du sujet. - Choisissez une r�solution d'environ 10 secondes ou moins pour l'affichage du signal.
- Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans le texte ou � la position dans le signal.
- Ecoutez ce segment avec [
Signal
]/[Joue le segment
] ou un des raccourcisShift-Tab
ouAlt-Tab
; vous pouvez faire une pause ou red�marrer � tout moment avec [Signal
]/[Joue/Pause
] ou le raccourciTab
. - Si n�cessaire, ajustez la fronti�re entre le segment
et son voisin en cliquant sur cette fronti�re avec la touche
Control
enfonc�e (ou avec le bouton du milieu) puis en d�pla�ant la souris. - Tapez la transcription au clavier ; elle appara�t simultan�ment dans l'�diteur de texte et dans la segmentation sous le signal.
- Certains �v�nements (bruits divers, respirations...)�peuvent
�tre indiqu�s avec des balises sp�ciales par [
Edition
]/[Ins�rer une balise
]/[...] ouControl-d
. - Les changements durables de condition acoustique (bruits de fond persistants)�sont
� indiquer avec [
Segmentation
]/[Ins�rer un bruit de fond
]. - la cat�gorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale, de changement de langue, ou un commentaire.
- la description du bruit ou de l'�v�nement par une cha�ne de caract�res ; des valeurs pr�d�finies sont propos�es dans un menu.
- l'�tendue de la balise - balise instantan�e, de d�but ou de fin, ou encore appliqu�e au mot pr�c�dent ou suivant.
- Si le bruit advient entre deux mots le code est affich� comme un mot, c'est-�-dire s�par� des mots voisins par des blancs : parole1 [b] parole2
- Si le bruit se superpose au mot pr�c�dent ou suivant,
� l'affichage le code correspondant est accol� au mot
avec le caract�re + (mais le transcripteur n'a pas �
taper ce caract�re)
Affichage : parole+[b] - Si le bruit se superpose � plusieurs mots, des marqueurs de
d�but et de fin seront utilis�s.
Affichage : parole1 [b-] parole2 [-b] parole3
le bruit de type [b] commence avant parole2 et se termine avant parole3. - [r] : respiration
- acte physiologique :
- [i] : inspiration
- [e] : expiration
- [n] : reniflement
- acte volontaire :
- [pf] : souffle (on entend par souffle un acte de respiration volontairement bruyant pour marquer son d�saccord ou sa mauvaise humeur, pour retenir un rire, ...)
- [bb] : bruit de bouche (ce code regroupe les bruits de l�vres, de langue ou autre combinaison, ...)
- [tx] : toux, r�clement de gorge, �ternuement
- [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx )
- [rire] : rires du locuteur
- [sif] : sifflement du locuteur
- [ch] : le locuteur se parle en voix chuchot�e pour faire un
commentaire
[ch-]voix chuchot�e
[-ch] - [b] : bruit ind�termin�
- [conv] : conversations dans le fond : il peut s'agir de personnes pr�sentes, de public, de voitures, ...
- [pap] : froissement de papiers.
- [mic] : bruits micros.
- la nature : musique, parole ou conversations, bruit �lectrique, autre...
1. Introduction
-
1.1 Documents audios concern�s
1.2 Objectifs du manuel
1.3 Versions
2. Structuration de la transcription
2.1. Enregistrement
2.2. Segmentation du signal
-
2.2.1. O� segmenter?
2.2.2. Comment segmenter?
2.3. Tours et locuteurs
-
2.3.1. Comment cr�er les tours de parole?
2.3.2. Caract�ristiques des tours
2.3.3. Caract�ristiques des locuteurs
2.3.4. Parole simultan�e
2.4. Sections et th�mes
-
2.4.1. Que faut-il transcrire?
2.4.2. Type et th�me des sections
2.4.3. Comment indiquer les sections?
2.5. Transcription orthographique
-
2.5.1. Comment transcrire?
2.5.2. Conventions de transcription
2.5.3. Transcription ou prononciation ambigu�
2.6. Bruits et conditions acoustiques
-
2.6.1. Comment noter les bruits ?
2.6.2. Bruits de l'appareil phonatoire (non-parole)
2.6.4. Changement de conditions acoustiques
2.7 Commentaires
3. Conventions de transcription
3.1. Conventions d'�criture
-
3.1.1. Majuscules/minuscules
3.1.2. Ponctuations
3.1.3. Apostrophe
3.1.4. Trait d'union
3.1.5. Sigles
3.1.6. Abr�viations
3.1.7. Nombres
3.1.8. Dates
3.1.9. Chiffres romains
3.1.10. Adresses internet
3.1.11. Préfixes agglutinés ou non-agglutinés
3.2. Mots hors-lexique
-
3.2.1. Mots d'origine �trang�re, changement
de langue
3.2.2. Noms propres �trangers
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus
3.3. Sp�cificit�s du langage parl�
-
3.3.1. Onomatop�es
3.3.2. R�p�titions
3.3.3. Elisions & formes r�duites
3.3.4. Troncatures
3.3.5. Lapsus
3.3.6. Prononciation erron�e
3.3.7. Liaisons
3.3.8. �pellations
3.3.9. Ponctuation verbalis�e
4. V�rification
1. Introduction
La cr�ation manuelle de transcriptions d'enregistrements de journaux radio- ou t�l�diffus�s, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.
1.1. Documents audios concern�s
Les enregistrements de journaux radio- ou t�l�diffus�s pr�sentent un contenu vari� : le signal acoustique peut correspondre � de la parole, de la musique ou du bruit, mais �galement � des m�langes de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversit� de locuteurs et de th�mes abord�s. Plusieurs personnes peuvent intervenir sur un sujet donn� successivement, voire simultan�ment. La qualit� acoustique de l'enregistrement (fid�lit�) peut varier de mani�re consid�rable au cours du temps. La dur�e de tels enregistrements peut varier de quelques dizaines de minutes � plusieurs heures.
Pour l'instant nous nous int�ressons plus particuli�rement aux nouvelles (journal, flash, revue de presse, incluant m�t�o et bourse, �conomie, faits de soci�t� ...) dans le document sonore. Toute autre forme d'enregistrement (publicit�s, jeux, fictions....) ne sera pas transcrite.
1.2. Objectifs du manuel
Nous d�crivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou t�l�diffus�s. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu th�matique, des locuteurs et de la qualit� acoustique. Les informations produites � ce sujet sont nomm�es annotations. La parole de chaque locuteur doit aussi �tre transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit �tre port�.
Les diff�rentes �tapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections th�matiques, la transcription orthographique, et la v�rification. Ces �tapes peuvent �tre men�es en parall�le ou au contraire appliqu�es s�quentiellement sur de longues portion du signal, suivant le choix du transcripteur.
1.3. Versions
version 1.2.2 (février 2005) :
version 1.2.1 (mars 2004) :
version 1.2 (octobre 2003) :
version 1.1 (juillet 2003) :
version 1.0 (juin 1999) : La premi�re version stable du pr�sent manuel.
2. Structuration de la transcription
L'�tape d'annotation vise � structurer les enregistrements, c'est-�-dire � segmenter et � d�crire le signal acoustique � diff�rents niveaux jug�s pertinents pour le traitement ult�rieur. Il s'agit ici principalement de l'identit� du locuteur, de l'identification du contenu th�matique, ou de la qualit� du canal de transmission (acoustique).
Actuellement, un document de transcription est structur� de la mani�re la suivante :
2.1. Enregistrement
2.1.1. Comment transcrire un nouvel enregistrement?
Par la suite, pensez � enregistrer fr�quemment votre travail
avec [Fichier
]/[Enregistrer
] ou le raccourci Control-s
,
surtout si vous n'avez pas activ� la sauvegarde automatique. Par
ailleurs, un double affichage du signal (un avec une r�solution
de 10 secondes, l'autre de une minute environ) peut �tre pratique.
2.1.2. Caract�ristiques de l'enregistrement
Les informations associ�es � un enregistrement, �dit�es
avec [Fichiers
]/[Param�tres de l'�pisode
],
sont les suivantes :
Pour des enregistrements de m�me nature (par exemple sur plusieurs jours) il convient de respecter la m�me nomenclature pour des programmes identiques.
2.2. Segmentation du signal
Pour fournir des rep�res temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en ins�rant des balises temporelles instantan�es de synchronisation (ou fronti�res).
2.2.1. O� segmenter?
Nous recommandons de faire correspondre ces balises � des groupes de souffle dans le signal ou � des marques de ponctuation dans le langage �crit. Pour des raisons techniques du traitement ult�rieur il est �galement souhaitable de fournir une balise de synchronisation apr�s diff�rents types de probl�mes au niveau acoustique (mots mal prononc�s, bruit court superpos� � un mot...).
En r�sum�, l'insertion d'une fronti�re de synchronisation est recommand� dans les situations suivantes :
2.2.2. Comment segmenter?
Vous obtenez une segmentation grossi�re d'une partie du signal en intervalles de 5 � 20 secondes en moyenne. Il est possible de positionner les fronti�res plus pr�cis�ment par la suite.
2.3. Tours et locuteurs
� ce niveau on d�crit la succession de tours de parole avec les diff�rents locuteurs qui interviennent.
2.3.1. Comment cr�er les tours de parole?
NB : Les balises de bruit de fond ne doivent �tre utilis�es que pour annoter un ph�nom�ne en arri�re plan. Ainsi, prenons l'exemple d'un segment ne contenant que de la musique, il devra �tre annot� � l'aide d'une balise [musique] sans indication de bruit de fond, qui serait alors une redondance puisque l'information temporelle du segment d�limite d�j� l'�venement dans le temps et la balise en donne son type.

A la cr�ation d'un tour, le locuteur propos� par d�faut est l'avant-dernier utilis�, ce qui est pratique dans le cas d'un dialogue.
2.3.2. Caract�ristiques des tours
Pour chaque tour de parole le transcripteur indique :
et �ventuellement si cela est demand� :
2.3.3. Caract�ristiques des locuteurs
Pour chaque nouveau locuteur le transcripteur indique :
Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des diff�rentes �missions radio et t�l� fran�ais dans le guide M�diaSid.
On consid�re tout francophone (fran�ais, belge, suisse, qu�b�cois) de langue maternelle fran�aise.
2.3.4. Parole simultan�e
Il faut distinguer diff�rentes situations de parole superpos�e :
Dans le cas de parole traduite simultan�ment, les r�gles pr�c�demment �nonc�es s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un tour de paroles sera cr��. Pour les autres cas (moins d'un mot prononc� seul ou traducteur s'exprimant simultan�ment) on ins�rera une balise bruit de fond de type parole. L'int�gralit� du passage traduit sera encadr� par deux balises de type commentaire: {traduction-}....{-traduction} :
Dans le cas de parole simultan�e avec deux locuteurs (cas
num�ro 3), le deuxi�me locuteur est identifi� dans
la fen�tre des param�tres du tour apr�s avoir valid�
Parole superpos�e
. L'affichage dans le logiciel est par
exemple :
Patricia Martin + Invite1�
1: �videmment d�couvert que
2:
enfin n'oubliez pas
Dans la transcription, 1: va identifier les paroles (�videmment
d�couvert que) du premier locuteur (Patricia Martin
)
et 2: les paroles (enfin n'oubliez pas) du deuxi�me
locuteur Invite1
. Les fronti�res au niveau du signal seront
pos�es au niveau des fronti�res de mot, de sorte �
inclure dans le segment ainsi d�coup�, toute la parole superpos�e
(par exemple si le mot enfin du locuteur 2 ne d�marre qu'�
la fin du mot �videmment du locuteur 1, ce dernier est quand
m�me inclus dans le segment).
Cependant la transcription de ce type de signal est tr�s co�teuse. � l'heure actuelle on ne sait pas traiter de mani�re satisfaisante la parole superpos�e et les transcriptions, m�mes si elles sont produites, ne sont pas encore exploit�es. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superpos�e sans transcription, avec �ventuellement un commentaire d�crivant la situation ou le contenu du dialogue.
2.4. Sections et th�mes
La structuration compl�te d'un enregistrement peut �tre complexe : une succession d'�missions, compos�es de sections journalistiques, subdivis�es elles-m�mes en rubriques th�matiques... En l'�tat actuel du logiciel, il faut choisir un seul niveau de d�coupage (en sections journalistiques ou en rubriques th�matiques) et les fronti�res des segments ne sont pas toujours �videntes ; une structuration plus fine est envisag�e pour l'avenir.
2.4.1. Que faut-il transcrire?
Un enregistrement peut contenir des segments sans int�r�t pour le traitement automatique ult�rieur. Les transcriptions sont limit�es aux �missions d'information avec les messages d'introduction et de conclusion. Le reste sera annot� non-transcribed, c'est-�-dire inexploitable et ne sera pas transcrit.
2.4.2. Type et th�me des sections
Un enregistrement est d�coup� en sections de 3 types :
2.4.3. Comment indiquer les sections?
2.5. Transcription orthographique
Nous abordons ici les probl�mes de transcriptions des segments de parole. Ces conventions concernent d'abord la parole pour laquelle la transcription graph�mique peut �tre ambigu�. Elles sont n�cessaires ensuite pour coder les bruits, cat�gorie dans laquelle on regroupe tous les �v�nements acoustiques non assimilables � des mots (ou entr�es lexicales) de la langue.
2.5.1. Comment transcrire?
2.5.2. Conventions de transcription
La transcription graph�mique doit permettre de pr�dire
au mieux la prononciation du locuteur. Si une m�me s�quence
graph�mique permet de g�n�rer diff�rentes prononciations
(typiquement les dates qu'on peut �noncer en utilisant mille
et cent
), on adoptera des conventions capables de lever l'ambigu�t�.
Les conventions concernent aussi les �l�ments de la langue
pour lesquels la transcription n'est pas unique (typiquement les sigles
et les �pellations, ou encore les nombres qu'on peut �crire
sous forme de s�quence de chiffres ou comme s�quence de mots).
Dans tous les cas, les conventions adopt�es visent � standardiser
la forme graph�mique attendue pour minimiser l'ambigu�t�,
�ventuellement en utilisant des balises de prononciation. Les conventions
n'�tant pas exhaustives le transcripteur peut adopter par d�faut
une �criture telle qu'on peut la trouver dans des textes de journaux.
Les conventions de transcription sont d�taill�es dans la 3�me partie.
2.5.3. Transcription ou prononciation ambigu�
La balise de prononciation permet de rajouter par dessus une graphie � prononciation multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description levant l'ambigu�t� de la prononciation.
Il est difficile d'�noncer une r�gle stricte ici. La balise de prononciation permet de sp�cifier si un mot a �t� prononc� de mani�re peu standard, l'interpr�tation du standard d�pendant �videmment du transcripteur. On peut utiliser la balise de prononciation aussi pour n'importe quel autre commentaire relatif � la prononciation d'un mot (par exemple le marquage du -euh typique en fin de mot de l'accent parisien).
2.6. Bruits et conditions acoustiques
Parmi les bruits on peut trouver de la parole ne correspondant pas � des mots proprement dits de la langue (mots tronqu�s, erron�s, ... dont le cas est trait� dans les conventions de transcription), des bruits �mis par le locuteur (par son appareil phonatoire, mais qui ne sont pas de la parole, et donc dans la plupart des cas non-superpos�s � la parole : bruits de bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources diff�rentes de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus g�nants parce qu'ils se superposent en g�n�ral � la parole, d�gradant ainsi la qualit� du signal enregistr�. Les sources de bruit peuvent �tre, sur le lieu d'enregistrement, le locuteur lui-m�me ou son environnement : bruits d'�couteur ou froissements de papiers en g�n�ral produits par le locuteur pendant qu'il parle, conversations annexes, radio, t�l�, claquements de porte, horloge, bruits de voiture, ... Le syst�me d'enregistrement radio-t�l�diffus� peut �galement g�n�rer des bruits : bruits de micro, craquements de ligne t�l�phonique, bips, effet Larsen, raccrochement t�l�phone, ... Enfin certains bruits peuvent provenir du syst�me de diffusion (parasites) ou d'enregistrement (souffle �lectrique).
2.6.1. Comment noter les bruits ?
Pour les bruits instantan�s ou de courte dur�e, le transcripteur
cr�e une balise de bruit par [Edition
]/[Ins�rer
une balise
]/[Bruit instantan�
] ou Control-d,
et indique :
Par d�faut, les balises de bruit sont affich�es entre crochets. Si le bruit s'�tend sur plusieurs mots on peut s�lectionner les mots et ins�rer une balise ; les marqueurs de d�but et de fin seront automatiquement ins�r�s autour.
Pour les bruits de longue dur�e, une autre proc�dure est d�taill�e plus loin (paragraphe 2.6.4).
2.6.2. Bruits de l'appareil phonatoire (non-parole)
Ici nous consid�rons des bruits produits par l'appareil phonatoire du locuteur enregistr� : en g�n�ral ces bruits ne se superposent pas � la parole, sauf quand la personne parle en chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de d�but et de fin : [rire-] je voudrais [-rire]).
Pour ne pas trop compliquer la t�che du transcripteur (� identifier la nature exacte du bruit) les codes de bruit marqu�s en gras sont � utiliser par d�faut pour un type de bruit donn�. Si le transcripteur a envie de marquer plus particuli�rement un bruit donn�, il peut choisir un des codes propos�s en retrait de la marge ; cependant, ces diff�rences ne sont actuellement pas exploit�es.
Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de synchronisation (afin de poser un rep�re pour la segmentation automatique).
Respiration
Autres bruits de bouche et de gorge
2.6.3. Bruits ext�rieurs � l'acte de parole
Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent se produire � n'importe quel instant de l'enregistrement, et peuvent donc se superposer au signal de parole, d�gradant ainsi sa qualit�.
Tout bruit de nature ind�termin�e ou non-r�pertori� dans ce document peut �tre not� comme suit :
Bruits dus � l'environnement et au mat�riel d'enregistrement
2.6.4. Changement de conditions acoustiques
Lorsqu'un bruit s'�tend sur une longue dur�e (bruit de fond persistant), un syst�me de marquage sp�cifique doit �tre utilis�. La balise de bruit de fond est une balise instantan�e d�crivant un changement durable ans les conditions acoustiques. L'information apport�e par cette balise reste valable � l'int�rieur d'un m�me enregistrement jusqu'� l'apparition d'une nouvelle balise de bruit de fond, ou bien jusqu'� la fin de l'enregistrement.
Le transcripteur positionne le curseur temporel � l'instant du
changement de conditions acoustiques, choisit [Segmentation
]/[Ins�rer
un bruit de fond
] et indique :
Une ic�ne de note de musique appara�t dans le texte � la position courante.
Si le changement de conditions acoustiques est associ� aux conditions
d'enregistrement et li� au tour de parole (par exemple, une intervention
t�l�phonique de tr�s mauvaise qualit�), il
sera plus pratique d'utiliser le champ Fidelit�=low
dans
les param�tres du tour de parole [Segmentation
]/[Param�tres
du tour...
] , plut�t que la balise de bruit de fond.
2.7. Commentaires
Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les conditions acoustiques ) � transcrire. Le transcripteur peut �galement faire ici des remarques sur ce qui lui para�t utile pour faciliter la transcription.
3. Conventions de transcription
Concernant la transcription l'id�e de base consiste � focaliser l'attention sur ce qui appara�t en premier plan. Si de multiples sources sonores sont pr�sentes il convient de focaliser la transcription sur la source la plus �mergente. Par exemple on entend en arri�re-plan une personnalit� parler une langue �trang�re, un traducteur donnant la version fran�aise en premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. On entend de la musique en premier plan avec des commentaires en arri�re-plan. On peut annoter un tel segment comme musique avec comme bruit de fond de la parole (non transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux gr�ce au m�canisme de parole superpos�e. Cependant de mani�re g�n�rale on fait l'hypoth�se qu'il n'y a qu'une source sonore unique au premier plan.
De mani�re g�n�rale, dans tous les segments de parole qui ont �t� annot�s transcribed (sections report ou filler), tout ce qui est entendu doit �tre transcrit : la transcription doit fournir la s�quence orthographique exacte correspondant � ce que le locuteur a prononc�, � laquelle il faut rajouter dans la mesure du possible tous les �v�nements extra-lexicaux pr�sents dans le signal acoustique (les r�p�titions, h�sitations, troncatures, bruits).
3.1. Conventions d'�criture
Le produit de la transcription est essentiellement une s�quence de mots s�par�s par des espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions acoustiques et diverses informations permettant de lever l'ambigu�t� de prononciation. Autant que possible, il convient de respecter l'orthographe standard des mots. La ponctuation sert � marquer les fronti�res syntaxiques et prosodiques claires.
Dans la suite les ic�nes repr�sentent :
= le locuteur dit
=
le transcripteur �crit
3.1.1. Majuscules/minuscules
Tout est transcrit en minuscules (pas de majuscule syst�matique en d�but de phrase). L'emploi des majuscules est r�serv� � la transcription des �pellations et des sigles, au d�but des noms propres et dans des formules de politesse.
Pour les noms propres d'organisation assimilables � des marques (tels que les journaux, les banques...) et utilisant des noms communs, les noms communs en question sont �crits avec des initiales majuscules.
as-tu lu Le Monde, L'Humanit� et Le Dimanche ... les journalistes du Monde, de L'Humanit� et du Dimanche ... au Cr�dit Lyonnais
Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules que le premier mot d'un sigle :
le Front national est au bord de l'implosion
Pour les noms de lieux on adopte la convention d'�crire en minuscule le nom commun. S'il est suivi d'un nom propre, celui-ci a �videmment son initiale en majuscule.
le lyc�e Anatole France l'op�ra Garnier
Des mots communs ayant fonction de nom propre (par exemple : titres d'�missions, de films, de livre, d'institutions ) s'�crivent entre guillemets. � l'int�rieur des guillemets les noms communs sont �crits en minuscules.
Par exemple :
"le t�l�phone sonne" de ce soir sera consacr� � "la cha�ne de l'espoir" "le monde d'est en ouest et du nord au sud" sur France Inter "regards sur le monde" , Dominique Bromberger bonjour ! bienvenue � "radio com , c'est vous" aux Etats-Unis , le "Monica gate" continue euh , je pr�f�re "Tomb raider" le chanteur de "divine com�die" des associations comme "m�decins du monde" le prix Louis-Delluc pour C�dric Kahn et son film "l'ennui" sortie aujourd'hui de "� la place du coeur" de Robert Gu�diguian un bel exemple de Le Cl�zio dans "la fi�vre" "neuf mois marathon" , Marie-C�cile Picquet , aux �ditions "hors commerce" une grande op�ration "mains propres" a �t� lanc�e le "conseil �conomique et social" ils ont gagn� la "terre promise"
Pour les sigles �tendus (c'est-�-dire prononc�s en toutes lettres) la suite de mots composant le sigle est entour�e de guillemets. Les noms communs y sont �crits en minuscules.
le "fond mon�taire international" a fonctionn� le "commissariat � l'�nergie atomique" l'"agence France presse"
Notes : cette utilisation des guillemets demande � �tre pr�cis�e. Dans l'attente d'un v�ritable guide d'annotation des entit�s sp�cifiques, elle est facultative.
Enfin, on met une majuscule � monsieur (ainsi qu'� madame, mademoiselle ...) dans les formules de politesse comme indiqu� dans l'exemple :
est-il vrai Monsieur le pr�fet que, ...
mais
le monsieur qui ...
3.1.2. Ponctuations
Il est recommand� de mettre des marques de ponctuation l� o� il y a des pauses dans le signal qui correspondent � des fronti�res syntaxiques, ou bien dans le cas o� l'absence de ponctuation engendre une ambigu�t� dans le texte.
Attention : il faut pr�c�der les signes de ponctuations d'un blanc.
les fleurs sont fan�es , le pain est devenu sec
.
Les marqueurs de ponctuations sont indicateurs du mode de l'�nonc�
:
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', h�sitation
``...'', etc.
Ces informations sont fortement li�es � la prosodie et �
la compr�hension. Il est recommand� d'accompagner les marques
de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise
de synchronisation , permettant de segmenter).
3.1.3. Apostrophe
Il n'y a pas de s�parateur entre l'apostrophe et le mot suivant.
l'horaire l'arriv�e jusqu'�
3.1.4. Trait d'union
Les mots li�s par un trait d'union sont �crits normalement sans s�paration par un blanc.
apr�s-midi voulez-vous anglo-saxons
Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer graphiquement le lien par un slash entour� de blancs.
dans le Nord
/ Pas-de-Calais
/
le trajet Paris Toulouse
3.1.5. Sigles
Par d�faut : les sigles sont not�s par des majuscules non s�par�s par des blancs.
s n c f
SNCF
otan
OTAN
c d rom, ina p g
CDROM, INA PG
Uniquement dans les cas d'ambigu�t�, la distinction entre un sigle prononc� comme un mot et un sigle prononc� comme une suite de lettres se fera par l'ajout devant le sigle d'un underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est �pel�, par exemple:
l' onu ou l'o n u, c'est selon
l'_ONU
ou l'!ONU
, c'est selon
On peut observer des expressions complexes compos�es de sigles et de mots ou de fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple :
JCSat
+[pron=J C sat] ,
RMIste , Smicard , Pacser , l'autoroute A10 , l'association AC!
La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui �tait � l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on consid�rera qu'� partir de 5 lettres un acronyme lu est lexicalis� et donc �crit en minuscules sauf la premi�re lettre :
Medef , Insee , Staps , Pacs� , Assedic (sigle lu, 5 lettres ou plus)
IFOP , SMIG , SFOR , PACS , ENA
(sigle lu, 4 lettres ou moins)
FM , ETA , CFDT , EHESS , FNSEA , DGCCRF
(sigle �pel�)
Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des journaux: RMiste, CDROM....
3.1.6. Abr�viations
Il existe dans la langue des abr�viations standards comme
etc pour et caetera. Les transcripteurs utilisent etc
�sans
point accol�.
et caetera
etc
okay
OK
3.1.7. Nombres
Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond � la syntaxe standard de prononciation des nombres (�crire la suite de mots est toujours autoris�, mais cela demande plus de travail et peut g�n�rer plus d'erreur de la part du transcripteur).
soixante mille
60000
ou bien 60
mille
soixante millions
60000000
ou bien
60 millions
Attention: il ne faut pas introduire d'espace entre les chiffres!
vingt virgule cinquante-sept
20,57
ou bien 20 virgule 57
un franc cinquante
1 franc 50
Attention: il ne faut pas �crire: 1,50 francs !
cent cinquante-huit
litres virgule neuf
158 litres virgule 9
Les fractions de l'unit� (demi, tiers...) seront �crits en toutes lettres:
deux tiers
deux tiers
ou 2 tiers
Attention: il ne faut pas �crire: 2/3 !
Les nombres ordinaux seront �crits en toutes lettres:
le troisi�me
le troisi�me
Attention: il ne faut pas �crire: le 3�me !
Le signe moins pouvant �tre confondu avec le tiret, il sera �crit en toutes lettres, ainsi que plus, fois, �gale, etc. La seule exception est "pour cent", qui sera �crit % :
moins dix degr�s
moins 10 degr�s
trois pour cent
3 %
3.1.8. Dates
Pour les dates dont la prononciation peut �tre ambigu� (dix-neuf cent ou mille neuf cent), on utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot pr�c�dent (ou suivant). Le choix propos� par d�faut est "19 cent...", il faudra veiller � le modifier manuellement en fonction du si�cle en question, exemple pour 1660 on utilisera "16 cent..."
mille neuf cent
quatre-vingts
1980
dix-neuf cent quatre-vingts
1980
+[pron=19
cent...]
3.1.9. Chiffres romains
Ils peuvent �tre utilis�s dans les noms de roi ou de pape (qui servent souvent � d�signer des lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de prononciation s'appliquant au mot pr�c�dent (ou suivant).
l'h�tel Charles
cinq
l'h�tel Charles
V
+[pron=(chiffres romains:) 5]
le stade Louis deux
le stade Louis II
+[pron=(chiffres romains:) 2]
3.1.10. Adresses internet
Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle qu'elle s'�crit (habituellement tout en minuscules), et en ajoutant une balise de prononciation s'appliquant au mot pr�c�dent (ou suivant).
telsonne at radio
tiret france point f r
telsonne@radio-france.fr
+[pron=(URL:) telsonne at radio tiret France point FR]
w w w point radio
tiret france point f r
www.radio-france.fr
+[pron=(URL:) WWW point radio tiret France point FR]
Dans le cas de pr�sence d'inspirations, d'h�sitations... au milieu de l'URL, celles-ci seront annot�es dans la balise prononciation, par exemple il faut �crire :

www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point FR]
Attention: il ne faut pas �crire:
www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR]
Dans le cas cas particulier d'une URL scind�e, par exemple prononc�e par plusieurs locuteurs, transcrire comme dans cet exemple :
3.1.11. Préfixes agglutinés ou non-agglutinés
anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ; inter ; intra ; macro ; micro ; para ; poly ; super ; sur ; télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ; post ; pseudo ; pré ; ...
On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire différentes règles orthographiques concernant les préfixes.
Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus, nous devons mettre à plat des règles que nous suivrons systématiquement lors des transcriptions.
Ci-dessous sont présentées les règles à appliquer :
ANTI :
--> toujours collé (antiaméricain) sauf :
- avant un i (anti-infectieux, anti-israélien),
- un mot lui-même composé (anti-sous-marin)
- dans les mots forgés pour la circonstance (anti-Bush)
exemples :
antiallemand
antiaméricains
antiaméricanisme
antiarabe
anticastriste
antichars
antichimique
antisectes
antisémites
antitabac
anti-destin
anti-incendie
anti-israélien
anti-israélienne
anti-israéliennes
ARCHI
:
--> toujours collé (archicomble) sauf avant un i
AUTO
:
--> toujours collé (autoallumage) sauf :
- avant un i (auto-immune),
- avant un verbe,
- si auto = voiture et non soi-même (auto-école).
exemples :
autoévaluation
auto-détruire
auto-proclamé
auto-répliqué
auto-école
BI
:
--> toujours collé
bicylindre
bimoteur
CO :
--> toujours collé (coauteur) sauf :
- devant un i, le i devient ï (coïnculpé)
coprésidé
colocataire
EXTRA
:
--> toujours
collé (extraconjugal, extraterrestre) sauf :
- devant i, a, u (extra-atmosphérique)
extraconjugales
extraterrestre
extra-atmosphérique
GIGA
:
--> toujours collé
HYPER
:
--> toujours collé
hypersport
HYPO :
--> toujours collé
INTER :
--> toujours collé
interauriculaire
intergouvernementale
interprofessionnelles
interreligieux
INTRA :
--> toujours collé sauf :
- devant i, a , u (intra-atomique, intra-utérin), et dans intra-muros
MACRO
:
--> toujours collé
macroéconomie
MICRO :
--> toujours collé (microentreprenariat) sauf :
- devant i, o (micro-informatique, micro-onde)
microétats
micro-ordinateur
micro-onde
PARA :
--> toujours collé (paramilitaire) sauf :
- devant i, a , u
POLY :
--> toujours collé
SUPER :
--> toujours collé
SUR :
--> toujours collé
surachalandé
TÉLÉ :
--> toujours collé
CONTRE :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
contretemps (dans le dictionnaire)
contre-allée
contre-attaque
contre-attaques
contrebande
contre-emploi
contre-espionnage
contre-expertise
contre-feu
contre-feux
contre-manifestations
contre-menaces
contre-offensive
contre-performances
contre-pied
contre-pouvoir
ENTRE :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
entrechocs
entre-temps
entre-deux
entre-déchirent
NÉO :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
néo-frontiste
néo-nazis
néo-zélandais
OUTRE :
--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme "outremer"
lorsqu'il désigne une couleur, une nuance de bleu.
Dans une expression adverbiale "outre" signifie "au delà de"
outre-Manche
outre-Rhin
outre-mer
QUASI :
--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale)
devant un adjectif :
quasi estivales
quasi militaires (les commandes quasi militaires du...)
devant un nom :
quasi-fin
quasi-homme
devant un nom/adjectif, cela dépend du contexte:
quasi-inconnu ou quasi inconnu
une chose quasi inconnue…
un quasi-inconnu… (très rare)
CRYPTO :
--> toujours collé
MINI :
--> toujours collé
minijupe
minibus
minicassette
minichaîne
minisérie
minisommet
ULTRA :
-->
la tendance est à l'agglutination
ultraguerrières
ultraprudente
ultrarépressive
ultrasimple
ultrason
ultraroyaliste
ainsi que pour :
POST, PSEUDO, PRÉ, SIMILI, SUB :
--> pas de règle précise, très souvent écrit avec un tiret
Autres préfixes souvent écrits avec un tiret, et en tout cas normalement pas agglutinés :
arrière-
avant-
demi-
deux-
double-
ex-
faux-
non-
sans-
semi-
sous-
vice-
Quelques autres mots souvent inclus dans des mots composés à tirets :
court(s)-
date(s)-
grand(s)-
-clé(s)
-culte(s)
-fleuve(s)
-record(s)
-type(s)
3.2. Mots hors-lexique
3.2.1. Mots d'origine �trang�re, changement de langue
Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne font pas partie du parler fran�ais.
Les mots d'origine �trang�re (et absorb�s dans
la langue avec une prononciation donn�e) ne sont pas marqu�s
(par exemple week-end
, playstation,
business
prononc�s
� l'anglaise). On consid�re ces prononciations comme ``standard''.
En revanche des prononciations peu communes devront �tre signal�es
(par exemple les correspondants � l'�tranger d�marrant
leur intervention par buon giorno di Roma
, good morning from
London
... ).
�changeant des potins
[lang=anglais-]
cashing up with gossip
[-lang=anglais]
�a s'appelle l'
[lang=anglais-] easy
listening
[-lang=anglais]
cela reviendra � l�galiser le sabouba
+[lang=arabe]
Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots �trangers, m�me si la transcription est simplement acoustique. Un segment de longue dur�e en langue �trang�re doit �tre annot� non-trans.
3.2.2. Noms propres �trangers
Les noms propres Beatles
, Clinton
, les sigles CNN
,
CBS
prononc�s � l'anglaise correspondent au standard
; � l'inverse une prononciation � la fran�aise inhabituelle
doit �tre sp�cifi�e par une balise de prononciation
:
Bill Clinton , en fran�ais Guillaume Clinton
+[pron=fran�ais]
Pour des noms propres comme Morgan
le standard d�pend
�videmment du contexte (Mich�le Morgan
ou Nelson
Morgan
par exemple). Mais pour des noms propres comme Benjamin
,
le contexte peut ne pas �tre suffisant : Benjamin Netanyahou
peut admettre diff�rentes prononciations.
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus
Cette section concerne les probl�mes d'�criture qui se posent pour des n�ologismes, entit�s idiosyncrasiques, des mots techniques .
Dans un contexte particulier des mots nouveaux peuvent appara�tre.
Ces mots ne font pas partie du vocabulaire de la langue courante, et sont
souvent ignor�s des gens ext�rieurs � ce domaine particulier.
Ceci est vrai pour des domaines techniques sp�cialis�s, mais
se rencontrent fr�quemment aussi dans le milieu journalistique (par
exemple le terme de pu-putch
a �t� employ�
plusieurs fois d�but d�cembre 98). Ces mots sont �
consid�rer comme des entit�s lexicales � part enti�re.
Lorsque l'orthographe se d�duit sans ambigu�t�, il suffit de l'�crire sans balise suppl�mentaire :
un t�l�virenquethon ? �a ne sonne pas
tr�s bien
le greige , quelque part entre gris et beige
la primature du chef est publiquement mise en cause
Des noms propres inconnus (souvent d'origine �trang�re) peuvent admettre plusieurs graphies en fran�ais. Afin de pouvoir normaliser ces graphies lors d'un traitement ult�rieur, il est important de marquer les mots qui posent probl�mes.
R�gle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est incertaine (non fig�e, et qu'un compl�ment d'information permettrait de corriger ou confirmer), seront pr�c�d�s par deux accents circonflexes :
^^mot_inconnu
Exemples :
^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^R�resse ^^Micoine
^^Ita� ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella
^^Zweta�eva ...
De mani�re �quivalente, une balise de commentaire lexical peut �tre utilis�e :
^^Gu�det
ou Gu�det
+[lex=orthographe incertaine]
Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira la premi�re venant � l'esprit) :
cl�
ou clef
,
cuill�re
ou cuiller
,
a�roclub
ou a�ro-club
,
CDROM
ou c�d�rom
, etc
^^Mich�le
ou ^^Michelle Martin
;
^^Dani�le
ou ^^Danielle Durand
; mais
Mich�le Morgan
; Danielle
, avec 2 L ,
3.3. Sp�cificit�s du langage parl�
Lorsqu'on �coute attentivement le signal, on se rend compte que des parties de mots, voire des mots entiers peuvent avoir disparus.
On peut �tre tent� de marquer graph�miquement les r�ductions produites par le locuteur. La consigne � suivre ici est de respecter l'orthographe standard: ne pas marquer, dans l'�criture, l'�lision ou la r�duction pr�sente dans la parole. On peut utiliser la balise de prononciation ou la balise de commentaire, si on veut d�crire les ph�nom�nes observ�s.
3.3.1. Onomatop�es
Les onomatop�es font partie de la langue et sont � transcrire au m�me titre que les autres mots. Les plus fr�quentes existent en g�n�ral en tant que mots graph�miques, pour toutes les autres on devra cr�er des mots correspondants et maintenir cette liste � jour.
euh , ben, eh, hein, ah, hum, oh, h�, ouahou, huhum, hou, hop, a�e ...
Exemples :
euh on voit que les ... , ah , comment dire et en fait euh bon ben l'indice Nikkei et non pas Mickey hein ! eh bien , h� oh comme vous dites ! hou l� l� une �tude sur le le hum () ouahou , chic alors ! on en parle plus , hop .
3.3.2. R�p�titions
Les r�p�titions ne portent pas d'information et on tenterait naturellement de les �liminer dans un processus de transcription d'une dict�e. Elles doivent �tre transcrites comme tout autre mot.
le le le d�put� ...
3.3.3. Elisions & formes r�duites
La r�duction peut porter sur un seul mot ou une suite de mots, par exemple:
orches' de chambre
| s'i 'ous pla�t | qu'i soit | dans c' domaine
orchestre de chambre
| s'il vous pla�t
| qu'il soit
| dans ce domaine
Remarque: La r�duction de qu'il
en qu'i'
est transcrite qu'il
et non pas qui
.
Autres exemples:
i' y a ou bien
y a
il y a
ou bien (il)
y a
On peut �crire (il) y a
si le il
est absent
de mani�re �vidente. Mais nous tenons � souligner
qu'il est inutile de faire des �coutes r�p�t�es
pour d�cider si le il
est pr�sent ou non.
Dans le langage parl� le ne
de la n�gation est
tr�s souvent omis. Dans ce cas on ne l'�crit pas.
j'en sais rien
j'en sais rien
chais pas ou
bien chsais pas ou bien ...
je sais pas
ou bien
je (ne) sais pas
mais y a pas d'
raison qu'i' soit pas l�
mais il y a pas de raison
qu'il soit pas l�
ou bien mais (il n') y a pas de raison qu'il (ne) soit pas l�
3.3.4. Troncatures
Les mots tronqu�s peuvent provenir de deux origines diff�rentes : soit le locuteur s'arr�te avant la fin du mot, soit le locuteur est coup� par le syst�me d'enregistrement. Dans ce dernier cas le mot peut �tre tronqu� au d�but : le locuteur a commenc� � parler avant le d�but de l'enregistrement. La troncature est marqu�e par des parenth�ses. Si le mot tronqu� est connu (gr�ce au contexte) on note la partie manquante du mot entre parenth�ses.
notation : ()
vou()
: troncature finale de voudrais, voulais
,...
()embre
: troncature initiale de septembre, novembre, d�cembre
,...
apr�s-de(main)
: le mot complet peut �tre d�duit
du contexte
3.3.5. Lapsus
Il arrive que la prononciation erron�e soit un mot correct de la langue. Dans ce cas, on transcrit les mots tel qu'ils ont �t� prononc�s.
une augmentation
cons�quence euh cons�quente
une augmentation cons�quence
euh cons�quente
3.3.6. Prononciation erron�e
Si on arrive � identifier le mot mal prononc�, on �crit le mot correct pr�c�d� d'une �toile.
notation : *mot-correct
pestacle
*spectacle
La prononciation effective peut �tre, en plus, signal�e par une balise :
r�num�ration
*r�mun�ration
+[pron=r�num�ration]
S'il s'agit de parole inintelligible, on utilise la notation
suivante :
notation : [pi]
Si la parole est inintelligible parce qu'il s'agit de parole inaudible
et faible, on peut noter ce type d'�v�nement, si on veut
la diff�rencier du cas ci-dessus, par :
notation : [pif]
Le transcripteur est invit� � ins�rer une balise de synchronisation pr�s du mot (juste apr�s le mot) mal prononc� (afin de poser un rep�re pour la segmentation automatique dans cette zone erron�e).
3.3.7. Liaisons
On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erron�es sont relev�es par la balise de prononciation.
vingt-z-animaux
vingt
+[pron=vingt-z]
animaux
trop-z ennuyeux
il voudrait-z y aller
trop
+[pron=trop-z]
ennuyeux il voudrait y aller
3.3.8. �pellations
Toutes les lettres sont not�es en majuscules s�par�es
par des blancs, p. ex :
P A R I S
L'�pellation des lettres accentu�es peut conduire �
diff�rentes transcriptions, suivant l'�nonc� du locuteur,
par exemple :
� accent
aigu
� accent aigu
e accent aigu
E accent aigu
Remarque : l'�pellation des lettres redoubl�es peut donner lieu � diff�rentes transcriptions. Par exemple le locuteur doit �peler Vannes :
v a n n e s
V A N N E S
v a deux n e s
V A 2 N E S
3.3.9. Ponctuation verbalis�e
Si un locuteur �nonce la ponctuation (comme s'il faisait une dict�e, verbalized punctuation) on �crit le mot correspondant en toutes lettres :
cent-cinq point
cinq
105 point 5
4. V�rification
4.1. Comment v�rifier la transcription ?
- Ecoutez le signal tout en lisant la transcription. Stoppez et red�marrez
aussi souvent que n�cessaire. Utilisez de pr�f�rence
la commande [
Signal
]/[Joue le segment
] ouShift-Tab
. - La transcription est � modifier dans l'�diteur de texte. Dans une future version du logiciel, un correcteur orthographique devrait �tre disponible pour la correction des fautes d'orthographe (et plus g�n�ralement des fautes de frappe).
- Les fronti�res des segments peuvent �tre d�plac�es ou supprim�es
- Les tours de paroles et les sections sont �ditables en cliquant sur le bouton correspondant.
- La correction orthographique est disponible par [
Edition
]/[Correction orthographique
]