Manuel du transcripteur
Conventions de transcription pour
les enregistrements radio-télédiffusés
Version 1.22, février 2005
(valable avec les version 1.4.1 et plus récentes de Transcriber)
- Respiration
- Autres bruits de bouche et de gorge
- Ajout des conventions de transcriptions pour les préfixes agglutinés ou non-agglutinés (cf. §§ 3.1.11))
- Mise à jour des conventions d'annotations des mots mals prononcés : ceux-ci doivent toujours être précédés d'une étoile même si une balise de prononciation effective "+[pron=...]" est présente (cf. §§ 3.3.6)
- Ajout de conventions concernant la segmentation des passages sans locuteurs (musique, jingle, etc.) par création d'un tour de parole sans locuteur (cf. §§ 2.3.1)
- Correction de l'orthographe de "pourcent" qui doit s'écrire "pour cent".
- Diverses modifications mineures : mise en cohérence des présentes conventions avec l'interface graphique de Transcriber ([lexical=...] devient [lex=...], [pronounce=...] devient [pron=...] ...
- Conventions concernant les tours de parole traduite simultanément explicitées (cf. §§ 2.3.4)
- Ajout de conventions concernant les nombres fractionnaires et ordinaux (cf. §§ 3.1.7)
- Mise à jour des conventions concernant les chiffres romains (cf. §§ 3.1.9) et les adresses internet (§§ 3.1.10)
- L'exemple de
France-Inter
est remplacé par la graphie officielleFrance Inter
. - Ajout de précisions sur l'utilisation du marqueur d'orthographe incertaine ^^ (cf. §§ 3.2.3)
- Explicitation de l'utilisation du raccourci % (cf. fin §§ 3.1.7)
- Le marquage des entités spécifiques par des guillemets est rendu facultatif dans l'attente de conventions plus détaillées (cf. §§ 3.1.1)
- Abandon de la notation
.point
ou,virgule
pour la ponctuation épelée. - L'enregistrement correspond à la totalité de l'enregistrement à transcrire.
- L'enregistrement est découpé en sections, délimitant les parties des émissions à transcrire, les enchaînements journalistiques, ou les parties non-transcrites.
- À l'intérieur d'une section on va distinguer les tours de parole (turn) qui correspondent à des changements de locuteur.
- Les tours de paroles sont eux-mêmes découpés en segments plus courts au moyen de points de synchronisation. La transcription proprement dite n'intervient qu'à ce niveau de structuration.
- A certains points de synchronisation, des changements durables de bruit de fond sont indiqués ; cette segmentation en conditions acoustiques est indépendante de la structuration en tours et sections.
- Démarrez Transcriber (cf. manuel de référence !)
- Créez une nouvelle transcription avec le menu [
Fichier
]/[Nouvelle transcription
]. Une fenêtre de dialogue propose de choisir le fichier son à transcrire. - Indiquez les informations générales associées
à l'enregistrement dans la fenêtre [
Fichiers
]/[Paramètres de l'épisode
]. - Si vous voulez réutiliser certains locuteurs ou sujets d'une
transcription précédente, vous pouvez le faire dès
à présent avec [
Edition
]/[Locuteurs
]/[Importer à partir du fichier...
] et [Edition
]/[Sujets
]/[Importer à partir du fichier...
]. - Enregistrez la nouvelle transcription vide avec [
Fichier
]/[Enregistrer
]. Un nom par défaut dérivé du nom du signal sera proposé. - Enregistrez la configuration avec [
Options
]/[Enregistrer la configuration
], afin de réouvrir automatiquement ces fichiers au prochain démarrage - l'identité du transcripteur (par exemple
Claire Montaigne
) est automatiquement remplie ; - le nom du fichier son à transcrire (par exemple
france-inter980428-0700:0820
) est automatiquement renseigné ; - la date et le numéro de version de la transcription sont automatiquement renseignés par le logiciel et ne peuvent pas être modifiés ;
- le programme: la provenance du document sonore (c'est-à-dire
qui a enregistré), la chaîne qui a diffusé le
document (par exemple
France Inter
) et le nom de l'émission (par exempletranche matinale 7-9
) ; - la date de diffusion ;
- la langue principale de diffusion.
- début et fin d'élocution,
- respiration,
- ponctuation,
- mauvaise prononciation,
- bruit instantané,
- début et fin de musique...
- Choisissez une résolution d'environ 30 secondes pour l'affichage du signal.
- Lancez la restitution à partir du début du signal ou du début de la section non encore transcrite.
- Pendant la restitution, à chaque instant correspondant à
un changement de locuteur ou une zone de silence, une pause, une respiration,
un changement de conditions acoustiques... insérez une frontière
en pressant la touche
Return
. Une nouvelle ligne précédée d'un petit cercle apparaît dans la fenêtre de texte, et la segmentation sous le signal est scindée au niveau du curseur. - Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.
- Si un nouveau locuteur prend la parole au début du segment courant,
indiquez le début d'un nouveau tour de parole avec [
Segmentation
]/[Créer un tour...
] ou le raccourciControl-t
. - Le locuteur du tour doit être identifié :
- Si le locuteur est connu et existe déjà dans la liste, il suffit de cliquer sur son nom.
- Pour un nouveau locuteur, le nom peut être tapé directement
au clavier. Si l'identité est inconnue cliquez simplement sur
Créer un locuteur
. Les caractéristiques du locuteur (l'orthographe précise de son nom, le genre, l'accent...) peuvent être modifiées plus tard. - S'il s'agit de parole superposée, validez l'option correspondante et identifiez le deuxième locuteur de la même façon.
- D'autres caractéristiques du tour (type de parole, canal, qualité) peuvent éventuellement être renseignés.
- Des tours de parole spécifiques avec l'indication "Pas de locuteur" doivent être utilisés pour les passages sans parole (musique, jingle, silence,etc.) d'une durée significative ( de l'ordre de 1s ou plus ) :
- un identificateur du locuteur,
- le type de parole : préparé, spontané
- la qualité du son : bon, moyen, faible
- le canal de transmission : intervention téléphonique ou prise en studio
- le nom du locuteur s'il est identifié, sinon un numéro de locuteur avec un qualificatif (au titre duquel l'inconnu est intervenu dans l'émission).
- le statut : orthographe connue ou incertaine.
- le sexe du locuteur :
homme, femme, inconnu
- langue maternelle : oui/non.
- l'accent : on peut spécifier ici les différents accents : régionaux, francophones, étrangers.
- le statut global/local : un nom est global s'il est identifiable en dehors du contexte de la transcription (par exemple, un journaliste, un homme politique connu, etc.)
- Un locuteur parle, et un autre intervient ponctuellement par des interjections
(
hum oui
...) ; il convient de noter ces dernières comme de simples bruits se superposant à la parole. - Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ; seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type parole ou conversation) doit être utilisé.
- Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être annotés comme parole "non-transcrite" .
- Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la portion de signal comme "non-transcrite".
- Les segments de type report réfèrent à
des parties d'émission à transcrire (journal, chronique...).
Pour chaque section journalistique, le transcripteur peut indiquer un thème
général (
journal, revue de presse, chronique, politique, faits de société, économie, bourse, culture, sports, météo
) choisi dans une liste prédéfinie, suivi éventuellement d'un titre résumé. - Les segments de type filler ne concernent pas directement le thème journalistique abordé, mais réfèrent plutôt à l'organisation rédactionnelle, à l'enchaînement des journalistes ou des invités etc.
- Les segments de type non-trans sont les parties de l'enregistrement
dont la transcription n'est pas souhaitée ; il convient d'indiquer
au moins la nature de ces segments suivi éventuellement d'un titre
résumé (par exemple :
publicité - les prêts malins du CA
). - Affichez le signal à une résolution d'environ 30 secondes ou plus et écoutez le signal.
- A chaque changement d'émission ou de sujet (et en fonction des
consignes données), indiquez le début d'une nouvelle section
avec [
Segmentation
]/[Créer une section...
] ou le raccourciControl-e
. - Indiquez pour chaque section :
- le type de la section : report, filler, non-transcribed
- un thème général (
journal, politique intérieure, international
,
bourse, économie, culture, sports, météo, faits de société, revue, chronique, ...)
suivi éventuellement d'une courte description du sujet. - Choisissez une résolution d'environ 10 secondes ou moins pour l'affichage du signal.
- Allez au premier segment non transcrit en cliquant sur la ligne correspondante dans le texte ou à la position dans le signal.
- Ecoutez ce segment avec [
Signal
]/[Joue le segment
] ou un des raccourcisShift-Tab
ouAlt-Tab
; vous pouvez faire une pause ou redémarrer à tout moment avec [Signal
]/[Joue/Pause
] ou le raccourciTab
. - Si nécessaire, ajustez la frontière entre le segment
et son voisin en cliquant sur cette frontière avec la touche
Control
enfoncée (ou avec le bouton du milieu) puis en déplaçant la souris. - Tapez la transcription au clavier ; elle apparaît simultanément dans l'éditeur de texte et dans la segmentation sous le signal.
- Certains événements (bruits divers, respirations...) peuvent
être indiqués avec des balises spéciales par [
Edition
]/[Insérer une balise
]/[...] ouControl-d
. - Les changements durables de condition acoustique (bruits de fond persistants) sont
à indiquer avec [
Segmentation
]/[Insérer un bruit de fond
]. - la catégorie de la balise - un bruit, une balise de prononciation, d'annotation lexicale, de changement de langue, ou un commentaire.
- la description du bruit ou de l'événement par une chaîne de caractères ; des valeurs prédéfinies sont proposées dans un menu.
- l'étendue de la balise - balise instantanée, de début ou de fin, ou encore appliquée au mot précédent ou suivant.
- Si le bruit advient entre deux mots le code est affiché comme un mot, c'est-à-dire séparé des mots voisins par des blancs : parole1 [b] parole2
- Si le bruit se superpose au mot précédent ou suivant,
à l'affichage le code correspondant est accolé au mot
avec le caractère + (mais le transcripteur n'a pas à
taper ce caractère)
Affichage : parole+[b] - Si le bruit se superpose à plusieurs mots, des marqueurs de
début et de fin seront utilisés.
Affichage : parole1 [b-] parole2 [-b] parole3
le bruit de type [b] commence avant parole2 et se termine avant parole3. - [r] : respiration
- acte physiologique :
- [i] : inspiration
- [e] : expiration
- [n] : reniflement
- acte volontaire :
- [pf] : souffle (on entend par souffle un acte de respiration volontairement bruyant pour marquer son désaccord ou sa mauvaise humeur, pour retenir un rire, ...)
- [bb] : bruit de bouche (ce code regroupe les bruits de lèvres, de langue ou autre combinaison, ...)
- [tx] : toux, râclement de gorge, éternuement
- [bg] : bruit de gorge (par exemple coup de glotte, bruit de larynx )
- [rire] : rires du locuteur
- [sif] : sifflement du locuteur
- [ch] : le locuteur se parle en voix chuchotée pour faire un
commentaire
[ch-]voix chuchotée
[-ch] - [b] : bruit indéterminé
- [conv] : conversations dans le fond : il peut s'agir de personnes présentes, de public, de voitures, ...
- [pap] : froissement de papiers.
- [mic] : bruits micros.
- la nature : musique, parole ou conversations, bruit électrique, autre...
1. Introduction
-
1.1 Documents audios concernés
1.2 Objectifs du manuel
1.3 Versions
2. Structuration de la transcription
2.1. Enregistrement
2.2. Segmentation du signal
-
2.2.1. Où segmenter?
2.2.2. Comment segmenter?
2.3. Tours et locuteurs
-
2.3.1. Comment créer les tours de parole?
2.3.2. Caractéristiques des tours
2.3.3. Caractéristiques des locuteurs
2.3.4. Parole simultanée
2.4. Sections et thèmes
-
2.4.1. Que faut-il transcrire?
2.4.2. Type et thème des sections
2.4.3. Comment indiquer les sections?
2.5. Transcription orthographique
-
2.5.1. Comment transcrire?
2.5.2. Conventions de transcription
2.5.3. Transcription ou prononciation ambiguë
2.6. Bruits et conditions acoustiques
-
2.6.1. Comment noter les bruits ?
2.6.2. Bruits de l'appareil phonatoire (non-parole)
2.6.4. Changement de conditions acoustiques
2.7 Commentaires
3. Conventions de transcription
3.1. Conventions d'écriture
-
3.1.1. Majuscules/minuscules
3.1.2. Ponctuations
3.1.3. Apostrophe
3.1.4. Trait d'union
3.1.5. Sigles
3.1.6. Abréviations
3.1.7. Nombres
3.1.8. Dates
3.1.9. Chiffres romains
3.1.10. Adresses internet
3.1.11. Préfixes agglutinés ou non-agglutinés
3.2. Mots hors-lexique
-
3.2.1. Mots d'origine étrangère, changement
de langue
3.2.2. Noms propres étrangers
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus
3.3. Spécificités du langage parlé
-
3.3.1. Onomatopées
3.3.2. Répétitions
3.3.3. Elisions & formes réduites
3.3.4. Troncatures
3.3.5. Lapsus
3.3.6. Prononciation erronée
3.3.7. Liaisons
3.3.8. Épellations
3.3.9. Ponctuation verbalisée
4. Vérification
1. Introduction
La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.
1.1. Documents audios concernés
Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.
Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.
1.2. Objectifs du manuel
Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.
Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.
1.3. Versions
version 1.2.2 (février 2005) :
version 1.2.1 (mars 2004) :
version 1.2 (octobre 2003) :
version 1.1 (juillet 2003) :
version 1.0 (juin 1999) : La première version stable du présent manuel.
2. Structuration de la transcription
L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).
Actuellement, un document de transcription est structuré de la manière la suivante :
2.1. Enregistrement
2.1.1. Comment transcrire un nouvel enregistrement?
Par la suite, pensez à enregistrer fréquemment votre travail
avec [Fichier
]/[Enregistrer
] ou le raccourci Control-s
,
surtout si vous n'avez pas activé la sauvegarde automatique. Par
ailleurs, un double affichage du signal (un avec une résolution
de 10 secondes, l'autre de une minute environ) peut être pratique.
2.1.2. Caractéristiques de l'enregistrement
Les informations associées à un enregistrement, éditées
avec [Fichiers
]/[Paramètres de l'épisode
],
sont les suivantes :
Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.
2.2. Segmentation du signal
Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).
2.2.1. Où segmenter?
Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).
En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :
2.2.2. Comment segmenter?
Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.
2.3. Tours et locuteurs
À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.
2.3.1. Comment créer les tours de parole?
NB : Les balises de bruit de fond ne doivent être utilisées que pour annoter un phénomène en arrière plan. Ainsi, prenons l'exemple d'un segment ne contenant que de la musique, il devra être annoté à l'aide d'une balise [musique] sans indication de bruit de fond, qui serait alors une redondance puisque l'information temporelle du segment délimite déjà l'évenement dans le temps et la balise en donne son type.
A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.
2.3.2. Caractéristiques des tours
Pour chaque tour de parole le transcripteur indique :
et éventuellement si cela est demandé :
2.3.3. Caractéristiques des locuteurs
Pour chaque nouveau locuteur le transcripteur indique :
Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.
On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.
2.3.4. Parole simultanée
Il faut distinguer différentes situations de parole superposée :
Dans le cas de parole traduite simultanément, les règles précédemment énoncées s'appliquent. Ainsi si on entend le locuteur traduit s'exprimer seul pendant plus d'un mot, un tour de paroles sera créé. Pour les autres cas (moins d'un mot prononcé seul ou traducteur s'exprimant simultanément) on insérera une balise bruit de fond de type parole. L'intégralité du passage traduit sera encadré par deux balises de type commentaire: {traduction-}....{-traduction} :
Dans le cas de parole simultanée avec deux locuteurs (cas
numéro 3), le deuxième locuteur est identifié dans
la fenêtre des paramètres du tour après avoir validé
Parole superposée
. L'affichage dans le logiciel est par
exemple :
Patricia Martin + Invite1
1: évidemment découvert que
2:
enfin n'oubliez pas
Dans la transcription, 1: va identifier les paroles (évidemment
découvert que) du premier locuteur (Patricia Martin
)
et 2: les paroles (enfin n'oubliez pas) du deuxième
locuteur Invite1
. Les frontières au niveau du signal seront
posées au niveau des frontières de mot, de sorte à
inclure dans le segment ainsi découpé, toute la parole superposée
(par exemple si le mot enfin du locuteur 2 ne démarre qu'à
la fin du mot évidemment du locuteur 1, ce dernier est quand
même inclus dans le segment).
Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.
2.4. Sections et thèmes
La structuration complète d'un enregistrement peut être complexe : une succession d'émissions, composées de sections journalistiques, subdivisées elles-mêmes en rubriques thématiques... En l'état actuel du logiciel, il faut choisir un seul niveau de découpage (en sections journalistiques ou en rubriques thématiques) et les frontières des segments ne sont pas toujours évidentes ; une structuration plus fine est envisagée pour l'avenir.
2.4.1. Que faut-il transcrire?
Un enregistrement peut contenir des segments sans intérêt pour le traitement automatique ultérieur. Les transcriptions sont limitées aux émissions d'information avec les messages d'introduction et de conclusion. Le reste sera annoté non-transcribed, c'est-à-dire inexploitable et ne sera pas transcrit.
2.4.2. Type et thème des sections
Un enregistrement est découpé en sections de 3 types :
2.4.3. Comment indiquer les sections?
2.5. Transcription orthographique
Nous abordons ici les problèmes de transcriptions des segments de parole. Ces conventions concernent d'abord la parole pour laquelle la transcription graphémique peut être ambiguë. Elles sont nécessaires ensuite pour coder les bruits, catégorie dans laquelle on regroupe tous les événements acoustiques non assimilables à des mots (ou entrées lexicales) de la langue.
2.5.1. Comment transcrire?
2.5.2. Conventions de transcription
La transcription graphémique doit permettre de prédire
au mieux la prononciation du locuteur. Si une même séquence
graphémique permet de générer différentes prononciations
(typiquement les dates qu'on peut énoncer en utilisant mille
et cent
), on adoptera des conventions capables de lever l'ambiguïté.
Les conventions concernent aussi les éléments de la langue
pour lesquels la transcription n'est pas unique (typiquement les sigles
et les épellations, ou encore les nombres qu'on peut écrire
sous forme de séquence de chiffres ou comme séquence de mots).
Dans tous les cas, les conventions adoptées visent à standardiser
la forme graphémique attendue pour minimiser l'ambiguïté,
éventuellement en utilisant des balises de prononciation. Les conventions
n'étant pas exhaustives le transcripteur peut adopter par défaut
une écriture telle qu'on peut la trouver dans des textes de journaux.
Les conventions de transcription sont détaillées dans la 3ème partie.
2.5.3. Transcription ou prononciation ambiguë
La balise de prononciation permet de rajouter par dessus une graphie à prononciation multiple (typiquement les nombres, les sigles/acronymes, noms propres) une description levant l'ambiguïté de la prononciation.
Il est difficile d'énoncer une règle stricte ici. La balise de prononciation permet de spécifier si un mot a été prononcé de manière peu standard, l'interprétation du standard dépendant évidemment du transcripteur. On peut utiliser la balise de prononciation aussi pour n'importe quel autre commentaire relatif à la prononciation d'un mot (par exemple le marquage du -euh typique en fin de mot de l'accent parisien).
2.6. Bruits et conditions acoustiques
Parmi les bruits on peut trouver de la parole ne correspondant pas à des mots proprement dits de la langue (mots tronqués, erronés, ... dont le cas est traité dans les conventions de transcription), des bruits émis par le locuteur (par son appareil phonatoire, mais qui ne sont pas de la parole, et donc dans la plupart des cas non-superposés à la parole : bruits de bouche, de gorge, toux, respirations) ou bien des bruits produits par des sources différentes de l'appareil phonatoire du locuteur. Ces derniers bruits sont plus gênants parce qu'ils se superposent en général à la parole, dégradant ainsi la qualité du signal enregistré. Les sources de bruit peuvent être, sur le lieu d'enregistrement, le locuteur lui-même ou son environnement : bruits d'écouteur ou froissements de papiers en général produits par le locuteur pendant qu'il parle, conversations annexes, radio, télé, claquements de porte, horloge, bruits de voiture, ... Le système d'enregistrement radio-télédiffusé peut également générer des bruits : bruits de micro, craquements de ligne téléphonique, bips, effet Larsen, raccrochement téléphone, ... Enfin certains bruits peuvent provenir du système de diffusion (parasites) ou d'enregistrement (souffle électrique).
2.6.1. Comment noter les bruits ?
Pour les bruits instantanés ou de courte durée, le transcripteur
crée une balise de bruit par [Edition
]/[Insérer
une balise
]/[Bruit instantané
] ou Control-d,
et indique :
Par défaut, les balises de bruit sont affichées entre crochets. Si le bruit s'étend sur plusieurs mots on peut sélectionner les mots et insérer une balise ; les marqueurs de début et de fin seront automatiquement insérés autour.
Pour les bruits de longue durée, une autre procédure est détaillée plus loin (paragraphe 2.6.4).
2.6.2. Bruits de l'appareil phonatoire (non-parole)
Ici nous considérons des bruits produits par l'appareil phonatoire du locuteur enregistré : en général ces bruits ne se superposent pas à la parole, sauf quand la personne parle en chuchotant ou en rigolant : je+[rire] voudrais+[rire] (on peut utiliser aussi des marqueurs de début et de fin : [rire-] je voudrais [-rire]).
Pour ne pas trop compliquer la tâche du transcripteur (à identifier la nature exacte du bruit) les codes de bruit marqués en gras sont à utiliser par défaut pour un type de bruit donné. Si le transcripteur a envie de marquer plus particulièrement un bruit donné, il peut choisir un des codes proposés en retrait de la marge ; cependant, ces différences ne sont actuellement pas exploitées.
Suggestion : le transcripteur peut accompagner les codes de bruit de balises temporelles de synchronisation (afin de poser un repère pour la segmentation automatique).
Respiration
Autres bruits de bouche et de gorge
2.6.3. Bruits extérieurs à l'acte de parole
Nous regroupons dans cette section tous les bruits produits en dehors de l'appareil phonatoire du locuteur. La plupart de ces bruits peuvent se produire à n'importe quel instant de l'enregistrement, et peuvent donc se superposer au signal de parole, dégradant ainsi sa qualité.
Tout bruit de nature indéterminée ou non-répertorié dans ce document peut être noté comme suit :
Bruits dus à l'environnement et au matériel d'enregistrement
2.6.4. Changement de conditions acoustiques
Lorsqu'un bruit s'étend sur une longue durée (bruit de fond persistant), un système de marquage spécifique doit être utilisé. La balise de bruit de fond est une balise instantanée décrivant un changement durable ans les conditions acoustiques. L'information apportée par cette balise reste valable à l'intérieur d'un même enregistrement jusqu'à l'apparition d'une nouvelle balise de bruit de fond, ou bien jusqu'à la fin de l'enregistrement.
Le transcripteur positionne le curseur temporel à l'instant du
changement de conditions acoustiques, choisit [Segmentation
]/[Insérer
un bruit de fond
] et indique :
Une icône de note de musique apparaît dans le texte à la position courante.
Si le changement de conditions acoustiques est associé aux conditions
d'enregistrement et lié au tour de parole (par exemple, une intervention
téléphonique de très mauvaise qualité), il
sera plus pratique d'utiliser le champ Fidelité=low
dans
les paramètres du tour de parole [Segmentation
]/[Paramètres
du tour...
] , plutôt que la balise de bruit de fond.
2.7. Commentaires
Cette balise permet au transcripteur de commenter l'enregistrement (la parole ou les conditions acoustiques ) à transcrire. Le transcripteur peut également faire ici des remarques sur ce qui lui paraît utile pour faciliter la transcription.
3. Conventions de transcription
Concernant la transcription l'idée de base consiste à focaliser l'attention sur ce qui apparaît en premier plan. Si de multiples sources sonores sont présentes il convient de focaliser la transcription sur la source la plus émergente. Par exemple on entend en arrière-plan une personnalité parler une langue étrangère, un traducteur donnant la version française en premier plan. Il suffit de transcrire le traducteur en signalant de la parole en bruit de fond. On entend de la musique en premier plan avec des commentaires en arrière-plan. On peut annoter un tel segment comme musique avec comme bruit de fond de la parole (non transcrite). Si deux locuteurs se 'disputent' le premier plan, on transcrit les deux grâce au mécanisme de parole superposée. Cependant de manière générale on fait l'hypothèse qu'il n'y a qu'une source sonore unique au premier plan.
De manière générale, dans tous les segments de parole qui ont été annotés transcribed (sections report ou filler), tout ce qui est entendu doit être transcrit : la transcription doit fournir la séquence orthographique exacte correspondant à ce que le locuteur a prononcé, à laquelle il faut rajouter dans la mesure du possible tous les événements extra-lexicaux présents dans le signal acoustique (les répétitions, hésitations, troncatures, bruits).
3.1. Conventions d'écriture
Le produit de la transcription est essentiellement une séquence de mots séparés par des espaces, entre lesquels s'intercalent des balises identifiant les bruits, les conditions acoustiques et diverses informations permettant de lever l'ambiguïté de prononciation. Autant que possible, il convient de respecter l'orthographe standard des mots. La ponctuation sert à marquer les frontières syntaxiques et prosodiques claires.
Dans la suite les icônes représentent :
= le locuteur dit
= le transcripteur écrit
3.1.1. Majuscules/minuscules
Tout est transcrit en minuscules (pas de majuscule systématique en début de phrase). L'emploi des majuscules est réservé à la transcription des épellations et des sigles, au début des noms propres et dans des formules de politesse.
Pour les noms propres d'organisation assimilables à des marques (tels que les journaux, les banques...) et utilisant des noms communs, les noms communs en question sont écrits avec des initiales majuscules.
as-tu lu Le Monde, L'Humanité et Le Dimanche ... les journalistes du Monde, de L'Humanité et du Dimanche ... au Crédit Lyonnais
Dans le doute, on peut suivre la pratique des journeaux qui peuvent ne mettre en majuscules que le premier mot d'un sigle :
le Front national est au bord de l'implosion
Pour les noms de lieux on adopte la convention d'écrire en minuscule le nom commun. S'il est suivi d'un nom propre, celui-ci a évidemment son initiale en majuscule.
le lycée Anatole France l'opéra Garnier
Des mots communs ayant fonction de nom propre (par exemple : titres d'émissions, de films, de livre, d'institutions ) s'écrivent entre guillemets. À l'intérieur des guillemets les noms communs sont écrits en minuscules.
Par exemple :
"le téléphone sonne" de ce soir sera consacré à "la chaîne de l'espoir" "le monde d'est en ouest et du nord au sud" sur France Inter "regards sur le monde" , Dominique Bromberger bonjour ! bienvenue à "radio com , c'est vous" aux Etats-Unis , le "Monica gate" continue euh , je préfère "Tomb raider" le chanteur de "divine comédie" des associations comme "médecins du monde" le prix Louis-Delluc pour Cédric Kahn et son film "l'ennui" sortie aujourd'hui de "à la place du coeur" de Robert Guédiguian un bel exemple de Le Clézio dans "la fièvre" "neuf mois marathon" , Marie-Cécile Picquet , aux éditions "hors commerce" une grande opération "mains propres" a été lancée le "conseil économique et social" ils ont gagné la "terre promise"
Pour les sigles étendus (c'est-à-dire prononcés en toutes lettres) la suite de mots composant le sigle est entourée de guillemets. Les noms communs y sont écrits en minuscules.
le "fond monétaire international" a fonctionné le "commissariat à l'énergie atomique" l'"agence France presse"
Notes : cette utilisation des guillemets demande à être précisée. Dans l'attente d'un véritable guide d'annotation des entités spécifiques, elle est facultative.
Enfin, on met une majuscule à monsieur (ainsi qu'à madame, mademoiselle ...) dans les formules de politesse comme indiqué dans l'exemple :
est-il vrai Monsieur le préfet que, ...
mais
le monsieur qui ...
3.1.2. Ponctuations
Il est recommandé de mettre des marques de ponctuation là où il y a des pauses dans le signal qui correspondent à des frontières syntaxiques, ou bien dans le cas où l'absence de ponctuation engendre une ambiguïté dans le texte.
Attention : il faut précéder les signes de ponctuations d'un blanc.
les fleurs sont fanées , le pain est devenu sec
.
Les marqueurs de ponctuations sont indicateurs du mode de l'énoncé
:
conclusif ''.'', interrogatif ``?'', exclamatif ``!'', hésitation
``...'', etc.
Ces informations sont fortement liées à la prosodie et à
la compréhension. Il est recommandé d'accompagner les marques
de ponctuation forte (. ? !) d'une marque temporelle dans le signal (balise
de synchronisation , permettant de segmenter).
3.1.3. Apostrophe
Il n'y a pas de séparateur entre l'apostrophe et le mot suivant.
l'horaire l'arrivée jusqu'à
3.1.4. Trait d'union
Les mots liés par un trait d'union sont écrits normalement sans séparation par un blanc.
après-midi voulez-vous anglo-saxons
Attention : on ne relie pas par trait d'union les suites de noms propres. On peut marquer graphiquement le lien par un slash entouré de blancs.
dans le Nord
/ Pas-de-Calais
/
le trajet Paris Toulouse
3.1.5. Sigles
Par défaut : les sigles sont notés par des majuscules non séparés par des blancs.
s n c f
SNCF
otan
OTAN
c d rom, ina p g
CDROM, INA PG
Uniquement dans les cas d'ambiguïté, la distinction entre un sigle prononcé comme un mot et un sigle prononcé comme une suite de lettres se fera par l'ajout devant le sigle d'un underscore "_" s'il est lu ou d'un point d'exclamation "!" s'il est épelé, par exemple:
l' onu ou l'o n u, c'est selon
l'_ONU
ou l'!ONU
, c'est selon
On peut observer des expressions complexes composées de sigles et de mots ou de fragments de mots (acronymes,...), de chiffres voire de ponctuation, par exemple :
JCSat
+[pron=J C sat] ,
RMIste , Smicard , Pacser , l'autoroute A10 , l'association AC!
La distinction entre sigle et lexie standard est parfois floue (ainsi, LASER qui était à l'origine un acronyme est devenu Laser puis laser). Pour l'utilisation des majuscules, on considèrera qu'à partir de 5 lettres un acronyme lu est lexicalisé et donc écrit en minuscules sauf la première lettre :
Medef , Insee , Staps , Pacsé , Assedic (sigle lu, 5 lettres ou plus)
IFOP , SMIG , SFOR , PACS , ENA
(sigle lu, 4 lettres ou moins)
FM , ETA , CFDT , EHESS , FNSEA , DGCCRF
(sigle épelé)
Dans les cas mixtes comme RMiste, CDROM..., on prendra la graphie majoritaire des journaux: RMiste, CDROM....
3.1.6. Abréviations
Il existe dans la langue des abréviations standards comme
etc pour et caetera. Les transcripteurs utilisent etc
sans
point accolé.
et caetera
etc
okay
OK
3.1.7. Nombres
Les nombres sont transcrits sous forme de suite de chiffres si la prononciation correspond à la syntaxe standard de prononciation des nombres (écrire la suite de mots est toujours autorisé, mais cela demande plus de travail et peut générer plus d'erreur de la part du transcripteur).
soixante mille
60000
ou bien 60
mille
soixante millions
60000000
ou bien
60 millions
Attention: il ne faut pas introduire d'espace entre les chiffres!
vingt virgule cinquante-sept
20,57
ou bien 20 virgule 57
un franc cinquante
1 franc 50
Attention: il ne faut pas écrire: 1,50 francs !
cent cinquante-huit litres virgule neuf
158 litres virgule 9
Les fractions de l'unité (demi, tiers...) seront écrits en toutes lettres:
deux tiers
deux tiers
ou 2 tiers
Attention: il ne faut pas écrire: 2/3 !
Les nombres ordinaux seront écrits en toutes lettres:
le troisième
le troisième
Attention: il ne faut pas écrire: le 3ème !
Le signe moins pouvant être confondu avec le tiret, il sera écrit en toutes lettres, ainsi que plus, fois, égale, etc. La seule exception est "pour cent", qui sera écrit % :
moins dix degrés
moins 10 degrés
trois pour cent
3 %
3.1.8. Dates
Pour les dates dont la prononciation peut être ambiguë (dix-neuf cent ou mille neuf cent), on utilisera une balise de prononciation dans le cas non-standard, s'appliquant au mot précédent (ou suivant). Le choix proposé par défaut est "19 cent...", il faudra veiller à le modifier manuellement en fonction du siècle en question, exemple pour 1660 on utilisera "16 cent..."
mille neuf cent quatre-vingts
1980
dix-neuf cent quatre-vingts
1980
+[pron=19
cent...]
3.1.9. Chiffres romains
Ils peuvent être utilisés dans les noms de roi ou de pape (qui servent souvent à désigner des lieux publics ). La transcription se fait avec les chiffres romains, en ajoutant une balise de prononciation s'appliquant au mot précédent (ou suivant).
l'hôtel Charles cinq
l'hôtel Charles
V
+[pron=(chiffres romains:) 5]
le stade Louis deux
le stade Louis II
+[pron=(chiffres romains:) 2]
3.1.10. Adresses internet
Pour les adresses internet (URL ou e-mail), la transcription se fait en notant l'adresse telle qu'elle s'écrit (habituellement tout en minuscules), et en ajoutant une balise de prononciation s'appliquant au mot précédent (ou suivant).
telsonne at radio tiret france point f r
telsonne@radio-france.fr
+[pron=(URL:) telsonne at radio tiret France point FR]
w w w point radio tiret france point f r
www.radio-france.fr
+[pron=(URL:) WWW point radio tiret France point FR]
Dans le cas de présence d'inspirations, d'hésitations... au milieu de l'URL, celles-ci seront annotées dans la balise prononciation, par exemple il faut écrire :
www.tf1.fr+[pron=(URL:) WWW [i] point TF() 1 point FR]
www [i].tf() 1.fr+[pron=(URL:) WWW point TF1 point FR]
Dans le cas cas particulier d'une URL scindée, par exemple prononcée par plusieurs locuteurs, transcrire comme dans cet exemple :
3.1.11. Préfixes agglutinés ou non-agglutinés
anti ; archi ; auto ; bi ; co ; extra ; giga ; hyper ; hypo ; inter ; intra ; macro ; micro ; para ; poly ; super ; sur ; télé ; contre ; entre ; néo ; outre ; quasi ; mini ; ultra ; post ; pseudo ; pré ; ...
On peut trouver sur Internet, dans les dictionnaires ou dans les livres de grammaire différentes règles orthographiques concernant les préfixes.
Dans le cadre de nos transcriptions, afin de respecter notre souci de normalisation de corpus, nous devons mettre à plat des règles que nous suivrons systématiquement lors des transcriptions.
Ci-dessous sont présentées les règles à appliquer :
ANTI :
--> toujours collé (antiaméricain) sauf :
- avant un i (anti-infectieux, anti-israélien),
- un mot lui-même composé (anti-sous-marin)
- dans les mots forgés pour la circonstance (anti-Bush)
exemples :
antiallemand
antiaméricains
antiaméricanisme
antiarabe
anticastriste
antichars
antichimique
antisectes
antisémites
antitabac
anti-destin
anti-incendie
anti-israélien
anti-israélienne
anti-israéliennes
ARCHI
:
--> toujours collé (archicomble) sauf avant un i
AUTO
:
--> toujours collé (autoallumage) sauf :
- avant un i (auto-immune),
- avant un verbe,
- si auto = voiture et non soi-même (auto-école).
exemples :
autoévaluation
auto-détruire
auto-proclamé
auto-répliqué
auto-école
BI
:
--> toujours collé
bicylindre
bimoteur
CO :
--> toujours collé (coauteur) sauf :
- devant un i, le i devient ï (coïnculpé)
coprésidé
colocataire
EXTRA
:
--> toujours
collé (extraconjugal, extraterrestre) sauf :
- devant i, a, u (extra-atmosphérique)
extraconjugales
extraterrestre
extra-atmosphérique
GIGA
:
--> toujours collé
HYPER
:
--> toujours collé
hypersport
HYPO :
--> toujours collé
INTER :
--> toujours collé
interauriculaire
intergouvernementale
interprofessionnelles
interreligieux
INTRA :
--> toujours collé sauf :
- devant i, a , u (intra-atomique, intra-utérin), et dans intra-muros
MACRO
:
--> toujours collé
macroéconomie
MICRO :
--> toujours collé (microentreprenariat) sauf :
- devant i, o (micro-informatique, micro-onde)
microétats
micro-ordinateur
micro-onde
PARA :
--> toujours collé (paramilitaire) sauf :
- devant i, a , u
POLY :
--> toujours collé
SUPER :
--> toujours collé
SUR :
--> toujours collé
surachalandé
TÉLÉ :
--> toujours collé
CONTRE :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
contretemps (dans le dictionnaire)
contre-allée
contre-attaque
contre-attaques
contrebande
contre-emploi
contre-espionnage
contre-expertise
contre-feu
contre-feux
contre-manifestations
contre-menaces
contre-offensive
contre-performances
contre-pied
contre-pouvoir
ENTRE :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
entrechocs
entre-temps
entre-deux
entre-déchirent
NÉO :
--> aucune règle spécifique (voir dans le dictionnaire au cas par cas)
néo-frontiste
néo-nazis
néo-zélandais
OUTRE :
--> généralement avec tiret (outre-mer, outre-tombe, outre-atlantique), sauf pour le terme "outremer"
lorsqu'il désigne une couleur, une nuance de bleu.
Dans une expression adverbiale "outre" signifie "au delà de"
outre-Manche
outre-Rhin
outre-mer
QUASI :
--> avec un tiret avant un nom (quasi-totalité) et un espace avant un adjectif (quasi estivale)
devant un adjectif :
quasi estivales
quasi militaires (les commandes quasi militaires du...)
devant un nom :
quasi-fin
quasi-homme
devant un nom/adjectif, cela dépend du contexte:
quasi-inconnu ou quasi inconnu
une chose quasi inconnue…
un quasi-inconnu… (très rare)
CRYPTO :
--> toujours collé
MINI :
--> toujours collé
minijupe
minibus
minicassette
minichaîne
minisérie
minisommet
ULTRA :
-->
la tendance est à l'agglutination
ultraguerrières
ultraprudente
ultrarépressive
ultrasimple
ultrason
ultraroyaliste
ainsi que pour :
POST, PSEUDO, PRÉ, SIMILI, SUB :
--> pas de règle précise, très souvent écrit avec un tiret
Autres préfixes souvent écrits avec un tiret, et en tout cas normalement pas agglutinés :
arrière-
avant-
demi-
deux-
double-
ex-
faux-
non-
sans-
semi-
sous-
vice-
Quelques autres mots souvent inclus dans des mots composés à tirets :
court(s)-
date(s)-
grand(s)-
-clé(s)
-culte(s)
-fleuve(s)
-record(s)
-type(s)
3.2. Mots hors-lexique
3.2.1. Mots d'origine étrangère, changement de langue
Une balise de changement de langue permet d'identifier un mot ou une suite de mots qui ne font pas partie du parler français.
Les mots d'origine étrangère (et absorbés dans
la langue avec une prononciation donnée) ne sont pas marqués
(par exemple week-end
, playstation,
business
prononcés
à l'anglaise). On considère ces prononciations comme ``standard''.
En revanche des prononciations peu communes devront être signalées
(par exemple les correspondants à l'étranger démarrant
leur intervention par buon giorno di Roma
, good morning from
London
... ).
échangeant des potins
[lang=anglais-]
cashing up with gossip
[-lang=anglais]
ça s'appelle l'
[lang=anglais-] easy
listening
[-lang=anglais]
cela reviendra à légaliser le sabouba
+[lang=arabe]
Il est inutile d'ajouter un marqueur d'orthographe incertaine aux mots étrangers, même si la transcription est simplement acoustique. Un segment de longue durée en langue étrangère doit être annoté non-trans.
3.2.2. Noms propres étrangers
Les noms propres Beatles
, Clinton
, les sigles CNN
,
CBS
prononcés à l'anglaise correspondent au standard
; à l'inverse une prononciation à la française inhabituelle
doit être spécifiée par une balise de prononciation
:
Bill Clinton , en français Guillaume Clinton
+[pron=français]
Pour des noms propres comme Morgan
le standard dépend
évidemment du contexte (Michèle Morgan
ou Nelson
Morgan
par exemple). Mais pour des noms propres comme Benjamin
,
le contexte peut ne pas être suffisant : Benjamin Netanyahou
peut admettre différentes prononciations.
3.2.3. Mots techniques, nouveaux mots, noms propres inconnus
Cette section concerne les problèmes d'écriture qui se posent pour des néologismes, entités idiosyncrasiques, des mots techniques .
Dans un contexte particulier des mots nouveaux peuvent apparaître.
Ces mots ne font pas partie du vocabulaire de la langue courante, et sont
souvent ignorés des gens extérieurs à ce domaine particulier.
Ceci est vrai pour des domaines techniques spécialisés, mais
se rencontrent fréquemment aussi dans le milieu journalistique (par
exemple le terme de pu-putch
a été employé
plusieurs fois début décembre 98). Ces mots sont à
considérer comme des entités lexicales à part entière.
Lorsque l'orthographe se déduit sans ambiguïté, il suffit de l'écrire sans balise supplémentaire :
un télévirenquethon ? ça ne sonne pas
très bien
le greige , quelque part entre gris et beige
la primature du chef est publiquement mise en cause
Des noms propres inconnus (souvent d'origine étrangère) peuvent admettre plusieurs graphies en français. Afin de pouvoir normaliser ces graphies lors d'un traitement ultérieur, il est important de marquer les mots qui posent problèmes.
Règle : tous mots techniques, idiosyncrasiques, noms propres, etc, dont la graphie est incertaine (non figée, et qu'un complément d'information permettrait de corriger ou confirmer), seront précédés par deux accents circonflexes :
^^mot_inconnu
Exemples :
^^Annam ^^Lefebvre ^^Baranov ^^Tourner ^^Réresse ^^Micoine
^^Itaï ^^Arad ^^Mougins ^^Mossey ^Klipffel ^^Jaillard ^^Elina ^^Castella
^^Zwetaïeva ...
De manière équivalente, une balise de commentaire lexical peut être utilisée :
^^Guédet
ou Guédet
+[lex=orthographe incertaine]
Remarque: Ceci ne s'applique pas aux mots qui ont deux orthographes possibles (on choisira la première venant à l'esprit) :
clé
ou clef
,
cuillère
ou cuiller
,
aéroclub
ou aéro-club
,
CDROM
ou cédérom
, etc
^^Michèle
ou ^^Michelle Martin
;
^^Danièle
ou ^^Danielle Durand
; mais
Michèle Morgan
; Danielle
, avec 2 L ,
3.3. Spécificités du langage parlé
Lorsqu'on écoute attentivement le signal, on se rend compte que des parties de mots, voire des mots entiers peuvent avoir disparus.
On peut être tenté de marquer graphémiquement les réductions produites par le locuteur. La consigne à suivre ici est de respecter l'orthographe standard: ne pas marquer, dans l'écriture, l'élision ou la réduction présente dans la parole. On peut utiliser la balise de prononciation ou la balise de commentaire, si on veut décrire les phénomènes observés.
3.3.1. Onomatopées
Les onomatopées font partie de la langue et sont à transcrire au même titre que les autres mots. Les plus fréquentes existent en général en tant que mots graphémiques, pour toutes les autres on devra créer des mots correspondants et maintenir cette liste à jour.
euh , ben, eh, hein, ah, hum, oh, hé, ouahou, huhum, hou, hop, aïe ...
Exemples :
euh on voit que les ... , ah , comment dire et en fait euh bon ben l'indice Nikkei et non pas Mickey hein ! eh bien , hé oh comme vous dites ! hou là là une étude sur le le hum () ouahou , chic alors ! on en parle plus , hop .
3.3.2. Répétitions
Les répétitions ne portent pas d'information et on tenterait naturellement de les éliminer dans un processus de transcription d'une dictée. Elles doivent être transcrites comme tout autre mot.
le le le député ...
3.3.3. Elisions & formes réduites
La réduction peut porter sur un seul mot ou une suite de mots, par exemple:
orches' de chambre | s'i 'ous plaît | qu'i soit | dans c' domaine
orchestre de chambre
| s'il vous plaît
| qu'il soit
| dans ce domaine
Remarque: La réduction de qu'il
en qu'i'
est transcrite qu'il
et non pas qui
.
Autres exemples:
i' y a ou bien y a
il y a
ou bien (il)
y a
On peut écrire (il) y a
si le il
est absent
de manière évidente. Mais nous tenons à souligner
qu'il est inutile de faire des écoutes répétées
pour décider si le il
est présent ou non.
Dans le langage parlé le ne
de la négation est
très souvent omis. Dans ce cas on ne l'écrit pas.
j'en sais rien
j'en sais rien
chais pas ou bien chsais pas ou bien ...
je sais pas
ou bien
je (ne) sais pas
mais y a pas d' raison qu'i' soit pas là
mais il y a pas de raison
qu'il soit pas là
ou bien mais (il n') y a pas de raison qu'il (ne) soit pas là
3.3.4. Troncatures
Les mots tronqués peuvent provenir de deux origines différentes : soit le locuteur s'arrête avant la fin du mot, soit le locuteur est coupé par le système d'enregistrement. Dans ce dernier cas le mot peut être tronqué au début : le locuteur a commencé à parler avant le début de l'enregistrement. La troncature est marquée par des parenthèses. Si le mot tronqué est connu (grâce au contexte) on note la partie manquante du mot entre parenthèses.
notation : ()
vou()
: troncature finale de voudrais, voulais
,...
()embre
: troncature initiale de septembre, novembre, décembre
,...
après-de(main)
: le mot complet peut être déduit
du contexte
3.3.5. Lapsus
Il arrive que la prononciation erronée soit un mot correct de la langue. Dans ce cas, on transcrit les mots tel qu'ils ont été prononcés.
une augmentation conséquence euh conséquente
une augmentation conséquence
euh conséquente
3.3.6. Prononciation erronée
Si on arrive à identifier le mot mal prononcé, on écrit le mot correct précédé d'une étoile.
notation : *mot-correct
pestacle
*spectacle
La prononciation effective peut être, en plus, signalée par une balise :
rénumération
*rémunération
+[pron=rénumération]
S'il s'agit de parole inintelligible, on utilise la notation
suivante :
notation : [pi]
Si la parole est inintelligible parce qu'il s'agit de parole inaudible
et faible, on peut noter ce type d'événement, si on veut
la différencier du cas ci-dessus, par :
notation : [pif]
Le transcripteur est invité à insérer une balise de synchronisation près du mot (juste après le mot) mal prononcé (afin de poser un repère pour la segmentation automatique dans cette zone erronée).
3.3.7. Liaisons
On ne marque pas les liaisons dans la transcription orthographique. Les liaisons erronées sont relevées par la balise de prononciation.
vingt-z-animaux
vingt
+[pron=vingt-z]
animaux
trop-z ennuyeux il voudrait-z y aller
trop
+[pron=trop-z]
ennuyeux il voudrait y aller
3.3.8. Épellations
Toutes les lettres sont notées en majuscules séparées
par des blancs, p. ex :
P A R I S
L'épellation des lettres accentuées peut conduire à
différentes transcriptions, suivant l'énoncé du locuteur,
par exemple :
é accent aigu
É accent aigu
e accent aigu
E accent aigu
Remarque : l'épellation des lettres redoublées peut donner lieu à différentes transcriptions. Par exemple le locuteur doit épeler Vannes :
v a n n e s
V A N N E S
v a deux n e s
V A 2 N E S
3.3.9. Ponctuation verbalisée
Si un locuteur énonce la ponctuation (comme s'il faisait une dictée, verbalized punctuation) on écrit le mot correspondant en toutes lettres :
cent-cinq point cinq
105 point 5
4. Vérification
4.1. Comment vérifier la transcription ?
- Ecoutez le signal tout en lisant la transcription. Stoppez et redémarrez
aussi souvent que nécessaire. Utilisez de préférence
la commande [
Signal
]/[Joue le segment
] ouShift-Tab
. - La transcription est à modifier dans l'éditeur de texte. Dans une future version du logiciel, un correcteur orthographique devrait être disponible pour la correction des fautes d'orthographe (et plus généralement des fautes de frappe).
- Les frontières des segments peuvent être déplacées ou supprimées
- Les tours de paroles et les sections sont éditables en cliquant sur le bouton correspondant.
- La correction orthographique est disponible par [
Edition
]/[Correction orthographique
]