. Authôt, Reconnaissance automatique de la parole au coeur de l'application Authôt, 2016.

T. Bazillon, Y. Estève, and D. Luzzati, Manual vs assisted transcription of prepared and spontaneous speech, LREC 2008, 2008.
URL : https://hal.archives-ouvertes.fr/hal-01433962

B. Jannet and M. A. , Évaluation adaptative des systèmes de transcription en contexte applicatif. These de doctorat. Université Paris-Saclay (ComUE), 2015.

C. Benveniste, Corpus de français parlé, Corpus : Méthodologie et Applications Linguistiques. Honoré Champion, pp.15-25, 2000.

C. Benzitoun, F. Neveu, P. Blumenthal, and L. Hriba, La place de l'adjectif épithète en français : ce que nous apprennent les corpus oraux, SHS Web of Conferences, vol.8, pp.2333-2348, 2014.

M. Bilger, Données orales: les enjeux de la transcription, 2008.

T. Bunce, Comparing Transcriptions. In: Not this, 2017.

T. Bunce, A Comparison of Automatic Speech Recognition (ASR) Systems. In: Not this, 2018.

T. Bunce, A Comparison of Automatic Speech Recognition (ASR) Systems, part 2. In: Not this, 2019.

T. Bunce, A Comparison of Automatic Speech Recognition (ASR) Systems, part 3. In: Not this, 2020.

A. A. Casilli, En Attendant Les Robots: Enquête Sur Le Travail Du Clic. La Couleur des idées, 2019.

R. Errattahi, E. Hannani, A. Ouahmane, H. Jean-philippe, C. Gaëlle et al., Automatic Speech Recognition Elise TANCOIGNE, 2018.

, Errors Detection and Correction: A Review. Procedia Computer Science 128. 1st International Conference on Natural Language and Speech Processing, pp.32-37

B. Favre, K. Cheung, and S. Kazemian, Automatic human utility evaluation of ASR systems: Does WER really predict performance? In: INTERSPEECH, pp.3463-3467, 2013.

M. Forsgren, La place de l'adjectif épithètes, 2016.

B. Habert, Portrait de linguiste (s) à l'instrument, Revue Texto, vol.10, issue.4, 2005.
URL : https://hal.archives-ouvertes.fr/halshs-00355997

P. Hitlin, Turkers in this canvassing: young, well-educated and frequent users, Pew Research Center. Available, 2016.

C. Kerbrat-orecchioni, L'énonciation: de la subjectivité dans le langage / Catherine Kerbrat-Orecchioni, 1980.

C. Kerbrat-orecchioni, Les interactions verbales [Texte imprimé] / Catherine Kerbrat-Orecchioni, 1990.

. Linguistique and . Paris,

. Lamberterie-i-de, O. Baude, and C. Blanche-benveniste, Corpus oraux. Guide des bonnes pratiques, CNRS Editions. Available at, 2006.

V. Maier, Evaluating RIL as basis of automatic speech recognition devices and the consequences of using probabilistic string edit distance as input, 2002.

I. A. Mccowan, D. Moore, and J. Dines, On the Use of Information Retrieval Measures for Speech Recognition Evaluation, REP_WORK. IDIAP. Available, 2004.

G. A. Miller, Note on the bias of information estimates. Information theory and psychology, pp.95-100, 1955.

L. Mondada, Les effets théoriques des pratiques de transcription. Linx. Revue des linguistes de l'université Paris X Nanterre (42). 42. Département de Sciences du langage, pp.131-146, 2000.

A. C. Morris, V. Maier, and P. D. Green, From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition, 2004.

H. Nanjo, R. University, and T. Kawahara, A New ASR Evaluation Measure and Minimum Bayes-Risk Decoding for Open-domain Speech Understanding, IEEE International Conference on Acoustics, Speech, and Signal Processing, pp.1053-1056, 2005.

Y. Park, S. Patwardhan, and K. Visweswariah, An empirical analysis of word error rate and keyword error rate, Ninth Annual Conference of the International Speech Communication Association, 2008.

. R-core-team, R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2020.

T. Rioufreyt, La transcription d'entretiens en sciences sociales, 2016.
URL : https://hal.archives-ouvertes.fr/halshs-01339474

T. Rioufreyt, La transcription outillée en SHS. Un panorama des logiciels de transcription audio/vidéo, Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique, vol.139, issue.1, pp.96-133, 2018.

V. Traverso, L'analyse des conversations. 128 Lettres Linguistique, 2007.

Y. Wang, A. A. Chelba, and C. , Is Word Error Rate a Good Indicator for Spoken Language Understanding Accuracy, 2003.

J. Woodard and J. Nelson, An information theoretic measure of speech recognition performance, Workshop on standardisation for speech I/O, 1982.

, Enfin, les espaces superflues ont été supprimées. Les fichiers ont ensuite été enregistrés en UTF-8, avec des sauts de lignes Windows

, Harmonisation des fichiers RES

, En complément du travail effectué sur les fichiers REF, chaque membre du projet a hormonisé les fichiers RES qu'il avait obtenus lors de ses transcriptions automatiques, en suivant les consignes discutées collectivement : ? enlever noms de locuteurs et balises temporelles en sortie des outils

, ? conserver les euh et les répétitions

, ? conserver la ponctuation

, ? garder les chiffres ou les chiffres écrits en toutes lettres

, ? supprimer les espaces après les apostrophes et les espaces surnuméraires

, ? changement des apostrophes courbes en apostrophes droites

?. Enregistrer-en and . Txt, UTF8, sauts de ligne Windows. an error if corpora have different lengths if (length(r)!=length(h)) stop("The refernce and hypothesis corpus should have the same length

, )==length(h)){ data.store=data.frame(wer=rep(NA,length(r)), sub=NA,ins=NA,del=NA,words.ref=NA,words.hyp=NA) for(k in 1:length(r)){ print(paste("Document

, hyp_text=tolower(unlist(stringr::str_split

, { data.store$wer[k]=1 data.store$sub[k]=0 data.store$del[k]=length(ref_text) data.store$ins[k]=0 data.store$words, p.0

!. , (ref_text) dtext=d1 for(i in 2:nrow(d1)){ for(j in 2:ncol(d1)){ if(ref_text[i-1]==hyp_text[j-1]){ d1[i,j]<-d1[i-1,j-1] dtext[i,j]="CORRECT" } else{ sub<-d1[i-1,j-1]+1 ins<-d1[i,j-1]+1 del<-d1[i-1,j]+1 d1[i,j]<-min(sub,ins,del) if(which.min(c(sub,ins,del))==1){ dtext[i,j]="SUB" } if(which.min(c(sub,ins,del))==2){ dtext[i,j]="INS" } if(which.min(c(sub,ins,del))==3){ dtext[i,j]="DEL" } } } } sequence=rep(NA,length(ref_text)) start.row=nrow(dtext) start.col=ncol(dtext) dtext, p.1

. .. Sommaire,

. Mots and . .. Ref,

. .. Erreurs-de-flexion, sans lien (nombre de mots REF/nombre de mots RES)

R. .. Mots,

, Mots de RES qui ne correspondent à rien dans REF (ajout)

. .. Autres,

. .. Références,

, Toutes deux ne sont par ailleurs pas comptabilisées par Copyscape 34 . Remarque : un champ remarque est disponible dans les fichiers Excel. Il sert à relever des exemples remarquables, à préciser ses choix en cas d'hésitation et à justifier l'utilisation de la catégorie « autres ». Remarque : nous appellerons mot tout segment textuel séparé par des espaces ou des traits d'union (celui-ci compte pour 2 mots

. L&apos;apostrophe, n'est pas considérée comme un séparateur de mots (s'enflent compte pour 1 mot)

, Problème : Comment compter 9 h 30 ? Un mot ou trois ? On comptera ici trois

, Mots de RES identiques à REF Certains passages des fichiers RES sont considérés par Copyscape comme étant identiques à ceux du fichier REF. L'outil fournit alors un nombre de mots pour ces passages. Ce nombre est reporté tel quel, après vérification du décompte, comme dans la Figure 1 ci-dessous 35 . Notons que dans cette figure

, Sauf cas particuliers, comme un cas de « ; » observé dans Physionomie

, Remarque : dans les tableaux qui suivent la première colonne correspond au fichier REF, la troisième au fichier RES