Reconnaissance automatique de la parole au coeur de l'application Authôt, 2016. ,
Manual vs assisted transcription of prepared and spontaneous speech, LREC 2008, 2008. ,
URL : https://hal.archives-ouvertes.fr/hal-01433962
Évaluation adaptative des systèmes de transcription en contexte applicatif. These de doctorat. Université Paris-Saclay (ComUE), 2015. ,
Corpus de français parlé, Corpus : Méthodologie et Applications Linguistiques. Honoré Champion, pp.15-25, 2000. ,
La place de l'adjectif épithète en français : ce que nous apprennent les corpus oraux, SHS Web of Conferences, vol.8, pp.2333-2348, 2014. ,
Données orales: les enjeux de la transcription, 2008. ,
Comparing Transcriptions. In: Not this, 2017. ,
A Comparison of Automatic Speech Recognition (ASR) Systems. In: Not this, 2018. ,
A Comparison of Automatic Speech Recognition (ASR) Systems, part 2. In: Not this, 2019. ,
A Comparison of Automatic Speech Recognition (ASR) Systems, part 3. In: Not this, 2020. ,
En Attendant Les Robots: Enquête Sur Le Travail Du Clic. La Couleur des idées, 2019. ,
Automatic Speech Recognition Elise TANCOIGNE, 2018. ,
, Errors Detection and Correction: A Review. Procedia Computer Science 128. 1st International Conference on Natural Language and Speech Processing, pp.32-37
Automatic human utility evaluation of ASR systems: Does WER really predict performance? In: INTERSPEECH, pp.3463-3467, 2013. ,
La place de l'adjectif épithètes, 2016. ,
Portrait de linguiste (s) à l'instrument, Revue Texto, vol.10, issue.4, 2005. ,
URL : https://hal.archives-ouvertes.fr/halshs-00355997
Turkers in this canvassing: young, well-educated and frequent users, Pew Research Center. Available, 2016. ,
L'énonciation: de la subjectivité dans le langage / Catherine Kerbrat-Orecchioni, 1980. ,
Les interactions verbales [Texte imprimé] / Catherine Kerbrat-Orecchioni, 1990. ,
,
Corpus oraux. Guide des bonnes pratiques, CNRS Editions. Available at, 2006. ,
Evaluating RIL as basis of automatic speech recognition devices and the consequences of using probabilistic string edit distance as input, 2002. ,
On the Use of Information Retrieval Measures for Speech Recognition Evaluation, REP_WORK. IDIAP. Available, 2004. ,
Note on the bias of information estimates. Information theory and psychology, pp.95-100, 1955. ,
Les effets théoriques des pratiques de transcription. Linx. Revue des linguistes de l'université Paris X Nanterre (42). 42. Département de Sciences du langage, pp.131-146, 2000. ,
From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition, 2004. ,
A New ASR Evaluation Measure and Minimum Bayes-Risk Decoding for Open-domain Speech Understanding, IEEE International Conference on Acoustics, Speech, and Signal Processing, pp.1053-1056, 2005. ,
An empirical analysis of word error rate and keyword error rate, Ninth Annual Conference of the International Speech Communication Association, 2008. ,
R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2020. ,
La transcription d'entretiens en sciences sociales, 2016. ,
URL : https://hal.archives-ouvertes.fr/halshs-01339474
La transcription outillée en SHS. Un panorama des logiciels de transcription audio/vidéo, Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique, vol.139, issue.1, pp.96-133, 2018. ,
L'analyse des conversations. 128 Lettres Linguistique, 2007. ,
Is Word Error Rate a Good Indicator for Spoken Language Understanding Accuracy, 2003. ,
An information theoretic measure of speech recognition performance, Workshop on standardisation for speech I/O, 1982. ,
, Enfin, les espaces superflues ont été supprimées. Les fichiers ont ensuite été enregistrés en UTF-8, avec des sauts de lignes Windows
, Harmonisation des fichiers RES
, En complément du travail effectué sur les fichiers REF, chaque membre du projet a hormonisé les fichiers RES qu'il avait obtenus lors de ses transcriptions automatiques, en suivant les consignes discutées collectivement : ? enlever noms de locuteurs et balises temporelles en sortie des outils
, ? conserver les euh et les répétitions
, ? conserver la ponctuation
, ? garder les chiffres ou les chiffres écrits en toutes lettres
, ? supprimer les espaces après les apostrophes et les espaces surnuméraires
, ? changement des apostrophes courbes en apostrophes droites
UTF8, sauts de ligne Windows. an error if corpora have different lengths if (length(r)!=length(h)) stop("The refernce and hypothesis corpus should have the same length ,
, )==length(h)){ data.store=data.frame(wer=rep(NA,length(r)), sub=NA,ins=NA,del=NA,words.ref=NA,words.hyp=NA) for(k in 1:length(r)){ print(paste("Document
, hyp_text=tolower(unlist(stringr::str_split
, { data.store$wer[k]=1 data.store$sub[k]=0 data.store$del[k]=length(ref_text) data.store$ins[k]=0 data.store$words, p.0
(ref_text) dtext=d1 for(i in 2:nrow(d1)){ for(j in 2:ncol(d1)){ if(ref_text[i-1]==hyp_text[j-1]){ d1[i,j]<-d1[i-1,j-1] dtext[i,j]="CORRECT" } else{ sub<-d1[i-1,j-1]+1 ins<-d1[i,j-1]+1 del<-d1[i-1,j]+1 d1[i,j]<-min(sub,ins,del) if(which.min(c(sub,ins,del))==1){ dtext[i,j]="SUB" } if(which.min(c(sub,ins,del))==2){ dtext[i,j]="INS" } if(which.min(c(sub,ins,del))==3){ dtext[i,j]="DEL" } } } } sequence=rep(NA,length(ref_text)) start.row=nrow(dtext) start.col=ncol(dtext) dtext, p.1 ,
,
,
sans lien (nombre de mots REF/nombre de mots RES) ,
,
, Mots de RES qui ne correspondent à rien dans REF (ajout)
,
,
, Toutes deux ne sont par ailleurs pas comptabilisées par Copyscape 34 . Remarque : un champ remarque est disponible dans les fichiers Excel. Il sert à relever des exemples remarquables, à préciser ses choix en cas d'hésitation et à justifier l'utilisation de la catégorie « autres ». Remarque : nous appellerons mot tout segment textuel séparé par des espaces ou des traits d'union (celui-ci compte pour 2 mots
n'est pas considérée comme un séparateur de mots (s'enflent compte pour 1 mot) ,
, Problème : Comment compter 9 h 30 ? Un mot ou trois ? On comptera ici trois
, Mots de RES identiques à REF Certains passages des fichiers RES sont considérés par Copyscape comme étant identiques à ceux du fichier REF. L'outil fournit alors un nombre de mots pour ces passages. Ce nombre est reporté tel quel, après vérification du décompte, comme dans la Figure 1 ci-dessous 35 . Notons que dans cette figure
, Sauf cas particuliers, comme un cas de « ; » observé dans Physionomie
, Remarque : dans les tableaux qui suivent la première colonne correspond au fichier REF, la troisième au fichier RES