L’analyse du discours assistée par ordinateur: la méthode ALCESTE et le

logiciel IRAMUTEQ Stage URFIST de Rennes, 14 juin 2016 Emmanuel MARTY Université Nice Sophia Antipolis Avec la contribution de Pascal Marchand et Pierre Ratinaud Université Toulouse 3

Pour analyser le discours: - La statistique n’est pas la seule approche possible ... Tout est possible et est question de choix épistémologiques, d’indicateurs et/ou de nature des corpus. La statistique ne peut pas tout faire: il faut prévoir ce qu’on lui demandera : HYPOTHESES

Ce n’est pas la statistique qui garantit la qualité d’une recherche, mais le protocole.

Pourquoi l’ADAO en SHS ? • Analyse de discours (enquêtes, analyse sur archives): pourquoi, dans l’univers des mots possibles, ceux-là ont-ils été choisis ?

• Lien avec la psychologie sociale, la linguistique, les sciences de l’information et de la communication, les sciences politiques…

Définir les mots récurrents, leurs fonctions, leurs relations, leurs utilisations pour reconstruire du sens. 3

Quelques définitions • Les questions que se donne la statistique lexicale sont les suivantes : « quels sont les textes les plus semblables en ce qui concerne le vocabulaire et la fréquence des formes utilisées ? Quelles sont les formes qui caractérisent chaque texte, par leur présence ou leur absence ? » (Lebart & Salem, 1994, p.135). • Tableau lexical (formes * textes) • La lexicométrie regroupe “ toute une série de méthodes qui permettent d’opérer des ré-organisations formelles de la séquence textuelle et des analyses statistiques portant sur le vocabulaire à partir d’une segmentation ” 4 (Salem, 1986)

L’interprétation en ADT Constitution (normes de saisie):

Interprétation

Codage

•caractères (accentuation, majuscules) Corpus Commentaires Interprétation: •a/à, la/là, traite/traité, prive/privé •frappe et orthographe - concordances, •pb ou pbm, qq cooccurrences et ou qlq, bcp, qd, M., Mme •chiffres, etc. de Tableau lexical: distributions formes lexicales brutes - partition / réduitesautomatisées ou de -Variable(s) Analyses -Unités contexte segments Segmentation: -Formes Réorganisations textuelles -profils de parties (UC -Reconnaissance et lemmatisation ou variables extraAnalyse Analyses (longueurs statistiquesimportantes) -Segments Corpus textuelles) -AFC, classification -Analyse morphosyntaxique Résultats codé -Spécificités Autres 5

André Salem (Paris, SFDS le 26/04/01)

Quelques logiciels de lexicométrie • Alceste

 M. Reinert (http://www.image-zafar.com)

• Lexico 3

 A. Salem (http://lexico3.no-ip.org)

• Sphinx Lexica  Y. Baulac (http://www.lesphinx-developpement.fr) • Hyperbase

 E. Brunet (http://ancilla.unice.fr/)

• TXM

 S. Heiden (http://textometrie.ens-lyon.fr/)

• IRAMuTeQ

 P. Ratinaud (http://repere.noip.org/Members/logiciel/iramuteq) 6

IRaMuTeQ (Pierre Ratinaud) Logiciel libre et gratuit développé sur la base de logiciels libres: - Python http://www.python.org - R (R Development Core Team, 2009): http://r-project.org - Lexique 3 (New, Pallier & Ferrand, 2005): http://lexique.org Reproduit notamment la méthode ALCESTE (CDH) (Ratinaud & Dejean, 2009)

Analyse lexicale: 1. Segmentation • Une suite de caractères bornée par deux caractères délimiteurs est une occurrence (word-tokens). Deux suites identiques constituent deux occurrences d'une même forme graphique (word-type).

• Délimiteurs: espace, retour à la ligne, [(« ,.;?:!’/-_ »)] • Le tiret / trait d’union / moins / parenthèse • L’apostrophe • e muet (c’, d’, j’, jusqu’, lorsqu’, qu’, m’, n’, quoiqu’, presqu’, puisqu’, etc.) • autre voyelle (ç’ pour ça, l’ pour le/la, s’ pour se/si, t’ pour te/tu, etc.). • aujourd’hui ou prud’hommes (INTEX: Silberztein, 8 1993)

12528 8324 6211 5815 5217 4908 4631 4435 3832 3051 2982 2799 2441 2425 2273 2142 2060 2024 1977 1809 1410 1393 1368 1275 1214

de la l et les le à des d est en que une nous qui un pour du dans il au notre plus pas a

1195 1188 1183 1127 1117 1074 985 908 855 838 838 816 810 803 744 711 697 695 693 667 651 647 633 603 533

c je ne par ce sur qu france s aux n nos gouvernement avec mais elle cette vous politique se être sont leur pays tous

530 528 527 509 494 479 462 453 447 434 425 422 422 421 413 410 409 406 400 390 386 375 362 346 342

sera doit aussi ont français y j etat sans ou comme ces tout son avons ses même été faire ils faut entreprises emploi bien sa

341 323 310 306 297 290 290 288 283 282 280 278 278 266 265 265 264 263 262 256 243 241 236 235 235

Les index

ai travail entre si économique aujourd hui dont sociale on seront monde république fait loi où contre leurs action europe effort peut nationale avenir président

233 231 229 227 226 226 222 221 220 219 216 215 210 209 208 208 207 206 206 203 202 202 199 197 195

développement économie deux enfin encore temps ensemble vie société depuis ceux donc toutes soit droit sécurité ainsi elles moyens cet autres cela mesures jeunes croissance

Formes initiales / réduites Lemmatisation Reconnaître les chaînes de caractères communes : deux formes se succédant dans un index alphabétique sont potentiellement liées par une racine commune (jeune, jeunes = jeune+). Mais des formes très proches ne doivent pas forcément être regroupées (grand, gras, grave  gra+) ; Définir un critère permettant de décider de leur regroupement : on peut, par exemple, construire une liste des suffixes grammaticaux usuels (programme SHRDLU de Winograd, 1972 ; logiciel Alceste). 10

+a +able +ablement +ace +ade +age +ai +aie +aient +aire +ais +aise +aison +ait +al +ale +ames +amment +ance +ant +ante +ard +as +asse +assent +asses +assez +assiez +assions

+at +ates +ateur +atif +ation +atique +ative +atre +atrice +aux +cale +cite +d +dre +e +eau +eaux +ee +een +eenne +elle +ement +emental +ementaux +emment +ence +ent +ente

+er +i +era +ible +erai +ice +eraient +icien +erais +icien +erait +icienne +eras +icienne +ere +ide +erent +idement +eresse +ie +erez +iel +erie +ielle +eriez +ien +erions +ienne +eron +ier +erons +iere +eront +ieusement +es +iez +esque +if +esse +ille +et +iment +ete +imes +ette +in +eur +ion +euse +ions +eusement +ique +eux +ez

+ir +ira +irai +iraient +irais +irait +iras +irent +irez +iriez +irions +irons +iront +is +isant +isante +ise +isme +ison +issage +issaient +issais +issait +issant +issante +isse +issement +issent +isses +issez +issiez +issions +issons +iste

+it +ite +ites +itif +ition +itive +itude +lure +ment +mental +mentaux +mment +nt +oir +oire +on +ons +ont +orat +osite +pre +que +r +ra +rai +raient +rais +rait +ras

+re +u +resse +ude +rez +ue +rice +ueuse +rie +ueusement +riez +ueux +ron +umes +rons +ur +ront +ure +s +urent +se +us +sement +use +ssant +usses +sse +ussiez +ssement +ussions +ssent +ut +t +utes +te +ux +teur +vre +tif +x +tion +tique +tive +tre +trice +tte +tude

11

Formes initiales / réduites Formes dont la flexion entraîne morphologique: culpabilité et coupable

une

modification

Dictionnaire à étiquettes « DELAF » du Laboratoire d’Automatique Documentaire et Linguistique (Université de Paris 7). Cf. Gross, 1975, 1986 ; Gross et Senellart, 1998. TreeTagger - a language independent part-of-speech tagger http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

Lemmatiseur Lexique 3 (New, Pallier & Ferrand, 2005) 12

Regroupements (SR) Segment Fréq. Segment Fréq. président de la république 98 sécurité sociale 22 Locutions : “aujourd’hui”, “Etats-Unis”, “peut-être”, “point projet de loi 51 service public 22 de vue”, “lutte des classes”, “sécurité sociale”, ou “week-end”. il y a 47 en ce qui concerne 21 partenaires sociaux : Segments répétés46 enSalem matière de 21 En corpus mesdames et messieurs les députés 43 en même temps 21 En langue : Dictionnaires 42 Silberztein en faveur en sorte que(1993, 1998) 21 en matière 42 mise en place 21 Expressions figées : Gross (1982): prendre la poudre en place 39 économie française 20 d’escampette dans le cadre = fuir 35 commerce extérieur 20 parce qu 34 formation professionnelle 19 La définition des unités d’analyse amène à sortir du mise en oeuvre 29 union européenne 19 champ strictement statistique pour envisager de repérer mettre en oeuvre 27 assemblée nationale 19 les statuts syntaxiques (et sémantiques) et collectivités locales 27 bien entendu des formes 18 secteur public temps partiel 18 l’usage de la langue plutôt que26 la seule distribution des en sorte graphiques… Et ça, c’est25une protection 18 formes autresociale histoire ! bien sûr 25 construction européenne 18 13

Analyse lexicale : 2. partition / segmentation • La statistique mesure des différences

• Comparaison de modalités de variables • Echantillonnage • Hypothèses • Approche hypothético-déductive avec variables précodées • Approche inductive et reconstructions de variables a posteriori après réorganisation de la matière textuelle 14

Tableau lexical formes * parties En colonne, les parties (caractérisées par des variables et modalités)

En ligne, les formes: liste des mots du lexique issus de la segmentation et lemmatisation

•Nombre d’occurrences

15

Tableau lexical formes * parties LHumanité LaCroix yougoslavie 1 considérable 13 controversé 5 sgen 4 garraud 7 originalité 2 chine 10 naturel 18 controverse 5 mener 81 projection 9 sensibilisation 5 constitutif 2 lnder 0 commentaire 15 radicalisation 4 rythme 8 bienvenu 3 cependant 37 tisser 4 souci 17 prétendu 7 défiler 6 peur 41

LeFigaro 4 10 6 2 3 9 10 25 15 68 10 4 7 14 25 10 21 2 86 8 51 3 10 85

LeMonde 3 21 14 0 0 7 24 34 16 80 2 2 5 0 16 14 5 1 66 2 20 4 18 85

LePoint 2 4 5 5 1 2 5 12 8 53 4 1 2 0 16 9 5 1 29 1 19 5 14 44

Libération 0 3 3 0 0 2 3 10 0 17 0 0 0 0 3 0 5 1 12 0 6 0 5 12

NouvelObs 1 0 8 1 3 0 1 0 0 0 2 0 8 1 7 1 4 0 46 2 1 0 0 0 1 0 0 0 4 0 0 0 1 0 2 0 18 0 3 1 6 1 0 0 12 0 38 5

16

Analyse lexicale 3 : statistiques • Formes et réponses caractéristiques, ou spécificités (profil) • Méthodes factorielles • Classification automatique • Cooccurrences et similitudes

17

3.1. Les spécificités lexicales • Si l’on considère une forme lexicale particulière dans un corpus, les occurrences de cette forme peuvent se distribuer: – de façon équilibrée dans toutes les parties (hasard) – ou certaines parties peuvent révéler une fréquence de 1 cette forme plus élevée que d’autres (écart au hasard).

• A ce calcul, qui fait intervenir la comparaison d’une distribution observée à une distribution équilibrée (ou « théorique »), est associé une probabilité (« Modèle hypergéométrique », Lafon, 1984). 18

3.1. Les spécificités lexicales

19

3.2. La classification hiérarchique descendante Corpus 1ere partition du corpus

Classe 1 2e partition du corpus 3e partition

Classe 2 Classe 3 Classe 4 Classe 1 20

Tableau lexical Parties = segments de texte, dits « unités de contexte »

Segment 1 « Je ne veux pas être de la génération qui aura reporté le poids d’unedu dette excessive Formes lexique : sur ses enfants et petits-enfants. Mon gouvernement sera celui de la responsabilité devant la jeunesse. Nous pourrions utiliser la situation que nous avons trouvée pour justifier des renoncements. Et bien non, nous ne renonçons à rien. Cette majorité n’a pas été élue pour trouver des Segment 2 excuses, mais des solutions. Je veux dire aux français la vérité. je veux leur dire ce que nous ferons. Je veux qu’ils puissent être juges •Présence à chaque instant des chemins que nous empruntons. » / absence Extrait du discours de J-M Ayrault, 2012

Segment 3

Classification lexicale (méthode Reinert) Formes/ UC france travail nation politique engagement pouvoir social projet partenaires

a

b 1 1 1 0 0 0 0 0 0

c 0 1 0 1 0 1 0 1 0

1 0 1 1 1 1 0 0 0

d 0 1 0 0 0 0 1 1 1

e 1 1 1 0 0 0 0 0 0

f 0 1 0 0 0 0 1 1 1

g h 1 0 0 1 1 0 1 1 1 0 1 1 0 0 0 1 0 0

i 0 1 0 1 0 1 0 1 0

Classe 1 (vert) Classe 2 (jaune)

Classe 3 (rouge) 1ère partition 2ème partition 3ème partition

Classe 4 (bleu)

Dendrogramme et profils de classe

3.3. Analyse des correspondances Français 20

Élite de la nation

Littéraires

0

Histoire

10

20

Sûrement bons ailleurs

Mathématiques

Scientifiques 0

3.4. Cooccurrences et analyse de similitude • L’ADS est une technique, reposant sur la théorie des graphes, classiquement utilisée pour l’étude des représentations sociales. Son objectif est d’étudier la proximité et les relations entre les éléments d’un ensemble, sous forme d’arbres maximum

26

3.4. Cooccurrences et analyse de similitude

27

Quelques références • Lebart, L. & Salem, A. (1994). Statistique textuelle. Paris : Dunod. • Marchand, P. (1998). L’Analyse du Discours Assistée par Ordinateur. Paris : Armand Colin. • Reinert, M. (1990). ALCESTE - Une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de Nerval. Bulletin de Méthodologie Sociologique, 26, p. 24-54. • Ratinaud, P., & Dejean, S. (2009). IRaMuTeQ: implémentation de la méthode ALCESTE d’analyse de texte dans un logiciel libre. Modélisation Appliquée aux Sciences Humaines et Sociales (MASHS2009), Toulouse, France.

Support_Iramuteq_stageUrfist_2016-06-14.pdf

Stage URFIST de Rennes,. 14 juin 2016. Emmanuel MARTY. Université Nice Sophia Antipolis. Avec la contribution de Pascal Marchand et Pierre Ratinaud.

929KB Sizes 2 Downloads 145 Views

Recommend Documents

No documents