CENTRE NATIONAL D'ETUDES SPATIALES
Groupe d'Etudes des Phénomènes Aérospatiaux Non-identifiés
 |
Toulouse, le 26 novembre 1982 N° 0148 CT/GEPAN
|
NOTE TECHNIQUE N° 13
RECHERCHE STATISTIQUE D'UNE TYPOLOGIE
IDENTIFIEE / NON-IDENTIFIEE
ISSN : 0750-6694
Recherche statistique d'une typologie Identifiée / Non-identifiée
- LIMINAIRES
- 1.1. - PRÉLIMINAIRE
- 1.2. - OBJECTIFS
- 1.3. - INTRODUCTION
- LES DONNEES
- 2.1. - LES DONNÉES BRUTES
- 2.2. - CODAGE RÉVISÉ
- 2.3. - CONCLUSION
- LES CAS IDENTIFIES A POSTERIORI
- 3.1. - RÉPARTITION
- 3.2. - DESCRIPTION SOMMAIRE
- 3.3. - REPRÉSENTATION FACTORIELLE
- COMPARAISON IDENTIFIE / NON-IDENTIFIE
- 4.1. - DESCRIPTION SOMMAIRE
- 4.2. - REPRÉSENTATION FACTORIELLE
- 4.3. - REPRÉSENTATION DES OBSERVATIONS
- CONCLUSION
- PERSPECTIVES
- 6.1. - PROBLÈME
- 6.2. - MODÈLE THÉORIQUE
- 6.3. - STRATÉGIE
- 6.4. - CONCLUSION RÉFÉRENCES
ANNEXES 1 : RÈGLES DE CODAGE (VERSION 4)
ANNEXES 2 : RÉPARTITION SELON LE TYPE
ANNEXES 3 : APPROCHE THÉORIQUE
APPROCHE THÉORIQUE
Ph. BESSE - Cl. VIDAL
1 – INTRODUCTION
Il est fréquent, en pratique, d'avoir à étudier un phénomène décrit par une variable aléatoire ( v.a. ) Y
inobservable ( ou bien trop coûteuse à observer ). Pour pallier à cet inconvénient l'étude de ce phénomène
se fait au travers d'une v.a. X qui est -elle- observable et dont on peut estimer la liaison avec Y ( en laboratoire
ou sur un échantillon-test ). Dans le cas où Y est une variable qualitative multidimensionnelle, une étude
descriptive peut conduire à l'utilisation de l'Analyse Factorielle des Correspondances ( A.F.C. ) si Y
est de la forme ( Y1,Y2 ) où l'A.F.C. généralisée lorsque Y est un m-uple ( Y1,Y2,... ,Ym ).
Pour déterminer cette analyse, il suffit de connaître ( ou tout du moins d'estimer ) la loi de Y. Celle-ci
est déterminée ( peut être estimée ) dès que l'on connaît ( sait estimer ) la loi de X
et la loi conditionnelle de Y à X.
Cette approche peut être utilisée en particulier dans le problème concret ( à l'origine de cet article )
exposé par P. BESSE [ 1 ] et que l'on peut résumer ainsi : des témoins observent un ensemble
de phénomènes représentés par une variable qualitative multidimensionnelle Y dont ils font une
estimation X ( narration des témoins ). Le problème est alors le suivant : comment rendre
compte de Y à partir de l'étude faite sur X ?
En utilisant les outils introduits par J.F. MARTIN [ 8 ] sous l'appellation de codage "flou" ( ou
codage par une probabilité de transition ), ce travail s'inscrit dans un cadre plus large visant à intégrer aux
analyses factorielles les erreurs de mesure, de classement, les problèmes d'arrondi ou de lissage... qui peuvent
apparaître lors de l'observation des variables.
Ainsi, après avoir été sommairement rappelée, la notion de codage est étendue à des espaces produits
de façon à pouvoir être appliquée à des couples ( ou des couples ) de variables. Ceci conduit alors à
des problèmes d'indépendance ( indépendance des erreurs entre elles, indépendance entre l'erreur sur une
variable et les autres variables... ) qui sont discutés. Enfin, les problèmes d'estimation et donc de convergence
sont résolus.
Remargue : Ce travail se rapportant è l'A.F.C. classique, toutes les tribus considérées par la suite sont de cardinal fini.
2 - T-CODAGE OU CODAGE PAR UNE TRANSITION
En pratique, les analyses factorielles non-linéaires utilisent essentiellement des fonctions indicatrices de
modalités ( pour des variables qualitatives ) ou d'intervalles ( pour des variables quantitatives ),
pour modéliser les situations à analyser ; ceci revenant à employer le codage disjonctif complet. La simplicité
d'emploi et de mise en oeuvre de cet outil ( qui permet d'exhiber simplement une base orthonormée )
est aussi cause de sa rigidité, de son inadaptabilité à certains problèmes spécifiques. C'est pourquoi certains auteurs
ont introduit d'autres formes de codage faisant appel à des fonctions spline ( D. LAFAYE de MICHEAUX [ 6 ],
J.O. RAMSAY - S. WINSBERG [ 11 ] et [ 12 ], J. VAN RIJCKEVORSEL [ 13 ] )
ou bien à la notion de codage flou ( J.P. BORDET [ 2 ] , J.F. MARTIN [ 8 ] ) -
notions reprises très récemment par J.L. MALLET [ 7 ] et J.M. GAUTIER, G. SAPORTA [ 5 ] -.
On peut encore citer D.M. TITTERINGTON [ 14 ] qui a développé des outils similaires - estimation de densités
de probabilités discrètes par la méthode des noyaux - pour l'étude de données catégorielles.
Parmi ces divers modèles, l'approche probabiliste due à J.F. MARTIN [ 8 ] ( codage par une probabilité
de transition ) a été choisie, car elle semble la plus adaptée, et ce pour différentes raisons :
elle est synthétique et englobe les autres approches.
le cadre précis dans lequel elle est développée permet de donner une signification au codage, et donc
d'interpréter les résultats.
enfin et surtout, ce n'est que dans ce cadre qu'il est possible de parler d'indépendance de
codages ( des différentes variables à analyser cf. 4.1. ).
2.1 - rappels et notations
On rappelle ici sommairement les notions introduites par J.F. MARTIN [ 8 ] , auquel on renvoie pour ce
qui est des démonstrations.
Le codage par une ( probabilité de ) transition permet de tenir compte de certains problèmes parasites
qui peuvent survenir lors de la saisie des données erreurs de mesure, erreurs de classement, "bruit" qu'il faut lisser,
erreurs systématiques d'arrondi ou encore, comme dans le cas qui nous intéresse, l'analyse d'une variable Y à l'aide
d'une autre variable X.
Le principe adopté est alors d'associer à une observation X = X(omega) une probabilité ( i.e. un codage ).










SUITE de l'annexe 3...
© CNES
|