CENTRE NATIONAL D'ETUDES SPATIALES

Groupe d'Etudes des Phénomènes Aérospatiaux Non-identifiés

Toulouse, le 26 novembre 1982
N° 0148 CT/GEPAN

NOTE TECHNIQUE
N° 13

RECHERCHE STATISTIQUE D'UNE TYPOLOGIE
IDENTIFIEE / NON-IDENTIFIEE

ISSN : 0750-6694

Recherche statistique d'une typologie
Identifiée / Non-identifiée

SOMMAIRE

- LIMINAIRES
- 1.1. - PRÉLIMINAIRE
- 1.2. - OBJECTIFS
- 1.3. - INTRODUCTION
- LES DONNEES
- 2.1. - LES DONNÉES BRUTES
- 2.2. - CODAGE RÉVISÉ
- 2.3. - CONCLUSION
- LES CAS IDENTIFIES A POSTERIORI
- 3.1. - RÉPARTITION
- 3.2. - DESCRIPTION SOMMAIRE
- 3.3. - REPRÉSENTATION FACTORIELLE
- COMPARAISON IDENTIFIE / NON-IDENTIFIE
- 4.1. - DESCRIPTION SOMMAIRE
- 4.2. - REPRÉSENTATION FACTORIELLE
- 4.3. - REPRÉSENTATION DES OBSERVATIONS
- CONCLUSION
- PERSPECTIVES
- 6.1. - PROBLÈME
- 6.2. - MODÈLE THÉORIQUE
- 6.3. - STRATÉGIE
- 6.4. - CONCLUSION RÉFÉRENCES

ANNEXES 1 : RÈGLES DE CODAGE (VERSION 4)

ANNEXES 2 : RÉPARTITION SELON LE TYPE

ANNEXES 3 : APPROCHE THÉORIQUE

ANNEXE 3

APPROCHE THÉORIQUE

Ph. BESSE - Cl. VIDAL

1 – INTRODUCTION

Il est fréquent, en pratique, d'avoir à étudier un phénomène décrit par une variable aléatoire ( v.a. ) Y inobservable ( ou bien trop coûteuse à observer ). Pour pallier à cet inconvénient l'étude de ce phénomène se fait au travers d'une v.a. X qui est -elle- observable et dont on peut estimer la liaison avec Y ( en laboratoire ou sur un échantillon-test ). Dans le cas où Y est une variable qualitative multidimensionnelle, une étude descriptive peut conduire à l'utilisation de l'Analyse Factorielle des Correspondances ( A.F.C. ) si Y est de la forme ( Y1,Y2 ) où l'A.F.C. généralisée lorsque Y est un m-uple ( Y1,Y2,... ,Ym ). Pour déterminer cette analyse, il suffit de connaître ( ou tout du moins d'estimer ) la loi de Y. Celle-ci est déterminée ( peut être estimée ) dès que l'on connaît ( sait estimer ) la loi de X et la loi conditionnelle de Y à X.

Cette approche peut être utilisée en particulier dans le problème concret ( à l'origine de cet article ) exposé par P. BESSE [ 1 ] et que l'on peut résumer ainsi : des témoins observent un ensemble de phénomènes représentés par une variable qualitative multidimensionnelle Y dont ils font une estimation X ( narration des témoins ). Le problème est alors le suivant : comment rendre compte de Y à partir de l'étude faite sur X ?

En utilisant les outils introduits par J.F. MARTIN [ 8 ] sous l'appellation de codage "flou" ( ou codage par une probabilité de transition ), ce travail s'inscrit dans un cadre plus large visant à intégrer aux analyses factorielles les erreurs de mesure, de classement, les problèmes d'arrondi ou de lissage... qui peuvent apparaître lors de l'observation des variables.

Ainsi, après avoir été sommairement rappelée, la notion de codage est étendue à des espaces produits de façon à pouvoir être appliquée à des couples ( ou des couples ) de variables. Ceci conduit alors à des problèmes d'indépendance ( indépendance des erreurs entre elles, indépendance entre l'erreur sur une variable et les autres variables... ) qui sont discutés. Enfin, les problèmes d'estimation et donc de convergence sont résolus.

Remargue : Ce travail se rapportant è l'A.F.C. classique, toutes les tribus considérées par la suite sont de cardinal fini.

2 - T-CODAGE OU CODAGE PAR UNE TRANSITION

En pratique, les analyses factorielles non-linéaires utilisent essentiellement des fonctions indicatrices de modalités ( pour des variables qualitatives ) ou d'intervalles ( pour des variables quantitatives ), pour modéliser les situations à analyser ; ceci revenant à employer le codage disjonctif complet. La simplicité d'emploi et de mise en oeuvre de cet outil ( qui permet d'exhiber simplement une base orthonormée ) est aussi cause de sa rigidité, de son inadaptabilité à certains problèmes spécifiques. C'est pourquoi certains auteurs ont introduit d'autres formes de codage faisant appel à des fonctions spline ( D. LAFAYE de MICHEAUX [ 6 ], J.O. RAMSAY - S. WINSBERG [ 11 ] et [ 12 ], J. VAN RIJCKEVORSEL [ 13 ] ) ou bien à la notion de codage flou ( J.P. BORDET [ 2 ] , J.F. MARTIN [ 8 ] ) - notions reprises très récemment par J.L. MALLET [ 7 ] et J.M. GAUTIER, G. SAPORTA [ 5 ] -. On peut encore citer D.M. TITTERINGTON [ 14 ] qui a développé des outils similaires - estimation de densités de probabilités discrètes par la méthode des noyaux - pour l'étude de données catégorielles.

Parmi ces divers modèles, l'approche probabiliste due à J.F. MARTIN [ 8 ] ( codage par une probabilité de transition ) a été choisie, car elle semble la plus adaptée, et ce pour différentes raisons :

elle est synthétique et englobe les autres approches.
le cadre précis dans lequel elle est développée permet de donner une signification au codage, et donc d'interpréter les résultats.
enfin et surtout, ce n'est que dans ce cadre qu'il est possible de parler d'indépendance de codages ( des différentes variables à analyser cf. 4.1. ).

2.1 - rappels et notations

On rappelle ici sommairement les notions introduites par J.F. MARTIN [ 8 ] , auquel on renvoie pour ce qui est des démonstrations.

Le codage par une ( probabilité de ) transition permet de tenir compte de certains problèmes parasites qui peuvent survenir lors de la saisie des données erreurs de mesure, erreurs de classement, "bruit" qu'il faut lisser, erreurs systématiques d'arrondi ou encore, comme dans le cas qui nous intéresse, l'analyse d'une variable Y à l'aide d'une autre variable X.

Le principe adopté est alors d'associer à une observation X = X(omega) une probabilité ( i.e. un codage ).