CENTRE NATIONAL D'ETUDES SPATIALES

Groupe d'Etudes des Phénomènes Aérospatiaux Non-identifiés

Toulouse, le 25 mars 1981
N° 085 CT/GEPAN


 

NOTE TECHNIQUE N°4


 

Recherche statistique
d'une typologie des descriptions
de Phénomènes Aérospatiaux Non identifiés

 




SOMMAIRE

Introduction

1 - MISE EN OEUVRE DES ANALYSES

  • 1.1. LES OUTILS
    • 1.1.1. Modèle
    • 1.1.2. Analyses factorielles
    • 1.1.3. Classification automatique
  • 1.2. PREPARATION DES DONNEES
    • 1.2.1. Localisation
    • 1.2.2. Conditions sociologiques
    • 1.2.3. Conditions physiques
    • 1.2.4. Description

2 - DESCRIPTION DES VARIABLES ET DE LEURS MODALITÉS

  • 2.1. DESCRIPTION DES VARIABLES
  • 2.2. DESCRIPTION DES MODALITES
    • 2.2.1. Localisation
    • 2.2.2. Conditions sociologiques
    • 2.2.3. Conditions physiques
    • 2.2.4. Estimation de la distance
    • 2.2.5. Description de l'observation
      • Préliminaire
      • Comportement du phénomène
      • Description du phénomène
      • Description conjointe du phénomène et de son comportement
    • 2.2.6. Liaisons inter-groupes
  • 2.3. RESUME DE L'ANALYSE DESCRIPTIVE DES VARIABLES ET DE LEURS MODALITES

3 - CLASSIFICATION AUTOMATIQUE DES OBSERVATIONS

  • 3.1. PRÉLIMINAIRE
  • 3.2. RESULTATS
    • 3.2.1. Comportement du phénomène
    • 3.2.2. Description du phénomène
    • 3.2.3. Description des phénomènes et de leurs comportements

4 - CONCLUSION

  • 4.1. LES TECHNIQUES D'ANALYSES
  • 4.2. LE CODAGE
  • 4.3. CONCLUSION DE CETTE ETUDE
  • 4.4. ... A SUIVRE....

BIBLIOGRAPHIE

 




 

3. CLASSIFICATION AUTOMATIQUE DES OBSERVATIONS

3.1. PRÉLIMINAIRE

La méthode employée brièvement décrite au § 1.1.*, consiste a regrouper les observations les plus "semblables" c'est-à-dire les plus "proches" au sens d'une certaine métrique. C'est donc, avec l'analyse des variables ( § 2.1. ) et l'analyse des modalités ( § 2.2. ) une troisième façon d'aborder le corpus des données. Aucune de ces méthodes n'est a priori plus performante que les autres, chacune apporte un point de vue complémentaire et les confrontations des résultats permettent, sinon de valider, du moins de fixer des limites aux interprétations proposées.

(*) Pour plus de détails, se reporter par exemple à LMT-79.

Parallèlement aux analyses portant sur la description des phénomènes et de leurs comportements, trois classifications des observations ont été réalisées. Chacune d'elles fournit une partition en 10 classes, les neuf premières ( notées de 1 à 9 ) apparaissent comme les plus stables à travers une série de classifications élémentaires en 3 classes tandis que la dixième ( notée A ) regroupe les observations marginales qui évoluent d'une classe à l'autre. Toutes les observations sont alors représentées dans les plans factoriels précédemment calculés où chaque cas est symbolisé par le numéro de la classe à laquelle il appartient ( figures 8, 10 et 12 ). Puis, afin de comparer dispersion des modalités et dispersion des classes, ce sont les centres de gravité de chaque classe, qui sont représentés conjointement à l'ensemble des modalités ( figures 9, 11 et 13 ).

3.2. RÉSULTATS

Les résultats obtenus sont peu significatifs, les représentations des classes sont rarement disjointes et même fréquemment imbriquées. De plus, les classes d'observations obtenues correspondent peu aux classifications des modalités élaborées précédemment.

3.2.1. Comportement du phénomène (figure 8)

Le nombre restreint de variables conduit à des classes comparativement plus distinctes que dans les autres cas de figures ci-dessous. On peut associer alors certaines classes ( en terme d'inclusion ) aux types de comportements décrits au paragraphe 2.2.5.* :

 N° classe   Effectif   Comportement type 
1 80 a
7 9 b
4 15 c
5 12
6 10

3.2.2. Description du phénomène

La même opération a été entreprise malgré le flou accru :

 N° classe   Effectif   Description type 
7 2 1
9 8
3 22 2
4 16
5 15 3
6 13 4
8 10

(*) Cette répartition n'est pas seulement "visible" sur les représentations dans les plans factoriels, elle est confirmée en comparant la nouvelle variable qualitative obtenue à partir de la classification et les différentes variables comportementales.

Figure 8

Figure 9

Figure 10

Figure 11

3.2.3. Description des phénomènes et de leurs comportements

Il est encore plus difficile de donner un sens à la classification obtenue relativement aux regroupements des modalités. Ainsi, la classe n° 8 qui est comparativement la plus disjointe des autres, se situe de part et d'autre de la deuxième bissectrice utilisée au § 2.2.5. pour partager les types de description.

On se contente alors d'attribuer à chaque classe la liste des modalités qui sont les mieux représentées. ( voir tableau 7 page suivante ).

On remarque évidemment que les modalités de plus fort effectif sont le plus souvent cités puisque ce sont elles qui favorisent les proximités entre observations. Les techniques de classification automatique sont donc bien complémentaires des analyses factorielles qui font elles surtout apparaître les modalités de faible effectif moins probables donc plus significatives au sens de la métrique du X2.

Dans une situation plus favorable ( celle, par exemple, où les deux techniques d'analyses - factorielles et classification - conduiraient à des interprétations se renforçant mutuellement ) il serait sans doute intéressant de revenir, après classification, aux procès- verbaux, source des informations.

Les confrontations de certains éléments d'informations pourraient suggérer alors des possibilités d'interprétation ou encore susciter des pistes de recherches en sciences physiques. Mais actuellement, une telle démarche qui sort du cadre strictement statistique de cette étude, ne semble pas suffisamment motivée pour être entreprise.

TABLEAU 7

EFFECTIF CLASSE LISTE DES MODALITES LES MIEUX REPRESENTEES
54 1 Rond, sphérique ; brillant intense ; rouge ou blanc ; trajectoire droite ou légèrement courbée ; lent, immobile ; silence.
25 2 Disque, soucoupe ; lumineux ; orange ; trajectoire droite ou légèrement courbée ; lent, immobile ; silence.
15 3 Oeuf, ovale ; lumineux ; orange ; trajectoire droite ou légèrement courbée ; lent, immobile ; silence.
15 4 Cigare, cylindre ; brillant ; plusieurs couleurs ou inconnues ; trajectoire droite ou légèrement courbée ; vitesse variable ; silence.
14 5 Rond, sphérique ; brillant ; variable non périodique ; rouge, orange ou blanc ; trajectoire droite ou complexe ; vitesse nulle puis rapide ; silence.
13 6 Oeuf, ovale ; lumineux ; clignotant ; plusieurs couleurs ; station près du sol ; "atterrissage" ; vitesse variable ; silence.
13 7 Rond, sphérique ; brillant ; orange ; trajectoire droite ou complexe ; station près du sol ; lent, immobile ; silence.
9 8 Forme autre ; intense ; plusieurs couleurs ; atterrissage ; vitesse inconnue ; bruit dans les aigus ; silence.
9 9 Rond, sphérique ; brillant ; variable non périodique ; orange ou couleurs changeantes ; trajectoire droite ou complexe ; virages, arabesques, vitesse variable ; silence.

Figure 12

Figure 13

 

4. CONCLUSION

4.1. LES TECHNIQUES D'ANALYSES

Les outils employés sont l'objet d'un certain nombre de critiques classiques qu'il ne faut pas perdre de vue surtout lorsque comme dans le cas présent, les faibles dispersions rencontrées ( faible "inertie expliquée" des plans factoriels ) conduisent à des interprétations dont la validité peut être sujette à caution.

Les analyses factorielles tiennent compte uniquement des "distances" entre les variables prises 2 à 2 et négligent ainsi les effets d'interactions lorsqu'interviennent plus de deux variables. Les techniques existant pour réduire ces effets ( cf. BBCP - 77 ) nécessitent des effectifs importants et n'ont pu être développées. De son côté, la méthode de classification automatique employée ( les "nuées dynamiques" ) est sensible au choix de la métrique utilisée pour mesurer les "proximités" entre observations.

De plus, le modèle mathématique sous-jacent à ces analyses ( représentation vectorielle ) fait jouer aux modalités des rôles identiques indépendamment des structures ( ordre, pré-ordre, ... ) que peuvent induire les variables ou des significations qu'elles recouvrent ( couleur non signalée, couleur rouge, couleur autre, ... ). Ceci fait comme on va le voir sur un exemple ci-dessous, que ces analyses sont particulièrement sensibles aux choix des variables et de leurs modalités et donc aux règles de codage.

4.2. LE CODAGE

Un exemple type de l'influence du codage est donné au 2.2.5. dans l'étude du comportement des phénomènes observés. On remarque en effet que le deuxième axe factoriel de cette analyse ( figure 5 ) discrimine d'une part la modalité "linéaire" de la variable "caractère principal de la trajectoire" et d'autre part cette même modalité "linéaire" de la variable "caractère secondaire de la trajectoire".

Ceci s'explique simplement par le fait qu'on ne code pas deux fois la même information ( linéarité ) et donc qu'aucune observation ne prend simultanément ces deux modalités. Ainsi comparativement aux effectifs de chacune des modalités, cette co-absence, devenant significative, est prise en compte par l'analyse alors qu'elle n'exprime qu'une insuffisance du codage au lieu d'une caractéristique des témoignages.

Cette redondance se retrouve pour d'autres modalités ( "atterrissages", "station près du sol", "0-15°" etc...  ), accroissant le flou" du nuage des observations et les difficultés d'interprétation. Il faut ajouter de plus que le codage ne tient pas compte des différentes phases que peut comporter la description d'un phénomène, ce qui participe encore à la confusion.

4.3. CONCLUSION DE CETTE ETUDE

Compte tenu des critiques qui précédent, il est clair qu'aucune certitude n'émerge de ce travail, mais pour comprendre ce qu'il peut apporter, il faut le resituer dans le contexte des études statistiques déjà réalisées.

Les mêmes types d'analyses*, effectués sur un autre corpus de données, ont trouvé que les dispersions les plus marquées du nuage des observations provenaient essentiellement de la variété des sources utilisées pour constituer le fichier ( livres ou revues, français ou étrangers... ) mais les investigations n'ont guère pu être approfondies.

(*) cf. Der-76, Bor-77 sur le fichier établit par Claude Poher

Un travail plus récent** de comparaison de fichiers a permis de révéler le rôle joué par les différents filtres situés entre les témoignages et l'analyse statistique ; l'étude présente, utilisant des données venant d'une source supposée homogène, et malgré certaines insuffisances du codage, permet de franchir une nouvelle étape comme l'illustre le § 2.2.4, sur l'estimation de la distance, le débat statistique se place maintenant au nœud du problème dans toute la complexité des interactions entre physique et psychosocial, témoignages et environnements telles qu'elles ont déjà été décrites ( cf. Bes-80 et ABEJ-81 ).

(**) cf. Bes-80

En effet, il semble difficile d'être plus précis dans la description et l'interprétation des données recueillies sans que progresse, en parallèle, une connaissance même élémentaire des mécanismes perceptifs et des témoignages dans des conditions psycho-sociologiques expérimentales similaires. C'est une condition nécessaire pour essayer d'évaluer et d'interpréter les influences réciproques du psychologique, du sociologique et du physique ; de discerner, parmi les caractéristiques ou constantes relevées dans les rapports d'observations, celles spécifiques du témoignage humain de celles attribuables aux phénomènes observés dans un débat qui risque de plagier, dans sa forme statistique, le débat classique caractères acquis/caractères innés en génétique***.

(***) Avec tous les pièges statistiques que cela comporte (cf. ChJ-79).

4.4. …A SUIVRE…

Ainsi, ce travail permet au moins d'orienter les pistes de recherches ( psycho-sociologie ; psychologie de la perception ) dont le développement est nécessaire à la poursuite d'une étude typologique des phénomènes observés.

Dans cette perspective, le codage actuel, qui s'efforce de réaliser un compromis entre les différentes études possibles, devient insuffisant et chaque recherche doit en développer un, spécifique aux hypothèses à valider. On note par exemple, qu'une étude sur la perception s'attachant aux estimations des distances, des tailles, des vitesses, ...., nécessite un codage homogène et très fin, alors que pour les techniques d'analyse des données et de classification, il faut éviter les modalités redondantes ou à effectif trop faible.

D'autre part, au vu des classifications obtenues ( floues ou difficilement interprétables ) et de même qu'une étude de la perception portera d'abord sur les rapports d'observations de phénomènes reconnus à postériori*, il semble intéressant d'orienter l'analyse statistique vers un type de classification dit "avec apprentissage"**. Ceci aura pour effet de considérer les phénomènes non identifiés à leur place, c'est-à-dire en marge des phénomènes, identifiables et identifiés, plutôt que comme une "population statistique" dont l'homogénéité n'est peut-être qu'illusoire***.

Enfin, un point théorique important reste à résoudre : comment lesdifférentes études abordant des domaines complémentaires, vont-elles s'articuler ? Il est, par exemple, évident qu'une connaissance accrue des mécanismes perceptifs doit conduire à préciser l'image statistique du "phénomène OVNI" et, réciproquement, la connaissance des caractéristiques des phénomènes doit alimenter l'étude de la perception. Mais les outils statistiques existants ne sont pas encore adaptés à une telle"gymnastique".

(*) Observation d'1 phénomène dont les caractéristiques physiques sont connues, dans des conditions similaires à la perception d'un phénomène inconnu.

(**) Par analogie avec la télédétection où les parcelles élémentaires du sol (pixels) sont regroupées autour de "points vérité terrain" dont la nature est connue a priori.

(***) Sans oublier qu'on évite ainsi le biais introduit par l'expertise.

 

BIBLIOGRAPHIE

 

ABEJ-81 AUDRERIE D., BESSE P., ESTERLE A., JIMENEZ M.
Note Technique N° 3
CNES/GEPAN - A paraître
BBCP-77 BAUMERDER A., BONNEFOUS S., CAZES P., PAGES JP.
Codage et analyse du tableaux logiques -
Introduction à la pratique du variables qualitatives
Cahier du B.U.R.O. - n° 27 - 1977 – Paris
Bes-80 BESSE P.
Étude comparative des résultats statistique élémentaires relatifs aux observations des phénomènes aérospatiaux non identifiés
CNES/GEPAN 1980 - Note Technique n° 2
Bor-77 BORDET JP.
Etude statistique multidimensionnelle d'un ensemble d'observations d'OVNI
Réunion du Conseil Scientifique du GEPAN - décembre 77
Cap-76 CAILLEZ F., PAGES JP.
Introduction à l'analyse des données
SMASH – 1976
ChJ-79 CHOUCHAN M., JACQUARD A.
A propos d'intelligence et de quotient intellectuel. Rôle d'un "modèle additif'' dans les conceptions d'inné et d'acquis.
Bulletin de l'APMEP – 58° année – n° 321 – dec. 79
Dap-76 DAUXOIS J., POUSSE A.
Les analyses factorielles en calcul du probabilités et en statistiques : essais d'étude synthétique
Thèse d'état - Toulouse III - 1976
Der-76 DERANSART P.
Etude des données du CNES portant sur des observations d'OVNI
Note manuscrite
JIM-81 JIMENEZ M.
Psychophysique de la perception des distances
CNES/GEPAN - Recherches en cours
LMT-77 LEBART L., MORINEAU A., TABARD N.
Techniques de la description statistique
Dunod – 1977
Leg-79 LEGENDRE P.
Rapport d'études statistiques
CNES/GEPAN - Note Technique N° 1 - 1979
Mar- 80 MARCUS M.
Analyse statistique de cas d'observations d'OVNI
Rapport de D.E.A. - Paris V I – 1980
Sap-75 SAPORTA G.
Liaison entre plusieurs ensembles de variables et codages de données qualitatives
Thèse de 3° cycle - Paris VI – 1975
Sap-78 SAPORTA G.
Théories et méthodes de la statistique
TECHNIP - 1978

 




FIN




© CNES