CENTRE NATIONAL D'ETUDE SPATIALES

Groupe d'Etude des Phénomènes Aérospatiaux Non-identifiés

Toulouse, le 29 octobre 1979

NOTE TECHNIQUE N°1

Analyse du problème
du pré-traitement des données

SOMMAIRE

PRÉSENTATION

CHAPITRE 1 - Les techniques d'expertise

( Alain ESTERLE )

CHAPITRE 2 - Règles de codage ( 4ème version GEPAN )

( Jacques DUVAL )

CHAPITRE 3 - Rapport d'études statistiques

( Paul LEGENDRE )

CHAPITRE 4 - Réflexion sur les principes du pre-traitement

( Manuel JIMENEZ )

CHAPITRE 5 - Etude des problèmes liés à la création d'un fichier informatique

( Jean-Pierre ROSPARS )

CHAPITRE 6 - Les méthodes de traitement de I'information appliquées aux phénomènes OVNI

( Michel MARCUS )

CONCLUSION

CHAPITRE 5

ETUDE DES PROBLÈMES LIÉS A LA CRÉATION D'UN FICHIER INFORMATIQUE

Par JP. ROSPARS

"Ce n'est qu'au jour où (...) les observations seront extraites des archives poussiéreuses ; où la négligence et l'ignorance. Les ont enfouies que la Science sera en mesure d'analyser le phénomène OVNI".

Jacques VALLEE (1)

RÉSUMÉ

L'existence des témoins, des traces alléguées et des documents qui en émanent ou qui s'y rapportent, constitue un phénomène OVNI empirique incontestable. Pour en déterminer les causes, il convient de rassembler des données sur les observables disponibles par des méthodes rigoureuses. Ce recueil est matériellement difficile pour les témoins et les traces, il l'est moins pour les documents dont le nombre élevé exige le recours à l'informatique.

La construction d'un fichier informatique pose essentiellement des problèmes ufologiques. Le premier est celui de l'unité de base du fichier (entrée) qui peut être le phénomène allégué, le témoignage ou le document. Ce dernier choix n'impose sauf exception. Le second est celui de la liste des caractéristiques à coder (variable) : elle doit être déterminée en tenant compte des phénomènes eux-mêmes mais tels qu'ils apparaissent en moyenne dans les documents, et des fonctions attendues du fichier. Ces fonctions qui ont chacune leurs exigences propres sont : la mise en ordre des documents, la recherche bibliographique et les études statistiques. Le troisième problème est celui de la création et de l'application pratique des codes ( modalités des variables ) Leur création est conditionnée par le caractère multidimensionnel des données et se fonde sur le concept d'échelle de mesures. Leur application introduit l'équation personnelle du codeur, qui peut être limitée, entre autre par l'emploi d'un livret de codage. Enfin, Il convient de tenir compte des fichiers existants, dont certaine sont extrêmement développés, et de l'expérience ainsi acquise.

En conclusion, une philosophie directive est proposée insistant sur la généralité du fichier tant du point de vue des documents traités que des applications possibles, et sur sa structure hiérarchique, tous les documents et toutes les variables n'ayant pas même importance. Cette philosophie appelle en contrepartie, le développement de fichiers plus spécialisés.

1. INTRODUCTION : L'ETUDE SCIENTIFIQUE DES DOCUMENTS OVNI

1.1. TENTATIVE DE DEFINITION DU PHENOMENE OVNI

On désigne communément sous le nom de "phénomène(s) OVNI" un ensemble disparate qui peut inclure un ou plusieurs des éléments suivants : des "objets volants non-identifiés", des témoins, des traces, des photos, des interprétations diverses, des groupes d'enquêtes privés, des répercussions dans les média, etc... Il est clair que ces divers éléments n'ont pas le même statut scientifique. Ainsi, l'OVNI lui-même n'est pas actuellement susceptible d'étude scientifique, compte tenu de son existence problématique et de sa manifestation irreproductible. Il convient donc, avant toute chose, d'introduire une terminologie rigoureuse, adaptée à un usage scientifique, et apte à faire l'unanimité des personnes compétentes. Aussi proposons-nous la définition suivante en deux volets :

le phénomène OVNI est constitué par l'existence dans de nombreux pays du monde et de manière continue depuis la fin de la seconde guerre mondiale, de personnes qui ont rapporté avoir vu des lumières ou des objets inhabituels dans le ciel, ou au sol ou près du sol. Ces témoignages décrivent parfois des objets solides d'aspect artificiel et sont accompagnés, de manière rare mais significative, d'enregistrements physiques ( photo, écho radar, ...) ou de traces au sol attribuées au phénomène allégué ;
nombre de ces témoignages, soumis à une analyse méthodique auprès des témoins et sur le site de l'observation alléguée, ne peuvent être attribués en toute rigueur ni à des affabulations ni à des mésinterprétations (*) de par la personnalité des témoins et la spécificité des données qu' ils fournissent. Ils demeurent donc inexpliqués non seulement pour les témoins mais également par les "experts".

(*) Nous proposons ce néologisme construit sur le modèle de mésalliance, mésentente, mévente, de préférence à "mauvaise interprétation" ou autres expressions similaires.

1.2. COMMENTAIRES DE LA DÉFINITION

L'existence de témoins ( premier volet de la définition ) est un fait tangible parfaitement établi. Son interprétation est l'objet d'une controverse passionnée depuis 30 ans. Les informations actuellement disponibles révèlent que cette existence ne peut être aisément expliquée ( second volet ) puisque certains témoins fournissent des témoignages articulés dont les meilleurs, comme les enquêtes du GEPAN l'ont montré, sont capables de résister à des tests sévères qui établissent au moins l'existence historique d'un évènement "anormal" et établiraient en toute autre circonstance ( c'est-à-dire si le stimulus à l'origine du témoignage était connu ) la réalité physique de l'observation. Il n'est dès lors pas exclu que le phénomène OVNI puisse constituer un phénomène nouveau : spécifique et irréductible.

L'expression "phénomène OVNI" présente de ce fait une certaine ambiguité puisqu'elle peut désigner :

ou bien un fait objectif : l'existence de témoins, l'émission de rapports. C'est ce sens que nous avons retenu pour construire la définition qui précède. Pour éviter une confusion extrêmement préjudiciable, l'expérience le montre, à une réflexion claire sur ces questions, nous qualifierons ce fait de "phénomène OVNI empirique". L'emploi du singulier est justifié par le grand nombre de propriétés communes présentées par chacune des manifestations du phénomène ( apparition d'un témoin ) ;
ou bien une explication possible du fait précédent, qu'on peut alors qualifier de "phénomène OVNI explicatif". L'emploi du singulier prête alors à discussion puisqu'il n'y a aucune raison de penser a priori qu'un seul phénomène est responsable du fait empirique.

Cette dernière remarque soulève une difficulté quant à la définition précise du phénomène OVNI empirique : doit-on ou non y inclure les témoignages expliqués par affabulation consciente ou inconsciente et par mésinterprétation ? Il est certes préférable, pour que l'attention soit centrée sur l'essentiel, de n'inclure que les témoignages peu ou pas réductibles. Toutefois, il est clair qu'une évaluation rigoureuse de chaque cas est et demeurera difficile pour des raisons matérielles. A chaque instant, le phénomène empirique est donc un ensemble hétérogène comportant un noyau dont on sait positivement qu'il est très difficilement explicable et une périphérie dont on a déterminé l'explication précise ; entre les deux, un sous-ensemble se rattachant au noyau ou à la périphérie selon la quantité d'informations disponibles et la possibilité d'une explication. Pour des raisons méthodologiques, un examen comparatif de l'ensemble des cas expliqués ou non semble indispensable en l'état actuel de nos connaissances. Ainsi, considérons nous dans ce qui suit le phénomène empirique au sens large.

1.3. L'ETUDE SCIENTIFIQUE DU PHENOMENE

Les témoins, les témoignages, les "traces" de toute nature, constituent la matière première, les observables, sur lesquels le GEPAN doit travailler pour tenter d'établir les propriétés et, de là, la nature du ou des phénomènes qui engendrent les témoignages et ces traces allégués. En pratique, le GEPAN n'étudie pas un phénomène conjectural ( tels que les "soucoupes volantes" par ex.) mais un phénomène réel qui tient à l'existence expérimentalement certaine de témoins et de "traces". Il convient donc de bien distinguer les phénomènes observables ( témoins, traces, etc...) qui sont du domaine de l'observation et de l'expérimentation, observation et expérimentation destinées à recueillir des données aussi diverses, complètes que possible sur ces observables, et les phénomène explicatifs qui sont du domaine de l'hypothèse de travail, du modèle, de la théorie, ces diverses constructions rationnelles devant être confrontées aux donnée recueillies sur les observables pour infirmation ou confirmation.

Le recueil des données sur le phénomène OVNI empirique exige la mise au point d'une méthodologie adaptée à l'observable considérée qu'elle soit une trace, un témoin ou un document. En ceci l'étude du phénomène OVNI n'est en rien différente de celle pratiquée dans toute autre discipline scientifique. La science ne se définit pas par son objet mais par ses méthodes : il n'y a pas d'objets d'études indignes de la science, il n'y a que des méthodes indignes d'elle. Les études au GEPAN n'échappent pas à l'activité scientifique par le fait qu'elles s'appuient principalement sur des témoins et sur des témoignages oraux et écrits, car ce sont là des observables disponibles et qu'on n'a le choix qu'entre les utiliser ou ne rien faire. Elles y échapperaient par contre si les données étaient recueillies de manière hâtive et approximative, si aucun effort n'était fait en vue de l'évaluation critique ou de l'amélioration des méthodes utilisées ou si les analystes se laissaient entraîner par leurs idées a priori.

Le premier travail du GEPAN, celui-là même qui peut suffire à justifier son existence d'un point de vue scientifique, est précisément de développer des méthodes aptes à permettre le recueil de données ufologiques et de recueillir effectivement ces données à partir des observables disponibles ( 1^ère phase de la méthode expérimentale ) Ensuite, mais ensuite seulement, dans l'ordre logique mais aussi dans l'ordre des priorités, il lui reviendra à proposer des hypothèses de travail de portées plus ou joins grandes destinées à rendre compte de tel ou tel aspect du phénomène ( 2^ème phase ) et à les tester au moyen des données recueillies ( 3^ème phase ). Si cette démarche est suivie, on pourra dire que le GEPAN fait oeuvre scientifique et que le phénomène OVNI est scientifiquement étudié (2).

Nous nous proposons ici d'étudier les problèmes méthodologiques posés par la 1^ère phase, celle du recueil des données, et par une seule des catégories d'observables, celle des documents.

1.4. LE RECUEIL DES DONNEES

Le phénomène OVNI empirique peut être l'objet d'une étude direct qui consiste pour les chercheurs du GEPAN à recueillir des données auprès des témoins eux-mêmes sur le site de l'observation. Ces chercheurs peuvent alors analyser les "traces" observables qui se rapprochent le plus de ce sur quoi travaillent les chercheurs des sciences physiques et biologiques. Ils peuvent également, étudier des témoins et ce de plusieurs manières différentes : non seulement en leur demandant de conter un récit et de répondre à des questions ( témoignage au sens strict ) mais aussi en faisant usage de techniques non verbales ( choix d'un couleur dans un teintier, détermination d'une direction à l'aide d'un théodolite etc...) dont les limitations sont très certainement différentes des techniques fondées sur l'expression orale.

Le GEPAN doit évidemment travailler autant que possible sur des traces et des témoins. Cependant, cette approche est limitée par deux facteurs le premier est le temps écoulé depuis l'observation qui affects les souvenirs des témoins encore vivants et qui rend parfois difficile la recherche de leurs adresses actuelles ; le second est le nombre même de ces témoins qui, compte tenu du coût des enquêtes, impose d'en réserver l'usage à un faible échantillon. Force est donc de recourir à une étude indirecte qui utilise les enquêtes faites par les journalistes, les enquêteurs privés et les gendarmes. Les documents ainsi mis en circulation sont des sources de données dont la qualité est en principe moindre que celles que le GEPAN aurait pu obtenir directement mais qui ont le mérite essentiel d'exister, d'avoir été élaboré indépendamment du GEPAN et de ne lui coûter que le prix de leur collecte.

L'étude des documents ne s'impose d'ailleurs pas seulement pour des raisons pratiques qui viennent d'être dites, qui en feraient une sorte de moindre mal, mais de mal tout de même. En fait, il convient de les étudier également en tant que phénomène propre. Si le document peut être analysé comme le sous-produit de l'exposition du témoin à un phénomène exceptionnel, il peut l'être aussi et indépendamment comme expression d'un phénomène de société qui possède sa problématique propre. L'existence des documents appelle ces développements sociologiques et historiques.

1.5. L'ETUDE DES DOCUMENTS

Les documents ufologiques émis en France depuis la fin de la guerre, sont extrêmement nombreux : probablement plusieurs dizaines de milliers. Ils sont dispersés : articles de journaux ( essentiellement de la presse régionale ), revues d'amateurs ( souvent de faible tirage, d'existence éphémère et de collecte difficile ), livres de toutes natures, rapports officiels. Ils sont redondants : dans biens des cas, une même observation donne lieu à plusieurs documents qui, si l'observation a été l'objet d'une certaine publicité, forment un réseau touffu.

Ces documents sont d'origine très hétérogène : information de seconde main, interview plus ou moins rapide de journalistes, enquêtes d'amateurs plus ou moins objectifs et compétents, sporadiques jusqu'en 1965 environ, plus nombreuses depuis et enquêtes officielles négligentes ou approfondies, sporadiques jusqu'en 1975, et nombreuses depuis. Les informations y sont consignées de manière non systématique : il est peu de questions auxquelles tous les documents donnent réponse.

Enfin, les évènements décrits sont eux-mêmes très hétérogènes par leur nature : du point lumineux dans le ciel à l'objet posé dans un champ, et par leur complexité qui dépend du nombre de témoins interrogés, du nombre de phases observées et de l'intensité de l'interaction phénomène/témoins.

L'étude des documents implique donc la résolution de trois types de problèmes :

la collecte de documents,
leur classement,
le recueil des données à partir des documents collectés.

Nous ne considérerons ici que les deux derniers problèmes et surtout le troisième poursuivant et explicitant ainsi une étude antérieure (3) .

Le nombre et la dispersion des documents exigent sans conteste le recours à l'informatique. Cet outil peut être utilisé de deux manières complémentaires : soit pour effectuer le recensement et le classement logique des documents existants, soit pour étudier le contenu informatif de ces documents. Il s'agit dans les deux cas, de convertir des données relatives au document ou contenues dans le document, en informations stockées dans un fichier informatique. Cette opération conserve le nombre, la redondance et l'hétérogénéité propre aux documents ( ou aux phénomènes ) mais réduit leur caractère non-systématique et supprime leur dispersion.

L'objectif à atteindre est donc clairement fixé. Il reste à préciser quels documents utiliser et quelles données coder, à expliciter les méthodes de recueil des données, c'est à dire, compte tenu de l'option informatique choisie, les méthodes de codage, à prévoir leur amélioration incessante à l'avenir et à former en conséquence des codeurs expérimentés. Tous ces points de procédure ont déjà été mis en oeuvre au GEPAN avec une attention toute particulier pour la collecte, le collage et le traitement des rapports de gendarmerie. Ces rapports ne constituant qu'une petite fraction ( mais de bonne qualité ) de l'ensemble des documents disponibles, il convient d'étudier l'élargissement de ces procédures à l'ensemble des documents disponibles et de mieux préciser à cette occasion, les objectifs visés à travers la création d'un fichier informatique. Tels sont les points que nous nous proposons de discuter dans ce qui suit.

2. NATURE DES ENTREES ( STRUCTURES VERTICALE )

Le premier problème posé par la constitution d'un fichier informatique est relatif à sa structure verticale. Un fichier est constitué d'unités de base ou entrées. Quelle doit être la nature de ces entrées ?

Pour répondre à cette question, il est indispensable d'expliciter les étapes de la génération d'un document ufologique, et de voir quels sont les problèmes posés aux analystes par chacune de ces étapes.

2.1. PROCESSUS DE GENERATION D' UN DOCUMENT

Supposons pour fixer les idées, qu'un phénomène physique quelconque soit à l'origine des observations et des traces alléguées : La première phase du processus est alors la manifestation d'un tel phénomène au-dessus dune zone S à partir d'un instant t.

Ce phénomène est observé par des témoins isolés ou en groupe. Si les témoins ont échangé des informations au moment de l'observation, ils sont dépendants. Si les témoins ont découvert et observé le phénomène sans échanger d'informations, ils sont indépendants. Bien entendu, il existe des transitions entre l'indépendance complète et la dépendance totale. Un échange d'information peut avoir lieu après la découverte indépendante voire après l'observation indépendante.

Les témoins peuvent communiquer leur observation sous forme d'un document écrit par eux- mêmes, ou la confier à un rapporteur quelconque qui en assure la rédaction. Un document primaire est ainsi engendré. On notera que les enregistrements d'interview sur bandes magnétiques, les films, les photos, les relevés peuvent également être considérés comme des documents primaires.

Tout document qui ne résulte pas d'un entretien direct avec un témoin ou qui fait preuve dune utilisation quelconque d'un document primaire ( par citations, traduction, résumé, analyse, etc...) est un document secondaire.

D'après ce qui précède, une entrée du fichier peut donc être soit une manifestation du phénomène, soit une observation par un témoin ou un groupe de témoins dépendants, soit enfin un document faisant état d'un ou plusieurs témoignages.

2.2. DETERMINATION DE L'ENTREE

L'analyste peut-il prendre la manifestation du phénomène comme entrée du fichier ? C'est impossible pour deux raisons :

la première, fondamentale, est qu'il est généralement difficile d'établir que différents témoins ou groupes de témoins indépendants et séparés dans l'espace ou le temps ont observé un seul et même phénomène. Le problème ne doit pas être supposé résolu avant la création du fichier. C'est au contraire le fichier préalablement constitué qui devrait permettre de le résoudre ;
la seconde raison est d'ordre pratique : dans nombre d'études, les témoignages s'avèreront plus intéressants en eux-mêmes que le phénomène. Supposons par exemple, que l'analyse révèle qu'une série observations est due à une rentrée de satellite. Ce n'est évidemment pas la rentrée de satellite qui sera l'objet de nos études, mais le nombre et la répartition géographique des témoins, ainsi que les descriptions indépendantes qu'ils donneront du même évènement.

Les témoignages d'un témoin ou d'un groupe de témoins dépendants peut-il constituer une entrée ? Non encore, et pour deux raisons :

la première est que le(s) témoin(s) a(ont) pu donner lieu à plusieurs documents primaires qui peuvent être partiellement contradictoires. Or, il ne faut pas demander au codeur de confronter des documents et de choisir la version qui lui paraît la meilleure, car un tel choix pourrait se révéler subjectif. La révélation de ces contradictions sera au contraire l'une des tâches de l'analyse que l'on pourra effectuer à partir du fichier ;
la seconde raison est que le document primaire n'est pas toujours entre les mains du GEPAN : il faut donc se contenter de documents secondaires ( du moins provisoirement ).

Chaque entrée du fichier doit donc être constituée par un document primaire ou secondaire relatif à un témoin isolé ou à un groupe de témoins dépendants. Sont considérés comme documents, tout rapport, article, livre ou passage de livre signalant l'existence d'un groupe de témoins dépendants, quelles que soient par ailleurs la qualité ou la quantité des données fournies.

Toutefois, le principe "entrée = document relatif à un groupe de témoins dépendants", peut subir deux exceptions de sens contraire :

la première concerne un document qui fait état de plusieurs observations par des témoins indépendants sans fournir de détails spécifiques, même sommaires, sur chaque observation. Un tel document peut être qualifié de "synthétique". Il constituera une entrée unique, mais cette particularité sera codée ;
la seconde exception concerne un document très complet où chacun des témoins d'un groupe "dépendant" a été entendu séparément. Les observations peuvent alors différer suffisamment entre elles pour justifier une entrée séparée par témoin. Un codage synthétique peut être ultérieurement réalisé après une étude comparée.

On notera qu'en raison de ces deux exceptions, les entrées ne constituent pas un ensemble homogène. Aussi conviendra-t-il de prendre des précautions lors de l'exploitation statistique du fichier.

2.3. CONCLUSION : OBJECTIVITE ET GENERALITE DU FICHIER

Le fichier doit entrer tout document qui relate l'observation par un témoin ou un groups de témoins dépendants d'un phénomène considéré à tort ou à raison comme un OVNI soit par les témoins eux-mêmes, soit par les enquêteurs, soit par les commentateurs.

Cette clause est valable même s'il est probable ou certain que le rapport résulte d'une mésinterprétation ou d'une affabulation. Bien entendu, cette information devra être codée.

Le codeur n'a pas pour tâche de confronter des documents distincts ni de décider si un rapport est cohérent ou non, ni d'établir si différents rapports décrivent ou non le même phénomène.
Redisons le : tous ces problèmes doivent être laissés à l'analyse ultérieure du fichier.

Une telle procédure garantit l'objectivité et la généralité du fichier. Ainsi, les études comparatives et statistiques ne seront pas biaisées par une distinction nécessairement subjective au départ entre les "bons" et les "mauvais" cas d'OVNI. Toutefois, ces considérations n'impliquent :

ni un quelconque désintérêt vie à via de l'expertise en profondeur, que peut mener le GEPAN sur tel ou tel cas spécifique,
ni le maintien en toutes circonstances d'une valeur égale pour tous les documents. Une fois le fichier général constitué, rien n'empêchera un analyste de faire une discrimination des documents en fonction de la richesse ou de la crédibilité de leur information par exemple.

3. LE PROBLÈME DES VARIABLES ( STRUCTURE HORIZONTALE )
( "QUOI CODER" ? )

Une entrée est constituée d'unités descriptives ou variables qui concernent chacune un aspect du témoignage. Quels doivent être le nombre et la nature de ces variables ? Cette double question, relative à la structure horizontale du fichier, est beaucoup plus complexe que celle de sa structure verticale car elle dépend à la fois des documents à décrire ( dont nous supposerons connus les traits majeurs ) des documents disponibles (§ 1.1.) et des recherches à entreprendre à partir du fichier (§3.2.).

3.1. QUALITE DES DOCUMENTS ET NOMBRE DE VARIABLES

Combien de variables faut-il introduire pour chaque entrée ?
Le principal facteur à prendre en compte pour en décider est la qualité moyenne des documents disponibles. En effet,

si la structure horizontale comportait peu de variables et de modalités par variable, le nombre d'entrées contenant des colonnes vierges ( non codées ) serait faible mais par contre, le nombre de documents qui auraient pu donner lieu à un codage plus élaboré serait élevé. Une telle situation entraînerait donc en moyenne une perte d' information ;
par contre, si la structure horizontale comportait beaucoup de variables et de modalités, un grand nombre d'entrées auraient beaucoup de colonnes non codées en raison de l'absence d'informations dans les documents. Le nombre de documents pour lesquels il y aurait beaucoup de variables non codées serait alors élevé. Une telle structure serait donc inutilement lourde dans la plupart des cas.

La meilleure solution consiste, nous semble-t-il, à prévoir une structure horizontale un peu plus large que celle qui correspond à la moyenne des documents. De cette manières, on pourra mesurer la qualité du document par le remplissage plus ou coins complet et précis de la structure et isoler de la masse les documents de qualité "supérieure" en nombre suffisamment restreint pour permettre une étude séparée. En un mot, il importe absolument d'éviter le fichier général fourre-tout nivelé par le bas.

Cette conception débouche sur l'idée dune structure hiérarchique du fichier :

le fichier général est prévu pour coder tous les documents quels qu'ils soient. Les éventualités peu fréquentes ne pourront être codées en détail, malgré leur grand intérêt potentiel pour l'étude du phénomène. Il importe que le fichier général signale donc l'existence de ces éventualités. Une bonne structure horizontale doit impérativement mentionner ses propres insuffisances ;
la conception ci-dessus rend nécessaire le développement de fichiers spécialisés dérivés du fichier général, de manière à permettre l'étude plus approfondie des documents qui le méritent. Il nous semble pat exemple, que le collage spécifique des cas de rencontres rapprochées s'impose en premier lieu.

Le développement de ces fichiers annexes ne pose pas de problème particulier. La plus sûre garantie d'efficacité clans ce domaine serait sans doute de laisser leur réalisation aux soins non d'un groupe de codeurs spécialisés, mais aux chercheurs intéressés qui souhaiteraient davantage d'informations sur certains documents. Un collage est d'autant mieux fait qu'il est réalisé par une seule personne et dans un but précis.

3.2. FONCTIONS DU FICHIER ET LISTS DES VARIABLES

Le fichier doit être construit en vue de remplir certaines fonctions. Il n'est pas un but en soi, il n'est qu'un moyen et, à oublier ce fait, on s'expose à de graves déconvenues. Le fichier doit donc permettre à lui seul, ou tout au moins faciliter, des études scientifiques sur le phénomène OVNI.
On peut distinguer trois types de fonctions que doit remplir le fichier :

mise en ordre des documents.
recherches bibliographiques,
recherches statistiques.

3.2.1. Fonction d'ordonnancement

Bloc :
La première tâche à effectuer est de déterminer si deux documents diffèrents proviennent ou non du même groupe de témoins dépendants. L'ensemble des entrées décrivant le même évènement mais fondées sur des sources différentes est appelé bloc ( nomenclature de SANDERS ). Tout bloc possède une structure soit chronologique ( pour les documents primaires ), soit hiérarchique ( pour les documents secondaires qui ne peuvent être plus complets ou plus précis que les documents dont ils dérivent ).
Le problème est donc double : il faut d'abord assigner une entrée à un bloc puis hiérarchiser les entrées au sein d'un bloc. Ces deux opérations supposent la présence des variables suivantes :
- date et lieu de l'évènement,
- nom du ou des témoin(s) pour l'assignation,
- date de publication et source du document pour la hiérarchisation
Super-bloc :
Il faut également pouvoir déterminer si deux blocs provenant de témoins indépendants correspondent ou non à l'observation du même phénomène. Ceci ne peut se faire que sur des critères plus ou moins conventionnels de proximité dans le temps et dans l'espace, et de similitude des descriptions. Cette opération est très importante pour fournir une preuve directe de l'objectivité du phénomène, mais elle intervient également dans les études statistiques spatio-temporelles.

3.2.2. Fonction bibliographique

Le problème à résoudre est le suivant : l'analyste désire étudier les documents contenant certaines informations spécifiées. Il dispose donc d'une série de critères et se sert du fichier pour établir la liste des entrées qui répondent à ces critères. Le traitement bibliographique vise ainsi à mettre à la disposition de l'analyste une liste de références bibliographiques. Le fichier est alors utilisé comme voie d'accès aux documents, comme instrument de gestion d'une bibliothèque.

Il s'agit là d'un rôle capital par les services qu'il peut rendre aux enquêteurs qui désirent savoir si le témoin qu'ils vont interroger a fait d'autres observations, si le phénomène qu'il rapporte a été observé par d'autres personnes on en d'autres circonstances, ou aux spécialistes de toutes disciplines qui désirent accéder aux documents qui décrivent des phénomènes relevant de leur compétence ou du su jet d'étude qu'ils ont choisi.

Dans tous les cas, on suppose que l'analyste va rechercher les documents et en faire lui-même l'étude. Il n'attend donc pas du fichier une information rigoureuse sur le contenu du document, puisqu'il se propose de l'examiner lui-même, mais simplement la séparation de l'ensemble des documents disponibles en deux lots : celui où il ne trouvera certainement rien à l'intéresser et celui où il a une chance de glaner des informations pertinentes. Il y a donc deux risques à prendre en considération :

le risque qu'un document intéressant ne figure pas sur la liste après traitement informatique. On souhaite qua ce risque soit nul ;
le risque qu'un document sans intérêt figure sur la liste. Là, par contre, on est moins exigeant puisque, par hypothèse, le chercheur va opérer son propre tri. En fait, on est d'autant moins exigeant qu' il y a moins de documents à trier - Avec 1000 documents sélectionnés, une probabilité de succès de 0,7 ( 30 % de documents sans intérêt ) peut être gênantes avec 100 documents, on peut descendre à 0,5 et moins.

Les objectifs à atteindre étant ainsi précisés, voyons ce qui en résulte pour le codage.

Un codage complet et scrupuleusement exact des références du document est bien entendu nécessaire. Quant aux variables, destinées à la sélection bibliographique, on notera qu'elles peuvent fort bien être de la forme "il y a de nombreuses données quantitatives dans le rapport", ou "la trajectoire est très bien décrite", sans que ces données quantitatives ou cette trajectoire soient codées par ailleurs.

3.2.3. Fonction statistique

Dans l'approche statistique on s'intéresse moins aux évènements pris individuellement qu'aux propriétés d'ensemble du phénomène OVNI telles qu'elles apparaissent par l'étude de nombreux cas. Quand le nombre des documents à utiliser devient grand, l'analyste ne peut plus utiliser les documents eux-mêmes ; mais doit faire usage des informations codées dans le fichier. Il attend donc du fichier une information rigoureuse sur le contenu du document car, si le codage est mauvais, les statistiques qu'il établira seront nécessairement mauvaises.

Le fichier doit être adapté aux études dès maintenant entreprises ou qui le seront à l'avenir. Pour autant qu'on puisse le savoir à l'heure actuelle, ces études tombent dans l'une des quatre rubriques suivantes :

Études spatio-temporelles :

Elles visent à décrire la distribution dans le temps et dans l'espace des observations et à en dégager les propriétés du phénomène qui leur a donné naissance. Elles nécessitent le plus grand nombre de cas possibles, idéalement tous les cas publiés et ce indépendamment de leur qualité ou de leur appartenance à un phénomène OVNI spécifique.

Les variables impliquées au premier chef par cette étude sont : la date, l'heure, la minute, le lieu exact, les conditions d'observation, une description de l'environnement, au moins le type du phénomène observé.

Ces variables sont les plus généralement disponibles sur un cas quelle que soit par ailleurs la qualité du document, elles sont les moins susceptibles d'être déformées. Tous les fichiers informatiques créés à ce jour ont fait une large place à ces données et la presque totalité des travaux scientifiques originaux portant sur le phénomène OVNI, font appel à ces seules données. Cette voie de recherche demeure à l'heure actuelle l'une des plus prometteuses qui soit.
Etudes de structure et comportement du phénomène :

Elles visent à décrire les caractéristiques propres des phénomènes observés quant à leurs propriétés lumineuses, cinétiques, géométriques, etc... Elles nécessitent donc le plus grand nombre possible de données par cas, les cas retenus étant ceux qui fournissent les meilleures descriptions du phénomène.

Les variables qu'on souhaite trouver dans le fichier â ce propos sont : les conditions d'observation, la compétence de l'observateur, des descriptions détaillées du phénomène lui-même quant à son apparence et à son comportement.

Certaines de ces variables sont souvent disponibles, mais avec une précision qui peut laisser à désirer : la qualité de l'observation, celle de l'enquête et du rapport qui en résulte influent beaucoup sur la qualité des informations à utiliser. Elles sont aussi les plus susceptibles d'être déformées. Autrement dit, ce type d'étude est important mais difficile. Il y a très peu d'études statistiques de valeur disponibles sur ces problèmes à l'heure actuelle.
Etudes psycho-sociologiques :

Elles sont orientées vers les témoins. Quelques données sociologiques et traits psychologiques sont extractibles des documents mais pas de manière systématique. Les rapports donnant des indications nombreuses sont rares. L'étude psychologique directe des rapports existant est donc nécessairement limitée. Cependant, quelques travaux ont été publiés à l'aide des données disponibles ; ils visent contradictoirement, à établir l'originalité ou la banalité des observateurs d'OVNI par rapport à la moyenne de la population.

Par contre, une étude indirecte peut être menée à l'aide des résultats des études spatio-temporelles ( aspects sociologiques ) ou structuro-comportementales ( aspects psychologiques ). De tels développements sont dès maintenant bien apparents.
Etudes physiques :

Elles sont orientées vers l'interprétation à l'aide de modèles physiques des phénomènes observés ou de leurs effets sur l'environnement. Ce type d'études se heurte aux mêmes difficultés que les études psycho-sociologiques liées à la rareté des informations aptes à les étayer.
Notons que ces études physiques apparaissent comme un développement spécialisé et particulièrement exigeant en bonnes données du point n° 2 : "structure et comportement du phénomène". Précisons aussi pour éviter les malentendus que les études physiques auxquelles il est fait référence ici, sont celles qui visent à confronter les modèles physiques aux observations ou à déduire des grandeurs physiques caractéristiques à partir des observations et non celles qui visent à développer des théories ou des modèles, ce qui est de la physique pure et non pas de la physique appliquée à l'ufologie. L'une se passe très bien du fichier informatique, mais l'autre est contrainte d'y faire appel.

Il est probable que ces études ne se développeront qu'à la suite des enquêtes effectuées spécialement en ce sens par le GEPAN, à partir de cas accidentellement favorables ( effets particuliers, radar, traces, ...). Toutefois, d' utiles indications pourraient être extraites des cas publiés, des documents existants, comme le montrent les études de Mc CAMPBELL (15) ou de POHER (5), si toutefois on pouvait mettre la main sur les documents utilisables. Le but qu'on doit se proposer d'atteindre ici est donc moins de coder en grands détails les indications qu'on peut supposer utiles aux physiciens ( à notre sens, c'est impossible à réaliser ), qu'à signaler les rapports contenant beaucoup d'informations apparemment utilisables. On développe la fonction bibliographique au détriment de la fonction statistique.

Il est facile de justifier cette option par l'exemple. On peut considérer pour cela l'article de POHER (5) "Proposition d'une méthode permettant de vérifier si les OVNI sont des véhicules". La première méthode qu'il propose consiste "à examiner les variations de la vitesse de l'objet en fonction de son inclinaison sur l'horizontale". Le nombre de cas de prêtant à cette analyse est infime et il est par conséquent hors de question de prévoir un code spécifique pour cette occurence exceptionnelle. La seconds méthode s'applique aux cas faisant état d'un effet mécanique sur l'environnement, à condition de connaître "la pression équivalente à l'effet mécanique constaté et aussi le diamètre de l'objet observé ( ou mieux son volume )". Là encore, un collage spécifique serait d' une lourdeur impraticable.

Le problème est de déterminer aussi rapidement que possible les indications potentiellement précieuses pour le physicien de manière à ce que le fichier signale leur présence dans un document, à défaut de pouvoir en réaliser un codage exhaustif. Il convient, dans ce but, d'établir une liste des situations susceptibles de développements physiques. A côté de ces situations particulières qui ne se signaleraient pas spontanément à l'attention des codeurs, il convient de faire les remarques générales suivantes :

tout modèle physique implique des analyses quantitatives. Il s'ensuit que toutes les données quantitatives ou quantifiable d'un document doivent faire l'objet d'un soin particulier et que la présence de données quantitatives non codées ( faute d'une structure horizontale permettant de le faire ) doit être notée sans le fichier ( le fichier signale ses propres lacunes ) ;
toute description détaillée de trajectoire, de propriétés lumineuses, d'effets sur l'environnement est susceptible de fournir des indications précieuses même si on ne sait pas exactement comment les utiliser aujourd'hui. Là encore, toute présence de détails précis non codés doit être notée dans le fichier.

3.3. CONCLUSION : CLASSEMENT DES VARIABLES

Une liste de variables à utiliser se dégage logiquement de l'étude qui précède. Elle doit viser à traiter la grande majorité des documents et ce dans tous les aspects. Elle doit s'attacher en outre à satisfaire le plus grand nombre d'applications possibles, tant par le mode d'utilisation ( sélection bibliographique, calculs statistiques ), que par les questions posées ( physique, sociologie, etc...).

Il n'est pas inutile avant de poursuivre de fournir, non pas une liste complète des variables, mais un classement de celles-ci, à l'aide du contenu descriptif qu'elles fournissent.

Le classement suivant nous semble particulièrement utile à la fois conceptuellement et pratiquement :

les variables documentaires :
elles décrivent le document en tant que tel : elles fournissent les références bibliographiques complètes, indiquant s'il s'agit d'un document primaire ou secondaire, et tentent de préciser ses qualités et défauts ;
les variables observationnelles :
elles décrivent tout ce qui concerne l'observation et les observateurs c'est à dire le contenu du document. On peut les subdiviser elles-mêmes en deux catégories :
- les variables extrinsèques :
  ce sont les variables observationnelles relatives aux conditions d'observation au sens large ( localisation spatio-temporelle, description de l'environnement, du ou des témoin(s) )
- les variables intrinsèques :
  ce sont les variables observationnelles relatives au phénomène allégué :
  localisation dans l'environnement, forme, structure et dimensions, effets lumineux, sonores, odorants, physiques et biologiques, trajectographie.

Un classement plus précis en sept catégories ou séquences peut également rendre service :

séquence 1 : description du document,
séquence 2 : localisation spatio-temporelle de l'évènement,
séquence 3 : environnement : météo, visibilité, géographie,
séquence 4 : témoins, véhicules, méthode d'observation, crédibilité
séquence 5 : phénomène : éléments quantitatifs,
séquence 6 : phénomène : éléments qualitatifs et type de phénomène,
séquence 7 : intérêt de l'évènement, explications possibles, etc...

4. PROBLEMES DES MODALITES ( "COMMENT CODER" ? )

Les problèmes liés à la structure d'ensemble du fichier ayant été discutés, Il reste à étudier la structure des variables. En effet, chaque variable est divisée en modalités soit par exemple la variable "méthode d'observation", les catégories prévues à l'avance : "oeil nu", "Jumelles", "longue-vue", etc... constituent les modalités de cette variable. Nous abordons ainsi le problème des techniques de codage. Nous envisageons d' abord les problèmes posés par la création des modalités (§4.1) puis ceux posés en pratique par le codage des documents (§9.2).

4. 1. CODAGE D' UN POINT DE VUE THÉORIQUE

Nous avons vu que la variable est l'unité de construction de la structure horizontale du fichier. Une telle variable peut être considérée comme une question posée à laquelle il convient de répondre en faisant usage des informations contenues, dans le document. On peut convenir d'appeler ces informations éléments ou items à coder. L'élément est l'ensemble de mots, d'expressions et de phrases utilisés dans le document qui permet de coder une variable.

4.1.1. Propriétés des éléments : dimensionnalité

La propriété la plus importante d'un élément est sa dimension. Un élément est unidimensionnel lorsqu'il ne peut prendre qu'un seul état parmi plusieurs états discrets ( sex. : sexe du témoin, nom de la commune où a eu lieu I'observation alléguées ) ou une infinité d'états continus localisés sur un axe unique ( ex. : dimension, distance, altitude, durée ). Dans ce cas, une variable unique à variation continue ou discontinue suffit à décrire l'élément. Dans tous les autres cas, l'élément est multidimensionnelle et il faut faire usage pour l'expliciter d'un grand nombre de paramètres.

Considérons par exemple, un objet quelconque. S'il s'agit de décrire sa forme géométrique, on voit qu'un grand nombre de paramètres est nécessaire pour peu qu'il soit irrégulier ou complexe : la forme est une caractéristique multidimensionnelle par excellence et c'est ce qui rend si difficile l'étude automatique des images et la reconnaissance automatique des formes. Par contre, la masse du même objet est un paramètre unidimensionnel ; un seul nombre suffit pour épuiser le sujet. Remarquons qu'il existe des caractéristiques intermédiaires : la dimension de l'objet par exemple. S'il s'agit d'une boîte, il y a trois dimensions : longueur, largeur, hauteur, sans ambiguité. S'il s'agit d'une chaise, on peut convenir de considérer les dimensions hors-tout. On peut même convenir dans les deux cas de ne retenir que la plus grande dimension.

Ceci introduit une nouvelle idée qui est à la base même de toute opération de codage à savoir la réduction à l'unidimensionnalité d'informations multidimensionnelles. Le nombre total de variables est limité, et chaque variable est multidimensionnelle au sens de la définition précédente : la réduction s'accompagne donc nécessairement d'une perte d'information. Il faut faire en sorte que l'information originelle conserve suffisamment de relations avec la ou les caractéristique(s) sensée(s) la représenter pour avoir la valeur des schémas et des caricatures qui déforment certes, mais dans le sens de l'essentiel. Pour être faite de manière reproductible, une réduction doit faire usage de commentaires explicites de règles de transformation à consigner dans un livret de codage ( voir ci-après ). Une information multidimensionnelle est aisément réductible s'il est possible de définir des règles de transformation simples et générales, et si l'on dispose d'un nombre suffisant de variables. Soit, par exemple, à coder les conditions météorologiques. Si on ne dispose que d'une seule variable, la tâche de transformation est ardue et nécessairement déformante, avec plusieurs variables, elle devient beaucoup plus facile.

La multidimensionnalité n'est pas l'exception mais la règle. Toute variable ou presque doit donc être accompagnée des règles qui permettent d'assurer la réduction conventionnelle de l'élèment correspondant. Deux cas sont à distinguer :

on peut, dès à présent, proposer des règles de réduction satisfaisantes pour tout ce qui dans un document est numérique ( nombre de témoins, d'objets, ...), dimensionnel ( taille de l'objet, altitude, distance, ...), ou temporel ( durée du phénomène,...). Des règles de transformation sont nécessaires même pour ce qui parait de prime abord unidimensionnel comme les nombres et les durées. Il se peut par exemple, que les témoins voient initialement trois objets en formation qui disparaissent à leur vue, puis un objet solitaire. L'élément "nombre d'objets" est multidimensionnel. On peut décider par convention de coder "4 objets vus", mais il est clair que cette réduction entraîne une perte d'information. A lire le code, on pourrait croire qu'ils ont vu 4 objets simultanément, or il n'en est rien. La réduction à opérer s'impose lorsque l'une des dimensions de l'élément, un de ses aspects est plus important ( témoin principal , dimension maximum, altitude minimum,, etc...)
dans d'autres cas, tels que les descriptions du lieu, du témoin, du phénomène, la réduction est plus difficile. Dans une description de trajectoire, de forme, de jeux de lumière, les dimensions caractéristiques ne s'imposent pas. La définition d'états discrets imposée par le codage, est nécessairement vague et arbitraire : la précision du codage s'en ressent. C'est ici que les mises au point seront les plus longues avant d'obtenir des règles de transformation et de codage adéquates : les éléments qualitatifs nécessitent des études préliminaires.

De toute manière, un procédé de réduction conservera toujours quelque arbitraire. Aussi, faut-il savoir qu'un élément aurait pu être codé différemment : aucun système de collage ne peut épuiser le contenu d'un document.

4.1.2. Propriétés des variables : échelle de mesure

Lorsqu'on a réussi une réduction à l'unidimensionnalité, il reste à effectuer une "mesure" au long de cet axe, à y définir une échelle quelconque. On distingue 4 types de "mesures" ou échelles qui sort des plus faibles au plus fortes : les échelles nominales, ordinales, d'intervalles et de rapports. Les deux premières s'appliquent aux caractères qualitatifs, les deux dernières aux caractères quantitatifs (7) (8).

L'échelle nominale s'applique aux caractères qui ne peuvent être que classés à l'aide d'un critère précis, par exemple : sexe, état civil d'un témoin, forme d'un objet, ... La seule propriété formelle de cette échelle est d'être structurée par une relation d'équivalence (=) : les membres d'une classe sont équivalents vis à vis de la proprété utilise pour construire l'échelle. Les seules statistiques descriptives admissibles sont fondées sur un calcul de fréquence et les tests non paramétriques correspondants ( X2, notamment ).

L'échelle ordinale s'applique aux caractères qui peuvent être classés et dont les classes d'équivalence peuvent en outre, être ordonnées en faisant usage d'une relation du genre "est plus grand que", "est préféré à", etc... Toutefois, les intervalles entre ces classes ne sont pas définis. Elle incorpore donc une relation d'équivalence (=) et une relation d'ordre (>). Les statistiques applicables à l'échelle nominale s'appliquent encore mais s'y ajoutent les "tests de rang".

L'échelle d'intervalles est une échelle ordinale où les distances entre classes sont connues. Cette échelle est caractérisée par une unité de mesure constante mais cette unité et le point origine sont arbitraires. L'exemple classique est celui de la mesure des températures sur les échelles d'intervalle CELSIUS ou FAHRENHEIT. Peu au pas d'applications ufologiques.

L'échelle de rapports est la plus forte, elle a toutes les propriétés d'une échelle d'intervalles et en plus a une origine fixée. Seule l'unité de mesure est arbitraire. Elle se définit par 4 propriétés : équivalence, ordre, rapport à intervalles, rapport de points. Elle s'applique à l'ufologie dès lors qu'il y a évaluation précise de distances, d'angles, de durées, etc...

On notera que les variables issues d'éléments unidimensionnels, peuvent se mesurer suivant les cas dans l'une ou l'autre des 3 échelles principales mais que celles issues d'éléments multidimensionnels ne peuvent être mesurées que dans des échelles ordinales ou nominales. On a bien entendu toujours intérêt à utiliser l'échelle la plus forte possible et il y a progrès lorsqu'on détermine des critères permettant de transformer une variable jusque là nominale en variable ordinale. Ainsi, une variable aussi multidimensionnelle que le type de phénomène selon SAUNDERS, qui pourrait sembler purement nominale, peut être considérée comme une mesure ordinale de la force de l'interaction phénomène/témoin.

L'hétérogénéité des documents invite à prendre les précautions suivantes :

On prévoiera pour chaque variable, autant d'échelles différentes que possible, pour permettre le choix correspondant le mieux à la précision disponible dans le rapport. Ainsi, les modalités relatives à la variable "distance minimum phénomène/témoin" devront rendre possible un collage numérique ( échelle de rapport ) ou l'affectation à une classe de distance ( échelle ordinale ) ou même une simple qualification de cette distance du genre "près", "loin" ( échelle quasi nominale ) ;
Pour les échelles ordinales et nominales, plusieurs découpages en classes de précision croissante pourront être prévus. Il convient toutefois, de définir ces classes de manière à ce que la transcodabilité interne, c'est à dire le passage d'une classe précise à une classe moins précise, reste possible. Le fait qu'un gain en effectif puisse être obtenu au prix dune perte en information est une propriété très utile dans bon hombre d'études statistiques.

4.2. CODAGE D'UN POINT DE VUE PRATIQUE

La qualité du codage effectué est limitée par les imperfections du système de codage d'une part et par l'équation personnelle du codeur d'autre part.
Examinons ces deux points.

4.2.1. Limitations liées au système de codage - Livret de codage

Lorsqu'un code est élaboré un peu a priori sans une connaissance approfondie des documents, on constate généralement que son utilisation est malaisée : dans nombre de cas, il ne s'applique pas aux informations effectivement présentes, et lorsqu'il s'applique, de nombreuses ambiguités se manifestent. Une telle situation est très dommageable parce que le temps gagné sans l'élaboration du code, est perdu et bien au-delà dans son utilisation en routine et que la qualité du codage obtenu est médiocre. La co-adaptation des documents à coder et du système de codage ne peut être atteinte que par un processus de perfectionnement par essais et erreurs : il faut absolument que les difficultés soient transférées dans : la mise au point du système plutôt que dans son utilisation.

Mais, il ne suffit pas qu'un système de codage ait été l'objet dune mise au point soignée, encore faut-il qu'il soit accompagné d'un livret de codage (6). Un tel livret ne se contente pas de donner une liste de variables et de leurs modalités mais il en explicite dans chaque cas le mode d'emploi à l'aide de définitions, d'exemples, de contre-exemples ( erreurs à ne pas commettre ), etc... Il donne en particulier, les règles de réduction conventionnelles pour les éléments multidimensionnelle.

Un chercheur isolé peut dans une certaine mesure se passer d'un livret de codage parce qu'il est à même d'utiliser de manière cohérente un code même s'il n'a pas fait l'effort de l'expliciter. Encore faut-il qu'il travaille régulièrement et rapidement sinon une dérive se produit au cours du temps par une réflexion plus ou moins inconsciente, des adaptations qui changent imperceptiblement mais sûrement le sens des codes employés. Un tel mécanisme a des conséquences encore plus funestes lorsque le codage est réalisé par une équipe car chaque codeur élabore sa propre définition et évolue à sa façon. Dès lors, le code utilisé ne recouvre plus une réalité constante, il devient irreproductible. Or, il est capital pour l'utilisation du fichier, que le sens de chaque code soit clair et unique car on ne saurait progresser sur un fond d'à peu près.

Il ne faut pas se leurrer : un livret de codage bien au point est nécessairement d'une certaine complexité. Il doit exiger du codeur inexpérimenté un effort de compréhension. Cet effort est le prix qu'il faut payer pour obtenir un codage reproductible et au bout du compte facile parce que dépourvu d'ambiguité . En l'absence de ces Indications qui ralentissent son travail au début, le codeur peut croire la tâche plus facile, mais confronté à la première difficulté venue, il hésite, choisit un peu au hasard et il en résulte une perte importante de qualité : à la limite l'indication codée se révèle dépendre autant de l'équation personnelle du codeur, du hasard du moment que du document lui-même. Une telle situation est bien entendu inacceptable et il faut tout mettre en oeuvre pour y remédier.

Un livret de codage n'est jamais achevé, même en supposant le système de codage constant, aussi faut-il prévoir des procédures pour en assurer l'amélioration constante :

une première procédure pourrait reposer sur les codeurs eux-mêmes qui, lorsqu'ils seraient confrontés à des problèmes difficiles à résoudre, à l'aide des indications du livret, rempliraient un formulaire spécial. Ceci suppose des codeurs déjà bien expérimentés ayant intégré les règles en application à un instant donné de manière à faire la part des difficultés personnelles d'apprentissage et des difficultés liées aux insuffisances du livret ;
une seconde procédure consisterait à tester régulièrement les codages en comparant les indications de deux codeurs expérimentés sur un même document. Les inévitables fautes d'attention mises à part, les divergences signaleraient des ambiguités à supprimer dans les règles en cours.

La rédaction d'un tel livret et sa mise à jour permanents auraient l'avantage d'obliger à une explication constante des règles de codage suivies, sans lesquelles il est impossible d'accéder à une quelconque objectivité dans le codage. Il permettrait également de former rapidement les nouveaux codeurs de manière rationnelle, et non "sur le tas", ce qui éviterait le retour indéfini aux mêmes errements.

4.2.2. L'équation Personnelle du codeur

La transformation du document en modalités codées exige la lecture, la compréhension et, dans une certaine mesure, l'interprétation du texte, par un codeur dont la personnalité va intervenir à chacune de ces étapes. Les risques d'interprétation subjective sont donc réels, notre expérience personnelle nous conduit a en distinguer deux principaux :

Le premier risque est de "ne pas chercher à bien faire". Il résulte de la frustration qu'engendrent souvent certains documents ou certaines observations. Le codeur peut avoir l'impression que l'imprécision inhérente à l'observation ou au document, ne justifie pas de sa part un effort de compréhension ou d'analyse. Le même sentiment peut être partagé par l'analyste lorsqu'il aborde la création de certains codes : "à quoi bon expliciter ces concepts puisque les données dont nous disposons sont souvent mal recueillies !". Cette tentation d'approcher les documents de manière globale et approximative est trop fréquente pour ne pas être signalée ici comme un danger majeur dont il convient de se prémunir avant tout. Si les codes sont mal définis et si le codeur les utilise avec légèreté, l'imprécision inhérente au collage devient telle que sa valeur scientifique disparaît, le résultat est bon à mettre au panier. L'imprécision des documents exige beaucoup de rigueur et de précision au niveau du système de codage et de la pratique du codage. Le paradoxe central du codage est : à document imprécis, codage précis.
Le second risque provient, au contraire, du désir de "trop bien faire" en dépassant le contenu objectif du document. C'est un fait psychologique que la lecture d'un document suscite spontanément dans l'esprit une image intuitive de l'évènement qui tend à se substituer à ce qui est explicitement écrit. Certaines lacunes du document ne sont pas perçues et l'imagination suppléait ces manques. Sur cette tendance naturelle, peut en outre se greffer une rationalisation excessive, si bien qu'en fin de compte ce n'est pas le document qui est codé mais la reconstitution opérée par le codeur.

Il ne faut pas cependant en conclure que toute interprétation est préjudiciable. En effet, le concept de "contenu objectif" du document n'est pas clair. Il ne s'agit pas d'en tester dans tous les cas à la lettre du document mais d'accéder à son sens. Ainsi, convient-il pour coder une variable de prendre simultanément en compte tous les passages du document qui la concernent et d'en effectuer la synthèse, ce qui implique une certaine reconstitution. Mais il faut procéder avec beaucoup de prudence de manière à ce que ces interprétations éclairent le document plus qu'elles ne le déforment, et entre les deux la voie est étroite. On aura garde d'oublier que le fichier n'est pas relatif à une observation mais à un document.

Il est beaucoup plus fructueux de discuter ces risques d'interprétation subjective variable par variable qu'in abstracto comme nous venons de le faire. Toutes les variables ne présentent pas les mêmes dangers. En outre, pour aider le codeur à l'objectivité, des variables distinctes peuvent être créées pour un même élément : l'une de contenu ( ce que dit le document ), l'autre de commentaire ( ce qu'en pause le codeur ). Dans tous les cas, le livret de collage doit expliciter la méthode à suivre dans les situations délicates. Finalement, toute la méthodologie propre à la réalisation d'un fichier vise spécifiquement à réduire ces risques de subjectivité. Toutefois, rien ne peut remplacer la formation et la rigueur méthodologique des codeurs eux-mêmes, et la création d'une ambiance favorable à l'acquisition de cette expérience et à l'exercice de cette rigueur.

5. LES FICHIERS EXISTANTS

Pour définir le fichier, il convient de tenir compte non seulement de la nature des documents disponibles, des études à réaliser et des impératifs du codage, mais aussi des fichiers réalisés antérieurement par d'autres chercheurs.

5.1. DESCRIPTION SOMMAIRE

Le premier chercheur en date à s'être attelé à la réalisation d'un fichier informatique est Jacques VALLEE (9) (10) au début des années 60. Il a ainsi réalisé un catalogue mondial de 3 073 cas. L'unité de base du fichier est la manifestation du phénomène et non le document. La localisation spatio-temporelle y est codée avec un soin tout particulier. Les autres variables extrinsèques sont codées de manière sommaire dans le but de repérer les cas obéissant à un certain nombre de critères pré-sélectionnés. Le codage des variables intrinsèques est intéressant mais non systématique.
Le second chercheur par ordre chronologique est David SAUNDERS (4) à partir de 1967. Son fichier, appelé UFOCAT, a été réalisé initialement dans le cadre du Comité CONDON et à titre privé par la suite. Il est actuellement développé au sein du Center for UFO Studies l'Organisation privée, dirigée par le Dr. HYNEK, ( EVANSTON, Illinois ). Il s'est accru à raison de 10 000 entrées par an, il comporte donc aujourd'hui plus de 100 000 entrées. L'unité de base y est le document. Ce fichier international est de loin la plus importante collection de données ufologiques actuellement disponibles sous forme informatisée bien que tous les documents fichés n'aient pas été codés complètement. D. SAUNDERS a développé un certain nombre des idées ébauchées par VALLEE. Il conserve toute son importance à la localisation spatio-temporelle et même la développe. Il Introduit un codage assez complet des caractéristiques de la source utilisée ( variables documentaires ). Il utilise une typologie du phénomène fort intéressante, différente de celle de VALLEE et de celle introduite plus tard par HYNEK (13).
Claude POHER (11) a développé son fichier de manière complètement indépendante pour autant qu'on puisse en juger par la structure horizontale de celui-ci. La prééminence accordée à la localisation spatio-temporelle disparaît et, en conséquence, la place accordée aux variables intrinsèques s'accroît : le codage en est plus systèmatique que chez les deux autres précédents. L'unité de base est encore la manifestation du phénomène. Ce fichier compte 736 entrées.
Le fichier actuellement développé par le GEPAN (6) (12), à titre expérimental, sur la base des rapports de Gendarmerie, dérive directement de celui de POHER et est totalement indépendant de ceux de VALLEE et de SAUNDERS. Certaines variables supplémentaires apparaissent par rapport à POHER ( département, témoins potentiels, âges, sexes, catégories socioprofessionnelles des témoins, direction azimutale, type selon HYNEK ) mais d'autres disparaissent en raison de leurs faibles fréquences ( lumières ponctuelles, odeurs, effets physiques, biologiques ou psychologiques, description et même mention d'occupants ).
Les fichiers précédents peuvent être tour qualifiés de "généralistes" en ce sens qu'ils portent sur tour les types de phénomènes observés, incluent tous les types de variables observationnelles ( même s'ils insistent plus sur les variables extrinsèques ou intrinsèques suivant les cas ) et qu'ils visent à traiter plutôt sommairement le plus grand nombre possible de cas.

Nous avons été amenés à développer un fichier (18) à partir de 1973, obéissant à une philosophie radicalement différente, que l'on peut qualifier de "spécialiste" par opposition aux précédentes dont les caractéristiques sont les suivantes :

il porte sur un type de phénomène unique et très spécifique les atterrissages avec exhibition d'occupants ;
il est orienté vers la description de la structure et du comportement du phénomène et une explicitation des processus d'observation, de divulgation et d'enquête ;
l'effort a porté non sur l'extension du nombre de cas ( stabilisé provisoirement à 70 ) mais sur l'extension ( au cours du temps ) du nombre de variables de manière à opérer une description exhaustive des cas ;
la méthodologie du codage a été l'objet d'une attention particulière quant à la définition et à l'application des modalités. Le procédé des "classes disjonctives complètes" a été privilégié.

Cette approche est mentionnée ici pour insister sur le fait qu'un fichier "généraliste" n'est pas adapté à toutes les études et que des fichiers "spécialistes" devront être créés dans son orbite, si possible par les chercheurs eux-mêmes.

5.2. COMPARAISON DES FICHIERS GENERALISTES

Pour comparer les fichiers, nous avons dressé une liste de 60 variables en raison de leur présence dans l'un ou l'autre des systèmes de codage ou de l'intérêt qu'elles nous semblaient avoir. Nous avons noté pour chaque fichier les variables de cette liste qui sont codées et celles qui ne le sont pas (tableau 1). Nous constatons ainsi qu'il n'y a que 6 variables seulement qui, disposent d'un code spécifique ( c'est à dire ne sont pas mêlées à d'autres variables ) dans les quatre fichiers. Ce sont :

date
heure/minute
nombre témoins
nombre d'objets
dimension de l'objet
latitude/longitude

Noter que toutes ces variables sont quantitatives et que la moitié d'entre elles concernent la localisation de l'événement. Si on retient également les variables qui ont un codage spécifique dans 3 fichiers ou spécifique ( plusieurs variables logiquement distinctes confondues en une seule ) dans les 4, il vient :

âge des témoins
durée d'observation
forme
bruit
type du phénomène
localisation/méthode d'obs. des témoins
trajectoire
luminosité
effets physiques
crédibilité/étrangeté

Pour mieux apprécier les pôles d'intérêt de chaque auteur, on peut regrouper les 60 variables en 7 séquences (voir § 3.3) chacune décrivant un des aspects du document ou de l'observation. Il suffit alors de se faire une idée de l'importance de chacune des séquences, de compter le nombre de colonnes de carte perforée qui leur est consacré (tableau 2).

- TABLEAU N° 1 -
COMPARAISON DES FICHIERS

- TABLEAU N° 2 -

SEQUENCES	SAUNDERS ⁽⁴⁾		POHER ⁽¹¹⁾		GEPAN 4 ⁽¹²⁾
1 - Document	21	15 %	3	4 %	2	3 %
2 - Localisation	64	46 %	15	20 %	23	34 %
3 - Environnement	3	2 %	2	3 %	2	3 %
4 - Témoins	24	17 %	5	7 %	8	12 %
5 - Phénomène quantitatif	9	6 %	9	12 %	17	25 %
6 - Phénomène qualitatif	5	4 %	40	53 %	13	19 %
7 - Intérêt	14	10 %	2	3 %	2	3 %
	140		76		67

On voit que SAUNDERS consacre près de la moitié de ses colonnes disponibles à localiser le phénomène tandis que POHER en consacre plus de la moitié à le décrire. Le système GEPAN 4^ème version, équilibre mieux les deux aspects mais au bénéfice de la description intrinsèque.

Il est donc clair que des options extrêmement divergentes peuvent être prises quant à la structure horizontale d'un fichier, qui ne dépendent ni des documents disponibles ( tous les auteurs ont les même documents ou des documents comparables en main ) ni des moyens disponibles ( tous les auteurs ont été aidés de collaborateurs ) mais principalement des pôles d'intérêt scientifiques, des études que ces auteurs se sont proposés de réaliser pour mieux comprendre le phénomène OVNI ( VALLEE et SAUNDERS se sont intéressés à la théorie de l'orthoténie due à Aimé MICHEL (17) et au problème des "vagues" d'où leur insistance sur les aspects spatio-temporels ).

5.3. IMPORTANCE D'UFOCAT

L'existence du fichier UFOCAT de SAUNDERS est extrêmement positive pour le GEPAN par l'expérience mise à notre disposition dans "The UFOCAT Code Book" et par la possibilité d'opérer des échanges à l'avenir aux conditions stipulées par cet auteur. Mais il constitue un défi :

d'un point de vue quantitatif, par l'avance déjà prise et par la vitesse d'accroissement du fichier,
d'un point de vue qualitatif, venant après SAUNDERS , il faut autant que possible utiliser des méthodes de codage supérieures aux siennes.

Dès que la structure horizontale du fichier sera déterminée, il conviendra de mettre au point un algorithme de transcodage destiné à convertir les codes GEPAN en codes UFOCAT.

6. CONCLUSIONS

6.1. DEFINITION DU FICHIER

Le fichier informatique général à développer par le GEPAN, tel qu'il résulte de l'analyse précédente, possède les caractéristiques suivantes :

il concerne l'ensemble des observations faites sur le territoire français. Le mot "observation" est entendu dans son sens le plus large, à savoir : l'observation alléguée par un ou plusieurs témoins, d'un phénomène quelconque qu'ils ont eux-mêmes attribué à un OVNI ou que d'autres ont ainsi Interprété. Cette définition est indépendante de la véracité des témoins, de la qualité de leur déposition de celle de l'enquête qui en ait résultée ou de celle du document qui fait état de l'observation alléguée ; elle est indépendante de la possibilité d'expliquer ou non cette observation de manière conventionnelle. Le seuil d'acceptation d'une observation pour le fichier est donc placé au plus bas pour assurer la généralité de celui-ci et la possibilité d'y définir de nombreux sous-ensembles pour des études particulières allant de la sociologie à la physique des phénomènes allégués ;
l'unité de construction du fichier n'est pas l'observation mais le document faisant état dune observation. Tout document faisant état d'une observation au sens précédent peut être inclus dans le fichier. Cette option, outre qu'elle préserve une utilisation sociologique ou historique par exemple, est la seule qui puisse pratiquement assurer à terme l'exhaustivité du fichier : pour les évènements anciens, les documents de seconde main peuvent seuls subsister, ne pas les coder c'est perdre toute trace de certaines observations ; pour les évènements récents les documents de seconde main signalent l'existence d'évènements dont il convient de rechercher activement les sources primaires ;
le codage utilisé doit contenir suffisamment de variables pour permettre une description correcte des documents moyens voire légèrement supérieurs à la moyenne. Il s'ensuit par exemple, que nombre d'aspects des rencontres rapprochées ne pourront être codés faute de variables disponibles pour en rendre compte. Les variables disponibles doivent être telles qu'elles permettent le traitent du fichier suivant deux axes complémentaires. Le premier axe vise un simple traitement bibliographique : le fichier est utilisé pour signaler les observations ou documents remarquables étant entendu que les informations recherchées sont présentes dans les documents originaux mais pas nécessairement dans le fichier informatique. Le second axe vise au traitement statistique des informations effectivement présentes dans le fichier sans qu'il soit jamais nécessaire de recourir aux documents originaux que le fichier remplace complètement. Cette double possibilité d'utilisation garantit autant que faire se peut les intérêts de tous les chercheurs qui dès maintenant ou à l'avenir auront besoin d'un fichier informatique pour trier la masses inextricable autrement, des documents ufologiques disponibles, même et surtout en l'absence des codes explicites qui leur auraient été nécessaires.

Le fichier peut donc être qualifié de général à l'aide des critères suivants :

il s'intéresse è tout évènement ( observations, traces, etc...) d'intérêt ufologique quelconque ;
il utilise tous les documents ufologiques disponibles ;
il code toutes les variables dont la fréquence d'occurence dans les documents disponibles est suffisamment élevée et néglige sciemment les autres ;
il vise à rendre service à tous les utilisateurs potentiels d'un fichier informatique, présents et à venir, dans la mesure du possible.

6.2. STRUCTURE HIERARCHIQUE DU FICHIER

Il semble préférable de ne pas concevoir le fichier comme un bloc monolithique où toutes les entrées de toutes les variables auraient a priori la même importance. Les entrées sont hiérarchisées : une entrée primaire est plus importante qu'une entrée secondaire, une entrée primaire bien décrite qu'une sommairement décrite, etc... Il en va de même des variables comme nous allons le voir, les variables documentaires sont plus importantes que les variables observationnelles, et parmi ces dernières les extrinsèques plus que les intrinsèques.

Ces priorités eu égard aux documents et aux variables sont importantes car elles permettent de développer le fichier par étapes et de s'attaquer à la mise au point des techniques de codage d'autant plus sophistiquées qu'on ne vise pas à les appliquer à tous les documents de manière différenciée.

Il n'est pas inutile, pour fixer les idées, de décrire en la justifiant l'organisation hiérarchique des variables, car elle découle de la prise en compte simultanée de nombre d'aspects discutés dans ce travail. On peut regrouper de ce point de vue les variables en cinq sous-ensembles qui sont par ordre d'importance décroissante :

Les variables documentaires :
qui fournissent des renseignements sur le document, en premier lieu ses références bibliographiques, forment la plus importante séquence de variables parce que pour coder un document, il faut d'abord savoir qu'il existe et où il se trouve. Elles permettent d'ouvrir une entrée pour un codage ultérieur s'il y a lieu ;
Les variables extrinsèques :
codant les coordonnées spatio-temporelles de l'évènement et le nom du témoin viennent en second lieu car :
- elles permettent d'ordonner logiquement le fichier en rangeant les observations par ordre chronologique et en affectant chaque entrée au bloc qui est le sien,
- les variables concernées sont faciles à déterminer et ne posent pas de problème technique pour leur codage.
Si le document codé est secondaire, il n'est pas urgent de coder au-delà à condition que le document primaire correspondant soit déjà codé ou qu'on ait bon espoir d'en disposer rapidement.
Les variables extrinsèques codant les données relatives aux témoins et à l'environnement.
Ainsi que la ou les variable(s) codant le type du phénomène observé suivent logiquement car elles constituent en conjonction avec les variables (2), la matière principale des études spatio- temporelles.
Celles-ci nécessitent par leur nature même le plus grand nombre possible de cas quels qu'ils soient. Ces variables peuvent cependant poser des problèmes techniques.
Les variables intrinsèques quantitatives codant les aspects quantitatifs du phénomène ( nombre d'objets, dimensions, etc...) permettent d'aborder les études de structure et de comportement. De toutes les variables concernant directement le phénomène, ce sont les plus propres à un codage précis du fait de leur réduction aisée à l'unidimensionnalité. Ce sont par ailleurs celles qui se prêtent le mieux à l'analyse scientifique. Elles doivent donc faire l'objet d'une attention particulière. De plus, on est dès maintenant en mesure de proposer pour elles de bonnes règles de codage dont il est peu probable qu'elles soient remises en cause.
Les variables intrinsèques qualitatives codant les aspects qualitatifs du phénomène sont de toutes les plus difficiles à coder et les plus sujettes à être déformées par des appréciations subjectives. Ces aspects sont généralement difficiles à ramener à une caractéristique unidimensionnelle soit en raison de leur complexité propre ( forme et structure d'un objet, etc...) soit de leur évolution dans le temps ( par ex. : comportement de l'objet sur sa trajectoire faisant intervenir des variations de vitesse, d'assiette, de rayonnement, etc...). Il semble préférable de ne pas viser d'emblée une solution définitive mais d'améliorer progressivement les codes en fonction de l'avancement de nos connaissances car, comme le remarque très justement A. ESTERLE (6) : "le caractère remarquable ou significatif de tel ou tel critère ne peut être lui-même que le résultat d'une analyse statistique préalable". En tout cas, les insuffisances du codage de contenu peuvent dans une certaine mesure être suppléées par un codage du genre "indications bibliographiques".

Cette conception du fichier général se prolonge logiquement par le développement parallèle de fichiers spécialisés. Ces fichiers peuvent être définis sur des sous-ensembles du fichier général et sont destinés à l'exécution de recherches particulières qui nécessitent des codages très difficiles ( et alors le chercheur intéressé s'en charge lui-même ) ou qui ne s'appliquent qu'à un nombre restreint de documents (voir § 3.1 et § 5.1. - 5°).

REFERENCES

(1) VALLEE J, in BALLESTER OLMOS VJ (1976) - A catalogue of 200 type-I UFO events in Spain and Portugal. CUFOS.
(2) Pour tous ces problèmes méthodologiques voir FOURASTIE J. (1966), Les conditions de l'esprit scientifique - Gallimard, collection "idées".
(3) ROSPARS JP, (1978) - Réflexions sur l'emploi des statistiques dans l'étude du phénomène OVNI - GEPAN ( juin 78, tome 5, annexe 22, pages 5 à 12 ).
(4) SAUNDERS D, (1977) - The UFOCAT Code Book - CUFOS
(5) POHER C, (1978) - Proposition dune méthode permettant de vérifier si les OVNI sont des véhicules - GEPAN, ( juin 78, tome 5, annexe 15 ).
(6) ESTERLE A, (1978) - Préparation d'un fichier national d'observations, GEPAN, ( juin 78, tome 5, annexe 21 ).
(7) PINTY JJ et GAULTIER C (1971) - Dictionnaire pratique de mathématiques et statistiques en sciences humaines - Editions universitaires.
(8) SIEGEL S (1956) - Non parametric statistics for the behavioral sciences, Mc GRAW-HILL Kogakusha.
(9) VALLEE J, (1965) - Anatomy of a phenomenon - REGNERY.
(10) VALLEE J, (1966) - Les phénomènes insolites de l'espace. La table ronde.
(11) POHER C, (1971) - Etude statistique des rapports d'observations du phénomène OVNI.
(12) DUVAL J, (1979) - Règles de codage des témoignages d'OVNI - 4ème version GEPAN.
(13) HYNEK JA, (1972) - The UFO experience, a scientific inquiry (REGNERY) .
(14) SAUNDERS D, (1976) - Extrinsic factors in UFO reporting (com. personnelle)
(15) Mc CAMPBELL JM, t 1973 ) - UFOLOGY - Jaymac Company .
(16) DELECOLLE R, PAGES J, ROSPARS JP, (1978) - Codage informatique de documents, première version du livret (20 dec. 78) - Document interne GEPAN.
(17) MICHEL A, (1958) - Mystérieux objets célestes - Arthaud (réédition : Seghers 1978).
(18) C'est à partir de ce fichier que nous avons réalisé cette étude "Analyse statistique sur les rapports d'observation du type D : rencontres rapprochées, à propos de la cohérence interne entre conditions d'observation et détails décrits : structuraux, sonores, lumineux" - GEPAN - dec. 77 -tome 1 Annexe 6.

SUITE...