|
CENTRE NATIONAL D'ETUDE SPATIALES
Groupe d'Etude des Phénomènes Aérospatiaux Non-identifiés
 |
Toulouse, le 29 octobre 1979
|
NOTE TECHNIQUE N°1
Analyse du problème
du pré-traitement des données
PRÉSENTATION
CHAPITRE 1 - Les techniques d'expertise
( Alain ESTERLE )
CHAPITRE 2 - Règles de codage ( 4ème version GEPAN )
( Jacques DUVAL )
CHAPITRE 3 - Rapport d'études statistiques
( Paul LEGENDRE )
CHAPITRE 4 - Réflexion sur les principes du pre-traitement
( Manuel JIMENEZ )
CHAPITRE 5 - Etude des problèmes liés à la création d'un fichier
informatique
( Jean-Pierre ROSPARS )
CHAPITRE 6 - Les méthodes de traitement de I'information
appliquées aux phénomènes OVNI
( Michel MARCUS )
CONCLUSION
ETUDE DES PROBLÈMES LIÉS A LA CRÉATION D'UN FICHIER
INFORMATIQUE
Par JP. ROSPARS
"Ce n'est qu'au jour où (...) les observations seront extraites des archives poussiéreuses ; où la
négligence et l'ignorance. Les ont enfouies que la Science sera en mesure d'analyser le
phénomène OVNI".
Jacques VALLEE (1)
RÉSUMÉ
L'existence des témoins, des traces alléguées et des documents qui en émanent ou qui s'y
rapportent, constitue un phénomène OVNI empirique incontestable. Pour en déterminer les
causes, il convient de rassembler des données sur les observables disponibles par des méthodes
rigoureuses. Ce recueil est matériellement difficile pour les témoins et les traces, il l'est moins pour
les documents dont le nombre élevé exige le recours à l'informatique.
La construction d'un fichier informatique pose essentiellement des problèmes ufologiques. Le
premier est celui de l'unité de base du fichier (entrée) qui peut être le phénomène allégué, le
témoignage ou le document. Ce dernier choix n'impose sauf exception. Le second est celui de la
liste des caractéristiques à coder (variable) : elle doit être déterminée en tenant compte des
phénomènes eux-mêmes mais tels qu'ils apparaissent en moyenne dans les documents, et des
fonctions attendues du fichier. Ces fonctions qui ont chacune leurs exigences propres sont : la
mise en ordre des documents, la recherche bibliographique et les études statistiques. Le troisième
problème est celui de la création et de l'application pratique des codes ( modalités des variables )
Leur création est conditionnée par le caractère multidimensionnel des données et se fonde sur le
concept d'échelle de mesures. Leur application introduit l'équation personnelle du codeur, qui peut
être limitée, entre autre par l'emploi d'un livret de codage. Enfin, Il convient de tenir compte des
fichiers existants, dont certaine sont extrêmement développés, et de l'expérience ainsi acquise.
En conclusion, une philosophie directive est proposée insistant sur la généralité du fichier tant du
point de vue des documents traités que des applications possibles, et sur sa structure
hiérarchique, tous les documents et toutes les variables n'ayant pas même importance. Cette
philosophie appelle en contrepartie, le développement de fichiers plus spécialisés.
1. INTRODUCTION : L'ETUDE SCIENTIFIQUE DES DOCUMENTS OVNI
1.1. TENTATIVE DE DEFINITION DU PHENOMENE OVNI
On désigne communément sous le nom de "phénomène(s) OVNI" un ensemble disparate qui peut
inclure un ou plusieurs des éléments suivants : des "objets volants non-identifiés", des témoins,
des traces, des photos, des interprétations diverses, des groupes d'enquêtes privés, des
répercussions dans les média, etc... Il est clair que ces divers éléments n'ont pas le même statut
scientifique. Ainsi, l'OVNI lui-même n'est pas actuellement susceptible d'étude scientifique,
compte tenu de son existence problématique et de sa manifestation irreproductible. Il convient
donc, avant toute chose, d'introduire une terminologie rigoureuse, adaptée à un usage
scientifique, et apte à faire l'unanimité des personnes compétentes. Aussi proposons-nous la
définition suivante en deux volets :
- le phénomène OVNI est constitué par l'existence dans de nombreux pays du monde et de
manière continue depuis la fin de la seconde guerre mondiale, de personnes qui ont
rapporté avoir vu des lumières ou des objets inhabituels dans le ciel, ou au sol ou près du
sol. Ces témoignages décrivent parfois des objets solides d'aspect artificiel et sont
accompagnés, de manière rare mais significative, d'enregistrements physiques ( photo,
écho radar, ...) ou de traces au sol attribuées au phénomène allégué ;
- nombre de ces témoignages, soumis à une analyse méthodique auprès des témoins et sur
le site de l'observation alléguée, ne peuvent être attribués en toute rigueur ni à des
affabulations ni à des mésinterprétations (*) de par la personnalité des témoins et la
spécificité des données qu' ils fournissent. Ils demeurent donc inexpliqués non seulement
pour les témoins mais également par les "experts".
(*) Nous proposons ce néologisme construit sur le modèle de mésalliance, mésentente, mévente, de préférence à
"mauvaise interprétation" ou autres expressions similaires.
1.2. COMMENTAIRES DE LA DÉFINITION
L'existence de témoins ( premier volet de la définition ) est un fait tangible parfaitement établi. Son
interprétation est l'objet d'une controverse passionnée depuis 30 ans. Les informations
actuellement disponibles révèlent que cette existence ne peut être aisément expliquée ( second
volet ) puisque certains témoins fournissent des témoignages articulés dont les meilleurs, comme
les enquêtes du GEPAN l'ont montré, sont capables de résister à des tests sévères qui établissent
au moins l'existence historique d'un évènement "anormal" et établiraient en toute autre
circonstance ( c'est-à-dire si le stimulus à l'origine du témoignage était connu ) la réalité physique
de l'observation. Il n'est dès lors pas exclu que le phénomène OVNI puisse constituer un
phénomène nouveau : spécifique et irréductible.
L'expression "phénomène OVNI" présente de ce fait une certaine ambiguité puisqu'elle peut
désigner :
- ou bien un fait objectif : l'existence de témoins, l'émission de rapports. C'est ce sens que
nous avons retenu pour construire la définition qui précède. Pour éviter une confusion
extrêmement préjudiciable, l'expérience le montre, à une réflexion claire sur ces questions,
nous qualifierons ce fait de "phénomène OVNI empirique". L'emploi du singulier est justifié
par le grand nombre de propriétés communes présentées par chacune des manifestations
du phénomène ( apparition d'un témoin ) ;
- ou bien une explication possible du fait précédent, qu'on peut alors qualifier de
"phénomène OVNI explicatif". L'emploi du singulier prête alors à discussion puisqu'il n'y a
aucune raison de penser a priori qu'un seul phénomène est responsable du fait empirique.
Cette dernière remarque soulève une difficulté quant à la définition précise du phénomène OVNI
empirique : doit-on ou non y inclure les témoignages expliqués par affabulation consciente ou
inconsciente et par mésinterprétation ? Il est certes préférable, pour que l'attention soit centrée sur
l'essentiel, de n'inclure que les témoignages peu ou pas réductibles. Toutefois, il est clair qu'une
évaluation rigoureuse de chaque cas est et demeurera difficile pour des raisons matérielles. A
chaque instant, le phénomène empirique est donc un ensemble hétérogène comportant un noyau
dont on sait positivement qu'il est très difficilement explicable et une périphérie dont on a
déterminé l'explication précise ; entre les deux, un sous-ensemble se rattachant au noyau ou à la
périphérie selon la quantité d'informations disponibles et la possibilité d'une explication. Pour des
raisons méthodologiques, un examen comparatif de l'ensemble des cas expliqués ou non semble
indispensable en l'état actuel de nos connaissances. Ainsi, considérons nous dans ce qui suit le
phénomène empirique au sens large.
1.3. L'ETUDE SCIENTIFIQUE DU PHENOMENE
Les témoins, les témoignages, les "traces" de toute nature, constituent la matière première, les
observables, sur lesquels le GEPAN doit travailler pour tenter d'établir les propriétés et, de là, la
nature du ou des phénomènes qui engendrent les témoignages et ces traces allégués. En
pratique, le GEPAN n'étudie pas un phénomène conjectural ( tels que les "soucoupes volantes"
par ex.) mais un phénomène réel qui tient à l'existence expérimentalement certaine de témoins et
de "traces". Il convient donc de bien distinguer les phénomènes observables ( témoins, traces,
etc...) qui sont du domaine de l'observation et de l'expérimentation, observation et expérimentation
destinées à recueillir des données aussi diverses, complètes que possible sur ces observables, et
les phénomène explicatifs qui sont du domaine de l'hypothèse de travail, du modèle, de la théorie,
ces diverses constructions rationnelles devant être confrontées aux donnée recueillies sur les
observables pour infirmation ou confirmation.
Le recueil des données sur le phénomène OVNI empirique exige la mise au point d'une
méthodologie adaptée à l'observable considérée qu'elle soit une trace, un témoin ou un document.
En ceci l'étude du phénomène OVNI n'est en rien différente de celle pratiquée dans toute autre
discipline scientifique. La science ne se définit pas par son objet mais par ses méthodes : il n'y a
pas d'objets d'études indignes de la science, il n'y a que des méthodes indignes d'elle. Les études
au GEPAN n'échappent pas à l'activité scientifique par le fait qu'elles s'appuient principalement
sur des témoins et sur des témoignages oraux et écrits, car ce sont là des observables
disponibles et qu'on n'a le choix qu'entre les utiliser ou ne rien faire. Elles y échapperaient par
contre si les données étaient recueillies de manière hâtive et approximative, si aucun effort n'était
fait en vue de l'évaluation critique ou de l'amélioration des méthodes utilisées ou si les analystes
se laissaient entraîner par leurs idées a priori.
Le premier travail du GEPAN, celui-là même qui peut suffire à justifier son existence d'un point de
vue scientifique, est précisément de développer des méthodes aptes à permettre le recueil de
données ufologiques et de recueillir effectivement ces données à partir des observables
disponibles ( 1ère phase de la méthode expérimentale ) Ensuite, mais ensuite seulement, dans
l'ordre logique mais aussi dans l'ordre des priorités, il lui reviendra à proposer des hypothèses de
travail de portées plus ou joins grandes destinées à rendre compte de tel ou tel aspect du
phénomène ( 2ème phase ) et à les tester au moyen des données
recueillies ( 3ème phase ). Si cette
démarche est suivie, on pourra dire que le GEPAN fait oeuvre scientifique et que le phénomène
OVNI est scientifiquement étudié (2).
Nous nous proposons ici d'étudier les problèmes méthodologiques posés par la 1ère phase, celle
du recueil des données, et par une seule des catégories d'observables, celle des documents.
1.4. LE RECUEIL DES DONNEES
Le phénomène OVNI empirique peut être l'objet d'une étude direct qui consiste pour les
chercheurs du GEPAN à recueillir des données auprès des témoins eux-mêmes sur le site de
l'observation. Ces chercheurs peuvent alors analyser les "traces" observables qui se rapprochent
le plus de ce sur quoi travaillent les chercheurs des sciences physiques et biologiques. Ils peuvent
également, étudier des témoins et ce de plusieurs manières différentes : non seulement en leur
demandant de conter un récit et de répondre à des questions ( témoignage au sens strict ) mais
aussi en faisant usage de techniques non verbales ( choix d'un couleur dans un teintier,
détermination d'une direction à l'aide d'un théodolite etc...) dont les limitations sont très
certainement différentes des techniques fondées sur l'expression orale.
Le GEPAN doit évidemment travailler autant que possible sur des traces et des témoins.
Cependant, cette approche est limitée par deux facteurs le premier est le temps écoulé depuis
l'observation qui affects les souvenirs des témoins encore vivants et qui rend parfois difficile la
recherche de leurs adresses actuelles ; le second est le nombre même de ces témoins qui,
compte tenu du coût des enquêtes, impose d'en réserver l'usage à un faible échantillon. Force est
donc de recourir à une étude indirecte qui utilise les enquêtes faites par les journalistes, les
enquêteurs privés et les gendarmes. Les documents ainsi mis en circulation sont des sources de
données dont la qualité est en principe moindre que celles que le GEPAN aurait pu obtenir
directement mais qui ont le mérite essentiel d'exister, d'avoir été élaboré indépendamment du
GEPAN et de ne lui coûter que le prix de leur collecte.
L'étude des documents ne s'impose d'ailleurs pas seulement pour des raisons pratiques qui
viennent d'être dites, qui en feraient une sorte de moindre mal, mais de mal tout de même. En fait,
il convient de les étudier également en tant que phénomène propre. Si le document peut être
analysé comme le sous-produit de l'exposition du témoin à un phénomène exceptionnel, il peut
l'être aussi et indépendamment comme expression d'un phénomène de société qui possède sa
problématique propre. L'existence des documents appelle ces développements sociologiques et
historiques.
1.5. L'ETUDE DES DOCUMENTS
Les documents ufologiques émis en France depuis la fin de la guerre, sont extrêmement
nombreux : probablement plusieurs dizaines de milliers. Ils sont dispersés : articles de journaux
( essentiellement de la presse régionale ), revues d'amateurs ( souvent de faible tirage,
d'existence éphémère et de collecte difficile ), livres de toutes natures, rapports officiels. Ils sont
redondants : dans biens des cas, une même observation donne lieu à plusieurs documents qui, si
l'observation a été l'objet d'une certaine publicité, forment un réseau touffu.
Ces documents sont d'origine très hétérogène : information de seconde main, interview plus ou
moins rapide de journalistes, enquêtes d'amateurs plus ou moins objectifs et compétents,
sporadiques jusqu'en 1965 environ, plus nombreuses depuis et enquêtes officielles négligentes ou
approfondies, sporadiques jusqu'en 1975, et nombreuses depuis. Les informations y sont
consignées de manière non systématique : il est peu de questions auxquelles tous les documents
donnent réponse.
Enfin, les évènements décrits sont eux-mêmes très hétérogènes par leur nature : du point
lumineux dans le ciel à l'objet posé dans un champ, et par leur complexité qui dépend du nombre
de témoins interrogés, du nombre de phases observées et de l'intensité de l'interaction
phénomène/témoins.
L'étude des documents implique donc la résolution de trois types de problèmes :
- la collecte de documents,
- leur classement,
- le recueil des données à partir des documents collectés.
Nous ne considérerons ici que les deux derniers problèmes et surtout le troisième poursuivant et
explicitant ainsi une étude antérieure (3) .
Le nombre et la dispersion des documents exigent sans conteste le recours à l'informatique. Cet
outil peut être utilisé de deux manières complémentaires : soit pour effectuer le recensement et le
classement logique des documents existants, soit pour étudier le contenu informatif de ces
documents. Il s'agit dans les deux cas, de convertir des données relatives au document ou
contenues dans le document, en informations stockées dans un fichier informatique. Cette
opération conserve le nombre, la redondance et l'hétérogénéité propre aux documents ( ou aux
phénomènes ) mais réduit leur caractère non-systématique et supprime leur dispersion.
L'objectif à atteindre est donc clairement fixé. Il reste à préciser quels documents utiliser et quelles
données coder, à expliciter les méthodes de recueil des données, c'est à dire, compte tenu de
l'option informatique choisie, les méthodes de codage, à prévoir leur amélioration incessante à
l'avenir et à former en conséquence des codeurs expérimentés. Tous ces points de procédure ont
déjà été mis en oeuvre au GEPAN avec une attention toute particulier pour la collecte, le collage
et le traitement des rapports de gendarmerie. Ces rapports ne constituant qu'une petite fraction
( mais de bonne qualité ) de l'ensemble des documents disponibles, il convient d'étudier
l'élargissement de ces procédures à l'ensemble des documents disponibles et de mieux préciser à
cette occasion, les objectifs visés à travers la création d'un fichier informatique. Tels sont les
points que nous nous proposons de discuter dans ce qui suit.
2. NATURE DES ENTREES ( STRUCTURES VERTICALE )
Le premier problème posé par la constitution d'un fichier informatique est relatif à sa structure
verticale. Un fichier est constitué d'unités de base ou entrées. Quelle doit être la nature de ces
entrées ?
Pour répondre à cette question, il est indispensable d'expliciter les étapes de la génération d'un
document ufologique, et de voir quels sont les problèmes posés aux analystes par chacune de
ces étapes.
2.1. PROCESSUS DE GENERATION D' UN DOCUMENT
Supposons pour fixer les idées, qu'un phénomène physique quelconque soit à l'origine des
observations et des traces alléguées : La première phase du processus est alors la manifestation
d'un tel phénomène au-dessus dune zone S à partir d'un instant t.
Ce phénomène est observé par des témoins isolés ou en groupe. Si les témoins ont échangé des
informations au moment de l'observation, ils sont dépendants. Si les témoins ont découvert et
observé le phénomène sans échanger d'informations, ils sont indépendants. Bien entendu, il
existe des transitions entre l'indépendance complète et la dépendance totale. Un échange
d'information peut avoir lieu après la découverte indépendante voire après l'observation
indépendante.
Les témoins peuvent communiquer leur observation sous forme d'un document écrit par eux-
mêmes, ou la confier à un rapporteur quelconque qui en assure la rédaction. Un document
primaire est ainsi engendré. On notera que les enregistrements d'interview sur bandes
magnétiques, les films, les photos, les relevés peuvent également être considérés comme des
documents primaires.
Tout document qui ne résulte pas d'un entretien direct avec un témoin ou qui fait preuve dune
utilisation quelconque d'un document primaire ( par citations, traduction, résumé, analyse, etc...)
est un document secondaire.
D'après ce qui précède, une entrée du fichier peut donc être soit une manifestation du
phénomène, soit une observation par un témoin ou un groupe de témoins dépendants, soit enfin
un document faisant état d'un ou plusieurs témoignages.
2.2. DETERMINATION DE L'ENTREE
L'analyste peut-il prendre la manifestation du phénomène comme entrée du fichier ? C'est
impossible pour deux raisons :
- la première, fondamentale, est qu'il est généralement difficile d'établir que différents
témoins ou groupes de témoins indépendants et séparés dans l'espace ou le temps ont
observé un seul et même phénomène. Le problème ne doit pas être supposé résolu avant
la création du fichier. C'est au contraire le fichier préalablement constitué qui devrait
permettre de le résoudre ;
- la seconde raison est d'ordre pratique : dans nombre d'études, les témoignages s'avèreront
plus intéressants en eux-mêmes que le phénomène. Supposons par exemple, que
l'analyse révèle qu'une série observations est due à une rentrée de satellite. Ce n'est
évidemment pas la rentrée de satellite qui sera l'objet de nos études, mais le nombre et la
répartition géographique des témoins, ainsi que les descriptions indépendantes qu'ils
donneront du même évènement.
Les témoignages d'un témoin ou d'un groupe de témoins dépendants peut-il constituer une
entrée ? Non encore, et pour deux raisons :
- la première est que le(s) témoin(s) a(ont) pu donner lieu à plusieurs documents primaires qui
peuvent être partiellement contradictoires. Or, il ne faut pas demander au codeur de confronter
des documents et de choisir la version qui lui paraît la meilleure, car un tel choix pourrait se
révéler subjectif. La révélation de ces contradictions sera au contraire l'une des tâches de
l'analyse que l'on pourra effectuer à partir du fichier ;
- la seconde raison est que le document primaire n'est pas toujours entre les mains du GEPAN : il
faut donc se contenter de documents secondaires ( du moins provisoirement ).
Chaque entrée du fichier doit donc être constituée par un document primaire ou secondaire relatif
à un témoin isolé ou à un groupe de témoins dépendants. Sont considérés comme documents,
tout rapport, article, livre ou passage de livre signalant l'existence d'un groupe de témoins
dépendants, quelles que soient par ailleurs la qualité ou la quantité des données fournies.
Toutefois, le principe "entrée = document relatif à un groupe de témoins dépendants", peut subir
deux exceptions de sens contraire :
- la première concerne un document qui fait état de plusieurs observations par des témoins
indépendants sans fournir de détails spécifiques, même sommaires, sur chaque
observation. Un tel document peut être qualifié de "synthétique". Il constituera une entrée
unique, mais cette particularité sera codée ;
- la seconde exception concerne un document très complet où chacun des témoins d'un
groupe "dépendant" a été entendu séparément. Les observations peuvent alors différer
suffisamment entre elles pour justifier une entrée séparée par témoin. Un codage
synthétique peut être ultérieurement réalisé après une étude comparée.
On notera qu'en raison de ces deux exceptions, les entrées ne constituent pas un ensemble
homogène. Aussi conviendra-t-il de prendre des précautions lors de l'exploitation statistique du
fichier.
2.3. CONCLUSION : OBJECTIVITE ET GENERALITE DU FICHIER
Le fichier doit entrer tout document qui relate l'observation par un témoin ou un groups de témoins
dépendants d'un phénomène considéré à tort ou à raison comme un OVNI soit par les témoins
eux-mêmes, soit par les enquêteurs, soit par les commentateurs.
Cette clause est valable même s'il est probable ou certain que le rapport résulte d'une
mésinterprétation ou d'une affabulation. Bien entendu, cette information devra être codée.
Le codeur n'a pas pour tâche de confronter des documents distincts ni de décider si un rapport est
cohérent ou non, ni d'établir si différents rapports décrivent ou non le même phénomène.
Redisons le : tous ces problèmes doivent être laissés à l'analyse ultérieure du fichier.
Une telle procédure garantit l'objectivité et la généralité du fichier. Ainsi, les études comparatives
et statistiques ne seront pas biaisées par une distinction nécessairement subjective au départ
entre les "bons" et les "mauvais" cas d'OVNI. Toutefois, ces considérations n'impliquent :
- ni un quelconque désintérêt vie à via de l'expertise en profondeur, que peut mener le
GEPAN sur tel ou tel cas spécifique,
- ni le maintien en toutes circonstances d'une valeur égale pour tous les documents. Une fois
le fichier général constitué, rien n'empêchera un analyste de faire une discrimination des
documents en fonction de la richesse ou de la crédibilité de leur information par exemple.
3. LE PROBLÈME DES VARIABLES ( STRUCTURE HORIZONTALE )
( "QUOI CODER" ? )
Une entrée est constituée d'unités descriptives ou variables qui concernent chacune un aspect du
témoignage. Quels doivent être le nombre et la nature de ces variables ? Cette double question,
relative à la structure horizontale du fichier, est beaucoup plus complexe que celle de sa structure
verticale car elle dépend à la fois des documents à décrire ( dont nous supposerons connus les
traits majeurs ) des documents disponibles (§ 1.1.) et des recherches à entreprendre à partir du
fichier (§3.2.).
3.1. QUALITE DES DOCUMENTS ET NOMBRE DE VARIABLES
Combien de variables faut-il introduire pour chaque entrée ?
Le principal facteur à prendre en compte pour en décider est la qualité moyenne des documents
disponibles. En effet,
- si la structure horizontale comportait peu de variables et de modalités par variable, le
nombre d'entrées contenant des colonnes vierges ( non codées ) serait faible mais par
contre, le nombre de documents qui auraient pu donner lieu à un codage plus élaboré
serait élevé. Une telle situation entraînerait donc en moyenne une perte d' information ;
- par contre, si la structure horizontale comportait beaucoup de variables et de modalités, un
grand nombre d'entrées auraient beaucoup de colonnes non codées en raison de l'absence
d'informations dans les documents. Le nombre de documents pour lesquels il y aurait
beaucoup de variables non codées serait alors élevé. Une telle structure serait donc
inutilement lourde dans la plupart des cas.
La meilleure solution consiste, nous semble-t-il, à prévoir une structure horizontale un peu plus
large que celle qui correspond à la moyenne des documents. De cette manières, on pourra
mesurer la qualité du document par le remplissage plus ou coins complet et précis de la structure
et isoler de la masse les documents de qualité "supérieure" en nombre suffisamment restreint
pour permettre une étude séparée. En un mot, il importe absolument d'éviter le fichier général
fourre-tout nivelé par le bas.
Cette conception débouche sur l'idée dune structure hiérarchique du fichier :
- le fichier général est prévu pour coder tous les documents quels qu'ils soient. Les
éventualités peu fréquentes ne pourront être codées en détail, malgré leur grand intérêt
potentiel pour l'étude du phénomène. Il importe que le fichier général signale donc
l'existence de ces éventualités. Une bonne structure horizontale doit impérativement
mentionner ses propres insuffisances ;
- la conception ci-dessus rend nécessaire le développement de fichiers spécialisés dérivés
du fichier général, de manière à permettre l'étude plus approfondie des documents qui le
méritent. Il nous semble pat exemple, que le collage spécifique des cas de rencontres
rapprochées s'impose en premier lieu.
Le développement de ces fichiers annexes ne pose pas de problème particulier. La plus sûre
garantie d'efficacité clans ce domaine serait sans doute de laisser leur réalisation aux soins non
d'un groupe de codeurs spécialisés, mais aux chercheurs intéressés qui souhaiteraient davantage
d'informations sur certains documents. Un collage est d'autant mieux fait qu'il est réalisé par une
seule personne et dans un but précis.
3.2. FONCTIONS DU FICHIER ET LISTS DES VARIABLES
Le fichier doit être construit en vue de remplir certaines fonctions. Il n'est pas un but en soi, il n'est
qu'un moyen et, à oublier ce fait, on s'expose à de graves déconvenues. Le fichier doit donc
permettre à lui seul, ou tout au moins faciliter, des études scientifiques sur le phénomène OVNI.
On peut distinguer trois types de fonctions que doit remplir le fichier :
- mise en ordre des documents.
- recherches bibliographiques,
- recherches statistiques.
3.2.1. Fonction d'ordonnancement
- Bloc :
La première tâche à effectuer est de déterminer si deux documents diffèrents
proviennent ou non du même groupe de témoins dépendants. L'ensemble des entrées
décrivant le même évènement mais fondées sur des sources différentes est appelé bloc
( nomenclature de SANDERS ). Tout bloc possède une structure soit chronologique
( pour les documents primaires ), soit hiérarchique ( pour les documents secondaires
qui ne peuvent être plus complets ou plus précis que les documents dont ils dérivent ).
Le problème est donc double : il faut d'abord assigner une entrée à un bloc puis
hiérarchiser les entrées au sein d'un bloc. Ces deux opérations supposent la présence
des variables suivantes :
- date et lieu de l'évènement,
- nom du ou des témoin(s) pour l'assignation,
- date de publication et source du document pour la hiérarchisation
- Super-bloc :
Il faut également pouvoir déterminer si deux blocs provenant de témoins indépendants
correspondent ou non à l'observation du même phénomène. Ceci ne peut se faire que
sur des critères plus ou moins conventionnels de proximité dans le temps et dans
l'espace, et de similitude des descriptions. Cette opération est très importante pour
fournir une preuve directe de l'objectivité du phénomène, mais elle intervient également
dans les études statistiques spatio-temporelles.
3.2.2. Fonction bibliographique
Le problème à résoudre est le suivant : l'analyste désire étudier les documents contenant
certaines informations spécifiées. Il dispose donc d'une série de critères et se sert du fichier pour
établir la liste des entrées qui répondent à ces critères. Le traitement bibliographique vise ainsi à
mettre à la disposition de l'analyste une liste de références bibliographiques. Le fichier est alors
utilisé comme voie d'accès aux documents, comme instrument de gestion d'une bibliothèque.
Il s'agit là d'un rôle capital par les services qu'il peut rendre aux enquêteurs qui désirent savoir si
le témoin qu'ils vont interroger a fait d'autres observations, si le phénomène qu'il rapporte a été
observé par d'autres personnes on en d'autres circonstances, ou aux spécialistes de toutes
disciplines qui désirent accéder aux documents qui décrivent des phénomènes relevant de leur
compétence ou du su jet d'étude qu'ils ont choisi.
Dans tous les cas, on suppose que l'analyste va rechercher les documents et en faire lui-même
l'étude. Il n'attend donc pas du fichier une information rigoureuse sur le contenu du document,
puisqu'il se propose de l'examiner lui-même, mais simplement la séparation de l'ensemble des
documents disponibles en deux lots : celui où il ne trouvera certainement rien à l'intéresser et celui
où il a une chance de glaner des informations pertinentes. Il y a donc deux risques à prendre en
considération :
- le risque qu'un document intéressant ne figure pas sur la liste après traitement
informatique. On souhaite qua ce risque soit nul ;
- le risque qu'un document sans intérêt figure sur la liste. Là, par contre, on est moins
exigeant puisque, par hypothèse, le chercheur va opérer son propre tri. En fait, on est
d'autant moins exigeant qu' il y a moins de documents à trier - Avec 1000 documents
sélectionnés, une probabilité de succès de 0,7 ( 30 % de documents sans intérêt ) peut
être gênantes avec 100 documents, on peut descendre à 0,5 et moins.
Les objectifs à atteindre étant ainsi précisés, voyons ce qui en résulte pour le codage.
Un codage complet et scrupuleusement exact des références du document est bien entendu
nécessaire. Quant aux variables, destinées à la sélection bibliographique, on notera qu'elles
peuvent fort bien être de la forme "il y a de nombreuses données quantitatives dans le rapport", ou
"la trajectoire est très bien décrite", sans que ces données quantitatives ou cette trajectoire soient
codées par ailleurs.
3.2.3. Fonction statistique
Dans l'approche statistique on s'intéresse moins aux évènements pris individuellement qu'aux
propriétés d'ensemble du phénomène OVNI telles qu'elles apparaissent par l'étude de nombreux
cas. Quand le nombre des documents à utiliser devient grand, l'analyste ne peut plus utiliser les
documents eux-mêmes ; mais doit faire usage des informations codées dans le fichier. Il attend
donc du fichier une information rigoureuse sur le contenu du document car, si le codage est
mauvais, les statistiques qu'il établira seront nécessairement mauvaises.
Le fichier doit être adapté aux études dès maintenant entreprises ou qui le seront à l'avenir. Pour
autant qu'on puisse le savoir à l'heure actuelle, ces études tombent dans l'une des quatre
rubriques suivantes :
- Études spatio-temporelles :
Elles visent à décrire la distribution dans le temps et dans l'espace des observations et à en
dégager les propriétés du phénomène qui leur a donné naissance. Elles nécessitent le plus grand
nombre de cas possibles, idéalement tous les cas publiés et ce indépendamment de leur qualité
ou de leur appartenance à un phénomène OVNI spécifique.
Les variables impliquées au premier chef par cette étude sont : la date, l'heure, la minute, le lieu
exact, les conditions d'observation, une description de l'environnement, au moins le type du
phénomène observé.
Ces variables sont les plus généralement disponibles sur un cas quelle que soit par ailleurs la
qualité du document, elles sont les moins susceptibles d'être déformées. Tous les fichiers
informatiques créés à ce jour ont fait une large place à ces données et la presque totalité des
travaux scientifiques originaux portant sur le phénomène OVNI, font appel à ces seules données.
Cette voie de recherche demeure à l'heure actuelle l'une des plus prometteuses qui soit.
- Etudes de structure et comportement du phénomène :
Elles visent à décrire les caractéristiques propres des phénomènes observés quant à leurs
propriétés lumineuses, cinétiques, géométriques, etc... Elles nécessitent donc le plus grand
nombre possible de données par cas, les cas retenus étant ceux qui fournissent les meilleures
descriptions du phénomène.
Les variables qu'on souhaite trouver dans le fichier â ce propos sont : les conditions d'observation,
la compétence de l'observateur, des descriptions détaillées du phénomène lui-même quant à son
apparence et à son comportement.
Certaines de ces variables sont souvent disponibles, mais avec une précision qui peut laisser à
désirer : la qualité de l'observation, celle de l'enquête et du rapport qui en résulte influent
beaucoup sur la qualité des informations à utiliser. Elles sont aussi les plus susceptibles d'être
déformées. Autrement dit, ce type d'étude est important mais difficile. Il y a très peu d'études
statistiques de valeur disponibles sur ces problèmes à l'heure actuelle.
- Etudes psycho-sociologiques :
Elles sont orientées vers les témoins. Quelques données sociologiques et traits psychologiques
sont extractibles des documents mais pas de manière systématique. Les rapports donnant des
indications nombreuses sont rares. L'étude psychologique directe des rapports existant est donc
nécessairement limitée. Cependant, quelques travaux ont été publiés à l'aide des données
disponibles ; ils visent contradictoirement, à établir l'originalité ou la banalité des observateurs
d'OVNI par rapport à la moyenne de la population.
Par contre, une étude indirecte peut être menée à l'aide des résultats des études
spatio-temporelles ( aspects sociologiques ) ou structuro-comportementales ( aspects
psychologiques ). De tels développements sont dès maintenant bien apparents.
- Etudes physiques :
Elles sont orientées vers l'interprétation à l'aide de modèles physiques des phénomènes observés
ou de leurs effets sur l'environnement. Ce type d'études se heurte aux mêmes difficultés que les
études psycho-sociologiques liées à la rareté des informations aptes à les étayer.
Notons que ces études physiques apparaissent comme un développement spécialisé et
particulièrement exigeant en bonnes données du point n° 2 : "structure et comportement du
phénomène". Précisons aussi pour éviter les malentendus que les études physiques auxquelles il
est fait référence ici, sont celles qui visent à confronter les modèles physiques aux observations
ou à déduire des grandeurs physiques caractéristiques à partir des observations et non celles qui
visent à développer des théories ou des modèles, ce qui est de la physique pure et non pas de la
physique appliquée à l'ufologie. L'une se passe très bien du fichier informatique, mais l'autre est
contrainte d'y faire appel.
Il est probable que ces études ne se développeront qu'à la suite des enquêtes effectuées
spécialement en ce sens par le GEPAN, à partir de cas accidentellement favorables ( effets
particuliers, radar, traces, ...). Toutefois, d' utiles indications pourraient être extraites des cas
publiés, des documents existants, comme le montrent les études de Mc CAMPBELL (15) ou de
POHER (5), si toutefois on pouvait mettre la main sur les documents utilisables. Le but qu'on doit
se proposer d'atteindre ici est donc moins de coder en grands détails les indications qu'on peut
supposer utiles aux physiciens ( à notre sens, c'est impossible à réaliser ), qu'à signaler les
rapports contenant beaucoup d'informations apparemment utilisables. On développe la fonction
bibliographique au détriment de la fonction statistique.
Il est facile de justifier cette option par l'exemple. On peut considérer pour cela l'article de POHER
(5) "Proposition d'une méthode permettant de vérifier si les OVNI sont des véhicules". La première
méthode qu'il propose consiste "à examiner les variations de la vitesse de l'objet en fonction de
son inclinaison sur l'horizontale". Le nombre de cas de prêtant à cette analyse est infime et il est
par conséquent hors de question de prévoir un code spécifique pour cette occurence
exceptionnelle. La seconds méthode s'applique aux cas faisant état d'un effet mécanique sur
l'environnement, à condition de connaître "la pression équivalente à l'effet mécanique constaté et
aussi le diamètre de l'objet observé ( ou mieux son volume )". Là encore, un collage spécifique
serait d' une lourdeur impraticable.
Le problème est de déterminer aussi rapidement que possible les indications potentiellement
précieuses pour le physicien de manière à ce que le fichier signale leur présence dans un
document, à défaut de pouvoir en réaliser un codage exhaustif. Il convient, dans ce but, d'établir
une liste des situations susceptibles de développements physiques. A côté de ces situations
particulières qui ne se signaleraient pas spontanément à l'attention des codeurs, il convient de
faire les remarques générales suivantes :
- tout modèle physique implique des analyses quantitatives. Il s'ensuit que toutes les
données quantitatives ou quantifiable d'un document doivent faire l'objet d'un soin
particulier et que la présence de données quantitatives non codées ( faute d'une structure
horizontale permettant de le faire ) doit être notée sans le fichier ( le fichier signale ses
propres lacunes ) ;
- toute description détaillée de trajectoire, de propriétés lumineuses, d'effets sur
l'environnement est susceptible de fournir des indications précieuses même si on ne sait
pas exactement comment les utiliser aujourd'hui. Là encore, toute présence de détails
précis non codés doit être notée dans le fichier.
3.3. CONCLUSION : CLASSEMENT DES VARIABLES
Une liste de variables à utiliser se dégage logiquement de l'étude qui précède. Elle doit viser à
traiter la grande majorité des documents et ce dans tous les aspects. Elle doit s'attacher en outre
à satisfaire le plus grand nombre d'applications possibles, tant par le mode d'utilisation ( sélection
bibliographique, calculs statistiques ), que par les questions posées
( physique, sociologie, etc...).
Il n'est pas inutile avant de poursuivre de fournir, non pas une liste complète des variables, mais
un classement de celles-ci, à l'aide du contenu descriptif qu'elles fournissent.
Le classement suivant nous semble particulièrement utile à la fois conceptuellement et
pratiquement :
les variables documentaires :
elles décrivent le document en tant que tel : elles fournissent les références
bibliographiques complètes, indiquant s'il s'agit d'un document primaire ou secondaire, et
tentent de préciser ses qualités et défauts ;
-
les variables observationnelles :
elles décrivent tout ce qui concerne l'observation et les observateurs c'est à dire le contenu
du document. On peut les subdiviser elles-mêmes en deux catégories :
les variables extrinsèques :
ce sont les variables observationnelles relatives aux conditions d'observation au sens
large ( localisation spatio-temporelle, description de l'environnement, du ou des
témoin(s) )
les variables intrinsèques :
ce sont les variables observationnelles relatives au phénomène allégué :
localisation dans l'environnement, forme, structure et dimensions, effets lumineux, sonores,
odorants, physiques et biologiques, trajectographie.
Un classement plus précis en sept catégories ou séquences peut également rendre service :
- séquence 1 : description du document,
- séquence 2 : localisation spatio-temporelle de l'évènement,
- séquence 3 : environnement : météo, visibilité, géographie,
- séquence 4 : témoins, véhicules, méthode d'observation, crédibilité
- séquence 5 : phénomène : éléments quantitatifs,
- séquence 6 : phénomène : éléments qualitatifs et type de phénomène,
- séquence 7 : intérêt de l'évènement, explications possibles, etc...
4. PROBLEMES DES MODALITES ( "COMMENT CODER" ? )
Les problèmes liés à la structure d'ensemble du fichier ayant été discutés, Il reste à étudier la
structure des variables. En effet, chaque variable est divisée en modalités soit par exemple la
variable "méthode d'observation", les catégories prévues à l'avance : "oeil nu", "Jumelles",
"longue-vue", etc... constituent les modalités de cette variable. Nous abordons ainsi le problème
des techniques de codage. Nous envisageons d' abord les problèmes posés par la création des
modalités (§4.1) puis ceux posés en pratique par le codage des documents (§9.2).
4. 1. CODAGE D' UN POINT DE VUE THÉORIQUE
Nous avons vu que la variable est l'unité de construction de la structure horizontale du fichier. Une
telle variable peut être considérée comme une question posée à laquelle il convient de répondre
en faisant usage des informations contenues, dans le document. On peut convenir d'appeler ces
informations éléments ou items à coder. L'élément est l'ensemble de mots, d'expressions et de
phrases utilisés dans le document qui permet de coder une variable.
4.1.1. Propriétés des éléments : dimensionnalité
La propriété la plus importante d'un élément est sa dimension. Un élément est unidimensionnel
lorsqu'il ne peut prendre qu'un seul état parmi plusieurs états discrets ( sex. : sexe du témoin, nom
de la commune où a eu lieu I'observation alléguées ) ou une infinité d'états continus localisés sur
un axe unique ( ex. : dimension, distance, altitude, durée ). Dans ce cas, une variable unique à
variation continue ou discontinue suffit à décrire l'élément. Dans tous les autres cas, l'élément est
multidimensionnelle et il faut faire usage pour l'expliciter d'un grand nombre de paramètres.
Considérons par exemple, un objet quelconque. S'il s'agit de décrire sa forme géométrique, on
voit qu'un grand nombre de paramètres est nécessaire pour peu qu'il soit irrégulier ou complexe :
la forme est une caractéristique multidimensionnelle par excellence et c'est ce qui rend si difficile
l'étude automatique des images et la reconnaissance automatique des formes. Par contre, la
masse du même objet est un paramètre unidimensionnel ; un seul nombre suffit pour épuiser le
sujet. Remarquons qu'il existe des caractéristiques intermédiaires : la dimension de l'objet par
exemple. S'il s'agit d'une boîte, il y a trois dimensions : longueur, largeur, hauteur, sans ambiguité.
S'il s'agit d'une chaise, on peut convenir de considérer les dimensions hors-tout. On peut même
convenir dans les deux cas de ne retenir que la plus grande dimension.
Ceci introduit une nouvelle idée qui est à la base même de toute opération de codage à savoir la
réduction à l'unidimensionnalité d'informations multidimensionnelles. Le nombre total de variables
est limité, et chaque variable est multidimensionnelle au sens de la définition précédente : la
réduction s'accompagne donc nécessairement d'une perte d'information. Il faut faire en sorte que
l'information originelle conserve suffisamment de relations avec la ou les caractéristique(s)
sensée(s) la représenter pour avoir la valeur des schémas et des caricatures qui déforment
certes, mais dans le sens de l'essentiel. Pour être faite de manière reproductible, une réduction
doit faire usage de commentaires explicites de règles de transformation à consigner dans un livret
de codage ( voir ci-après ). Une information multidimensionnelle est aisément réductible s'il est
possible de définir des règles de transformation simples et générales, et si l'on dispose d'un
nombre suffisant de variables. Soit, par exemple, à coder les conditions météorologiques. Si on ne
dispose que d'une seule variable, la tâche de transformation est ardue et nécessairement
déformante, avec plusieurs variables, elle devient beaucoup plus facile.
La multidimensionnalité n'est pas l'exception mais la règle. Toute variable ou presque doit donc
être accompagnée des règles qui permettent d'assurer la réduction conventionnelle de l'élèment
correspondant. Deux cas sont à distinguer :
on peut, dès à présent, proposer des règles de réduction satisfaisantes pour tout ce qui
dans un document est numérique ( nombre de témoins, d'objets, ...), dimensionnel ( taille
de l'objet, altitude, distance, ...), ou temporel ( durée du phénomène,...). Des règles de
transformation sont nécessaires même pour ce qui parait de prime abord unidimensionnel
comme les nombres et les durées. Il se peut par exemple, que les témoins voient
initialement trois objets en formation qui disparaissent à leur vue, puis un objet solitaire.
L'élément "nombre d'objets" est multidimensionnel. On peut décider par convention de
coder "4 objets vus", mais il est clair que cette réduction entraîne une perte d'information. A
lire le code, on pourrait croire qu'ils ont vu 4 objets simultanément, or il n'en est rien. La
réduction à opérer s'impose lorsque l'une des dimensions de l'élément, un de ses aspects
est plus important ( témoin principal , dimension maximum, altitude minimum,, etc...)
dans d'autres cas, tels que les descriptions du lieu, du témoin, du phénomène, la réduction
est plus difficile. Dans une description de trajectoire, de forme, de jeux de lumière, les
dimensions caractéristiques ne s'imposent pas. La définition d'états discrets imposée par le
codage, est nécessairement vague et arbitraire : la précision du codage s'en ressent. C'est
ici que les mises au point seront les plus longues avant d'obtenir des règles de
transformation et de codage adéquates : les éléments qualitatifs nécessitent des études
préliminaires.
De toute manière, un procédé de réduction conservera toujours quelque arbitraire. Aussi, faut-il
savoir qu'un élément aurait pu être codé différemment : aucun système de collage ne peut épuiser
le contenu d'un document.
4.1.2. Propriétés des variables : échelle de mesure
Lorsqu'on a réussi une réduction à l'unidimensionnalité, il reste à effectuer une "mesure" au long
de cet axe, à y définir une échelle quelconque. On distingue 4 types de "mesures" ou échelles qui
sort des plus faibles au plus fortes : les échelles nominales, ordinales, d'intervalles et de rapports.
Les deux premières s'appliquent aux caractères qualitatifs, les deux dernières aux caractères
quantitatifs (7) (8).
L'échelle nominale s'applique aux caractères qui ne peuvent être que classés à l'aide d'un critère
précis, par exemple : sexe, état civil d'un témoin, forme d'un objet, ... La seule propriété formelle
de cette échelle est d'être structurée par une relation d'équivalence (=) : les membres d'une classe
sont équivalents vis à vis de la proprété utilise pour construire l'échelle. Les seules statistiques
descriptives admissibles sont fondées sur un calcul de fréquence et les tests non paramétriques
correspondants ( X2, notamment ).
L'échelle ordinale s'applique aux caractères qui peuvent être classés et dont les classes
d'équivalence peuvent en outre, être ordonnées en faisant usage d'une relation du genre "est plus
grand que", "est préféré à", etc... Toutefois, les intervalles entre ces classes ne sont pas définis.
Elle incorpore donc une relation d'équivalence (=) et une relation d'ordre (>). Les statistiques
applicables à l'échelle nominale s'appliquent encore mais s'y ajoutent les "tests de rang".
L'échelle d'intervalles est une échelle ordinale où les distances entre classes sont connues. Cette
échelle est caractérisée par une unité de mesure constante mais cette unité et le point origine sont
arbitraires. L'exemple classique est celui de la mesure des températures sur les échelles
d'intervalle CELSIUS ou FAHRENHEIT. Peu au pas d'applications ufologiques.
L'échelle de rapports est la plus forte, elle a toutes les propriétés d'une échelle d'intervalles et en
plus a une origine fixée. Seule l'unité de mesure est arbitraire. Elle se définit par 4 propriétés :
équivalence, ordre, rapport à intervalles, rapport de points. Elle s'applique à l'ufologie dès lors qu'il
y a évaluation précise de distances, d'angles, de durées, etc...
On notera que les variables issues d'éléments unidimensionnels, peuvent se mesurer suivant les
cas dans l'une ou l'autre des 3 échelles principales mais que celles issues d'éléments
multidimensionnels ne peuvent être mesurées que dans des échelles ordinales ou nominales. On
a bien entendu toujours intérêt à utiliser l'échelle la plus forte possible et il y a progrès lorsqu'on
détermine des critères permettant de transformer une variable jusque là nominale en variable
ordinale. Ainsi, une variable aussi multidimensionnelle que le type de phénomène selon
SAUNDERS, qui pourrait sembler purement nominale, peut être considérée comme une mesure
ordinale de la force de l'interaction phénomène/témoin.
L'hétérogénéité des documents invite à prendre les précautions suivantes :
On prévoiera pour chaque variable, autant d'échelles différentes que possible, pour
permettre le choix correspondant le mieux à la précision disponible dans le rapport. Ainsi,
les modalités relatives à la variable "distance minimum phénomène/témoin" devront rendre
possible un collage numérique ( échelle de rapport ) ou l'affectation à une classe de
distance ( échelle ordinale ) ou même une simple qualification de cette distance du genre
"près", "loin" ( échelle quasi nominale ) ;
Pour les échelles ordinales et nominales, plusieurs découpages en classes de précision
croissante pourront être prévus. Il convient toutefois, de définir ces classes de manière à ce
que la transcodabilité interne, c'est à dire le passage d'une classe précise à une classe
moins précise, reste possible. Le fait qu'un gain en effectif puisse être obtenu au prix dune
perte en information est une propriété très utile dans bon hombre d'études statistiques.
4.2. CODAGE D'UN POINT DE VUE PRATIQUE
La qualité du codage effectué est limitée par les imperfections du système de codage d'une part et
par l'équation personnelle du codeur d'autre part.
Examinons ces deux points.
4.2.1. Limitations liées au système de codage - Livret de codage
Lorsqu'un code est élaboré un peu a priori sans une connaissance approfondie des documents,
on constate généralement que son utilisation est malaisée : dans nombre de cas, il ne s'applique
pas aux informations effectivement présentes, et lorsqu'il s'applique, de nombreuses ambiguités
se manifestent. Une telle situation est très dommageable parce que le temps gagné sans
l'élaboration du code, est perdu et bien au-delà dans son utilisation en routine et que la qualité du
codage obtenu est médiocre. La co-adaptation des documents à coder et du système de codage
ne peut être atteinte que par un processus de perfectionnement par essais et erreurs : il faut
absolument que les difficultés soient transférées dans : la mise au point du système plutôt que
dans son utilisation.
Mais, il ne suffit pas qu'un système de codage ait été l'objet dune mise au point soignée, encore
faut-il qu'il soit accompagné d'un livret de codage (6). Un tel livret ne se contente pas de donner
une liste de variables et de leurs modalités mais il en explicite dans chaque cas le mode d'emploi
à l'aide de définitions, d'exemples, de contre-exemples ( erreurs à ne pas commettre ), etc...
Il donne en particulier, les règles de réduction conventionnelles pour les éléments
multidimensionnelle.
Un chercheur isolé peut dans une certaine mesure se passer d'un livret de codage parce qu'il est
à même d'utiliser de manière cohérente un code même s'il n'a pas fait l'effort de l'expliciter.
Encore faut-il qu'il travaille régulièrement et rapidement sinon une dérive se produit au cours du
temps par une réflexion plus ou moins inconsciente, des adaptations qui changent
imperceptiblement mais sûrement le sens des codes employés. Un tel mécanisme a des
conséquences encore plus funestes lorsque le codage est réalisé par une équipe car chaque
codeur élabore sa propre définition et évolue à sa façon. Dès lors, le code utilisé ne recouvre plus
une réalité constante, il devient irreproductible. Or, il est capital pour l'utilisation du fichier, que le
sens de chaque code soit clair et unique car on ne saurait progresser sur un fond d'à peu près.
Il ne faut pas se leurrer : un livret de codage bien au point est nécessairement d'une certaine
complexité. Il doit exiger du codeur inexpérimenté un effort de compréhension. Cet effort est le
prix qu'il faut payer pour obtenir un codage reproductible et au bout du compte facile parce que
dépourvu d'ambiguité . En l'absence de ces Indications qui ralentissent son travail au début, le
codeur peut croire la tâche plus facile, mais confronté à la première difficulté venue, il hésite,
choisit un peu au hasard et il en résulte une perte importante de qualité : à la limite l'indication
codée se révèle dépendre autant de l'équation personnelle du codeur, du hasard du moment que
du document lui-même. Une telle situation est bien entendu inacceptable et il faut tout mettre en
oeuvre pour y remédier.
Un livret de codage n'est jamais achevé, même en supposant le système de codage constant,
aussi faut-il prévoir des procédures pour en assurer l'amélioration constante :
une première procédure pourrait reposer sur les codeurs eux-mêmes qui, lorsqu'ils seraient
confrontés à des problèmes difficiles à résoudre, à l'aide des indications du livret,
rempliraient un formulaire spécial. Ceci suppose des codeurs déjà bien expérimentés ayant
intégré les règles en application à un instant donné de manière à faire la part des difficultés
personnelles d'apprentissage et des difficultés liées aux insuffisances du livret ;
-
une seconde procédure consisterait à tester régulièrement les codages en comparant les
indications de deux codeurs expérimentés sur un même document. Les inévitables fautes
d'attention mises à part, les divergences signaleraient des ambiguités à supprimer dans les
règles en cours.
La rédaction d'un tel livret et sa mise à jour permanents auraient l'avantage d'obliger à une
explication constante des règles de codage suivies, sans lesquelles il est impossible d'accéder à
une quelconque objectivité dans le codage. Il permettrait également de former rapidement les
nouveaux codeurs de manière rationnelle, et non "sur le tas", ce qui éviterait le retour indéfini aux
mêmes errements.
4.2.2. L'équation Personnelle du codeur
La transformation du document en modalités codées exige la lecture, la compréhension et, dans
une certaine mesure, l'interprétation du texte, par un codeur dont la personnalité va intervenir à
chacune de ces étapes. Les risques d'interprétation subjective sont donc réels, notre expérience
personnelle nous conduit a en distinguer deux principaux :
Le premier risque est de "ne pas chercher à bien faire". Il résulte de la frustration
qu'engendrent souvent certains documents ou certaines observations. Le codeur peut avoir
l'impression que l'imprécision inhérente à l'observation ou au document, ne justifie pas de
sa part un effort de compréhension ou d'analyse. Le même sentiment peut être partagé par
l'analyste lorsqu'il aborde la création de certains codes : "à quoi bon expliciter ces concepts
puisque les données dont nous disposons sont souvent mal recueillies !". Cette tentation
d'approcher les documents de manière globale et approximative est trop fréquente pour ne
pas être signalée ici comme un danger majeur dont il convient de se prémunir avant tout. Si
les codes sont mal définis et si le codeur les utilise avec légèreté, l'imprécision inhérente au
collage devient telle que sa valeur scientifique disparaît, le résultat est bon à mettre au
panier. L'imprécision des documents exige beaucoup de rigueur et de précision au niveau
du système de codage et de la pratique du codage. Le paradoxe central du codage est : à
document imprécis, codage précis.
Le second risque provient, au contraire, du désir de "trop bien faire" en dépassant le
contenu objectif du document. C'est un fait psychologique que la lecture d'un document
suscite spontanément dans l'esprit une image intuitive de l'évènement qui tend à se
substituer à ce qui est explicitement écrit. Certaines lacunes du document ne sont pas
perçues et l'imagination suppléait ces manques. Sur cette tendance naturelle, peut en outre
se greffer une rationalisation excessive, si bien qu'en fin de compte ce n'est pas le
document qui est codé mais la reconstitution opérée par le codeur.
Il ne faut pas cependant en conclure que toute interprétation est préjudiciable. En effet, le concept
de "contenu objectif" du document n'est pas clair. Il ne s'agit pas d'en tester dans tous les cas à la
lettre du document mais d'accéder à son sens. Ainsi, convient-il pour coder une variable de
prendre simultanément en compte tous les passages du document qui la concernent et d'en
effectuer la synthèse, ce qui implique une certaine reconstitution. Mais il faut procéder avec
beaucoup de prudence de manière à ce que ces interprétations éclairent le document plus qu'elles
ne le déforment, et entre les deux la voie est étroite. On aura garde d'oublier que le fichier n'est
pas relatif à une observation mais à un document.
Il est beaucoup plus fructueux de discuter ces risques d'interprétation subjective variable par
variable qu'in abstracto comme nous venons de le faire. Toutes les variables ne présentent pas
les mêmes dangers. En outre, pour aider le codeur à l'objectivité, des variables distinctes peuvent
être créées pour un même élément : l'une de contenu ( ce que dit le document ), l'autre de
commentaire ( ce qu'en pause le codeur ). Dans tous les cas, le livret de collage doit expliciter la
méthode à suivre dans les situations délicates. Finalement, toute la méthodologie propre à la
réalisation d'un fichier vise spécifiquement à réduire ces risques de subjectivité. Toutefois, rien ne
peut remplacer la formation et la rigueur méthodologique des codeurs eux-mêmes, et la création
d'une ambiance favorable à l'acquisition de cette expérience et à l'exercice de cette rigueur.
5. LES FICHIERS EXISTANTS
Pour définir le fichier, il convient de tenir compte non seulement de la nature des documents
disponibles, des études à réaliser et des impératifs du codage, mais aussi des fichiers réalisés
antérieurement par d'autres chercheurs.
5.1. DESCRIPTION SOMMAIRE
Le premier chercheur en date à s'être attelé à la réalisation d'un fichier informatique est
Jacques VALLEE (9) (10) au début des années 60. Il a ainsi réalisé un catalogue mondial de
3 073 cas. L'unité de base du fichier est la manifestation du phénomène et non le document. La
localisation spatio-temporelle y est codée avec un soin tout particulier. Les autres variables
extrinsèques sont codées de manière sommaire dans le but de repérer les cas obéissant à un
certain nombre de critères pré-sélectionnés. Le codage des variables intrinsèques est intéressant
mais non systématique.
Le second chercheur par ordre chronologique est David SAUNDERS (4) à partir
de 1967. Son
fichier, appelé UFOCAT, a été réalisé initialement dans le cadre du Comité CONDON et à titre
privé par la suite. Il est actuellement développé au sein du Center for UFO Studies l'Organisation
privée, dirigée par le Dr. HYNEK, ( EVANSTON, Illinois ). Il s'est accru à raison de
10 000 entrées
par an, il comporte donc aujourd'hui plus de 100 000 entrées. L'unité de base y est le document.
Ce fichier international est de loin la plus importante collection de données ufologiques
actuellement disponibles sous forme informatisée bien que tous les documents fichés n'aient pas
été codés complètement. D. SAUNDERS a développé un certain nombre des idées ébauchées
par VALLEE. Il conserve toute son importance à la localisation spatio-temporelle et même la
développe. Il Introduit un codage assez complet des caractéristiques de la source utilisée
( variables documentaires ). Il utilise une typologie du phénomène fort intéressante, différente de
celle de VALLEE et de celle introduite plus tard par HYNEK (13).
Claude POHER (11) a développé son fichier de manière complètement indépendante pour
autant qu'on puisse en juger par la structure horizontale de celui-ci. La prééminence accordée à la
localisation spatio-temporelle disparaît et, en conséquence, la place accordée aux variables
intrinsèques s'accroît : le codage en est plus systèmatique que chez les deux autres précédents.
L'unité de base est encore la manifestation du phénomène. Ce fichier compte 736 entrées.
Le fichier actuellement développé par le GEPAN (6) (12), à titre expérimental, sur la base des
rapports de Gendarmerie, dérive directement de celui de POHER et est totalement indépendant
de ceux de VALLEE et de SAUNDERS. Certaines variables supplémentaires apparaissent par
rapport à POHER ( département, témoins potentiels, âges, sexes, catégories
socioprofessionnelles des témoins, direction azimutale, type selon HYNEK ) mais d'autres
disparaissent en raison de leurs faibles fréquences ( lumières ponctuelles, odeurs, effets
physiques, biologiques ou psychologiques, description et même mention d'occupants ).
Les fichiers précédents peuvent être tour qualifiés de "généralistes" en ce sens qu'ils portent
sur tour les types de phénomènes observés, incluent tous les types de variables observationnelles
( même s'ils insistent plus sur les variables extrinsèques ou intrinsèques suivant les cas ) et qu'ils
visent à traiter plutôt sommairement le plus grand nombre possible de cas.
Nous avons été amenés à développer un fichier (18) à partir de 1973, obéissant à une philosophie
radicalement différente, que l'on peut qualifier de "spécialiste" par opposition aux précédentes
dont les caractéristiques sont les suivantes :
- il porte sur un type de phénomène unique et très spécifique les atterrissages avec
exhibition d'occupants ;
- il est orienté vers la description de la structure et du comportement du phénomène et une
explicitation des processus d'observation, de divulgation et d'enquête ;
- l'effort a porté non sur l'extension du nombre de cas ( stabilisé provisoirement à 70 ) mais
sur l'extension ( au cours du temps ) du nombre de variables de manière à opérer une
description exhaustive des cas ;
- la méthodologie du codage a été l'objet d'une attention particulière quant à la définition et à
l'application des modalités. Le procédé des "classes disjonctives complètes" a été
privilégié.
Cette approche est mentionnée ici pour insister sur le fait qu'un fichier "généraliste" n'est pas
adapté à toutes les études et que des fichiers "spécialistes" devront être créés dans son orbite, si
possible par les chercheurs eux-mêmes.
5.2. COMPARAISON DES FICHIERS GENERALISTES
Pour comparer les fichiers, nous avons dressé une liste de 60 variables en raison de leur
présence dans l'un ou l'autre des systèmes de codage ou de l'intérêt qu'elles nous semblaient
avoir. Nous avons noté pour chaque fichier les variables de cette liste qui sont codées et celles qui
ne le sont pas (tableau 1). Nous constatons ainsi qu'il n'y a que 6 variables seulement qui,
disposent d'un code spécifique ( c'est à dire ne sont pas mêlées à d'autres variables ) dans les
quatre fichiers. Ce sont :
- date
- heure/minute
- nombre témoins
- nombre d'objets
- dimension de l'objet
- latitude/longitude
Noter que toutes ces variables sont quantitatives et que la moitié d'entre elles concernent la
localisation de l'événement. Si on retient également les variables qui ont un codage spécifique
dans 3 fichiers ou spécifique ( plusieurs variables logiquement distinctes confondues en une
seule ) dans les 4, il vient :
- âge des témoins
- durée d'observation
- forme
- bruit
- type du phénomène
- localisation/méthode d'obs. des témoins
- trajectoire
- luminosité
- effets physiques
- crédibilité/étrangeté
Pour mieux apprécier les pôles d'intérêt de chaque auteur, on peut regrouper les 60 variables en 7
séquences (voir § 3.3) chacune décrivant un des aspects du document ou de l'observation. Il suffit
alors de se faire une idée de l'importance de chacune des séquences, de compter le nombre de
colonnes de carte perforée qui leur est consacré (tableau 2).
- TABLEAU N° 1 -
COMPARAISON DES FICHIERS

- TABLEAU N° 2 -
SEQUENCES |
SAUNDERS (4) |
POHER (11) |
GEPAN 4 (12) |
1 - Document |
21 |
15 % |
3 |
4 % |
2 |
3 % |
2 - Localisation |
64 |
46 % |
15 |
20 % |
23 |
34 % |
3 - Environnement |
3 |
2 % |
2 |
3 % |
2 |
3 % |
4 - Témoins |
24 |
17 % |
5 |
7 % |
8 |
12 % |
5 - Phénomène quantitatif |
9 |
6 % |
9 |
12 % |
17 |
25 % |
6 - Phénomène qualitatif |
5 |
4 % |
40 |
53 % |
13 |
19 % |
7 - Intérêt |
14 |
10 % |
2 |
3 % |
2 |
3 % |
|
140 |
|
76 |
|
67 |
|
On voit que SAUNDERS consacre près de la moitié de ses colonnes disponibles à localiser le
phénomène tandis que POHER en consacre plus de la moitié à le décrire. Le système GEPAN
4ème version, équilibre mieux les deux aspects mais au bénéfice de la description intrinsèque.
Il est donc clair que des options extrêmement divergentes peuvent être prises quant à la structure
horizontale d'un fichier, qui ne dépendent ni des documents disponibles ( tous les auteurs ont les
même documents ou des documents comparables en main ) ni des moyens disponibles ( tous les
auteurs ont été aidés de collaborateurs ) mais principalement des pôles d'intérêt scientifiques, des
études que ces auteurs se sont proposés de réaliser pour mieux comprendre le phénomène OVNI
( VALLEE et SAUNDERS se sont intéressés à la théorie de l'orthoténie due à Aimé MICHEL (17)
et au problème des "vagues" d'où leur insistance sur les aspects spatio-temporels ).
5.3. IMPORTANCE D'UFOCAT
L'existence du fichier UFOCAT de SAUNDERS est extrêmement positive pour le GEPAN par
l'expérience mise à notre disposition dans "The UFOCAT Code Book" et par la possibilité d'opérer
des échanges à l'avenir aux conditions stipulées par cet auteur. Mais il constitue un défi :
d'un point de vue quantitatif, par l'avance déjà prise et par la vitesse d'accroissement du
fichier,
d'un point de vue qualitatif, venant après SAUNDERS , il faut autant que possible utiliser
des méthodes de codage supérieures aux siennes.
Dès que la structure horizontale du fichier sera déterminée, il conviendra de mettre au point un
algorithme de transcodage destiné à convertir les codes GEPAN en codes UFOCAT.
6. CONCLUSIONS
6.1. DEFINITION DU FICHIER
Le fichier informatique général à développer par le GEPAN, tel qu'il résulte de l'analyse
précédente, possède les caractéristiques suivantes :
il concerne l'ensemble des observations faites sur le territoire français. Le mot "observation"
est entendu dans son sens le plus large, à savoir : l'observation alléguée par un ou
plusieurs témoins, d'un phénomène quelconque qu'ils ont eux-mêmes attribué à un OVNI
ou que d'autres ont ainsi Interprété. Cette définition est indépendante de la véracité des
témoins, de la qualité de leur déposition de celle de l'enquête qui en ait résultée ou de celle
du document qui fait état de l'observation alléguée ; elle est indépendante de la possibilité
d'expliquer ou non cette observation de manière conventionnelle. Le seuil d'acceptation
d'une observation pour le fichier est donc placé au plus bas pour assurer la généralité de
celui-ci et la possibilité d'y définir de nombreux sous-ensembles pour des études
particulières allant de la sociologie à la physique des phénomènes allégués ;
l'unité de construction du fichier n'est pas l'observation mais le document faisant état dune
observation. Tout document faisant état d'une observation au sens précédent peut être
inclus dans le fichier. Cette option, outre qu'elle préserve une utilisation sociologique ou
historique par exemple, est la seule qui puisse pratiquement assurer à terme l'exhaustivité
du fichier : pour les évènements anciens, les documents de seconde main peuvent seuls
subsister, ne pas les coder c'est perdre toute trace de certaines observations ; pour les
évènements récents les documents de seconde main signalent l'existence d'évènements
dont il convient de rechercher activement les sources primaires ;
le codage utilisé doit contenir suffisamment de variables pour permettre une description
correcte des documents moyens voire légèrement supérieurs à la moyenne. Il s'ensuit par
exemple, que nombre d'aspects des rencontres rapprochées ne pourront être codés faute
de variables disponibles pour en rendre compte. Les variables disponibles doivent être
telles qu'elles permettent le traitent du fichier suivant deux axes complémentaires. Le
premier axe vise un simple traitement bibliographique : le fichier est utilisé pour signaler les
observations ou documents remarquables étant entendu que les informations recherchées
sont présentes dans les documents originaux mais pas nécessairement dans le fichier
informatique. Le second axe vise au traitement statistique des informations effectivement
présentes dans le fichier sans qu'il soit jamais nécessaire de recourir aux documents
originaux que le fichier remplace complètement. Cette double possibilité d'utilisation
garantit autant que faire se peut les intérêts de tous les chercheurs qui dès maintenant ou à
l'avenir auront besoin d'un fichier informatique pour trier la masses inextricable autrement,
des documents ufologiques disponibles, même et surtout en l'absence des codes explicites
qui leur auraient été nécessaires.
Le fichier peut donc être qualifié de général à l'aide des critères suivants :
il s'intéresse è tout évènement ( observations, traces, etc...) d'intérêt ufologique
quelconque ;
il utilise tous les documents ufologiques disponibles ;
il code toutes les variables dont la fréquence d'occurence dans les documents disponibles
est suffisamment élevée et néglige sciemment les autres ;
il vise à rendre service à tous les utilisateurs potentiels d'un fichier informatique, présents et
à venir, dans la mesure du possible.
6.2. STRUCTURE HIERARCHIQUE DU FICHIER
Il semble préférable de ne pas concevoir le fichier comme un bloc monolithique où toutes les
entrées de toutes les variables auraient a priori la même importance. Les entrées sont
hiérarchisées : une entrée primaire est plus importante qu'une entrée secondaire, une entrée
primaire bien décrite qu'une sommairement décrite, etc... Il en va de même des variables comme
nous allons le voir, les variables documentaires sont plus importantes que les variables
observationnelles, et parmi ces dernières les extrinsèques plus que les intrinsèques.
Ces priorités eu égard aux documents et aux variables sont importantes car elles permettent de
développer le fichier par étapes et de s'attaquer à la mise au point des techniques de codage
d'autant plus sophistiquées qu'on ne vise pas à les appliquer à tous les documents de manière
différenciée.
Il n'est pas inutile, pour fixer les idées, de décrire en la justifiant l'organisation hiérarchique des
variables, car elle découle de la prise en compte simultanée de nombre d'aspects discutés dans
ce travail. On peut regrouper de ce point de vue les variables en cinq sous-ensembles qui sont par
ordre d'importance décroissante :
Les variables documentaires :
qui fournissent des renseignements sur le document, en premier lieu ses références
bibliographiques, forment la plus importante séquence de variables parce que pour coder un
document, il faut d'abord savoir qu'il existe et où il se trouve. Elles permettent d'ouvrir
une entrée pour un codage ultérieur s'il y a lieu ;
Les variables extrinsèques :
codant les coordonnées spatio-temporelles de l'évènement et le nom du témoin viennent en
second lieu car :
elles permettent d'ordonner logiquement le fichier en rangeant les observations par ordre
chronologique et en affectant chaque entrée au bloc qui est le sien,
les variables concernées sont faciles à déterminer et ne posent pas de problème technique
pour leur codage.
Si le document codé est secondaire, il n'est pas urgent de coder au-delà à condition que le
document primaire correspondant soit déjà codé ou qu'on ait bon espoir d'en disposer rapidement.
Les variables extrinsèques codant les données relatives aux témoins et à l'environnement.
Ainsi que la ou les variable(s) codant le type du phénomène observé suivent logiquement car elles
constituent en conjonction avec les variables (2), la matière principale des études spatio-
temporelles.
Celles-ci nécessitent par leur nature même le plus grand nombre possible de cas quels qu'ils
soient. Ces variables peuvent cependant poser des problèmes techniques.
Les variables intrinsèques quantitatives codant les aspects quantitatifs du phénomène ( nombre
d'objets, dimensions, etc...) permettent d'aborder les études de structure et de comportement. De
toutes les variables concernant directement le phénomène, ce sont les plus propres à un codage
précis du fait de leur réduction aisée à l'unidimensionnalité. Ce sont par ailleurs celles qui se
prêtent le mieux à l'analyse scientifique. Elles doivent donc faire l'objet d'une attention
particulière. De plus, on est dès maintenant en mesure de proposer pour elles de bonnes règles
de codage dont il est peu probable qu'elles soient remises en cause.
Les variables intrinsèques qualitatives codant les aspects qualitatifs du phénomène sont de
toutes les plus difficiles à coder et les plus sujettes à être déformées par des appréciations
subjectives. Ces aspects sont généralement difficiles à ramener à une caractéristique
unidimensionnelle soit en raison de leur complexité propre ( forme et structure d'un objet, etc...)
soit de leur évolution dans le temps ( par ex. : comportement de l'objet sur sa trajectoire faisant
intervenir des variations de vitesse, d'assiette, de rayonnement, etc...). Il semble préférable de ne
pas viser d'emblée une solution définitive mais d'améliorer progressivement les codes en fonction
de l'avancement de nos connaissances car, comme le remarque très justement A. ESTERLE (6) :
"le caractère remarquable ou significatif de tel ou tel critère ne peut être lui-même que le résultat
d'une analyse statistique préalable". En tout cas, les insuffisances du codage de contenu peuvent
dans une certaine mesure être suppléées par un codage du genre "indications bibliographiques".
Cette conception du fichier général se prolonge logiquement par le développement parallèle de
fichiers spécialisés. Ces fichiers peuvent être définis sur des sous-ensembles du fichier général et
sont destinés à l'exécution de recherches particulières qui nécessitent des codages très difficiles
( et alors le chercheur intéressé s'en charge lui-même ) ou qui ne s'appliquent qu'à un nombre
restreint de documents (voir § 3.1 et § 5.1. - 5°).
REFERENCES
(1) VALLEE J, in BALLESTER OLMOS VJ (1976) - A catalogue of 200 type-I UFO events in
Spain and Portugal. CUFOS.
(2) Pour tous ces problèmes méthodologiques voir FOURASTIE J. (1966), Les conditions de
l'esprit scientifique - Gallimard, collection "idées".
(3) ROSPARS JP, (1978) - Réflexions sur l'emploi des statistiques dans l'étude du phénomène
OVNI - GEPAN ( juin 78, tome 5, annexe 22, pages 5 à 12 ).
(4) SAUNDERS D, (1977) - The UFOCAT Code Book - CUFOS
(5) POHER C, (1978) - Proposition dune méthode permettant de vérifier si les OVNI sont des
véhicules - GEPAN, ( juin 78, tome 5, annexe 15 ).
(6) ESTERLE A, (1978) - Préparation d'un fichier national d'observations, GEPAN, ( juin 78,
tome 5, annexe 21 ).
(7) PINTY JJ et GAULTIER C (1971) - Dictionnaire pratique de mathématiques et statistiques
en sciences humaines - Editions universitaires.
(8) SIEGEL S (1956) - Non parametric statistics for the behavioral sciences, Mc GRAW-HILL
Kogakusha.
(9) VALLEE J, (1965) - Anatomy of a phenomenon - REGNERY.
(10) VALLEE J, (1966) - Les phénomènes insolites de l'espace. La table ronde.
(11) POHER C, (1971) - Etude statistique des rapports d'observations du phénomène OVNI.
(12) DUVAL J, (1979) - Règles de codage des témoignages d'OVNI - 4ème version GEPAN.
(13) HYNEK JA, (1972) - The UFO experience, a scientific inquiry (REGNERY) .
(14) SAUNDERS D, (1976) - Extrinsic factors in UFO reporting (com. personnelle)
(15) Mc CAMPBELL JM, t 1973 ) - UFOLOGY - Jaymac Company .
(16) DELECOLLE R, PAGES J, ROSPARS JP, (1978) - Codage informatique de documents,
première version du livret (20 dec. 78) - Document interne GEPAN.
(17) MICHEL A, (1958) - Mystérieux objets célestes - Arthaud (réédition : Seghers 1978).
(18) C'est à partir de ce fichier que nous avons réalisé cette étude "Analyse statistique sur les
rapports d'observation du type D : rencontres rapprochées, à propos de la cohérence
interne entre conditions d'observation et détails décrits : structuraux, sonores, lumineux" -
GEPAN - dec. 77 -tome 1 Annexe 6.
SUITE...
© CNES
|