SOS-DS

Système optimal de sélection des données spatiales
couplé à un data warehouse

SOS-SD
A Data Warehouse-Based System
for the Optimized Selection of Spatial Data

François Létourneau, B. Sc. A., Candidat M. Sc. A.
Yvan Bédard, Ph. D., professeur et chercheur
Marie-Josée Proulx, M Sc., professionnelle de recherche

 

Centre de recherche en géomatique
Pavillon L.-J.-Casault, local 0609
Université Laval
Québec, Canada
G1K 7P4
[email protected]

D-Lib Magazine, March 1997

ISSN 1082-9873

Résumé

L´┐Żhétérogénéité des géorépertoires est un problème de taille pour quiconque devant chercher dans plusieurs géorépertoires quelles sont les meilleures sources de données spatiales nécessaires à la réalisation d´┐Żun projet. Des différences dans le contenu, les normes, l´┐Żinterface à l´┐Żusager, la sémantique, la structure de base de données, etc. sont la règle dans les géorépertoires se trouvant sur Internet. De plus, les usagers n´┐Żont aucun outil à leur disposition pour les aider à sélectionner la meilleure source de données après qu´┐Żils aient clairement définis leurs besoins et qu´┐Żils aient trouvé nombre de documents répondant à leur requête dans les différents géorépertoires.

L´┐Żutilisation de la technologie data warehouse, couplée avec un outil de transformation et d´┐Żintégration des données et avec un système d´┐Żaide à la sélection des documents, le tout fonctionnant sur Internet, nous paraît être une solution prometteuse pour régler les problèmes d´┐Żhétérogénéité et de la sélection des meilleures sources. Les data warehouses sont utilisés pour dupliquer et intégrer des jeux de données provenant de bases de données ou de fichiers opérationnels et pour créer de nouveaux jeux de données synthétisés permettant d´┐Żassister les gestionnaires dans leur prise de décision. L´┐Żutilisation d´┐Żun data warehouse comme source de données pour un système d´┐Żaide à la sélection des données ouvre la voie à une solution nouvelle et innovatrice. Ce concept, appelé Système optimal de sélection des données spatiales (SOS-DS) est présentement en développement au Centre de recherche en géomatique de l´┐ŻUniversité Laval, où il fait l´┐Żobjet de travaux de recherche dans un projet de maîtrise.

Mots-clés :

Géorépertoires, métadonnées, data warehouse spatial, intégration de données spatiales


Table des matières


1. Introduction

De plus en plus de gens utilisent l´┐ŻInternet pour acquérir et distribuer des données spatiales. Toutefois, la distribution et la consultation des données spatiales requièrent plus qu´┐Żun simple transfert de fichier par ftp ou une consultation de cartes sur le Web. Une infrastructure doit être établie afin de permettre aux différents usagers de trouver facilement et d´┐Żanalyser les données couvrant un territoire défini. Ces opérations sont effectuées dans un géorépertoire (c.f. Proulx et al. pour plus de détails sur les géorépertoires [1]). Malheureusement, les géorépertoires sur Internet sont passablement différents entre eux ; leur contenu, les normes utilisées, l´┐Żinterface à l´┐Żusager, la sémantique, la structure de base de données etc. sont tous susceptibles d´┐Żêtre différents d´┐Żun géorépertoire à l´┐Żautre. Dans ce contexte, il n´┐Żest donc pas surprenant de constater qu´┐Żil n´┐Ży a présentement aucun outil sur Internet permettant à l´┐Żusager d´┐Żêtre assisté lorsque vient le temps de sélectionner les meilleures sources de données, une fois que les besoins sont clairement définis. Cet article présente ces problèmes et suggère quelques moyens pour les résoudre. C´┐Żest un résumé d´┐Żun projet de recherche présentement en cours à l´┐ŻUniversité Laval, lequel projet est mené par l´┐Żauteur principal sous la direction du deuxième auteur.

2. L´┐Żhétérogénéité des géorépertoires sur Internet

Le développement de plusieurs géorépertoires sur Internet, par des ministères et autres organismes, a mené à l'apparition d´┐Żun ensemble hétérogène de géorépertoires. Une enquête, réalisée en octobre 1995 et mise à jour en juillet 1996 [2] nous donne une bonne indication de l´┐Żhétérogénéité des géorépertoires sur Internet. Parmi les 26 sites identifiés, 38% ne présentaient qu´┐Żune liste de documents disponibles, 36% n´┐Żutilisaient que les normes minimales de métadonnées, tandis que 28% utilisaient les normes complètes. Parmi les 26 mêmes sites, presque 60% n´┐Żétaient pas reliés à une base de données et finalement, 36% d´┐Żentre eux n´┐Żaffichaient aucune carte permettant de localiser le territoire couvert par le géorépertoire et aidant ainsi l´┐Żusager à localiser la couverture cartographique des divers documents contenus dans le géorépertoire. Quiconque visitera quelques géorépertoires sur Internet notera que :

Ces faits et statistiques, en plus d´┐Żune foule d´┐Żautres que nous retrouvons dans l´┐Żenquête, démontrent clairement l´┐Żhétérogénéité des géorépertoires. Cette problématique est illustrée à la figure 1. Conséquemment, dans le but de trouver l´┐Żinformation désirée, les usagers doivent comprendre chaque interface et processus nécessaires à l´┐Żobtention de l´┐Żinformation. D´┐Żune certaine manière, ce problème est analogue à celui de la recherche de l´┐Żinformation sur Internet avec les différents engins de recherche, mais il comporte en plus un important problème géospatial et un contexte d´┐Żinterface à l´┐Żusager qui ne se pose pas de la même manière avec les engins de recherche.


Figure 1 : problème initial

En plus du problème d´┐Żhétérogénéité auquel fait face l´┐Żusager avec les géorépertoire sur Internet, les problèmes liés à la sémantique sont tout aussi importants. Les problèmes de sémantique sont présents tout autant dans la définition de la structure des géorépertoires et dans la définition des données. Par exemple, les problèmes sémantiques associés à la structure peuvent être de cet ordre : dans un géorépertoire donné, un champ de base de données peut être nommé « type d´┐Żobjets » tandis que dans un autre géorépertoire, ce même type de champ sera nommé « entité spatiale ». On retrouve aussi des mots représentant deux concepts différents, par exemple, le mot norme peut représenter le concept de norme d´┐Żacquisition de données dans un géorépertoire, tandis que dans l´┐Żautre, le même mot représente une norme de structure de données ou une norme de sémiologie graphique, indifféremment. Finalement, un autre problème peut se présenter lorsque l´┐Żon utilise les mots système de référence spatiale sans préciser s´┐Żil s´┐Żagit d´┐Żune projection cartographique ou d´┐Żun datum. L´┐Żautre grande catégorie de problèmes d´┐Żordre sémantique est liée à l´┐Żutilisation de différents mots pour représenter le même concept, la même entité. Par exemple, si un usager veut trouver de l´┐Żinformation sur les cartes du réseau d´┐Żaqueduc d´┐Żune municipalité, il se peut que cette collection de cartes soit identifiée dans un géorépertoire comme cartes de l´┐Żaqueduc, tandis que dans un autre géorépertoire, elle est identifiée comme cartes du réseau d´┐Żadduction en eau ou cartes du réseau d´┐Żaqueduc dans un troisième géorépertoire. L´┐Żusager doit donc être conscient de ces disparités sémantiques, car s´┐Żil n´┐Żen tient pas compte, le résultat de ses requêtes ne sera pas complet. Évidemment, de tels problèmes de nature sémantique sont beaucoup plus importants pour les géorépertoires qui ne respectent pas l´┐Żune ou l´┐Żautre des normes de métadonnées.

3. Difficultés pour sélectionner la meilleure source de données

Une fois que l´┐Żusager a trouvé un ensemble de documents répondant potentiellement à ses besoins, en ayant fait une recherche dans un ou plusieurs géorépertoires, il est possible que le résultat de ses requêtes se traduise par une très longue liste de documents disponibles. La difficulté d´┐Żanalyser une telle liste peut être diminuée en utilisant un outil d´┐Żaide à la décision. Il y a de fortes chances qu´┐Żun usager soit dépassé par la liste des documents répondants à ses besoins, de sorte qu´┐Żil est probable qu´┐Żil ne choisisse pas les documents répondant le mieux à ses besoins. De plus, en raison d´┐Żun manque d´┐Żexpertise ou d´┐Żun contexte mal défini, ses besoins risquent d´┐Żêtre mal définis ou définies de manière floue, aggravant ainsi la situation. Cette problématique peut s´┐Żénoncer ainsi : parmi les données et documents disponibles, il est difficile de choisir ceux qui répondent le mieux à des besoins exprimés par un usager. Encore une fois, cette problématique s´┐Żapparente à celle que l´┐Żon rencontre avec les engins de recherche sur le Web. Jusqu´┐Żà maintenant, à notre connaissance, il n´┐Ży a pas de géorépertoires sur le Web qui permette à un usager de définir clairement ses besoins et d´┐Żutiliser cette information pour trouver les meilleurs documents disponibles pour un projet en particulier. Voilà pourquoi nous avons décidé de concevoir le système SOS-DS (Système optimal de sélection des données spatiales).

4. SOS-DS

On peut imaginer quelques stratégies pour solutionner les problèmes susmentionnés. L´┐Żutilisation d´┐Żune norme de métadonnées commune et d´┐Żune interface graphique à l´┐Żusager unique permettrait de surmonter une grande partie de ces problèmes. En fait, ce n´┐Żest pas une solution envisageable et cela ne risque pas de se produire en raisons des immenses efforts requis pour modifier une norme ou se conformer à une nouvelle norme et aussi en raison d´┐Żun manque de connaissances techniques en géomatique (cartographie, télédétection, photogrammétrie, arpentage, géodésie, hydrographie). D´┐Żautres facteurs sont à prendre en considération : l´┐Żabsence d´┐Żun produit réellement dominant sur le marché établissant une norme de facto, le manque de ressources disponibles pour concevoir correctement un géorépertoire et l´┐Żavancement rapide de la technologie.

Il y a aussi une autre façon résoudre des problèmes. Parmi les nouvelles technologies de gestion des données, les data warehouses, couplés à un outil de transformation / intégration et un module d´┐Żaide à la sélection de documents nous semble être une solution prometteuse. Les data warehouses, tels que définis par Inmon [3], « are a subject-oriented, integrated, non-volatile, and time variant collection of data in support of management´┐Żs decision ». Habituellement, les data warehouses sont conçus pour gérer des grands volumes de données et sont régulièrement couplés à un outil de transformation / intégration des données, permettant ainsi de transformer et d´┐Żintégrer des données provenant de systèmes sources hétérogènes dans le data warehouse. La transformation / intégration des données est une des pierres angulaires des data warehouses. Par exemple, si la précision d´┐Żune carte est exprimée en pieds dans un géorépertoire « A » et qu´┐Żelle est exprimée en mètres dans le géorépertoire « b », l´┐Żoutil de transformation / intégration pourra transformer l´┐Żunité de mesure de pieds à mètres avant d´┐Żintégrer la donnée dans le data warehouse. La figure 2 illustre une architecture générique de data warehouse, appliqué à des données spatiales.


Figure 2 : architecture générique de data warehouse appliquée à des données spatiales

Jusqu´┐Żà maintenant, les data warehouses sont principalement utilisés dans les applications de gestion traditionnelles : assurances, banques, comptabilité, etc. Quelques projets utilisent cette technologie avec des données spatiales, mais c´┐Żest tout récent et il semble pour l´┐Żinstant que les data warehouses n´┐Żoffrent pas le même potentiel pour les données spatiales que pour les données traditionnelles. En fait, en raison des caractéristiques intrinsèques des données spatiales, il n´┐Żest pas toujours possible d´┐Żutiliser efficacement les technologies actuelles et d´┐Żintégrer ce type d´┐Żinformation dans les data warehouses. Les technologies existantes doivent donc être adaptées, créant ainsi des opportunités de recherche pour solutionner ces problèmes.

Dans le contexte des géorépertoires, les data warehouses offrent plusieurs perspectives de développement très intéressantes. Pour notre projet, nous pouvons imaginer un système data warehouse permettant d´┐Żobtenir, de transformer et d´┐Żintégrer différents jeux de données dans une seule base de données. Les usagers, au lieu de consulter plusieurs géorépertoires différents, pourraient tout simplement faire une seule recherche complète dans le data warehouse et trouver l´┐Żinformation préliminaire dont ils ont besoin. Ensuite, en utilisant une procédure informatisée pour définir leurs besoins, (telle que celle développée par Charron et le second auteur [4]), le système pourrait effectuer un filtrage préliminaire, mais néanmoins très utile des jeux de données disponibles. Si plus d´┐Żinformations sont requises pour les jeux de données sélectionnés, un pointeur liant ces données au système source permettrait d´┐Żobtenir toute l´┐Żinformation nécessaire. Cette architecture permettrait de réduire grandement les problèmes mentionnés précédemment (et de les éliminer complètement si les métadonnées enregistrées et stockées dans le data warehouse sont adéquates).

Il est possible aussi d´┐Żutiliser l´┐Żoutil de transformation / intégration en vue d´┐Żintroduire de la plus-value dans les données sources. Par exemple, si un géorépertoire n´┐Żoffre qu´┐Żune liste textuelle des documents disponibles, classifiants ces derniers selon le système de référence cartographique national du Canada, il est possible d´┐Żadjoindre à ces données de l´┐Żinformation spatiale. Dans ce géorépertoire, le feuillet cartographique 21-L-10 n´┐Żest pas représenté sur une carte index. Il est toutefois possible d´┐Żutiliser cette information pour représenter la couverture de ce document sur une carte index, car 21-L-10 réfère à une position connue avec exactitude sur le territoire. On peut donc utiliser ce code pour dessiner la couverture cartographique de ce feuillet sur une carte index. Un autre exemple de plus-value est de produire de l´┐Żinformation statistique pour les feuillets disponibles en format papier versus ceux disponibles en format numérique et d´┐Żindiquer les dates prévues pour la numérisation (disponibles seulement pour les documents papier).

Nous avons mentionné précédemment que le système SOS-DS permettra d´┐Żassister les usagers dans la définition de leurs besoins et les aidera à trouver et sélectionner les jeux de données répondant le mieux à leurs besoins. La figure 3 illustre ce concept. Ce système est composé d´┐Żun outil de transformation, d´┐Żintégration, de synthèse et d´┐Żanalyse sémantique des données, lesquelles données sont stockées dans un data warehouse, ce dernier servant de source de données à l´┐Żoutil de sélection. Une interface à l´┐Żusager basée sur les technologies des systèmes d´┐Żinformation géographique (SIG) complète le tout.


Figure 3 : architecture de SOS-DS proposée

Un des principaux problèmes pour ce système est d´┐Żobtenir les données. Parfois, les métadonnées dans les géorépertoires sont simplement stockées dans des pages html, tandis que d´┐Żautres géorépertoire utilisent des bases de données relationnelles complexes pour l´┐Żenregistrement des métadonnées. En plus, l´┐Żaccès à ces données requiert la signature d´┐Żentente entre les géorépertoires source et le SOS-DS et une infrastructure complète doit être développée pour intégrer efficacement les données. Des problèmes techniques d´┐Żaccès aux données doivent aussi être surmontés. Notre but premier n´┐Żétant pas de solutionner ces problèmes techniques, nous ne chercherons donc pas à les résoudre. Notre but premier est plutôt d´┐Żévaluer le potentiel de l´┐Żapproche data warehouse pour résoudre la problématique initiale. Pour ce faire, nous créerons cinq géorépertoires différents qui devront être représentatifs de l´┐Żhétérogénéité des géorépertoires actuels. Un de ces géorépertoires est GEOREP, tel que décrit en [1]. Conséquemment, les quatre autres devront couvrir le même territoire que GEOREP, soit la Forêt Montmorency, et chacun de ces géorépertoires contiendra certaines métadonnées décrivant dans les détails plus de 75 jeux de données créés au cours des 30 dernière années pour ce territoire. De ces quatre géorépertoires (ou simples répertoires non spatiaux dans certains cas) un sera implanté dans Oracle, un dans un SIG et deux sur un serveur WEB en utilisant de simples fichiers html. De son côté, le système GEOREP utilise le Jet Database Engine de Microsoft (c.f. MS-Access) et Java. Si les résultats de notre recherche nous indiquent que la solution proposée est adéquate pour résoudre le problème initial, des considérations d´┐Żordre technique et légale pourront alors faire l´┐Żobjet d´┐Żautres travaux.

5. Conclusion

Nous avons proposé une nouvelle solution pour résoudre les problèmes d´┐Żhétérogénéité des géorépertoires et sélectionner les meilleurs jeux de données disponibles satisfaisant des besoins clairement définis. Nous avons aussi définis la plupart des concepts et lors de projets de recherche antérieurs, nous avons acquis une expertise valable en ce qui a trait à la gestion des métadonnées spatiales, à l´┐Żanalyse sémantique, à la sélection des meilleures source de données, à l´┐Żanalyse de la qualité des données, au jumelage de modèles de données, à la programmation de basses de données sur le Web, à la programmation Java et à l´┐Żutilisation et la conception de SIG. Au moment où ces lignes sont écrites, nous prévoyons terminer ce projet à la fin de l´┐Żété 1997. Éventuellement, les données seront disponibles sur Internet, à l'adresse sosds.scg.ulaval.ca. On pourra obtenir les dernières informations sur le projet à ce site et en apprendre plus sur les objectifs du projet et connaître l´┐Żavancement des travaux.

6. Notes

  1. Proulx and al., GEOREP A WWW Customizable Georeferenced Digital Library for Spatial Data, D-Lib Magazine, december 1996.
  2. Proulx and al, Géorépertoire dynamique sur Internet : un moyen efficace de cataloguer les données spatiales, article soumis à la Revue Internationale de Géomatique.
  3. Inmon W, Building the Data Warehouse, John Wiley and Son, 1996, p.33
  4. Charron J., Thèse de maîtrise, Université Laval

 

Copyright © 1997 François Létourneau, Yvan Bédard, Marie-Josée Proulx

D-Lib Magazine |  Current Issue | Comments
Previous Story | Next Story

hdl:cnri.dlib/march96-letourneau