Mise en relation de deux bases de données
Transcrição
Mise en relation de deux bases de données
Mise en relation de deux bases de données bibliographiques, PASCAL et le SCIENCE CITATION INDEX pour l’élaboration d’indicateurs de la production scientifique Brésilienne Joachim QUEYRAS (*), Leandro INNOCENTINI LOPES DE FARIA (**), Hervé ROSTAING (*), Luc QUONIAM (***) [email protected] , [email protected] , [email protected] , [email protected] (*) Université Paul Cézane Aix-Marseille III, UMR CNRS 6171, Faculté des Sciences et Techniques Service 422, 13397 Marseille Cedex 20, France, (**) NIT/Materiais, Universidade Federal de São Carlos, UFSCar, Rodovia Washington Luis, km 235, CEP 13565-905, São Carlos, SP, Brasil, (***) Université du Sud, Service N.T.I.C, Bât Le Béal - 1er étage, Avenue de l'Université - BP20132 83957 La Garde CEDEX, France. Mots clés : Base de données, Classification, Production scientifique, Bibliométrie Keywords : Database, Classification, Scientific production, Bibliometrics Palabras clave : Base dato, Clasificacion, Produccion cientifica, Bibliometria Résumé : Avec le développement considérable des systèmes informatiques, la mise en relation de sources d’informations toujours plus importantes devient un des objectifs clés pour l’analyse informationnelle et le développement des systèmes d’information. Cet article présente la méthodologie de la mise en relation, grâce à l’utilisation de la classification par domaines scientifiques de l’ISI, de deux bases bibliographiques, la base PASCAL et le Science Citation Index Expanded (SCIE). L’analyse, par des méthodes bibliométriques, de la production scientifique brésilienne des deux bases au cours de la période allant de 1998 à 2002, a permis l’élaboration d’indicateurs à haute valeur ajoutée. Enfin, ce travail s’inscrit dans le cadre de la réalisation de l’annuaire statistique de la FAPESP1 : « Indicadores de Ciência, Tecnologia e Inovação em São Paulo – 2003 » et dont la publication est prévue pour la fin de l’année 2004. 1 Fundação de Amparo à Pesquisa do Estado de São Paulo (Brésil) 1 Introduction La mondialisation et le développement fulgurant des technologies de l’information et de la communication ont généré ces dernières années une augmentation constante de la masse d’information et une accélération des phénomènes d’ordre économiques et politiques. L’instabilité croissante qui en résulte a provoqué de profondes mutations dans l’organisation des entreprises qui ont de fait développé des systèmes de veille stratégique et scientifique pour améliorer leur compétitivité. Dans ce contexte, la connaissance scientifique et technologique, au même titre que la connaissance de l’environnement, des marchés ou des concurrents, s’est révélée primordiale pour rendre la prise de décision plus efficiente. La production d’information à haute valeur ajoutée est donc primordiale et entraîne le développement de nouvelles méthodes d’extraction et d’analyse des données qui aboutissent, le plus souvent, à l’élaboration d’indicateurs. Ces derniers, par leur diversité, permettent de construire des représentations compréhensibles de manifestations toujours plus complexes et d’affiner, par la même, la perception et l’analyse des décideurs. Aussi, pour leur construction, l’utilisation commune de plusieurs sources d’information s’avère indispensable pour élargir le champ de leur description. Aussi, avec le développement considérable des systèmes informatiques, la mise en relation de sources d’informations toujours plus importantes, des bases de données à plusieurs millions d’entrées par exemple, devient un des objectifs clés pour l’analyse informationnelle et le développement des systèmes d’information. Cet article présente la méthodologie de la mise en relation, par la construction d’une table de descripteurs communs, de deux bases bibliographiques importantes, la base PASCAL2 et le Science Citation Index Expanded3 (SCIE). Nous décrirons donc, dans un premier temps, la méthodologie que nous avons suivie pour la mise en relation de ces deux bases bibliographiques (1), puis, nous exposerons quelques résultats de l’analyse bibliométrique des articles scientifiques publiés par des chercheurs brésiliens dans chacune des deux bases (2) afin de souligner l’importance de leur utilisation commune. 2 METHODOLOGIE 2.1 Les bases de données Les bases de données représentent des univers fermés. Il est donc possible de fabriquer des indicateurs à partir de plusieurs bases qui ne soient en aucunes mesures joignables. Pour travailler avec plusieurs bases de données, il est donc indispensable de dégager un langage commun. Si l’on regarde les bases de données de l’ISI4 et la base PASCAL, seuls les champs « contenants », c’est à dire qui décrive les références inclues dans les bases de données (journal de publication, affiliation, volume…), sont communs. Or, il est important de travailler sur des indicateurs de contenu (titre, mots clés, classification…) qui doivent également être rapprochables et comparables. La problématique de ce travail consiste, finalement, à fabriquer un vocabulaire commun qui permette de relier le contenu des deux bases. Les critères de sélection des périodiques, indexés dans les bases de données utilisées pour l’élaboration d’indicateurs de la production scientifique d’un pays, influence fortement les résultats de l’analyse [ZITT, 2003]. La description de la production scientifique du Brésil, finalité de ce travail, réalisée à partir de l’analyse bibliométrique de deux corpus de références extraits respectivement de la base PASCAL et du SCIE, présente donc deux visions complémentaires de la science au Brésil dans l’analyse des résultats. 2 Base de données produite par l’Institut National de l'Information Scientifique et Technique 3 Base de donnée produite par l’Institute for Scientific Information 4 Institute for Scientific Information (EUA) PASCAL est une base de données multidisciplinaire, multi affiliation et multilingue qui intègre, depuis 1973, de la littérature mondiale en Science, Technologie et Médecine. Elle est produite par l’INIST5 et compte aujourd’hui 14,7 millions de références indexées à partir 6000 titres de journaux internationaux. C’est l’unique base de données multidisciplinaire de taille comparable au SCIE qui, traditionnellement, complète la vision « américaine » de la science exprimée par les bases de l’ISI par une vision plus « européenne ». De même, le SCIE est une base de données multidisciplinaire et multi affiliation qui couvre, depuis 1945, les publications scientifiques mondiales, principalement dans les domaines des sciences exactes et des sciences biologiques. Elle est produite par l’ISI et indexe aux alentours de 6.068 périodiques scientifiques, ce qui représente plus de 26 millions d’articles scientifiques. Les visions apportées respectivement par ces deux bases de données sont complémentaires, car elles offrent des corpus de références différents pour l’analyse de mêmes phénomènes. Aussi, en admettant que la concordance des indicateurs produits par des bases différentes agit comme validation de l’analyse et que la discordance alerte sur la nécessité de la réalisation d’études complémentaires [JAGODZINSKI-SIGOGNEAU, 1991], la production d’indicateurs à partir de ces deux bases est donc plus fiable. 2.2 La collecte et le reformatage La collecte des données a été réalisée dans les deux bases de manière à recueillir l’ensemble de la production scientifique brésilienne de la période. 65066 références (31164 pour la période allant de 1998 à 2002) ont ainsi été extraites de l’ensemble de la base PASCAL contre 79.136 (période 1998 à 2002) pour le SCIE. Ont été pris en considération tous les articles dans lesquels au moins un auteur était affilié à une institution brésilienne au moment de la publication. La préparation des données, qui précède l’élaboration des indicateurs, a permis de normaliser l’ensemble des références (reformatage) et de les réorganiser dans de nouveaux champs de manière à optimiser leur analyse bibliométrique. Cette étape a été automatisée grâce à l’utilisation du programme Infotrans. 2.3 Quelle classification ? La segmentation de la production scientifique par domaines de connaissance est fondamentale pour la production d’indicateurs. Dans le cas de l’étude générale de la production scientifique d’un pays, cette classification doit être suffisamment large pour permettre de créer des macro indicateurs sur la globalité des références scientifiques considérées. Elle doit également être intégrée dans chacune des références scientifiques qui vont servir de données initiales pour l’analyse. Plusieurs classifications ont été prises en compte pour la réalisation de ce travail : • La National Science Fundation emploie, pour l’élaboration de son annuaire statistique, le « Science & Engineering Indicators » une classification qui segmente, en 9 grands domaines de connaissance, la production scientifique mondiale. La méthodologie employée pour élaborer cette classification, à partir des publications indexées dans les bases de l’ISI, n’étant pas disponible, nous n’avons pas pu l’employer pour la classification de nos corpus. • Une autre classification, moins générale, a été développée récemment pour l’élaboration des Essential Science Indicators (ESI)6, produit de l’ISI. Elle reste très générale puisqu’elle sectionne en 22 domaines la connaissance scientifique. • Le plan de classement développé par l’INIST pour le référencement des articles scientifiques est très complet puisqu’il associe à 8 grands domaines scientifiques une multitude de sous domaines. Mais les nombreuses modifications qu’il a subies rendent son utilisation impossible pour le classement de références scientifiques publiées au cours d’une longue période. Cela étant, il existe des différences importantes qui doivent être soulignées pour permettre, par la suite, une meilleure interprétation des indicateurs. La première différence concerne le mode de classification des données à l’intérieur de chaque base. L’INIST procède à la classification de chacune des 5 Institut National de l'Information Scientifique et Technique 6 www.isinet.com/products/evaltools/esi/ références, indépendamment les unes des autres. A l’inverse, les références des bases de données de l’ISI sont classées par l’intermédiaire de leurs journaux d’origine, indexés dans la base, et auxquels ont été attribués des domaines de connaissance. Ainsi, il est possible de rencontrer dans une même référence de PASCAL plusieurs items du plan de classements de l’INIST, auxquels se réfère cet article, alors qu’aux références du SCIE ne sera attribuée, dans la majorité des cas, qu’une classification introduite à partir du journal de publication. Pour établir la relation entre les deux bases, le plus simple est alors de considérer les mots-clés les plus génériques. Or, l’ISI décrit les journaux de publication, et non les articles, comme le fait la base PASCAL. La classification de ces journaux peut-être considérée dès lors comme le niveau de description le plus général des deux bases. C’est pourquoi nous avons retenu la classification de l’ESI comme classification pour les deux bases. Enfin, la description de chaque article du corpus de références de la base PASCAL (65066 références) par la classification de l’ESI revient à construire la table de relation thématique entre le SCIE et la base PASCAL, y compris pour les journaux de publication qui ne sont pas pris en compte dans les bases de données de l’ISI. 2.4 La classification des références Pour pouvoir comparer les indicateurs obtenus à partir des deux bases de données, il est nécessaire, pour les domaines de connaissance des références scientifiques, d’utiliser une classification commune. Mathématiques Medecine Sciences de la Terre Physique Génétique et Biologie moléculaire Science de la Vie et de la Nature Pharmacologie et Toxicologie Chimie Sciences de l'Univers Biologie et Biochimie Immunologie Ingénierie Informatique Neurosciences et Comportement Multidisciplinaire Sciences agricoles Psychiatrie et Psychologie Science des matériaux Sciences Sociales Ecologie Economie Microbiologie Source : Essentials Science Indicators - ISI, [2004] Tableau 1 : Classification ESI des domaines de connaissance La classification à 22 items de l’ESI (Tableau 1) semble la mieux adaptée à la réalisation de ce travail car il est possible, à partir des informations disponibles sur le site de l’ISI, de créer la liste de correspondances entre les journaux indexés dans le SCIE, et donc de leur ISSN, et la classification par grands domaines de connaissance. On peut ainsi intégrer, grâce à l’utilisation du programme Infotrans, cette classification à l’intérieur de chaque référence de la base de données. Or, il existe de nombreux journaux qui sont indexés à la fois dans PASCAL et dans le SCIE. Il est donc possible, pour ces journaux tout au moins, d’intégrer, dans les références de PASCAL, la classification de l’ESI déjà incorporée aux références du SCI. Il suffit pour cela de substituer, dans chaque référence, l’ISSN par la classification correspondante, comme cela se rencontre déjà dans le SCIE. Pour illustrer ce propos, sur la période de publication allant de 1998 à 2002, 26.379 registres, sur 31.164, ont été classifiés ainsi, soit environ 85% du corpus de références de PASCAL que nous avons utilisé pour faire l’étude de la production scientifique du Brésil. Mathématique Informatique Sciences de la Terre Sciences Agricoles Microbiologie Biologie et Biochimie Ecologie Pharmacologie et Toxicologie Science des Matériaux Ingénierie Science de la Vie et de la Nature Chimie Médecine Physique Neurosciences et Sciences du Comportement Classification SCIE Classification PASCAL ETAT CONDENSE : STRUCTURE ELECTRONIQUE, PROPRIETES ELECTRIQUES, MAGNETIQUES ET OPTIQUES. 0,30 0,00 0,02 0,00 0,01 0,04 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 PHARMACOLOGIE 0,00 0,09 0,03 0,02 0,00 0,00 0,05 0,24 0,00 0,01 0,02 0,01 0,00 0,00 0,00 PATHOLOGIE ETAT CONDENSE : STRUCTURE, PROPRIETES MECANIQUES ET THERMIQUES 0,00 0,14 0,00 0,02 0,00 0,00 0,00 0,00 0,00 0,00 0,08 0,00 0,00 0,00 0,00 ETAT CONDENSE 0,00 0,07 0,00 : STRUCTURE, 0,01 0,07 PROPRIETES 0,00 0,00 0,00 MECANIQUES 0,00 0,00 0,00 ET THERMIQUES 0,00 0,00 0,00 PHYSIQUE DOMAINES INTERDISCIPLINAIRES : SCIENCE DES MATERIAUX; RHEOLOGIE 0,15 0,00 0,01 0,00 0,06 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,02 AGRONOMIE 0,00 0,00 0,00 0,10 0,00 0,00 0,00 0,00 0,13 0,01 0,00 0,08 0,00 0,00 0,00 CHIMIE 0,02 0,00 0,20 0,01 0,05 0,04 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 ECOLOGIE 0,00 0,00 0,00 0,18 0,00 0,00 0,00 0,00 0,19 0,01 0,02 0,00 0,02 0,00 0,00 INFORMATIQUE 0,00 0,00 0,00 0,00 0,15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,31 0,01 MATHEMATIQUES 0,01 0,00 0,00 0,00 0,11 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,06 0,36 MICROBIOLOGIE 0,00 0,02 0,00 0,03 0,00 0,00 0,00 0,00 0,01 0,02 0,22 0,00 0,00 0,00 0,00 PHYSICOCHIMIE DES POLYMERES 0,02 0,00 0,18 0,00 0,01 0,04 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 BIOTECHNOLOGIE 0,00 0,00 0,02 0,02 0,00 0,00 0,00 0,00 0,04 0,26 0,04 0,01 0,00 0,00 0,00 CHIRURGIE 0,00 0,12 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 PHYSIQUE : SCIENCE DES MATERIAUX Source : Essentials Science Indicators - ISI, [2004] 0,05 0,00 0,02 0,00 0,01 0,17 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,10 0,00 0,01 0,00 0,10 0,03 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,02 0,01 Tableau 2 : Matrice partielle de corrélation entre la classification de PASCAL et du SCIE A partir de ces 26.379 références, nous avons construit, par l’utilisation du programme VantagePoint, la matrice de correspondance entre les deux classifications. Nous nous sommes limités aux six premiers caractères de la classification INIST pour réduire le nombre de formes à considérer. L’application de l’indice de Jacquard à l’ensemble des intersections de cette matrice a permis de déterminer la corrélation entre chaque item de chaque classification. Ainsi, pour chaque terme de la classification INIST, le meilleur indice de Jacquard a permis de déterminer l’item de la classification ESI à associer. La matrice de corrélation entre les deux classifications est présentée partiellement dans le Tableau 2. Enfin, et sur l’ensemble du corpus de références extraites de PASCAL, la classification ESI a été intégrée de nouveau, mais, cette fois-ci, à partir directement des items du plan de classement de l’INIST. Seules 60 références, sur les 31.164 de notre corpus n’ont pas été classées. Elles correspondent à des codes de classement qui n’ont jamais été en corrélation avec la classification ESI et ne représentent qu’une infime partie qui n’entrera pas en considération pour l’élaboration des indicateurs. 2.5 Production des indicateurs De très nombreux indicateurs ont été élaborés à partir des données extraites de la base PASCAL et du SCIE. Seules quelques figures et tableaux vous seront présentés dans ce travail, ils illustrent en effet l’importance de l’utilisation de plusieurs bases pour la réalisation d’une même étude. Tous ces indicateurs ont été produits soit directement à partir du programme VantagePoint que nous avons utilisé pour construire les matrices, soit par le biais du logiciel Excel de la Suite Microsoft Office 2003, pour la réalisation des représentations graphiques. 3 RESULTATS L’objectif de cette présentation n’est pas de faire la description de la production scientifique brésilienne. Nous exposerons, d’une part, les résultats de l’intégration de la classification de l’ESI dans les références de la base PASCAL et, d’autre part, quelques indicateurs qui soulignent l’importance de l’utilisation d’une même classification dans deux bases de données différentes. 3.1 Intégration de la classification ESI Le tableau 3 présente la matrice de relation entre la classification ESI intégrée directement à partir des journaux de publication et intégrée par l’intermédiaire du plan de classement de l’INIST. Seules les références intégrant les deux classifications ont été prises en considération dans cette matrice. A un item de la classification intégrée par l’intermédiaire des journaux de publication sont associés plusieurs domaines scientifiques issus de l’intégration de la classification à partir des plans de classement de l’INIST. Deux éléments fondamentaux permettent d’expliquer cette différence. D’une part, chaque référence de la base PASCAL est classifiée indépendamment. Par conséquent, à chaque référence d’un même périodique ne sont pas forcement associés les mêmes items de la classification. D’autre part, l’INIST attribue aux références de la base PASCAL un ou plusieurs items de son plan de classement, ce qui explique l’augmentation du nombre de références associées à un même domaine scientifique, mais aussi la possibilité, pour un article référencé dans la base PASCAL, d’être répertorié par plusieurs items de la classification par domaines scientifique de l’ESI. 9191 CLINICAL MEDICINE 3 4752 CHEMISTRY 4 3970 PLANT & ANIMAL SCIENCE 5 3902 ENGINEERING 6 2280 MATERIALS SCIENCE 7 1852 NEUROSCIENCE & BEHAVIOR 8 1844 PHARMACOLOGY & TOXICOLOGY 9 1828 ENVIRONMENT/ECOLOGY 10 1772 BIOLOGY & BIOCHEMISTRY 11 1611 MICROBIOLOGY 12 1329 AGRICULTURAL SCIENCES 13 1304 GEOSCIENCES 14 1077 COMPUTER SCIENCE 15 782 MATHEMATICS 16 734 IMMUNOLOGY 17 712 SPACE SCIENCE 18 517 MOLECULAR BIOLOGY & GENETICS 19 439 SOCIAL SCIENCES, GENERAL 20 351 PSYCHIATRY/PSYCHOLOGY 21 73 MULTIDISCIPLINARY 22 30 ECONOMICS & BUSINESS 17 18 977 862 9220 8 896 23 922 740 3 1 1 101 100 44 6415 15 134 56 22 132 68 13 146 392 31 7 1350 282 138 23 331 1582 94 96 129 84 2 7 2 359 1 59 53 249 43 2 91 22 37 3 24 12 492 2 2840 77 523 322 47 5 172 1570 173 17 1134 3 544 90 315 1450 5 19 3 7 1559 62 70 290 176 8 3 8 2 6 6 14 32 78 21 74 715 225 279 51 10 161 91 147 1182 138 116 4 5 562 2 162 6 1779 175 33 2 11 139 227 58 11 1 1 2 56 53 44 1889 21 21 16 120 97 166 97 3 5 4 13 68 22 119 64 1018 9 4 2 1 2 2 822 45 32 362 1 12 21 2 1175 48 1 35 2 7 4 2 2 5 1 13 2 57 11 3 4 45 24 84 41 57 182 1 305 2 60 1067 19 2 89 275 7 184 1 1 14 20 76 893 8 17 2 584 4 5 1 129 64 47 2 13 56 35 13 805 37 3 325 17 1 17 6 260 6 1 9 1 3 70 462 13 162 21 9 40 62 17 117 72 12 1 1 173 692 25 13 20 3 8 42 11 108 2 2 16 264 14 SOCIAL SCIENCES, GENERAL 16 1200 SPACE SCIENCE 15 1363 AGRICULTURAL SCIENCES 14 1572 MOLECULAR BIOLOGY & GENETICS 13 1834 MATHEMATICS 12 1861 MICROBIOLOGY 11 1867 GEOSCIENCES 10 2180 NEUROSCIENCE & BEHAVIOR 9 2649 COMPUTER SCIENCE 8 3227 PLANT & ANIMAL SCIENCE 7 3284 ENGINEERING 6 3690 BIOLOGY & BIOCHEMISTRY 5 4179 PHARMACOLOGY & TOXICOLOGY 4 4301 CLINICAL MEDICINE 3 4331 MATERIALS SCIENCE 2 1 2 8183 ENVIRONMENT/ECOLOGY 10513 PHYSICS 1 12051 CHEMISTRY 1 # Records CLASSIFICAÇÃO # Records PHYSICS !I 8 306 120 74 2 5 12 17 41 23 9 1 29 1 11 685 6 6 10 201 1 1 1 4 1 Tableau 3 : Matrice de relation entre la classification ESI intégrée directement à partir des journaux de publication et intégrée par l’intermédiaire du plan de classement de l’INIST 3.2 Vers un système d’information transversal La construction de la table de relation entre le SCIE et la base PASCAL permet de relier deux sources d’informations académiques intéressantes et complémentaires. Cette base de données ayant déjà été reliée à la Classification Internationale des Brevets [FAUCOMPRE, QUONIAM 1997], et à la terminologie des codes de classification du registre d’entreprises Kompass, elle se place au centre d’un véritable système d’information transversal et performant auquel devrait certainement pouvoir se greffer d’autres sources d’information, au niveau national mais également international. 3.3 Indicateurs de la production scientifique brésilienne Nº de p u b lic a ç õ e s / á re a d o c o n h e c im . 1660 F ís ic a 1121 M e d ic in a 650 E c o lo g ia e m e io a m b ie n te 634 Q u ím ic a 574 F a rm a c o lo g ia e T o x ic o lo g ia 557 C iê n c ia d o s m a te r ia is N º d e p u b lic a ç õ e s p o r r e g iã o g e o g r á fic a 3 874 855 S u d e s te T o ta l USP U N IC A M P UNESP T o ta l USP U N IF E S P UFRJ T o ta l USP U N IC A M P UFV T o ta l USP UFRJ U N IC A M P T o ta l USP U N IF E S P UFRJ T o ta l USP UFSCAR U N IC A M P Sul 957 581 N o rd e s te 185 UFRGS UFSC UFPR 632 192 UFPE UFC UFPB 97 UFRGS UFPR UFSC 281 355 331 268 11 48 9 UFRR UFAM 18 UFG UNB 39 UFPE UFC UFPB 21 IN P A EMBRAPA UNB UFC UFPE UECE 54 UFRGS UFPR UFSC 54 127 103 5 IN P A UFAC EMBRAPA UNB UFMG UFPE UFRN UFPB UFRGS UFSC UFPR 33 24 75 10 UFAM UFRR UNB UFG UFMT UFPE UFPB UFC UFRGS UFSC UFPR 41 42 106 87 N o rte UNB UFG P U C B R A S IL . UFBA UFC UFPE UFRGS UFSC UFSM 266 C e n tro -o e s te 6 U N IP A R 10 UNB EMBRAPA UFG 4 IN P A Tableau 4 : Nombre de publications et principales institutions brésiliennes par région et domaine de connaissance (extrait) Le tableau 4 présente un indicateur qui a été élaboré à partir de la base PASCAL pour l’année 2002. Il relève, pour chaque région brésilienne, le nombre de publications et les trois principales institutions se rapportant à chaque domaine de connaissance. Cet indicateur permet de souligner l’importance du reformatage des données puisqu’à partir d’un corpus de 31.164 références, il est possible de produire un méso indicateur permettant de considérer l’importance des propres institutions dans la production scientifique brésilienne par région et par domaine scientifique. Le tableau 5 mesure le nombre de publications par domaine scientifique dans les corpus extraits de la base PASCAL et du SCIE. Dans chacune des deux bases de données, l’analyse du nombre de publications par domaine scientifique offre des résultats très différents. S’il est évident d’affirmer, analysant les résultats obtenus à partir des deux bases, que la majorité des publications brésiliennes indexées sont répertoriées dans les domaines de la physique, de la chimie et de la médecine, il est plus difficile de déterminer laquelle de ces trois disciplines englobe le plus de publications. Finalement, cet indicateur est important pour démontrer qu’il n’existe pas qu’un seul résultat, mais plusieurs qui doivent être regroupés pour permettre de décrire au mieux un phénomène. Dans le cas des bases de données PASCAL et le SCIE, par exemple, la couverture scientifique de chacune d’elle varie puisqu’elles indexent des journaux pour partie différents. Cela engendre la production de résultats variables, qui ne s’opposent pas, mais qui, au contraire, sont complémentaires. Enfin, Pour comprendre plus en détail ces indicateurs, il serait important de mener, parallèlement, d’autres études, à partir de sources d’information encore différentes, pour pouvoir compléter l’interprétation de ces résultats. D’autant plus que la rigueur méthodologique qui a accompagné cette analyse ne permet pas de supposer l’existence de biais lors des différents traitements. La multiplication des approches pour l’étude d’un même phénomène, alors observé selon différents points de vue, permet, finalement, d’en améliorer son analyse. Science Citation Index Expanded - Web of Science* Pascal via Dialog On Disc** ÁREAS DE CONHECIMENTO Medicina 2 848 Física Física 1 052 Medicina Química 970 Química Ciências dos animais e plantas 573 Farmacologia e toxicologia Biologia e bioquímica 539 Ciência dos materiais Engenharia 388 Ecologia e meio ambiente Neurociência e comportamento 378 Biologia e bioquímica Ciência dos Materiais 282 Geociências Biologia molecular e genética 212 Neurociência e comportamento Ciências agrárias 191 Microbiologia 642 444 247 230 207 170 159 151 149 109 *Fonte : SCIE - ISI via Web of Science, [2004] **Fonte : Pascal - INIST via Dialog On Disc, [2004] Tableau 5 : Nombre de publications par domaine scientifique pour l'année 2002. Base SCIE et PASCAL 4 CONCLUSION Dans cet article, nous proposons une méthodologie pour l’élaboration de la table de relation entre le SCIE et la base PASCAL qui se place, finalement, au centre d’un véritable système d’information performant et transversal allant de la recherche fondamentale, aux secteurs industriels et appliqués. De plus, en décrivant le système qui permet de mettre en relation des bases de données de plusieurs millions de registres, cet article ouvre la voie à l’élargissement des systèmes d’information pour l’élaboration d’indicateurs toujours plus complets. Ce travail s’inscrit dans le cadre de l’analyse de la production scientifique brésilienne au cours de la période allant de 1998 à 2002 dont les résultats seront publiés dans l’annuaire statistique de la FAPESP « Indicadores de Ciência, Tecnologia e Inovação em São Paulo – 2003 » et dont la publication est prévue pour la fin de l’année 2004. Enfin, nous remercions chaleureusement l’INIST et DIALOG BRAZIL sans qui ce travail n’aurait jamais pu voir le jour. 5 Bibliographie CNPq. Diretório diretório dos Grupos de Pesquisa. Disponible à l’adresse <http://lattes.cnpq.br/diretorio/ >. Consultado em 10/01/2004 COURTIAL, J. P. Introduction à la scientométrie: de la bibliométrie à la veille technologique. Paris: Anthropos, 1990. EC. European Comission. Directorate-General for Research. Third European Report on Science & Technology Indicators-2003. Disponible à l’adresse <ftp://ftp.cordis.lu/pub/indicators/docs/3rd_report.pdf> FAPESP. Indicadores de C & T e inovação em São Paulo – 2001. organização: Francisco Romeu Landi. São Paulo: Fapesp, 2002, p.488 FARIA, L. I. L.; QUONIAM, L.; MUGNAINI, R. Elementos de comparação das bases de dados Pascal e Scisearch. ISDM, n.5, 13p, Dez/2002. Disponible à l’adresse http://isdm.univ-tln.fr/articles/num_archives.htm FAUCOMPRE, P.; QUONIAM, L.; DOU, H. The function-application relation through a link between classification and indexing. World Patent Information, England, Vol. 19, No. 3, pp. 167-174, 1997. INIST. Pascal – Description. Disponible à l’adresse <http://www.inist.fr/en/PRODUITS/pascal.php> Consultado em 15/01/2004. JAGODZINSKI-SIGOGNEAU, M. et al. Scientific innovation in bibliographical databases: a comparative-study of the Science Citation Index and the Pascal Database. Scientometrics, v. 22, n. 1, p. 65-82, 1991. LUWELL, M. Is the Science Citation Index US-biased? In: CONFERENCE OF THE INTERNATIONAL SOCIETY FOR SCIENTOMETRICS AND INFORMETRICS, 7, 1999, Colima, MX. Proceedings... Colima, MX: International Society for Scientometrics and Informetrics. 1999. 303-312. NSB. National Science Board. Science and Engineering Indicators. Arlington, VA: National Science Foundation, 2002 OST. Observatoire des Sciences et des Techniques, Les chiffres clés de la science et de la technologie, Economica, 2003 ROSTAING, H. La bibliométrie et ses techniques. Collection "Outils et méthodes", co-édition sciences de la societé et CRRM - Centre de Recherche Rétrospective de Marseille. Marseille. 1996 SCIELO. Disponível em <http://www.scielo.br>. Consultado em 25/01/2003. SPINAK, E. Dicionário enciclopédico de bibliometría, cienciometría e informetría. Caracas: UNESCO CII/II, 1996. SPINAK, E. Indicadores cienciométricos. Ciência da Informação, Brasília, DF, v. 27, n. 2, p. 141-148, 1998. TESTA, J. A base de dados ISI e seu processo de seleção de revistas. Ciência da Informação, Brasília, DF, v. 27, n. 2, p. 233-235, 1998. VELHO, L. Cuidado com os rankings científicos. Disponible à l’adresse <http://www.prometeu.com.br>. Dernier accès le 20 août 2001. VIOTTI, E.B. e MACEDO, M.M. (org.) - Indicadores de C & T e inovação no Brasil. Campinas, SP: Editora UNICAMP, 2003, p.614 ZHU, D.; PORTER, A. L. et al. A process for mining science & technology documents databases illustred for the case of knowledge discovery and data mining. Ciência da Informação, Brasília, DF, v. 28, n.1, jan. 1999. ZITT, M.; RAMANANA-RAHARY, S.; BASSECOULARD. E. - Correcting glasses help fair comparisons in international science landscape: Country indicators as a function of ISI database delineation. Scientometrics. Netherlands, v. 56, n. 2, pp 259-282, 2003.
Documentos relacionados
Zélia Chueke
fécondent mutuellement1 ». Le profit tiré par les deux pays de ces échanges est incontestable et pourtant, en ce qui concerne la production musicale, la majorité des publications cherche plutôt l’i...
Leia mais