Techniques et étude du Web
L’exploration et l’étude du web sont au cœur de ce domaine. La rubrique présente aussi des outils pour la création de sites web scientifiques.
Le World Wide Web (www) est né en 1989 au CERN. Il ouvre un espace nouveau pour la diffusion de la recherche ; les premiers sites web scientifiques paraissent dès 1990. À partir de 1997, leur mise en place est simplifiée par l’apparition de systèmes de gestion de contenu (content management system, CMS) comme Drupal (2001), le CMS français Spip (2001) et WordPress (2003). La publication de sites, blogs et collections diverses (articles, photographies, cartes...) prend son envol.
Le web est aussi une source d’information pour la recherche, permettant la collecte de données, de publications et de contenus multimédias. Des outils spécialisés facilitent la capture, l’organisation et l’analyse de ces ressources.
Le web constitue par ailleurs un terrain d’étude en soi. Il est exploré dans le cadre d’enquêtes sur les dynamiques politiques ou des phénomènes sociaux et culturels. En 2001, l’étude de controverses mene à la création des premiers logiciels dédiés à l’exploration des réseaux sociaux et médias. L’intelligence artificielle augmente de manière notable les capacités de telles applications et plateformes.
Sous-domaines
- Web mining /BOUCLE_verif_articles1>
- Veille Internet /BOUCLE_verif_articles1>
- Web scraping /BOUCLE_verif_articles1>
- Analyse de controverses /BOUCLE_verif_articles1>
- Création de sites web /BOUCLE_verif_articles1>
Web mining
-
GDELT
Analyser et vérifier la véracité d’événements signalés dans les médias à l’échelle mondiale
Application web, Jeu de données | Logiciel gratuit
GDELT enregistre dans une base de données les événements signalés dans les médias imprimés, radiodiffusés et en ligne dans plus de 100 langues et dans tous les pays du monde. Ses archives remontent au 1er janvier 1979 et sont mises à jour toutes les 15 minutes. L’accès aux données est gratuit et ouvert. Des outils de cartographie interactive et tableaux de bord analytiques sont disponibles.
-
Gephi
Identifier, analyser et visualiser des réseaux
Logiciel | Logiciel open source/libre
Gephi est un outil d’analyse et de représentation de réseaux simple, puissant et flexible. Il permet de créer et d’étudier des données statistiques à l’aide de graphiques. L’utilisateur peut interagir avec la représentation et manipuler ses structures, formes et couleurs.
-
Google Trends
Explorer les requêtes Google faites par les internautes
Application web | Logiciel gratuit
Google Trends est un outil gratuit qui permet de connaître et d’analyser les requêtes faites sur le moteur de recherche Google. Il est possible de visualiser leur évolution dans le temps et par pays, région ou ville. L’onglet "Tendances" permet de visualiser les sujets les plus recherchés en temps réel.
-
Hyphe
Collecter, curer et visualiser les données et relations d’une collection de sites web
Logiciel | Logiciel open source/libre
Hyphe permet de constituer un corpus de pages web sur un sujet spécifique et d’identifier les liens entre elles. Il est possible de créer des cartographies interactives de ces réseaux. Les sites web peuvent être regroupés en entités et les acteurs catégorisés. De nouvelles entités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus.
-
Media Cloud
Analyser la couverture médiatique d’un sujet à l’échelle mondiale
Application web | Logiciel open source/libre
Media Cloud surveille et archive les articles de milliers de sources d’actualités en ligne, incluant des médias internationaux, nationaux et locaux. La plateforme permet d’effectuer des recherches basées sur des mots-clés, des expressions ou des sujets spécifiques.
Veille Internet
-
Feedly
Centraliser et gérer les flux RSS pour une veille Internet efficace
Application web | Freemium/Shareware
Feedly est un agrégateur de flux RSS qui permet de suivre les nouvelles publications sur des sites web en regroupant les informations en un seul endroit. Il permet de s’abonner à des fils RSS, de visualiser les articles qu’ils annoncent et d’organiser les différents fils en leur attribuant des catégories.
Web scraping
-
Beautiful Soup
Extraire des données de pages web
Bibliothèque | Logiciel open source/libre
Beautiful Soup permet d’extraire des données d’une page web ou d’un document XML. Il est possible d’automatiser la récupération et le traitement de données en le combinant avec des bibliothèques comme requests. Beautiful Soup nécessite un environnement Python pour fonctionner.
-
ClipGrab
Télécharger et convertir des vidéos du web
Logiciel | Logiciel open source/libre
ClipGrab est une application gratuite et simple d’emploi qui permet de télécharger des vidéos de conférences, séminaires et autres à partir de plateformes comme YouTube, Vimeo et Dailymotion. Elle permet de télécharger plusieurs vidéos en même temps et récupère automatiquement les métadonnées des fichiers.
-
Hyphe
Collecter, curer et visualiser les données et relations d’une collection de sites web
Logiciel | Logiciel open source/libre
Hyphe permet de constituer un corpus de pages web sur un sujet spécifique et d’identifier les liens entre elles. Il est possible de créer des cartographies interactives de ces réseaux. Les sites web peuvent être regroupés en entités et les acteurs catégorisés. De nouvelles entités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus.
-
Octoparse
Extraire des données de pages web à l’aide d’une interface graphique
Logiciel | Freemium/Shareware
Octoparse est un outil de web scraping qui permet d’extraire des données d’une page web sans nécessiter de compétences avancées en programmation. Il offre une interface conviviale et des fonctionnalités puissantes pour automatiser la collecte et l’organisation des données.
-
Scrapy
Extraire des données à grande échelle du web
Application web | Logiciel open source/libre
Scrapy fournit un ensemble d’outils permettant de collecter et de structurer de manière automatisée des informations issues de pages web. Il nécessite un environnement Python pour fonctionner.
Analyse de controverses
-
CorTexT
Analyser et visualiser des corpus et ensembles de données complexes
Application web | Logiciel open source/libre
La plateforme CorText propose des outils pour l’analyse et l’exploitation de données volumineuses générées par les nouvelles technologies de l’information et de la communication. La plateforme est capable de traiter des données non structurées pour identifier et visualiser les relations entre concepts et acteurs.
-
GDELT
Analyser et vérifier la véracité d’événements signalés dans les médias à l’échelle mondiale
Application web, Jeu de données | Logiciel gratuit
GDELT enregistre dans une base de données les événements signalés dans les médias imprimés, radiodiffusés et en ligne dans plus de 100 langues et dans tous les pays du monde. Ses archives remontent au 1er janvier 1979 et sont mises à jour toutes les 15 minutes. L’accès aux données est gratuit et ouvert. Des outils de cartographie interactive et tableaux de bord analytiques sont disponibles.
-
Gephi
Identifier, analyser et visualiser des réseaux
Logiciel | Logiciel open source/libre
Gephi est un outil d’analyse et de représentation de réseaux simple, puissant et flexible. Il permet de créer et d’étudier des données statistiques à l’aide de graphiques. L’utilisateur peut interagir avec la représentation et manipuler ses structures, formes et couleurs.
-
Google Trends
Explorer les requêtes Google faites par les internautes
Application web | Logiciel gratuit
Google Trends est un outil gratuit qui permet de connaître et d’analyser les requêtes faites sur le moteur de recherche Google. Il est possible de visualiser leur évolution dans le temps et par pays, région ou ville. L’onglet "Tendances" permet de visualiser les sujets les plus recherchés en temps réel.
-
Issue Crawler
Identifier des réseaux d’acteurs sur le web
Application web | Logiciel open source/libre
Issue Crawler permet d’identifier un réseau d’acteurs à travers les informations et liens qu’ils partagent. Il sert à dresser des cartographies qui permettent de cerner les caractéristiques des échanges sur un sujet, en différenciant entre type d’acteurs, intensité de l’engagement et type de relation.
-
Media Cloud
Analyser la couverture médiatique d’un sujet à l’échelle mondiale
Application web | Logiciel open source/libre
Media Cloud surveille et archive les articles de milliers de sources d’actualités en ligne, incluant des médias internationaux, nationaux et locaux. La plateforme permet d’effectuer des recherches basées sur des mots-clés, des expressions ou des sujets spécifiques.
Création de sites web
-
Heurist
Créer et publier des bases de données sur le web
Application web | Freemium/Shareware
Heurist est une plateforme en ligne permettant de créer des bases de données et de les publier sur un site web sans nécessiter des compétences en programmation. Destinée aux sciences humaines et sociales, la plateforme propose des fonctionnalités de visualisation des données, dont la création de cartographies et de chronologies.
-
Omeka
Créer des sites web scientifiques présentant des collections numériques
Application web | Logiciel open source/libre
Omeka est une plateforme open source dédiée à la gestion, à la description et à la mise en ligne de collections numériques. Elle est utilisée dans le domaine des bibliothèques, archives et musées pour valoriser des fonds documentaires et patrimoniaux. Oreka a été conçue pour être utilisée sans connaissances techniques approfondies. Des thèmes et plugins permettent d’adapter le site aux besoins spécifiques d’un projet.