Accueil > Domaines > Données et programmation

Données et programmation

La science des données vise à extraire et analyser des connaissances à partir de grandes quantités de données (big data).

L’apparition des bases de données (1964), puis d’Internet (1990) mène l’émergence de ce domaine, qui s’est d’abord appuyé sur les mathématiques et les statistiques.

À partir des années 2000, les acteurs du web commencent à avoir recours à l’intelligence artificielle pour analyser des informations captées sur le web, souvent à des fins commerciales. L’IA devient rapidement une technique indissociable de l’exploitation des big data. Leur collecte s’intensifie avec la généralisation des téléphones mobiles et objets connectés.

L’exploitation des données repose sur l’emploi de langages de programmation tels que Python ou Java. L’utilité de ces langages dépasse toutefois ce cadre. Ils sont mobilisés dans de nombreux projets en combinaison aux langages propres à la gestion de bases de données et au développement web.

Sous-domaines

Bases de données

  • Dataset Search

    Trouver des collections de données sur le web

    Application web | Logiciel gratuit

    Dataset Search est un moteur de recherche développé par Google qui donne accès à une grande variété de collections de données utiles pour la recherche. Elles proviennent de sources diverses sur le web, notamment de gouvernements, d’institutions académiques, d’organisations de recherche et d’entreprises.

  • Heurist

    Créer et publier des bases de données sur le web

    Application web | Freemium/Shareware

    Heurist est une plateforme en ligne permettant de créer des bases de données et de les publier sur un site web sans nécessiter des compétences en programmation. Destinée aux sciences humaines et sociales, la plateforme propose des fonctionnalités de visualisation des données, dont la création de cartographies et de chronologies.

  • Notion

    Gérer ses tâches, notes et projets dans un espace de travail personnalisable

    Logiciel, Application web | Freemium/Shareware

    Notion est une application polyvalente dédiée à la prise de notes, l’organisation du travail et la gestion de projet. Elle permet de créer des espaces de travail personnalisés pour chaque projet ou sujet, avec des notes, tâches et bases de données. De nombreuses extensions permettent d’importer des données d’applications tierces (Zotero, Canvas, Github...) et du web.

Big Data

  • GDELT

    Analyser et vérifier la véracité d’événements signalés dans les médias à l’échelle mondiale

    Application web, Jeu de données | Logiciel gratuit

    GDELT enregistre dans une base de données les événements signalés dans les médias imprimés, radiodiffusés et en ligne dans plus de 100 langues et dans tous les pays du monde. Ses archives remontent au 1er janvier 1979 et sont mises à jour toutes les 15 minutes. L’accès aux données est gratuit et ouvert. Des outils de cartographie interactive et tableaux de bord analytiques sont disponibles.

  • Google Trends

    Explorer les requêtes Google faites par les internautes

    Application web | Logiciel gratuit

    Google Trends est un outil gratuit qui permet de connaître et d’analyser les requêtes faites sur le moteur de recherche Google. Il est possible de visualiser leur évolution dans le temps et par pays, région ou ville. L’onglet "Tendances" permet de visualiser les sujets les plus recherchés en temps réel.

  • Kaggle

    S’initier à la science des données et trouver des données

    Application web, Langage, Jeu de données, Script, Bibliothèque | Freemium/Shareware

    Kaggle est une entreprise de Google qui propose une plateforme communautaire pour les passionnés de la science des données et l’apprentissage automatique (machine learning). Elle permet à ses utilisateurs à participer à la résolution de problèmes, à partager leurs méthodes et à se former. Kaggle propose une importante collection de données en libre accès sur des sujets variés ainsi que des outils pour l’analyse de données et la création de modèles.

  • Media Cloud

    Analyser la couverture médiatique d’un sujet à l’échelle mondiale

    Application web | Logiciel open source/libre

    Media Cloud surveille et archive les articles de milliers de sources d’actualités en ligne, incluant des médias internationaux, nationaux et locaux. La plateforme permet d’effectuer des recherches basées sur des mots-clés, des expressions ou des sujets spécifiques.

Data Mining

  • Kaggle

    S’initier à la science des données et trouver des données

    Application web, Langage, Jeu de données, Script, Bibliothèque | Freemium/Shareware

    Kaggle est une entreprise de Google qui propose une plateforme communautaire pour les passionnés de la science des données et l’apprentissage automatique (machine learning). Elle permet à ses utilisateurs à participer à la résolution de problèmes, à partager leurs méthodes et à se former. Kaggle propose une importante collection de données en libre accès sur des sujets variés ainsi que des outils pour l’analyse de données et la création de modèles.

Entrepôt de données

  • Nakala

    Stocker et disséminer les données de la recherche en SHS

    Application web | Logiciel open source/libre

    NAKALA est l’entrepôt national pour les données de recherche en SHS. Il offre un espace pour le stockage, la diffusion et le partage des données dans le respect des principes FAIR : Faciles à trouver, Accessibles, Interopérables, Réutilisables.

Programmation

  • Anaconda

    Utiliser un environnement de développement pour la programmation

    Logiciel | Freemium/Shareware

    Anaconda est un environnement de développement intégré (IDE) open source qui supporte de nombreux langages de programmation, dont Python, R, C/C+, PHP, Java et bien d’autres. Son gestionnaire de bibliothèques Conda facilite l’ajout de nouvelles fonctionnalités et bibliothèques. Anaconda est employé pour la programmation avec Python, l’analyse de données, le machine learning et la science des données.

  • Eclipse IDE

    Utiliser un environnement de développement pour concevoir des programmes

    Logiciel | Logiciel open source/libre

    Eclipse est un environnement de développement intégré (IDE) libre et open source qui supporte de nombreuses langages de programmation, dont Java, Python, C/C+, PHP et bien d’autres. Il repose sur une architecture modulaire qui permet d’ajouter des fonctionnalités et bibliothèques.

  • RStudio

    Utiliser un environnement de développement pour le traitement de données et l’analyse statistique

    Logiciel | Logiciel open source/libre

    RStudio est un environnement de développement intégré (IDE) open source dédié à la programmation en "R", langage spécialisé dans le traitement des données, la statistique et la visualisation. Il propose une interface unifiée pour coder, analyser, visualiser et documenter des projets de recherche et de science des données.

Illustration : Markus Spiske, Unsplash, licence Unsplash.