Cette formation a pour objectifs d’apprendre à programmer pour gagner du temps et à trouver des informations inaccessibles au grand public.
Cinq jours du lundi 30 septembre au vendredi 4 octobre 2024 – Rechercher des noms dans 6000 pages de texte, agréger des données de différentes sources, extraire des chiffres d’une série de PDF : la programmation permet de réaliser en quelques heures des tâches infiniment plus longues avec des logiciels grand public.
Le langage Python, gratuit et sous licence libre, est conçu pour être facile d’accès. Il est doté de bibliothèques – du code informatique écrit par la communauté de ses utilisateurs, en grande partie des chercheurs – permettant de traiter les données de manière très efficace.
Cette formation donne le bagage nécessaire pour traiter des données avec Python et progresser seul·e par la suite. Des techniques de collecte, de filtrage et de contrôle des données sont présentées dans le contexte spécifique de l’enquête et de l’investigation journalistiques. Apprendre à programmer avec un angle et dans une perspective journalistiques et éviter les pièges propres à affecter la crédibilité d’un média constituent les points forts de cette formation.
Prérequis
- Aucune expérience en programmation n’est requise pour le cours
- Des connaissances de base en statistique
- Un ordinateur, de préférence sous Mac OS ou Linux, sur lequel l’apprenant·e a les droits administrateurs
- Le logiciel Anaconda, gratuit et en licence libre, devra être installé un mois avant le cours. Des instructions seront envoyées.
Objectifs
Le cours «Introduction au datajournalisme» est un cours intensif orienté sur la pratique.
Il est appris:
– à identifier des jeux de données intéressants
– à structurer des données pour permettre leur analyse
– à écrire vous-mêmes des programmes en Python
– à identifier des erreurs de programmation et à résoudre des problèmes
Sous certaines conditions, ces cinq jours de cours peuvent servir de passerelle et être crédité pour le suivi dès le 6e jours du CAS en datajournalisme du MAZ, à Lucerne.
Programme
Jour 1
Trouver des sujets et planifier des enquêtes data
– Quand coder fait gagner des semaines… ou mène dans le mur: bons et mauvais exemples
– Prise en main du terminal
– Où trouver des données
– Utilisation avancée d’Excel
– Écrire son premier programme en Python
Jour 2
Analyser des données «propres»
– Penser comme un ordinateur
– Introduction à GitHub
– Analyser des données avec Pandas
– Visualiser les données avec Matplotlib et Seaborn
Jour 3
Extraire des données
– Traiter des données (suite)
– Créer ses propres données à partir de sites Web (scraping)
– Compulser des PDF
Jour 4
Approfondissement – données
– Manipuler des séries temporelles
– Les «mauvaises» données: comment s’en sortir, exemples
– Gérer les différents supports et formats de données
– (Si intérêt) scraping, suite
Jour 5
Approfondissement – contribuer à des projets
– Collaborer avec GitHub
– Traiter des données textuelles: RegEx, Spacy
– Eviter les pièges liés aux données: gestion des projets data
– (Si intérêt) traiter des données géographiques
Les formateurs.trices
Cécile Denayrouse, journaliste data à la RTS
Fanny Giroud, journaliste data à 24 Heures
Paul Ronga, journaliste data chez Tamedia, responsable du cours