Depuis la création de ce blogue, j’ai essayé (notamment ici, ici et ici) de définir ce que je comptais apprendre et comment j’allais m’y prendre. Mais je réalise que c’est encore assez flou pour plusieurs d’entre vous, alors je vais essayer de préciser encore un peu le portrait. Une branche de la science des données me sera utile pour illustrer mon propos : le journalisme de données.

Essentiellement, les journalistes de données sont des analystes de données qui vulgarisent leurs résultats pour le grand public, en mettant en récit les données. Contrairement aux analystes de données qui travaillent en entreprise, qui disposent le plus souvent d’un énorme bassin de données et qui doivent répondre à des demandes précises qui « viennent d’en haut », les journalistes de données puisent généralement leurs données à des sources très variées (sites Web, bases de données publiques, etc.), dans une démarche plus exploratoire qui vise à répondre à une question.

Par exemple, dans cet article, l’auteure s’est penchée sur la place des femmes dans les festivals de musique au Québec, en analysant la programmation des festivals sur plusieurs années. Après avoir déniché les données pertinentes (avec beaucoup de « web scraping », de nettoyage et de manipulations pour consolider le tout), elle a retenu des statistiques sommaires, qu’elle présente dans son article (parfois textuellement, parfois visuellement), puis a complété le propos en interrogeant des parties prenantes du milieu.

Dans cet autre excellent exemple, l’auteur a analysé la base de données publique du Metropolitan Opera pour démontrer, chiffres à l’appui, que l’opéra ne s’actualise pas beaucoup (c’est un euphémisme!) : on joue toujours les mêmes qu’il y a 100 ans. On y voit très clairement que depuis les années 1960, les opéras joués sont presque toujours ceux de compositeurs décédés. (Notez ici que « compositeur » n’est pas épicène; c’est voulu. Dans la période analysée [c. 1905 à aujourd’hui], aucune compositrice n’a été jouée au Met. L’auteur a mis à jour son article pour indiquer qu’UNE SEULE compositrice a vu son opéra interprété au Met, en 1903… ) L’article présente une dizaine de graphiques qui racontent efficacement l’évolution (ou non évolution) de cette compagnie d’opéra qui compte parmi les plus prestigieuses du monde. Si on possédait aussi des données sur l’auditoire pour toute cette période, peut-être qu’on constaterait aussi que l’opéra contemporain « pogne moins » et que c’est pour ça que les équipes de programmation s’en remettent toujours aux mêmes valeurs sûres? C’est assurément l’impression que tout le monde a, mais des données pourraient le prouver. Je soupçonne que la situation n’est probablement pas si différente pour de nombreux orchestres et maisons d’opéra, par ailleurs…

Sinon, une référence dans le domaine du journalisme de données est Naël Shiab, de Radio-Canada/CBC. Je vous encourage à aller voir son site Web, qui contient plusieurs exemples fort intéressants (politiques, météorologiques, sociologiques, etc.) de mise en récit de données. Ce qui les distingue, lui et les autres journalistes de données, des autres journalistes « ordinaires », c’est leur capacité à tirer parti de renseignements qui se trouvent déjà dans le domaine public, mais sous une forme très désordonnée, voire inintelligible. Pour extraire tout le jus de ces sources d’information infinies, il ne s’agit pas seulement d’être capable de faire des statistiques : il faut des compétences de programmation pour pouvoir faire le ménage dans tout ça de façon efficace. C’est cette partie du travail, qui consiste à automatiser des processus pour rendre intelligible et utilisable un énorme volume de données peu ou pas structurées, qui m’intéresse le plus. C’est aussi ce qui fait que la science des données est considérée un domaine « émergent », même si la statistique a toujours existé : nous avons accès à un volume de données sans précédent, et nous disposons maintenant de matériel informatique infiniment plus performant pour le traiter. Tout cela change la donne et exige de nouvelles méthodes pour gagner une meilleure compréhension du monde dans lequel nous vivons (et, espérons-le, pas seulement à des fins de marketing ou de croissance des revenus). Ce n’est pas facile à expliquer… mais je fais de mon mieux! 😉

Pour moi, au début de ma nouvelle carrière, ça risque d’être un peu moins passionnant. Mettons que je travaillerais dans une banque ou une compagnie d’assurance… je ne répondrais vraisemblablement pas à de grandes questions sociologiques, mais plutôt à des questions très terre-à-terre, comme « Quel est le segment de notre clientèle qui nous rapporte le plus et comment pouvons-nous aller chercher encore plus d’argent dans leurs poches? » ou encore « Comment pouvons-nous prédire l’évolution de nos revenus pour les prochaines années? »… Le but étant toujours que l’entreprise fasse du cash, finalement! Bon, j’exagère et mon cynisme est à moitié feint… Pour le moment, je serais très contente de répondre à des questions « triviales » si ces deux conditions sont réunies : 1) cela représente un défi stimulant; et 2) cela me permet de gagner ma vie décemment! Mais n’ayez crainte, je vais mettre la barre un peu plus haut éventuellement. En attendant, il faut bien que je commence quelque part pour prendre mes repères dans ce domaine!

En résumé, je dirais que pour faire une bonne analyse de données, ça prend : la connaissance d’au moins un langage de programmation pour automatiser toutes les parties du processus qui peuvent l’être (et doivent l’être, parce que souvent, avec la quantité de données, c’est pratiquement impossible autrement); des connaissances en statistique, plus ou moins poussées selon ce qu’on cherche à faire; la capacité d’utiliser des outils toujours plus nombreux pour acquérir, nettoyer, explorer et visualiser des données, allant d’Excel aux modules d’apprentissage machine en passant par le traitement du langage naturel; et bien d’autres choses, mais principalement un bon sens de l’analyse, ce qui n’est pas donné à tout le monde! C’est ce genre de compétences et de connaissances que je me suis employée à acquérir cet été, mais comme ce billet est déjà un peu long (et très sérieux), je garderai le détail de ma méthode d’apprentissage pour une prochaine fois!

Une réflexion sur “Science des données

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s