Note d’intention

Ces data-visualisations ont été conçues au cours du mois de janvier 2021 selon des questions/besoins que j’ai rencontrés dans mon quotidien. Le rendu de ce devoir prend donc la forme d’un journal/blog illustré, avec le parti-pris d’un storytelling personnel. En espérant que cela vous divertisse !

Données et outils utilisés

Les jeux de données utilisés sont en langue française et dépeignent des situations centrées autour de la France/du monde francophone (média francophone, paysage, donnée SNCF). Les outils utilisés sont Openrefine pour le datawrangling et la vérification des données, Wikidata query service, Palladio, Opendatasoft et Flourish.

Tous fichiers utilisés ou obtenus (données ou traitement) non référencés ou présent dans leur intégralité sur cette page figurent ici : Fichiers manipulés/obtenus et historique des traitements OpenRefine


Sommaire

Thème 1 - “L’importance des rituels” :
La radio, la télévision et le genre : Taux d’expression homme-femme
            1.1. Visuel Opendatasoft : taux d’expression homme femme selon type de média
            1.2. Visuel Opendatasoft : taux d’expression homme femme par chaine

Thème 2 - “S’entourer de belles choses” :
La peinture : représentation la seine et origine des peintres
            2.1. Visuel Palladio : grille d’image, graphique, facettes
            2.2. Visuel Palladuo : coordonnéees géographiques des lieux de naissance et mort des peintres (jeu de données augmentés)
            2.3. Carrousel Flourish : peintures hivernales

Thème 3 - “Avoir des projets” :
Les voyages en train : évolution de la performance du réseau férré du XXe à aujourd’hui
            > Visuel Flourish : bar chart race des lignes en fonction de leur temps de trajet

Thème 4 - “Etre curieux” :
Les objets perdus : gares françaises et objets perdus et restitués
            > Story Flourish : treemap sur les cas de 4 gares

separation

Cher Journal :


Note du lundi 1er février 2021.

Le mois de janvier peut parfois être un peu compliqué : c’est à la fois une nouvelle année qui s’annonce, avec tout ce que cela apporte d’espoir et de mélancolie, mais également le milieu de l’hiver, et bien souvent une période d’examen et de reprise pour tout le monde. D’autant plus qu’en ce moment, les loisirs sont restreints, et la chaleure humaine se cristallise de plus en plus dans des écrans froids. Je voulais donc profiter de la fin de ce mois pour établir un premier bilan, et partager 4 choses que je juge importante, et qu’il faut travailler tout au long de l’année, surtout quand les temps sont difficiles.

1/ L’importance des rituels : se tenir informer. (13/01/2021)


La routine n’est pas toujours synonyme d’ennuie. Elle peut être bénéfique. Tous les matins, j’écoute la radio. Il arrive parfois que j’entende des femmes se faire couper la parole. Je me suis souvent demandé si je le remarquais plus que lorsque les hommes se faisaient couper, par pure identification envers mes consoeurs. Au-delà de cet aspect, j’ai voulu comparer le temps de parole entre homme et femme dans les média.

C’est l’INA qui a créé les jeux de données à ce sujet. Mais c’est sur Opendatasoft que j’ai préféré prendre directement le jeu de données utilisé. En comparaison à ceux de l’INA, ce jeu de données avait déjà été retravaillé : il ne mentionnait pas le taux d’expression selon les heures en journées (jeux de données très denses, qui n’a pas été supporté par OpenRefine lors d’un premier essai), il réunit à la fois les données télé et radio, et possède déjà deux colonnes qui font la moyenne de toutes les chaines radio et chaines télévisées. Cela m’a permis de gagner du temps, je n’ai pas eu à modifier le jeu d’origine. Les données sont receuillies à l’aide du logiciel InaSpeechSegmenter que j’ai déjà eu l’occasion de tester à l’inatheque de la BNF l’année dernière. Si l’identification des voix sur les enfants ou sur des voix cartoonesques n’était pas idéale, l’utilisation du logiciel pour du contenu radio me semble tout a fait adéquat.

#1-1 : Taux d’expression homme femme selon type de média

Il y a 700 000 heures de programme de 1995 à 2018. On constate que les enregistrements concernant la télévision ne commencent qu’en 2010, on a donc moins d’historique que pour la radio, ce qui nous donne un demi cercle sur ce radar chart.

Le taux d’expression, féminin ou masculin, est le temps de parole à l’antenne. En bleu les données concernant les hommes, en orange les données des femmes. Bleu vif et orange vif pour les données télévisuelles, bleu sombre et orange pale pour les données radios.

Lorsque l’on fait le même diagramme pour toutes les chaines, les montés ou descentes du taux de parole des femmes sont sans doutes du à des changements de présentateur/présentatrice. Le temps de parlole des femmes augmente en moyenne depuis le début comme on le constate ci dessus. Le temps de parole des hommes diminuent donc au même rythme.

#1-2 : Taux d’expression homme femme par chaine

Ce graphique faisait parti de mon projet mais était déjà présent dans OpenDataSoft. Je ne l’ai pas réalisé ! Mais je l’ai trouvé très bien fait par rapport au taux d’expression homme-femme : l’un se mesure par rapport à l’autre en pourcentage, la somme des deux donne donc toujours 100. C’est donc très lisible et cela complète parfaitement bien le premier, apportant le gros du détail. La palme de la disparité dans les temps de parole revient à la chaine sport.

On peut donc comprendre pourquoi certaines personnes s’indignent de ce genre de comportement :

Ce matin je me suis réveillée une fois de plus face à un mur tout blanc. Je ne sais pas si c’est le manque de décoration, ou le manque de sortie, mais je rêvais de ballade de les quais de seine, de week-end à la campagne. Alors prisonnière de la journée de travail qui m’attendait, sans possibilité de sortir, j’ai fait une requête sparql sur Wikidata.

J’ai créé un jeu de données sur les peintures ayant pour sujet la Seine. (jeu disponible via le lien en introduction). L’enjeu premier était de récupérer une certaine quantité d’images pour usage personnel. Je me suis ensuite posée la question de leur date de réalisation (mon idée première étant que ce serait des peinture de la période impressioniste pour la majorité) et de la nationnalité de leur auteurs (des auteurs étrangés se sont ils donnés à l’exercice de peindre la Seine ?)

Voici la requête :

SELECT DISTINCT ?item ?Titre ?createur (YEAR(?date) AS ?AnneeCreation) ?image WHERE {
  ?item (wdt:P31/(wdt:P279*)) wd:Q3305213;
    wdt:P180 wd:Q1471;
    rdfs:label ?Titre.
  FILTER((LANG(?Titre)) = "fr")
  OPTIONAL {
    ?item wdt:P170 ?Qcreateur.
    ?Qcreateur rdfs:label ?createur.
    FILTER((LANG(?createur)) = "fr")
  }
  OPTIONAL { ?item wdt:P571 ?date. }
  OPTIONAL { ?item wdt:P18 ?image. }
}

J’ai obtenu 298 résultats.

#2-1 : Dans Palladio : les peintures représentant la Seine

J’ai importé ce jeux de données dans Palladio, directement via le sparql endpoint pour éviter tout problème d’encodage. L’étape 1 était de créer une grille d’images un peu plus solide que celle proposée par wikidata service, avec affichage de certaines informations (titre, auteur, date). Une fois cela fait, j’ai exploré les données en quête de réponses à mes questions : milieu de la fin du XIXe, sans surprise, nous avons bien une majorité d’amateur du plein air et de la Seine :

Graphique palladio

Grace au facettes, j’observe rapidement en quelle année ce sujet était le plus à la mode, et qui a été le plus productif sur le sujet, selon mes données récoltées.

Facette palladio

#2-2 Dans palladio : naissance et mort des peintres ayant peint la Seine

Pour se faire, j’ai augmenté ce jeux de données via Openrefine, en reconcialiant le nom des peintres avec les données wikidata et en ajoutant leur lieu de naissance et de mort. A partir des lieux réconciliés (la plupart sur “commune de france” “ville” “grande ville”), j’ai récupéré les coordonnées geographiques. Ainsi cette carte à été formée :

Carte palladio

J’ai utilisé deux calques

Zoom Carte palladio

De nombreux artistes née ou mort à Paris, ainsi que sur les bords de Seine, beaucoup mort en France mais venant de loin, qui a l’inverse de Gauguin ont passé leur vieux jours non loin des rives. Certains artistes, née et mort hors de France, parfois loin comme en Amerique du Sud, on eu l’occasion de peindre la Seine lors de leur formation auprès de grand maitre à Paris.

#UPDATE #Visuel bonus : carrousel Flourish suite à intemperie

Il a neigé, et cela me rappelle que je trouve les peintures avec de la neige vraiment très belle. Cela m’a donné envie de créer ce visuel flourish pour une amie, qui je sais, à les mêmes gouts que moi.

Made with Flourish

Même requête, depeint “hiver”, “neige” :

    wdt:P180 wd:Q7561, wd:Q1311;

J’ai retiré les lignes lorsque la donnée image n’était pas disponible :

[
  {
    "op": "core/row-removal",
    "engineConfig": {
      "facets": [
        {
          "type": "list",
          "name": "image",
          "expression": "value",
          "columnName": "image",
          "invert": false,
          "omitBlank": false,
          "omitError": false,
          "selection": [],
          "selectBlank": true,
          "selectError": false
        }
      ],
      "mode": "row-based"
    },
    "description": "Remove rows"
  }
]



3/ Avoir des projets (21/01/2021)


Ces peintures impressionnistes m’ont rappelé quelques cours d’histoire de l’art. Comme un plein airiste du début du XXe siècle, je veux moi aussi profiter du developpement des rails pour filer vers la Normandie.

J’ai trouvé ce jeu de données SNCF sur l’évolution des temps de parcours des trains. J’ai du totalement le remodeler sur OpenRefine pour l’exploiter dans Flourish, sous forme d’une course. Voici un extrait du jeu de données d’origine, un extrait du traitement OpenRefine, et le jeu après modification. Outre la transformation dans la forme, j’ai réduit le jeu de données à 10 lignes de train, partant toutes de paris, vers la côte Ouest de la France.

Jeu de donnée brut, avant : (extrait)

Relations Année Temps estimé en minutes
BORDEAUX - LILLE 1951  
BORDEAUX - LILLE 1962  
BORDEAUX - LILLE 1979  
BORDEAUX - LILLE 1994  
BORDEAUX - LILLE 1998 301.0
BORDEAUX - LILLE 2001 298.0
BORDEAUX - LILLE 1978  
BORDEAUX - LILLE 1984  

Traitement OpenRefine : (extrait) Remise en ordre par date et transposition colonne en ligne sur un modèle clef-valeur. J’ai également corrigé des formats sur les nombres, et supprimer tous les enregistrements ne contenant pas Paris dans la ligne de train, par une facette par mot. Puis j’ai selectionner toutes les lignes que je voulais garder via une facette textuelle, et en inversant la selection, j’ai supprimé tout le reste.

[
  {
    "op": "core/row-reorder",
    "mode": "row-based",
    "sorting": {
      "criteria": [
        {
          "valueType": "string",
          "column": "Relations",
          "blankPosition": 2,
          "errorPosition": 1,
          "reverse": false,
          "caseSensitive": false
        },
        {
          "valueType": "string",
          "column": "Année",
          "blankPosition": 2,
          "errorPosition": 1,
          "reverse": false,
          "caseSensitive": false
        }
      ]
    },
    "description": "Reorder rows"
  },
  {
    "op": "core/key-value-columnize",
    "keyColumnName": "Année",
    "valueColumnName": "Temps estimé en minutes",
    "noteColumnName": "",
    "description": "Columnize by key column Année and value column Temps estimé en minutes with note column "
  }
]

Jeu de donnée après traitement : (total)

Relations 1920 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
PARIS - BOULOGNE                                                       166       202   172     162 150 150 150 150 150 150 147 142 142 142 140 133 136 136 133 133 133 138 138 138 135 135 134 135 140 144 144 150 143 149 118 119 119 119 117 117 116 116 118 121 119 121 119 119 119 119 119 120 127 127 127 127 130 128
PARIS - BREST   489 479 479 469 469 469 470 468 443                       524 489 473 465 465 471 453 451 450   457   459     447 447 446 355 355 346 340 336 327 327 327 325 325 330 330 330 328 330 334 339 339 340 339 337 333 333 242 239 238 239 236 236 236 235 241 240 254 241 255 247 243 243 243 243 252 252 262 256 249 249 251 251 247 247 205
PARIS - CAEN                                                       142       144   144     144 148 148 142 142 138 138 120 109 108 108 108 108 108 109 118 115 110 110 112 113 113 112 112 112 112 124 125 125 126 126 127 128 104 104 105 104 106 112 104 104 104 105 105 104 107 107 107 107 114 108 108 109 110 110
PARIS - CHERBOURG                                                       303       281   280     236 239 238 231 229 229 229 238 176 177 176 176 176 176 179 186 184 183 183 183 185 185 185 188 184 186 197 207 208 208 205 206 192 162 162 162 163 168 178 165 165 165 165 164 164 166 166 166 165 176 169 169 181 181 182
PARIS - LA ROCHELLE                                                       286       274   274     268 268 268 267 275 279 279 279 249 249 238 225 223 235 231 231 230 230 239 237 239 238 238 227 228 229 237 201 210 212 171 178 170 176 175 179 171 170 168 169 170 168 169 169 169 169 169 169 171 194 194 185 190 188 163
PARIS - LE HAVRE 202 160 160 160 144 144 144 120 118 118   119                   148 130 128 127 142 144 144 141 134 142 142 138 139 142 144 142 147 146 141 140 115 107 107 107 105 105 105 105 105 110 110 111 110 111 110 110 114 115 114 114 115 119 117 119 120 121 114 115 112 112 111 114 114 115 110 110 114 114 118 115 115 115 115 115 115 115 115 125 124 124
PARIS - NANTES 433 312 308 316 307 291 280 275 270 270   286                               250 240 244 243 250 233 238 238 239 239 239 239 224 219 218 216 198 198 198 187 185 185 185 185 186 187 194 196 197 197 183 173 173 175 175 119 119 118 119 120 120 122 121 121 123 119 119 119 119 119 119 119 119 119 119 119 120 123 124 124 125 123 123 116
PARIS - QUIMPER                                                       476       490   490     480 476 475 428 427 353 356 356 336 335 335 335 328 333 333 333 333 338 336 337 338 338 338 337 337 339 274 277 265 252 251 252 254 254 254 257 258 250 255 253 253 251 251 251 251 251 251 251 254 260 263 263 252 252 212
PARIS - RENNES                                                       238   237 237 245 235 235 211 218 206 206 206 181 181 181 180 180 175 175 177 177 177 178 178 178 177 175 175 176 176 176 177 177 174 173 124 124 122 126 123 123 123 122 123 125 129 123 123 123 123 123 123 123 123 123 123 123 127 126 126 124 124 124 85
PARIS - ROUEN                                                       83       79   79     82 86 85 81 71 71 67 65 65 63 63 63 63 63 67 67 70 68 68 68 68 68 69 69 70 69 67 66 67 66 72 70 72 69 69 68 65 65 66 65 66 66 65 68 66 68 68 70 71 68 69 69 68 68 68

#Bar chart race Flourish : évolution des temps de trajet

Il faut bien sure garder en tête que les distances entre Paris et ces différentes villes ne sont pas les mêmes. On peut jouer la visualisation en mettant les temps en minutes en ordonnée.

Made with Flourish

Ces données sont récoltées par la Direction des Statistiques et de La Régulation des Informations Economiques de la SNCF. Je n’ai malheureusement pas trouvé d’informations plus spécifiques sur ce jeux de données, notemment :


4/ Etre curieux, s’autoriser à la rêverie


En parcourant les données ouvertes de la SNCF, j’ai trouvé leurs données sur les objets perdues en gare. Ca m’a fait sourire, et ça a piqué ma curiosité. Je ne compte plus les fois ou j’ai perdu mon pass navigo, ou trouvé des documents administratifs oubliés sur le banc d’un quai. (Il se trouve que je dois avoir une sorte de chance, car ce ne sont pas les objets perdus les plus courants !)

#Story Flourish : ce que l’on perd dans les gares

Ce jeu de données étant très massif, OpenRefine n’a pas voulu de lui. LibreOffice a également beaucoup mouliné, c’est donc via Excel que j’ai du le couper et filtré sur certaines gares.

J’ai selectionné au moins 10 000 enregistrements pour chaque gare : la gare Saint Lazare, Marseilles Saint Charles, Lille Flandre et Europe, et Toulouse Matabiau. Je voulais voir si des disparités existaient entre objet perdu selon ces villes. J’aurais également aimé voir si certain objet était plus perdus selon certaine période de l’année, mais l’extraction aurait été trop importante. En résultat cette story flourish. Chaque treemap est navigable dans le détail.

Made with Flourish

Trois biais :

C’est ici que le voyage prend fin

Et nous avons vécu quelques embuches, comme le temps d’actualisation de cette page GitHub, plus proche d’une nuit que de 15 minutes ! La non gestion des fautes de frappes et orthographe par l’éditeur à également été compliquée, nous espérons ne pas avoir laissé trop de coquille. Je pense également à l’accessibilité de cette page et des datavis qui pourraient faire l’objet d’amélioration.

Bonne journée à vous !