Data visualisatie
Het plotten van data in een grafiek

Introductie

Hallo, en welkom terug bij "Media Computation to Data Science". Vandaag ga ik je in deze les laten zien hoe je frequentieverdelingen, data kunt visualiseren. Laten we snel gaan beginnen.
De orginele video van deze les met een Nederlandse ondertiteling kun je hier bekijken.

Het plotten van data

Open een nieuw Snap! bestand, importeer de dataset "Titanic.csv" daarnaast importeer je ook de "Frequency Distribution Analysis" bibliotheek.
Opnieuw bekijken we in deze les de distributie van leeftijden aan boord van de Titanic. In de dataset wordt de leeftijd van alle passagiers in kolom 5 weergegeven. Onderneem stappen om tot onderstaand script te komen.
Klik met de muis op het script. Je krijgt de distributie van leeftijden op de Titanic in een tekstballon te zien. In deze lijst kom je ook leeftijden met decimalen/breuken tegen. We ronden al deze getallen op volgende wijze tot een natuurlijk getal af.
Bekijk het resultaat opnieuw. Wanneer je de lijst bestudeerd zijn er een aantal zaken die opvallen.
  1. 1.
    Tot en met de 66 jaar zijn alle leeftijden in de lijst vertegenwoordigd. Controleer dit.
  2. 2.
    Boven deze leeftijd neemt het aantal leeftijden dat ontbreekt toe.
Om een representatieve vergelijking te maken zullen wij de ontbrekende leeftijden moeten toevoegen. Een subset waaraan ontbrekende waarden zijn toegevoegd noemen we het histogram. En...daar hebben we in Snap! een blok voor:
Maak en bespreek de resultaten van onderstaande script.
Histogram
Welke kolom in bovenstaand script is het meest interessant om in grafiek weer te geven? Juist...de tweede kolom, selecteer met "map" deze tweede kolom op de volgende manier.
Sleep uit de "Pen" categorie het
blok in het script veld. Plaats de gehele "Pipe" functie in het "plot" blok en maak de "Watcher" van de variabele "titanic" op het podium onzichtbaar.
Klik met de muis op het script...Wauw! De distributie, histogram van alle leeftijden aan boord van de Titanic. Veel histogram grafieken hebben de vorm van een kerkklok πŸ”” "Bell". ("Bell curve")
Grafiek, distributie van leeftijden
Wat we nu gaan doen is deze ditributie van leeftijden vergelijken met de leetijden van miljardairs in het jaar 2014. Importeer het bestand "Billionaires.csv" en maak het volgende script:
Plot ook deze grafiek op het podium.
Plot de twee grafieken in elk een andere kleur
Histograms, Titanic en Miljardairs
Bespreek de curve, heb jij een verklaring voor het verschil in distributie van leeftijden. Was de populatie mensen aan het begin van de vorige eeuw over het algemeen beduidend jonger? Kost het mensen meer jaren om het vermogen tot miljardair te vergaren? Een histogram verschaft je snel een overzicht.

Probeer meer

  1. 1.
    Ga zelf experimenteren met de Titanic/Miljardairs datasets en plot de grafieken als histogram. Welke kolommen kun je als histogram plotten en welke kolommen niet? De kolom met namen is een kolom waarbij het niet mogelijk is deze als Histogram te plotten, bedenk een vorm om ook deze data visueel te representeren, in een grafiek weer te geven.
  2. 2.
    In vorige lessen hebben we geleerd dat alle media uit getallen is opgebouwd. Heb je getallen dan kun je een histogram van maken. Probeer maar eens. Elke afbeelding/foto is opgebouwd uit pixels en heeft vier kleurkanalen in een schaal van 0 to 255. Maak een histogram voor één kleurkanaal die de intesiteit weergeeft volgens vooropgestelde drempelwaarden. Hoe zit de histogram eruit voor de andere kleurkanalen? Zijn er verschillen? Heb je daar een verklaring voor?Kies eens een andere afbeelding of foto. Kun je een histogram maken van de letters in een stuk tekst? Een histogram van de woorden in een song?, de samples in een opaname?.

Testopgaven

  1. 1.
    Welke "group" functie resulteert in 6 groepen voor elk kleurkanaal, wanneer je met de pixels werkt? Er zijn twee goed antwoorden mogelijk.
  • ​
    ​
  • ​
    ​
  • ​
    ​
  • ​
    ​
2. Welke input naast data, kun je in het histogramblok specificeren? Er zijn drie goed antwoorden mogelijk.
  • Aantal kolommen in het eindresultaat van de tabel
  • De minimum en maximum waarden van groepen
  • Het interval tussen de groepen
  • Het aantal elementen in de lijst
  • Groep functie
3. Hoe noemen we dit soort grafieken?
​
​
  • Pie chart
  • Boxplot
  • Scatter plot
  • Bar chart
4. In welke bibliotheek vind je extra blokken voor datawetenschap?
  • Parallelization
  • Data Science
  • APL primitives
  • Frequency Distribution Analysis
​
​
Last modified 11mo ago