Applicera data på problemet

All data är nödvändigtvis inte bra data

All data är nödvändigtvis inte bra data, data kan ofta vara korupt eller saknas. Vanligt är att det tex saknas data för vissa perioder, felinmatad data eller skillnader i tidzoner som inte tagits i beakt vid insamling. Här måste man använda sin intuition samt många plottar och tvätta datan genom att hitta data som saknas eller som inte stämmer och ersätta den med korrekt data, ta bort datan ur urvalet eller sätta värdet till ett representativt medelvärde. Att skapa sig en bild av varför data saknas och hitta personer som kan förklara varför den saknas kan också hjälpa till att fylla hålen i datan, allt för att modellerna som ska förstå sig på problemet ska få så bra bild av problemet som möjligt. För som vanligt så gäller ”skit in, skit ut”.