Applicera data på problemet och hitta mönster
All data är nödvändigtvis inte bra data
All data är nödvändigtvis inte bra data, data kan ofta vara korupt eller saknas. Vanligt är att det till exempel saknas data för vissa perioder eller att det är felinmatad data. Eller att skillnader i tidzoner inte tagits i beaktning vid insamling.
Här måste man använda sin intuition samt många plottar och tvätta datan. Vilket görs genom att hitta data som saknas eller som inte stämmer och ersätta den med korrekt data. Eller också ta bort datan ur urvalet eller sätta värdet till ett representativt medelvärde. Att skapa sig en bild av varför data saknas och hitta personer som kan förklara varför den saknas kan också hjälpa till att fylla hålen i datan. Allt för att modellerna som ska förstå sig på problemet ska få så bra bild av problemet som möjligt.
När datan är tillräckligt ren kan man börja testa sig fram. Här kan man nästan spendera hur mycket tid som helst och det är därför viktigt att prioritera. Målet är att hitta modeller som hittar intressanta mönster i datan.