Modelleren, evalueren en projectaanpak

Model: Invoerdata: Ethisch en juridisch Privacywetgeving Anonimiseren van data Bepalen relevantie van features Normaliseren van dataset Evaluatie: Confusionmatrices voor classifiers TP – True Positive: correct geclassificeerd tot positive klasse TN – True Negative: correct geclassificeerd tot negative klasse FP – False Positive: incorrect geclassificeerd tot positive klasse FN – False Negative: correct geclassificeerd tot Niet […]

Recommendation systems met association rules

Association rules maken het mogelijk om op een ongelabelde dataset onderlinge relaties tussen elementen te herkennen. Voor de set {A, B, C, D} kunt u een associatieregel herleiden wanneer de aanwezigheid van {A, B} sterk duidt naar de aanwezigheid van {C, D} De support van een set: Confidence: Zoals in het voorbeeld van de supermarkt: […]

Unsupervised Machine Learning – Clustering

Het is niet bekend hoeveel klassen er zijn, het doel is groeperen k-Means clustering Probeert een x-aantal clustermiddelpunten te herleiden, zodat de som van de afstand van de clusterleden tot het middelpunt van het cluster minimaal is. Waarbij vector x een observatie uit dataset Si is. Normalisatie min-max normalisatie z-Score normalisatie bijvoorbeeld: X=(112, 120, 152) […]

Anomaly Detection

Wordt gebruikt voor het identificeren van outliers; dit zijn datapunten die afwijken van de norm In sommige gevallen worden de outliers geëlimineerd uit de trainingset omdat deze een bias introduceren in het te herleiden model 1 methode is LOF, Local Outlier Factor, zie de DMwR bibliotheek

kNN: k Nearest Neighbor

model dat kijkt naar de ‘buren’ in ‘k’ om punt te classificeren als de meest voorkomende entiteit in k. Bij k=1: veel ruis = overfitted model Bij een te grote k worden alle punten geclassificeerd als de meest voorkomende entiteit, ongeacht de positie = underfitting; te generaliserend De k-Nearest Neighbor methode is gebaseerd op het […]

Support Vector Machines

Stoelt op het concept hyperplane 2D-stelsel: lijn 3D-stelsel: vlak MultiD-stelsel: hypervlak Minimaliseren van de ruis: Maximum Margin Hyperplane, leidt tot een model dat beter generaliseert. De vectoren uit de dataset die het hypervlak beschrijven zijn de support vectoren

Neurale Netwerken

Het modelleren van een zenuwcel begint bij de invoer: een verzameling van ingangen                            x = (x1, x2, x3, …, xn), met een wegingsfactor w = (w1, w2, w3, …, wn). Vervolgens het resultaat van de weging optellen:   En evalueren met de activatiefunctie:    Kunstmatige neurale netwerken kunnen zeker in complexe modellen lastig te doorgronden zijn, en […]

Logistieke Regressie

Bij logistieke regressie hebben we het over een dichotome uitkomst (ja/nee, 0/1, wel/niet etc) (Sigmoid functie, levert een waarde tussen 0 en 1)

Decision Trees

Decision Trees maken onder meer gebruik van het C5.0 algoritme Maakt gebruik van Entropie   Een dataset die puur is, heeft een entropie van 0, een heterogene dataset heeft een entropie van 1 Wanneer na een keuze de entropie richting 0 gaat, spreekt men over Information Gain  

Lineaire Regressie

Lineaire Algebra: vectoren en lineaire transformaties 2-dimensionaal stelsel met x en y:   3-dimensinaal stelsel met x, y en z:   Grootte en richting van   Lijn: y=   Costfunctie:   Regularisering: In de costfunctie een boete hanteren voor de grootte van de coëfficiënten   Multivariate lineaire regressie:   Download de dataset voor Challenger launches […]