Modelleren, evalueren en projectaanpak

Model:

  • Invoerdata:
    • Ethisch en juridisch
    • Privacywetgeving
    • Anonimiseren van data
    • Bepalen relevantie van features
    • Normaliseren van dataset

Evaluatie:

Confusionmatrices voor classifiers

  • TP – True Positive: correct geclassificeerd tot positive klasse
  • TN – True Negative: correct geclassificeerd tot negative klasse
  • FP – False Positive: incorrect geclassificeerd tot positive klasse
  • FN – False Negative: correct geclassificeerd tot Niet behorend tot negative klasse


In een perfect model is accuracy gelijk aan 1



Sensitivity, Specificity, Precision en Recall

Sensitivity is de verhouding van de correcte positieve voorspelling ten opzichte van het totaal aantal positieve cases:


Recall deelt dezelfde vergelijking als sensitivity, en wordt gebruikt voor de compleetheid van het resultaat:


Specificity meet de verhouding van de correcte negatieve voorspellingen ten opzichte van alle negatieve cases:


Precisicion is de hoeveelheid correcte voorspellingen ten opzichte van alle voorspellingen:


Kappastatistiek: de mogelijkheid om correcte voorspellingen te plegen door de willekeur van de correcte voorspellingen te modelleren:


Dit wordt vooral gebruikt daar waar bepaalde klassen oververtegenwoordigd zijn.

Projectaanpak

Cross-Validatie:

Maak een goede verdeling tussen train- en testdata, bijvoorbeeld door een k-voudige holdout (zie blz 89 van de leerstof)

Door de k-trials uit te voeren en de prestaties van het model te evalueren voor alle trials, kunt u een beter beeld krijgen van de algemene prestaties van het model.

Bias en Variance

Optimaliseren door balans te vinden tussen een oplossing met een hoge bias en een oplossing met een hoge variance.

Hoge bias: underfitted model

Hoge variance: overfitted model: teveel aan ruis meegenomen

In het geval van een polynoom zou u kunnen stellen dat een underfitted model analoog is aan een polynoom met te weinig termen.

Learning Curves

Wanneer de variance van een model omhoog gaat, wordt de trainingsfout steeds minder omdat het model met een hogere variatie meer punten beschrijft. Dit zou echter slecht generaliseren op de cross-validation sets.

Het verminderen van de biasverhogen van de variance, waarbij de cross-validationfout  minimaal is.




Het is altijd belangrijk om te onthouden dat een perfecte fit op de trainingsdataset niet zo waardevol is als een degelijke fit die goed generaliseert, omdat het model natuurlijk toegepast moet kunnen worden op alsnog onbekende data.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.