GDA und Naive Bayes im maschinellen Lernen
- 24-07-2022
- chuong xuan
- 0 Comments
Die Normalverteilung wird auch als Gaußsche (glockenförmige) Verteilung bezeichnet. Die Verteilung hat die gleiche allgemeine Form, nur der Positionsparameter (Mittelwert μ) und das Verhältnis (Varianz σ 2 ) sind unterschiedlich.
Die Gaußsche Verteilung hat die Form:
Da drin:
- Mittlerer Vektor (erwartet): μ ∈ R d
- Kovarianzmatrix : ∈ R dxd
Bei Klassifikationsproblemen ist bekannt, dass x stetig zufällig ist (wenn x stetig ist, füllen seine möglichen Werte ein Intervall auf der Zahlengeraden X ∈ (x min ; x max ). Wir können das Modell der Gaußschen Diskriminanzanalyse (GDA) verwenden : Vorhersage der Wahrscheinlichkeit P(x|y) basierend auf einer Normalverteilung vieler Variablen.
Schreiben Sie als Verteilung:
Da drin:
- Modellparameter , , μ 0 , μ 1 .
- μ 0 , μ 1 sind die beiden Durchschnittsvektoren von x|y = 0 und x|y = 1
- Die Verlustfunktion des Modells: Log-linkihood
Um also die Verlustfunktion zu polen, können wir das Problem darauf reduzieren, die Parameter , , μ 0 , μ 1 zu finden des Trainingsdatensatzes.
Lassen Sie uns einige Probleme zwischen GDA und logistischer Regression diskutieren.
Angenommen, wir betrachten p(y=1 | ∅, Σ , μ 0 , μ 1 ) eine Funktion von x ist, dann hat der Ausdruck jetzt die Form:
Wobei Theta eine Annäherung an , , μ 0 , μ 1 ist
Wir sehen also, dass er die gleiche Form wie der logistische Regressionsalgorithmus hat.
- Wenn also die Verteilung von p(x | y) eine Gaußsche Verteilung hat, dann ist der GDA gut
- Wenn die Verteilung von p(x | y) nicht gaußförmig ist, ist GDA möglicherweise weniger effizient.
Mục lục
Naive-Bayes-Klassifizierungsalgorithmus
Angenommen, ein Algorithmus klassifiziert Kunden oder klassifiziert E-Mails als Spam oder Nicht-Spam. Wenn wir E-Mail als Merkmalsvektor mit Abmessungen darstellen, die der Größe des Wörterbuchs entsprechen. Wenn in der E-Mail das j-te Wort im Wörterbuch steht, dann ist x j = 1, sonst x j = 0. Und was ist, wenn die Menge der Wortpunkte aus 5000 Wörtern besteht, x ∈ {0, 1} 5000 . Wenn Sie also einen Klassifikator erstellen möchten, benötigen Sie mindestens 2 (50000-1) Parameter, und das ist keine kleine Zahl.
Um p(x | y) zu modellieren, nehmen wir an, dass xi unabhängig ist. Diese Annahme wird Naive Bayes (naiv) genannt. Das Ergebnis des Algorithmus ist der Naive-Bayes-Klassifikator.
Die Wahrscheinlichkeit p(c | x) errechnet sich aus:
Um p(x|c) zu berechnen, verlassen wir uns auf die Annahme, dass xi unabhängig von ist
Je größer d ist, desto kleiner ist die Ohari-Wahrscheinlichkeit. Wir müssen also das Protokoll auf die rechte Seite bringen, um es zu vergrößern.
Verteilungen, die häufig in NBC verwendet werden.
1. Guassische naive Bayes:
Für jede Datendimension i und eine Klasse c folgt xi einer Normalverteilung mit erwartetem μ ci und Varianz σ ci 2 .
Der Parameter μ ci und die Varianz σ ci 2 werden basierend auf den Punkten im Trainingssatz der Klasse c bestimmt.
2. Bernoulli Naive Bayes
Die Komponenten des Merkmalsvektors sind diskrete Variablen, die den Wert 0 oder 1 annehmen: Dann wird p(xi|c) berechnet durch:
p(i|c) kann als Wahrscheinlichkeit verstanden werden, dass das Wort i im Text der Klasse c vorkommt.
3. Multinomiale Naive Bayes:
Die Komponenten des Merkmalsvektors sind gemäß der Poisson-Verteilung diskrete Variablen.
Nehmen Sie ein Textklassifikationsproblem an, bei dem x eine Bogendarstellung ist.
Der Wert des i-ten Elements in jedem Vektor ist die Häufigkeit, mit der das i-te Wort im Text vorkommt.
Dann ist p(xi|c) proportional zur Häufigkeit, mit der das Wort i in Dokumenten der Klasse c vorkommt.
N ci ist die Gesamthäufigkeit von i in den Dokumenten der Klasse c.
Nc ist die Gesamtzahl der Wörter (einschließlich Wiederholungen), die in Klasse c vorkommen.
4. Laplace-Glättung.
Wenn es ein Wort gibt, das nie in Klasse c vorkommt, dann ist die Wahrscheinlichkeit, in der folgenden Formel nach rechts zu gehen, = 0.
Um dies zu lösen, wird eine Technik namens Laplace-Glättung angewendet:
Wenn α eine positive Zahl ist, ist α normalerweise gleich 1, die Stichprobe plus dα hilft, die Gesamtwahrscheinlichkeit sicherzustellen. Somit wird jede Klasse c durch eine Teilmenge positiver Zahlen beschrieben, deren Summe 1 ergibt.