4 Data Science Music Projects Aiming to Transform the Music Industry
Fundamentals of Deep Learning – Activation Functions and When to Use The ...
A softmax funkciót ideálisan használják az osztályozó kimeneti rétegében, ahol valóban megpróbáljuk elérni a valószínűségeket az egyes bemenetek osztályának meghatározásához.
Most, hogy olyan sok aktiválási funkciót láttunk, szükségünk van néhány logikai / heurisztikus tudásra, hogy melyik aktivációs függvényt kell használni melyik helyzetben. Jó vagy rossz - nincs hüvelykujjszabály.
-------------------------------------------------
A probléma tulajdonságaitól függően azonban lehetőségünk nyílik arra, hogy jobb választás legyen a hálózat könnyű és gyorsabb konvergenciájához.
==================================================
matematika:valszam:binomialis_eloszlas várható értéke
A gradiens módszer (delta rule, method of steepest descent) lényege, hogy mindig a legnagyobb csökkenés irányába haladunk. Kétváltozós függvény esetén ez úgy képzelhető el, hogy a hegyről a legmeredekebb úton ereszkedünk le a völgybe.
Az
függvény gradiens vektora:
ahol
. A Taylor-formula szerint
lokálisan jó (elsőfokú) közelítés:
Tehát a gradiens módszer szerint a súlyvektor új értéke:
Itt
konstans, amit tanulási paraméternek nevezünk. Tehát
értékét pedig úgy határozzák meg, hogy olyan
nagy legyen, ameddig az
függvény értéke csökken. Ez egy egyenes mentén történő
keresés, ami számítógépen megoldható.
Viszont
nagysága az alábbi módon befolyásolja a konvergenciát.
- Ha
kicsi, akkor az algoritmus lefojtott (csillapított, overdamped), és a
trajektóriája sima.
- Ha
nagy, akkor az algoritmus nem eléggé csillapított (underdamped), és a
trajektóriája cikcakkban halad.
- Ha
meghalad egy kritikus értéket, akkor az algoritmus instabillá válik,
tehát nem konvergál.
Konjugált gradiens módszer
Batch GD
Az összes tanítómintára kiszámoljuk a gradienst és ezeket összegezzük.
Stochastic Gradient Descent (SGD)
Mini-Batch GD
SAS Enterprise Miner 2. gyakorlat
A grádiens módszer: gradient descent ismétlés, stochastic gradient (SGD), minibatch GD
Problémák a grádiens módszerekkel
Alternatív grádiens módszerek – Momentum, Nesterov, Adagrad és Adamm
--------------------------------------------------------------------------------------------------------------------------
I read two about versions of the loss function for logistic regression, which of them is correct and why?
1. l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))
From Machine Learning, Zhou Z.H (in Chinese),
2. L(zi)=log(1+e−zi)
From my college course:,In the case of binary classification we may assign the labels
which-loss-function-is-correct-for-logistic-regression
Loss functions for classification - Wikipedia
Logistic loss
https://hu.wikipedia.org/wiki/Maximum_likelihood_módszer
Proper Scoring Rule
Kereszt-entrópia
Conditional entropy
Maximum likelihood estimation
Osztályozás: softmax + kereszt-entrópia
Költségfüggvény: kereszt-entrópiaSoftMax: számokat „valószínűségekké” alakít, amik összege 1



Nincsenek megjegyzések:
Megjegyzés küldése