InComprehensibly about IT 4 pupils: ML Matek

6 Common Probability Distributions every data science professional should know

4 Data Science Music Projects Aiming to Transform the Music Industry

Fundamentals of Deep Learning – Activation Functions and When to Use The ...
A softmax funkciót ideálisan használják az osztályozó kimeneti rétegében, ahol valóban megpróbáljuk elérni a valószínűségeket az egyes bemenetek osztályának meghatározásához.
Most, hogy olyan sok aktiválási funkciót láttunk, szükségünk van néhány logikai / heurisztikus tudásra, hogy melyik aktivációs függvényt kell használni melyik helyzetben. Jó vagy rossz - nincs hüvelykujjszabály.
-------------------------------------------------
A probléma tulajdonságaitól függően azonban lehetőségünk nyílik arra, hogy jobb választás legyen a hálózat könnyű és gyorsabb konvergenciájához.
==================================================
matematika:valszam:binomialis_eloszlas várható értéke

A gradiens módszer (delta rule, method of steepest descent) lényege, hogy mindig a legnagyobb csökkenés irányába haladunk. Kétváltozós függvény esetén ez úgy képzelhető el, hogy a hegyről a legmeredekebb úton ereszkedünk le a völgybe.
Az

függvény gradiens vektora:

ahol

. A Taylor-formula szerint lokálisan jó (elsőfokú) közelítés:

Tehát a gradiens módszer szerint a súlyvektor új értéke:

Itt konstans, amit tanulási paraméternek nevezünk. Tehát

értékét pedig úgy határozzák meg, hogy olyan nagy legyen, ameddig az

függvény értéke csökken. Ez egy egyenes mentén történő keresés, ami számítógépen megoldható. Viszont

nagysága az alábbi módon befolyásolja a konvergenciát.

Ha kicsi, akkor az algoritmus lefojtott (csillapított, overdamped), és a trajektóriája sima.
Ha nagy, akkor az algoritmus nem eléggé csillapított (underdamped), és a trajektóriája cikcakkban halad.
Ha meghalad egy kritikus értéket, akkor az algoritmus instabillá válik, tehát nem konvergál.

Tanulási arány változhat a lépések során.

Konjugált gradiens módszer

Batch GD

Az összes tanítómintára kiszámoljuk a gradienst és ezeket összegezzük.

Stochastic Gradient Descent (SGD)

Mini-Batch GD

SAS Enterprise Miner 2. gyakorlat

A grádiens módszer: gradient descent ismétlés, stochastic gradient (SGD), minibatch GD
Problémák a grádiens módszerekkel
Alternatív grádiens módszerek – Momentum, Nesterov, Adagrad és Adamm

--------------------------------------------------------------------------------------------------------------------------

I read two about versions of the loss function for logistic regression, which of them is correct and why?

1. $l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + l n (1 + e^{β^{T} x_{i}}))$

From Machine Learning, Zhou Z.H (in Chinese),

β = (w, b) and β T x = w T x + b

2. $L (z_{i}) = l o g (1 + e^{- z_{i}})$

From my college course:,

z i = y i f (x i) = y i (w T x i + b) .

In the case of binary classification we may assign the labels

y = \pm 1

y = 0, 1

\begin{aligned} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \equiv \log (1 + e^{- y z_{j}}) \end{aligned}

which-loss-function-is-correct-for-logistic-regression

Loss functions for classification - Wikipedia
Logistic loss

https://hu.wikipedia.org/wiki/Maximum_likelihood_módszer

A maximum likelihood becslésr˝ol

3.7. Maximum likelihood elv

Loss Functions for Binary Class Probability Estimation and Classification

Proper Scoring Rule

Kereszt-entrópia

Conditional entropy
Maximum likelihood estimation
Osztályozás: softmax + kereszt-entrópia
Költségfüggvény: kereszt-entrópiaSoftMax: számokat „valószínűségekké” alakít, amik összege 1

10 Machine Learning Algorithms You Should Know to Become a Data Scientist Read ▶

InComprehensibly about IT 4 pupils

2017. október 23., hétfő

ML Matek

Konjugált gradiens módszer

1. $l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + l n (1 + e^{β^{T} x_{i}}))$

2. $L (z_{i}) = l o g (1 + e^{- z_{i}})$

Loss functions for classification - Wikipedia
Logistic loss

Nincsenek megjegyzések:

Megjegyzés küldése

Rendszeres olvasók

Blogarchívum

Magamról

InComprehensibly about IT 4 pupils

2017. október 23., hétfő

ML Matek

Konjugált gradiens módszer

1. l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))

2. L(zi)=log(1+e−zi)

Loss functions for classification - Wikipedia Logistic loss

Nincsenek megjegyzések:

Megjegyzés küldése

Rendszeres olvasók

Blogarchívum

Magamról

1. $l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + l n (1 + e^{β^{T} x_{i}}))$

2. $L (z_{i}) = l o g (1 + e^{- z_{i}})$

Loss functions for classification - Wikipedia
Logistic loss