2017. október 23., hétfő

ML Matek

6 Common Probability Distributions every data science professional should know

4 Data Science Music Projects Aiming to Transform the Music Industry

Fundamentals of Deep Learning – Activation Functions and When to Use The ...
A softmax funkciót ideálisan használják az osztályozó kimeneti rétegében, ahol valóban megpróbáljuk elérni a valószínűségeket az egyes bemenetek osztályának meghatározásához.
Most, hogy olyan sok aktiválási funkciót láttunk, szükségünk van néhány logikai / heurisztikus tudásra, hogy melyik aktivációs függvényt kell használni melyik helyzetben. Jó vagy rossz - nincs hüvelykujjszabály.
-------------------------------------------------
A probléma tulajdonságaitól függően azonban lehetőségünk nyílik arra, hogy jobb választás legyen a hálózat könnyű és gyorsabb konvergenciájához.
 

==================================================
matematika:valszam:binomialis_eloszlas várható értéke


 A gradiens módszer (delta rule, method of steepest descent) lényege, hogy mindig a legnagyobb csökkenés irányába haladunk. Kétváltozós függvény esetén ez úgy képzelhető el, hogy a hegyről a legmeredekebb úton ereszkedünk le a völgybe.
 Az függvény gradiens vektora:


ahol . A Taylor-formula szerint lokálisan jó (elsőfokú) közelítés:


Tehát a gradiens módszer szerint a súlyvektor új értéke:



Itt konstans, amit tanulási paraméternek nevezünk. Tehát
  értékét pedig úgy határozzák meg, hogy olyan nagy legyen, ameddig az függvény értéke csökken. Ez egy egyenes mentén történő keresés, ami számítógépen megoldható. Viszont nagysága az alábbi módon befolyásolja a konvergenciát.
  • Ha kicsi, akkor az algoritmus lefojtott (csillapított, overdamped), és a trajektóriája sima.
  • Ha nagy, akkor az algoritmus nem eléggé csillapított (underdamped), és a trajektóriája cikcakkban halad.
  • Ha meghalad egy kritikus értéket, akkor az algoritmus instabillá válik, tehát nem konvergál.

Konjugált gradiens módszer 

Batch GD 
 Az összes tanítómintára kiszámoljuk a gradienst és ezeket összegezzük.
Stochastic Gradient Descent (SGD)

Mini-Batch GD

SAS Enterprise Miner 2. gyakorlat

A grádiens módszer: gradient descent ismétlés, stochastic gradient (SGD), minibatch GD
Problémák a grádiens módszerekkel
Alternatív grádiens módszerek – Momentum, Nesterov, Adagrad és Adamm

--------------------------------------------------------------------------------------------------------------------------

I read two about versions of the loss function for logistic regression, which of them is correct and why?

1. l(β)=i=1m(yiβTxi+ln(1+eβTxi))

From Machine Learning, Zhou Z.H (in Chinese),
β=(w,b) and βTx=wTx+b

2. L(zi)=log(1+ezi)

From my college course:,
zi=yif(xi)=yi(wTxi+b).

In the case of binary classification we may assign the labels y=±1 or y=0,1.
yizi+log(1+ezi)log(1+eyzj)
which-loss-function-is-correct-for-logistic-regression

Loss functions for classification - Wikipedia
Logistic loss


https://hu.wikipedia.org/wiki/Maximum_likelihood_módszer
Proper Scoring Rule



Kereszt-entrópia

Conditional entropy
Maximum likelihood estimation
Osztályozás: softmax + kereszt-entrópia
Költségfüggvény: kereszt-entrópiaSoftMax: számokat „valószínűségekké” alakít, amik összege 1

 











Nincsenek megjegyzések:

Megjegyzés küldése