Aula 24 Adaline e a Regra Delta

Transcrição

Organização
Aula 24
Adaline e a Regra
Delta
Introdução
O modelo de neurônio linear
O neurônio linear como aproximador
A superfície de erro quadrático
A regra delta de Widrow
Considerações sobre o modelo

Prof. Dr. Alexandre da Silva Simões
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
Introdução

Modelo do Adaline
1962:
Widrow
(Universidade
de
Stanford) desenvolveu um modelo
neural linear muito simples, que batizou
ADALINE (Adaptive Linear Element) e,
posteriormente, sua generalização
multidimensional,
o
MADALINE
(Múltipla Adaline)
ADALINE:

Bernard Widrow
(1929 - )
2
Relevância apenas acadêmica (modelo
muito simples)
Treinamento baseado na Regra Delta, cujo
princípio mais tarde foi generalizado para
redes bem mais elaboradas
3

O Adaline é elemento linear cuja saída y é
simplesmente uma combinação linear das
componentes do vetor de entrada x:
y = W t .X
x0
w0
w1
∑
y
x1
4
1
Adaline como aproximador

Suponha a função arbitrária: y= ƒ(x1, x2,..., xn).
Suponha ainda que f(0) = 0 e que realizaram-se
L observações desta função:
{(
d
Ψ = X l , Yl

Erro quadrático
d
)}
L
l =1
Pretende-se determinar um w* tal que o erro
quadrático sobre todo o conjunto de
observações
L
(
E ( w*) = ∑ y ( w*; xl ) − yl
i =1
y ( w; x) = ∑ wi .xi
i =1
E ( w*) ≤ E ( w) para todo w ∈ ℜ n
5
6
Utilização em batelada
L

)
d 2
< Se ƒ(x) é linear, o erro quadrático será zero. Senão, o erro será algum
valor positivo.
Curva de erro quadrático

d
Seja o mínimo possível<, ou seja, que:
Pretende-se determinar uma aproximação linear
do tipo:
n

Problema da aproximação linear: problema elementar da teoria da
aproximação
E(w) é convexa e possui um mínimo interno. A condição necessária
para que w* seja um ponto de mínimo interno é de que ali o
gradiente da função E(w*) seja nulo
(
)
grad ( E ( w)) =
(
L
d
d
∑ wt .xl d − yl d
dw i =1
)( )
2.∑ wt .xl − yl . xl
i =1
)
d 2
i =1
L
(
E ( w) = ∑ wt .xl − yl
d
d
d
2
=0⇒
w = w*
=0⇒
w = w*
∑ (w * .x )(. x )− ∑ (y )(. x ) = 0 ⇒
L
d
l
i =1
d
l
L
i =1
d
l
( )( )
d
l
( )( )
L
⎡L d
d ⎤
d
d
⎢∑ xl . xl ⎥.w* = ∑ yl . xl
i =1
⎣ i =1
⎦
Métodos: em batelada ou iterativo
( )( )
−1
( )( )
⎡
d
d ⎤
d
d
w* = ⎢∑ xl . xl ⎥ .∑ yl . xl
1
i =1
⎣1i =4
⎦
4244
3
L
7
L
Q
8
2
Utilização em batelada - II

A Regra Delta de Widrow
O resultado anterior é obtido utilizando-se todos os
exemplos do conjunto de treinamento de uma só vez, ou
seja, em batelada
Características:

A matriz Q terá inversa se o conjunto de treinamento tiver ao
menos n vetores xl linearmente independentes, onde n é a
dimensão do vetor de entrada
O cálculo da matriz inversa é muito complexo quando a
dimensão do vetor de entrada é muito grande
Todo o cálculo precisa ser refeito se um novo ponto for
adicionado ao conjunto de observações
i: exemplo de treinamento
j: dimensão de entrada
w j (k + 1) = w j (k )-η.

∂E (k ) ∂E (k ) ∂ei (k ) ∂yi (k )
.
.
=
∂w j (k ) ∂ei (k ) ∂yi (k ) ∂w j (k )
d
= ei (k ).(−1).xij (k )
(
)
d
d
= − yi (k ) − yi (k ) .xij (k )
d
Utilize a regra delta de Widrow para
treinar o neurônio ADALINE abaixo,
de forma que este aprenda a função
y=ƒ(x0,x1) ao lado. Considere que os
pesos sinápticos iniciais são: w0=8,44
e w1=8,28. Utilize η=1 e treine por
k=10 iterações (1 com cada exemplo).
x0
w0
w1
Logo:
(
∂E (w(k ) )
∂w j
∑
y
x1
)
d
w j (k + 1) = w j ( k ) + η. yi (k ) − yi (k ) .xij (k )
10
Exercício
Para o ADALINE, teremos:
1
⎧
2
⎪ E ( w) = 2 .∑ ei (k )
i =1
⎪
⎪
d
⎨ei = yi (k ) − yi (k )
⎪
n
⎪ yi = ∑ xij d (k ).w j (k )
⎪⎩
j =1
w j (k + 1) = w j (k ) − η .grad (E ( w(k )) ), ou :
9
Cálculo do gradiente
L
Idéia básica: obter o ponto de mínimo através de um
processo de iteração local, utilizando um exemplo do
conjunto de treinamento por vez
Partindo-se de um ponto arbitrário w(0) pode-se
caminhar pela superfície E(w) em direção ao ponto de
mínimo, bastando para isso evoluir sempre no sentido
oposto ao do gradiente naquele ponto:
11
Exem
x0
x1
y
1
0.2
0.3
0.13
2
0.1
0.4
0.17
3
0.4
0.3
0.25
4
0.11
0.9
0.822
5
0.84
0.6
1.065
6
0.1
0.2
0.05
7
0.6
0.2
0.4
8
0.2
0.2
0.08
9
0.7
0.8
1.13
10
0.1
0
0.01
12
3
Atualização dos pesos
Análise do treinamento
∆w0
∆w1
w0
w1
E(x103)
-
-
8.440
8.280
1.693
-4.042
-0.808
-1.212
7.631
7.067
1.301
3,590
-3.420
-0.342
-1.368
7.289
5.699
1.004
4,625
-4.375
-1.750
-1.312
5.539
4.386
0.597
4,557
-3.735
-0.410
-3.361
5.128
1.025
0.245
0.103
k
x0
x1
yd
y
0
-
-
-
-
1
0.2
0.3
0.13
4,172
2
0.1
0.4
0.17
3
0.4
0.3
0.25
4
0.11
0.9
0.822
erro
5
0.84
0.6
1.065
4,922
-3.857
-3.241
-2.314
1.888
-1.265
6
0.1
0.2
0.05
-0,069
0.119
0.011
0.023
1.900
-1.656
0.103
7
0.6
0.2
0.4
0,887
-0.487
-0.292
-0.097
1.608
-1.363
0.108
8
0.2
0.2
0.08
0,049
0.031
0.006
0.006
1.614
-1.356
0.108
9
0.7
0.8
1.13
0,044
1.085
0.759
0.868
2.374
-0.488
0.101
10
0.1
0
0.01
0,237
-0.227
-0.022
0
2.351
-0.488
0.101
Função desejada:
y = x0 + x1
2
2
exemplos de
treinamento
13

14
Função implementada antes do treinamento:

Caminho pela superfície de erro (η=1):
w0 = 8.44
w1 = 8.28
y = 8.44.x0 + 8.28.x1
15
16
4

Função implementada após o treinamento:

Influência da taxa de aprendizado:
η=3

18
Critério de parada

Convergência dos pesos sinápticos (η=0.3):

Pergunta: quando interromper o algoritmo de
treinamento ?
Opções:
1.
2.
w0 = 0.5484
w1 = 0.8168
η=0.2
17
19
Limitar o número de iterações a um certo valor
máximo (pouco usual, pois não garante o sucesso
no treinamento)
Interromper o treinamento quando o erro quadrático
de um passo para a iteração seguinte decrescer
menos do que um valor pré-estabelecido (mais
comum)
20
5
Conclusões

Conclusões - II
A aplicação da regra delta assegura convergência assintótica do erro
quadrático para o valor mínimo, isto é, quando o número de iterações tende
ao infinito, o erro tende ao valor mínimo
A eficiência do método do gradiente depende diretamente da escolha do
ponto de partida w(0) e do passo η
A superfície de erro E(w) poderá ter algumas direções acentuadamente
mais planas que outras, fazendo com que a convergência seja mais rápida
em uma situação do que em outra

22
Bibliografia

Leitura e exercícios:

KOVÁCS,
Z. L. Redes neurais artificiais. 2ª
edição. São Paulo: Collegium cognitio, 1996.
Capítulo 04.

O método do gradiente determina a melhor aproximação
linear de um conjunto de dados, o que o torna um
aproximador demasiadamente simples
Embora simples, a Regra Delta preparou o caminho
para que, mais tarde, Rummelhart, Hinton e Williams
propusessem o mais poderoso algoritmo que se
conhece para o treinamento de redes neurais (a
retropropagação do erro)
21
Atividades extra-classe

23
KOVÁCS, Z. L. Redes neurais artificiais. 2ª edição.
São Paulo: Collegium cognitio, 1996.
HAYKIN, S. Redes Neurais: princípios e prática. 2ª
edição. Trad: Paulo Martins Engel. São Paulo:
Bookman companhia editora, 2000.
RIBEIRO, C. H. C. Redes neurais artificiais. Notas
de aula. Instituto Tecnológico de Aeronáutica, São
José dos Campos, 2005.
NASCIMENTO JUNIOR, C. ; YONEYAMA, T.
Inteligência Artificial em Controle e Automação. 1a
Edição. São Paulo: Edgard Blucher, 2000.
24
6