Aula 24 Adaline e a Regra Delta

Transcrição

Aula 24 Adaline e a Regra Delta
Organização
Aula 24
Adaline e a Regra
Delta
Introdução
„ O modelo de neurônio linear
„ O neurônio linear como aproximador
„ A superfície de erro quadrático
„ A regra delta de Widrow
„ Considerações sobre o modelo
„
Prof. Dr. Alexandre da Silva Simões
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
Introdução
„
„
Modelo do Adaline
1962:
Widrow
(Universidade
de
Stanford) desenvolveu um modelo
neural linear muito simples, que batizou
ADALINE (Adaptive Linear Element) e,
posteriormente, sua generalização
multidimensional,
o
MADALINE
(Múltipla Adaline)
ADALINE:
…
Bernard Widrow
(1929 - )
2
Relevância apenas acadêmica (modelo
muito simples)
… Treinamento baseado na Regra Delta, cujo
princípio mais tarde foi generalizado para
redes bem mais elaboradas
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
3
„
O Adaline é elemento linear cuja saída y é
simplesmente uma combinação linear das
componentes do vetor de entrada x:
y = W t .X
x0
w0
w1
∑
y
x1
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
4
1
Adaline como aproximador
„
Suponha a função arbitrária: y= ƒ(x1, x2,..., xn).
Suponha ainda que f(0) = 0 e que realizaram-se
L observações desta função:
{(
d
Ψ = X l , Yl
„
Erro quadrático
d
)}
L
l =1
Pretende-se determinar um w* tal que o erro
quadrático sobre todo o conjunto de
observações
L
(
E ( w*) = ∑ y ( w*; xl ) − yl
i =1
y ( w; x) = ∑ wi .xi
i =1
E ( w*) ≤ E ( w) para todo w ∈ ℜ n
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
5
6
Utilização em batelada
L
„
)
d 2
< Se ƒ(x) é linear, o erro quadrático será zero. Senão, o erro será algum
valor positivo.
Curva de erro quadrático
„
d
Seja o mínimo possível<, ou seja, que:
Pretende-se determinar uma aproximação linear
do tipo:
n
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
„
Problema da aproximação linear: problema elementar da teoria da
aproximação
E(w) é convexa e possui um mínimo interno. A condição necessária
para que w* seja um ponto de mínimo interno é de que ali o
gradiente da função E(w*) seja nulo
(
)
grad ( E ( w)) =
(
L
d
d
∑ wt .xl d − yl d
dw i =1
)( )
2.∑ wt .xl − yl . xl
i =1
)
d 2
i =1
L
(
E ( w) = ∑ wt .xl − yl
d
d
d
2
=0⇒
w = w*
=0⇒
w = w*
∑ (w * .x )(. x )− ∑ (y )(. x ) = 0 ⇒
L
d
l
i =1
d
l
L
i =1
d
l
( )( )
d
l
( )( )
L
⎡L d
d ⎤
d
d
⎢∑ xl . xl ⎥.w* = ∑ yl . xl
i =1
⎣ i =1
⎦
Métodos: em batelada ou iterativo
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
( )( )
−1
( )( )
⎡
d
d ⎤
d
d
w* = ⎢∑ xl . xl ⎥ .∑ yl . xl
1
i =1
⎣1i =4
⎦
4244
3
L
7
L
Q
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
8
2
Utilização em batelada - II
„
„
A Regra Delta de Widrow
O resultado anterior é obtido utilizando-se todos os
exemplos do conjunto de treinamento de uma só vez, ou
seja, em batelada
Características:
„
„
…
A matriz Q terá inversa se o conjunto de treinamento tiver ao
menos n vetores xl linearmente independentes, onde n é a
dimensão do vetor de entrada
… O cálculo da matriz inversa é muito complexo quando a
dimensão do vetor de entrada é muito grande
… Todo o cálculo precisa ser refeito se um novo ponto for
adicionado ao conjunto de observações
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
i: exemplo de treinamento
j: dimensão de entrada
w j (k + 1) = w j (k )-η.
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
„
∂E (k ) ∂E (k ) ∂ei (k ) ∂yi (k )
.
.
=
∂w j (k ) ∂ei (k ) ∂yi (k ) ∂w j (k )
d
= ei (k ).(−1).xij (k )
(
)
d
d
= − yi (k ) − yi (k ) .xij (k )
d
Utilize a regra delta de Widrow para
treinar o neurônio ADALINE abaixo,
de forma que este aprenda a função
y=ƒ(x0,x1) ao lado. Considere que os
pesos sinápticos iniciais são: w0=8,44
e w1=8,28. Utilize η=1 e treine por
k=10 iterações (1 com cada exemplo).
x0
w0
w1
Logo:
(
∂E (w(k ) )
∂w j
∑
y
x1
)
d
w j (k + 1) = w j ( k ) + η. yi (k ) − yi (k ) .xij (k )
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
10
Exercício
Para o ADALINE, teremos:
1
⎧
2
⎪ E ( w) = 2 .∑ ei (k )
i =1
⎪
⎪
d
⎨ei = yi (k ) − yi (k )
⎪
n
⎪ yi = ∑ xij d (k ).w j (k )
⎪⎩
j =1
w j (k + 1) = w j (k ) − η .grad (E ( w(k )) ), ou :
9
Cálculo do gradiente
L
Idéia básica: obter o ponto de mínimo através de um
processo de iteração local, utilizando um exemplo do
conjunto de treinamento por vez
Partindo-se de um ponto arbitrário w(0) pode-se
caminhar pela superfície E(w) em direção ao ponto de
mínimo, bastando para isso evoluir sempre no sentido
oposto ao do gradiente naquele ponto:
11
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
Exem
x0
x1
y
1
0.2
0.3
0.13
2
0.1
0.4
0.17
3
0.4
0.3
0.25
4
0.11
0.9
0.822
5
0.84
0.6
1.065
6
0.1
0.2
0.05
7
0.6
0.2
0.4
8
0.2
0.2
0.08
9
0.7
0.8
1.13
10
0.1
0
0.01
12
3
Atualização dos pesos
Análise do treinamento
∆w0
∆w1
w0
w1
E(x103)
-
-
8.440
8.280
1.693
-4.042
-0.808
-1.212
7.631
7.067
1.301
3,590
-3.420
-0.342
-1.368
7.289
5.699
1.004
4,625
-4.375
-1.750
-1.312
5.539
4.386
0.597
4,557
-3.735
-0.410
-3.361
5.128
1.025
0.245
0.103
k
x0
x1
yd
y
0
-
-
-
-
1
0.2
0.3
0.13
4,172
2
0.1
0.4
0.17
3
0.4
0.3
0.25
4
0.11
0.9
0.822
erro
5
0.84
0.6
1.065
4,922
-3.857
-3.241
-2.314
1.888
-1.265
6
0.1
0.2
0.05
-0,069
0.119
0.011
0.023
1.900
-1.656
0.103
7
0.6
0.2
0.4
0,887
-0.487
-0.292
-0.097
1.608
-1.363
0.108
8
0.2
0.2
0.08
0,049
0.031
0.006
0.006
1.614
-1.356
0.108
9
0.7
0.8
1.13
0,044
1.085
0.759
0.868
2.374
-0.488
0.101
10
0.1
0
0.01
0,237
-0.227
-0.022
0
2.351
-0.488
0.101
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
Função desejada:
y = x0 + x1
2
2
exemplos de
treinamento
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
13
Análise do treinamento
„
„
14
Análise do treinamento
Função implementada antes do treinamento:
„
Caminho pela superfície de erro (η=1):
w0 = 8.44
w1 = 8.28
y = 8.44.x0 + 8.28.x1
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
15
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
16
4
Análise do treinamento
„
Análise do treinamento
Função implementada após o treinamento:
„
Influência da taxa de aprendizado:
η=3
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
Análise do treinamento
„
18
Critério de parada
„
Convergência dos pesos sinápticos (η=0.3):
„
Pergunta: quando interromper o algoritmo de
treinamento ?
Opções:
1.
2.
w0 = 0.5484
w1 = 0.8168
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
η=0.2
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
17
19
Limitar o número de iterações a um certo valor
máximo (pouco usual, pois não garante o sucesso
no treinamento)
Interromper o treinamento quando o erro quadrático
de um passo para a iteração seguinte decrescer
menos do que um valor pré-estabelecido (mais
comum)
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
20
5
Conclusões
„
„
„
Conclusões - II
A aplicação da regra delta assegura convergência assintótica do erro
quadrático para o valor mínimo, isto é, quando o número de iterações tende
ao infinito, o erro tende ao valor mínimo
A eficiência do método do gradiente depende diretamente da escolha do
ponto de partida w(0) e do passo η
A superfície de erro E(w) poderá ter algumas direções acentuadamente
mais planas que outras, fazendo com que a convergência seja mais rápida
em uma situação do que em outra
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
„
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
22
Bibliografia
„
Leitura e exercícios:
„
… KOVÁCS,
Z. L. Redes neurais artificiais. 2ª
edição. São Paulo: Collegium cognitio, 1996.
Capítulo 04.
„
„
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
O método do gradiente determina a melhor aproximação
linear de um conjunto de dados, o que o torna um
aproximador demasiadamente simples
Embora simples, a Regra Delta preparou o caminho
para que, mais tarde, Rummelhart, Hinton e Williams
propusessem o mais poderoso algoritmo que se
conhece para o treinamento de redes neurais (a
retropropagação do erro)
21
Atividades extra-classe
„
„
23
KOVÁCS, Z. L. Redes neurais artificiais. 2ª edição.
São Paulo: Collegium cognitio, 1996.
HAYKIN, S. Redes Neurais: princípios e prática. 2ª
edição. Trad: Paulo Martins Engel. São Paulo:
Bookman companhia editora, 2000.
RIBEIRO, C. H. C. Redes neurais artificiais. Notas
de aula. Instituto Tecnológico de Aeronáutica, São
José dos Campos, 2005.
NASCIMENTO JUNIOR, C. ; YONEYAMA, T.
Inteligência Artificial em Controle e Automação. 1a
Edição. São Paulo: Edgard Blucher, 2000.
Inteligência Artificial - Prof. Dr.
Alexandre da Silva Simões
24
6

Documentos relacionados

Slides 12 - Carolina

Slides 12 - Carolina 1) Apresentação de um conjunto de valores que representam as variáveis de entrada do neurônio. 2) Multiplicação de cada entrada pelo seu respectivo peso sináptico. 3) Obtenção do potencial de ativa...

Leia mais