Aula 24 Adaline e a Regra Delta
Transcrição
Aula 24 Adaline e a Regra Delta
Organização Aula 24 Adaline e a Regra Delta Introdução O modelo de neurônio linear O neurônio linear como aproximador A superfície de erro quadrático A regra delta de Widrow Considerações sobre o modelo Prof. Dr. Alexandre da Silva Simões Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Introdução Modelo do Adaline 1962: Widrow (Universidade de Stanford) desenvolveu um modelo neural linear muito simples, que batizou ADALINE (Adaptive Linear Element) e, posteriormente, sua generalização multidimensional, o MADALINE (Múltipla Adaline) ADALINE: Bernard Widrow (1929 - ) 2 Relevância apenas acadêmica (modelo muito simples) Treinamento baseado na Regra Delta, cujo princípio mais tarde foi generalizado para redes bem mais elaboradas Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 3 O Adaline é elemento linear cuja saída y é simplesmente uma combinação linear das componentes do vetor de entrada x: y = W t .X x0 w0 w1 ∑ y x1 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 4 1 Adaline como aproximador Suponha a função arbitrária: y= ƒ(x1, x2,..., xn). Suponha ainda que f(0) = 0 e que realizaram-se L observações desta função: {( d Ψ = X l , Yl Erro quadrático d )} L l =1 Pretende-se determinar um w* tal que o erro quadrático sobre todo o conjunto de observações L ( E ( w*) = ∑ y ( w*; xl ) − yl i =1 y ( w; x) = ∑ wi .xi i =1 E ( w*) ≤ E ( w) para todo w ∈ ℜ n Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 5 6 Utilização em batelada L ) d 2 < Se ƒ(x) é linear, o erro quadrático será zero. Senão, o erro será algum valor positivo. Curva de erro quadrático d Seja o mínimo possível<, ou seja, que: Pretende-se determinar uma aproximação linear do tipo: n Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Problema da aproximação linear: problema elementar da teoria da aproximação E(w) é convexa e possui um mínimo interno. A condição necessária para que w* seja um ponto de mínimo interno é de que ali o gradiente da função E(w*) seja nulo ( ) grad ( E ( w)) = ( L d d ∑ wt .xl d − yl d dw i =1 )( ) 2.∑ wt .xl − yl . xl i =1 ) d 2 i =1 L ( E ( w) = ∑ wt .xl − yl d d d 2 =0⇒ w = w* =0⇒ w = w* ∑ (w * .x )(. x )− ∑ (y )(. x ) = 0 ⇒ L d l i =1 d l L i =1 d l ( )( ) d l ( )( ) L ⎡L d d ⎤ d d ⎢∑ xl . xl ⎥.w* = ∑ yl . xl i =1 ⎣ i =1 ⎦ Métodos: em batelada ou iterativo Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões ( )( ) −1 ( )( ) ⎡ d d ⎤ d d w* = ⎢∑ xl . xl ⎥ .∑ yl . xl 1 i =1 ⎣1i =4 ⎦ 4244 3 L 7 L Q Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 8 2 Utilização em batelada - II A Regra Delta de Widrow O resultado anterior é obtido utilizando-se todos os exemplos do conjunto de treinamento de uma só vez, ou seja, em batelada Características: A matriz Q terá inversa se o conjunto de treinamento tiver ao menos n vetores xl linearmente independentes, onde n é a dimensão do vetor de entrada O cálculo da matriz inversa é muito complexo quando a dimensão do vetor de entrada é muito grande Todo o cálculo precisa ser refeito se um novo ponto for adicionado ao conjunto de observações Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões i: exemplo de treinamento j: dimensão de entrada w j (k + 1) = w j (k )-η. Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões ∂E (k ) ∂E (k ) ∂ei (k ) ∂yi (k ) . . = ∂w j (k ) ∂ei (k ) ∂yi (k ) ∂w j (k ) d = ei (k ).(−1).xij (k ) ( ) d d = − yi (k ) − yi (k ) .xij (k ) d Utilize a regra delta de Widrow para treinar o neurônio ADALINE abaixo, de forma que este aprenda a função y=ƒ(x0,x1) ao lado. Considere que os pesos sinápticos iniciais são: w0=8,44 e w1=8,28. Utilize η=1 e treine por k=10 iterações (1 com cada exemplo). x0 w0 w1 Logo: ( ∂E (w(k ) ) ∂w j ∑ y x1 ) d w j (k + 1) = w j ( k ) + η. yi (k ) − yi (k ) .xij (k ) Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 10 Exercício Para o ADALINE, teremos: 1 ⎧ 2 ⎪ E ( w) = 2 .∑ ei (k ) i =1 ⎪ ⎪ d ⎨ei = yi (k ) − yi (k ) ⎪ n ⎪ yi = ∑ xij d (k ).w j (k ) ⎪⎩ j =1 w j (k + 1) = w j (k ) − η .grad (E ( w(k )) ), ou : 9 Cálculo do gradiente L Idéia básica: obter o ponto de mínimo através de um processo de iteração local, utilizando um exemplo do conjunto de treinamento por vez Partindo-se de um ponto arbitrário w(0) pode-se caminhar pela superfície E(w) em direção ao ponto de mínimo, bastando para isso evoluir sempre no sentido oposto ao do gradiente naquele ponto: 11 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Exem x0 x1 y 1 0.2 0.3 0.13 2 0.1 0.4 0.17 3 0.4 0.3 0.25 4 0.11 0.9 0.822 5 0.84 0.6 1.065 6 0.1 0.2 0.05 7 0.6 0.2 0.4 8 0.2 0.2 0.08 9 0.7 0.8 1.13 10 0.1 0 0.01 12 3 Atualização dos pesos Análise do treinamento ∆w0 ∆w1 w0 w1 E(x103) - - 8.440 8.280 1.693 -4.042 -0.808 -1.212 7.631 7.067 1.301 3,590 -3.420 -0.342 -1.368 7.289 5.699 1.004 4,625 -4.375 -1.750 -1.312 5.539 4.386 0.597 4,557 -3.735 -0.410 -3.361 5.128 1.025 0.245 0.103 k x0 x1 yd y 0 - - - - 1 0.2 0.3 0.13 4,172 2 0.1 0.4 0.17 3 0.4 0.3 0.25 4 0.11 0.9 0.822 erro 5 0.84 0.6 1.065 4,922 -3.857 -3.241 -2.314 1.888 -1.265 6 0.1 0.2 0.05 -0,069 0.119 0.011 0.023 1.900 -1.656 0.103 7 0.6 0.2 0.4 0,887 -0.487 -0.292 -0.097 1.608 -1.363 0.108 8 0.2 0.2 0.08 0,049 0.031 0.006 0.006 1.614 -1.356 0.108 9 0.7 0.8 1.13 0,044 1.085 0.759 0.868 2.374 -0.488 0.101 10 0.1 0 0.01 0,237 -0.227 -0.022 0 2.351 -0.488 0.101 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Função desejada: y = x0 + x1 2 2 exemplos de treinamento Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 13 Análise do treinamento 14 Análise do treinamento Função implementada antes do treinamento: Caminho pela superfície de erro (η=1): w0 = 8.44 w1 = 8.28 y = 8.44.x0 + 8.28.x1 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 15 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 16 4 Análise do treinamento Análise do treinamento Função implementada após o treinamento: Influência da taxa de aprendizado: η=3 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Análise do treinamento 18 Critério de parada Convergência dos pesos sinápticos (η=0.3): Pergunta: quando interromper o algoritmo de treinamento ? Opções: 1. 2. w0 = 0.5484 w1 = 0.8168 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões η=0.2 Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 17 19 Limitar o número de iterações a um certo valor máximo (pouco usual, pois não garante o sucesso no treinamento) Interromper o treinamento quando o erro quadrático de um passo para a iteração seguinte decrescer menos do que um valor pré-estabelecido (mais comum) Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 20 5 Conclusões Conclusões - II A aplicação da regra delta assegura convergência assintótica do erro quadrático para o valor mínimo, isto é, quando o número de iterações tende ao infinito, o erro tende ao valor mínimo A eficiência do método do gradiente depende diretamente da escolha do ponto de partida w(0) e do passo η A superfície de erro E(w) poderá ter algumas direções acentuadamente mais planas que outras, fazendo com que a convergência seja mais rápida em uma situação do que em outra Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 22 Bibliografia Leitura e exercícios: KOVÁCS, Z. L. Redes neurais artificiais. 2ª edição. São Paulo: Collegium cognitio, 1996. Capítulo 04. Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões O método do gradiente determina a melhor aproximação linear de um conjunto de dados, o que o torna um aproximador demasiadamente simples Embora simples, a Regra Delta preparou o caminho para que, mais tarde, Rummelhart, Hinton e Williams propusessem o mais poderoso algoritmo que se conhece para o treinamento de redes neurais (a retropropagação do erro) 21 Atividades extra-classe 23 KOVÁCS, Z. L. Redes neurais artificiais. 2ª edição. São Paulo: Collegium cognitio, 1996. HAYKIN, S. Redes Neurais: princípios e prática. 2ª edição. Trad: Paulo Martins Engel. São Paulo: Bookman companhia editora, 2000. RIBEIRO, C. H. C. Redes neurais artificiais. Notas de aula. Instituto Tecnológico de Aeronáutica, São José dos Campos, 2005. NASCIMENTO JUNIOR, C. ; YONEYAMA, T. Inteligência Artificial em Controle e Automação. 1a Edição. São Paulo: Edgard Blucher, 2000. Inteligência Artificial - Prof. Dr. Alexandre da Silva Simões 24 6
Documentos relacionados
Slides 12 - Carolina
1) Apresentação de um conjunto de valores que representam as variáveis de entrada do neurônio. 2) Multiplicação de cada entrada pelo seu respectivo peso sináptico. 3) Obtenção do potencial de ativa...
Leia mais