Revisão bibliográfica redes neurais recorrentes



Download 406.67 Kb.
Page1/10
Date17.05.2017
Size406.67 Kb.
  1   2   3   4   5   6   7   8   9   10




REDES NEURAIS
IA 353

REVISÃO BIBLIOGRÁFICA


REDES NEURAIS RECORRENTES


PROF. : Dr. Fernando Von Zuben

ALUNOS : Cynthia Cristina Martins Junqueira de Queiroz: RA 958344
Moisés Vidal Ribeiro: RA 995443

2001

REVISÃO BIBLIOGRÁFICA


REDES NEURAIS RECORRENTES




RESUMO

A rede neural recorrente sintetiza sistemas dinâmicos não-lineares.

As redes neurais recorrentes apresentam estrutura recorrente e inspiram-se em diferentes idéias da física estatística. Entre outras, apresentam as seguintes característcas principais: :unidades de computação não-linear, conexões sinápticas simétricas e uso abundante de feed-back. Todas estas características são exemplificadas pela rede de Hopfield, pela máquina de Boltzmann e pela aproximação de mean-field. É possível projetar redes neurais recorrentes assimétricas estáveis, mas isto acarreta em trajetórias de comportamento oscilatório complicado. Desta forma, há muito mais uso das redes com conexões simétricas.

A rede de Hopfield possibilita armazenar informação em uma configuração dinâmica estável. Este modelo de rede foi investigado pioneiramente por Grossberg (1967, 1968), Amari (1972), Little(1974) e Cowan (1968), entre outros, antes da publicação de Hopfield (1982). Opera de forma não-supervisionada e pode ser usada como uma memória endereçada ou como um computador para resolver problemas de otimização de forma combinatória. Num problema de otimização combinatória tem-se um sistema discreto com grande, mas finito número de possíveis soluções e necessita-se achar a solução que minimiza a função custo. A função primordial da rede de Hopfield é recuperar um padrão armazenado na memória em resposta a apresentação de uma versão ruidosa ou incompleta deste padrão. A essência da memória endereçada é mapear a memória fundamental em um ponto fixo, estável, de um sistema dinâmico. O padrão a ser recuperado pode ser representado como um ponto inicial no espaço, em princípio próximo ao ponto fixo. Ele vai evoluir em direção ao ponto fixo, até convergir. Neste ponto, toda a memória é gerada pela rede. Desta forma, pode-se considerar a rede de Hopfield como um sistema dinâmico cujo espaço contem um conjunto de pontos fixos representando a memória fundamental do sitema. Consequentemente, a rede de Hopfield tem uma propriedade emergente que a ajuda a recuperar informação, mesmo com erros.

A máquina de Boltzmann representa uma generalização da rede de Hopfield (Hinton e Sejnowski, 1983, 1986; Ackley et all, 1985), e fundamenta-se na idéia do simulated annealing. Combina os usos de conexões sinápticas simétricas com o de neurônios escondidos. Opera de forma supervisionada, pois trabalha com unidades de entrada e saída e resume-se em uma maneira estocástica, probabilística, de treinamento. Os neurônios estocásticos da máquina de Boltzmann dividem-se em dois grupos funcionais: os visíveis e os escondidos. Os visíveis fazem a interface entre a rede e o meio na qual ela opera e durante a fase de treinamento são por ele cooptados em determinados estados específicos. Por outro lado, os neurônios escondidos operam sempre livremente e são utilizados para explicar restrições importantes contidas no vetor de entrada, através da captura de correlações estatísticas de ordem maior. Ainda, os neurônios visíveis podem ser divididos entre neurônios de entrada e de saída. A máquina de Boltzmann realiza a associação supervisionada, com os neurônios de entrada recebendo informação do meio e os neurônios de saída reportando-a ao usuário final. A informação trabalhada pela rede sai com caráter probabilístico. Assim, a rede realiza inferências a posteriori, ou seja, infere padrões de saída a partir de padrões de entrada. O objetivo do treinamento Boltzmann é produzir uma rede neural que categorize corretamente padrões de entrada de acordo com a distribuição de Boltzmann. Este objetivo é impraticável, mas consegue-se boas aproximações.

A aproximação de mean-field (Peterson e Hartmann,1989, Peterson e Anderson, 1987 ) substitui as unidades binárias estocásticas da máquina de Boltzmann por unidades analógicas determinísticas. A motivação é diminuir o tempo de processamento, que é grande na . máquina de Boltzmann, dado ser o treinamento baseado em simulated annealing, para evitar mínimos locais. A aproximação de mean-field baseia-se na idéia de que numa rede com muitos neurônios os estados tem mais informações do que são necessárias na prática. Desta forma, para representar o comportamento estocástico da rede basta utilizar-se valores médios de um estado ou os produtos médios do par de neurônios do estado. Ou seja, substitui-se o potencial de ativação variável de cada neurônio da rede por um valor médio.

A rede de Hopfield, a máquina de Boltzmann e a aproximação de mean-field necessitam tempo para atingir a condição de equilíbrio. Este tempo pode ser excessivamente longo, a não ser que se use hardwares e chips específicos para sua implementação. Configuram-se em redes com regras de treinamento locais e baseadas em física estatística.

Algumas características das redes neurais recorrentes passam agora a ser descritas:




  • Função de energia:

  • A função de energia de uma rede recorrente é definida por:

E= - ½   wij Si Sj (1)


A mudança de energia E devido à mudança Sj de estado do neurônio j é dada por:
E = - Sj   wij Si (2)
Desta forma, a função de energia E é uma função decrescente monotonicamente. As mudanças de estado irão continuar até que um mínimo local de energia seja atingido. Este mínimo de energia corresponde a um atrator do espaço, que é a memória da rede.
Armazenamento:

Define-se capacidade de armazenamento: como o maior número de memórias fundamentais máx que podem ser estocadas numa rede, especificando que a maior parte delas devem ser recuperadas corretamente. Para o cálculo da capacidade de armazenamento tem-se que levar em conta o comportamento assintótico da função erro para valores altos. A capacidade de armazenamento de uma rede recorrente onde a maior parte da memória fundamental é recuperada corretamente é dado por:


máx = N/ 2 ln N, (3)

onde N é o número de neurônios


Existem muitos métodos para aumentar a capacidade de armazenamento da rede.

Estabilidade:

Nas redes neurais recorrentes podem aparecer estados espúrios, que são estados estáveis diferentes da memória fundamental da rede. A condição de estabilidade é dada por:


yj = sgn (  wji yi - j ) , j =1,2,3, ..., N (4)

onde: wji  pesos

yi  entrada

yj  elementos do estado invariante no tempo, estável


Treinamento:

O processo de treinamento da rede neural recorrente necessita várias considerações específicas, dada a natureza determinística da rede. Deve-se seguir procedimentos robustos e genéricos. O processo oriundo da aproximação de mean-field é restrito ao método de busca do gradiente e portanto restringe-se a redes com apenas uma camada escondida, o que representa uma grande restrição na sua aplicação.

Diversos outros métodos de treinamento para as redes neurais recorrentes vêm sendo utilizados ao longo dos anos, para variadas aplicações, sendo que o melhor deles é função, entre outras coisas da arquitetura da rede.
As redes neurais recorrentes tem sido utilizadas nas mais diversas áreas. A título de exemplo, cita-se: reconhecimento de padrões ruidosos e temporariamente extensos, reconhecimento de linguagem, reconhecimento de eventos separados no tempo, extração de informação da distância temporal entre eventos, geração de ritmos precisos no tempo e armazenagem robusta de alta precisão numérica.

Atualmente, sistemas neurais recorrentes híbridos tem sido utilizados com bons resultados. São sistemas computacionais que são baseados principalmente nas redes neurais artificiais, mas permitem também uma interpretação simbólica ou interação com componentes simbólicos. Tradicionalmente inteligência artificial e redes neurais são geralmente consideradas apropriadas para resolver problemas. Superficialmente, essas duas aproximações parecem muito diferentes, mas uma corrente de pensamento atual vem crescendo e descobrindo que procedimentos que utilizam o melhor de cada área podem ser muito robustos.


Referências:
Haykin, S. Neural Networks a compreensive foundation , Prentice-Hoall 1994.
Grossberg, S. , 1967. “Nonlinear difference –differintiol equations in prediction and learning theory”. Proceedings of the National Academy of Sciences of the USA, 1329-1334.
Grossberg, S. , 1968. “ A prediction Theory for some nonlinear funtional-difference equations”. Journal of Mathematical Analysis and Applications 21, 643-694.
Amari, S. , 1972 Characteristics of randon nets of analog neuron like elements.” IEEE Transactions on Electronic Computers EC-16, 299-307.
Little, W. ª, 1974 , “ The existence of persistent states in the brain” Mathematical Biosciences 19, 101-120.
Cowan, J.D. 1968 , “ Statistical mechanics of nervous nets” Neural Networks pp. 181-188. Berlin: springer-verlag.
Hopfield, J.J. , 1982 “ Neural networks and physical systems with emergent collective computational abilities” Proceedings of the National Academy of Sciences of the USA , 79, 2554-2558.
Hinton, G.E. and Sejnowski, T.J., 1983. “Optimal perceptual inference” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern recognition , pp. 448-453 , Washington, DC.
Hinton, G.E. and Sejnowski, T.J., 1986. “ Learning and relearning in boltzmann machines” in Parallel Distributed Processing: Explorations in Microstructure of Cognition , Cambridge, MA MIT press.
Ackley , D.G., Hilton , G.E. and Sejnowski, 1995. “ A Learning algorithm for Boltzmann machines” Cognitive Science 9, 147-169.
Peterson, C., and Hartmann, E. 1989, “Explorations of the mean field theory learning Algorithm Neural Networks 2, 475-494.
Peterson, C. and Anderson,J. R., 1987 “ A mean field theory learning for neural networks” Complex Systems 1, 995-1019.

TÓPICOS RELEVANTES NA ÁREA:
Durante a pesquisa bibliográfica, parte da documentação encontrada foi catalogada em tópicos e sub-tópicos objetivando facilitar a busca do assunto de interesse.
1 -GERAL:- 276/277/278/288/317/338/350/354/358/378

Alguns artigos abordam de forma teórica aspectos genéricos das redes neurais recorrente, de tal forma que achamos mais conveniente introduzir um tópico que relacionasse estes textos mais abrangentes.


2 -TREINAMENTO OU APRENDIZAGEM – 31/38/57/60/61/71/192/200/201/203/205/206/207/208/209/219/220/223/225/234/235/282/

283/297/303/306/314/360/361/372/375

De maneira resumida é a busca de soluções para uma tarefa de aprendizagem específica. É um processo pelo qual parâmetros livres de uma rede neural são adaptados através de um processo contínuo de estimulação por um ambiente onde a rede está inserida.


2.1- O PRINCÍPIO PONTRYAGIN – 96

O principio de Ponryagin’s se aplica a um problema particular chamado problema de Bolzano. A maioria dos problemas de optimização podem ser colocados na forma do problema de Bolzano. Muito utilizado para solução de problemas relacionados a controle com restricões.


2.2 - MÉTODO DO GRADIENTE – 99/101/102/103/271/272/300/313

No método do gradiente os valores dos pesos são ajustados por um quantia proporcional a primeira derivada (gradiente) do erro entre o valor da saída desejada e o valor da saída atual do elemento processado, com respeito ao valor do peso. O objetivo é diminuir a função erro, evitando um mínimo local e alcançar um mínimo global.


2.3 -MÉTODO DA POLARIZAÇÃO (BIAS) – 30/215/249/363

No caso de aprendizagem com redes neurais, por exemplo aquelas que tem um conjunto de treinamento de tamanho fixo, existe um compromisso entre polarização e variância, isto é pequena polarização, leva a grande variância. Para encontrar um bom desempenho, ambas, polarização e variância devem ser pequenas.


2.4 -ALGORITMO ALOPEX – 143/195/274

É algoritmo estocástico baseado na correlação entre pesos individuais e variações na medida de erro da rede.

Tem sido usado de diferentes maneiras em modelos de percepção e problemas de otimização em aprendizagem com redes neurais.
2.5 -MATRIX HESSIANA – 93/95

Dada a função y(x1,x2, xn), a matriz hessiana é a matriz de derivadas parciais de segunda ordem. Utilizada em network-pruning, onde a idéia básica é o uso da informação da derivada de segunda ordem da superfície de erro com o objetivo de fazer um trade-off entre a complexidade da rede e o desempenho do erro de treinamento


2.6 -BACKPROPAGATION- 29/37/81/224/345

É a base para o treinamento de uma rede neural supervisionada. Backpropagation estática, por exemplo, é usada para produzir um mapeamento instantâneo de uma entrada estática (independente no tempo)para uma saída estática. São usadas para resolver problemas de classificação estática tal como reconhecimento de características ópticas.

O que faz este algoritmo diferente dos outros é o processo pelo qual os pesos são calculados durante a fase de aprendizagem da rede. É facilmente implementável pois as equações de treinamento são um processo iterativo.
2.7 -ON LINE – 53/329

A aprendizagem on line de um sistema dinâmico desconhecido é realizado com uma rede neural.


2.8 -MARKOV – 90/123/342/349

A tarefa de aprendizagem Markoviana pode ser alcançada com o aprendizado direto de estados para ações ou valores. O mais versátil método de geração de amostragem aleatória de um espaço probabilístico tem sido com o uso de cadeias de Markov.



2.9 -APRENDIZAGEM TEMPO REAL – 66/251/302

O controle de aprendizagem em tempo real é realizado para um sistema contínuo no tempo, não linear, usando redes neurais recorrentes. Trata o aprendizado como uma coleção de métodos para aplicação em problemas de controle ótimo por exemplo.


3 - CONTROLE 4/22/39/40/43/46/59/72/105/135/155/157/159/160/162/163/172/173/177/178/188/191/196/204/210/218/230/231/232/233/241/245/285/318/343/348

Da teoria de controle sabe-se que um sistema dinâmico, como uma rede neural, pode ser modelada como um conjunto de equações diferencias acopladas. Este sistema depende de valores dos parâmetros das equações, e que pequenas mudanças nestes parâmetros podem resultar em instabilidade (oscilações) ou mesmo instabilidades catastróficas (chaos)


4 -OTIMIZAÇÃO – 54/118/119/181/264/333/334/335/336/359/379

Técnicas de optimização são utilizadas em muitas áreas. Alguns problemas de optimização são também aplicados para a avaliação de redes neurais, tais como: “vendedor viajante” (TSP) e “Kinight tour dilemma” (KTD).


5 -ESTABILIDADE / INTERFERÊNCIA/RUÍDO – 7/9 10/51/56/63/76/82/145/184/197

/211/243/248/320/327/366/367/368/369

“ A presença de estabilidade sempre implica numa mesma forma de coordenação entre partes individuais de um sistema” (Ashby, 1960). Quando se fala em estabilidade de um sistema dinâmico não linear, refere-se a estabilildade no sentido de Liapunov (direct method of Liapunov ). Usado para análise de estabilidade de sistemas não lineares e lineares, invariantes ou não no tempo. Muito aplicável a redes neurais.
6 -FUNÇÃO DE CUSTO – 58/

A rede neural é uma rede de comunicação adaptativa que leva a saída para uma função custo desejada.


7 -ARMAZENAGEM/MEMÓRIA – 6/42/55/104/139/199/212/213/236/275/308/309/315

316/346


No contexto neuro-biológico, memória se refere a alterações induzidas pela interação do organismo com o ambiente. No sentido da aplicação em redes neurais, estuda-se mémoria operando por associação. Sua propriedade fundamental é o mapeamento de padrões de saída de uma atividade neural frente a um padrão de entrada. Durante a fase de aprendizagem, o padrão chave é apresentado como estímulo e a memória transforma isso em um padrão de armazenagem memorizável. A amazenagem se faz através de modificações específicas nos pesos sinápticos da memória.
8 -COMPORTAMENTO DINÂMICO – 121/131/158/239/240/247/259/262/266/270/332/374


Download 406.67 Kb.

Share with your friends:
  1   2   3   4   5   6   7   8   9   10




The database is protected by copyright ©ininet.org 2020
send message

    Main page