Técnicas de identi cação de redes de regulação gênica - IME-USP

Transcrição

Técnicas de identi cação de redes de regulação gênica - IME-USP
Técnicas de identicação de redes de regulação gênica
Leandro de Araújo Lima1 e
Junior Barrera (orientador)2
1 Universidade de São Paulo (USP), Brasil
[email protected]
2 Universidade de São Paulo (USP), Brasil
[email protected]
1. Introdução
As atividades de um organismo são controladas pelos genes, através de um que resulta na produção
Figura 1. Rede de regulação gênica.
das proteínas especícas para realizar diversas funções.
Os genes são formados pelo DNA, que é a
informação genética.
O DNA, através da transcri-
ção, produz RNA. Este, através da tradução, produz
tuem o dogma central da biologia molecular. Estas
proteínas que vão atuar diretamente na regulação
3 fases se intercomunicam através de seus produtos
das vias metabólicas (séries de reações químicas que
ocorrem dentro das células).
nais, que funcionam como sinais que alimentam no-
Através de medições
vos ciclos desse processo.
temporais de concentração de RNA, podemos descobrir o quanto cada gene está atuando em momentos
especícos.
que formam a expressão gênica.
Usando métodos estatísticos e compu-
Na transcrição, o
DNA produz RNA mensageiro, também conhecido
tacionais, podemos identicar as principais relações
como mRNA. O mRNA produzido na transcrição
de dependência nessa complexa rede gênica, que nos
produz então proteínas, através da tradução.
dizem como os genes inuenciam uns aos outros, de
maneira ativadora ou inibidora.
Para nosso estudo, são
mais importantes as fases de transcrição e tradução,
Es-
sas proteínas formam complexos multiprotéicos, que
Um objetivo im-
interagem entre si, integram sinais extracelulares e
portante de se estudar o comportamento das redes
atuam na regulação das vias metabólicas, recebendo
gênicas é descobrir genes que determinam fenótipos
e enviando sinais de realimentação. Nesta rede, o ní-
especícos (para identicar doenças, por exemplo)
vel de expressão de cada gene depende tanto do valor
e modelar a atividade desses genes de maneira que
de sua própria expressão quanto dos valores da ex-
possamos identicar se seu comportamento é normal
pressão de outros genes em instantes de tempo pas-
ou anormal. Isso torna possível à medicina desenvol-
sados, além de estímulos externos. Um gene A pode
ver terapias baseadas na ruptura ou na atenuação
ativar ou desligar um gene B. Esse mesmo gene B
de funções de genes aberrantes, isto é, expressos de
pode aumentar ( upregulate ) ou diminuir ( down-
forma não-regulada, para o tratamento de doenças.
regulate ) a expressão de um outro gene C. Dessa
Neste trabalho, falamos sobre algumas maneiras
forma, modicações em um único gene podem cau-
de estimar as redes de regulação gênica, nos atendo
sar mudanças na expressão de vários genes.
mais aos sistemas dinâmicos discretos e estocásticos.
Como trabalho futuro, iremos fazer uma comparação
2.2 Tecnologia de Microarray
dos dois métodos de estimação de redes gênicas mostrados. Um deles usando Redes Genéticas Probabilísticas em conjunto com CoDs e o outro usando Re-
Para medirmos o nível de expressão gênica, que é o
des Genéticas Probabilísticas em conjunto com en-
processo completo de formação das proteínas a par-
tropia.
tir do DNA, contamos com alguns métodos biológicos. Entre eles, estão a reação em cadeia da polime-
2. Conceitos biológicos
rase (PCR, do inglês Polymerase Chain Reaction), a
2.1 Ciclo celular
Serial Analysis of Gene Expression) e as medições
O mecanismo de regulação do ciclo celular (g. 1) é
dados sob nosso estudo.
análise serial da expressão gênica (SAGE, do inglês
de microarray, que é método utilizado para obter os
um processo que consta de 3 fases especícas (repli-
O processo (g. 2) se inicia com a utilização de um
cação do DNA, transcrição e tradução), que consti-
braço mecânico de alta precisão que deposita peque-
53
3.1 Classicação das redes
Vários modelos de redes de regulação gênica já foram
propostos [3], e podemos dividí-los em determinísticos e estocásticos ou discretos e contínuos.
Uma rede determinística é um rígido sistema onde
o estado de expressão gênica (nível de expressão de
todos os genes considerados) em um dado instante de
tempo e as interações regulatórias entre eles determinam sem ambigüidade o estado de expressão gênica
do próximo instante de tempo.
Em tais redes, há
somente uma transcrição possível de um estado de
expressão gênica para o próximo.
Em um sistema estocástico, um dado estado de
Figura 2. Processo de criação das amostras de Microar-
ray.
expressão gênica pode gerar mais de um estado seguinte, por exemplo, fazendo que diferentes células
de uma mesma população possam seguir um caminho de expressão gênica diferente de um estado para
nas quantidades de DNA em uma lâmina de vidro ou
outro. A estocacidade permite variações signican-
nylon (chamada chip ), formando uma imensa ma-
tes na seqüência de ativação e inativação dos genes.
triz de pontos. Em seguida, utiliza-se duas amostras
Dada a evolução dos modelos existentes, demos pre-
de mRNAs cultivados em condições distintas, que se
ferência a um modelo discreto e estocástico.
desejam comparar. Ambas serão submetidas ao processo de transcrição reversa (fabricação de cDNA a
3.2 Modelos contínuos
partir do mRNA). Porém, elas serão marcadas com
rótulos diferentes, para que posteriormente possa-
No caso dos modelos contínuos, uma rede genética
mos diferenciar o quanto os genes são expressos em
pode ser modelada como um conjunto de equações
cada condição. É bem usual que uma das amostras
diferenciais não-lineares [10]. Devem ser encontrados
seja marcada com o uorocromo cianina 3 (Cy3, de
os parâmetros, que determinam a taxa de mudança
cor verde) e a outra com cianina 5 (Cy5, de cor ver-
da expressão de cada gene.
melha).
teração entre os genes,
Após isso, mistura-se essas amostras de cDNA
n
Há
n×n
constantes de tempo para um dos
(marcados com as diferentes colorações) com o DNA
pesos de in-
termos de viés ( bias ) e
n
nós do sistema.
A suposição de passos de tempo discretos para o pró-
que está na lâmina, para que haja hibridização (li-
ximo estado da rede se faz desnecessária aqui.
gação entre as cadeias do cDNA com cadeias do
DNA). Dessa forma, só formarão ligações as cadeias
3.3 Sistemas dinâmicos discretos
de cDNA fabricadas a partir de cadeias mRNA similares às cadeias de DNA que estão no vidro. Em seguida, com a captação da uorescência das amostras
Neste modelo, um gene é representado por uma va-
usando laser, é possível fazer a medição de quanto
riável cujo valor é dado pelo valor da expressão do
cDNA cou ligado a cada spot (ponto da lâmina de
gene. Todas essas variáveis, tomadas coletivamente,
vidro), utilizando-se técnicas de análise de imagens.
são as componentes de um vetor chamado estado do
sistema, pelo qual são chamadas variáveis de estado.
O estado do sistema representa tudo o que precisa-
3. Modelos de redes de regulação
gênica
mos para saber como descrevê-lo em qualquer instante de tempo. Em nosso caso, as variáveis de estado representam o valor da expressão dos genes, e
cada variável de estado tem associada uma função
A dependência e evolução temporais permitem tra-
que calcula seu próximo valor i.e., nível de expres-
tar essas complexas redes como sistemas dinâmicos.
são ou concentração da proteína a partir do vetor
O tipo de modelo a ser estudado será por redes ge-
de estado. Estas funções são as componentes de um
néticas probabilísticas, que trata o sistema como um
vetor de funções, chamado função de transição do
processo estocástico.
Essa abordagem é suportada
sistema, que dene a transição para o próximo es-
por considerações teóricas e por resultados experi-
tado, modelando a ação conjunta dos mecanismos
mentais.
reais de regulação.
54
R
a escala de valores que as componentes de
edades a mais, como ser capaz de lidar com a incer-
estado podem assumir. Por exemplo,
teza e também permitir a quanticação da inuência
sistemas binários,
R = {0, 1}, em
R = {−1, 0, 1} ou R = {0, 1, 2},
relativa e sensibilidade dos genes em suas interações
Seja
em sistemas de três níveis.
ção
φ,
de uma rede de
N
A função de transi-
com outros genes. Neste tipo de rede, cada nó pode
m,
ter um esquema diferente de entrada e saída, e um
variáveis e memória
RmN em RN . Ou seja, a função de transição φ mapeia os m estados prévios
x(t − 1), x(t − 2), ..., x(t − m) no estado x(t), onde
x(t) = [x1 (t), x2 (t), ..., xN (t)]T ∈ RN .
número diferente
é uma função de
k
de entradas.
Cada nó também
pode ter diferentes funções booleanas, que serão escolhidas aleatoriamente. Este tipo de abordagem é
um renamento mais realista das redes booleanas.
Um sistema dinâmico discreto é dado por
Conceitos de processos estocásticos
x(t) = φ[x(t − 1), x(t − 2), ..., x(t − m)],
para todo tempo
valor
xi ∈ R.
t ≥ 0.
Quando a função de transição
Uma componente de
x é um
Os sistemas denidos desta forma são
x(t − m), ..., x(t − 2), x(t − 1),
invariantes por translação no tempo, isto é, a função
de transição é a mesma para todo tempo discreto
φ
é uma função es-
tocástica (isto é, para cada seqüência de estados
o próximo estado
x(t)
é uma realização de um vetor aleatório) o sistema
t.
dinâmico é um processo estocástico.
A arquitetura ou estrutura do sistema é o dia-
Em termos gerais, um processo estocástico é um
grama de conexões que representa as dependências
fenômeno que varia em algum grau, de forma impre-
entre as variáveis componentes do vetor de estado. A
visível, à medida que o tempo passa. A imprevisibi-
dinâmica do sistema é a evolução temporal de vetor
lidade, nesse caso, implica que se foi observada uma
de estado seqüência de valores dada pela função
seqüência de tempo inteira do processo em diversas
de transição.
ocasiões, sob condições presumivelmente idênticas,
as seqüências em observação resultantes, seriam, em
geral, diferentes.
Redes Booleanas
A natureza estocástica das redes gênicas é ampa-
Redes Booleanas [8] são o tipo de rede discreta mais
simples. Consiste de
n
rada tanto pela teoria quanto por resultados expe-
nós, cada um representando
rimentais. Mecanismos que explicam esta estocaci-
um gene, que pode estar expresso ou não (estados
1
ou
0,
dade são, por exemplo, a degradação dos produtos
respectivamente). A dinâmica da rede é de-
terminada por
n
dos genes, a colisão espacial necessária antes que um
funções booleanas (uma para cada
nó). Cada função booleana recebe
k
reagente possa exercer sua inuência, equações de
nós de entrada,
reação reversível, etc. Conseqüentemente, os mode-
que determinam, através de regras lógicas, o estado
los estocásticos descrevem a cinética da regulação
seguinte desse nó a partir dos estados dos nós da en-
gênica melhor do que uma aproximação determinís-
trada. Este modelo é uma maneira bem simplicada
tica. Em geral, resultados experimentais podem ser
de representar uma rede gênica, pois a expressão gê-
melhor explicados e modelados por mecanismos esto-
nica tende mais a ter um comportamento contínuo
cásticos. Por outro lado, os modelos determinísticos
que binário (nunca é um caso de tudo-ou-nada). No
são mais simples que os estocásticos.
entanto, por muitos genes terem um comportamento
biestável (muito expressos ou não expressos) o mo-
3.4 Redes genéticas probabilísticas
delo binário constitui uma boa aproximação. Além
disso, as redes booleanas fornecem uma estrutura na
Aqui, as redes de regulação gênica são representadas
qual os genes podem ter interações complexas e mos-
por processos estocásticos nos quais a função de tran-
trar o comportamento comparável às características
sição estocástica é uma família particular de cadeias
das redes genéticas biológicas (por exemplo: compor-
de Markov, chamadas redes genéticas probabilísti-
tamento complexo global, auto-organização, etc. [9]),
cas [1].
por isso são um bom ponto de partida para uma mo-
Considere uma seqüência de vetores aleatórios
delagem realista de redes genéticas [2]. Talvez, a limitação mais evidente das redes booleanas seja seu
X0 , X1 , X2 , ...
determinismo inerente.
respectivamente,
que toma valores em
RN ,
denotados,
x(0), x(1), x(2), .... Uma seqüência
∞
de estados aleatórios (Xt )t=0 é chamada uma cadeia
de Markov, se para cada t ≥ 1,
Redes Booleanas probabilísticas
P [Xt = x(t)|X0 = x(0), ..., Xt−1 = x(t − 1)] =
P [Xt = x(t)|Xt−1 = x(t − 1)].
Redes booleanas probabilísticas [4] são semelhantes
às redes booleanas comuns, mas têm algumas propri-
55
Ou seja, a probabilidade condicional do evento fu-
então
p(yj |x) = p(yj |z), 0 ≤ pi ≤ m.
turo, dada a história passada, só depende do instante
de tempo anterior. Seja
X,
com realização
Y,
tado antes da transição, e seja
y,
x,
Estes axiomas implicam que cada variável
o es-
π0
πY |X
Para o instante de tempo
do vetor aleató-
•
de probabilidades condicionais entre
t ≥ 1,
py|x . A funφ no tempo t, para todo
•
é dada por
onde
y
•
é uma realização do vetor aleatório
m
Y
com
m
xj
instantes de tempo anteriores à tran-
m × N.
= Xt−1 , ..., Xt−m , com rea= x(t − 1), ..., x(t − m), a seqüência de
estados antes da transição. Uma Rede Genética
de ordem
i)
πY | X
t;
m,
1 é uma cadeia de Markov
(πY |X , π0 )
tal que:
py|x
é independente
todos os estados
x ∈ RmN , y ∈
é homogênea, ou seja,
de
ii)
py|x > 0 para
RN , ou seja,
todas as transições de estados
são possíveis (característica de um sistema ergódico);
iii)
πY | X
então a variável (gene) alvo
quando algum
akji
N
Y
xi
é predita pela variável
ai
e os estados passados
ii)
bi
e os valores de
x(t − 1), ..., x(t − m)
py|x
p(yi |x);
α=
xi (t − 1), ..., xi (t − pi ).
bi
t ≥ 1,
N X
m
X
akji xj (t − k), β =
i
pi
X
bki xi (t − k)
k=1
gi (α, β) é uma realização de uma variável aleatóR, com distribuição p(•|α, β). Esta restrição sobre gi signica que as componentes do vetor
e
∈ RmN , existe um estado
≈ 1;
v) Para cada variável (gene)
e um vetor
e
onde
seqüência de estados x
tal que
não é
é diferente de zero. Isso tam-
j=1 k=1
y∈R
xi
φi [x(t − 1), ..., x(t − m)] = gi (α, β)
é quase determinística, ou seja, para toda
N
é
xj .
i)
x ∈ RmN , y ∈ RN ,
i=1
ai
akji = 0,
é condicionalmente independente, ou seja,
py|x =
πY | X
Se
xi
xj ;
Isto signica que, para todo
para todos os estados
iv)
então a variável (gene) alvo
b. Se bki é zero, o valor de
xi no tempo t não é afetado pelo seu valor no tempo
t − k . O parâmetro pi , que é constante em relação
à variável xi , representa o número de instantes passados nos quais os valores xi podem afetar o valor
de xi (t). Se pi = 0, os valores passados de xi não
afetam os valores de xi (t).
Para a função estocástica φ, a componente i, denotada por φi , é formada pela composição de uma
função estocástica gi com duas combinações lineares:
Seja a seqüência X
Probabilística
akji < 0,
é
bém acontece com o vetor
estados de dimensão
m
Se
xi
xj ;
Dizemos que a variável
a qual de-
sição é equivalente a uma cadeia de Markov com
lização x
então a variável (gene) alvo
afetada pela variável
p•|x .
Uma cadeia de Markov de ordem
pende dos
akji > 0,
inibida pela variável
φ[x] = φ[x(t − 1)] = y
distribuição
Se
ativada pela variável
estados cujos elementos são denotados
ção de transição estocástica
gi de Z (um subconR.
t − k , dizemos que:
junto de números inteiros) em
rio representando o estado inicial e pela matriz de
transição
está
entes e uma função estocástica
o primeiro estado depois da transição. Uma ca-
deia de Markov é completamente caracterizada pela
distribuição de probabilidades
xi
caracterizada por uma matriz e um vetor de coeci-
com realização
ria em
existe uma matriz
função de transição da PGN são variáveis aleatórias
(ambos de números reais), tais
com uma distribuição de probabilidade condicionada
que, para todo x,z
∈ RmN
e
yi ∈ R ,
se
a duas combinações lineares,
α e β , dadas pelo quinto
axioma da PGN.
N X
m
X
akji xj (t − k) =
j=1 k=1
pi
X
e
bki xi (t − k)
k=1
1 ou PGN, do inglês
N X
m
X
4. Estimação das redes de regulação
gênica
akji zj (t − k)
j=1 k=1
pi
X
bki zi (t
=
k=1
− k)
Neste último tópico, mostraremos algumas maneiras
de escolher os melhores preditores para cada gene
alvo da rede e assim identicar as dependências dinâmicas entre os genes.
Probabilistic Genetic Network
56
4.1 Coeciente
(CoD)
de
determinação
mesmas amostras, i.e., o conjunto de treinamento e
de aplicação é o mesmo. O erro total é a soma dos
O Coeciente de Determinação [7]
θ1,2,...,n
erros cometidos na estimação de todas as amostras.
de um
O cálculo do erro sem observação de outros genes,
xt por um determinado conjunto de genes
preditores x1 , x2 , ..., xn pode ser denido como
gene alvo
representado por
ε0
é o erro cometido ao estimar o alvo
xt
ii) O valor estimado do alvo
próximo a
pelo
é o erro cometido ao estimar o alvo
a partir dos genes preditores
O coeciente de determinação
ε0 =
xt
x1 , x2 , ..., xn .
mar o valor do gene alvo
xt ,
para esti-
onde
n
é o número de
εi,j,...,k ,
para
as combinações do número de preditores alvo que se
desejar, é calculado da seguinte maneira:
variáveis. Se o valor do CoD se aproxima de 0, então
para a estimação do
(xt [i] − x
bt )2 ,
O cálculo do erro da estimação pela observação
com referência ao erro
x1 , x2 , ..., xn
gene alvo xt . Ao
n
X
dos genes preditores, representado por
que se teria na estimação dele sem obsrvar outras
a observação dos genes
é o inteiro mais
amostras.
θ1,2,...,n expressa a mex1 , x2 , ..., xn
x
bt
i=1
lhora relativa do erro de estimação produzida pelo
uso da informação dos genes
xt .
como:
além do valor dele mesmo nas amostras;
ε1,2,...,n
no
iii) O erro (quadrático) sem observação é calculado
θ0 é o maior pior erro de estimação
do alvo, pois nao são usadas outras informações
ii)
xt
conjunto de amostras.
seu valor médio, isto é, sem observação de outras
variáveis.
se dá da seguinte forma:
i) É calculado o valor médio do gene alvo
ε0 − ε1,2,...,n
ε1,2,...,n
=1−
,
ε0
ε0
0 ≤ θ1,2,...,n ≤ 1, onde:
θ1,2,...,n =
i)
ε0 ,
i) Usando todas as amostras, é calculado o ope-
não contribui
rador que estima o alvo.
contrário, se o
xi , xj , ..., xk ,
dos preditores
Para cada estado
ele devolve o inteiro
valor do CoD se aproxima de 1 (o caso ideal, que é o
mais próximo ao valor mais provável do alvo nas
CoD ser igual a um, não acontece na prática), então
amostras que têm esse estado dos preditores.
os genes
x1 , x2 , ..., xn
estimam o valor exato de
xt ,
ii) O operador obtido é aplicado no mesmo con-
ou seja, com erro igual a zero.
junto de amostras para estimar o valor do alvo
O CoD fornece uma medida objetiva da quali-
em todas elas.
dade de um determinado conjunto de genes preditores para estimar um determinado gene alvo (quanto
iii) O erro
maior é o valor do CoD para uma determinada com-
εi,j,...,k
é calculado da mesma forma ante-
rior, somando as diferenças quadráticas do valor
binação preditores-alvo, menor é o erro cometido na
estimado ao valor observado.
estimação de valor do gene alvo a partir dos valores
conhecidos desses genes preditores). Por isso, CoD
Finalmente, o CoD é calculado como
tem sido usado amplamente para quanticar a interação entre genes, destacando na rede suas depen-
θi,j,...,k = 1 −
dências mais relevantes.
εi,j,...,k
.
ε0
2
2. Exclusão de uma amostra : Neste método,
Métodos de estimação de erro
o estimador é treinado após a exclusão de uma amos-
Chamaremos de estimador a função que estima o va-
tra do conjunto, e esta é usada para testá-lo. Isto é
lor de um gene a partir de um conjunto de valores
feito para todas as amostras do conjunto de dados e
de outros genes (que também pode conter o próprio
os erros de estimação são somados.
O cálculo do erro sem observação de outros genes
gene). Para se estimar o erro da predição da rede,
se dá da seguinte forma, para cada amostra:
o estimador é criado (treinado) e após isso, testado,
para se estimar o erro cometido. Vamos falar aqui
i) A amostra é excluída do conjunto de dados.
sobre duas maneiras de treinar e testar esses estimadores. Em cada um dos métodos, calculamos o erro
da predição de um gene
xt
ii) É calculado o valor médio do alvo nas demais
sem e com a observação
amostras.
de outros genes, para o cálulo do CoD.
1.
Ressubstituição:
Neste método, o estima-
2 ou
dor é treinado com todas as amostras e aplicado nas
57
Leave-One-Out
I(X, Y ) = H(Y ) − H(Y |X).
iii) O valor do gene alvo na amostra excluída é estimado como o inteiro mais próximo ao valor
Isso mede a concentração da massa de probabili-
médio obtido no passo anterior.
dade de
iv) O erro quadrático de estimar essa amostra é calculado (diferença quadrática do valor estimado
ε0
em
P (Y |X)
X. A
E[I(X, Y )] de I(X, Y )
pela observação de
é dado por
ao valor do alvo na amostra excluída). O erro
sem observação
P (Y )
esperança (ou valor esperado)
E[I(X, Y )] = H(Y ) − E[H(Y |X)].
é calculado como a soma dos
erros de estimar o alvo em todas as amostras.
Quando
O cálculo do erro da estimação pela observação
E[I(X, Y )] = 0, X
e
riáveis independentes e a condição
dos genes preditores, para as combinações do nú-
deve ser testada.
mero de preditores alvo que se desejar, é calculado
então
da seguinte maneira:
têm dependência.
X
e
Y
Y devem ser vaP (Y ) = P (Y |X)
Caso esta condição seja verdade,
são independentes, caso contrário, elas
A esperança da informação mútua é usada para
i) A amostra é excluída do conjunto de dados e o
3 . A variável aleatória
estimar a PGN
estado dos preditores do gen alvo nessa amostra
do gene
é observado.
X
yi [t + 1]
Y
será o valor
a ser predito e a variável aleatória
os preditores têm o estado observado no passo
x[t] ponderado por um
a de inteiros, associado ao gene yi . Para cada
vetor a, com ai ∈ −1, 0, 1 e no máximo três valores
diferentes de 0, a informação mútua média é estimada. Os primeiros vetores a, que têm informação
anterior.
mútua maior, são selecionados.
ii) Usando as demais amostras é estimado o valor
do alvo na amostra excluída como o inteiro mais
próximo ao valor mais provável do alvo quando
de ativação ou inibição.
alvo na amostra excluída é calculado.
εi,j,...,k
5. Conclusão
é calculado como a soma dos erros
de estimar o alvo em todas as amostras excluídas,
uma por vez.
O uso de PGNs para a estimação de Redes Gênicas
Finalmente, como no caso anterior, o CoD é cal-
já está bem difundido na literatura. Está em anda-
culado como
θi,j,...,k = 1 −
mento a comparação dos resultados da estimação de
εi,j,...,k
.
ε0
redes gênicas do método descrito em [6], que usa entropia, com o método de Edward Dougherty e Walter
Em [5], vemos uma comparação entre a ecácia
Trepode [1], que usa CoDs. Ambos os métodos usam
dos dois métodos.
técnicas do crescimento de redes através de genes sementes [11], que não foram mostradas aqui. Foram
4.2 Entropia
A entropia
H(X)
usados, para os dois experimentos, dados biológicos
[6] de uma variável aleatória
a medida de sua distribuição
H(x) = −
n
X
pi ,
X
do DeRisiLab.
é
dada por
Referências
pi logpi .
[1] N. W. Trepode,
A entropia tem algumas propriedades notáveis:
Modelagem do Controle Gênico do Ci-
clo Celular por Redes Genéticas Probabilísticas
Doutorado, USP (2007).
i) Todas as distribuições formadas por permuta-
pi
Mais informações sobre a obtenção
dos dados pode ser encontrada em [12].
i=1
ções de
Esses vetores indi-
cam se há interação entre os genes e se a interação é
iii) O erro quadrático do valor estimado ao valor do
O erro
dada será o vetor de genes
vetor
, Tese de
[2] Hugo A. Armelin, Junior Barrera, Edward R. Dougherty,
João E. Ferreira, Marco D. Gubitoso, and Eduardo Jordão Neves, Simulator for gene expression networks, SPIE
Microarrays: Optical Technologies and Informatics 4266
(2001), 248259.
têm a mesma entropia;
ii) Concentrar a massa de probabilidade de uma
distribuição implica em diminuir sua entropia.
[3] H. De Jong,
Como um corolário da propriedade (ii), a distribui-
Modeling and simulation of genetic regula-
, Journal of Computational Biology 9 (2002), no. 1, 67103.
tory systems: a literature review
ção uniforme apresenta entropia máxima e aquelas
com entropia mínima tem a massa de probabilidade
total concentrada em um único ponto.
3 Aqui estamos considerando PGNs como cadeias de Markov simples.
A informação mútua entre duas variáveis aleatórias
X
e
Y
é a medida denida por
58
[4] Ilya Shmulevich, Edward R. Dougherty, Seungchan Kim,
and Wei Zhang, Probabilistic Boolean networks: a rulebased uncertainty model for gene regulatory networks, Bioinformatics 18 (2001), no. 2, 261274.
[5] Ulisses Braga-Neto, Ronaldo F. Hashimoto, Edward R.
Dougherty, Danh V. Nguyen, and Raymond J. Carroll, Is
Cross Validation Better than Resubstitution for Ranking
, Bioinformatics 20 (2004), no. 2, 253-258.
Genes?
[6] Junior Barrera, Roberto M. Cesar Jr, David C. Martins
Jr, Ricardo Z. N. Vêncio, Emilio F. Merino, Márcio M.
Yamamoto, Florencia G. Leonardi, Carlos A. de B. Pereira, and Hernando A. Del Portillo, Methods of Microarray Data Analysis V, chapter 2: Constructing Probabilistic Genetic Networks of Plasmodium falciparum from
Dynamical Expression Signals of the Intraerythrocytic
Development Cycle
11-26.
, Springer Science, New York (2007),
[7] S. Kim, Edward R. Dougherty, M. L. Bittner, Y. Chen,
K. Sivakumar, P. Meltzer, and J. M. Trent, A General
nonlinear framework for the analysis of gene interaction
, Journal of Biomedical
via multivariate expression arrays
Optics 5 (2000), no. 4, 411-424.
[8] S. A. Kauman,
Metabolic stability and epigenesis in
, Journal of Theoretical Biology 22 (1969), no. 3, 437-467.
randomly constructed genetic nets
[9] Roland Somogyi and Carol A. Sniegoski,
complexity
of
genetic
networks:
Modeling the
understanding
multi-
, Complexity 1 (1996),
genic and pleiotropic regulation
no. 6, 45-63.
[10] Mattias Wahde and John Hertz, Coarse-grained reversed
engineering of genetic regulatory networks, BioSystems
55 (2000), no. 1, 129-136.
[11] Ronaldo F. Hashimoto, S. Kim, I. Shmulevich, W. Zhang,
M. L. Bittner, and Edward R. Dougherty, Growing genetic regulatory networks from seed genes, Bioinformatics
20 (2004), 12411247.
[12] Z. Bozdech, M. Llinas, B. L. Pulliam, E. D. Wong, J. Zhu,
and J. L. DeRisi, The Transcriptome of the Intraerythrocytic Developmental Cycle of Plasmodium falciparum,
PLoS Biol 1 (2003).
59