
Bioinformática
Informações de fundo
Esta seleção é feita para as escolas de caridade infantil leia mais . Você quer saber sobre o patrocínio? Veja www.sponsorachild.org.uk


Bioinformática e biologia computacional envolvem o uso de técnicas que incluem matemática aplicada , informática, estatística , ciência da computação , inteligência artificial, química e bioquímica para resolver biológicos problemas geralmente no molecular nível. O princípio básico destas técnicas está usando recursos de computação, a fim de resolver problemas em escalas de magnitude muito grande para o discernimento humano. Investigação em biologia computacional, muitas vezes sobrepõe-se biologia de sistemas. Grandes esforços de investigação no domínio incluem alinhamento de sequências , constatação de genes, montagem do genoma, proteína estrutura de alinhamento, a previsão da estrutura de proteínas, a previsão de e a expressão do gene interações proteína-proteína, e a modelagem da evolução .
Introdução
Os termos e bioinformática biologia computacional são freqüentemente usados alternadamente. No entanto bioinformática refere mais propriamente à criação e promoção de algoritmos, técnicas computacionais e estatísticos, e da teoria para resolver problemas formais e práticas decorrentes da gestão e análise de dados biológicos. Biologia computacional, por outro lado, refere-se a investigação orientada para o hipótese de um problema biológico específico usando computadores, realizado com dados experimentais ou simulados, com o objetivo principal de descoberta e o avanço do conhecimento biológico. Em termos mais simples, a bioinformática está preocupado com a informação, enquanto biologia computacional está preocupado com as hipóteses. Uma distinção semelhante é feita por National Institutes of Health em sua definições de trabalho de Bioinformática e Biologia Computacional, onde é ainda mais enfatizada que há uma forte ligação dos desenvolvimentos e conhecimentos entre o mais investigação orientada para a hipótese em biologia computacional e investigação orientada para a técnica em bioinformática. Bioinformática é também muitas vezes especificado como um subcampo aplicada da disciplina mais geral de Informática biomédica.
Uma linha comum em projetos em bioinformática e biologia computacional é o uso de ferramentas matemáticas para extrair informação útil a partir de dados produzidos por técnicas de alto rendimento biológicos, tais como sequenciação do genoma. Um problema de representação em bioinformática é a montagem de seqüências genômicas de alta qualidade a partir de DNA fragmentado "shotgun" seqüenciamento. Outros problemas comuns incluem o estudo da regulação de genes para executar perfis de expressão, utilizando dados de microarrays ou espectrometria de massa .
As principais áreas de investigação
A análise da sequência
Uma vez que o Fago Φ-X174 foi sequenciado em 1977, o As sequências de ADN de centenas de organismos tenham sido descodificados e armazenada em bases de dados. As informações são analisadas para determinar genes que codificam polipéptidos, bem como sequências de regulação. Uma comparação de genes dentro de uma espécie ou entre espécies diferentes podem mostrar semelhanças entre as funções das proteínas, ou as relações entre espécies (o uso de sistemática molecular para construir árvores filogenéticas). Com a quantidade crescente de dados, que há muito tempo se tornou impraticável para analisar sequências de DNA manualmente. Hoje em dia, programas de computador são utilizados para pesquisar a genomas de milhares de organismos, contendo bilhões de nucleótidos. Estes programas compensar mutações (trocadas, bases eliminados ou inseridos em) a sequência de ADN, de modo a identificar as sequências que estão relacionados, mas não idêntica. Uma variante deste alinhamento de sequências é utilizada no processo de sequenciação em si. A chamada técnica de sequenciação espingarda (que foi utilizado, por exemplo, pela O Instituto de Pesquisa Genômica para sequenciar o primeiro genoma bacteriano, Haemophilus influenzae) não dá uma lista sequencial de nucleótidos, mas em vez das sequências de milhares de pequenos fragmentos de ADN (cada um com cerca de 600-800 nucleótidos de comprimento). As extremidades destes fragmentos se sobrepõem e, quando alinhados de maneira correta, compõem o genoma completo. Sequenciação espingarda produz dados de sequência rapidamente, mas a tarefa de montagem dos fragmentos pode ser bastante complicado para genomas maiores. No caso de o Projeto Genoma Humano, que levou vários meses de tempo de CPU (em um vintage circa-2000 DEC Alpha computador) para montar os fragmentos. Seqüenciamento shotgun é o método de escolha para praticamente todos os genomas seqüenciados de hoje, e algoritmos de montagem do genoma são uma área crítica de bioinformática investigação.
Outro aspecto da bioinformática na análise da sequência é a automática procurar genes e sequências reguladoras no âmbito de um genoma. Nem todos os nucleidos no interior de um genoma são genes. Dentro do genoma de organismos superiores, grandes partes do DNA não serve qualquer propósito óbvio. Esta chamada DNA lixo pode, no entanto, conter elementos funcionais não reconhecidos. Bioinformática ajuda a preencher a lacuna entre genoma e projectos proteoma - por exemplo, na utilização de sequências de DNA para a identificação de proteínas.
Veja também: A análise da sequência, sequência de perfil ferramenta, motivo de sequência.
Anotação do genoma
No contexto da genómica, anotação é o processo de marcação de genes e outras características biológicas em uma sequência de ADN. O sistema de software anotação primeiro genoma foi projetado em 1995 por Dr. Owen White, que fazia parte da equipe que sequenciado e analisado o primeiro genoma de um organismo de vida livre a ser decodificado, a bactéria Haemophilus influenzae. Dr. White construiu um sistema de software para encontrar os genes (lugares na seqüência do DNA que codificam uma proteína), o RNA de transferência e outros recursos, e para fazer atribuições iniciais de função para esses genes. A maioria dos sistemas de anotação do genoma atual funcionam de forma semelhante, mas os programas disponíveis para análise do DNA genômico estão constantemente mudando e melhorando.
Biologia evolutiva computacional
A biologia evolutiva é o estudo da origem e descida de espécies , bem como a sua mudança ao longo do tempo. Informática ajudou biólogos evolucionistas em várias maneiras importantes; tem possibilitado aos pesquisadores:
- rastrear a evolução de um grande número de organismos por medição das alterações no seu ADN , em vez de através taxonomia física ou observações fisiológicas sozinho,
- mais recentemente, comparar inteiro genomas, que permite o estudo dos acontecimentos evolutivas mais complexos, tais como duplicação de genes, transferência lateral de genes, e a previsão de factores importantes em bactérias especiação,
- construir modelos computacionais complexos das populações para prever o resultado do sistema ao longo do tempo
- acompanhar e compartilhar informações sobre um número cada vez maior de espécies e organismos
Empreendimentos trabalho futuro para reconstruir a empresa mais complexa árvore da vida.
A área de pesquisa dentro de ciência da computação que utiliza algoritmos genéticos é muitas vezes confundida com biologia evolutiva computacional, mas as duas áreas são independentes.
Biodiversidade Medição
Biodiversidade de um ecossistema pode ser definida como o complemento genómico total de um ambiente particular, de todas as espécies presentes, se é um biofilme em uma mina abandonada, uma gota de água do mar, uma colher de solo, ou de toda a biosfera de o planeta Terra . Bases de dados são usados para coletar a espécie nomes, descrições, distribuição, informação genética, o estado eo tamanho dos populações, habitat precisa, e como cada organismo interage com outras espécies. Especializada programas de software são usadas para encontrar, visualizar e analisar as informações, eo mais importante, comunicá-la para outras pessoas. Simulações de computador modelo coisas tais como a dinâmica populacional, ou calcular a saúde genética cumulativo de uma piscina de criação (em agricultura ) ou população em perigo (em conservação). Um potencial muito emocionante deste campo é que toda DNA sequências, ou genomas de espécies ameaçadas de extinção podem ser preservados, permitindo que os resultados do experimento genético da natureza para ser lembrado in silico, e, possivelmente, reutilizado no futuro, mesmo se essa espécie é eventualmente perdido.
Projetos importantes: Espécies projeto de 2000; Projeto uBio.
Análise da expressão do gene
O expressão de vários genes pode ser determinada medindo níveis de mRNA com várias técnicas, incluindo microarrays, expressa tag sequência de cDNA (EST) seqüenciamento, análise de série da expressão gênica (SAGE) tag seqüenciamento, sequenciamento paralelo em massa assinatura (MPSS), ou várias aplicações de multiplexados hibridização in-situ. Todas essas técnicas são extremamente ruído propensas e / ou sujeitos a vieses na medição biológica, e uma grande área de investigação em biologia computacional envolve o desenvolvimento de ferramentas estatísticas para separar sinal a partir de o ruído em alto rendimento estudos de expressão gênica. Tais estudos são muitas vezes utilizados para determinar os genes implicados em uma desordem: pode-se comparar os dados de microarray canceroso células epiteliais aos dados de células não-cancerosas para determinar as transcrições que são supra-regulados e regulados negativamente numa população específica de células cancerosas.
Análise da regulação
Regulamento está a orquestração complexa de eventos que começam com um sinal extracelular tal como uma hormona e que conduzem a um aumento ou diminuição na actividade de uma ou mais proteínas . Técnicas de bioinformática têm sido aplicadas para explorar vários passos deste processo. Por exemplo, análise promotor envolve a identificação e estudo de motivos de sequência no DNA circundante região codificante de um gene. Estes motivos influenciar a extensão a que essa região é transcrita em ARNm. Dados de expressão pode ser usada para inferir a regulação do gene: pode-se comparar dados de microarranjos de uma grande variedade de estados de um organismo para formar hipóteses sobre os genes envolvidos em cada estado. Em um organismo unicelular, pode-se comparar as fases do ciclo celular, juntamente com várias condições de stress (choque térmico, de fome, etc.). Pode-se então aplicar algoritmos de agrupamento para que os dados de expressão para determinar quais genes são co-expressas. Por exemplo, as regiões a montante (promotores) de genes co-expressa pode ser pesquisado para a sobre-representados elementos reguladores.
Análise da expressão proteica
Micromatrizes de proteínas e elevado rendimento (HT) espectrometria de massa (MS) pode fornecer um instantâneo das proteínas presentes numa amostra biológica. Bioinformática está muito envolvida em fazer sentido de microarray proteína e dados HT MS; a primeira abordagem enfrenta problemas semelhantes como com microarrays orientadas para ARNm, este último envolve o problema de combinar grandes quantidades de dados em massa contra massas previstas a partir de bases de dados de sequências de proteínas, e a análise estatística complicado de amostras em que vários, mas péptidos incompletos de cada proteína são detectado.
Análise de mutações no cancro
No câncer, os genomas de células afetadas são reorganizados de formas complexas ou mesmo imprevisíveis. Enormes esforços de seqüenciamento são usados para identificar previamente desconhecida mutações pontuais numa variedade de genes em cancro . Bioinformatas continuar a produzir sistemas automatizados especializados para gerenciar o grande volume de dados de sequências produzidas, e criar novos algoritmos e software para comparar os resultados de sequenciamento para a crescente coleção de seqüências do genoma humano e polimorfismos da linha germinal. Nova tecnologia de detecção física são empregados, tais como microarrays de oligonucleotídeos para identificar ganhos e perdas cromossômicas (chamados hibridização genômica comparativa), e matrizes de polimorfismo de nucleotídeo único para detectar mutações pontuais conhecidos. Estes métodos de detecção de medir simultaneamente várias centenas de milhares de locais ao longo do genoma, e quando usado em alto rendimento para medir milhares de amostras, gerar terabytes de dados por experimento. Mais uma vez as quantidades maciças e novos tipos de dados gerar novas oportunidades para bioinformatas. Os dados são frequentemente encontrados para conter variabilidade considerável, ou ruído, e, assim, Modelo oculto de Markov e métodos de análise de mudança de ponto estão sendo desenvolvidos para inferir reais número de cópias muda.
Outro tipo de dados que requer o desenvolvimento de novos informática é a análise de lesões encontradas para ser recorrente entre muitos tumores.
Previsão da estrutura da proteína
Predição de estrutura de proteínas é outra importante aplicação da bioinformática. O aminoácido sequência de uma proteína, a chamada estrutura primária, pode ser facilmente determinada a partir da sequência do gene que codifica para ele. Na grande maioria dos casos, esta estrutura primária determina unicamente uma estrutura no seu ambiente nativo. (Claro, há exceções, como a encefalopatia espongiforme bovina - aka Doença da Vaca Louca - prion .) O conhecimento desta estrutura é vital para a compreensão da função da proteína. Por falta de melhores condições, a informação estrutural é geralmente classificado como um dos secundário, terciária e estrutura quaternária. A solução geral viável para essas previsões continua a ser um problema em aberto. A partir de agora, a maioria dos esforços têm sido dirigidos para análise heurística que funcionam na maior parte do tempo.
Uma das ideias-chave em bioinformática é a noção de homologia. No ramo genómico de bioinformática, homologia é utilizada para prever a função de um gene: se a sequência de gene A, cuja função é conhecida, é homóloga à sequência do gene B, cuja função é desconhecida, pode-se inferir que B pode compartilhar função de um. No ramo estrutural de bioinformática, homologia é utilizada para determinar quais as partes de uma proteína são importantes para a formação da estrutura e interacção com outras proteínas. Em uma técnica chamada de modelação de homologia, esta informação é utilizada para prever a estrutura de uma proteína, se a estrutura de uma proteína homóloga é conhecido. Esta continua a ser actualmente a única maneira de prever estruturas de proteínas de forma confiável.
Um exemplo disto é a homologia entre a proteína hemoglobina semelhante em seres humanos e da hemoglobina nos legumes ( leghemoglobina). Ambos têm a mesma finalidade de transportar o oxigênio no organismo. Embora ambas estas proteínas têm completamente diferentes sequências de aminoácidos, as suas estruturas de proteínas são praticamente idênticos, o que reflecte os seus efeitos idênticos próximos.
Outras técnicas para prever a estrutura de proteínas incluem segmentação de proteínas e de novo (a partir do zero) de modelagem com base na física.
Veja também: e motivo estrutural domínio estrutural.
Genômica comparativa
O núcleo da análise comparativa do genoma é o estabelecimento da correspondência entre genes (análise ortologia) ou de outras características genômicas em diferentes organismos. É estes mapas intergenomic que tornam possível rastrear os processos evolutivos responsáveis pela divergência de dois genomas. Uma multidão de eventos evolutivos que atuam em diversos níveis organizacionais moldar evolução do genoma. No nível mais baixo, mutações pontuais afetar nucleotídeos individuais. Em um nível superior, grandes segmentos cromossômicos sofrer duplicação, transferência lateral, inversão, transposição, exclusão e inserção. Em última análise, os genomas inteiros estão envolvidas em processos de hibridação, e poliploidização endosymbiosis, levando muitas vezes à especiação rápida. A complexidade da evolução do genoma coloca muitos desafios emocionantes para os desenvolvedores de modelos matemáticos e algoritmos, que recorrem a um espectro de técnicas algorítmicos, estatísticos e matemáticos, que vão desde exata, heurísticas, o parâmetro fixo e algoritmos de aproximação para problemas com base em modelos parcimônia Markov Chain Monte Carlo algoritmos para análise bayesiana de problemas com base em modelos probabilísticos.
Muitos destes estudos são baseados na detecção de homologia de computação e famílias de proteínas.
Modelagem de sistemas biológicos
Biologia de sistemas envolve a utilização de simulações de computador de celulares subsistemas (tais como o redes de metabolitos e enzimas que compreendem metabolismo, vias de transdução de sinal e redes reguladoras de genes) para ambos analisar e visualizar as ligações complexas destes processos celulares. Vida artificial ou evolução virtual de busca compreender os processos evolutivos, através da simulação de computador de formas de vida simples (artificiais).
Análise de imagem de alta capacidade:
Tecnologias computacionais são usadas para acelerar ou totalmente automatizar o processamento, quantificação e análise de grandes quantidades de informação em alta conteúdo imagery biomédica. Sistemas de análise de imagem modernos aumentar a capacidade de um observador para fazer medições a partir de um grande conjunto ou complexo de imagens, melhorando exactidão, objectividade, ou velocidade. Um sistema de análise plenamente desenvolvida pode substituir completamente o observador. Embora esses sistemas não são exclusivos de imagens biomédicas, imagiologia biomédica está se tornando mais importante para ambos diagnóstico e investigação. Alguns exemplos são os seguintes:
- de alto rendimento e alta-fidelidade quantificação e localização sub-celular ( rastreio de alto teor, cytohistopathology)
- morfometria
- análise de imagem clínica e visualização
- determinar os padrões de fluxo de ar em tempo real em pulmões de animais que vivem em respirar
- quantificando o tamanho oclusão em imagens em tempo real a partir do desenvolvimento de recuperação e durante a lesão arterial
- fazer observações comportamentais a partir de gravações de vídeo estendidos de animais de laboratório
- medições de infravermelho para determinação da atividade metabólica
Proteína-proteína de ancoragem
Nas duas últimas décadas, dezenas de milhares de proteínas estruturas tridimensionais foram determinadas pela Cristalografia de raios X e Proteína espectroscopia de ressonância magnética nuclear (RMN proteína). Uma questão central para o cientista biológica é se é prático predizer possíveis interacções proteína-proteína única base de tais formas 3D, sem fazer experiências de interacção proteína-proteína. Uma variedade de métodos foram desenvolvidos para enfrentar a Proteína-proteína problema de encaixe, mas parece que ainda há muito lugar para trabalhar em neste campo.
Software e Ferramentas
Ferramentas de software para bioinformática variam de ferramentas de linha de comando simples, com programas gráficos mais complexos e web-services independentes. A ferramenta de biologia computacional mais conhecido entre os biólogos é, provavelmente, BLAST, um algoritmo para determinar a similaridade de sequências arbitrárias contra outras sequências, possivelmente a partir de bases de dados com curadoria de sequências de proteínas ou de ADN. O NCBI fornece uma implementação baseada na Web popular que procura suas bases de dados. BLAST é um de um número de programas geralmente disponíveis para fazer alinhamento de sequências.
Serviços Web em Bioinformática
SOAP e As interfaces baseadas em REST foram desenvolvidos para uma ampla variedade de aplicações de bioinformática que permitem uma aplicação rodando em um computador em uma parte do mundo a usar algoritmos, dados e recursos de computação em servidores em outras partes do mundo. As principais vantagens reside no usuário final não ter de lidar com software e manutenção de banco de dados gerais serviços de bioinformática básicas são classificados pelo EBI em três categorias: SSS (Sequência Pesquisa Services), MSA (Multiple alinhamento de sequências) e BSA (Biológicas Análise de Sequência). A disponibilidade destas bioinformática recursos orientados a serviços demonstrar a aplicabilidade das soluções de bioinformática baseados na web, e vão desde uma coleção de ferramentas autônomas com um formato comum de dados em um único, autônomo ou interface baseada na web, a integradora, distribuída e extensível bioinformática sistemas de gerenciamento de fluxo de trabalho.