Conozca Graphein: una biblioteca de Python para el aprendizaje profundo geométrico y el análisis de redes en estructuras de proteínas y redes de interacción
Las técnicas de aprendizaje profundo se utilizan para datos con una estructura no euclidiana subyacente, como gráficos o variedades, y se conocen como aprendizaje geométrico profundo. Estos métodos se han utilizado previamente para resolver varios problemas en biología computacional y biología estructural, y se han mostrado muy prometedores en el desarrollo e identificación de nuevos fármacos. Se han desarrollado marcos geométricos de aprendizaje profundo que incluyen funcionalidad de representación gráfica y conjuntos de datos incorporados, centrándose en moléculas pequeñas en general. Un área de investigación bien desarrollada se centra en estrategias de minimización y análisis computacional de gráficos de moléculas pequeñas. Aún no se ha puesto el mismo énfasis en la preparación de datos para el aprendizaje geométrico profundo en biología estructural e interactómica.
Considerablemente más compleja que las moléculas pequeñas, la estructura molecular básica de las proteínas está indisolublemente ligada a su función. Se pueden usar diferentes niveles de granularidad para completar los gráficos de proteínas, desde gráficos a escala atómica que se asemejan a moléculas pequeñas hasta gráficos a nivel de residuos individuales. La estructura de conectividad de los datos se puede capturar a través de relaciones espaciales o interacciones intramoleculares de orden superior que no son visibles en gráficos de moléculas pequeñas. Además, las interacciones entre entidades biomoleculares facilitan varios procesos biológicos a través del contacto físico directo, a menudo impulsado por su estructura 3D. Por lo tanto, existe la necesidad de un mayor control sobre el proceso de ingeniería de datos y la privatización de los datos estructurados.
Se necesita más trabajo para explorar la influencia de las representaciones gráficas de estructuras biológicas dentro del aprendizaje automático y para combinar información estructural y de interacción. El grafeno es una herramienta para resolver estos problemas al brindar flexibilidad a los investigadores, reducir el tiempo necesario para preparar los datos y facilitar la investigación repetible. Para realizar tareas biológicas, las proteínas se ensamblan en estructuras tridimensionales complejas. El cuerpo de estructuras de proteínas construidas y modeladas experimentalmente ha crecido gracias a décadas de estudio en biología estructural y avances recientes en el plegamiento de proteínas. Este conjunto de datos tiene un gran potencial para guiar futuras investigaciones. Todavía se está determinando la forma ideal de describir estos datos en la investigación de aprendizaje automático. Las representaciones estructuradas en red de estructuras de proteínas a menudo se tratan con redes neuronales convolucionales 3D (3DCNN), y los enfoques basados en secuencias han demostrado ser ampliamente utilizados.
Sin embargo, en el contexto de las interacciones intramoleculares y la química interna de las estructuras biomoleculares, estas representaciones deben capturar información de contacto. Además, son computacionalmente costosos y pierden el acceso a la información estructural global, ya que estos enfoques se enfocan en grandes áreas del espacio y tienen limitaciones computacionales que a menudo limitan la extensión de la proteína a las regiones de interés. Por ejemplo, a menudo limita el volumen que se puede concentrar en un bolsillo de unión, lo que proporciona información sobre los sitios alostéricos en la proteína y los posibles reordenamientos conformacionales que ayudan al reconocimiento molecular. Estas son tareas clave en el descubrimiento de fármacos basado en datos.
Además, las imágenes volumétricas 3D a menudo requieren invariancia traslacional y rotacional, lo cual es costoso para los enfoques de aumento de datos. Dado que los gráficos son invariantes a la traslación y la rotación, los gráficos son menos sensibles a estos problemas. Los descriptores estructurales de posición pueden explotarse y aprovecharse de manera útil utilizando diseños como redes neuronales equivalentes (ENN), que garantizan que las transformaciones geométricas aplicadas a sus entradas corresponden a transformaciones definidas de las salidas. En varios grados de granularidad, las redes de interacción biológica y de proteínas se pueden representar naturalmente como gráficos. Las estructuras de proteínas se representan mediante gráficos de niveles de residuos, con residuos de aminoácidos como nodos y conexiones entre ellos como bordes, a menudo basados en interacciones intramoleculares o cortes basados en la distancia euclidiana.
Los gráficos de nivel atómico representan la estructura de la proteína de manera similar a cómo los gráficos de moléculas pequeñas representan moléculas pequeñas, con nodos que representan átomos individuales y bordes, a menudo enlaces químicos o conexiones, nuevamente cortes basados en la distancia. La estructura de un gráfico se puede aclarar mejor dando los nodos asociados, los bordes y las propiedades numéricas de todo el gráfico. Estas propiedades pueden indicar, por ejemplo, propiedades químicas o tipo de átomo del residuo, asignaciones de estructuras secundarias o índices de accesibilidad del solvente. Los tipos de enlace o interacción, así como las distancias, son ejemplos de propiedades extrañas. Las anotaciones funcionales y los descriptores basados en secuencias son ejemplos de características gráficas. La información estructural se puede superponer a los nodos de proteínas en las redes de interacción para proporcionar una perspectiva multiescala de los sistemas y funciones biológicos.
El grafeno sirve como enlace entre la interactómica estructural y el aprendizaje geométrico profundo. La biología estructural y la investigación de aprendizaje automático han utilizado con éxito representaciones gráficas de proteínas en el pasado. La creación de Graphein estuvo motivada por la falta de un control detallado sobre las construcciones y los conjuntos de funciones, API públicas para acceder a software de alto rendimiento, facilidad de integración de métodos de datos e incompatibilidad con bibliotecas de aprendizaje profundo a pesar de la presencia de servidores web. para calcular gráficos de estructura de proteínas. El paquete es de código abierto y el código se puede encontrar en GitHub.
Echale un vistazo Papel y Github. Todo el crédito de este estudio es para los investigadores de este proyecto. Tampoco olvides unirte Nuestra página de Reddit, Canal de discordia, y Boletín electrónicoaquí compartimos las últimas noticias de investigación de IA, proyectos geniales de IA y más.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos enfocados en aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le gusta comunicarse con la gente y colaborar en proyectos interesantes.