Mejorando la producción de proteínas a través de la innovación digital

El análisis de texto o procesamiento de lenguaje natural es un área innovadora en la intersección de las ciencias de la computación, la inteligencia artificial y la lingüística. Esta área de conocimiento ha cobrado gran importancia con el surgimiento del análisis de redes sociales, donde casi la totalidad de los análisis se basan en el descubrimiento de información en textos.

El descubrimiento de entidades y el cálculo de las relaciones semánticas existentes entre las mismas en diferentes textos representa un reto tecnológico. Este reto es incluso más importante cuando se trata de aprovechar esta información para la extracción de conocimiento y el tratamiento automatizado en ámbitos como el biomédico, donde nos encontramos con textos en ámbitos relacionados como la biología y la medicina. Es esto se une el hecho de la gran cantidad de información textual publicada en estos ámbitos cada año.

Vamos a mostrar cómo es posible hacer uso de técnicas de análisis de texto para descubrir información científica relevante en contextos en los que es posible tener un conocimiento amplio del problema a resolver. Sin embargo, estas técnicas suelen requerir que un experto del dominio del problema exprese las necesidades de extracción de información.

bioledge1
La información contenida en artículos científicos forma redes de conocimiento implícito

Semántica en el descubrimiento de entidades en textos científicos

En el proyecto europeo Bioledge (http://bioledge.eu), el grupo de investigación Khaos (http://khaos.uma.es) ha estudiado el problema del análisis de texto en el dominio de la producción de proteínas de interés para sectores como la producción de cerveza. Este sector tiene como problemática relevante el estudio de la composición de los entornos de producción para aumentar la producción por hora reduciendo los costes lo máximo posible. Sin embargo, el estudio de la composición de estos entornos es un proceso costoso tanto en tiempo como en recursos. Por ello, el descubrir resultados experimentales de los organismos usados o incluso de organismos similares supone una ventaja competitiva. Estos resultados experimentales pueden ser obtenidos de publicaciones científicas que están disponibles libremente. Pero el número de publicaciones que se producen cada año hace inviable su búsqueda manual.

mbp
La innocación digital es sencial para el sector de la producción de proteínas, un sector altamente tecnológico

La solución tradicional a esta problemática es hacer uso de buscadores generalistas como es el caso de Google para localizar aquellos artículos relevantes para la producción de cierto tipo de proteínas, y analizar de forma manual (mediante la lectura de un investigador) de cientos de artículos. Este proceso es muy costoso en tiempo y en recursos personales, por lo que se limita a contextos académicos.

doodle_proteins
Los buscadores generalistas no pueden dar soporte a necesidades de descubrimiento de información especializada

En el proyecto Bioledge se han desarrollado soluciones de análisis de texto basadas en la representación explícita del problema abordado (producción de proteínas) para no sólo localizar los documentos relevantes, sino también extraer la información contenida en los mismos de interés para este problema. Esta solución digital permitirá a las empresas de este sector abordar el descubrimiento de resultados científicos que permitan optimizar sus procesos de producción con un coste mucho menor, reduciendo la cantidad de estudios experimentales que requieren para poner en producción nuevo procesos.

bioledge2
El grupo Khaos dentro del proyecto europeo Bioledge ha desarrollado soluciones tecnológicas para dar soporte al descubrimiento automático de conocimiento en grandes cantidades de documentos científicos

Imaginemos una empresa farmacéutica que produce un medicamento cuyo principal compuesto es Ecallantide, usado para el tratamiento de ataques de angioedema hereditario (un trastorno de sistema inmunológico). Esta empresa estará interesada por tanto en conocer los últimos desarrollos en el principal organismo usado en su producción: Pichia pastoris. Usando la aproximación tradicional, esta empresa haría uso de buscadores generalistas para localizar publicaciones relacionadas con esta especie, usando: pichia pastoris pubmed. Sin embargo, esta especia ha sido recientemente reclasificada como Komagataella pastoris. De forma que los buscadores generalistas no podrán localizar artículos relacionados con esta especie. Gracias a los resultados obtenidos en el proyecto Bioledge, esta empresa podría localizar artículos mencionando a cualquiera de los dos nombres y sus posibles abreviaturas (p. pastoris, k. pastoris, etc.).

2016-04-08 (2).png
El uso de semántica del dominio del problema ayuda a obtener información que quedaría oculta en soluciones más generalistas

Descubrimiento de relaciones en entornos pobres en conocimiento explícito

Existen entornos en los que no es posible o sería muy costoso declarar de forma explícita el ámbito de búsqueda de entidades y relaciones. Esto puede deberse a la complejidad del dominio de aplicación o a la rápida evolución del mismo. En el caso de la biomedicina nos encontramos con un dominio altamente complejo en que además existe la tendencia de almacenar la información principalmente como texto (sin estructura que facilite su análisis automático). Es interesante, por tanto, explorar mecanismos capaces de operar en estos entornos donde no es posible disponer de una descripción explícita del dominio o ámbito de búsqueda, pero que aseguren un nivel aceptable de calidad de las soluciones.

Como parte del desarrollo basado en los resultados del proyecto europeo Bioledge (http://bioledge.eu), se ha desarrollado un método eficiente que permita la extracción de relaciones semánticas en entornos pobres en conocimiento explícito (Maciej Rybinski, José Francisco Aldana Montes: Calculating semantic relatedness for biomedical use in a knowledge-poor environment. BMC Bioinformatics 15(S-14): S2 (2014)). Esta aproximación obtiene resultados comparables a técnicas existentes basadas en conocimiento explícito, pero con la flexibilidad de poder operar sin dicho conocimiento.

La aproximación seguida en este trabajo hace uso de un pequeño corpus (conjunto) de documentos relativamente pequeño y genérico, del que se extraen de forma automática estadísticas sobre la aparición de términos y sus frecuencias de aparición. Estos documentos de referencia se analizan previamente al proceso de extracción de información, y permite construir un glosario para el procesamiento posterior. En base a este análisis inicial, se realiza un procesamiento posterior para alinear el resto de documentos con respecto al vocabulario generado. Todo ello se procesa de forma eficiente como paso previo al procesamiento requerido por los usuarios.

Esta técnica ha sido aplicada en conjunto de publicaciones de biomedicina para detectar referencias a enfermedades y relaciones entre las mismas, obteniéndose resultados comparables a respuestas humanas en la resolución de dicho problema.

Para saber más sobre producción de proteínas en entornos empresariales

c-LEcta from Labiotech.eu on Vimeo.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s