Enseñan a ordenadores a describir imágenes con palabras
(NC&T) Este prometedor proyecto se lleva a cabo en la Universidad Estatal de Pensilvania.
El nuevo sistema puede anotar automáticamente esos pies de foto básicos para colecciones completas de fotografías a medida que son cargadas online, lo que significa un ahorro substancial de tiempo para millones de usuarios de Internet que actualmente etiquetan o identifican sus imágenes examinándolas y clasificándolas una a una personalmente. También facilita la búsqueda de imágenes al utilizar términos de búsqueda.
James Wang (profesor en la facultad de Ciencias y Tecnología de la Información) y Jia Li (profesora del departamento de Estadística) son los principales inventores de la tecnología.
Hoy, los mayores motores de búsqueda se basan en etiquetas de texto cargadas online para describir las imágenes. Aunque bastantes colecciones cuentan con esas anotaciones descriptivas de texto, muchas otras no las poseen. El resultado: las imágenes sin etiquetas de texto no son accesibles desde los buscadores en la Red. Debido a que el sistema ALIPR, llamado así por sus siglas en inglés, que significan Indexador Lingüístico Automático de Imágenes en Tiempo Real, elabora etiquetas de texto para las imágenes, éstas se vuelven visibles a los usuarios de la Red.
El sistema ALIPR realiza esto al analizar el contenido de los píxeles de las imágenes y compararlos con la información de una base de datos sobre el contenido en píxeles de decenas de miles de imágenes de ejemplo. El ordenador sugiere una lista de 15 posibles "anotaciones" o palabras para la imagen.
Wang explica que, al tener decenas de miles de imágenes, han entrenado a las computadoras para que sean capaces de reconocer ciertos objetos y conceptos, y automáticamente describan con palabras esas imágenes nuevas o vistas por primera vez. Más de la mitad de veces, la primera etiqueta del ordenador (de las 15 que genera) es correcta.
El sistema, que completa la anotación en aproximadamente 1,4 segundos, también puede ser aplicado a otros dominios, como colecciones de arte, fotos tomadas desde satélite, e imágenes de patologías médicas.
Los investigadores reconocen que el entrenamiento de los ordenadores se topa con dificultades cuando las fotos son borrosas o tienen poco contraste o resolución, cuando los objetos se muestran parcialmente, y cuando el ángulo usado por el fotógrafo presenta una imagen de un modo que es muy diferente al que le sirvió al ordenador para entrenarse. Al agregar más imágenes de entrenamiento y también al mejorar la manera de realizar éste, será posible reducir dichas limitaciones.
|