5.1 - Procesamiento de imágenes
EL PROCESAMIENTO de imágenes tiene como objetivo mejorar el aspecto de las imágenes y hacer más evidentes en ellas ciertos detalles que se desean hacer notar. La imagen puede haber sido generada de muchas maneras, por ejemplo, fotográficamente, o electrónicamente, por medio de monitores de televisión. El procesamiento de las imágenes se puede en general hacer por medio de métodos ópticos, o bien por medio de métodos digitales, en una computadora. En la siguiente sección describiremos muy brevemente estos dos métodos, pero antes se hará una síntesis brevísima de los principios matemáticos implícitos en ambos métodos, donde el teorema de Fourier es el eje central.
El matemático Jean-Baptiste-Joseph Fourier (1768-1830) nació en Auxerre, alrededor de 160 km al sureste de París. Perdió a sus padres a la temprana edad de ocho años, quedando al cuidado del obispo de Auxerre, gracias a la recomendación de una vecina. Desde muy pequeño mostró una inteligencia y vivacidad poco comunes. Siguió una carrera religiosa en una abadía, al mismo tiempo que estudiaba matemáticas, para más tarde dedicarse a impartir clases. Sus clases eran muy amenas, pues constantemente mostraba una gran erudición y conocimientos sobre los temas más variados.
Fourier estaba muy interesado en la teoría del calor, y además tenía una gran obsesión práctica por él. Se dice que mantenía su habitación tan caliente que era muy incómoda para quienes lo visitaban, y que aparte de eso, siempre llevaba puesto un grueso abrigo. Algunos historiadores atribuyen esta excentricidad a los tres años que pasó en Egipto con el ejército de Napoleón Bonaparte.
La teoría de Fourier se consideró tan importante desde de sus inicios, que lord Kelvin dijo de ella: "El teorema de Fourier no solamente es uno de los resultados más hermosos del análisis moderno, sino que además se puede decir que proporciona una herramienta indispensable en el tratamiento de casi todos los enigmas de la física moderna."
El teorema de Fourier afirma que una gráfica o función, cualquiera que sea su forma, se puede representar con alta precisión dentro de un intervalo dado, mediante la suma de una gran cantidad de funciones senoidales, con diferentes frecuencias. Dicho de otro modo, cualquier función, sea o no sea periódica, se puede representar por una superposición de funciones periódicas con diferentes frecuencias. El teorema nos dice de qué manera se puede hacer esta representación, pero hablar de él va más allá del objeto de este libro.
La variación de la irradiancia o brillantez de una imagen, medida a lo largo de una dirección cualquiera es entonces una función que se puede representar mediante el teorema de Fourier, con una suma de distribuciones senoidales de varias frecuencias. Sin entrar en detalles técnicos innecesarios, simplemente afirmaremos aquí que atenuar o reforzar individualmente algunas de estas componentes senoidales puede tener un efecto dramático en la calidad de una imagen, mejorándola o empeorándola, según el caso. Este es el fundamento del procesamiento de imágenes, tanto por medios ópticos como digitales, que ahora describiremos.
VI.l. PROCESAMIENTO ÓPTICO
Los principios del procesamiento óptico de imágenes están bien establecidos desde el siglo pasado, cuando se desarrolló la teoría de la difracción de la luz. Sin embargo, su aplicación práctica data apenas del principio de la década de los sesenta, cuando se comenzó a disponer del rayo láser.
El procesamiento óptico se basa en el hecho de que la imagen de difracción de Fraunhofer de una transparencia colocada en el plano focal frontal de una lente es una distribución luminosa que representa la distribución de las frecuencias de Fourier que componen la imagen, a la que se le llama técnicamente transformada de Fourier.
Consideremos el arreglo óptico de la figura 42. En el plano focal frontal de la lente L1 se ha colocado la transparencia T, la cual está siendo iluminada por un haz de rayos paralelos provenientes de un láser de gas. Sobre el plano focal F1 de la lente L1 se forma una distribución luminosa que representa la transformada de Fourier de la transparencia. Si ahora se coloca otra lente L2 como se muestra en la misma figura, se puede formar una imagen de la transparencia en el plano focal F2 de esta lente. Si ahora se coloca cualquier objeto o diafragma sobre el plano F1, se pueden eliminar las porciones que se deseen de la transformada de Fourier de la transparencia, eliminando así de la imagen las frecuencias de Fourier deseadas.
Cada porción de la transformada de Fourier corresponde a una frecuencia espacial diferente sobre el objeto. Por lo tanto, mediante los diafragmas adecuados se pueden eliminar las frecuencias espaciales, llamadas también de Fourier, que se deseen quitar.
VI.2. PROCESAMIENTO DIGITAL
Figura 42. Procesamiento óptico de imágenes. (a) imagen original, con líneas de barrido, tipo imagen de televisión; (b) transformada de Fourier del objeto; (c) transformada de Fourier modificada, después de filtrar y (d) imagen procesada, sin las líneas de barrido.
Al igual que en el caso del procesamiento óptico, los principios fundamentales del procesamiento digital de imágenes están establecidos hace muchos años, pero no se llevaban a cabo debido a la falta de computadoras. Con la aparición de las computadoras de alta capacidad y memoria, era natural que se comenzara a desarrollar este campo. Uno de los primeros lugares donde se empezó a realizar el procesamiento digital fue en el Jet Propulsion Laboratory, en 1959, con el propósito de mejorar las imágenes enviadas por los cohetes. Los resultados obtenidos en un tiempo relativamente corto fueron tan impresionantes que muy pronto se extendieron las aplicaciones del método a otros campos.
Figura 43. División de una imagen en pixeles.
El procesamiento digital de imágenes se efectúa dividiendo la imagen en un arreglo rectangular de elementos, como se muestra en la figura 43. Cada elemento de la imagen así dividida se conoce con el nombre de pixel. El siguiente paso es asignar un valor numérico a la luminosidad promedio de cada pixel. Así, los valores de la luminosidad de cada pixel, con sus coordenadas que indican su posición, definen completamente la imagen.
Todos estos números se almacenan en la memoria de una computadora.
El tercer paso es alterar los valores de la luminosidad de los pixeles mediante las operaciones o transformaciones matemáticas necesarias, a fin de hacer que resalten los detalles de la imagen que sean convenientes. El paso final es pasar la representación de estos pixeles a un monitor de televisión de alta definición, con el fin de mostrar la imagen procesada (Figura 44).
Figura 44. Procesamiento digital de imágenes. Cefalograma en el que se han reforzado las componentes de Fourier de alta frecuencia. (Tomado de S. W. Oka y H. J. Trussell, The Angle Ortodontist, 48, núm. 1, 80, 1978). (a) Imagen original y (b) imagen procesada.
VI.3. UTILIDAD DEL PROCESAMIENTO DE IMÁGENES
La utilidad del procesamiento de imágenes es muy amplia y abarca muchos campos. Un ejemplo son las imágenes obtenidas con fines de diagnóstico médico. Otro ejemplo son las imágenes aéreas obtenidas para realizar exámenes del terreno. Mediante este método se pueden analizar los recursos naturales, las fallas geológicas del terreno, etcétera.
5.2 Visión por computadora
¿Qué es Visión?
Visión es la ventana al mundo de muchos organismos. Su función principal es reconocer y localizar objetos en el ambiente mediante el procesamiento de las imágenes. La visión computacional es el estudio de estos procesos, para entenderlos y construir máquinas con capacidades similares.
Existen varias definiciones de visión, entre éstas podemos mencionar las siguientes:
Visión es saber que hay y dónde mediante la vista“, (Aristóteles).
Visión es recuperar de la información de los sentidos (vista) propiedades válidas del mundo exterior", Gibson.
Visión es un proceso que produce a partir de las imágenes del mundo exterior una descripción que es útil para el observador y que no tiene información irrelevante", Marr.
Un área muy ligada a la de visión computacional es la de procesamiento de imágenes. Aunque ambos campos tienen mucho en común, el objetivo final es diferente. El objetivo de procesamiento de imágenes es mejorar la calidad de las imágenes para su posterior utilización o interpretación, por ejemplo:
ü Remover defectos.
ü Remover problemas por movimiento o desenfoque.
ü Mejorar ciertas propiedades como color, contraste, estructura, etc.
ü Agregar “colores falsos” a imágenes monocromáticas.
Esquema general del procesamiento de imágenes.
Esquema general de visión por computadora.
En la siguiente figura se muestra un ejemplo de procesamiento de imágenes. La tarea a realizar es mejorar la imagen de entrada, la cual es obscura. La imagen de salida es esencialmente la misma pero de mejor calidad o “más útil".
La figura mostrada a continuación ilustra la diferencia entre procesamiento de imágenesy visión; nótese que la imagen muestra ciertas descripciones importantes, como los números, que previamente fueron detectados. La salida de este sistema de visión se complementa con un módulo de reconocimiento de patrones, es decir, “saber" que letras y números contiene la placa.
Actualmente existen múltiples aplicaciones practicas de la visión computacional, entre estas podemos mencionar las siguientes:
- Robótica móvil y vehículos autónomos.
- Manufactura.
- Interpretación de imágenes aéreas y de satélite.
- Análisis e interpretación de imágenes medicas.
- Análisis de imágenes para astrónoma.
Formación y representación de la imagen.
La formación de la imagen ocurre cuando un sensor (ojo, cámara) registra la radiación (luz) que ha interactuado con ciertos objetos físicos, como se muestra en la figura 5. La imagen obtenida por el sensor se puede ver como una función bidimensional, donde el valor de la función corresponde a la intensidad o brillantez en cada punto de la imagen (imágenes monocromáticas, conocidas como imágenes en “blanco y negro"). Generalmente, se asocia un sistema coordenado (x; y) a la imagen, con el origen en el extremo superior izquierdo, ver figura 6.
Una función de la imagen es una representación matemática de la imagen. Esta es generalmente una función de dos variables espaciales (x; y):
I = f(x; y) (1.1)
Donde f representa el nivel de brillantez o intensidad de la imagen en las coordenadas (x; y). Si representamos estas funciones gráficamente, se tienen 3 dimensiones: dos que corresponden a las coordenadas de la imagen y la tercera a la función de intensidad, (figura 7).
Una imagen multiespectral f es una función vectorial con componentes (f1; f2; …, fn), donde cada una representa la intensidad de la imagen a diferentes longitudes de onda. Por ejemplo, una imagen a color generalmente se representa por la brillantez en tres diferentes longitudes de onda:
Una imagen digital es una imagen que ha sido discretizada tanto en valor de intensidad (f) como especialmente, es decir que se ha realizado un muestreo de la función continua. Este muestreo se representa matemáticamente mediante la multiplicación de la función con un arreglo bidimensional de funciones delta:
Donde cada valor de intensidad, fs(x; y), es mapeado o discretizado a un numero, por ejemplo un numero entre 0 y 255. Entonces una imagen digital monocromática puede ser representada por una matriz de NxM, donde cada valor es un numero que representa el nivel de intensidad del punto correspondiente de la imagen. Cada punto se conoce como pixel (del ingles, picture element).
Dispositivos para Visión
Existe diferentes dispositivos para la captura de imágenes. Dichas imágenes son digitalizadas y almacenadas en la memoria de la computadora. Una vez en la computadora, o en ocasiones desde el mismo dispositivo de captura, la imagen puede ser ya procesada.
Para la adquisición de la imagen se requiere de un dispositivo físico que sea sensible a una determinada banda del espectro electromagnético. El dispositivo produce una señal eléctrica proporcional al nivel de energía detectado, la cual es posteriormente digitalizada. Entre los dispositivos de captura o sensores se encuentran:
- Cámaras fotográficas.
- Cámaras de televisión (vidicón o de estado solido - CCD).
- Digitalizadores (scanners).
- Sensores de rango (franjas de luz, laser).
- Sensores de ultrasonido (sonares).
- Rayos X.
- Imágenes de tomografía.
- Imágenes de resonancia magnética.
5.3 Animación por computadora
La animación por computadora (también llamada animación digital, animación informática o animación por ordenador) es la técnica que consiste en crear imágenes en movimiento mediante el uso de ordenadores o computadoras. Cada vez más los gráficos creados son en 3D, aunque los gráficos en 2D todavía se siguen usando ampliamente para conexiones lentas y aplicaciones en tiempo real que necesitan renderizar rápido. Algunas veces el objetivo de la animación es la computación en sí misma, otras puede ser otro medio, como una película. Los diseños se elaboran con la ayuda de programas de diseño, modelado y por último renderizado.
Para crear la ilusión del movimiento, una imagen se muestra en pantalla sustituyéndose rápidamente por una nueva imagen en un fotograma diferente. Esta técnica es idéntica a la manera en que se logra la ilusión de movimiento en las películas y en la televisión.
Para las animaciones 3D, los objetos se modelan en la computadora (modelado) y las figuras 3D se unen con un esqueleto virtual (huesos). Para crear una cara en 3D se modela el cuerpo, ojos, boca, etc. del personaje y posteriormente se animan con controladores de animación. Finalmente, se renderiza la animación.
En la mayor parte de los métodos de animación por ordenador, un animador crea una representación simplificada de la anatomía de un personaje, pues tiene menos dificultad para ser animada. En personajes bípedos o cuadrúpedos, muchas partes del esqueleto del personaje corresponden a los huesos reales. La animación con huesos también se utiliza para animar otras muchas cosas, tales como expresiones faciales, un coche u otro objeto que se quiera dotar de movimiento.
En contraste, otro tipo de animación más realista sería la captura de movimiento, que requiere que un actor vista un traje especial provisto de sensores, siendo sus movimientos capturados por una computadora y posteriormente incorporados en el personaje.
Para animaciones 3D, los fotogramas deben ser renderizados después de que el modelo es completado. Para animaciones vectoriales 2D, el proceso de renderizado es clave para el resultado. Para grabaciones grabadas anticipadamente, los fotogramas son convertidos a un formato diferente o a un medio como una película o video digital. Los fotogramas pueden ser renderizados en tiempo real, mientras estos son presentados al usuario final. Las animaciones para transmitir vía Internet en anchos de banda limitados (ejem. 2D Flash, X3D) utilizan programas en el ordenador del usuario para renderizar en tiempo real la animación como una alternativa para la transmisión y para animaciones pre-cargadas para enlaces de alta velocidad.
Un ejemplo simple
La cabra en movimiento es un ejemplo de como modificar la ubicación de un objeto. Transformaciones más complejas de las propiedades de un objeto como el tamaño, forma, efectos de luz o color, requieren cálculos y renderizar por medio de la computadora en lugar de un sencillo procedimiento de duplicar o re-dibujar imágenes.Se elige un fondo de pantalla como el negro. En este caso, se dibuja una cabra en la parte derecha de la pantalla. El siguiente paso es volver a poner negra la pantalla y colocar la cabra en una posición ligeramente a la izquierda de la posición original. Este proceso se repite moviendo la cabra un poco más a la izquierda cada vez. Si este proceso es repetido lo suficientemente rápido, parecerá que la cabra se mueve suavemente hacia la izquierda. Este procedimiento básico es utilizado para todas las animaciones creadas en películas y televisión.
Explicación
Para engañar al ojo y al cerebro para que alguien piense que está viendo un objeto en movimiento, las imágenes deben ser mostradas a alrededor de 12 imágenes o marcos por segundo o más rápido. Con velocidades superiores a los 70 frames/segundo, no se notará una mejoría en el realismo o suavidad en el movimiento de la imagen debido a la manera en que el ojo y cerebro procesan las imágenes. A velocidades menores a 12 frames/segundo la mayoría de las personas podrán detectar un parpadeo en el momento en que se muestre la secuencia de imágenes y disminuirá la ilusión de un movimiento realista. Animaciones convencionales realizadas a mano, normalmente utilizan 15 frames/segundo con el objetivo de disminuir la cantidad de dibujo que se requiere, pero esto es normalmente aceptado debido a la naturaleza de los dibujos animados. Por esto, para crear una animación por ordenador realista, se requiere una cantidad superior de frames/segundo.
El motivo de que a altas velocidades no sea perceptible el parpadeo de la imagen, es por la «persistencia de la visión». De momento a momento, el ojo y cerebro trabajando juntos almacenan cualquier cosa que se esté mirando por una fracción de segundos, y automáticamente realiza «saltos» pequeños y suaves. Las películas que se exhiben en los cines, corren a 24 frames/segundo, que es suficiente para crear esta ilusión de movimiento continuo.
Fuente:
- http://bibliotecadigital.ilce.edu.mx/sites/ciencia/volumen2/ciencia3/084/htm/sec_9.htm
- http://graficacionporcomputadora.blogspot.mx/2013/05/52-vision-por-computadora.html
- http://es.wikipedia.org/wiki/Animaci%C3%B3n_por_computadora