domingo, 19 de diciembre de 2010

SINTETIZADORES DE VOZ

El otro día estuvimos hablando de los sistemas de reconocimiento de voz y su implementación en maquinas como los contestadores-automáticos.

Si en el caso de estas maquinas la idea es el reconocimiento y la ejecución de una serie de determinadas sentencias que les emitimos de viva voz, ahora lo que se pretende es que el propio sistema emita los sonidos que se le introduzcan sin que hayan sido pregrabados con anterioridad.

El sistema está compuesto por dos partes: el front-end prepara el texto y lo convierte a una representación fonética, después el back-end lee este formato y sintetiza los sonidos requeridos.

Para determinar la calidad de un sistema de este tipo se utilizan dos criterios, la naturaleza y la inteligibilidad. El primero mide cuan la voz sintética se aproxima a la voz humana y el segundo mide si la voz es entendida por los seres humanos. Estos dos factores pueden observarse en cualquiera de estos sistemas, hasta tal punto de percibir señales muy robóticas y otras muy naturales (todo lo natural que suena una voz sintética vaya).
Las dos tecnologías más utilizadas son las siguientes:

La concatenación: se basa como su propio nombre indica en la concatenación de pequeños segmentos de voz pregrabados y reproducidos en tiempo de ejecución. Es la técnica más usada en la actualidad y la que obtiene mejores resultados.

La síntesis de formantes: no usa muestras del habla humana sino un modelo acústico basado en una serie de parámetros como la frecuencia fundamental, ruidos…

El principal problema de estos sintetizadores de voz es que aun no se ha conseguido una voz tan natural como la voz humana…nos siguen pareciendo muy robóticas las voces de, por ejemplo, el GPS del coche, y sigue habiendo reticencias entre la población a todo aquello que tenga que ver con este tipo de voces…

Con todo, se está consiguiendo mejorar las prestaciones de estos sistemas, y quién sabe? Quizá algún día se nos hará imposible distinguir la voz de una maquina de una humana, quien sabe, quizá incluso se nos haga mucha más agradable.

CONTESTADORES AUTOMÁTICOS

Seguro que todo el mundo sabe lo que son estos bichejos, pero pocos saben cómo funcionan, pocos saben de sus tripas pues bien aquí dejo colgado algo acerca de su funcionamiento.

Un sistema de reconocimiento de voz es un sistema capaz de, con ayuda de alguna herramienta computacional, procesar la voz humana para obtener información de ella. Entre las utilidades practicas esta la producción de textos y de sentencias y la comunicación oral con la maquina. No es difícil de imaginar; el típico contestador automático cuando llamamos a la mismísima Telefónica…algo más impresionante, un autómata controlado por voz.

Actualmente son muchas las herramientas que se utilizan para modelar estos sistemas. El más común es el basado en las llamadas colas de Marcof ocultas. La idea es utilizar el clásico modelo de cadenas de Marcof que todos conocemos pero con la desventaja añadida de que uno no sabe en qué estado se encuentra en cada momento, solo ve diferentes observaciones en cada estado con diferente probabilidad. De esta manera, utilizando una serie de Algoritmos se calculan las probabilidades de transición entre estado (Viterbi) y se modelan las distintas funciones de densidad de probabilidad de las observaciones en los diferentes estados (Baum-Welch). Estudiando el vector observado se identifica vaya de acuerdo a una serie de probabilidades el camino más probable de la consecución de una serie de palabras.

Pero el problema en este tipo de sistema sigue radicando en la capacidad de aprendizaje. Observe que para poner en marcha un sistema de reconocimiento de nuestra propia voz por ejemplo, tenemos que enseñar de alguna manera al sistema a reconocer nuestra voz y enseñarle a distinguirla del resto por ejemplo porque queremos que reconozca la nuestra propia y no la de otros( imagine que con esto podríamos ordenar sentencias propias que solo fueran obedecidas por nuestra propia computadora. El entrenamiento se basa en la repetición y repetición de sentencias y podría incluso auto-entrenarse con el paso del tiempo…

En sistemas en los que solo tengamos que reconocer una sentencia emitida por cualquier usuario, se hace más complicado puesto que cada persona tiene una voz  distinta y luego está el problema de los acentos, los dejes, la prolongación de los sonidos… Increíble es como aun a pesar de todos estos problemas, el sistema funciona. E cierto que muchas veces falla y resulta tedioso estar repitiendo y repitiendo una misma sentencia una y otra vez porque el sistema no la reconoce, pero en la mayoría de los casos el sistema lo resuelve sin problemas.

Con todo, hoy es una realidad, fíjense en los Contestadores automáticos del 99% de los servicios de atención al cliente del mundo.

LAS ECOGRAFÍAS

Las ecografías…

El que leyera el artículo acerca del sonar que escribimos la semana pasada, le será mucha más fácil entender el mecanismo de la toma de ecografías que explicamos en este artículo.

El sistema de toma de una ecografía es similar al del Sonar, se emiten una serie de ultrasonidos a unas determinadas frecuencias para que la longitud de onda sea pequeña. Las ondas en vez de rebotar en el fondo marino, ahora rebotan en los órganos, en los músculos en los huesos, reflejándose, en función de las distintas densidades de los líquidos que componen nuestros órganos. Las ondas reflejadas son recogidas por un transductor que lleva la señal a una computadora, procesando la señal que recibe y formado la señal deseada…

El gel que se utiliza sirve para mejorar la directivita de las ondas ultrasónicas, actualmente se rellena de burbujas pues se ha demostrado que las burbujas hace que los ultrasonidos entren en resonancia, facilitando una mejor recepción de la imagen.

Actualmente es uno de los sistemas más usados en medicina pues permite obtener una señal sin emitir radiación electromagnética, como por ejemplo sí que hace un radiografo.

Destacar que cuanto mayor es la frecuencia de los ultrasonidos, mayor es la reflexión y por lo tanto mejor es la resolución pero también es menor la penetración en los órganos, a modo de ejemplo, el transductor que se suele emplear para dibujar la aorta suele ser de 3.5MHz, el de 7,5 MHz para los ecos de los fetos…

Espero que os haya gustado la exposición, que por lo menos sepáis de qué va esto, que no os parezca nada del otro mundo, nada que no hayamos estudiado…

martes, 14 de diciembre de 2010

La UPC consigue grabar los sonidos del fondo marino

La Universitat Politècnica de Catalunya ha desarrollado un sistema equipado con hidrófonos que registra, por primera vez en tiempo real, los sonidos del fondo marino.
  
El sistema, desarrollado por el Laboratorio de Aplicaciones Bioacústicas y que vuelca los datos en Internet, identifica la presencia de cetáceos y permite analizar cómo los ruidos producidos por la actividad humana pueden afectar al hábitat natural de estos animales y al equilibrio natural de los océanos.

  De hecho, la nueva directiva europea del mar establece que, antes de 2012, los estados miembros deberán cumplir un conjunto de indicadores para medir la contaminación acústica marítima.
 
En 2007, el laboratorio inició el proyecto Listening to the Deep Ocean Enviroment (Lido) para grabar los sonidos del fondo del mar y evaluar, 'a posteriori', en qué medida los ruidos artificiales --transporte marítimo, pesca, construcciones, maniaboras militares-- influyen en la calidad de vida de los cetáceos y les provocan enfermedades o, incluso, la muerte.
 
Dirigido por Michael André, el LAB ha desarrollado unos algoritmos que interpretan estos sonidos de forma automatizada, los clasifican en tiempo real en función de su origen biológico o antropogénico, y, dentro de esta división, identifican las especies de cetáceos presentes en el área analizada.
 
Los datos permiten medir el grado de impacto de las fuentes de contaminación acústica sobre la conservación de los ecosistemas.
 
La innovación es pionera en el mundo y permite un ahorro considerable del tiempo de análisis y de recursos humanos en los procesos de detección y clasificación de los sonidos.
 
  Finalmente, las señales acústicas y el resultado del análisis se pueden escuchar y visualizar en directo a través de una web accesible para la comunidad científica internacional y para las personas no expertas.
 
 

El címbalo.

El címbalo (también conocido como címbalo húngaro) es un instrumento musical que tiene un origen un tanto incierto. Se cree que el pueblo gitano lo llevó a Europa oriental aproximadamente en el siglo XIII. Es muy utilizado en la música de países como Hungría, Rumanía, Eslovaquia, Ucrania, etc., y en la música persa iraní, donde se le conoce como santur.
Es un instrumento de cuerda, y se toca con un par de mazos en ambas manos, golpeando las cuerdas para hacerlas sonar. Es una especie de salterio pero de mayor tamaño, aunque también los hay portátiles.

El mazo del dulcémele folklórico fue tomado por V. Josef Schunda, un experto fabricante de pianos que vivía y trabajaba en Pest, Hungría, como base para un címbalo de concierto, ideó la producción en serie en 1874. El primer libro de texto para este instrumento fue publicado por Geza Allaga, un miembro de la orquesta de la Real Ópera húngara en 1889.
El instrumento se hizo popular en el Imperio Austrohúngaro y fue utilizado por todos los grupos étnicos en el país, incluyendo a judíos klezmorim, así como los músicos eslavos y magiares (húngaros), y los romaníes (gitanos) y los músicos lautari (lăutari). El uso de este instrumento se extendió a finales del siglo XIX y sustituyó a la kobza en los conjuntos folklóricos rumanos y moldavos. En Valaquia se utiliza casi como un instrumento de percusión. En Transilvania y Banat, el estilo de tocarlo es más tonal.


 




lunes, 13 de diciembre de 2010

TRATAMIENTO DIGITAL DEL SONIDO

Una forma de tratar una vibración sonora (música o voz) para su manejo por medios informáticos (para meterlo en un CD de música por ejemplo), es digitalizarla (transformarla en números) mediante muestreo.  Consiste en medir la amplitud de la vibración en intervalos de tiempo muy cortos, lo que se realiza mediante un dispositivo ADC ("Analog-to-Digital Converter").  Cada muestra ("Sample") se almacena como un número y la frecuencia a que se realiza la medición es la velocidad de muestreo ("Sampling rate").  Los valores numéricos obtenidos son anotados, y esta sucesión de resultados constituye una representación numérica de la vibración.  Si los números son representados en binario dentro del ordenador, tendremos una representación digital binaria de la música, muy apropiada para su tratamiento por medios informáticos.  Para reconstruir el sonido a partir de su representación digital, basta construir un dispositivo conversor DAC ("Digital-to-Analog Converter") que mande a un altavoz impulsos eléctricos proporcionales a los valores de la serie de números previamente almacenada (cosa relativamente fácil de hacer desde el punto de vista de la ingeniería electrónica).

En estos procesos, la calidad del sonido almacenado y reproducido, comienza en el proceso de toma de datos (muestreo), y termina en el dispositivo de reproducción utilizado (altavoces). En ningún caso se puede reproducir un sonido con mejor calidad que la que se empleó en la grabación, y en este orden de ideas, no es lo mismo grabar en monoaural (un solo canal) que en estéreo (dos canales) o en sonido cuadrafónico (cuatro canales), y por tanto doble o cuádruple cantidad de información (una serie por canal).

En el proceso de toma de datos solo intervienen dos factores:  La frecuencia  de muestreo y la precisión de la medida almacenada. 

Frecuencia:  Cuanto más numerosa es la serie de valores anotados, con mas fidelidad se puede reconstruir después la forma de la onda original.  Por lo general se estima que la frecuencia debe ser por lo menos el doble de la mayor frecuencia que se desea reproducir .  Para reproducir con una mínima calidad las frecuencias más altas del espectro audible (20 KHz) se requieren 40 KHz (el estándar CD-audio estableció una frecuencia de muestreo de 44.1 KHz).

Precisión:  La calidad y riqueza de matices de la reproducción está directamente relacionada con la precisión utilizada para la medida de la amplitud y el almacenamiento de los resultados.  Si utilizamos un almacenamiento de 8 bits para cada medida, solo podemos tener 256 magnitudes distintas para describir la amplitud de la señal.  En cambio, si utilizamos 2 bytes (16 bits), disponemos de 65.536 posibilidades, con lo que la información puede ser mas rica en detalles.  En este sentido es evidente que un almacenamiento de 8 bits por muestra será más pequeño pero de peor calidad que otro de 16 bits (que ocupará el doble).  Al referirse al almacenamiento de audio es frecuente utilizar expresiones como 8, 16, 24, 32 bits de profundidad de sonido, en referencia al número de bits utilizados para almacenar cada muestra.

Resulta claro que la economía de almacenamiento y la calidad apuntan en direcciones distintas, por lo que debe llegarse a una solución de compromiso en función del uso que se pretenda.  No es lo mismo almacenar el contenido de una conversación telefónica que un concierto para reproducción en estéreo.

lunes, 6 de diciembre de 2010

HANG DRUM

Hang se creó hace apenas 8 años, en el año 2000, y se le puede considerar uno de los instrumentos musicales más nuevos. Viene de la ciudad de Berna, en Suiza, y lo creó Felix Rohner y Sabina Schärer, pertenecientes a la compañía PANArt. Fué el resultado de muchos años de investigación con el acero y otros instrumentos de percusión resonante por todo el mundo, como son el Gong, el Gamelan, el Ghatam, etc.


Existen muchos modelos de Hang, e incluso debido a su propia construcción, uno se puede diseñar el suyo propio para que de un tono particular. En idioma bernés Hang significa mano, ya que es un instrumento de percusión tocado con la mano.

El instrumento se compone de dos hemisferios de metal soldados y los lados se llaman DING y GU. El lado DING contiene 8 tonos musicales en forma de circulos que rodean a un circulo central mayor (el llamado DING) y que tiene un sonido muy parecido al Gong. El otro lado, el lado GU, hay un agujero para la resonancia del sonido que se genera dentro.

Se puede tocar de muchas formas diferentes: con la punta de los dedos, los pulgares o la palma de la mano, o mezclando las tres a la vez. La mayoría del tiempo, el Hang se sitúa en las piernas del compositor pero también se puede tocar apoyado en otra superficie. La única regla para tocarlo es disfrutar.

La mejor forma de entender lo que es el instrumento y lo que se puede hacer con él es verlo en funcionamiento.

http://www.youtube.com/watch?v=GhgF8GO_yrE&feature=related