4.2. El modelo de selección de unidades - Capítulo 1: Introducción


^ 4.2. El modelo de selección de unidades.

Como ya se citó, el punto de partida para el programa de selección de unidades era un fichero de texto procedente de un modulo anterior del 4.2. El modelo de selección de unidades - Capítulo 1: Introducción Conversor Texto-Voz que contenía la secuencia de difonemas a sintetizar, acompañados de sus características de duración y tono medio. El objetivo perseguido por el algoritmo de selección de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción unidades era buscar la secuencia de unidades procedentes de la base de datos que mejor se ajustase a la de la secuencia objetivo, en el sentido de que la utilización 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de dicha secuencia tuviese como resultado la minimización de la distorsión en la síntesis (distorsión que se produce durante el procesamiento de señal que lleva a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción cabo el algoritmo TD-PSOLA).


Dentro de la base de datos cada unidad llevaba asociado un vector de parámetros que la caracterizaba, siendo esta información en la que nos ibamos a basar de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción cara a la selección. En nuestro caso, la información que se guardaba para cada unidad estaba contenida en el fichero listetiq que, como ya fue descrito anteriormente 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, guardaba para cada elemento de la base de datos las características que a continuación se relacionan:
























Con el fin de determinar qué unidad concreta de la base de datos tenía las características que mejor se ajustaban a las de la unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción/secuencia de unidades objetivo debíamos tener en cuenta los distintos factores que iban a influir en la distorsión. Así, se pudo distinguir en principio los siguientes factores 4.2. El modelo de selección de unidades - Capítulo 1: Introducción causantes de la distorsión [Black, 91]:


- Distorsión producida por la sustitución:


Esta distorsión se produce como consecuencia de la sustitución de la unidad objetivo por una unidad de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la base de datos, que generalmente poseerá unas características prosódicas diferentes de las buscadas, siendo necesario un procesamiento de señal mediante TD-PSOLA, que es el que precisamente da lugar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a esta distorsión. Como ya se señaló anteriormente, las características finitas de la base de datos harán que esta distorsión siempre se encuentre presente (aún tratándose de una unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción con exactamente las mismas características prosódicas que las buscadas, se generará una distorsión en la misma derivada de los distintos redondeos que se producen en el procesado 4.2. El modelo de selección de unidades - Capítulo 1: Introducción).


- Distorsión producida por la concatenación:


Esta distorsión se genera al pegar unidades de la base de datos que provienen de contextos fonéticos diferentes. En general, al proceder 4.2. El modelo de selección de unidades - Capítulo 1: Introducción las unidades de lugares diferentes van a tener características espectrales diferentes en la zona de pegado, existiendo una discontinuidad que influirá negativamente sobre la calidad de la síntesis al poderse percibir en 4.2. El modelo de selección de unidades - Capítulo 1: Introducción mayor o menor grado sonidos similares a una pequeña explosión en las uniones entre unidades [Hunt, 96].





secuencia objetivo


oi-1 oi oi+1

ui-1 ui u i+1

secuencia de unidades






dist. sustitución



dist 4.2. El modelo de selección de unidades - Capítulo 1: Introducción. concatenación

Figura 4.1 Componentes de la distorsión.

^ 4.3. El programa BUNIDAD2.EXE.

Como ya se citó en la descripción global del proceso de la síntesis, este programa era el encargado de seleccionar la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción secuencia óptima de unidades de la base de datos que mejor se ajustaba a una secuencia objetivo, en el sentido de que al emplear dichas unidades en la s 4.2. El modelo de selección de unidades - Capítulo 1: Introduccióníntesis la distorsión derivada del procesamiento llevado a cabo por TD-PSOLA fuese mínima.


Para poder cuantificar la distorsión introducida por el sintetizador al modificar la prosodia de las unidades 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, se definieron una serie de distancias entre las distintas características contempladas en los vectores que representaban a cada unidad y las características demandadas por el fichero que contenía 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la secuencia de unidades objetivo acompañadas de su prosodia (*.di). Se definió una distancia asociada a cada característica que tratara de medir la distorsión derivada del hecho de emplear una unidad de la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción base de datos con un valor dado para dicha característica, en lugar del valor pedido para la unidad correspondiente de la secuencia objetivo, considerándose la distorsión global como una 4.2. El modelo de selección de unidades - Capítulo 1: Introducción suma ponderada de todas estas distancias. Al tratarse de una suma ponderada se pudo controlar la importancia relativa que se asignaba a cada distancia dentro de la distorsión global, sin 4.2. El modelo de selección de unidades - Capítulo 1: Introducción más que modificar los valores de los pesos asociados a cada una de ellas, y pudiendo incluso llegar a anular alguno de los factores considerados inicialmente (asignando un peso 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de valor nulo a dicha distancia) en caso de considerar que su importancia no resultaba significativa de cara a la medida de la distorsión. En cuanto a la definición de las distancias parciales 4.2. El modelo de selección de unidades - Capítulo 1: Introducción nos encontramos con dos casos bien diferenciados:



En el primer caso, en el que los valores de las características se movían en un 4.2. El modelo de selección de unidades - Capítulo 1: Introducción rango “continuo” –como puede ser el caso de la duración de las unidades o su tono- la definición de distancias se presentó como una tarea más sencilla de realizar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que en el caso de características del segundo grupo descrito, como puede ser el contexto fonético. En el primero de los casos, la definición de las distancias 4.2. El modelo de selección de unidades - Capítulo 1: Introducción siempre implicaba alguna variación sobre la distancia euclídea entre las características, pero en el segundo, al no ser posible establecer una relación de orden, no se pudo recurrir a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción esta estrategia. En este segundo caso lo que se hizo fue recurrir a distancias que, o bien no penalizasen en absoluto la elección de la unidad (al tratarse de una 4.2. El modelo de selección de unidades - Capítulo 1: Introducción unidad compatible con lo que estábamos buscando, asignando un valor cero a la distancia), o bien hiciesen prohibitiva la elección de la unidad (asignando un valor muy grande a la distancia 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, de tal forma que se pusiese en clara desventaja a esta unidad frente a unidades del mismo tipo de cara a la selección).


Hay que tener en cuenta que nuestras distancias no 4.2. El modelo de selección de unidades - Capítulo 1: Introducción debían, en ningún caso, eliminar unidades por muy malas que fuesen desde el punto de vista de la distorsión, ya que el algoritmo de selección siempre debía 4.2. El modelo de selección de unidades - Capítulo 1: Introducción proporcionar al menos una unidad de la base de datos para que fuese empleada en la síntesis. Por lo tanto, la estrategia a seguir fue la de asignar distancias 4.2. El modelo de selección de unidades - Capítulo 1: Introducción muy grandes a las unidades “malas”, teniendo en cuenta, que en caso de no disponer de una unidad que se ajustase apropiadamente a las condiciones de búsqueda, se seleccionaría aquella unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción dentro de las “malas” que mejor se ajustase a nuestros propósitos. Este hecho lógicamente se reflejaría de forma negativa sobre la calidad de la síntesis, pero hay que considerar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que esta reducción en la calidad no sería consecuencia de un defecto del algoritmo de selección de unidades, sino más bien de la calidad de la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción base de datos empleada en cuanto a la variedad de unidades presente en la misma.


Asociadas a los distintos factores detectados que influían en la distorsión se decidió emplear las siguientes 4.2. El modelo de selección de unidades - Capítulo 1: Introducción distancias:


- Distancia entre la duración de las unidades.

- Distancia entre los tonos.

- Distancia entre los contextos fonéticos.

- Distancia asociada a la concatenación de unidades.


Las dos primeras distancias vienen 4.2. El modelo de selección de unidades - Capítulo 1: Introducción asociadas a la distorsión citada anteriormente derivada de la sustitución de unidades, mientras que las dos últimas engloban el fenómeno de la distorsión en el pegado de las mismas.


De 4.2. El modelo de selección de unidades - Capítulo 1: Introducción este modo, la expresión global de la distorsión introducida en la síntesis quedaría como sigue:





Donde:


Hay que destacar que, alternativamente a esta elección de características, se podría haber empleado otra serie de ellas, o incluso un 4.2. El modelo de selección de unidades - Capítulo 1: Introducción conjunto adicional que complementase a las actuales y contribuyese a un mayor refinamiento del modelo aunque, si bien es cierto, también contribuiría a aumentar la complejidad del mismo [Black, 91].

^ 4.3.1. Distancia 4.2. El modelo de selección de unidades - Capítulo 1: Introducción entre la duración de las unidades.

Esta distancia trata de medir la distorsión que se produce por el hecho de emplear una unidad de la base de datos con una duraci 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónón diferente de la perseguida en la unidad objetivo. Hay que tener en cuenta que la definición de esta distorsión debe estar directamente relacionada con el mecanismo que se emplea 4.2. El modelo de selección de unidades - Capítulo 1: Introducción en TD-PSOLA para modificar las duraciones, con el fin de medir realmente la distorsión producida por el procesado de señal y no otra cosa diferente. Además, la distancia 4.2. El modelo de selección de unidades - Capítulo 1: Introducción debe de ser relativa a la duración perseguida, con el fin de ser capaces de estimar la distorsión que se produce en la duración de una forma porcentual y poder comparar directamente 4.2. El modelo de selección de unidades - Capítulo 1: Introducción las distorsiones asociadas a las distintas instancias de la base de datos. La expresión general para la distancia es la que sigue:


d
onde:

-dur es la duración 4.2. El modelo de selección de unidades - Capítulo 1: Introducción del elemento a considerar.

-peso es un factor que dependerá de una serie de condiciones.

-u y o son respectivamente la unidad de la base de datos y la unidad objetivo.


El valor del 4.2. El modelo de selección de unidades - Capítulo 1: Introducción peso que se aplica a la expresión general se encuentra directamente relacionado con la forma que tiene el algoritmo TD-PSOLA de modificar las duraciones. Como ya se citó en 4.2. El modelo de selección de unidades - Capítulo 1: Introducción el apartado dedicado a TD-PSOLA, la modificación de la prosodia era posible mediante la repetición con una determinada cadencia de los periodos básicos constituyentes de la unidad, de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción tal forma que se consideró que la variación del peso se debía producir en función del número de periodos que fuera necesario quitar o repetir de la unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de la base de datos. Para ello se calculó el número medio de periodos que contenían tanto la unidad de la base de datos como la unidad a sintetizar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción:

número medio de periodos = duración * (tono medio)

Como se puede ver, esta definición de distancia tiene cuenta de forma simultánea la duración y el tono, aspecto acorde con las modificaciones 4.2. El modelo de selección de unidades - Capítulo 1: Introducción realizadas por TD-PSOLA, en el que resulta imposible hacer modificaciones en una característica sin hacerlas en la otra. Con el objeto de ir penalizando progresivamente aquellas situaciones 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que nos resultaban menos ventajosas se decidió cuantificar los pesos en cuatro valores de menor a mayor grado de penalización.


Así se optó por emplear el siguiente esquema en la asignación de los 4.2. El modelo de selección de unidades - Capítulo 1: Introducción pesos:



^ Figura 4.2. Asignación de pesos en la distancia entre duraciones


Lo que se hizo en primer lugar fue comprobar si la duración de la unidad contenida en la base de datos 4.2. El modelo de selección de unidades - Capítulo 1: Introducción era mayor que la duración pedida, en cuyo caso el peso que se imponía a la distancia siempre era menor. De este modo se trató de evitar que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción el algoritmo seleccionase unidades con una duración original más pequeña que la pedida. Esto se hizo así porque cuando la duración de la unidad es inferior a la solicitada 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, la forma que tiene el algoritmo TD-PSOLA de alargar la duración es mediante la repetición de periodos de la misma, lo que va a dar lugar a fenómenos de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción acoplamiento o reverberación cuando se repiten varios periodos exactamente iguales, lo que se traduce en que estas unidades presentan una especie de timbre metálico al ser escuchadas, reduciendo 4.2. El modelo de selección de unidades - Capítulo 1: Introducción este efecto considerablemente la calidad de la síntesis.


Asimismo, se estableció también un porcentaje sobre el número de periodos de modificación de las unidades, de cara a penalizar algo más 4.2. El modelo de selección de unidades - Capítulo 1: Introducción aquellas unidades en las que fuera necesario eliminar un mayor número de periodos de señal para recortar su duración. De este modo se pretendía centrar la selecci 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónón sobre aquellas unidades cuya duración, además de ser mayor que la pedida, difiriese de ella en un número pequeño de periodos, de tal modo que el número de periodos 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a eliminar para recortar su duración siempre fuese el mínimo posible, respetándose la estructura original de la unidad en la mayor medida de lo posible. Esto 4.2. El modelo de selección de unidades - Capítulo 1: Introducción se hizo así porque el criterio de eliminación de periodos no era capaz de distinguir aquellos periodos de señal más significativos de aquellos que resultaban menos importantes, pudiéndose degradar bastante la calidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de la unidad original. Hay que destacar que este mismo criterio también se aplicó para las unidades cortas, de cara a que, en las condiciones más adversas en las 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que no hubiese unidades largas en la base de datos, la tendencia fuese a seleccionar siempre las más largas que estuviesen disponibles.

^ 4.3.2. Distancia entre el tono de las unidades.

Como su 4.2. El modelo de selección de unidades - Capítulo 1: Introducción propio nombre indica esta distancia trata de medir la distorsión que se produce al modificar la curva de tono de las unidades de la base de datos para ajustarse a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la de la unidad objetivo. De forma similar al caso anterior, la distancia entre las curvas de tono de las unidades se definió como una distancia euclídea entre los tonos medios de la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción unidad de la base de datos y de la unidad objetivo, ponderada por un cierto factor que trataba de penalizar aquellas situaciones más desfavorables. Además, esta distancia se normaliz 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónó para ver la distorsión porcentual producida en la unidad al realizar la midificación en frecuencia, y para poder comparar con las distancias de otras unidades de cara a la posterior selecci 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónón. La expresión general de la distancia así descrita:





En cuanto al valor otorgado a los pesos, al igual que en el caso de las duraciones se empleó un 4.2. El modelo de selección de unidades - Capítulo 1: Introducción conjunto cuantificado de cuatro valores que trataba de reflejar la penalización en función de la situación concreta.


Así :





Figura 4.3. Asignación de pesos en la distancia en tono


La estrategia seguida fue 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la de dar una mayor preferencia a aquellas unidades de la base de datos que, además de presentar una curva de tono con una pendiente similar a la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de la unidad objetivo, tenían tonos medios cuya diferencia era inferior a un porcentaje fijado del tono medio de la unidad a sintetizar. De esta forma se pretendía que las modificaciones en la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción estructura de los periodos de las unidades no fuesen muy grandes, quedando las unidades con una estructura muy similar a la original y estando, por lo tanto menos distorsionadas.


Hay que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción destacar que además se penalizó muy fuertemente a aquellas unidades cuyo tono medio difería en más de un porcentaje dado del tono medio de la unidad a sintetizar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, tanto por exceso como por defecto. De este modo se pretendió reflejar la limitación que presenta TD-PSOLA de cara a modificar el tono medio de las unidades en más de dos 4.2. El modelo de selección de unidades - Capítulo 1: Introducción octavas, tanto hacia arriba como hacia abajo.


No obstante, en nuestro caso el porcentaje que se fijó fue algo inferior a esas dos octavas, ya que al escuchar algunas de las 4.2. El modelo de selección de unidades - Capítulo 1: Introducción unidades que habían sido sometidas a modificaciones de este orden, se pudo apreciar que la distorsión introducida era demasiado elevada, cifrándose experimentalmente la modificación máxima en frecuencia 4.2. El modelo de selección de unidades - Capítulo 1: Introducción en un valor en torno al cuarenta por ciento del tono medio original.

^ 4.3.3. Distancia entre los contextos fonéticos.

La distancia entre contextos fonéticos trata de medir la distorsión 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que se produce en la síntesis por el hecho de emplear una unidad de la base de datos procedente de un contexto fonético diferente de aquel en el que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción va a ser utilizado en la secuencia objetivo [King, 97]. En efecto, si observamos distintas instancias de una misma unidad provenientes de contextos fonéticos diferentes, se puede apreciar que en ocasiones presentan diferencias 4.2. El modelo de selección de unidades - Capítulo 1: Introducción espectrales en su zona inicial y, dado que es precisamente en este punto en el que se produce la concatenación de unidades, este aspecto se traducirá en un mal pegado 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de las mismas, reduciéndose la calidad de la síntesis al ser claramente perceptibles los saltos entre unidades.




Figura 4.4. Unidad AB1 tomada de contextos diferentes (/K/ y /N/)


Las diferencias espectrales encontradas 4.2. El modelo de selección de unidades - Capítulo 1: Introducción en la zona inicial de las unidades son debidas a que existe un efecto de coarticulación entre los sonidos adyacentes, siendo aproximadamente igual el espectro de las unidades cuando la unidad precedente 4.2. El modelo de selección de unidades - Capítulo 1: Introducción es la misma. En adición a esto, se pudo apreciar que existían algunos grupos de fonemas para los cuales la estructura de formantes que se daba en el 4.2. El modelo de selección de unidades - Capítulo 1: Introducción comienzo de la unidad siguiente no difería mucho, constituyendo por lo tanto una serie de conjuntos de contextos fonéticos en principio equivalentes para cada sonido en concreto, no siendo por lo general las 4.2. El modelo de selección de unidades - Capítulo 1: Introducción relaciones de equivalencia bilaterales.






Figura 4.5. Unidad ALA proveniente de contextos compatibles (/S/ y /T/)


Dado que esta característica no nos ofrecía la posibilidad de hacer una definición de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción distancia similar a las anteriores, en el sentido de tratarse de una distancia euclídea, en nuestro caso se optó por emplear una distancia que estuviese cuantificada en principio en 4.2. El modelo de selección de unidades - Capítulo 1: Introducción tres valores diferentes:




^

4.3.4. Distancia de concatenación de unidades.

Esta distancia, al igual que la anterior, trata 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de reflejar la distorsión producida por el hecho de concatenar unidades de la base de datos que han sido extraídas de lugares diferentes, debiendo en principio poseer características 4.2. El modelo de selección de unidades - Capítulo 1: Introducción espectrales diferentes en la zona de unión. La principal diferencia con la anterior es que, mientras que la distancia de contextos asignaba un valor en función de unas reglas “estáticas 4.2. El modelo de selección de unidades - Capítulo 1: Introducción” definidas a través de la experiencia, en este caso se trata de medir directamente la distorsión a partir de la distancia entre los espectros de las unidades a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción concatenar, resultando una medida de la distorsión que se presenta en principio como mucho más objetiva.


Para medir la distancia entre los espectros se empleó un conjunto de coeficientes que fuera capaz de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción representar el espectro de la unidad trama a trama, de tal modo que la distancia entre dichos coeficientes fuese directamente proporcional a la distancia entre los espectros. De este modo, la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción distorsión producida por la concatenación de dos unidades sería proporcional de alguna forma a la diferencia entre los coeficientes de la última y primera trama de las unidades a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción concatenar.


Los coeficientes empleados fueron los mel frequency cepstrum (mfc), que nos proporcionan una “medición” del espectro en un conjunto de bandas de frecuencia que se encuentran predefinidas. Hay que destacar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción que para el cálculo de los mel cepstrum no se emplea una escala lineal de frecuencias, sino que se utilizan unas bandas logarítmicas, lo que es claramente acorde con las 4.2. El modelo de selección de unidades - Capítulo 1: Introducción características del oído humano.


El cálculo de los mel cepstrum se hizo en el programa que extraía los difonemas, para lo cual se añadió al mismo una 4.2. El modelo de selección de unidades - Capítulo 1: Introducción rutina que básicamente consistía en lo siguiente:


En primer lugar se define un conjunto de 20 bandas de frecuencia en una escala logarítmica, cuyos límites expresados en hertzios son 4.2. El modelo de selección de unidades - Capítulo 1: Introducción los siguientes:


Límites de las bandas ={0, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1231.144, 1515.717, 1866.066, 2297.396, 2828.427, 3482.202, 4287.093, 5278.031, 6498.019, 8000.000}


A continuación, se calcula con qué punto concreto de la FFT se corresponde cada uno de los límites definidos anteriormente:





Puesto que en principio todas 4.2. El modelo de selección de unidades - Capítulo 1: Introducción las bandas no van a tener la misma importancia, de cara al cálculo de los coeficientes, también se definen unos pesos que van a ponderar los resultados 4.2. El modelo de selección de unidades - Capítulo 1: Introducción parciales obtenidos para cada banda, y que dependen tanto de la banda en concreto considerada como de la posición de la muestra dentro de la misma.


El cálculo de dichos coeficientes se efect 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónúa de la siguiente forma:




Una vez efectuado todo este proceso previo común para el cálculo de los coeficientes de las distintas tramas, se procede al cálculo 4.2. El modelo de selección de unidades - Capítulo 1: Introducción propiamente dicho de los coeficientes para cada trama de los difonemas. Para ello, lo primero que hay que hacer es determinar las muestras que caen dentro de cada una de las 4.2. El modelo de selección de unidades - Capítulo 1: Introducción tramas. Al igual que en el algoritmo TD-PSOLA, cada trama está compuesta por dos periodos de señal del difonema (análisis Pitch-Synchronous), de tal forma que el número de tramas por que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción esta compuesto cada difonema es:


num_tramas = num_marcas_pitch - 2


Por lo tanto, cada trama contendrá las muestras comprendidas entre tres marcas de pitch consecutivas del difonema, existiendo un solapamiento de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción un periodo de señal entre cada dos tramas consecutivas. A continuación, para las muestras de la trama se hace el siguiente proceso:





siendo x[n 4.2. El modelo de selección de unidades - Capítulo 1: Introducción] el valor de las muestras.






d
onde X[k] son los coeficientes obtenidos del cálculo de la FFT.













Una vez realizado el cálculo de los coeficientes mel cepstrum, se procedió a la definición de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción una distancia que fuese capaz de cuantificar la distorsión. De cara a esta distorsión, cada unidad vendría representada por dos vectores de coeficientes: el vector con los mel cepstrum correspondiente 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a la primera trama de la unidad y el vector correspondiente a los coeficientes de la última trama. El resto de vectores no se tuvo en cuenta, ya que se consider 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónó que las tramas intermedias no resultaban determinantes de cara a evaluar la distorsión en el pegado de unidades. Se optó por definir la distancia como la "diferencia" entre los 4.2. El modelo de selección de unidades - Capítulo 1: Introducción vectores de cepstrum de la última y de la primera trama de la unidades que deseábamos concatenar, pero dado que el rango de variación de cada uno de los coeficientes era diferente esta 4.2. El modelo de selección de unidades - Capítulo 1: Introducción diferencia no podía hacerse directamente como la distancia euclídea entre ambos vectores, sino que era necesario recurrir a otro tipo de solución. Puesto que se consider 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónó que en principio la importancia de todos los coeficientes debía ser la misma, la solución escogida fue la de emplear la distancia de Mahalanobis entre los dos vectores de coeficientes 4.2. El modelo de selección de unidades - Capítulo 1: Introducción. La expresión simplificada de esta distancia queda en nuestro caso:






donde var[i] representa la varianza del coeficiente i-ésimo.


Como se puede ver, la expresión es similar a la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de la distancia euclídea, quedando dividido cada uno de los miembros por la varianza del coeficiente en cuestión. De esta forma se consigue que, a pesar de que los coeficientes tengan un rango 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de variación diferente unos de otros, a la hora de calcular la distancia todos tengan la misma importancia relativa. Al dividir por la varianza de cada coeficiente quedan amortiguadas 4.2. El modelo de selección de unidades - Capítulo 1: Introducción las diferencias muy grandes en aquellos coeficientes que presentan una mayor varianza, y se amplifica la diferencia en aquellos con una varianza más pequeña dado que en ellos esta pequeña diferencia puede ser 4.2. El modelo de selección de unidades - Capítulo 1: Introducción más significativa.


Al igual que en los casos anteriores, se decidió ponderar estas distancias por un determinado factor que se encargase de que la distancia entre aquellas unidades que no 4.2. El modelo de selección de unidades - Capítulo 1: Introducción concatenaban bien fuese muy grande, perjudicándolas de cara a la posterior selección. En caso de que la distorsión en el pegado fuese razonable, este peso sería igual a 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la unidad, resultando directamente la distorsión la distancia de Mahalanobis entre los vectores de mel cepstrum de las unidades. Para ello, lo que se hizo fue multiplicar por un factor 4.2. El modelo de selección de unidades - Capítulo 1: Introducción bastante elevado el resultado del cálculo de la distancia de Mahalanobis entre las unidades cuando este valor sobrepasase un cierto valor, a partir del cual se consideraba que la concatenaci 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónón entre unidades no era buena.


Con el fin de poder determinar este valor de una forma más o menos fiable se elaboró un programa que realizaba una serie de cálculos de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción tipo estadístico de las distancias entre las unidades originales. Para ello, se tomó todo el conjunto de unidades que aparecía en el fichero listetiq, y se analizó la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción distancia de concatenación entre las distintas unidades, tomando sólo para este análisis aquellas unidades que eran sonoras, ya que se consideró que esta era la mejor forma de obtener unos resultados fiables 4.2. El modelo de selección de unidades - Capítulo 1: Introducción. Se calculó la distancia de concatenación entre cada una de estas unidades y su unidad precedente en el contexto original del que habían sido extraídas, y se 4.2. El modelo de selección de unidades - Capítulo 1: Introducción hizo un estudio sobre el valor medio y la desviación típica de estas distancias para ver cuáles eran los valores de distancias que se podían considerar como 4.2. El modelo de selección de unidades - Capítulo 1: Introducción “buenos”. Asimismo, se resaltaron las distancias más elevadas, empleando estos valores (añadiéndoles un cierto margen para asegurarnos de que eran válidos) como el umbral por encima del cual se 4.2. El modelo de selección de unidades - Capítulo 1: Introducción debía considerar que los espectros de dos unidades no pegaban adecuadamente.


Adicionalmente, en el estudio de aquellos casos en los cuales la distancia era excesiva pudimos detectar que en algunas de estas unidades 4.2. El modelo de selección de unidades - Capítulo 1: Introducción se habían producido errores de segmentación o de marcado, no resultando por lo tanto estas unidades fiables de cara al cálculo y siendo eliminadas de la base de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción datos hasta que fuesen correctamente marcadas o segmentadas.


^ 4.3.5. El algoritmo de búsqueda.

E
l algoritmo de búsqueda es el encargado de encontrar la secuencia de unidades de la base de datos que mejor 4.2. El modelo de selección de unidades - Capítulo 1: Introducción se ajusta a las características prosódicas de la secuencia objetivo, en el sentido de que esta secuencia es aquella para la que se minimiza la distorsión global producida por 4.2. El modelo de selección de unidades - Capítulo 1: Introducción el procesado de señal [Black, 91] [Hunt, 96]:


En nuestro caso se empleó una búsqueda de Viterbi, de cara a obtener aquel conjunto de unidades para las cuales se minimizaba la distorsión 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de una forma global. Hay que destacar que la selección de unidades no se podía hacer de izquierda a derecha de la secuencia (unidad a unidad), ya que de este 4.2. El modelo de selección de unidades - Capítulo 1: Introducción modo lo que se hacía era optimizar la selección de cada una de las unidades por separado, no teniendo este por qué ser el resultado que minimizase la 4.2. El modelo de selección de unidades - Capítulo 1: Introducción distorsión global producida. Este hecho se puede explicar fácilmente si tenemos en cuenta que, al ser el carácter de las unidades de la base de datos bastante heterogéneo, sería 4.2. El modelo de selección de unidades - Capítulo 1: Introducción bastante probable que el algoritmo fuese seleccionando unidades que pegasen muy bien unas con otras, pero que se encontrase en cierto momento con que el pegado de una determinada unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción por la izquierda fuese muy bueno y por la derecha realmente malo, al carecer de unidades en este lugar que concatenasen bien con la anterior. En este sentido, la búsqueda 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de Viterbi solucionó este problema, ya que siempre tiende a seleccionar una secuencia de unidades que sin llegar a ser la óptima en cada uno de los puntos, es la que ofrece una continuidad m 4.2. El modelo de selección de unidades - Capítulo 1: Introducciónás uniforme en los puntos de pegado de una forma global, apreciándose menos saltos bruscos entre unidades y tendiendo, por lo tanto, a ser mejor la calidad de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la síntesis en cuanto a continuidad de la misma.


Se elaboró un programa para el cálculo de las secuencias óptimas de unidades según el algoritmo de Viterbi. Este programa 4.2. El modelo de selección de unidades - Capítulo 1: Introducción recibe como argumento de entrada un fichero con la secuencia de difonemas a sintetizar acompañados de sus características prosódicas (*.di). Lo primero que hace el programa es buscar todas aquellas instancias 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de las unidades demandadas que hay disponibles en la base de datos, para lo cual hace una lectura previa del fichero que contiene la lista con todas las etiquetas, listetiq, junto a toda aquella 4.2. El modelo de selección de unidades - Capítulo 1: Introducción información sobre las unidades que nos va a resultar necesaria de cara al cálculo de las distintas componentes de la distorsión citadas en el apartado anterior.


Una 4.2. El modelo de selección de unidades - Capítulo 1: Introducción vez hecho esto, construye una especie de array con tantas columnas como unidades tenga la secuencia objetivo a sintetizar. Cada una de las columnas contiene el conjunto de instancias de la unidad que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción hay que sintetizar en esa posición concreta, siendo el número de filas por lo tanto, el de instancias de dicha unidad. Así, a modo de ejemplo, si suponemos que nuestra 4.2. El modelo de selección de unidades - Capítulo 1: Introducción secuencia objetivo fuese la siguiente:


KA 115 180

AS 65 161

S 90 161

SA 70 161

A_ 80 142


el array resultante de la búsqueda en la base de datos podría ser:





AS@4













AS@3




SA@3




KA@2

AS@2




SA@2




KA@1

AS 4.2. El modelo de selección de unidades - Capítulo 1: Introducción@1




SA@1

A_@1

KA

AS

S

SA

A_



Una vez construido este array se pasa directamente al proceso de búsqueda en el mismo. Para cada una de las celdas del mismo, además de 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la información sobre la unidad de la base de datos que representa, se almacenaba la distorsión (distancia) acumulada que se llevaba hasta ese punto más información sobre el camino seguido 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a lo largo del array para llegar a dicho valor.


La forma de calcular las distancias en cada una de las celdas es la siguiente:





Como se puede ver 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, la distancia en cada punto está compuesta como ya se dijo anteriormente por dos elementos. En primer lugar, se encuentra la distancia derivada de la sustitución, que se calcula a partir de las distancias 4.2. El modelo de selección de unidades - Capítulo 1: Introducción entre el tono y duración de la unidad en concreto y de la unidad objetivo contenida en el fichero *.di. En segundo lugar está la suma de la distorsión derivada 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de la concatenación y de la distorsión acumulada en el punto desde el cual se concatena. Esta segunda componente de la distorsión se calcula como el valor 4.2. El modelo de selección de unidades - Capítulo 1: Introducción mínimo de dicha suma de distancias (acumulada más concatenación) entre la unidad considerada y todo el conjunto de unidades de la columna anterior, guardando de forma adicional en 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la celda el punto [i-1][k] desde el cual se ha llegado a tal valor. En el caso de la primera columna esta distorsión carece de sentido, considerándose en este caso que 4.2. El modelo de selección de unidades - Capítulo 1: Introducción el segundo término de la expresión es nulo y señalando cada una de las celdas de dicha columna como el posible principio de la secuencia óptima.


El proceso 4.2. El modelo de selección de unidades - Capítulo 1: Introducción de cálculo de las distancias continúa hasta que se consiguen rellenar todas las celdas del array, y es entonces cuando se puede proceder a determinar la secuencia óptima. Como se puede apreciar 4.2. El modelo de selección de unidades - Capítulo 1: Introducción, este aspecto constituye una de las principales diferencias entre esta técnica y la de optimización de izquierda a derecha, ya que en nuestro caso no se conoce cuál va 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a ser la secuencia global hasta el final de todo el proceso, mientras que en el otro la selección se va haciendo en cada una de las posiciones, pudiéndose 4.2. El modelo de selección de unidades - Capítulo 1: Introducción conocer cuando estuviésemos en la posición i-ésima todo el conjunto de unidades seleccionadas hasta esa posición.


La forma de determinar cuál es la secuencia a escoger, consiste 4.2. El modelo de selección de unidades - Capítulo 1: Introducción en examinar las celdas de la última columna, y quedarnos con aquella que presenta un valor mínimo de distancia. Este punto se considera que es el correspondiente a la instancia de unidad 4.2. El modelo de selección de unidades - Capítulo 1: Introducción a escoger para la última posición, ya que es el que presenta una distorsión global acumulada mínima tras recorrerse toda la secuencia. Lo que se hace para calcular 4.2. El modelo de selección de unidades - Capítulo 1: Introducción la secuencia óptima es recorrer el camino seguido para llegar hasta dicho punto, cosa sencilla si tenemos en cuenta que en las celdas, además de la distancia se almacena el 4.2. El modelo de selección de unidades - Capítulo 1: Introducción punto de la columna anterior a partir del cual se ha llegado a dicha distancia. De este modo, podemos conocer cuál es el punto desde el cual se llegó a ese elemento final y 4.2. El modelo de selección de unidades - Capítulo 1: Introducción repetir todo este proceso columna a columna hasta llegar al elemento de la primera columna del array, que será la instancia de la unidad inicial a escoger.

  • oldrussian.ru/konceptualnie-aspekti-dinamiki-bitiya-hatha-jogakonceptualnij-ocherk.html
  • oldrussian.ru/application-of-extracorporeal-shock-wave-therapy-eswt.html
  • oldrussian.ru/profesionl-bakalaura.html
  • oldrussian.ru/98references-word-of-the-president-of-the-eaeeie-the-president-of-the-club-eea-the-co-ordinator-of-the-theiere.html
  • oldrussian.ru/rozdl-2-ekonomchnij-rozvitok-provdnih-kran-svtu-v-xix-na-pochatku-xx-st.html
  • oldrussian.ru/english-12-course-syllabus-english-language-arts-primary-course-materials.html
  • oldrussian.ru/grammar-adjectives-the-present-directory-of-esl-links-aims.html
  • oldrussian.ru/210-summary-of-the-country-study-foreword.html
  • oldrussian.ru/editable-texts-from-the-first-edition-of-53.html
  • oldrussian.ru/compensatory-education-program-definition-the-basic-skills-section-provides-leadership-oversight-and-policy.html
  • oldrussian.ru/the-adventures-of-sherlock-holmes-by-arthur-conan-doyle-12.html
  • oldrussian.ru/chapter-x-complexity-governance-and-canadas-diamond-mines-patricia-j-fitzpatrick-waterloo.html
  • oldrussian.ru/1-zagaln-polozhennya-11-vstup-shemi-vdobrazhennya-nformac-23.html
  • oldrussian.ru/mnsterstvo-ohoroni-navkolishnogo-prirodnogo-ser-edovisha-ukrani-ukranskij-naukovo-dosldnij-nstitut-ekologchnih-problem-ukrndep-stornka-4.html
  • oldrussian.ru/dublin-city-development-plan-2005-2011-south-east-area-committee-meeting-12.html
  • oldrussian.ru/robocha-navchalna-programa-dlya-studentv-specalnost-060100-pravoznavstvo-kiv-2011.html
  • oldrussian.ru/customs-and-trade-automated-interface-requirements-ace-m1-20.html
  • oldrussian.ru/naconalna-yuridichna-akademya-ukrani-men-yaroslava-mudrogo-na-pravah-rukopisu-fazikosh-ganna-vasilvna-stornka-6.html
  • oldrussian.ru/ternoplskij-naconalnij-ekonomchnij-unversitet-na-pravah-rukopisu-bojko-zoryana-mihajlvna.html
  • oldrussian.ru/the-action-verb-structure-hl7-ehr-s-fm-glossary-of-terms.html