Microprosodia

La Mikroprosodie es una parte de la prosodia y se ocupa del análisis de variaciones microscópicas en la amplitud y frecuencia de una señal de voz. Se examinan principalmente los efectos de la fluctuación y el brillo conocidos de la tecnología de transmisión . Los resultados del análisis son, por ejemplo, B. relevante en la detección temprana de enfermedades de la laringe o en el reconocimiento del hablante .

Jitter y brillo en micro prosodia

Shimmer describe la superposición de la frecuencia fundamental de una señal de voz con un ruido, de modo que ocurren irregularidades en la amplitud . Un efecto similar, que a menudo ocurre junto con el brillo, es el jitter, una irregularidad en la frecuencia fundamental o el período de una señal de voz.

Brillar

Shimmer se define como la diferencia media (en dB ) entre las sucesivas amplitudes de la señal, entendiéndose la amplitud en sí como la distancia media entre dos máximos de frecuencia. El valor medio del brillo de la voz de una persona sana está entre 0,05 y 0,22 dB. (Según Haji et al., 1986) Shimmer, junto con el electroglotógrafo, es muy adecuado para la detección de vibraciones anormales de las cuerdas vocales (especialmente en voces roncas).

Estar nervioso

El jitter se define como la microvariación de la frecuencia fundamental de una voz, también conocida como F0 . Con cambios patológicos en la voz, la extensión de la variación aumenta, especialmente con enfermedades que afectan la simetría (es decir, la tensión o masa) de las cuerdas vocales. El valor de jitter es particularmente alto al principio y al final de un tono sostenido.

Introducción

En el caso de una pronunciación larga de una vocal, se nota en el oscilograma que la frecuencia fundamental o el período de la vocal no es estrictamente periódico, sino que está superpuesto por pequeñas perturbaciones e irregularidades (microvariaciones). El período no siempre tiene la misma duración (jitter) y la amplitud de la señal fluctúa ligeramente (shimmer). El efecto ocurre en todas las personas, no solo en las personas con trastornos de la voz. En promedio, la señal se desvía en un 2% del período o amplitud promedio. Las desviaciones más altas indican un trastorno patológico de la laringe.

Los cambios en estas microvariaciones por debajo de la marca del 2% son difíciles de detectar por el oído humano.

Microprosody en otras áreas

Los análisis automáticos de la prosodia humana deben ir precedidos de exámenes de microprosodia para que no se falsifique el reconocimiento de la prosodia . Además, la microprosodía juega un papel importante en el reconocimiento de voz y la síntesis de voz , ya que contribuyen a una voz natural y facilitan el reconocimiento.

Ver también prosodia A, B y C

Causas de las microvariaciones

La influencia de la frecuencia del pulso.

El pulso es un cambio periódico en el suministro de sangre. Esto provoca un cambio periódico en el volumen de las cuerdas vocales y, por lo tanto, también un movimiento periódico superpuesto de las cuerdas vocales. Las investigaciones de Orlikoff / Baken muestran que las fluctuaciones en la frecuencia básica en realidad se repiten periódicamente, la duración del período corresponde aproximadamente al intervalo de tiempo entre los latidos del pulso. En un estudio de Orlikoff / Baken, la contribución de la frecuencia del pulso al jitter total fue del 0,5 al 20,0%, un promedio del 6,9% para los hombres y un promedio del 2,4% para las mujeres, lo que hace un total de 4,6 %. La duración fue en promedio 3,7 µs para hombres y 0,9 µs para mujeres, es decir, 2,3 µs en promedio. El musculus thyroarytaenoideus (vocalis), que corre entre la tiroides y el cartílago anterior , está particularmente afectado . El problema de que la fonación retenida representa un ejercicio de respiración y, por lo tanto, los latidos del corazón también cambian se contrarrestó al ver cada valor de frecuencia básica en relación con el valor medio de frecuencia básica (es decir, por latido ).

Los impulsos nerviosos

La aparición de impulsos nerviosos provoca una contracción rítmica de las cuerdas vocales. Los impulsos en las unidades motoras hacen que el musculus thyroarytaenoideus se contraiga (esto se ha investigado más de cerca para este músculo, pero según Titze se puede suponer de manera similar para otros músculos laríngeos).

El jitter resultante depende de

el número de unidades motoras (muchas unidades motoras pueden hasta cierto punto "compensar" las sacudidas de una sola unidad)
la frecuencia de los impulsos (el jitter es menor si hay más de 50 estímulos por segundo, ya que el músculo no tiene tiempo suficiente para relajarse y la duración se acorta (tétanos).)
la variación de longitud de las unidades motoras (cuanto más diferentes son las longitudes de las fibras musculares, mayor es el jitter; aquí hay una relación exponencial).
la variación de pulso (como con la variación de longitud)

Estructura de las cuerdas vocales

Otra explicación para el jitter y el brillo es la estructura de las cuerdas vocales o la llamada vibración interna. Cuanto más pequeños y rígidos (rígidos) son los pliegues vocales, menor es la microvariación. Esto también indica que el jitter disminuye a medida que aumenta la frecuencia básica, con lo que las cuerdas vocales se vuelven cada vez más tensas. También se han observado diferentes valores de jitter para diferentes vocales (ver la influencia de la edad a continuación).

Influencias y dependencias

Movimiento de la lengua

El área de la garganta es un sistema muy complejo de ligamentos, cartílagos y músculos, que incluso puede verse influenciado por partes musculares que están lejos (por ejemplo, la postura corporal afecta la fonación). El hecho de que los valores de jitter para diferentes vocales difieran significativamente se debe, entre otras cosas, a la variada posición y movimiento de la lengua.

género

Los valores de jitter promedio para hombres y mujeres difieren, pero esto se debe probablemente a la frecuencia básica generalmente más alta de los sujetos femeninos. No importa el género.

salud

Las enfermedades laríngeas provocan un aumento de los valores de fluctuación y brillo. Pero incluso un resfriado puede afectar la señal del habla debido al movimiento de la cantidad relativamente grande de moco en las cuerdas vocales.

Años

Las personas más jóvenes tienen menos microvariaciones que las personas mayores. Pero un estudio de Linville (1987) muestra que es necesario diferenciar entre las vocales respectivas. Las mujeres mayores tienen p. Ej. B. con / a / un jitter más alto que con / i / y / u /, con mujeres más jóvenes es exactamente lo contrario.

Experimentos y métodos de medición para determinar jitter y shimmer

Una posibilidad para determinar la fluctuación y el brillo en los sujetos de prueba son las pruebas de retención de vocales. Aquí, los participantes de la prueba deben mantener una vocal de cierto volumen el mayor tiempo posible. Los grupos objetivo podrían ser fumadores vs. No fumador, cantante vs. Personas sin entrenamiento vocal o con enfermedad de la laringe vs. ser gente sana. Los sujetos de prueba pueden recibir información visual a través de un voltímetro .

Esta situación de laboratorio tiene la ventaja de que la coarticulación y los fenómenos prosódicos, como los causados por p. B., ocurren en el idioma hablado, pueden excluirse.

Las expresiones pueden luego digitalizarse utilizando un micrófono. A veces también se utiliza un electroglotograma (EGG), que es muy adecuado para mostrar irregularidades en la vibración de las cuerdas vocales, en particular la amplitud. La pantalla EGG facilita el análisis digital; Además, se muestran otros aspectos, cuyo significado aún no se ha aclarado por completo (por ejemplo, el tipo y la manera de contactar las cuerdas vocales).

Ventajas y desventajas de la determinación de microprosodios como herramienta de diagnóstico

beneficios

Las ventajas de la determinación de microprosodias como herramienta de diagnóstico consisten por un lado en la aplicación agradable, externa y no invasiva (no se inserta ningún objeto en la faringe), por otro lado en los costos relativamente bajos (en términos de equipo y su uso).

desventaja

La determinación de jitter y shimmer no siempre se realiza de manera completamente uniforme en la investigación. Diferentes dispositivos de medición y diferentes software de análisis pueden conducir a diferentes resultados. Un estudio de Karnell et al. (1991) lo muestra muy claramente utilizando el ejemplo de los laboratorios de voz de Chicago, Denver y Pine Brook.

Fórmulas para jitter

El factor de jitter porcentual (JF) (Hollien et al., 1973): la (desviación promedio de la duración del período * 100) dividida por el período promedio de la señal

El Cociente de Perturbación de tono (PPQ) (Davis, 1976) como la razón de la suma de las diferencias de período con una media de período móvil y la duración media de período

y el Factor de Perturbación Direccional (DPF) (Hecker / Kreul, 1971) como el número de cambios de signo dividido por el número de posibles cambios de signo, que es independiente de la frecuencia fundamental individual utilizando los cambios de signo observados (para diferencias en períodos sucesivos) y los posibles cambios de signo.

Ver también

literatura

Haji, T. et al. (1986) Análisis de perturbación de frecuencia y amplitud del electroglotograma durante la fonación sostenida, JASA, 80: 1, págs. 58-62
Higgins, MB; Saxman, JH (1989) Una comparación de la variación intrasujeto a través de sesiones de tres índices de perturbación fundamental vocal, JASA, 86: 3, 911-916
Karnell, MP y col. (1991) Comparación de medidas de perturbación de la voz acústica entre tres laboratorios de voz independientes, JSHR, 34, 781-789
Linville, SE (1988) Variabilidad intraaltavoz en la estabilidad de la frecuencia fundamental: ¿un problema relacionado con la edad ?, JASA, 83: 2, 741-745
Orlikoff, R.-F.; Baken, RJ (1989) El efecto del latido del corazón en la perturbación de la frecuencia fundamental vocal, JSHR, 32: 3, págs. 576-582
Schoentgen, J. (1990) Características acústicas de las voces disfónicas, Rapport-d'Activites-de-l'Institute-de-Phonetique, 26, págs. 87-112
Titze, I. (1991) A Model for Neurologic Sources of Aperiodicity in Vocal Fold Vibration, JSHR, 34: 3, págs. 460-472

Languages