Corregir la pronunciación en el texto del habla

Última actualización el 28 oct. 2025

Aprenda a corregir la pronunciación ajustando cómo se pronuncian palabras específicas en el discurso generado.

Pruébelo en la aplicación
Corrija la pronunciación del texto del habla en unos sencillos pasos.

Al usar Generate Speech (beta) en Firefly, es posible que note que ciertas palabras no se pronuncian como se esperaba. Estos casos podrían incluir nombres propios, términos técnicos o palabras con múltiples pronunciaciones posibles.Corregir pronunciación permite ajustar cómo suenan estas palabras para que se ajusten a sus preferencias y asegurarse de que se pronuncien exactamente como se desea. 

Antes de empezar:

Introduzca el texto del habla o cargue un archivo de texto y, a continuación, personalice la voz, el acento y otros ajustes.

En el editor de texto, identifique y resalte las palabras que necesitan ajuste de pronunciación.

Seleccione Corregir pronunciación en el menú contextual.

La ventana del editor de texto muestra una palabra resaltada, con el botón Corregir pronunciación encima de ella.
Utilice el botón Corregir pronunciación para ajustar la forma en que se pronuncian palabras específicas en el discurso generado.

En el cuadro de texto que aparece, escriba la palabra fonéticamente, como debería sonar. Por ejemplo, escriba "in-ol-vi-da-ble" para pronunciar correctamente "inolvidable".

El editor de pronunciación en la pantalla de texto a voz muestra una palabra resaltada y su versión fonética corregida.
Para generar sonidos precisos, asegúrese de que el texto introducido es fonéticamente correcto.

Seleccione el icono para reproducir y previsualizar la pronunciación ajustada.

Si está satisfecho con el sonido de la palabra, seleccione Corregir para cambiar solo la instancia seleccionada.

Para aplicar la misma pronunciación ajustada a todas las instancias de esta palabra a lo largo del audio, seleccione Corregir todo en su lugar.

Sugerencia:

Después de corregir la pronunciación, genere una nueva versión y reproduzca todo el audio para asegurarse de que la pronunciación actualizada se aplica al resto del discurso generado.