Messages

This page shows the samples in the paper "Singing-Tacotron: Global duration control attention and dynamic filter for End-to-end singing voice synthesis".

Experiments were based on 100 Chinese songs which are performed by a female singer. All test samples have not appeared in the training set and validation set.

The most important advantage of the "Singing-Tacotron" is that it does not need the alignment information between musicscore and singing voice. It only needs music score information and singing voice for end-to-end training.

Arxiv: https://arxiv.org/abs/2202.07907

The difference between end-to-end TTS and SVS:
The framework of Singing-Tacotron:

Added experiment (for review): Comparison with ByteSing (FastSpeech Based SVS)

Note: Singing-Tacotron can automatically learn alignment information through the proposed attention mechanism, which avoids fine annotation of data. While it is necessary for ByteSing (FastSpeech-Based) system to label the duration information of each phoneme on the training corpus, which is time-consuming and easy to produce errors.

Original ByteSing Singing-Tacotron

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

1: Some demos of Singing-Tacotron (Marking with GDCA+DF in our paper)

Note: the first two songs are from the test set, and the last two songs are from the musical scores found on the Internet.

Song's name Singing-Tacotron
小手拉大手 (梁静茹)
lyric: 还记得那场音乐会的烟火 还记得那个凉凉的深秋 还记得人潮把你推向了我 游乐园拥挤的正是时候
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo / h ai j i d e n a g e l iang l iang d e sh en q iou / h ai j i d e r en ch ao b a n i t uei x iang l e uo / iou l e van iong j i d e zh eng sh iii sh iii h ou ou
喜欢 (张悬)
lyric: 片段中有些散落 有些深刻的错 还不懂这一秒钟 怎么举动怎么好好地和谁牵手 那寂寞有些许不同 我挑着留下没说
phonemes: p ian d uan zh ong iou x ie s an l uo / iou ou x ie sh en k e d i c uo / h ai b u d ong zh e i m iao zh ong / z en m e j v d ong z en m e h ao h ao d e h e sh ei q ian sh ou / n a j i m o iou x ie x v b u t ong / uo t iao zh e l iou x ia m ei sh uo
过火 (张信哲)
lyric: 我是多想再给你机会 多想问你究竟爱谁 既然爱 难分是非
phonemes: uo sh iii d uo x iang z ai g ei n i j i h uei / d uo x iang uen n i j iou j ing ai sh ei / j i r an ai / n an f en sh iii f ei
别找我麻烦 (蔡健雅)
lyric: 是故意的吗 是我得罪谁了吗 这一天竟然每件事情都失算 只想转个弯 却绕到了飞机场 发现没钱在身上
phonemes: sh iii g u i d e m a / sh iii uo d e z uei sh ei l e m a / zh e i t ian j ing r an m ei j ian sh iii q ing d ou sh iii s uan / zh iii x iang zh uan g e uan / q ve r ao d ao l e f ei j i ch ang / f a x ian m ei q ian z ai sh en sh ang

2: Comparison between different systems

Note: since systems LA, LA+Window and FA+DF cannot synthesize normal songs, we combine them and give an abnormal example as a reference.

Original LA & LA+Window & FA+DF (Failed systhesis) FA GDCA GDCA+DF (Singing-Tacotron)

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

3: Duration control with different tempos

Note: we change the tempo value of each lyrics.

Tempo = 60 Tempo = 90 Tempo = 120 Tempo = 150

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 场 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 段 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 深 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

4: Duration control with different duration on a particular word

Note: we keep the tempo value unchanged and change the duration information of a specific word (the word marked in red) in the musicscore.

Duration = 2 Duration = 3 Duration = 4

lyric: 还 记 得 那 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 音 乐 会 的 烟 火.
phonemes: h ai j i d e n a ch ang in ve h uei d e ian h uo

lyric: 还 记 得 那 个 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 还 记 得 那 个 凉 的 深 秋.
phonemes: h ai j i d e n a g e l iang l iang d e sh en q iou

lyric: 片 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 片 中 有 些 散 落.
phonemes: p ian d uan uan zh ong iou x ie s an l uo

lyric: 有 些 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 刻 的 错.
phonemes: iou x ie sh en k e d i c uo

lyric: 有 些 刻 的 错.
phonemes: iou x ie sh en k e d i c uo