(转载)【UTAU】历代几乎所有引擎和Flag的介绍和使用说明
前言
大家好,我是TKK,这一次想讲解UTAU中的引擎Resamler和参数Flag,在UTAU使用中选择合适的引擎和Flag会让歌唱效果大幅度上升,所以我认为学习Flag是UTAU进阶的一个过程,UTAU的不同引擎对应着不同的Flag,然而国内关于Flag的相关资料一直不是很多,我这次想根据找到的一些资料进行盘点说明。不过UTAU的Flag有很多不明确的让人难以理解的资料,再加上大量的术语使人难以理解,我的专栏绝对会有不足和缺点,如果你发现了缺点请跟我说明,我会进行修改。
使用资料及链接请见专栏末尾。
Resampler List
bkh01
配布页面 : http://z-server.game.coocan.jp/utau/utautop.html#bkh01
最后更新于 : 2012
将原采样的声带音与噪音成分分解重组的形式进行合成,不适用合唱类音源,在合成中不会生成其他的中间文件
但在首次使用时会生成bkhnoise.dat。
听感比较顺滑,部分地方会有很微妙的奇怪效果,但用来拯救人力等质量十分一般的音源倒是好选择。
EFB-GW
配布页面 : 已停配。
全称:Eternal Force Blizampler - Gently Weeps,采用world算法。仅仅适用于如日语等单元音语言的单独音。
EFB-GT
配布页面 : http://custom-made.seesaa.net/article/312529786.html
最后更新于 : 2013
全称:Eternal Force Blizampler - Galaxy Tear,改造版的EFB-GW,world模块升级并且可以适用于连续音,可以直接读取resampler的.frq文件,和GW一样是循环式拉伸。
EFB-PB
配布页面 :已停配
全称:Eternal Force Blizampler - Phantom Blood,也是改造版的EFB-GW,world模块升级并且可以适用于单独音,使用.dio文件,和GW一样是循环式拉伸。
WARP
配布页面 : http://custom-made.seesaa.net/article/312530509.html
最后更新于 : 2013
EFG-PB/GT的升级版,扩充了别的flag参数。
Fresamp 11
配布页面 : https://twitter.com/ameyaP_/status/12641592834
最后更新于 : 2010
Fresamp 14
配布页面 : https://twitter.com/ameyaP_/status/310071123410821120
最后更新于 : 2013
(注:Fresamp14omp是多线程版本,使用效果与Fresamp14基本一致但是合成速率有一定上升)
Fresamp系列合成速度偏慢,且Fresamp14听感较闷偏硬。
Moresampler
配布页面 : http://web.engr.illinois.edu/~khua5/moresampler/
最后更新于 : 2018
请看Jerry的专栏介绍,非常详细,我个人认为Mores适用于中强硬的音源,遇到气声大的音源通常听感不太好,要自行调整,此外给我印象很深的是中间合成文件llsm体积很大。
UTAU日记- Moresampler : https://www.bilibili.com/read/cv1007842
phavoco
配布页面 : https://twitter.com/ameyaP_/status/309931073045942272
最后更新于 : 2013
基于Phase Vocoder的非常规合成器,听感仿佛自带Chorus,效果微妙。
Phaavoco
最后配布:2020
Resampler
配布页面 : Comes with UTAU.
最后更新于 : 2013
默认合成器,依赖于frq基波表。有一种颗粒感的噪音。
TIPS
配布页面 : http://scientistb.web.fc2.com/program/
最后更新于 : 2014
基频检测范围和精准程度都低于resampler,合成的时间点会和oto有数毫秒时间之差,生成的中间文件是.pmk,在短音上很优秀,合成长音偏电。
tn_fnds
配布页面 : http://z-server.game.coocan.jp/utau/utautop.html#tn_fnds
最后更新于 : 2013
在合成时自动进行基频检测,不产生任何中间文件,循环式拉伸所以音质保留的非常好,但是也会还原底噪的一些沙沙的感觉。
另外tn只适用于弱音源,强音源超出tn的承载范围会炸。
tn_fnds有tn_fnds009和tn_fndsX之分,最广泛使用的是前者,后者配布于Utaforum上面。
UTAUGROWL
配布页面 : http://ch.nicovideo.jp/torifly0/blomaga/ar647243
最后更新于 : 2015
并不是独立的引擎,需要搭配其他引擎使用。
v.Connect-STAND
配布页面:github.com/cadencii
最后更新于:2014
开源歌声合成系统Cadencii的引擎,可应用于UTAU音源。使用了WORLD算法,并且是循环式拉伸。
vs4u
配布页面 : http://ackiesound.ifdef.jp/soko.html#vs4u
最后更新于 : 2014
全称VocalShifter4UTAU,合成时产生的中间文件是.vs4ufrq。
Nakloid
配布页面:https://github.com/acknak/Nakloid/releases
最后更新于:2016
非UTAU引擎,是独立程序,可使用ust和UTAU音源进行合成。
作者HOME离开了大学去工作导致没有时间放在Nakloid,Nakloid目前的资料很稀少。
官方说明:https://github.com/acknak/Nakloid/wiki/, 可能是我日语水平太差了所以我没怎么看懂……
RUCE
配布页面:rocaloid.github.io
最后更新于:2014
Rocaloid项目所释放出的UTAU引擎,与常规的UTAU引擎有着较大不同。中间合成文件是.rudb,因为有韵尾识别的功能,所以在没有任何拆音方案的情况下也可以较为标准的合成中文单独音。
w4u
配布页面 : http://utau2008.xrea.jp/mp3/engine_hikaku.html
最后更新于 : 2013
全称是world4utau,基于world 0.0.4创作的引擎,由于world系的特性,在合成过程中会产生十分庞大的中间文件,比如dio、.platinum、.star等,听感比较浑厚。
model4
配布页面:某邀请制网站
最后更新于:不明
适用于气声感偏重的声库,可以弱化喷麦,缺点是由于一直处于测试阶段,所以会发生比如整个音符变成气声或者音量时大时小的bug。
Doppeltlter
配布页面:http://utau2008.xrea.jp/2020/engine/
最后更新于:2020
是继resampler之后新的默认引擎,正在绝赞更新中(bushi)听感我认为非常好,在resampler稳定的特点上,几乎没有颗粒感的噪音。
有两个新的特性,一个是前后反转音频(倒放),一个是在oto内设置两个稳定区域(红区)。
Flag列表
有一个错误需要纠正,tn_fnds的支持flag确实不多,但是这里只标注了g,并且别的资料有写到“tn出了名的不吃flag,除了g和e”,其实这是错误的,tn支持flag如下:
Flag 具体说明
(提示:专属flag优先于通用flag之前,并且flag强调大小写,w和W、b和B、Me和ME的效果是完全不一样的)
$direct = true
使用范围 : 无
作用 : 与u的flag作用相同,指不对波形做出任何处理,通常适用于呼吸声等特殊采样。
?
使用范围 : 无
作用 :当把?放在歌词前,它会提示引擎忽略前缀和Prefix.map
A
使用范围 : 0 / 100
默认数值 : 0
作用 : 使振幅随Pitch的变化而抖动,多适用于颤音。
在resampler和fresamp中,和“a”的flag效果一致。
Mores里面的A是振幅随⾳⾼调整。该标志随⾳⾼的变化调整振动幅度(即声⾳⼤⼩)。
该特性有助于创建更逼真的颤⾳。该参数的符号(正负)调整这种变化的⽅向。
a
使用范围 : 0 / 未知
默认数值 : 100
作用 : 当数值< 100,引擎会拉伸oto的红色区域。反之则缩短。
B
使用范围 : 0 / 100
默认数值 : 50
作用 : 在共振峰过滤器过滤之前调整呼吸成分。不受C, D, E, H, h的影响。
……其实Formant Filter我也不知道什么东西,大概是这样的。
(每个元音和不同性别的人的共振峰特征都是不一样的,而且不随声带的震动频率变化,共振峰滤波器就是用来改变这一特征)
b
使用范围 : 0 / 100
默认数值 : 50
作用 : 在共振峰过滤器过滤之前调整呼吸成分。
清⾳振幅增益。该flag将清⾳的⾳量?(如/t/k/s/)放⼤或缩⼩b后数值的0.05倍。
对浊⾳(如g/m/)只有极⼩的或者没有影响。Mores里面b的使用范围是-20 / 100.
C
使用范围 : 0 / 100
默认数值 : 0
作用 :特别削减高音域的low pass filter。
值为100时,音量分布为0kHz为100%、11kHz为50%、22kHz为0%。
c
使用范围 : 0 / 100
默认数值 : 0
作用 :与C的效果基本一致,但是c会作用在共振峰过滤器工作之后。
D
使用范围 : 0 / 100
默认数值 : 0
作用 : 削减中音域的low pass filter(Peaking Filter)。
值为100时音量分布为0kHz为100%、11kHz为0%、22kHz为100%。
E
使用范围 : 0 / 100
默认数值 : 0
作用 : 削减高低音域的low pass filter(Peaking Filter+High shelf Filter)。
值为100时音量分布为0kHz为100%、7.1kHz为0%、11kHz为100%、22kHz为0%。
e
使用范围 : 无
作用 : 使拉伸方式从循环拉伸切换到线性拉伸。
F
使用范围 : 0 / 100
默认数值 : 3
作用 :调整共振峰过滤器的强度。根据「基本频率×指定值」产生的频率上会添加共振峰过滤器。一般最好不要动、低音产生杂音的时候设定数值F4~F7左右可以抑制杂音。
开发版的resampler效果不如默认resampler明显。
G
使用范围 : 无
作用 : 重新生成frq文件。
g
使用范围 : -99 / 99
默认数值 : 0
作用 : 性别参数,改变声⾳的性别听感。正数会让声⾳偏向男性;负数会让声⾳偏向⼥性。实质调整的大概是第二共振峰。
H
使用范围 : 0 / 99
默认数值 : 0
作用 :(针对辅音的High shelf Filter),削减高音区、强调低音区与C、D、E等flag效果类似。可以减轻高音区内的一些尖锐杂音。
h
使用范围 : 0 / 99
默认数值 : 0
作用 : 对辅音的呼吸声以外部分添加的low pass filter。对高音域的辅音可以起到强调作用,因此不适用于辅音不稳定的音源,就算辅音稳定加太多h数值也会造成过多的摩擦声。
L
使用范围 : 0 / 99
默认数值 : 3
作用 : F的频率固定版。 「170Hz×指定值」产生的频率上会添加共振峰过滤器。
与F同时使用的话L优先。
M
使用范围 : 0 / 100
默认数值 : 0
作用 : 减轻电子音。
N
使用范围 :无
作用 : 关掉共振峰过滤器。
n
使用范围 : 0 / 100
默认数值 : 0
作用 : 控制共振峰过滤器的强度,力度比F的flag数值更轻,可以降低中间和高音的噪音。
K
使用范围 : 0 / 100
默认数值 : 0
作用 : 一种基于基频的多通带滤波器。
(?????)
Mb
使用范围 : 0 / 100
默认数值 : 0
作用:呼吸度。正值会让声⾳的⽓⾳更⼤,负值会减弱声⾳中的呼吸成分。当此参数被设置为100时,声⾳会完全变为⽿语。
MC
使用范围 : 0 / 100
默认数值 : 0
作用 :粗糙度 ,即在声⾳中添加类轰鸣的噪声。MC100类似于黑嗓的效果。
Md
使用范围 : -100 / 100
默认数值 : 0
作用 : ⼲燥度:声⻔周期性⽓流引起的呼吸噪声受调幅的程度。该flag的效果⾮常微妙,⼤部分发⽣在⾼频段(通常⾼于6kHz)。
MD
使用范围 : 0 / 100
默认数值 : 0
作用 : 失真效果,和咆哮效果相近,但声⾳颤动的更快。
ME
使用范围 : - 100 / 100
默认数值 : 0
作用:共振峰强调:提供正值,共振峰会得到强调;提供负值,共振峰将会被削弱,
导致声⾳变得模糊。
Me
使用范围 : 无
作用 : 强制循环。和“e”flag相反。
MG
使用范围 : 0 / 100
默认数值 : 0
作用 : 咆哮效果,参如其名。
Mp
使用范围 : 0 / 100
默认数值 : 0
作用 : 给音高增加随机抖动。类似于SynthV的抖动。
Mm
使用范围 : 0 / 100
默认数值 : 100
作用:模型插值,在0.3.0版本之前使⽤的旧语⾳模型和从那时之后使⽤的新模型之间进⾏插值。默认情况下Moresampler完全使⽤新模型(Mm100)。
Mo
使用范围 : -100 / 100
默认数值 : 0
作用 :开⼝度:发⾳时⼝部的打开程度。正值会让声⾳开⼝程度更⼤,反之则反。
Mr
使用范围 : - 100 / 100
默认数值 : 0
作用 : 歌⼿共振峰控制。提供正值时,Moresampler会在声⾳中建⽴/强调“歌⼿的共振峰”(在3KHz左右);提供负值则会削减这种共振峰。
Ms
使用范围 : 0 / 10
默认数值 : 0
作用 : 稳定。对在降低⾳⾼时常会出现的偶然砰砰声做修复。这是“analysis-anti-distortion”配置项的运⾏时版本,还允许你调整稳定的程度(更⾼的数字对应更⼤的稳定程度)。推荐在砰砰声只是偶尔发⽣⼀两回时使⽤该flag,如果砰砰声经常发⽣,最好使⽤“analysis-anti-distortion”配置项。
Mt
使用范围 : 0 / 100
默认数值 : 0
作用 : 张⼒:声带的⽤⼒程度。正值会让声⾳更加⽤⼒/绷紧,反之则反。实质是控制声音里谐波噪波的比例。
O
使用范围 :未知
作用 :改变声音的音高。较高的数值可能造成破音。
P
使用范围 : 0 / 100
默认数值 : 86
作 用 : Peakcompressor。将原音设定为峰值的音量。(与音量设定和envelope的变更用于不同的途径。)值为100的时候不会产生大小音。99以下的情况会根据原音和设定值的比例产生大小音。说到底不过是压缩到原音的峰值、若是音量变化不稳定的音源,就算设为P100听感上音量不稳的感觉依然会 有。
R
使用范围 : 未知
作用 : 使resampler在合成之前重新生成.pmk文件。
S
使用范围 : 0 / 100
默认数值 : 0
作用 : 调整歌声力度。(2500 hz ~ 4000赫兹)
t
使用范围 : -9 / 9
默认数值 : 0
作用 : 以10音分的单位调整音高。
在mores里面,有不同,mores里面的t是以特定⾳分升降⾳⾼,适用范围在-1200/1200
V
使用范围 : 0 / 100
默认数值 : 0
作用 : 调节声音力度。
W
使用范围 : 0 / 100
默认数值 : 0
作用 : 消除辅音,并且发出机器人一般的声音。
w
使用范围 : 0 / 100
默认数值 : 50
作用 : UTAUGROWL引擎的嘶吼参数。
x
使用范围 : -100 / 100
默认数值 : 0
作用 :根据到录音音高的音阶差值来影响声音(??)。数值越高,声音越亮,数值越低,声音越低沉。
Y
使用范围 : 0 / 100
默认数值 : 0
作用 : 调整元音部分的气声。
<
使用范围 : 0 / 100
默认数值 : 50
作用 : 调整咆哮频率的强度。
>
使用范围 : 0 / 100
默认数值 : 50
作用 :调整咆哮基频的长度。
_
使用范围 : -100 / 100
默认数值 : 0
作用 : 使声音振幅随着咆哮的频率而抖动。
%
使用范围 : -100 / 100
默认数值 : 0
作用 : 如果音符有颤音,音量会随着音高而波动。当Crossfade两个音符时,两个音符必须设定相同数值。
参考资料以及链接
The ultimate UTAU flag list.——susrever
Moresampler使用指南——Kanru Hua,翻译:shine_5402
http://old.utaforum.net/index.php?PHPSESSID=mqvnm5pt16neun67ldv72pfo93&topic=550.45
http://www20.atwiki.jp/utaou/pages/65.html
https://www.tapatalk.com/groups/international_utau/list-of-flags-t3075.html
http://utaforum.net/resources/resamplers-flags-list.83/
http://utauarianna.altervista.org/tutorials/i-flag-tutorial-in-italiano/
( In Italian. Not available anymore. Archived at:
https://webhost.engr.illinois.edu/~khua5/index.php/2016/04/07/the-complete-moresampler-tutorial/
https://www10.atwiki.jp/utau2008/pages/39.html
http://bbs.ivocaloid.com/thread-66570-1-1.html
Special Thanks:@AngelOfGears
转载说明
作者@TKK 已获得授权