机械之心专栏
作者 :Snap钻研院 ,更高香港中文大学 ,清写香港大学,实的式妄南洋理工大学
论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman
1. 钻研布景与念头
随着散漫模子的人体崛起 ,一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐 。但一个清晰的模H漫刷缺少是 ,这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦,致使很难天生具备公平妄想或者做作姿态的想散新多项人体(好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑) 。眼前的更高主要原因在于 :做作情景下的人体是铰接的 ,且搜罗刚性以及非刚性的清写形变;天生高品质的人体图片需要文本难以形貌的妄想信息。
为了在文生图中引入妄想操作信息 ,实的式妄近期的人体代表使命如 ControlNet[1] ,T2I-Adapter [2] 削减了颇为轻量的天生、即插即用的模H漫刷可学习分支,用以调节预磨炼的于隐文生图散漫模子 。可是 ,原本散漫模子分支以及新退出的可学习分支之间的特色差距 ,每一每一会导致生乐成果与操作信号的不不同 。
为了处置这个下场 , HumanSD [3] 运用了一种原生的操作向导方式 ,即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接 。尽管确定水平上处置了天生 - 条件不同过错齐的下场