王子豪

博士研究生 Jan 07, 2023

博士生/PhD Studet-2021

学习经历:

研究领域：人工智能音乐生成、语音合成、音频理解、音乐治疗.

2021-至今浙江大学 - 计算机科学与技术学院

2017-2021 山东大学 - 计算机科学与技术专业

研究成果 (截止2024年11月)：

[1]SongDriver: 消除逻辑延迟和误差累积的实时伴奏生成

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias. ACMMM 2022 Oral. (CCF-A) Main Conference. Full paper. 浙大国家自然科学基金支持. 第一作者.

[2] MuChin: 音乐领域语言模型的通俗描述理解能力评测基准

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music. IJCAI 2024 Oral. (CCF-A) Full Paper. 对牛弹琴-浙大合作, 第一作者.

[3] REMAST: 基于实时情感变化序列的歌曲柔和过渡改编生成

REMAST: Real-time Emotion-based Music Arrangement with Soft Transition. IEEE Transaction on Affective Computing (情感计算领域顶刊, 影响因子9.6，JCR Q1区, 中国科协T1) . 浙大国家自然科学基金支持. 第一作者.

[4] MuDiT & MuSiT: 描述到歌曲生成单阶段模型与人类通俗表达的对齐

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation. WWW (Under Review) .第一作者.

[5] SaMoye:基于特征分解和合成的zero-shot歌声音色转换.

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis. ICLR (Under Review) 第一作者

[6] MetaBGM: 整合动态环境感知和个人偏好的元宇宙开放世界游戏场景实时背景音乐生成

MetaBGM: Real-Time Metaverse Game Cinematic Soundtrack Generation Integrating Ambient Awareness and Personalized Experience. ICASSP (Under Review) 共同一作.

[7] MelodyGLM: 融入长短mask的符号旋律生成的大规模多任务预训练框架

MelodyGLM:a large-scale multi-task pre-training framework for symbolic melody generation. PAMI(Under Review) 共同作者.

[8] Sketchffusion: 基于扩散模型的草图引导图像编辑生成.

Sketchffusion: Sketch-guided Image Editing With Diffusion Model. ICIP 2023 (CCF-C). 共同作者.

[9] 基于增强型多尺度编码卷积神经网络的海量光谱自动分类网络.

Automated Classification of Massive Spectra Based on Enhanced Multi-Scale Coded Convolutional Neural Network. Universe期刊. SCI Q2. 山大国家自然科学基金支持, 共同作者.