1. Introduction

Untitled

팝 음악을 피아노 버전으로 편곡하는 것은 전문가가 할 수 있는 일입니다. 사람들은 이렇게 편곡된 음악을 취미, 교육, 사업적인 용도로 사용하고 있습니다. MIR 분야는 딥러닝 기술을 이용하여 함께 많이 발전해왔습니다. 딥러닝을 이용하여 팝 음악의 장르와 분위기를 분석할 수 있고(Music Tagging, Music Mood Estimation) [1] , 또는 팝 피아노 MIDI를 자동으로 생성(MIDI Generation) [2] 해내기도 했습니다. 또한 피아노 오디오를 자동으로 MIDI로 추정해내는 작업(Music Transcription) [3, 4, 5] 도 많은 발전이 있었습니다. 그러나 딥 러닝을 이용하여 팝 음악을 직접 피아노 연주로 편곡하는 작업은 우리가 아는 한 없었습니다.

POP2PIANO는 팝 음악을 조건부로 그에 맞는 피아노 편곡을 생성하는 작업입니다. 우리는 자동화된 데이터 수집/정제 과정을 통해 수 천 곡의 팝 음악과 그에 맞는 피아노 편곡 MIDI 쌍을 갖는 데이터셋을 만들었습니다.

우리는 딥러닝을 이용하여 이러한 데이터로부터 패턴을 학습하여 팝 음악을 자동으로 피아노 버전으로 편곡하는 작업을 하고 있습니다. 아래는 데이터의 샘플입니다. (스테레오 오디오에 최적화되어있습니다.)

(KPOP Male Group) BTS - Butter

2zalY1icUeI___171___jH--Wof3HfQ___171.mp3

(KPOP Female Solo) Rosé - On the Ground

rose_YOQm9NSASDM___175___xOSmS2VEjpQ___167.mp3

(POP Mixed Vocal) Ryan Gosling & Emma Stone - City of stars

'City of Stars' (Duet ft. Ryan Gosling, Emma Stone) - La La Land Original Motion Picture Soundtrack___48000___GTWqwSNQCcg___145___pianowarped.mp3

2. Methods

피아노 편곡은 대개 장기적인 관점에서 일관된 박자와 코드 진행이 있어야 합니다. 그러면서도 단기적으로는 보컬 멜로디와 같은 가변적인 연주를 함께 포착할 수 있어야 합니다. 이러한 작업에 가장 적합한 뉴럴 네트워크는 인코더-디코더 구조를 갖는 sequence-to-sequence 트랜스포머 모델입니다. 이러한 작업에서 가장 어려운 점은 음악의 Long-term dependency를 모델링하는 것입니다.