產(chǎn)品系列

行業(yè)應(yīng)用

技術(shù)支持

關(guān)于創(chuàng)澤

創(chuàng)澤機(jī)器人

CHUANGZE ROBOT

當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人開發(fā) > 音樂人工智能、計(jì)算機(jī)聽覺及音樂科技

音樂人工智能、計(jì)算機(jī)聽覺及音樂科技

來源：CAAI認(rèn)知系統(tǒng)與信息處理專委會(huì) 編輯：創(chuàng)澤時(shí)間：2020/5/28 主題：其他 [加盟]

本文面向音樂科技、音樂人工智能與計(jì)算機(jī)聽覺這一文理交融的新興交叉學(xué)科，介紹其學(xué)科范疇、發(fā)展歷史、研究領(lǐng)域、產(chǎn)業(yè)應(yīng)用等。闡明音樂科技、聲音與音樂計(jì)算、音樂人工智能、音樂信息檢索MIR、計(jì)算機(jī)聽覺、音樂聲學(xué)等各個(gè)學(xué)科名詞之間的相互關(guān)系。最后，總結(jié)學(xué)科發(fā)展面臨的困難，展望其未來發(fā)展趨勢(shì)。

1. 語音信息處理和聲音與音樂計(jì)算

聲音是人類獲取信息的重要來源，可劃分為語音（Speech）、音樂（Music）和一般音頻/環(huán)境聲（General Audio/Environmental Sound）三大類。人類的語言具有特定的詞匯及語法結(jié)構(gòu)，用于在人類中傳遞信息。語音是語言的聲音載體，語音信號(hào)屬于復(fù)合音，其基本要素是音高、強(qiáng)度、音長(zhǎng)、音色等。音樂是人類創(chuàng)造的復(fù)雜的藝術(shù)形式，組成成分是各種樂音，包括歌聲、各種管弦和彈撥類樂器發(fā)出的復(fù)合音、少量來自環(huán)境聲的復(fù)合音以及一些來自打擊樂器的噪樂音。其基本要素包括節(jié)奏（Rhythm）、旋律（Melody）、和聲（Harmonic）、力度（Dynamic）、速度（Tempo）、調(diào)性（Tonality）、曲式（Form）、織體（Texture）、音色（Timbre）等。除了人類創(chuàng)造的語音和音樂，在自然界和日常生活中，還存在著其他數(shù)量巨大、種類繁多的聲音，統(tǒng)稱為一般音頻或環(huán)境聲。例如，自然界的風(fēng)聲、雷聲、海浪聲，機(jī)械設(shè)備的噪聲，動(dòng)物的叫聲，人體的心跳、咳嗽、脈搏聲，軍事的槍聲、炮聲、爆炸聲等等，不可盡數(shù)。

根據(jù)以上聲音的三大種類，可以粗略地將聽覺信息處理分成兩塊，如圖1所示。專門處理語音的學(xué)科是語音信息處理，以語言聲學(xué)為基礎(chǔ)，歷史悠久，發(fā)展相對(duì)成熟，已獨(dú)立成為一門學(xué)科。包括計(jì)算語言學(xué)、語音識(shí)別、說話人/聲紋識(shí)別、語種識(shí)別、語音增強(qiáng)/去噪/分離、語音合成、語音編碼、語音情感計(jì)算、自然語言處理與口語對(duì)話等經(jīng)典研究領(lǐng)域。面向音樂和一般音頻信息處理的學(xué)科叫做聲音與音樂計(jì)算SMC（Sound and Music Computing）[1]。該領(lǐng)域橫跨文理，在國(guó)外已有50多年的歷史，但是在國(guó)內(nèi)僅有20幾年歷史。包含的研究領(lǐng)域隨著時(shí)代變化也在不斷擴(kuò)展，而且由于涉及藝術(shù)創(chuàng)作，還具有一定的未知性。

2. 音樂科技概覽

2.1 音樂科技

音樂與科技的融合具有悠久的歷史。早在20世紀(jì)50年代，一些不同國(guó)家的作曲家、工程師和科學(xué)家已經(jīng)開始探索利用新的數(shù)字技術(shù)來處理音樂，并逐漸形成了音樂科技/計(jì)算機(jī)音樂（Music Technology/Computer Music）這一交叉學(xué)科。20世紀(jì)70年代之后，歐美各國(guó)相繼建立了多個(gè)大型計(jì)算機(jī)音樂研究機(jī)構(gòu)，如1975年建立的美國(guó)斯坦福大學(xué)CCRMA（Center for Computer Research in Music and Acoustics）、1977年建立的法國(guó)巴黎IRCAM（Institute for Research and Coordination Acoustic/Music）、1994年成立的西班牙巴塞羅那UPF（Universitat Pompeu Fabra）大學(xué)MTG（Music Technology Group）、以及2001年成立的英國(guó)倫敦女王大學(xué)C4DM（Center for Digital Music）等。幾十年的歷史中，音樂科技在世界各地都逐漸發(fā)展起來，如美國(guó)的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學(xué)，加拿大麥吉爾大學(xué)的CIRMMT（Centre for Interdisciplinary Research in Music Media and Technology），德國(guó)、日本、新加坡、臺(tái)灣等等。歐洲由于其濃厚的人文和藝術(shù)氣息，歐盟及各國(guó)政府的大力支持成為該領(lǐng)域的世界中心。

音樂科技在中國(guó)大陸發(fā)展較晚，大約20世紀(jì)80年代有人開始零星的研究，90年代一些音樂學(xué)院開始建立音樂科技或音樂工程專業(yè)，2000年左右在一些綜合性和理工科大學(xué)開始出現(xiàn)一批來自計(jì)算機(jī)等信息學(xué)科的科研工作者。在中國(guó)文理分割的教育體制下，這兩類人群之間橫亙著巨大的學(xué)科鴻溝。藝術(shù)領(lǐng)域的相關(guān)人員只能運(yùn)用國(guó)外的各種音樂科技軟硬件產(chǎn)品進(jìn)行音樂創(chuàng)作、表演、教育、理論研究，對(duì)其內(nèi)在的科學(xué)技術(shù)原理知之甚少，更無法進(jìn)行科技創(chuàng)新和產(chǎn)品研發(fā)。理工科領(lǐng)域的相關(guān)人員一般具有初級(jí)的音樂知識(shí)，但專業(yè)程度差距較大，研究集中于面向消費(fèi)者的音樂科技，研發(fā)面向?qū)I(yè)應(yīng)用的音樂科技產(chǎn)品力不從心。

2013年12月，第一屆中國(guó)聲音與音樂計(jì)算研討會(huì)CSMCW（China Sound and Music Computing Workshop）創(chuàng)建于復(fù)旦大學(xué)，為國(guó)內(nèi)同行搭建了一個(gè)產(chǎn)學(xué)研交流的平臺(tái)，該會(huì)議2016年更名為中國(guó)聲音與音樂技術(shù)會(huì)議CSMT（Conference on Sound and Music Technology）。該會(huì)議至今已召開七屆（復(fù)旦大學(xué)、清華大學(xué)、上海音樂學(xué)院、南京郵電大學(xué)、蘇州大學(xué)與UCLA蘇州研究院、廈門理工學(xué)院、哈爾濱工業(yè)大學(xué)），逐漸成為國(guó)內(nèi)音樂科技全產(chǎn)業(yè)鏈的交流平臺(tái)，為加強(qiáng)科技與藝術(shù)的融合，消除學(xué)科鴻溝做出了重要貢獻(xiàn)。隨著中國(guó)社會(huì)的整體發(fā)展，以及人工智能（AI）技術(shù)的持續(xù)火熱，到2017年左右，音樂科技在國(guó)內(nèi)開始呈現(xiàn)加速發(fā)展的趨勢(shì)。2017年，音樂科技領(lǐng)域國(guó)內(nèi)外的三大重要會(huì)議ISMIR（International Society for Music Information Retrieval Conference）、CSMT、ICMC（International Computer Music Conference）在上海和蘇州連續(xù)舉行。2018年，于中國(guó)音樂學(xué)院舉辦CSMT第一屆音樂人工智能（Music AI）研討會(huì)；深圳平安科技有限公司與中央民族大學(xué)建立AI作曲聯(lián)合實(shí)驗(yàn)室；騰訊音樂娛樂集團(tuán)（TME）在美國(guó)上市；大型中文綜述“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”（CSMT 2017會(huì)議論文集，43頁, 335篇文獻(xiàn)）[3]正式發(fā)表。2019年，中央音樂學(xué)院建立音樂人工智能與音樂信息科技系，開始招收博士、碩士研究生，實(shí)行音樂與科技雙導(dǎo)師培養(yǎng)制；AI科學(xué)前沿大會(huì)、北京國(guó)際電子音樂節(jié)等多個(gè)重要會(huì)議開設(shè)音樂人工智能特約報(bào)告專場(chǎng)；上海音樂學(xué)院開設(shè)音樂人工智能課程；本文作者在百度百科定義音樂科技、音樂人工智能、音樂信息檢索MIR、計(jì)算機(jī)聽覺、中國(guó)聲音與音樂技術(shù)會(huì)議等五個(gè)學(xué)科詞條；大型中文綜述“理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽覺綜述”（CSMT 2018會(huì)議論文集，45頁，399篇文獻(xiàn)）[4]正式發(fā)表；第七屆CSMT會(huì)議參會(huì)人數(shù)超過200人，來自70余個(gè)單位，投稿等各項(xiàng)指標(biāo)均創(chuàng)歷史紀(jì)錄。2020年，四川音樂學(xué)院以音樂科技為突破口建立實(shí)驗(yàn)藝術(shù)學(xué)院；由本文作者主編55位作者聯(lián)合編著的中文教材“音頻音樂與計(jì)算機(jī)的交融-音頻音樂技術(shù)” [5]由復(fù)旦大學(xué)出版社正式出版，全書468頁，895千字。大陸的音樂科技?xì)v經(jīng)坎坷，雖然進(jìn)步巨大，但是在教育體制、科技評(píng)價(jià)、社會(huì)觀念等各方面的制約下，至今仍然處于起步階段。

音樂科技是音樂與科學(xué)技術(shù)的交叉學(xué)科，包含眾多的研究和應(yīng)用領(lǐng)域。在音樂方面，包括計(jì)算音樂學(xué)（Computational Musicology）、電子音樂創(chuàng)作與制作（Electronic Music Creation and Production）、計(jì)算機(jī)輔助的音樂教育（Computer-aided Music Education）、計(jì)算機(jī)輔助的音樂表演（Computer-aidedMusic Performance）、錄音混音（Recording and Remixing）、音效及聲音設(shè)計(jì)（Sound Effect and Sound Design）等。該方面的研究課題比較零散，不成理論體系，依賴于在音樂方面的具體應(yīng)用，有些還涉及藝術(shù)創(chuàng)造。在科技方面，音樂科技指上述的聲音與音樂計(jì)算，下邊詳細(xì)闡述，如圖2右半部分所示。

2.2 聲音與音樂計(jì)算

聲音與音樂計(jì)算是一個(gè)龐大的研究領(lǐng)域，可細(xì)化為多個(gè)學(xué)科分支。其主要內(nèi)容及分類在1995年的文獻(xiàn)[1]中已有描述，本文所述內(nèi)容是作者根據(jù)近年來的最新進(jìn)展以及自己的理解對(duì)[1]進(jìn)行補(bǔ)充完善而成。

（1）音樂生成（Music Generation）：包含歌聲合成（Singing Synthesis）、自動(dòng)作曲（AutomaticComposition）、自動(dòng)編曲（Automatic Arrangement）等主要方向，需要較多的音樂知識(shí)，技術(shù)實(shí)現(xiàn)比較復(fù)雜。因近年來大量使用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)技術(shù)，也可以通俗的稱為人工智能音樂（AI Music）。歌聲合成以語音合成為基礎(chǔ)，但需考慮音樂旋律、節(jié)奏、強(qiáng)弱、音色、結(jié)構(gòu)、情感、藝術(shù)技巧等多種音樂要素。自動(dòng)作曲早期稱為算法作曲，近年來進(jìn)化為基于深度學(xué)習(xí)的AI作曲。自動(dòng)編曲在已知主旋律的基礎(chǔ)上編配和弦及各個(gè)聲部，使其成為一首完整的作品。上述研究課題目前只能模仿音樂專業(yè)人員，尚無人類源自靈感的創(chuàng)作能力，且主觀性較強(qiáng)，評(píng)價(jià)標(biāo)準(zhǔn)難以統(tǒng)一。

（2）聲音與音樂的內(nèi)容理解與分析：使用計(jì)算方法對(duì)數(shù)字化聲音與音樂的內(nèi)容進(jìn)行理解和分析，例如音樂識(shí)譜（Music Transcription）、旋律提�。∕elody Extraction）、節(jié)奏分析（Rhythm Analysis）、和弦識(shí)別（Chord Estimation）、音頻檢索（Audio Retrieval）、流派識(shí)別（Genre Identification）、音樂情感計(jì)算（Music Emotion Calculation）、歌手識(shí)別（Singer Identification）、歌唱評(píng)價(jià)（SingingEvaluation）、歌聲分離（Vocal Separation）等。該分支在20世紀(jì)90年代末隨著互聯(lián)網(wǎng)上數(shù)字音頻和音樂的急劇增加而發(fā)展起來，研究難度大，多項(xiàng)研究?jī)?nèi)容至今仍在持續(xù)進(jìn)行中。與計(jì)算機(jī)視覺CV（Computer Vision）對(duì)應(yīng)，該分支也可稱為計(jì)算機(jī)聽覺CA（Computer Audition）或機(jī)器聽覺（Machine Listening）[2]。注意計(jì)算機(jī)聽覺是用來理解分析而不是處理音頻和音樂，狹義上講不包括語音，廣義上亦包括。CA若剔除一般聲音而局限于音樂，則可稱為音樂信息檢索MIR（Music Information Retrieval）。

（3）聲音與音樂信號(hào)處理：用于聲音和音樂的信號(hào)分析、變換及合成，包括頻譜分析（Spectral Analysis）、調(diào)幅（Magnitude Modulation）、調(diào)頻（FrequencyModulation）、低通/高通/帶通/帶阻濾波（Low-pass/High-pass/Band-pass/Band-stop Filtering）、轉(zhuǎn)碼（Transcoding）、無損/有損壓縮（Lossless/Lossy Compression）、重采樣（Resampling）、回聲（Echo）、混音（Remixing）、去噪（Denoising）、變調(diào)PS（Pitch Shifting）、保持音高不變的時(shí)間伸縮TSM（Time-scale Modification/Time Stretching）、時(shí)間縮放（TimeScaling）等。該分支相對(duì)比較成熟，已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。

（4）其它與音頻音樂相關(guān)的科技領(lǐng)域：如聲音與音樂的感知認(rèn)知（Sound and Music Perception and Cognition）：研究音樂的大腦機(jī)制，對(duì)心理、情緒的影響等。一般音頻/環(huán)境聲的合成（Sound Synthesis）。聲音與音樂的計(jì)算機(jī)接口：包括樂譜打�。∕usicPrinting）、光學(xué)樂譜識(shí)別（Optical Music Recognition）、音響及多聲道聲音系統(tǒng)（Sound and Multi-channelSound System）、聲音裝置及多媒體技術(shù)（Sound Device and Multimedia Technology）等。音頻信息安全：包括音頻信息隱藏（Audio Information Hiding）、魯棒音頻水�。≧obust Audio Watermarking）、音頻認(rèn)證（Audio Authentication）、音頻取證（Audio Forensics）、聲紋識(shí)別（VoiceprintRecognition）、聲音偽造（Sound Forge）、音樂抄襲（Music Plagiarism）、AI音樂判別（AI Music Discrimination）等。音樂治療（Music Therapy）：將音樂與醫(yī)學(xué)、心理學(xué)、計(jì)算機(jī)相結(jié)合的典型范例。音樂機(jī)器人（Music Robot）：包括東西方各種風(fēng)格的表演機(jī)器人、指揮機(jī)器人等。聽覺與視覺/文本相結(jié)合的跨媒體應(yīng)用（Cross-media Applications Combing Audition andVision/Text）等。

音樂科技具有眾多應(yīng)用，例如電聲樂器、數(shù)字音源、音頻工作站、計(jì)算機(jī)輔助的音樂教育、計(jì)算音樂學(xué)、音樂表演的量化分析、電子音樂創(chuàng)作與制作、音樂信息檢索MIR、數(shù)字音樂圖書館、交互式多媒體、音頻接口、輔助醫(yī)學(xué)治療、音樂機(jī)器人、音頻數(shù)字水印等。

與音樂有關(guān)但是與SMC不同的另一個(gè)歷史更悠久的學(xué)科是音樂聲學(xué)（Music Acoustics）。音樂聲學(xué)是研究在音樂這種聲音振動(dòng)中存在的物理問題的科學(xué)，是音樂學(xué)與物理學(xué)的交叉學(xué)科。音樂聲學(xué)主要研究樂音與噪聲的區(qū)別、音高音強(qiáng)和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽覺器官的聲波感受機(jī)制、樂器聲學(xué)、人類發(fā)聲機(jī)制、音律學(xué)、與音樂有關(guān)的室內(nèi)聲學(xué)等。從學(xué)科的角度看，一部分音樂聲學(xué)知識(shí)也是SMC的基礎(chǔ)，但SMC研究更依賴于音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)這兩門學(xué)科。同時(shí)，研究?jī)?nèi)容面向音頻與音樂的信號(hào)處理、內(nèi)容分析和理解，與更偏重于解決振動(dòng)相關(guān)物理問題的音樂聲學(xué)也有較大區(qū)別。

2.3 音樂人工智能

近年來，隨著人工智能概念的火熱并上升為國(guó)家戰(zhàn)略，在音樂領(lǐng)域出現(xiàn)了音樂人工智能（Music AI）這一名詞。音樂人工智能是一個(gè)通俗的略顯模糊的概念，主要指以數(shù)字音樂為研究對(duì)象以AI為主要技術(shù)手段的計(jì)算機(jī)軟硬件系統(tǒng)研發(fā)，可以看成是人工智能在音樂領(lǐng)域的垂直應(yīng)用。音樂人工智能屬于音樂科技的一部分，包括音樂生成、音樂信息檢索MIR（含數(shù)十項(xiàng)應(yīng)用）、以及所有其它涉及AI的音樂相關(guān)的技術(shù)，如圖2中虛線框所示。

2.4 音樂信息檢索MIR

音樂信息檢索MIR是一個(gè)使用計(jì)算方法對(duì)數(shù)字音樂的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。它是音樂人工智能中體量最大的一個(gè)研究領(lǐng)域。

早期的MIR技術(shù)以符號(hào)音樂（Symbolic Music）如MIDI（Musical Instrument Digital Interface）為研究對(duì)象。由于其具有準(zhǔn)確的音高、時(shí)間等信息，很快就發(fā)展的比較成熟。后續(xù)研究很快轉(zhuǎn)為以音頻信號(hào)為研究對(duì)象，研究難度急劇上升。隨著該領(lǐng)域研究的不斷深入，如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂搜索，而從更廣泛的角度上包含了音樂信息處理的所有子領(lǐng)域。我們根據(jù)自己的理解，將MIR領(lǐng)域的幾十個(gè)研究課題歸納為核心層和應(yīng)用層共9個(gè)部分（圖3）。核心層包含與各大音樂要素（如音高與旋律、音樂節(jié)奏、音樂和聲等）及歌聲信息處理相關(guān)的子領(lǐng)域，應(yīng)用層則包含在核心層基礎(chǔ)上更偏向應(yīng)用的子領(lǐng)域（如音樂搜索、音樂情感計(jì)算、音樂推薦等）。核心層屬于高層音樂信號(hào)特性分析或低層音樂語義分析，對(duì)應(yīng)于音樂心理學(xué)中的感知層次；應(yīng)用層則屬于高層音樂語義分析，對(duì)應(yīng)于音樂心理學(xué)中的認(rèn)知層次。

圖3. 音樂信息檢索（MIR）的研究領(lǐng)域

基于內(nèi)容的音樂信息檢索MIR有很多應(yīng)用。在娛樂相關(guān)領(lǐng)域，典型應(yīng)用包括聽歌識(shí)曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類、音樂情感計(jì)算、音樂推薦、彩鈴制作、卡拉OK應(yīng)用、伴奏生成、自動(dòng)配樂、音樂內(nèi)容標(biāo)注、歌手識(shí)別、模仿秀評(píng)價(jià)、歌唱評(píng)價(jià)、歌聲合成及轉(zhuǎn)換、智能作曲、數(shù)字樂器、音頻/音樂編輯制作等。在音樂教育及科研領(lǐng)域，典型應(yīng)用包括計(jì)算音樂學(xué)、視唱練耳及樂理輔助教學(xué)、聲樂及各種樂器輔助教學(xué)、數(shù)字音頻/音樂圖書館等。在日常生活、心理及醫(yī)療、知識(shí)產(chǎn)權(quán)等其他領(lǐng)域，還包括樂器音質(zhì)評(píng)價(jià)及輔助購買、音樂理療及輔助醫(yī)療、音樂版權(quán)保護(hù)及盜版追蹤等應(yīng)用。此外，在電影及很多視頻中，音頻及音樂都可以用來輔助視覺內(nèi)容進(jìn)行分析。以上應(yīng)用均可以在電腦、智能手機(jī)、音樂機(jī)器人等各種平臺(tái)上進(jìn)行實(shí)現(xiàn)。

2.5 一般音頻計(jì)算機(jī)聽覺

計(jì)算機(jī)聽覺是使用計(jì)算方法對(duì)數(shù)字化聲音與音樂的內(nèi)容進(jìn)行理解和分析的交叉學(xué)科。面向音樂時(shí)稱為音樂信息檢索MIR，面向環(huán)境聲時(shí)則稱為基于一般音頻的計(jì)算機(jī)聽覺或AI聲學(xué)。主要基礎(chǔ)學(xué)科是各種聲學(xué)、音頻信號(hào)處理和人工智能-機(jī)器學(xué)習(xí)/深度學(xué)習(xí)。

（1）計(jì)算機(jī)聽覺通用技術(shù)框架

從實(shí)際應(yīng)用的角度出發(fā)，一個(gè)完整的CA算法系統(tǒng)應(yīng)該包括如下幾個(gè)步驟。

首先采用麥克風(fēng)（Microphone）/聲音傳感器（Acoustic Sensor）采集聲音數(shù)據(jù)；

之后進(jìn)行預(yù)處理（例如將多聲道音頻轉(zhuǎn)換為單聲道、重采樣、解壓縮等）；

音頻是長(zhǎng)時(shí)間的流媒體，需要將有用的部分分割出來，即進(jìn)行音頻事件檢測(cè)AED（Audio Event Detection）或端點(diǎn)檢測(cè)ED（Endpoint Detection）；

采集的數(shù)據(jù)經(jīng)常是多個(gè)聲源混雜在一起，還需進(jìn)行聲源分離，將有用的信號(hào)分離提取出來�；蛑辽傧糠衷肼�，進(jìn)行有用信號(hào)增強(qiáng)；

然后根據(jù)具體聲音的特性提取各種時(shí)域、頻域、時(shí)頻域音頻特征，進(jìn)行特征選擇（Feature Selection）或特征抽�。‵eature Extraction），或采用深度學(xué)習(xí)DL（Deep Learning）進(jìn)行自動(dòng)特征學(xué)習(xí)（Feature Learning）；

最后送入淺層統(tǒng)計(jì)分類器或深度學(xué)習(xí)模型進(jìn)行聲景（Sound Scape）分類，聲音目標(biāo)識(shí)別，或聲音目標(biāo)定位。

機(jī)器學(xué)習(xí)模型通常采用有監(jiān)督學(xué)習(xí)（Supervised Learning），需要事先用標(biāo)注好的已知數(shù)據(jù)進(jìn)行訓(xùn)練�；谝话阋纛l/環(huán)境聲的CA算法設(shè)計(jì)與語音信息處理及音樂信息檢索MIR技術(shù)高度類似，區(qū)別在于聲音的本質(zhì)不同，需要更有針對(duì)性的設(shè)計(jì)各個(gè)步驟的算法，另外需要某種特定聲音的領(lǐng)域知識(shí)。

（2）音頻事件檢測(cè)與音頻場(chǎng)景識(shí)別

音頻事件（AudioEvent）指一段具有特定意義的連續(xù)聲音，時(shí)間可長(zhǎng)可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭（Audio Shot）。音頻事件檢測(cè)AED，亦稱聲音事件檢測(cè)SED（Sound Event Detection），環(huán)境聲音識(shí)別ESR（Environmental Sound Recognition），旨在識(shí)別音頻流中事件的起止時(shí)間（Event Onsets and Offsets）和類型，有時(shí)還包括其重要性（Saliency）。面向?qū)嶋H系統(tǒng)的AED需要在各種背景聲音的干擾下在連續(xù)音頻流中找到聲音事件的邊界再進(jìn)行分類，比單純的分類問題要更困難。

音頻場(chǎng)景（AudioScenes）是一個(gè)保持語義相關(guān)或一致性（Semantic Consistency）的聲音片段，通常由多個(gè)音頻事件組成。例如，一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對(duì)應(yīng)一個(gè)戰(zhàn)爭(zhēng)場(chǎng)景。對(duì)于實(shí)際應(yīng)用中的連續(xù)音頻流，音頻場(chǎng)景識(shí)別ASR（Audio Scene Recognition）首先進(jìn)行時(shí)間軸語義分割，得到音頻場(chǎng)景的起止時(shí)間即邊界（AudioScene Cut），再進(jìn)行音頻場(chǎng)景分類ASC（Audio Scene Classification）。ASR是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段，是基于內(nèi)容的音頻、視頻檢索和分析的基礎(chǔ)。目前場(chǎng)景檢測(cè)（Scene Detection）的研究，主要是基于圖像和視頻。音頻同樣具有豐富的場(chǎng)景信息，基于音頻既可獨(dú)立進(jìn)行場(chǎng)景分析，也可以輔助視頻場(chǎng)景分析，以獲得更為準(zhǔn)確的場(chǎng)景檢測(cè)和分割。音頻場(chǎng)景的類別并沒有固定的定義，依賴于具體應(yīng)用場(chǎng)景。例如在電影等視頻中，可粗略分為語音、音樂、歌曲、環(huán)境音、帶音樂伴奏的語音等幾類。環(huán)境音還可以進(jìn)行更細(xì)粒度的劃分�；谝纛l分析的方法用戶容易接受，計(jì)算量也比較少。

（3）基于一般音頻/環(huán)境聲的計(jì)算機(jī)聽覺應(yīng)用

基于一般音頻的計(jì)算機(jī)聽覺直接面向國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域，具有眾多應(yīng)用。例如：在醫(yī)療衛(wèi)生領(lǐng)域，涉及呼吸系統(tǒng)疾�。ǹ人�、打鼾、言語、喘息、呼吸等），心臟系統(tǒng)疾病，其它相關(guān)醫(yī)療（嗓音疾病、胎音和胎動(dòng)、藥劑吞服、血液流動(dòng)、肌音）。在安防領(lǐng)域，涉及公共場(chǎng)所監(jiān)控和私密場(chǎng)所監(jiān)控。在交通運(yùn)輸、倉儲(chǔ)領(lǐng)域，涉及鐵路運(yùn)輸業(yè)，道路運(yùn)輸業(yè)（車型及車距識(shí)別、交通事故識(shí)別、交通流量檢測(cè)、道路質(zhì)量檢測(cè)），水上運(yùn)輸業(yè)，航空運(yùn)輸業(yè)（航空飛行器識(shí)別、航空飛行數(shù)據(jù)分析），管道運(yùn)輸業(yè)，倉儲(chǔ)業(yè)。在制造業(yè)領(lǐng)域，涉及鐵路、船舶、航空航天和其他運(yùn)輸設(shè)備制造業(yè)，通用設(shè)備制造業(yè)（發(fā)動(dòng)機(jī)、金屬加工機(jī)械制造、軸承齒輪和傳動(dòng)部件制造、包裝專用設(shè)備制造），電氣機(jī)械和器材制造業(yè)，紡織業(yè)，黑色及有色金屬冶煉和壓延加工業(yè)，非金屬礦物制品業(yè)，汽車制造業(yè)，農(nóng)副食品加工業(yè)，機(jī)器人制造。在農(nóng)、林、牧、漁業(yè)領(lǐng)域，涉及農(nóng)業(yè)，林業(yè)，畜牧業(yè)。在水利、環(huán)境和公共設(shè)施管理業(yè)，涉及水利管理業(yè)，生態(tài)保護(hù)和環(huán)境治理業(yè)。在建筑業(yè)，涉及土木工程建筑業(yè)，房屋建筑業(yè)。在其它領(lǐng)域，涉及采礦業(yè)，日常生活，身份識(shí)別，軍事目標(biāo)識(shí)別等。

3. 總結(jié)與展望

音樂科技、音樂人工智能與計(jì)算機(jī)聽覺以數(shù)字音樂和聲音為研究對(duì)象，是聲學(xué)、心理學(xué)、信號(hào)處理、人工智能、多媒體、音樂學(xué)及各行業(yè)領(lǐng)域知識(shí)相結(jié)合的重要交叉學(xué)科，具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開發(fā)價(jià)值。目前仍有大量幾乎空白或沒有得到充分研究的子領(lǐng)域。

與自然語言處理、計(jì)算機(jī)視覺、語音信息處理等相關(guān)領(lǐng)域相比，上述學(xué)科在國(guó)內(nèi)外發(fā)展都比較緩慢。幾個(gè)可能的原因包括：（1）數(shù)字音樂涉及版權(quán)問題無法公開，各種音頻數(shù)據(jù)都源自特定場(chǎng)合和物體，難以全面搜集和標(biāo)注。數(shù)據(jù)的獲取及公開困難嚴(yán)重影響了基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)框架算法的研究及比較。（2）音樂和音頻信號(hào)幾乎都是多種聲音混合在一起，很少有單獨(dú)存在的情況。音樂中的各種樂器和歌聲在音高上形成和聲織體，在時(shí)間上形成節(jié)奏至曲式結(jié)構(gòu)，耦合成多層次的復(fù)雜音頻流，難以甚至無法分離處理。環(huán)境聲音具有非平穩(wěn)、強(qiáng)噪聲、弱信號(hào)、多聲源混合等特點(diǎn)，一個(gè)實(shí)際系統(tǒng)必須經(jīng)過音頻分割、聲源分離或增強(qiáng)/去噪后，才能進(jìn)行后續(xù)的內(nèi)容分析理解。（3）該領(lǐng)域幾乎都是交叉學(xué)科，進(jìn)行音樂科技的研究需要了解最基本的音樂理論知識(shí)，進(jìn)行基于一般音頻的計(jì)算機(jī)聽覺研究則經(jīng)常需要了解相關(guān)各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)。（4）此外，作為新興學(xué)科，還存在社會(huì)發(fā)展水平、科研環(huán)境、科技評(píng)價(jià)、人員儲(chǔ)備等各種非技術(shù)類原因阻礙計(jì)算機(jī)聽覺技術(shù)的發(fā)展。

隨著中國(guó)社會(huì)經(jīng)濟(jì)的快速發(fā)展，年青一代受音樂教育的普及，國(guó)家對(duì)人工智能等前沿技術(shù)的重視，上述領(lǐng)域在近幾年也出現(xiàn)了良好的發(fā)展勢(shì)頭。本文作為科普性文章，希望能使全社會(huì)更多的人有所了解，加速推動(dòng)國(guó)內(nèi)音頻音樂技術(shù)領(lǐng)域在學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的發(fā)展，走出一條具有中國(guó)特色的文理結(jié)合的道路，早日達(dá)到甚至超過世界先進(jìn)水平。

參考文獻(xiàn)

[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

[3] 李偉，李子晉，高永偉，“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”，第五屆中國(guó)聲音與音樂技術(shù)會(huì)議（CSMT 2017）特約報(bào)告，復(fù)旦學(xué)報(bào)（自然科學(xué)版），2018，57(3)：271-313.

[4] 李偉, 李碩, “理解數(shù)字聲音-基于普通音頻的計(jì)算機(jī)聽覺綜述”, 第六屆全國(guó)聲音與音樂技術(shù)會(huì)議（CSMT 2018）, 復(fù)旦學(xué)報(bào)（自然科學(xué)版）, 2019, 58(3)：269-313.

[5] 李偉，李子晉，邵曦主編，“音頻音樂與計(jì)算機(jī)的交融-聲音與音樂技術(shù)”，2020年1月，復(fù)旦大學(xué)出版社，89.5萬字，468頁。

查看更多相似文章

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

Adam 算法便以其卓越的性能風(fēng)靡深度學(xué)習(xí)領(lǐng)域，該算法通常與同步隨機(jī)梯度技術(shù)相結(jié)合，采用數(shù)據(jù)并行的方式在多臺(tái)機(jī)器上執(zhí)行

基于深度學(xué)習(xí)和傳統(tǒng)算法的人體姿態(tài)估計(jì)，技術(shù)細(xì)節(jié)都講清楚了

人體姿態(tài)估計(jì)便是計(jì)算機(jī)視覺領(lǐng)域現(xiàn)有的熱點(diǎn)問題，其主要任務(wù)是讓機(jī)器自動(dòng)地檢測(cè)場(chǎng)景中的人“在哪里”和理解人在“干什么”

傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標(biāo)檢測(cè)算法優(yōu)缺點(diǎn)對(duì)比及使用場(chǎng)合比較

基于深度學(xué)習(xí)目標(biāo)檢測(cè)模型優(yōu)缺點(diǎn)對(duì)比

深度學(xué)習(xí)模型：OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

如何更高效地壓縮時(shí)序數(shù)據(jù)？基于深度強(qiáng)化學(xué)習(xí)的探索

大型商用時(shí)序數(shù)據(jù)壓縮的特性，提出了一種新的算法，分享用深度強(qiáng)化學(xué)習(xí)進(jìn)行數(shù)據(jù)壓縮的研究探索

滴滴機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)的演進(jìn)與K8s二次開發(fā)

滴滴機(jī)器學(xué)習(xí)場(chǎng)景下的 k8s 落地實(shí)踐與二次開發(fā)的技術(shù)實(shí)踐與經(jīng)驗(yàn)，包括平臺(tái)穩(wěn)定性、易用性、利用率、平臺(tái) k8s 版本升級(jí)與二次開發(fā)等內(nèi)容

人工智能和機(jī)器學(xué)習(xí)之間的差異及其重要性

機(jī)器學(xué)習(xí)就是通過經(jīng)驗(yàn)來尋找它學(xué)習(xí)的模式，而人工智能是利用經(jīng)驗(yàn)來獲取知識(shí)和技能，并將這些知識(shí)應(yīng)用于新的環(huán)境

面向動(dòng)態(tài)記憶和學(xué)習(xí)功能的神經(jīng)電晶體可塑性研究

神經(jīng)形態(tài)結(jié)構(gòu)融合學(xué)習(xí)和記憶功能領(lǐng)域的研究主要集中在人工突觸的可塑性方面，同時(shí)神經(jīng)元膜的固有可塑性在神經(jīng)形態(tài)信息處理的實(shí)現(xiàn)中也很重要

CVPOS自助收銀的挑戰(zhàn)以及商品識(shí)別算法工程落地方法和經(jīng)驗(yàn)

針對(duì)結(jié)算收銀場(chǎng)景中商品識(shí)別的難點(diǎn)，從商品識(shí)別落地中的模型選擇、數(shù)據(jù)挑選與標(biāo)注、前端和云端部署、模型改進(jìn)等方面，進(jìn)行了深入講解

內(nèi)容流量管理的關(guān)鍵技術(shù)：多任務(wù)保量?jī)?yōu)化算法實(shí)踐

通過分析其中的關(guān)鍵問題，建立了新熱內(nèi)容曝光敏感模型，并最終給出一種曝光資源約束下的多目標(biāo)優(yōu)化保量框架與算法

百變應(yīng)用場(chǎng)景下，優(yōu)酷基于圖執(zhí)行引擎的算法服務(wù)框架筑造之路

優(yōu)酷推薦業(yè)務(wù)，算法應(yīng)用場(chǎng)景眾多，需求靈活多變，需要一套通用業(yè)務(wù)框架，支持運(yùn)行時(shí)的算法流程的裝配，提升算法服務(wù)場(chǎng)景搭建的效率

餓了么推薦算法的演進(jìn)及在線學(xué)習(xí)實(shí)踐

餓了么算法專家劉金介紹推薦業(yè)務(wù)背景，包括推薦產(chǎn)品形態(tài)及算法優(yōu)化目標(biāo)；然后是算法的演進(jìn)路線；最后重點(diǎn)介紹在線學(xué)習(xí)是如何在餓了么推薦領(lǐng)域?qū)嵺`的

資料獲取

機(jī)器人開發(fā)

== 最新資訊 ==

ChatGPT：又一個(gè)“人形機(jī)器人”主題

ChatGPT快速流行，重構(gòu) AI 商業(yè)

中國(guó)機(jī)器視覺產(chǎn)業(yè)方面的政策

中國(guó)機(jī)器視覺產(chǎn)業(yè)聚焦于中國(guó)東部沿海地區(qū)(

從CHAT-GPT到生成式AI：人工智能

工信部等十七部門印發(fā)《機(jī)器人+應(yīng)用行動(dòng)實(shí)

全球人工智能企業(yè)市值/估值 TOP20

創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司第十一期上

諧波減速器和RV減速器比較

機(jī)器人減速器：諧波減速器和RV減速器

人形機(jī)器人技術(shù)難點(diǎn) 高精尖技術(shù)的綜合

機(jī)器人大規(guī)模商用面臨的痛點(diǎn)有四個(gè)方面

青島市機(jī)器人產(chǎn)業(yè)概況：機(jī)器人企業(yè)多布局在

六大機(jī)器人產(chǎn)業(yè)集群的特點(diǎn)

機(jī)械臂-高度非線性強(qiáng)耦合的復(fù)雜系統(tǒng)

== 機(jī)器人推薦 ==

迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人開發(fā)平臺(tái)

機(jī)器人開發(fā)平臺(tái)

機(jī)器人招商 Disinfection Robot 機(jī)器人公司機(jī)器人應(yīng)用智能醫(yī)療物聯(lián)網(wǎng) 機(jī)器人排名機(jī)器人企業(yè) 機(jī)器人政策教育機(jī)器人迎賓機(jī)器人機(jī)器人開發(fā) 獨(dú)角獸消毒機(jī)器人品牌消毒機(jī)器人合理用藥地圖

版權(quán)所有 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 中國(guó)運(yùn)營(yíng)中心：北京清華科技園九號(hào)樓5層中國(guó)生產(chǎn)中心：山東日照太原路71號(hào)
銷售1：4006-935-088 銷售2：4006-937-088 客服電話： 4008-128-728

<label id="0tozf"><font id="0tozf"><strong id="0tozf"></strong></font></label>

<rt id="0tozf"></rt>