首頁
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人開發(fā) > 音樂人工智能、計算機聽覺及音樂科技  
 

音樂人工智能、計算機聽覺及音樂科技

來源:CAAI認知系統(tǒng)與信息處理專委會      編輯:創(chuàng)澤      時間:2020/5/28      主題:其他   [加盟]
本文面向音樂科技、音樂人工智能與計算機聽覺這一文理交融的新興交叉學(xué)科,介紹其學(xué)科范疇、發(fā)展歷史、研究領(lǐng)域、產(chǎn)業(yè)應(yīng)用等。闡明音樂科技、聲音與音樂計算、音樂人工智能、音樂信息檢索MIR、計算機聽覺、音樂聲學(xué)等各個學(xué)科名詞之間的相互關(guān)系。最后,總結(jié)學(xué)科發(fā)展面臨的困難,展望其未來發(fā)展趨勢。


1. 語音信息處理和聲音與音樂計算

聲音是人類獲取信息的重要來源,可劃分為語音(Speech)、音樂(Music)和一般音頻/環(huán)境聲(General Audio/Environmental Sound)三大類。人類的語言具有特定的詞匯及語法結(jié)構(gòu),用于在人類中傳遞信息。語音是語言的聲音載體,語音信號屬于復(fù)合音,其基本要素是音高、強度、音長、音色等。音樂是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復(fù)合音、少量來自環(huán)境聲的復(fù)合音以及一些來自打擊樂器的噪樂音。其基本要素包括節(jié)奏(Rhythm)、旋律(Melody)、和聲(Harmonic)、力度(Dynamic)、速度(Tempo)、調(diào)性(Tonality)、曲式(Form)、織體(Texture)、音色(Timbre)等。除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。例如,自然界的風(fēng)聲、雷聲、海浪聲,機械設(shè)備的噪聲,動物的叫聲,人體的心跳、咳嗽、脈搏聲,軍事的槍聲、炮聲、爆炸聲等等,不可盡數(shù)。


根據(jù)以上聲音的三大種類,可以粗略地將聽覺信息處理分成兩塊,如圖1所示。專門處理語音的學(xué)科是語音信息處理,以語言聲學(xué)為基礎(chǔ),歷史悠久,發(fā)展相對成熟,已獨立成為一門學(xué)科。包括計算語言學(xué)、語音識別、說話人/聲紋識別、語種識別、語音增強/去噪/分離、語音合成、語音編碼、語音情感計算、自然語言處理與口語對話等經(jīng)典研究領(lǐng)域。面向音樂和一般音頻信息處理的學(xué)科叫做聲音與音樂計算SMC(Sound and Music Computing)[1]。該領(lǐng)域橫跨文理,在國外已有50多年的歷史,但是在國內(nèi)僅有20幾年歷史。包含的研究領(lǐng)域隨著時代變化也在不斷擴展,而且由于涉及藝術(shù)創(chuàng)作,還具有一定的未知性。


2. 音樂科技概覽

2.1 音樂科技

音樂與科技的融合具有悠久的歷史。早在20世紀50年代,一些不同國家的作曲家、工程師和科學(xué)家已經(jīng)開始探索利用新的數(shù)字技術(shù)來處理音樂,并逐漸形成了音樂科技/計算機音樂(Music Technology/Computer Music)這一交叉學(xué)科。20世紀70年代之后,歐美各國相繼建立了多個大型計算機音樂研究機構(gòu),如1975年建立的美國斯坦福大學(xué)CCRMA(Center for Computer Research in Music and Acoustics)、1977年建立的法國巴黎IRCAM(Institute for Research and Coordination Acoustic/Music)、1994年成立的西班牙巴塞羅那UPF(Universitat Pompeu Fabra)大學(xué)MTG(Music Technology Group)、以及2001年成立的英國倫敦女王大學(xué)C4DM(Center for Digital Music)等。幾十年的歷史中,音樂科技在世界各地都逐漸發(fā)展起來,如美國的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學(xué),加拿大麥吉爾大學(xué)的CIRMMT(Centre for Interdisciplinary Research in Music Media and Technology),德國、日本、新加坡、臺灣等等。歐洲由于其濃厚的人文和藝術(shù)氣息,歐盟及各國政府的大力支持成為該領(lǐng)域的世界中心。


音樂科技在中國大陸發(fā)展較晚,大約20世紀80年代有人開始零星的研究,90年代一些音樂學(xué)院開始建立音樂科技或音樂工程專業(yè),2000年左右在一些綜合性和理工科大學(xué)開始出現(xiàn)一批來自計算機等信息學(xué)科的科研工作者。在中國文理分割的教育體制下,這兩類人群之間橫亙著巨大的學(xué)科鴻溝。藝術(shù)領(lǐng)域的相關(guān)人員只能運用國外的各種音樂科技軟硬件產(chǎn)品進行音樂創(chuàng)作、表演、教育、理論研究,對其內(nèi)在的科學(xué)技術(shù)原理知之甚少,更無法進行科技創(chuàng)新和產(chǎn)品研發(fā)。理工科領(lǐng)域的相關(guān)人員一般具有初級的音樂知識,但專業(yè)程度差距較大,研究集中于面向消費者的音樂科技,研發(fā)面向?qū)I(yè)應(yīng)用的音樂科技產(chǎn)品力不從心。


2013年12月,第一屆中國聲音與音樂計算研討會CSMCW(China Sound and Music Computing Workshop)創(chuàng)建于復(fù)旦大學(xué),為國內(nèi)同行搭建了一個產(chǎn)學(xué)研交流的平臺,該會議2016年更名為中國聲音與音樂技術(shù)會議CSMT(Conference on Sound and Music Technology)。該會議至今已召開七屆(復(fù)旦大學(xué)、清華大學(xué)、上海音樂學(xué)院、南京郵電大學(xué)、蘇州大學(xué)與UCLA蘇州研究院、廈門理工學(xué)院、哈爾濱工業(yè)大學(xué)),逐漸成為國內(nèi)音樂科技全產(chǎn)業(yè)鏈的交流平臺,為加強科技與藝術(shù)的融合,消除學(xué)科鴻溝做出了重要貢獻。隨著中國社會的整體發(fā)展,以及人工智能(AI)技術(shù)的持續(xù)火熱,到2017年左右,音樂科技在國內(nèi)開始呈現(xiàn)加速發(fā)展的趨勢。2017年,音樂科技領(lǐng)域國內(nèi)外的三大重要會議ISMIR(International Society for Music Information Retrieval Conference)、CSMT、ICMC(International Computer Music Conference)在上海和蘇州連續(xù)舉行。2018年,于中國音樂學(xué)院舉辦CSMT第一屆音樂人工智能(Music AI)研討會;深圳平安科技有限公司與中央民族大學(xué)建立AI作曲聯(lián)合實驗室;騰訊音樂娛樂集團(TME)在美國上市;大型中文綜述“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”(CSMT 2017會議論文集,43頁, 335篇文獻)[3]正式發(fā)表。2019年,中央音樂學(xué)院建立音樂人工智能與音樂信息科技系,開始招收博士、碩士研究生,實行音樂與科技雙導(dǎo)師培養(yǎng)制;AI科學(xué)前沿大會、北京國際電子音樂節(jié)等多個重要會議開設(shè)音樂人工智能特約報告專場;上海音樂學(xué)院開設(shè)音樂人工智能課程;本文作者在百度百科定義音樂科技、音樂人工智能、音樂信息檢索MIR、計算機聽覺、中國聲音與音樂技術(shù)會議等五個學(xué)科詞條;大型中文綜述“理解數(shù)字聲音-基于普通音頻的計算機聽覺綜述”(CSMT 2018會議論文集,45頁,399篇文獻)[4]正式發(fā)表;第七屆CSMT會議參會人數(shù)超過200人,來自70余個單位,投稿等各項指標均創(chuàng)歷史紀錄。2020年,四川音樂學(xué)院以音樂科技為突破口建立實驗藝術(shù)學(xué)院;由本文作者主編55位作者聯(lián)合編著的中文教材“音頻音樂與計算機的交融-音頻音樂技術(shù)” [5]由復(fù)旦大學(xué)出版社正式出版,全書468頁,895千字。大陸的音樂科技歷經(jīng)坎坷,雖然進步巨大,但是在教育體制、科技評價、社會觀念等各方面的制約下,至今仍然處于起步階段。


音樂科技是音樂與科學(xué)技術(shù)的交叉學(xué)科,包含眾多的研究和應(yīng)用領(lǐng)域。在音樂方面,包括計算音樂學(xué)(Computational Musicology)、電子音樂創(chuàng)作與制作(Electronic Music Creation and Production)、計算機輔助的音樂教育(Computer-aided Music Education)、計算機輔助的音樂表演(Computer-aidedMusic Performance)、錄音混音(Recording and Remixing)、音效及聲音設(shè)計(Sound Effect and Sound Design)等。該方面的研究課題比較零散,不成理論體系,依賴于在音樂方面的具體應(yīng)用,有些還涉及藝術(shù)創(chuàng)造。在科技方面,音樂科技指上述的聲音與音樂計算,下邊詳細闡述,如圖2右半部分所示。


2.2 聲音與音樂計算

聲音與音樂計算是一個龐大的研究領(lǐng)域,可細化為多個學(xué)科分支。其主要內(nèi)容及分類在1995年的文獻[1]中已有描述,本文所述內(nèi)容是作者根據(jù)近年來的最新進展以及自己的理解對[1]進行補充完善而成。


(1)音樂生成(Music Generation):包含歌聲合成(Singing Synthesis)、自動作曲(AutomaticComposition)、自動編曲(Automatic Arrangement)等主要方向,需要較多的音樂知識,技術(shù)實現(xiàn)比較復(fù)雜。因近年來大量使用機器學(xué)習(xí)/深度學(xué)習(xí)技術(shù),也可以通俗的稱為人工智能音樂(AI Music)。歌聲合成以語音合成為基礎(chǔ),但需考慮音樂旋律、節(jié)奏、強弱、音色、結(jié)構(gòu)、情感、藝術(shù)技巧等多種音樂要素。自動作曲早期稱為算法作曲,近年來進化為基于深度學(xué)習(xí)的AI作曲。自動編曲在已知主旋律的基礎(chǔ)上編配和弦及各個聲部,使其成為一首完整的作品。上述研究課題目前只能模仿音樂專業(yè)人員,尚無人類源自靈感的創(chuàng)作能力,且主觀性較強,評價標準難以統(tǒng)一。


(2)聲音與音樂的內(nèi)容理解與分析:使用計算方法對數(shù)字化聲音與音樂的內(nèi)容進行理解和分析,例如音樂識譜(Music Transcription)、旋律提。∕elody Extraction)、節(jié)奏分析(Rhythm Analysis)、和弦識別(Chord Estimation)、音頻檢索(Audio Retrieval)、流派識別(Genre Identification)、音樂情感計算(Music Emotion Calculation)、歌手識別(Singer Identification)、歌唱評價(SingingEvaluation)、歌聲分離(Vocal Separation)等。該分支在20世紀90年代末隨著互聯(lián)網(wǎng)上數(shù)字音頻和音樂的急劇增加而發(fā)展起來,研究難度大,多項研究內(nèi)容至今仍在持續(xù)進行中。與計算機視覺CV(Computer Vision)對應(yīng),該分支也可稱為計算機聽覺CA(Computer Audition)或機器聽覺(Machine Listening)[2]。注意計算機聽覺是用來理解分析而不是處理音頻和音樂,狹義上講不包括語音,廣義上亦包括。CA若剔除一般聲音而局限于音樂,則可稱為音樂信息檢索MIR(Music Information Retrieval)。


(3)聲音與音樂信號處理:用于聲音和音樂的信號分析、變換及合成,包括頻譜分析(Spectral Analysis)、調(diào)幅(Magnitude Modulation)、調(diào)頻(FrequencyModulation)、低通/高通/帶通/帶阻濾波(Low-pass/High-pass/Band-pass/Band-stop Filtering)、轉(zhuǎn)碼(Transcoding)、無損/有損壓縮(Lossless/Lossy Compression)、重采樣(Resampling)、回聲(Echo)、混音(Remixing)、去噪(Denoising)、變調(diào)PS(Pitch Shifting)、保持音高不變的時間伸縮TSM(Time-scale Modification/Time Stretching)、時間縮放(TimeScaling)等。該分支相對比較成熟,已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。


(4)其它與音頻音樂相關(guān)的科技領(lǐng)域:如聲音與音樂的感知認知(Sound and Music Perception and Cognition):研究音樂的大腦機制,對心理、情緒的影響等。一般音頻/環(huán)境聲的合成(Sound Synthesis)。聲音與音樂的計算機接口:包括樂譜打。∕usicPrinting)、光學(xué)樂譜識別(Optical Music Recognition)、音響及多聲道聲音系統(tǒng)(Sound and Multi-channelSound System)、聲音裝置及多媒體技術(shù)(Sound Device and Multimedia Technology)等。音頻信息安全:包括音頻信息隱藏(Audio Information Hiding)、魯棒音頻水。≧obust Audio Watermarking)、音頻認證(Audio Authentication)、音頻取證(Audio Forensics)、聲紋識別(VoiceprintRecognition)、聲音偽造(Sound Forge)、音樂抄襲(Music Plagiarism)、AI音樂判別(AI Music Discrimination)等。音樂治療(Music Therapy):將音樂與醫(yī)學(xué)、心理學(xué)、計算機相結(jié)合的典型范例。音樂機器人(Music Robot):包括東西方各種風(fēng)格的表演機器人、指揮機器人等。聽覺與視覺/文本相結(jié)合的跨媒體應(yīng)用(Cross-media Applications Combing Audition andVision/Text)等。

 

音樂科技具有眾多應(yīng)用,例如電聲樂器、數(shù)字音源、音頻工作站、計算機輔助的音樂教育、計算音樂學(xué)、音樂表演的量化分析、電子音樂創(chuàng)作與制作、音樂信息檢索MIR、數(shù)字音樂圖書館、交互式多媒體、音頻接口、輔助醫(yī)學(xué)治療、音樂機器人、音頻數(shù)字水印等。


與音樂有關(guān)但是與SMC不同的另一個歷史更悠久的學(xué)科是音樂聲學(xué)(Music Acoustics)。音樂聲學(xué)是研究在音樂這種聲音振動中存在的物理問題的科學(xué),是音樂學(xué)與物理學(xué)的交叉學(xué)科。音樂聲學(xué)主要研究樂音與噪聲的區(qū)別、音高音強和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽覺器官的聲波感受機制、樂器聲學(xué)、人類發(fā)聲機制、音律學(xué)、與音樂有關(guān)的室內(nèi)聲學(xué)等。從學(xué)科的角度看,一部分音樂聲學(xué)知識也是SMC的基礎(chǔ),但SMC研究更依賴于音頻信號處理和人工智能-機器學(xué)習(xí)/深度學(xué)習(xí)這兩門學(xué)科。同時,研究內(nèi)容面向音頻與音樂的信號處理、內(nèi)容分析和理解,與更偏重于解決振動相關(guān)物理問題的音樂聲學(xué)也有較大區(qū)別。


2.3 音樂人工智能

近年來,隨著人工智能概念的火熱并上升為國家戰(zhàn)略,在音樂領(lǐng)域出現(xiàn)了音樂人工智能(Music AI)這一名詞。音樂人工智能是一個通俗的略顯模糊的概念,主要指以數(shù)字音樂為研究對象以AI為主要技術(shù)手段的計算機軟硬件系統(tǒng)研發(fā),可以看成是人工智能在音樂領(lǐng)域的垂直應(yīng)用。音樂人工智能屬于音樂科技的一部分,包括音樂生成、音樂信息檢索MIR(含數(shù)十項應(yīng)用)、以及所有其它涉及AI的音樂相關(guān)的技術(shù),如圖2中虛線框所示。


2.4 音樂信息檢索MIR

音樂信息檢索MIR是一個使用計算方法對數(shù)字音樂的內(nèi)容進行理解和分析的交叉學(xué)科。它是音樂人工智能中體量最大的一個研究領(lǐng)域。


早期的MIR技術(shù)以符號音樂(Symbolic Music)如MIDI(Musical Instrument Digital Interface)為研究對象。由于其具有準確的音高、時間等信息,很快就發(fā)展的比較成熟。后續(xù)研究很快轉(zhuǎn)為以音頻信號為研究對象,研究難度急劇上升。隨著該領(lǐng)域研究的不斷深入,如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂搜索,而從更廣泛的角度上包含了音樂信息處理的所有子領(lǐng)域。我們根據(jù)自己的理解,將MIR領(lǐng)域的幾十個研究課題歸納為核心層和應(yīng)用層共9個部分(圖3)。核心層包含與各大音樂要素(如音高與旋律、音樂節(jié)奏、音樂和聲等)及歌聲信息處理相關(guān)的子領(lǐng)域,應(yīng)用層則包含在核心層基礎(chǔ)上更偏向應(yīng)用的子領(lǐng)域(如音樂搜索、音樂情感計算、音樂推薦等)。核心層屬于高層音樂信號特性分析或低層音樂語義分析,對應(yīng)于音樂心理學(xué)中的感知層次;應(yīng)用層則屬于高層音樂語義分析,對應(yīng)于音樂心理學(xué)中的認知層次。


圖3. 音樂信息檢索(MIR)的研究領(lǐng)域


基于內(nèi)容的音樂信息檢索MIR有很多應(yīng)用。在娛樂相關(guān)領(lǐng)域,典型應(yīng)用包括聽歌識曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類、音樂情感計算、音樂推薦、彩鈴制作、卡拉OK應(yīng)用、伴奏生成、自動配樂、音樂內(nèi)容標注、歌手識別、模仿秀評價、歌唱評價、歌聲合成及轉(zhuǎn)換、智能作曲、數(shù)字樂器、音頻/音樂編輯制作等。在音樂教育及科研領(lǐng)域,典型應(yīng)用包括計算音樂學(xué)、視唱練耳及樂理輔助教學(xué)、聲樂及各種樂器輔助教學(xué)、數(shù)字音頻/音樂圖書館等。在日常生活、心理及醫(yī)療、知識產(chǎn)權(quán)等其他領(lǐng)域,還包括樂器音質(zhì)評價及輔助購買、音樂理療及輔助醫(yī)療、音樂版權(quán)保護及盜版追蹤等應(yīng)用。此外,在電影及很多視頻中,音頻及音樂都可以用來輔助視覺內(nèi)容進行分析。以上應(yīng)用均可以在電腦、智能手機、音樂機器人等各種平臺上進行實現(xiàn)。


2.5 一般音頻計算機聽覺

計算機聽覺是使用計算方法對數(shù)字化聲音與音樂的內(nèi)容進行理解和分析的交叉學(xué)科。面向音樂時稱為音樂信息檢索MIR,面向環(huán)境聲時則稱為基于一般音頻的計算機聽覺或AI聲學(xué)。主要基礎(chǔ)學(xué)科是各種聲學(xué)、音頻信號處理和人工智能-機器學(xué)習(xí)/深度學(xué)習(xí)。


(1)計算機聽覺通用技術(shù)框架

從實際應(yīng)用的角度出發(fā),一個完整的CA算法系統(tǒng)應(yīng)該包括如下幾個步驟。

首先采用麥克風(fēng)(Microphone)/聲音傳感器(Acoustic Sensor)采集聲音數(shù)據(jù);

之后進行預(yù)處理(例如將多聲道音頻轉(zhuǎn)換為單聲道、重采樣、解壓縮等);

音頻是長時間的流媒體,需要將有用的部分分割出來,即進行音頻事件檢測AED(Audio Event Detection)或端點檢測ED(Endpoint Detection);

采集的數(shù)據(jù)經(jīng)常是多個聲源混雜在一起,還需進行聲源分離,將有用的信號分離提取出來;蛑辽傧糠衷肼暎M行有用信號增強;

然后根據(jù)具體聲音的特性提取各種時域、頻域、時頻域音頻特征,進行特征選擇(Feature Selection)或特征抽。‵eature Extraction),或采用深度學(xué)習(xí)DL(Deep Learning)進行自動特征學(xué)習(xí)(Feature Learning);

最后送入淺層統(tǒng)計分類器或深度學(xué)習(xí)模型進行聲景(Sound Scape)分類,聲音目標識別,或聲音目標定位。


機器學(xué)習(xí)模型通常采用有監(jiān)督學(xué)習(xí)(Supervised Learning),需要事先用標注好的已知數(shù)據(jù)進行訓(xùn)練;谝话阋纛l/環(huán)境聲的CA算法設(shè)計與語音信息處理及音樂信息檢索MIR技術(shù)高度類似,區(qū)別在于聲音的本質(zhì)不同,需要更有針對性的設(shè)計各個步驟的算法,另外需要某種特定聲音的領(lǐng)域知識。


(2)音頻事件檢測與音頻場景識別

音頻事件(AudioEvent)指一段具有特定意義的連續(xù)聲音,時間可長可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭(Audio Shot)。音頻事件檢測AED,亦稱聲音事件檢測SED(Sound Event Detection),環(huán)境聲音識別ESR(Environmental Sound Recognition),旨在識別音頻流中事件的起止時間(Event Onsets and Offsets)和類型,有時還包括其重要性(Saliency)。面向?qū)嶋H系統(tǒng)的AED需要在各種背景聲音的干擾下在連續(xù)音頻流中找到聲音事件的邊界再進行分類,比單純的分類問題要更困難。


音頻場景(AudioScenes)是一個保持語義相關(guān)或一致性(Semantic Consistency)的聲音片段,通常由多個音頻事件組成。例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對應(yīng)一個戰(zhàn)爭場景。對于實際應(yīng)用中的連續(xù)音頻流,音頻場景識別ASR(Audio Scene Recognition)首先進行時間軸語義分割,得到音頻場景的起止時間即邊界(AudioScene Cut),再進行音頻場景分類ASC(Audio Scene Classification)。ASR是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段,是基于內(nèi)容的音頻、視頻檢索和分析的基礎(chǔ)。目前場景檢測(Scene Detection)的研究,主要是基于圖像和視頻。音頻同樣具有豐富的場景信息,基于音頻既可獨立進行場景分析,也可以輔助視頻場景分析,以獲得更為準確的場景檢測和分割。音頻場景的類別并沒有固定的定義,依賴于具體應(yīng)用場景。例如在電影等視頻中,可粗略分為語音、音樂、歌曲、環(huán)境音、帶音樂伴奏的語音等幾類。環(huán)境音還可以進行更細粒度的劃分;谝纛l分析的方法用戶容易接受,計算量也比較少。


(3)基于一般音頻/環(huán)境聲的計算機聽覺應(yīng)用

基于一般音頻的計算機聽覺直接面向國民經(jīng)濟的各個領(lǐng)域,具有眾多應(yīng)用。例如:在醫(yī)療衛(wèi)生領(lǐng)域,涉及呼吸系統(tǒng)疾。ǹ人、打鼾、言語、喘息、呼吸等),心臟系統(tǒng)疾病,其它相關(guān)醫(yī)療(嗓音疾病、胎音和胎動、藥劑吞服、血液流動、肌音)。在安防領(lǐng)域,涉及公共場所監(jiān)控和私密場所監(jiān)控。在交通運輸、倉儲領(lǐng)域,涉及鐵路運輸業(yè),道路運輸業(yè)(車型及車距識別、交通事故識別、交通流量檢測、道路質(zhì)量檢測),水上運輸業(yè),航空運輸業(yè)(航空飛行器識別、航空飛行數(shù)據(jù)分析),管道運輸業(yè),倉儲業(yè)。在制造業(yè)領(lǐng)域,涉及鐵路、船舶、航空航天和其他運輸設(shè)備制造業(yè),通用設(shè)備制造業(yè)(發(fā)動機、金屬加工機械制造、軸承齒輪和傳動部件制造、包裝專用設(shè)備制造),電氣機械和器材制造業(yè),紡織業(yè),黑色及有色金屬冶煉和壓延加工業(yè),非金屬礦物制品業(yè),汽車制造業(yè),農(nóng)副食品加工業(yè),機器人制造。在農(nóng)、林、牧、漁業(yè)領(lǐng)域,涉及農(nóng)業(yè),林業(yè),畜牧業(yè)。在水利、環(huán)境和公共設(shè)施管理業(yè),涉及水利管理業(yè),生態(tài)保護和環(huán)境治理業(yè)。在建筑業(yè),涉及土木工程建筑業(yè),房屋建筑業(yè)。在其它領(lǐng)域,涉及采礦業(yè),日常生活,身份識別,軍事目標識別等。


3. 總結(jié)與展望

音樂科技、音樂人工智能與計算機聽覺以數(shù)字音樂和聲音為研究對象,是聲學(xué)、心理學(xué)、信號處理、人工智能、多媒體、音樂學(xué)及各行業(yè)領(lǐng)域知識相結(jié)合的重要交叉學(xué)科,具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開發(fā)價值。目前仍有大量幾乎空白或沒有得到充分研究的子領(lǐng)域。


與自然語言處理、計算機視覺、語音信息處理等相關(guān)領(lǐng)域相比,上述學(xué)科在國內(nèi)外發(fā)展都比較緩慢。幾個可能的原因包括:(1)數(shù)字音樂涉及版權(quán)問題無法公開,各種音頻數(shù)據(jù)都源自特定場合和物體,難以全面搜集和標注。數(shù)據(jù)的獲取及公開困難嚴重影響了基于機器學(xué)習(xí)/深度學(xué)習(xí)框架算法的研究及比較。(2)音樂和音頻信號幾乎都是多種聲音混合在一起,很少有單獨存在的情況。音樂中的各種樂器和歌聲在音高上形成和聲織體,在時間上形成節(jié)奏至曲式結(jié)構(gòu),耦合成多層次的復(fù)雜音頻流,難以甚至無法分離處理。環(huán)境聲音具有非平穩(wěn)、強噪聲、弱信號、多聲源混合等特點,一個實際系統(tǒng)必須經(jīng)過音頻分割、聲源分離或增強/去噪后,才能進行后續(xù)的內(nèi)容分析理解。(3)該領(lǐng)域幾乎都是交叉學(xué)科,進行音樂科技的研究需要了解最基本的音樂理論知識,進行基于一般音頻的計算機聽覺研究則經(jīng)常需要了解相關(guān)各領(lǐng)域的專業(yè)知識和經(jīng)驗。(4)此外,作為新興學(xué)科,還存在社會發(fā)展水平、科研環(huán)境、科技評價、人員儲備等各種非技術(shù)類原因阻礙計算機聽覺技術(shù)的發(fā)展。

    

隨著中國社會經(jīng)濟的快速發(fā)展,年青一代受音樂教育的普及,國家對人工智能等前沿技術(shù)的重視,上述領(lǐng)域在近幾年也出現(xiàn)了良好的發(fā)展勢頭。本文作為科普性文章,希望能使全社會更多的人有所了解,加速推動國內(nèi)音頻音樂技術(shù)領(lǐng)域在學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的發(fā)展,走出一條具有中國特色的文理結(jié)合的道路,早日達到甚至超過世界先進水平。


參考文獻

[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

[3] 李偉,李子晉,高永偉,“理解數(shù)字音樂-音樂信息檢索技術(shù)綜述”,第五屆中國聲音與音樂技術(shù)會議(CSMT 2017)特約報告,復(fù)旦學(xué)報(自然科學(xué)版),2018,57(3):271-313.

[4] 李偉, 李碩, “理解數(shù)字聲音-基于普通音頻的計算機聽覺綜述”, 第六屆全國聲音與音樂技術(shù)會議(CSMT 2018), 復(fù)旦學(xué)報(自然科學(xué)版), 2019, 58(3):269-313.

[5] 李偉,李子晉,邵曦主編,“音頻音樂與計算機的交融-聲音與音樂技術(shù)”,2020年1月,復(fù)旦大學(xué)出版社,89.5萬字,468頁。


  



【深度】未來5-10年計算機視覺發(fā)展趨勢為何?

專家(查紅彬,陳熙霖,盧湖川,劉燁斌,章國鋒)從計算機視覺發(fā)展歷程、現(xiàn)有研究局限性、未來研究方向以及視覺研究范式等多方面展開了深入的探討

華南理工大學(xué)羅晶博士和楊辰光教授團隊發(fā)文提出遙操作機器人交互感知與學(xué)習(xí)算法

羅晶博士和楊辰光教授團隊提出,遙操作機器人系統(tǒng)可以自然地與外界環(huán)境進行交互、編碼人機協(xié)作任務(wù)和生成任務(wù)模型,從而提升系統(tǒng)的類人化操作行為和智能化程度

實時識別卡扣成功裝配的機器學(xué)習(xí)框架

卡扣式裝配廣泛應(yīng)用于多種產(chǎn)品類型的制造中,卡扣裝配是結(jié)構(gòu)性的鎖定機制,通過一個機器學(xué)習(xí)框架將人類識別成功快速裝配的能力遷移到自主機器人裝配上。

基于多任務(wù)學(xué)習(xí)和負反饋的深度召回模型

基于行為序列的深度學(xué)習(xí)推薦模型搭配高性能的近似檢索算法可以實現(xiàn)既準又快的召回性能,如何利用這些豐富的反饋信息改進召回模型的性能

張帆博士與Yiannis Demiris教授團隊提出高效的機器人學(xué)習(xí)抓取衣服方法

機器人輔助穿衣通常人工的將衣服附在機器人末端執(zhí)行器上,忽略機器人識別衣服抓取點并進行抓取的過程,從而將問題簡化

百度算法大牛35頁PPT講解基于EasyDL訓(xùn)練并部署企業(yè)級高精度AI模型

百度AI開發(fā)平臺高級研發(fā)工程師餅干老師,為大家系統(tǒng)講解企業(yè)在AI模型開發(fā)中的難點,以及針對這些難點,百度EasyDL專業(yè)版又是如何解決的

Technica公司發(fā)布智能霧計算平臺技術(shù)白皮書

SmartFog可以輕松地將人工智能分析微服務(wù)部署到云、霧和物聯(lián)網(wǎng)設(shè)備上,其架構(gòu)支持與現(xiàn)有系統(tǒng)的靈活集成,提供了大量的實現(xiàn)方案,要用下一代人工智能算法來彌補現(xiàn)有解決方案的不足。

深度學(xué)習(xí)在術(shù)前手術(shù)規(guī)劃中的應(yīng)用

深度學(xué)習(xí)對推動術(shù)前手術(shù)規(guī)劃尤其重要,手術(shù)規(guī)劃中要根據(jù)現(xiàn)有的醫(yī)療記錄來計劃手術(shù)程序,而成像對于手術(shù)的成功至關(guān)重要
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機器人未來3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運營體系(ML0ps)實踐指
» 四驅(qū)四轉(zhuǎn)移動機器人運動模型及應(yīng)用分析
» 國內(nèi)細分賽道企業(yè)在 AIGC 各應(yīng)用場景
» 國內(nèi)科技大廠布局生成式 AI,未來有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時更短 優(yōu)
 
== 機器人推薦 ==
 
迎賓講解服務(wù)機器人

服務(wù)機器人(迎賓、講解、導(dǎo)診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務(wù)機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導(dǎo)引機器人  移動消毒機器人  導(dǎo)診機器人  迎賓接待機器人  前臺機器人  導(dǎo)覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導(dǎo)診機器人 
版權(quán)所有 © 創(chuàng)澤智能機器人集團股份有限公司     中國運營中心:北京·清華科技園九號樓5層     中國生產(chǎn)中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728