-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 版權信息
- ISBN:9787302679110
- 條形碼:9787302679110 ; 978-7-302-67911-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 本書特色
本書以科普讀物風格對音頻信號處理由淺入深地進行了介紹,同時輔以大量實戰案例,以期達到輕松入門、事半功倍的效果。
通俗易懂 語言生動、淺顯易懂,避免枯燥的理論和公式。
圖文并茂 大量插圖配合文字說明有助于抽象概念的理解。
內容豐富 包括聲學基礎、音頻信號分析、語音識別、語音合成、音樂分析、MIDI編曲、深度學習等豐富內容。
輕松實戰 采用Python和PyToch(深度學習部分)編程,門檻低,易學易會;主要函數列出函數原型,便于應用和參考。
大量示例 介紹了音頻處理各領域眾多Python庫的用法,如NumPy、SciPy、Librosa、Pyaudio、Moviepy、Pydub、Soundfile、OpenAI-whisper、Pyttx3、SpeechLib、PyWorld、Parselmouth、Mido、Music21、PyTorch等。
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 內容簡介
"近年來人工智能技術突飛猛進,以語音識別為代表的音頻處理技術取得了大量突破,但該領域內理論結合實戰的入門書籍卻較為缺乏,本書旨在為有志學習音頻信號處理的讀者提供一本實用的入門書籍。 本書共13章,第1章和第2章是基礎部分,包括聲學基礎知識及Python基礎等內容;第3到4章介紹了音頻信號的獲取及分析方法;第5~8章介紹了語音識別基礎、傳統語音識別技術及語音識別、語音合成的實戰技術;第9章和第10章介紹了常用的音樂分析方法及Python編曲等內容;第11~13章介紹了深度學習的基礎知識及如何用PyTorch對語音和音樂信號進行分析處理。 本書以通俗易懂的語言、圖文并茂的講解力圖使讀者在短時間內掌握音頻信號處理的基本技術。本書既可供包括高校學生在內的各類初學者快速入門、也可供該領域的專業技術人員及愛好者參考。 "
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH)語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 前言
近年來,以語音識別為代表的音頻處理技術取得了重大突破。2008年底,谷歌公司發布了第1個語音搜索應用; 2010年,蘋果公司收購Siri并將其改造成語音助手。此后的十余年,語音技術的發展日新月異。與此同時,相關領域也有一些新技術如雨后春筍般涌現,例如根據聲音樣本生成語音的聲音克隆技術、用AI技術模仿人類唱歌的虛擬歌手、將歌聲與伴奏分離的人聲分離技術等。毋庸諱言,音頻處理與計算機視覺一樣都處于人工智能大潮的風口之上。
本書主要內容
閱讀建議
姚利民
2024年10月
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 目錄
第1章基礎知識
1.1聲學基礎
1.1.1聲音的產生和傳播
1.1.2聲波的描述
1.1.3聲音的客觀衡量
1.1.4聲音的主觀屬性
1.2音頻文件格式
1.2.1WAV文件格式
1.2.2MP3文件格式
1.2.3MIDI文件格式
1.2.4其他文件格式
1.3Praat簡介
1.3.1Praat概要
1.3.2Praat的下載和安裝
1.3.3Praat的主要功能
1.3.4Praat基礎操作
第2章Python基礎
2.1Python簡介
2.2Anaconda的安裝
2.3主要Python庫
2.4Python繪圖基礎
2.4.1散點圖的繪制
2.4.2線性圖的繪制
2.4.3圖形的美化
2.4.4子圖的繪制
2.5FFmpeg的安裝與配置
第3章音頻信號的獲取
3.1采樣與量化
3.1.1采樣相關概念
3.1.2從話筒拾取信號
3.2讀取音頻文件
3.3從視頻文件提取
3.4聲音的合成
3.4.1純音的生成
3.4.2復合音的生成
3.4.3音效的合成
第4章音頻信號分析初步
4.1分幀
4.2加窗
4.3信號的時域分析
4.3.1短時平均過零率
4.3.2短時平均能量
4.3.3短時自相關函數
4.4信號的頻域分析
4.4.1頻譜圖
4.4.2傅里葉變換
4.4.3傅里葉變換的應用
4.5信號的時頻域分析
4.5.1短時傅里葉變換
4.5.2語譜圖
4.5.3寬帶語譜圖和窄帶語譜圖
4.5.4Praat中查看語譜圖
4.6小波變換
4.6.1概述
4.6.2連續小波變換
4.6.3離散小波變換
4.6.4小波變換的應用
第5章語音識別基礎
5.1語音的產生和感知
5.1.1語音信號的產生
5.1.2語音信號的感知
5.1.3語音信號的數字模型
5.2漢語的語音特征
5.2.1元音和輔音
5.2.2聲母和韻母
5.2.3音素
5.2.4音調
5.3元音與共振峰
5.4語音端點檢測
5.4.1音量法
5.4.2平均能量法
5.4.3雙門限法
5.5基音估計
5.6梅爾倒譜系數
5.6.1MFCC特征提取步驟
5.6.2MFCC特征
5.6.3Fbank特征
第6章傳統語音識別技術
6.1語音識別概述
6.2動態時間規整
6.3高斯混合模型
6.3.1高斯分布
6.3.2高斯混合模型
6.3.3GMMUBM
6.4隱馬爾可夫模型
6.4.1馬爾可夫鏈
6.4.2隱馬爾可夫模型
6.4.3Viterbi算法
第7章語音識別實戰
7.1Whisper的安裝
7.2Whisper的使用
第8章語音合成
8.1文本轉語音
8.1.1使用SAPI
8.1.2使用Pyttsx
8.1.3使用SpeechLib
8.2語音合成
8.2.1World聲碼器
8.2.2World聲碼器優點
8.2.3World的主要模塊
8.2.4語音合成實戰
第9章音樂分析
9.1常用音樂術語
9.2音樂分析常用指標
9.2.1頻帶能量比
9.2.2頻譜特征
9.2.3恒Q變換
9.3聲音的包絡
9.4節拍檢測
9.5音高識別
9.6調性分析
第10章MIDI文件編程
10.1MIDI文件格式剖析
10.1.1HC和TC
10.1.2時間差
10.1.3事件
10.2用Mido操作MIDI
10.3用Music21編曲
10.3.1Music21簡介
10.3.2Music21的安裝及配置
10.3.3Music21的層級結構
第11章深度學習基礎
11.1神經網絡基礎
11.1.1神經元
11.1.2激活函數
11.1.3前饋神經網絡
11.1.4梯度下降法
11.2PyTorch基礎
11.2.1PyTorch簡介
11.2.2PyTorch的主要模塊
11.2.3PyTorch的安裝
11.2.4張量
11.2.5計算圖
11.2.6自動求導機制
11.2.7損失函數
11.2.8優化器
11.3案例: 聲音的分類
11.3.1數據集介紹
11.3.2預處理
11.3.3數據載入類
11.3.4構建網絡
11.3.5訓練模型
11.3.6預測與驗證
第12章常用神經網絡
12.1卷積神經網絡
12.1.1卷積運算
12.1.2池化
12.1.3卷積神經網絡的結構
12.2循環神經網絡
12.2.1RNN
12.2.2LSTM
12.2.3GRU
12.3案例: 音樂風格分類
12.3.1數據集介紹
12.3.2特征提取
12.3.3模型及訓練
第13章深度學習與語音識別
13.1Word2Vec
13.1.1詞向量
13.1.2Word2Vec
13.1.3Hierarchical Softmax
13.1.4負采樣
13.2ELMo
13.3Transformer
13.3.1Transformer的構成
13.3.2位置編碼
13.3.3注意力機制
13.3.4多頭注意力
13.3.5殘差連接和層歸一化
13.3.6Transformer整體架構
語音與音樂信號處理輕松入門(基于PYTHON與PYTORCH) 作者簡介
姚利民,畢業于東南大學,長期在外資企業從事管理工作,同時致力于AI及圖像處理的研究。2012年赴某知名跨國企業全球總部工作,回國后自主創業。目前專注于人工智能各領域的研究。著有《Java OpenCV高效入門》和《Java OpenCV案例佳作選》。
- >
我與地壇
- >
月亮虎
- >
名家帶你讀魯迅:朝花夕拾
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
我從未如此眷戀人間
- >
苦雨齋序跋文-周作人自編集
- >
巴金-再思錄
- >
唐代進士錄