跳到主要內容

AI趨勢周報第205期:語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成


微軟打造文字生成語音模型VALL-E,只要輸入目標文字和3秒目標聲音,模型就能產出高相似度的目標語音,就像是語音版的DALL-E一樣。


圖片來源: 

微軟


重點新聞(1230~0105)


微軟     VALL-E     文字轉語音  


語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成


微軟近日發表一套,可根據文字輸入和3秒的語音樣本,來合成、產出目標語音,就像是OpenAI的文字轉圖片模型DALL-E一樣。微軟表示,他們用現成神經音檔編解碼模型中的離散碼,來訓練VALL-E這套神經編解碼器語言模型,把文字轉語音視為條件式語言建模任務,而不是像一般研究,視為連續性的訊號迴歸任務。


在預訓練階段,團隊將文字轉語音的訓練資料,擴充到6萬小時的英語語音,是現有系統的幾百倍。VALL-E的工作流程是音素→離散碼→波形,先根據文字輸入和3秒語音提示(也就是想聽到的目標聲音),來產出與文字和目標聲音相應的離散音檔編解碼。


微軟測試發現,VALL-E在語音自然度和相似度部分,表現比現有SOTA文字轉語音模型要好,而且還能保有語音提示的情緒與聲音環境。團隊指出,VALL-E可直接用於各種語音合成應用,如零樣本文字轉語音、語音編輯,以及搭配GPT-3等生成式AI模型,來生成更多內容。



  大型模型     BigScience     PETALS  


在家也能跑千億參數模型!BigScience開源PETALS分散式AI專案


對語言模型來說,參數越多、模型表現越好,開發者也只需微調大型預訓練模型,就能得到不錯的預測結果。不過,BLOOM、PaLM、GPT等這類大型語言模型,即便開源,還是會耗費大量運算資源,雖然目前有2種方法來解決該問題,如RAM卸載和託管API,但前者對交互推論來說太慢,後者則不夠靈活。


於是,由世界各地研究員組成的開源研究專案BigScience,日前開發一套系統PETALS,可在受信任的的條件下,集各使用者之力,來共同微調、推論千億參數的大模型。也就是說,每個使用者只需要載入一小部分的模型,就能和其他使用者一起協作,來共同執行模型推論和微調,就像是BT原理一樣。


團隊測試發現,PETALS比在單一系統的RAM卸載方法,還要快上許多倍,在消費型GPU上推論1,760億參數的BLOOM模型,完成1個token所需時間近1秒。透過平行推論,每秒則能完成數百個token。而且,有別於大多數的推論API,PETALS還能顯示模型隱藏狀態,讓使用者可用有效的微調方法,來訓練、分享客製模型的外掛。不過,在PETALS初始階段,使用者可能因安全、隱私考量,協作進展可能較慢,因此BigScience推出BLOOM點數,來獎勵貢獻GPU資源的使用者。



  百度研究院     大模型     產業化  


百度研究院預測2023年:大模型將產業化


百度研究院日前發布科技趨勢預測,直言大型模型在2023年將產業化發展,用於更廣泛的產業中。百度研究院指出,現今的AI不斷朝跨任務、跨模態(資料類型)發展,且隨著底層大模型技術的成熟,以及為特定產業發展的AI基礎建設,這種產業型的大模型,已漸漸在航太、金融、能源等領域應用,形成「AI+產業」的發展結構。百度認為,大模型產業化將催生產業大模型生態,實現普惠AI。


此外,百度研究院也預測,2023年的新型AI基礎設施需求將增長、更多產業講過應用AI機器人、AI將進入更多科學領域,以及隨著雲原生技術的成熟,將催生更多量子軟硬體合一的解決方案。此外,可解釋AI技術和科技永續發展,也在百度研究院預測的科技趨勢中。


  Nvidia    機器人訓練       元宇宙  


讓機器人更靈活!Nvidia更新模擬訓練平臺功能


Nvidia更新機器人模擬和訓練平臺Isaac Sim,使用者可從雲端存取Isaac Sim、使用新AI功能來加速機器人訓練了。Isaac Sim建立在元宇宙平臺Nvidia Omniverse上,使用者可在各種操作條件下模擬真實環境,建置和測試虛擬機器人,來加速物流、製造和零售等產業的自動化應用。

網頁設計最專業,超強功能平台可客製,窩窩以「數位行銷」「品牌經營」「網站與應用程式」「印刷品設計」等四大主軸,為每一位客戶客製建立行銷脈絡及洞燭市場先機,請問台中電動車哪裡在賣比較便宜可以到台中景泰電動車門市去看看總店:臺中市潭子區潭秀里雅潭路一段102-1號。電動車補助推薦評價好的iphone維修中心擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢住家的頂樓裝太陽光電聽說可發揮隔熱功效一線推薦東陽能源擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。網頁設計一頭霧水該從何著手呢? 回頭車貨運收費標準宇安交通關係企業,自成立迄今,即秉持著「以誠待人」、「以實處事」的企業信念台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!還在煩惱搬家費用要多少哪?台中大展搬家線上試算搬家費用,從此不再擔心「物品怎麼計費」、「多少車才能裝完」台中搬家公司費用怎麼算?擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司好山好水露營車漫遊體驗露營車x公路旅行的十一個出遊特色。走到哪、玩到哪,彈性的出遊方案,行程跟出發地也可客製,產品缺大量曝光嗎?你需要的是一流包裝設計Google地圖已可更新顯示潭子電動車充電站設置地點!!廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益



Isaac Sim新功能有人物模擬功能,能在倉庫和製造設施中增添人物角色,還能讓人物執行不同動作,如推手推車。這個功能可讓開發者觀察,人機互動設計是否順暢,也能讓機器人學習避障和潛在意外。另一個新功能是即時呈現感測器資料,並能用光線追蹤技術模擬光達,在各種照明或反射材質條件下,獲得更準確的感測器資料,來讓機器人模擬更貼近真實世界環境。Isaac Sim其他更新還包括模擬3D物件庫、強化學習工具Isaac Gym,以及協作機器人程式開發工具Isaac Cortex等。


 


  OpenAI     Bing     ChatGPT  


微軟計畫用ChatGPT強化Bing搜尋功能


根據外媒The Information報導,微軟打算用ChatGPT來強化自家搜尋引擎Bing、提供新搜尋功能,預計在3月底推出。此外,微軟還可能用ChatGPT來分析用戶在研究的主題,好提供進一步的搜尋建議。


微軟這一舉動,代表使用OpenAI技術的微軟產品數量持續增加。微軟在2019年10月與OpenAI展開合作,投資10億美元來發展通用AI。2020年,微軟購買GPT-3獨家授權,在自家產品中整合GPT-3。2021年,微軟就在Power Apps中嵌入GPT-3,使缺乏程式開發知識的人,也能利用自然語言開發程式。去年,微軟整合OpenAI DALL-E 2,發布圖像設計應用程式,能根據文字提示生成影像。


  元宇宙     自然語言     3D  


Nvidia新添元宇宙平臺協作功能和自然語言搜尋服務


Nvidia更新元宇宙平臺Omniverse Enterprise,支援最新GPU技術強化效能和可用性,同時增添新功能,達到即時又精確的模擬品質。此外,Nvidia也更新Omniverse平臺核心,讓使用者快速連接工具、共享虛擬空間中協作。


Omniverse Enterprise是個讓企業用來開發、營運元宇宙應用程式的平臺,新加入的Omniverse連接器,可連接不同3D應用程式,實現無縫工作流程,另也支援如Adobe Substance 3D Painter、Autodesk Alias等軟體。此外,Nvidia也正式推出AI服務Omniverse DeepSearch,使用者可用自然語言或2D參考圖,直覺搜尋大型且未標記的3D資料庫。在平臺核心更新部分,則在用來建置擴充應用程式和微服務的Omniverse Kit SDK中,加入新模板和開發者工作流程,簡化開發作業。


  Google     文字轉圖像     Transformer  


速度更快、畫面更細緻!Google發表新文字轉圖像模型Muse


Google日前發表一款文字轉圖像模型Muse,以Transformer架構為基礎,號稱產出速度更快、生成畫面更細緻,比擴散模型和自迴歸模型的表現還要好。進一步來說,Muse是以遮罩任務訓練而成,也就是先在大型語言預訓練模型中抽出文字嵌入,再訓練Muse來預測隨機被遮住的圖片Token。


與DALLE-2這類像素空間的模型相比,Muse因為用了離散token,只需少量採樣迭代,因此更有效率。與Parti這類自迴歸模型相比,Muse因為用了平行解碼,因此也更有效率。Google表示,由於採用預訓練大型語言模型,Muse的語言理解能力,以至於從文字轉換為高保真圖片的能力都更細緻,而且對視覺概念的理解力也更強。


團隊也進行測試,9億參數版本的Muse經CC3M資料集測試,達SOTA水準,且用來測量生成圖片和真實圖片相似度的FID分數,達6.06分(越低越相近)。而30億參數版本的Muse,在零樣本COCO資料集測試評估中,得到7.88的FID分數。此外,Muse不必微調模型,就能直接用於圖片編輯應用程式,像是圖片修復、圖片外擴/腦補、編輯等。



圖片來源/微軟、BigScience、Nvidia


  AI近期新聞 


1. Apple Books新添AI語音功能,電子書可轉為有聲讀物了


2. 前特斯拉AI長Andrej Karpathy開源nanoGPT可優化GPT模型開發


資料來源:iThome整理,2023年1月

https://www.ithome.com.tw/news/155060



Orignal From: AI趨勢周報第205期:語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成

留言

這個網誌中的熱門文章

有了四步解題法模板,再也不害怕動態規劃!(看不懂算我輸)

導言 動態規劃問題一直是算法面試當中的重點和難點,並且動態規劃這種通過空間換取時間的算法思想在實際的工作中也會被頻繁用到,這篇文章的目的主要是解釋清楚 什麼是動態規劃 ,還有就是面對一道動態規劃問題,一般的 思考步驟 以及其中的注意事項等等,最後通過幾道題目將理論和實踐結合。 什麼是動態規劃 如果你還沒有聽說過動態規劃,或者僅僅只有耳聞,或許你可以看看 Quora 上面的這個 回答 。 How to explain dynamic 用一句話解釋動態規劃就是 " 記住你之前做過的事 ",如果更準確些,其實是 " 記住你之前得到的答案 "。 我舉個大家工作中經常遇到的例子。 在軟件開發中,大家經常會遇到一些系統配置的問題,配置不對,系統就會報錯,這個時候一般都會去 Google 或者是查閱相關的文檔,花了一定的時間將配置修改好。 過了一段時間,去到另一個系統,遇到類似的問題,這個時候已經記不清之前修改過的配置文件長什麼樣,這個時候有兩種方案,一種方案還是去 Google 或者查閱文檔,另一種方案是借鑒之前修改過的配置,第一種做法其實是萬金油,因為你遇到的任何問題其實都可以去 Google,去查閱相關文件找答案,但是這會花費一定的時間,相比之下,第二種方案肯定會更加地節約時間,但是這個方案是有條件的,條件如下: 之前的問題和當前的問題有着關聯性,換句話說,之前問題得到的答案可以幫助解決當前問題 需要記錄之前問題的答案 當然在這個例子中,可以看到的是,上面這兩個條件均滿足,大可去到之前配置過的文件中,將配置拷貝過來,然後做些細微的調整即可解決當前問題,節約了大量的時間。 不知道你是否從這些描述中發現,對於一個動態規劃問題,我們只需要從兩個方面考慮,那就是 找出問題之間的聯繫 ,以及 記錄答案 ,這裏的難點其實是找出問題之間的聯繫,記錄答案只是順帶的事情,利用一些簡單的數據結構就可以做到。 概念 上面的解釋如果大家可以理解的話,接    動態規劃 算法是通過拆分問題,定義問題狀態和狀態之間的關係,使得問題能夠以遞推(或者說分治)的方式去解決。它的幾個重要概念如下所述。    階段: 對於一個完整的問題過程,適當的切分為若干個相互聯繫的子問題,每次在求解一個子問題...

純電動 Mini Cooper SE 將成為中國國產車,年產 16 萬輛

BMW 集團與中國長城汽車合資,將於江蘇建立新廠,專門投入生產 MINI Cooper SE 和部分長城品牌電動車,預計於 2022 年完工並投入生產,每年將可生產 16 萬輛電動車。 靈動可愛的 Mini Cooper,在許多車迷心中都有著特殊的地位,今年 7 月發表了首款純電動版本的 Mini Cooper SE 之後,獲得熱烈迴響,預訂數量已接近 8 萬台,顯示大家對於純電 Mini 的熱愛,因為油電版的 Mini Cooper Countryman 的全球總銷售量也才 3 萬出頭。 Mini Cooper SE 之前公布了官方定價,最低從 27,900 歐元起算,美國售價約 29,900 美元。相比現有的三門款,只貴了一成左右。然而,三年後,中國消費者將有機會買到最便宜的電動 Mini。 電動 Mini Cooper SE 最低價是 27,900 歐元,扣掉全額補助最低可以到 24,400 歐元。 BMW 集團與中國長城汽車集團於 2018 年宣布,將組建合資公司光束汽車,投入在中國的電動車生產計畫,而現在他們正式宣布啟動計畫,於江蘇張家港打造一個新工廠,全部投入電動車的製造,包括了 Mini Cooper SE 和其他長城汽車旗下的電動車。 目前的電動 Mini 只在英國牛津工廠製造,不難想像當產能轉移到中國後,Mini Cooper SE 的價格將有機會進一步調降,來競爭全球最大的電動車市場。這座屬於合資公司光束汽車的新工廠,採用一個新的產銷模式,由 BMW 和長城共同合作開發、設計、製造新產品,但是銷售通路完全沿用原本的品牌渠道。 換句話說,2020 年到 2022 年銷售的電動 Mini,將會是英國製造,而 2022 年後就會有中國製造版本開賣,考量到 Mini 在中國每年約有 30 萬輛的銷售額,同時油電版的 Coutryman 銷量更佔了全球將近五分之一,無怪乎 BMW 會想在最接近主要市場的地方蓋工廠囉。 外型完美復刻油車版 最後,簡單介紹一下 Mini Cooper SE 這台車。Mini 在電動化的路上,盡力保持著跟經典造型一致的設計,畢竟大家愛的就是它的設計。電動版的 Mini 車頭、車身跟車屁股都多了一個黃色的插頭標誌,車頭的氣壩則變成封閉式設計,除此之外,幾乎看不出來差別,連馬達...

我的USB為什麼總是無法識別,到底是為甚麼呢?這真的讓我好困擾

其實判斷軟件硬件問題很簡單,在別的機器或換個系統試試就可以了.有些小的問題不妨先用專門軟件格式化下.還有提醒你WINDOWS下格式化時要選擇FAT,不要選FAT32。 倘若插入後,在右下角彈出電腦正在嘗試連接此USB設備的一些信息,有時會彈出對話框讓用戶選擇,有些用戶還沒看清就點了否,或者因為電腦一些初始的設置問題,禁止了USB的一些功能。解決辦法:右鍵點"我的電腦",選"屬性"--"硬件"--"驅動器簽名",在此選擇"忽略",點"確定"。然後重新插上usb,還是不連的話,再右鍵點"我的電腦"--"屬性"--"硬件"--"設備管理器",從中找到"通用串行總線控制器",右鍵,然後"掃描檢測硬件改動"。如果都不行那就是USB識別程序或U盤的問題從控制面板進入添加或刪除硬件將所有USB設備都刪除,重新安裝需要使用的USB設備驅動程序,重新啟動電腦 USB CONNECTOR   USB CONNECTOR  USB CONNECTOR Orignal From: 我的USB為什麼總是無法識別,到底是為甚麼呢?這真的讓我好困擾