根據(jù) iMedia Research 艾媒咨詢發(fā)布的數(shù)據(jù)顯示,近年來,我國數(shù)字人市場規(guī)模呈現(xiàn)加速增長趨勢。2022 年數(shù)字人市場規(guī)模已達120.8 億元,帶動周邊市場規(guī)模為 1866.1 億元。未來,隨著AI技術的迭代更新,預計到 2025年,我國數(shù)字人的主要市場規(guī)模將達到 480.6 億元,帶動周邊市場規(guī)模近 6402.7 億元。面對數(shù)字人產業(yè)的強大勢能和潛力,地方政策積極跟進,推進未來產業(yè)的發(fā)展。其中,北京市前瞻布局數(shù)字人產業(yè),并取得了突出成績。截至2023年12月,北京從事數(shù)字人相關業(yè)務的企業(yè)達到2805家,以數(shù)字人為主要業(yè)務的企業(yè)有217家。2023年數(shù)字人主要業(yè)務企業(yè)營收規(guī)模約51億元,預計2025年營收規(guī)模將突破200億元,帶動周邊經濟效益750億元。智能數(shù)字人的語音識別和自然語言處理能力為用戶的交流提供了更加便捷和順暢的體驗。虛擬偶像數(shù)字人設計
虛擬數(shù)字人(Digital Human / Meta Human),是運用數(shù)字技術創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。1964年,波音公司研發(fā)了頭一個具有人的形象的數(shù)字人。由于數(shù)字人社會實踐功能的呈現(xiàn),21世紀,數(shù)字人成為可以和自然人相伴的“人”。2007年,世界上頭一個使用全息投影技術舉辦演唱會的虛擬偶像初音未來出道。2012年,中國本土偶像洛天依誕生。 功能特征:形象能力:擁有人的外觀,具有特定的相貌、性別和性格等人物特征。 表達能力:擁有人的行為,具有用語言、面部表情和肢體動作表達的能力。感知、互動能力:擁有人的思想,具有識別外界環(huán)境、并能與人交流互動的能力。天津身份型數(shù)字人解決方案社交平臺數(shù)字人通過智能算法和用戶數(shù)據(jù)分析,為用戶提供個性化推薦和社交互動。
為了生成逼真的動作和聲音,AI數(shù)字人需要考慮多個因素,例如姿態(tài)、速度、節(jié)奏、音調等。目前,動作捕捉和語音合成等技術雖然可以生成流暢的動作和聲音,但仍然存在一些缺陷,例如動作單一、聲音單調、表情缺乏等。為了解決這些問題,研究者提出了許多基于深度學習的動作和聲音生成方法,可以實現(xiàn)更自然、更富有表現(xiàn)力、更適應不同場景和風格的動作和聲音生成。例如基于循環(huán)神經網(wǎng)絡或變分自編碼器的動作生成,基于WaveNet或Tacotron等序列到序列模型的語音合成。
而對于早些進入人們眼簾的AI數(shù)字人,今年相對熱度沒那么高。從2021年元宇宙帶火數(shù)字人,將數(shù)字人推向創(chuàng)新的風口后,這幾年數(shù)字人的應用并沒有得到普遍的普及。一方面是由于數(shù)字人需要基于頂端的適配設備,二是數(shù)字人的實際制作成本偏高。目前應用較多的當屬短視頻數(shù)字人,被應用于直播帶貨和短視頻IP分身。就目前整個數(shù)字人而言,數(shù)字人的形象也是參差不齊。有的形象太假,有的場景單一,整體運營成本普遍偏高,目前主要應用在一些頭部企業(yè)。在健康和健身領域,數(shù)字人可以提供實時的指導和監(jiān)督。
應用前景,虛擬數(shù)字人的應用場景包括娛樂、偶像(如虛擬偶像初音未來、洛天依的舞臺表演 )、代言人(如希加加代言麥當勞)、企業(yè)數(shù)字化轉型、體育(如度曉曉解說足球 )、金融(如浦發(fā)銀行數(shù)字員工小浦)等垂直領域。未來,虛擬數(shù)字人將在頭一產業(yè)農業(yè)和第二產業(yè)工業(yè)領域中(如生產領域、銷售領域、售后服務領域等)更多地被使用。數(shù)字人也被稱為虛擬人物(Virtual Character),這是一種由計算機程序驅動的擁有自身意識和身份的人工人。數(shù)字人可以在數(shù)字世界中展現(xiàn)出與真實人類相同的生理、心理、社會表現(xiàn)。游戲角色數(shù)字人是游戲中的虛擬角色,可以與玩家進行互動和戰(zhàn)斗。天津身份型數(shù)字人解決方案
虛擬教師數(shù)字人結合人工智能和教育內容,為學生提供個性化的學習指導和輔助教育。虛擬偶像數(shù)字人設計
虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等5個模塊構成。非交互型數(shù)字人,系統(tǒng)依據(jù)目標文本生成對應的人物語音及動畫,并合成音視頻呈現(xiàn)給用戶。交互型數(shù)字人,智能驅動型數(shù)字人:通過智能系統(tǒng)自動讀取并解析識別外界輸入信息,根據(jù)解析結果決策數(shù)字人后續(xù)的輸出文本,驅動人物模型生成相應的語音與動作來使數(shù)字人跟用戶互動。真人驅動型數(shù)字人:真人根據(jù)視頻監(jiān)控系統(tǒng)傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉采集系統(tǒng)將真人的表情、動作呈現(xiàn)在虛擬數(shù)字人形象上,從而與用戶進行交互。虛擬偶像數(shù)字人設計