• <ul id="smc4e"></ul>
  • <ul id="smc4e"><sup id="smc4e"></sup></ul>
    <ul id="smc4e"><sup id="smc4e"></sup></ul>
    <ul id="smc4e"></ul>
  • <ul id="smc4e"></ul>
  • <abbr id="smc4e"></abbr>
  • <strike id="smc4e"></strike>
  • 人民網(wǎng)
    人民網(wǎng)>>四川頻道>>特別策劃>>“新時(shí)代成渝影視文化產(chǎn)業(yè)高質(zhì)量發(fā)展十大創(chuàng)新案例”推選宣傳展示>>提名案例(重慶)

    手語(yǔ)數(shù)字人

    2023年05月19日10:34 | 來(lái)源:人民網(wǎng)-四川頻道
    小字號(hào)

    截至2020年,中國(guó)聽(tīng)力殘障人士已達(dá)到2700萬(wàn)。而目前,以電視、電腦、手機(jī)為載體的各類新聞資訊、文娛節(jié)目,作為聽(tīng)障人士的第一語(yǔ)音的手語(yǔ)的協(xié)助缺乏嚴(yán)重。2021年,國(guó)家發(fā)展改革委、國(guó)家廣播電視總局等21部門聯(lián)合發(fā)布關(guān)于印發(fā)《“十四五”公共服務(wù)規(guī)劃》的通知,強(qiáng)調(diào)無(wú)障礙環(huán)境是城市文明標(biāo)志之一。為了關(guān)愛(ài)聽(tīng)障人士,營(yíng)造濃厚的關(guān)懷氛圍,縣級(jí)以上人民政府及其有關(guān)部門發(fā)布重要政府信息和與殘疾人相關(guān)的信息,應(yīng)當(dāng)創(chuàng)造條件提供語(yǔ)音文字和手語(yǔ)提示等信息交流服務(wù)。

    目前,市場(chǎng)上的電視節(jié)目絕大部分都沒(méi)有添加手語(yǔ)老師進(jìn)行實(shí)時(shí)翻譯,因?yàn)檎嫒耸终Z(yǔ)翻譯有以下痛點(diǎn):1.手語(yǔ)解說(shuō)可懂度不到60%。2.不同手語(yǔ)老師翻譯的手語(yǔ)可能會(huì)包含不同的語(yǔ)義,具體表為手語(yǔ)表達(dá)與漢語(yǔ)表達(dá)語(yǔ)序不同:現(xiàn)有手語(yǔ)解說(shuō)大多是按漢語(yǔ)正常語(yǔ)序編排,不符合自然手語(yǔ)的規(guī)范和聾人的表達(dá)習(xí)慣。3.省略詞匯不恰當(dāng),影響意思表達(dá):手語(yǔ)中沒(méi)有虛詞和量詞,從漢語(yǔ)轉(zhuǎn)換為手語(yǔ)時(shí)需要?jiǎng)h減詞,但是不恰當(dāng)?shù)氖÷詴?huì)導(dǎo)致意思理解上有很大偏差。4.手語(yǔ)要素的組成,不僅僅只有手部動(dòng)作,現(xiàn)有手語(yǔ)解說(shuō)的表情、口動(dòng)不夠明顯,且窗口較小,導(dǎo)致非手控信息無(wú)法看清,嚴(yán)重影響聽(tīng)障人群的理解。

    廣播級(jí)手語(yǔ)數(shù)智人生產(chǎn)系統(tǒng)致力于打造首個(gè)聾人真正可懂的廣播級(jí)手語(yǔ)數(shù)智人,手語(yǔ)表達(dá)能力接近真人手語(yǔ)主播。其特點(diǎn)有以下幾點(diǎn):1.語(yǔ)言體系準(zhǔn)確翻譯:將健聽(tīng)人語(yǔ)言準(zhǔn)確翻譯轉(zhuǎn)化為聾人語(yǔ)言;2.面部表情唇動(dòng)逼真:手語(yǔ)為畫(huà)面語(yǔ)言,結(jié)合面部表情及唇動(dòng),可以更好地理解手語(yǔ);3.新詞熱詞快速適配:能夠快速補(bǔ)充新詞熱詞并上線,無(wú)需重復(fù)錄制;4.實(shí)時(shí)翻譯:通過(guò)音轉(zhuǎn)文、文字翻譯手語(yǔ)、手語(yǔ)疊加視頻,實(shí)現(xiàn)一個(gè)節(jié)目包含視頻、文字、語(yǔ)音、手語(yǔ)這幾大要素。

    廣播級(jí)手語(yǔ)數(shù)智人生產(chǎn)系統(tǒng)采用ASR和OCR技術(shù),即自動(dòng)語(yǔ)音識(shí)別技術(shù),是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。其目標(biāo)就是將人類語(yǔ)言中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。具體如下:

    第一步,建立聲學(xué)模型。聲學(xué)模型的主流系統(tǒng)大多采用隱馬爾科夫模型進(jìn)行建模。對(duì)于同一個(gè)詞,由于每個(gè)人的發(fā)音、語(yǔ)調(diào)、語(yǔ)速等都各不相同,為了能讓機(jī)器識(shí)別出更多的人,聲學(xué)模型建立過(guò)程中需要錄入大量的原始用戶聲音,提取出其中的特征進(jìn)行處理,并建立聲學(xué)模型數(shù)據(jù)庫(kù)。在聲學(xué)訓(xùn)練步驟當(dāng)中估算出聲學(xué)模型的參數(shù),再通過(guò)循環(huán)訓(xùn)練和對(duì)齊相位。在這一步中,大數(shù)據(jù)的重要性就體現(xiàn)出來(lái)了。

    第二步,建立語(yǔ)言模型。語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或者由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型。根據(jù)語(yǔ)言的客觀事實(shí),進(jìn)行語(yǔ)言抽象數(shù)學(xué)建模,這是一種對(duì)應(yīng)關(guān)系。語(yǔ)言模型可以很好地調(diào)整聲學(xué)模型所得到的不合邏輯的詞,使得識(shí)別結(jié)果變得通順且正確,這對(duì)于自然語(yǔ)音的信息處理也有著重要的意義。

    第三步,進(jìn)行語(yǔ)音識(shí)別。前面兩步都是需要預(yù)先做好的,最終形成的數(shù)據(jù)庫(kù)將存儲(chǔ)在設(shè)備本地或者云端。而這一步則是實(shí)時(shí)的語(yǔ)音識(shí)別過(guò)程。先將用戶的語(yǔ)音輸入進(jìn)行編碼和特征提取,再將提取到的特征拿到聲學(xué)模型庫(kù)中去匹配得到單個(gè)的單詞,然后再拿到語(yǔ)言模型庫(kù)中去查詢,就可以得到最匹配的詞了。該技術(shù)將轉(zhuǎn)換完成的文本輸入到手語(yǔ)翻譯引擎,再通過(guò)手語(yǔ)要素序列生成手控信息和非手控信息等,最終通過(guò)高精度模型驅(qū)動(dòng),生成超寫(xiě)實(shí)手語(yǔ)數(shù)智人。合成的視頻如果更接近真人且感情表達(dá)豐富,那么觀眾會(huì)覺(jué)得這不是一個(gè)冷冰冰的機(jī)器,而是一個(gè)有感情的“人”,會(huì)更容易接受AI主播的存在,讓觀眾的注意力從AI主播身上,轉(zhuǎn)到新聞或電視節(jié)目的內(nèi)容上。

    使用場(chǎng)景:1.用于新聞或者賽事直播,實(shí)時(shí)生成手語(yǔ)視頻;2.大屏、電視劇、電影、新媒體節(jié)目后期制作,生成與之對(duì)應(yīng)的手語(yǔ)視頻。

    實(shí)施單位:重慶廣電實(shí)業(yè)發(fā)展有限責(zé)任公司

    (責(zé)編:羅昱、高紅霞)

    分享讓更多人看到

    返回頂部