• <ul id="smc4e"></ul>
  • <ul id="smc4e"><sup id="smc4e"></sup></ul>
    <ul id="smc4e"><sup id="smc4e"></sup></ul>
    <ul id="smc4e"></ul>
  • <ul id="smc4e"></ul>
  • <abbr id="smc4e"></abbr>
  • <strike id="smc4e"></strike>
  • 人民網(wǎng)
    人民網(wǎng)>>四川頻道

    國內(nèi)多數(shù)模型訓(xùn)練使用中文數(shù)據(jù)占比超60%

    2025年08月19日09:40 | 來源:人民網(wǎng)-《人民日報(bào)》
    小字號

      本報(bào)北京8月18日電  (記者王云杉)記者從國家數(shù)據(jù)局獲悉:中文數(shù)據(jù)在國內(nèi)大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動我國人工智能模型性能快速提升。

      在人工智能時(shí)代,Token(通常所說的詞元)是處理文本的最小數(shù)據(jù)單元。國家數(shù)據(jù)局局長劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已經(jīng)突破30萬億,1年半時(shí)間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。

      《 人民日報(bào) 》( 2025年08月19日 06 版)

    (責(zé)編:李強(qiáng)強(qiáng)、高紅霞)

    分享讓更多人看到

    返回頂部