“我給AI當老師”
成都市國家數據標注基地牧山園區開園,已建成四分之一

位于成都新津經濟開發區的成都市國家數據標注基地牧山園區日前開園。為什么要發展數據標注產業?數據標注員主要干什么?4月14日,記者前往園區探訪。
從成都地鐵10號線新津站出站,成都市國家數據標注基地牧山園區就展現在眼前,共5棟寫字樓。
新津區數據局相關科室負責人許成睿介紹,園區規劃面積達28萬平方米,目前已完成7萬平方米的建設,吸引不少數據標注企業入駐。
走進園區4號樓7樓的路米科技(成都)有限公司,不少數據標注員正對著電腦屏幕忙碌。“可以形象地把他們稱為AI的老師,負責給數據打標簽。”路米科技(成都)有限公司法定代表人黨雄雄介紹。
在一名工作人員電腦旁,記者看到,屏幕上顯示著一張街道實景照片——一位行人在路旁站立,旁邊有消防栓等設施。屏幕右側的對話框出現一系列選項:有標志牌的路障、三角警示牌、站立的行人、消防栓等。工作人員依次點擊“站立的行人”和“消防栓”等選項。
“最近,我們做的項目主要是教會人工智能識別路障,并學習交通規則等。”黨雄雄說,屏幕中的選項均是工作人員根據項目需求提前錄入系統。之后,數據標注員會在系統中分析大量街景及道路交通標線照片,并將照片中出現的元素依次標注出來。
“數據標注員不僅要標注字詞,還要教會人工智能察言觀色。”黨雄雄說,在對話數據情感標注中,每句文本后會有“中性”“喜悅”“驚奇”等選項,數據標注員會根據情況選擇合適的選項提交,“‘投喂’數據越多,訓練出來的算法就越準確,越聰明。”
人工智能又是如何識別方言的?記者來到樓上的成都向己科技有限公司。幾年前,該公司已與相關語音轉換商合作進行四川方言的數據標注工作。公司聯合創始人夏詩洋回憶,素材提供者來自四川不同地域。“錄音時,數據標注員同步在電腦上對素材的音字、韻律等進行標注,最后共搜集到超5000小時、10萬余條的四川語言數據集。”
許成睿介紹,除與附近的成都職業技術學院等院校合作培養數據標注員外,未來園區企業還將與成都藝術職業大學合作,教人工智能唱歌、譜曲。
去年5月,成都被確定為國家數據標注基地建設試點城市,新津按部署被納入“人工智能牽引區+數據標注聚集區”布局;10月,在北京舉行的首屆數據標注產業大會暨供需對接會上,成都達成8項合作,其中新津拿下7項。
□四川日報全媒體記者 段玉清 成都觀察 王翱 鄒嘉語
分享讓更多人看到