錨定戰略投資兩大方向,澳鵬中國布局新十年超級周期
大模型與生成式AI無疑已經成為實實在在的效率和增長引擎,而DeepSeek的問世則證明了算力和算法對于大模型普及的制約正在迅速降低,規模化的高質量標注數據特別是行業垂直領域(垂類)數據,正在成為大模型普及的下一個戰場。2025年2月底澳鵬發布的年報顯示:2024年公司中國業務營收突破4.2億,年增長達到71%,其中的大模型/AIGC業務增長了526%,幾乎所有AI龍頭,特別是大模型AI企業都成為了澳鵬的客戶。
2022年底,ChatGPT橫掃全球,開啟了全球AI超級周期的序幕。高盛2025年2月的研究顯示,自2022年11月ChatGPT面市以來,美國股市飆升50%,科技股市值增加13萬億美元,催生了美國歷史上最強勁的牛市之一。而開源大模型DeepSeek引領的第二波浪潮,以更低成本實現接近GPT-4和Claude的高性能,加速了全社會對大模型的采用。到2025年2月,全球已有超過200家公司接入DeepSeek,涵蓋互聯網巨頭、電信運營商、金融科技企業、車企及政府部門。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,與全球大模型更側重通用性和多語言多語種模型泛化的模式不同,中國大模型更側重"通用+垂直領域",這意味著中國大模型在未來行業應用場景、特定垂直領域創新方面獨樹一幟,也更在"局部領域"更容易實現 AI 垂類實踐的突破,對特定行業和社會生產力的大幅快速提升。
在DeepSeek等一系列 AI 大模型創新影響下,技術進步、應用生態、生產關系和生產力變革這三者正在形成閉環共振,形成從技術進步到生產力提升的"超級周期",其中包括了超級AI周期、超級經濟周期以及激活的超級AI數據服務周期。Gartner在2025年2月發布預測,認為到2028年,中國企業對人工智能就緒型數據(特別是非結構化數據)的投資將達到2024年的20倍!
在ChatGPT階段,大模型的瓶頸已經從算力和算法推進到了數據;在DeepSeek階段,高質量數據進一步成為大模型的"燃料"。2024年底,就在DeepSeek即將橫掃全球前夕,中國國家發改委等部門發布了《關于促進數據標注產業高質量發展的實施意見》,引發了全社會對于數據標注的關注,迅速引爆了數據標注行業的熱度,市場認為數據標注行業井噴在即。
作為AI數據服務行業龍頭企業,澳鵬Appen公司的2024年全年報顯示,經調整后的公司年增長16%、2024年下半年大模型收入占28%。在澳鵬中國,大模型及大模型相關業務已經占據了營收的40%。澳鵬自2023年中旬推出大模型相關產品和服務,僅僅一年多的時間發展成為了第一大業務,用"爆發"形容并不為過。2024年,澳鵬中國全年實現了4.2億人民幣營收,其中大模型及大模型相關業務營收達到1億人民幣。
雖然公司在2024年取得了跨越式發展,但澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士認為,以DeepSeek等大模型為代表的大模型紅利才剛剛開始,AI數據服務行業將進入10-20年的景氣周期,澳鵬中國將在技術、交付、安全和渠道等方向持續布局,其中的戰略重點是技術和交付。而澳鵬作為AI數據服務行業的龍頭,其面向未來十年超級周期的布局,也將影響整個行業的發展方向。
技術和研發是澳鵬中國持續性戰略投資的重要方向。田小鵬博士表示,技術是絕對生產力,未來5年,澳鵬中國將向研發再投入2-3億元人民幣,以確保公司在大模型超級周期中的持續競爭力,公司也將持續轉型為算法輔助型、深化垂直領域的數據服務能力,同時通過人機協同模式提升數據標注的專業性和準確性。
澳鵬中國研發負責人、產品和工程副總裁錢程介紹,公司目前80%以上的研發人員都參與了大模型相關的研發任務,主要研發方向包括面向大模型的數據服務平臺、面向大模型的數據標注工具以及大模型相算法的研發和應用等。2025年,澳鵬中國將投入研發資源打造智能化成品數據集生產管理平臺,通過自動化的數據標注、清洗挖掘和質量評估快速構建大規模高質量成品數據集,為大模型的模型訓練提供高質量數據養料。
此外,隨著大模型應用向垂直領域的不斷深入,澳鵬中國將結合自身在大模型和各垂直領域數據服務中積累的豐富經驗,研發高精尖垂類數據標注平臺,澳鵬中國計劃在2025年上半年推出專業的大模型醫療數據標注平臺和具身智能數據標注平臺,進一步賦能垂直領域客戶構建高質量模型訓練數據。
當前正處于超級周期的啟動階段,大模型發展迅猛且競爭激烈。許多AI數據標注項目具有實驗性質,澳鵬需要迅速調整相關的平臺和資源以適應不同的數據需求。錢程指出,大模型的發展,尤其在后訓練階段非常迅速,客戶不斷嘗試新方法以優化效果。澳鵬團隊與客戶緊密合作,支持模型訓練的數據需求,助力模型能力的不斷提升。
對于嘗試性實驗項目,澳鵬需要迅速構建數據處理工具和工作流程,采集和標注數據,并進行結果訓練和驗證。這需要一個靈活的平臺工作流、自定義標注模板和敏捷的項目管理。澳鵬的大模型智能開發平臺通過自定義模板引擎,能夠在幾分鐘內快速配置數據標注模板,而定制化小型工具的開發則可在幾天到一周內完成。
錢程指出,客戶需求快速迭代,創意層出不窮,澳鵬的產品研發團隊為深度參與在這一快速發展的賽道而感到興奮。一方面,他們積極跟進國內外大模型訓練的技術變化;另一方面,與客戶實時交流前沿發展趨勢,共同探討數據服務的構建方法。
"以AI賦能AI"是澳鵬產品研發團隊不斷提升數據服務效率的宗旨,為了提升團隊的生產力和效率,澳鵬在數據處理和生產管理中廣泛應用大模型,替代傳統算法。這不僅大幅提高了技術和工程團隊的代碼編寫效率,還幫助數據交付部門提升了數據服務和項目管理的智能化水平。
面向垂直領域的交付能力也是澳鵬的戰略投資方向。繼通用知識后,專業知識是大模型下一步的重點發展領域。澳鵬在已有垂直領域能力的基礎上, 2024年開辟了金融、法律、音樂、多語種、文學、TTS、數學、醫療、代碼等九個大模型垂直領域團隊,專門負責開發和培養這些垂直領域的復合型人才,以及承擔相應的數據服務項目。
2024年,澳鵬在代碼大模型領域取得顯著增長,擁有120+全職技術人員覆蓋主流編程語言,提供代碼生成、調試等服務,業務擴展至能力評估、運維、測試等場景,團隊規模翻倍,并持續積累高質量代碼數據集,確保代碼模型在多種編程場景和任務類型上的泛化能力。
此外,澳鵬在大模型各垂類領域都擁有豐富的專業人才資源:在法律領域,擁有專業的法律人才,涵蓋法律檢索、庭審、風控體系建設等核心能力;多語言領域,團隊覆蓋200+語種,具備豐富的多語言項目交付經驗;音樂領域,擁有500+兼職音樂專業人員支持編曲、標注、制譜等任務;TTS領域,擁有數十個國家TTS采集經驗,錄音棚覆蓋全國主要城市;文學領域,團隊成員均具備深刻的文學理解與鑒賞能力,支持跨領域多模態融合與創新、情感交互與智能推薦系統等領域大模型的發展……澳鵬憑借強大的專業團隊和豐富經驗,持續為大模型提供高質量數據支持。