具体内容如下:
问:大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别?
答:大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。
此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。问:大模型预训练阶段很大程度用的都是无监督学习,无监督学习下,公司的业务是否会受影响,或者会产生哪些新的数据机遇?
答:大模型是人工智能技术新的发展范式,该技术路线下将衍生出新型数据需求。例如,预训练阶段,数据服务公司需能根据客户的大模型需求,完成对海量数据清洗方案的设计以及执行,通过清洗出高质量数据,帮助客户高效完成模型预训练开发;同时,预训练想要达到更高阶的通用学习效果,需要更为丰富的高质量数据来源,例如各类版权数据等,因此,能聚集更为丰富的版权类数据、并以工程化和规模化地方式向客户提供相应服务的数据服务商将具有更高的市场竞争力。
此外,为使大模型能力更趋近于人类,大模型还将在完成预训练的基础上,通过有监督微调以及基于人类反馈的强化学习,实现模型在特定方向上的优化迭代。上述两个阶段均需深度人工参与,同时参与上述两阶段的数据处理人员将被要求有更高的认知水平和专业能力,以更好指导机器完成高阶能力优化。大模型时代实质上是一个海量数据的时代,随之将产生海量的数据需求,数据服务模式也将由传统的数据标注向获得海量高质量数据、以及更强的数据处理能力转变,这对数据服务商提出了新的、更高的要求。因此,能够前瞻性布局大模型数据服务能力的服务商将优先获得市场机会,建立先行的护城河。问:请大模型向多模态发展后,是否会对公司业务产生正向影响?
答:大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。
问:公司定增项目中的数据生产垂直大模型主要是做什么的?是否是单纯针对数据生产而推出的大模型?
答:公司全栈自研的数据生产垂直大模型,将可辅助完成面向多个下游任务的数据设计与处理规则,形成包括数据清洗方案设计、指令方案设计、指令泛化与迁移、指令数据验证、多模态数据方案等在内的多项生成能力,以及在上述方案下的原始数据及标注成果生成能力。本项目的研发将服务数据生产垂直方向,应对未来数据智能进一步发展的方向。
问:海天瑞声以什么身份和大数据交易所进行合作?
答:目前海天瑞声在大数据交易所的主要角色是数商,即数据交易标的的供应方,通过在交易所挂牌自有知识产权的数据产品完成数据交易。
问:目前公司是否有数据集挂到数据交易所进行交易?目前数据交易所方面具体有什么进展?
答:目前海天瑞声已与北数所、上数所、深数所等3家交易所建立联系,并在北数所、上数所完成数据产品的挂牌上市,并成为北数所战略合作伙伴。未来,公司将继续拓展、加强与各地数交所的合作,积极加入数据要素生态圈,助力国家数字经济和数据要素市场快速发展。
问:智能驾驶行业的核心竞争力是什么?
答:智能驾驶数据领域的核心竞争力主要体现在三个方面,分别是平台能力、算法能力以及数据安全能力。
平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,目前同时具备2D标注、3D点云标注、2D-3D联合标注以及3D语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。 第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。 第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家相关法律法规要求数据流转链条上各类企业必须做好充分的数据安全保障。因此,未来不具备相关数据安全能力的供应商将逐渐被市场淘汰。问:公司智能驾驶客户有哪些?
答:受益于智能驾驶业务蓬勃发展以及公司在该领域的强力布局,截至2023年6月底,公司已服务超过70家智能驾驶领域客户,覆盖传统车企、新势力车企、智能驾驶技术公司等。目前公司也在该领域进行持续的客户拓展,进一步加固客户储备,迎接行业爆发。
海天瑞声(688787)主营业务:AI训练数据的研发设计、生产及销售业务。
海天瑞声2023年三季报显示,公司主营收入1.03亿元,同比下降38.25%;归母净利润-3211.99万元,同比下降272.4%;扣非净利润-4252.09万元,同比下降1095.65%;其中2023年第三季度,公司单季度主营收入2875.37万元,同比下降45.1%;单季度归母净利润-1487.85万元,同比下降1772.52%;单季度扣非净利润-1941.63万元,同比下降389.18%;负债率3.28%,投资收益772.39万元,财务费用-145.45万元,毛利率59.3%。
该股最近90天内无机构评级。融资融券数据显示该股近3个月融资净流入2891.26万,融资余额增加;融券净流入1649.13万,融券余额增加。
以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。