一个结构条理清晰、内容丰富优质、管理严谨规范的语料库,能够为旅游行业内的各类参与者提供一个蕴含深度见解的知识宝库,强有力地推动行业的数字化转型
春节前夕,由杭州深度求索人工智能基础技术研究有限公司开发的开源生成式人工智能大模型DeepSeek横空出世,引发广泛关注。随着众多旅游企业接入DeepSeek或加入其开放生态,人工智能大模型在旅游行业的应用备受关注。
一
近年来,人工智能技术在旅游行业的应用取得了显著进展,极大地丰富了旅游服务,提升了用户体验和行业效率。国际旅游巨头猫途鹰等利用AI技术为用户提供个性化旅游推荐和行程规划,使旅游规划更轻松便捷。希尔顿酒店集团通过AI优化餐饮管理,减少食物浪费,展示AI在资源配置中的潜力。爱彼迎引入AI照片之旅功能,增强住宿体验。国内旅游领域的大模型如携程问道、同程“程心”等,通过智能问答提供旅游建议和个性化行程规划,满足用户多元化需求。在文博场馆,AI的应用同样亮点频出,如国家博物馆的数字人“艾雯雯”提供智能问答和导览服务,滕王阁景区的数字人“王勃”进行历史文化知识讲解和沉浸式体验AI导游。文化和旅游管理部门也积极采用AI技术,如杭州的“杭小忆”智能助手和上海“文旅通”数字人“小文”,通过智能化手段提升用户体验和服务质量。
大模型的发展,其核心在于算力、算法、语料这三大支柱。语料不仅是模型训练和评估不可或缺的基石,其规模与质量的优劣,更是对模型性能的塑造起着决定性作用。具体而言,高质量的语料需兼具多重价值:实用价值确保信息准确可靠,启发价值激发模型的创新思维,认识价值深化模型的理解能力,情感价值让模型更贴近人类情感,审美价值提升模型生成内容的吸引力,而思考与创造价值则推动模型不断进化。这些价值要素共同赋予了语料深远的教育与引导功能,使模型在应用中更加智能、高效。例如,DeepSeek推出的V3基础模型与R1推理模型,凭借其高性价比优势,引起了世界的广泛关注,为国内AI生态注入了新的活力。其成功背后的关键因素,正是创新的架构、高质量的训练数据、科学的训练策略以及持续的迭代优化等。这些要素共同奠定了模型卓越性能的基础,为行业树立了新的标杆。因此,语料库与人工智能大模型之间天然形成了紧密相连的产业链上下游关系,共同编织出新型的数据供应链条。
在旅游行业中,构建与治理高质量的语料库,是推动行业大模型蓬勃发展、深度挖掘数据要素价值的关键所在。一个结构条理清晰、内容丰富优质、管理严谨规范的语料库,能够为旅游行业内的各类参与者提供一个蕴含深度见解的知识宝库,强有力地推动行业的数字化转型。一个共建共享且具备公信力的行业语料库不仅有助于增强语料库的权威性和实用性,更能有效促进旅游公共信息服务高质量发展。
二
高质量语料是旅游行业推动大模型创新应用与成功落地的基石。语料的质量不仅直接关系到模型训练的效率和成果,更深远地影响着模型的性能表现及其在实际应用中的广泛性和深入性。在旅游行业语料库的建设中,质量是首要关注点,标准化程度与开放性同样至关重要。标准化处理能够确保语料在格式、内容、标注等方面的一致性,为模型的训练与开发奠定坚实的数据基础。而开放性的语料库则能打破数据壁垒,促进跨组织、跨领域的数据共享与交流,进而催生出更多的创新应用与合作机遇。随着人工智能、大数据等技术的飞速发展,旅游行业的数据形态也在不断革新。新形态下的旅游多模态语料,涵盖了文本、图像、音频、视频等多种媒体数据的融合处理,为大模型的训练提供了更为丰富、多元的信息资源。这些富媒体数据能够更全面地反映旅游场景,提升模型的感知与理解能力。此外,人工智能模型在前、中、后阶段产生的数据也应被纳入其中,进而更准确地了解模型的运行状态,进行性能调优、应用效果评估,发现潜在问题与改进空间,推动模型的不断优化与迭代升级。
高质量语料是旅游行业数字化转型的新型驱动力。高质量语料,其内涵丰富,标准要求严格,包括大规模的数据体量、广泛的多样性覆盖、高度的真实性反映、严密的逻辑连贯性、严格的合法性保障以及无偏见的客观呈现。高质量语料为文旅元宇宙、定制旅游等旅游新业态的发展提供了数智化抓手,不仅精准响应了当前的市场需求,更是推动旅游行业从信息化向数字化、智能化深入发展的关键一步。构建涵盖广泛应用场景、深度挖掘用户需求、严格筛选与验证的语料库,可以显著提升旅游服务的个性化、精准化水平,助力旅游企业更好地把握市场脉搏,实现可持续发展。同时,高质量语料库的建立还将促进旅游行业内部的数据共享与协同创新,为整个行业的数字化转型升级注入强劲动力。
高质量语料是激活旅游数据要素潜能、打破数据壁垒的重要工具。旅游行业大模型的语料构建往往需要跨越不同机构、涵盖广泛领域的数据集合,这一过程不可避免地会触及数据安全、个人隐私保护以及知识产权等敏感而复杂的问题。为了有效应对这些挑战,推动旅游语料数据资源的高质量发展,亟须凝聚多方力量,形成合力,倡导鼓励多元化的主体共同参与并推动高水平旅游语料数据资源的建设。可依托中国大模型语料数据联盟等平台,汇聚各方智慧与资源,携手打造涵盖多领域知识、融合多种模态、符合标准化要求的高质量语料数据。探索建立基于贡献的可持续激励机制,共同构建国际化、开放型的旅游大模型语料数据生态圈。同时,为了保护语料数据的知识产权,可利用区块链等先进技术,建立旅游行业语料数据的知识产权保护体系。这样既可以确保数据的原创性与完整性,还能为数据的合法使用提供有力的法律支撑。进一步将语料评估为有价值的数据资产,使其能“数据入表”,成为数据要素。值得一提的是,2023年7月,上海数据交易所就开设了语料库板块,可依托交易所平台,促进旅游行业语料数据的市场化交易,实现旅游语料数据价值的乘数效应。
三
建设具备公信力的旅游行业大模型语料库是一项长期性、专业性、系统性的工程,在建设方法、实现路径上需形成合力,多措并举,久久为功。
关于通用语料库利用。构建旅游行业大模型语料库需充分借鉴并吸收通用语料库的成果与经验。在全球范围内,诸如Wikipedia、Common Crawl、C4、The Pile等知名通用语料库,已共同搭建起一个规模庞大、种类繁多的数据集资源宝库,为各领域的语料库建设提供了重要参考。在国内,同样涌现了一批令人瞩目的语料库资源。例如“书生·万卷”多模态预训练语料库,其数据规模庞大,涵盖了超过5亿个文本条目,更融入2200万个图文并茂的文档,以及1000个精彩纷呈的节目影像视频,充分展现了数据的丰富度与多样性。2023年12月,中国网络空间安全协会人工智能安全治理专业委员会发布了用于大模型的首批中文互联网基础语料库,包括1亿余条数据、500亿个词元(token),为中文自然语言处理领域的研究奠定了坚实基础。2025年1月,中文互联网基础语料2.0又正式向社会发布。更令人振奋的是,首轮人工智能“上海方案”开源了高达4200亿词元的语料数据,这一举措无疑进一步丰富了中文语料库的资源,为旅游行业大模型语料库的建设提供了更为坚实的数据支撑。这些丰富的语料资源,无论是国际的还是国内的,均为构建旅游行业大模型语料库提供了参考。因此,必须充分借鉴通用语料库的成果和经验,深入理解并掌握建设面向人工智能的泛语言、多模态语料库的具体要求与方法,用于指导和规范语料库的建设和管理,确保旅游行业语料数据的高质量。
关于法律法规与标准遵循。构建旅游行业规范语料库,加强语料安全监管,需遵循一系列法律法规与标准。依据《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》的相关要求,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并履行算法备案和变更、注销备案手续,备案材料包括备案申请表、安全自评估报告、模型服务协议、语料标注规则等。在语料库建设过程中,还可参照上海市人工智能行业协会团体标准《语料库建设导则》,针对旅游行业涉及的多种数据形式,如文本、图像、音频、视频等,提出明确的建设要求,确保语料库具备规模性、多样性、高质量及安全性。同时,详细规定语料数据的结构设计、内容筛选、质量控制标准,以及对语料生产系统与生产流程的技术性要求,为语料的高效生产与质量保障提供坚实的技术支撑。
关于价值观对齐。避免模型从数据中习得偏见、有害内容或不符合导向的价值观,语料的价值观对齐也尤为重要。DeepSeek就此提出了“价值观对齐解耦化”的方法,以解决大模型价值观对齐中“沉默的大多数”问题,即将整体价值观对齐,解耦拆分为不可变的核心价值观对齐与可变的多元化价值观定制。核心价值观会在训练中被严格保证,而多元化价值观则会提供给用户以非常方便的接口进行定制,从而实现模型价值观多元化与安全性的和谐一致。由此,通过数据筛选、标注或调整,使训练语料中隐含的价值观与目标伦理准则、文化规范或社会共识保持一致。为了进一步提升大模型能力,还需在大模型训练环节对语料库质量进行评价,并通过应用成效,评估语料库对行业知识覆盖的广度和深度。通过不断迭代与优化,以达到更好的效果。同时,积极探索并应用基于人类反馈的强化学习、可扩展监督等先进技术方法,对于确保大模型输出内容符合人类价值观、防止生成有害信息具有重要意义,是维护模型输出内容安全性的有效途径。
关于合成数据运用。合成数据成为模型训练的新兴关键类型,为旅游行业语料数据市场带来了新需求。根据行业预测,随着传统数据源如语言数据、视觉数据的供给趋于耗尽,未来,合成数据预计将成为模型训练新的关键支撑。这种转变将给数据要素市场带来结构性变化,推动市场向更加多元化、智能化的方向发展。作为一种创新的数据来源,合成数据在降低训练成本、提升数据质量、规避隐私泄露风险等方面展现出了显著优势,为语料库建设开辟了全新的路径。在旅游行业中,合成数据的应用尤为广泛,可以模拟各种旅游场景、用户行为以及旅游产品的特性,为模型提供更加全面、准确的数据支持。然而,探索旅游行业数据合成的有效路径仍是语料库建设的一大挑战。这就需要深入研究合成数据的生成机制、优化算法以及应用场景,确保合成数据能真实反映旅游行业的实际情况,并满足模型训练的具体需求。同时,还需要关注合成数据的合法性和伦理性问题,确保在数据生成和使用过程中不侵犯他人的合法权益。
综上所述,拓宽语料来源,构建语料标准规范,开展语料治理,保障语料安全,可为大模型训练及应用提供既具有旅游行业特色又符合标准化要求的高质量语料,进一步提升旅游行业大模型的应用范围和成效。
(作者单位:上海旅游高等专科学校)