原创｜工业大模型的落地难题

发布时间：2024年04月26日来源：中国工业和信息化阅读：46次

工业大模型（Industrial Large Models, ILMs）是近年来在工业4.0和智能制造背景下发展起来的新技术，旨在通过大语言模型（LLMs）、大数据分析和深度学习模型来解决工业中的复杂应用与需求，其核心在于能够利用通用知识或特定领域的知识来指导机器完成特定任务，如数据分析、预测、决策支持等。

但就目前的发展来看，工业大模型要落地并提升工业生产效率，仍面临诸多难题。

数据质量和可靠性

工业数据收集和清洗本身就是重要挑战，如果再考虑数据安全和隐私保护，难度就更大。从加速企业数字化转型的角度来看，数据和模型质量问题也面临着挑战。

高质量数据供给不足

在工业大模型应用中，高质量的数据是基础，但目前大多数情况下高质量数据的供给不足，这直接影响了模型的训练效果和应用性能。同时，随着工业大模型应用大潮到来，高质量数据的成本可能会越来越高，这对于依赖大量数据训练的工业大模型来说是一个重大挑战。

其原因在于，数据处理和治理平台缺乏，这导致了工业大模型在构建时难以获得全面、高质量的数据进行深度学习训练。高质量数据供给不足，已影响到工业大模型的性能和应用效果，具体表现如下。

数据治理滞后。大多数工业企业缺乏专门的数据管理组织，数据管理人力有限，且大部分工作集中在数据操作等基础领域，缺少顶层规划、管理的组织架构和人员。这种滞后性使得数据治理工作难以有效进行，进而影响到数据的质量和可用性。

数据质量问题。这与上面的问题紧密相连。正是由于缺乏对大数据资源的整体规划和综合治理，导致一些项目实施中止和失败，结果数据也烂尾。看似是数据治理技术的缺失，本质是企业在大数据平台建设、分析应用等方面没有将数据质量放到重要位置。

数据安全和合规性问题。同样的逻辑线，如果没有有效的数据治理，数据的安全性和合规性就无法得到保障。这导致企业在使用数据进行大模型训练时，面临法律风险和商业风险，影响到企业的长期发展。

数据资源的非竞争性和非排他性。虽然数据具有非竞争性和非排他性特征，但在实际应用中，如何有效地管理和利用这些数据资源，确保数据的质量、安全和合规性，仍然是一大挑战。

数据质量和多样性问题

大模型的训练过于依赖互联网数据，而专业语言数据（如书籍、科学论文等）占比较小，这影响了数据的质量和多样性。更困难的是，中文数据在互联网内容资料中的占比不足2%，且质量参差不齐。

数据安全和隐私保护问题

随着企业和科研机构纷纷涌入人工智能大模型赛道，数据安全和隐私保护成为重要挑战。公有大模型在企业级场景下的应用存在数据安全隐患。

数据开放共享机制不完善

因为数据开放共享机制不完善，缺少训练大模型的高质量工业数据语料库，限制了高质量数据资源的有效利用和共享。

产业数据规模和泛化性不足

产业数据规模和泛化性不足，导致每次更换场景都需要重新训练大模型，成本很高。同时，大模型对数据供给的要求极高，如训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词，这对于实际应用中的数据规模是巨大挑战。

模型的复杂性和解释性

多模态数据建模和可解释的机器学习模型，是工业大模型当前面临的挑战之一。这不仅涉及技术层面的难题，还包括如何使模型更加透明和易于理解。工业大模型的复杂性对其数据处理和解释性产生了显著影响。

首先，随着工业大模型应用的复杂性增加，单一模型已无法满足所有需求，因此集成学习和多模型协同成为发展趋势。也就是说，为了处理更复杂的任务和数据，需要采用更加复杂的模型架构。

其次，工业大模型能够处理庞大的数据量，并将复杂的数据翻译成人类能看懂的语言。这意味着，尽管数据处理能力强大，但如何有效地管理和解释这些数据仍然是一个挑战。特别是在特定领域和任务中，训练数据的获取和标注仍然是一个巨大的难题。同时，大模型的参数特别多，这带来了解释速度的挑战。

最后，这些因素共同导致了在工业应用中，虽然大模型能够捕捉更复杂、更抽象的数据模式，提高模型性能，但在实际应用中，如何确保模型的可靠性和可解释性，顺畅完成工业应用，仍然是一个难题。

模型复杂性问题

在多模态数据建模中，模型的复杂性对工业大模型落地的影响主要体现在以下几个方面。

模型性能的提升。模型复杂度的增加，使大模型能够捕捉更复杂、更抽象的数据模式，从而提高模型在各种任务中的性能，更好地理解和处理工业场景中的复杂关系和需求。

泛化能力的增强。复杂的模型结构提供了更丰富的参数空间，使得模型具有更好的泛化能力。这对于工业大模型来说尤为重要，因为它们需要能够在不同的工业场景中有效工作，而这些场景往往具有高度的多样性和不确定性。

数据需求的变化。早期的融合方法表明，在训练数据相对较少时，多模态学习并不占优，但当数据量达到一定规模时，多模态种类丰富性的作用就凸显出来。这表明，只有运用大量的行业数据训练和优化模型，才能更好提升性能并实现泛化能力。

技术挑战和成本问题。虽然模型复杂性的增加有助于提升模型的性能和泛化能力，但也带来了技术挑战和成本问题。例如，集成学习和多模型协同成为工业大模型发展的趋势，这要求更高的计算资源和技术支持。

同时，不应忽略如何有效地管理和利用大量行业数据这一挑战。另外，可解释性的机器学习之所以成为问题，是机器学习模型复杂性导致的。解决这个问题，通常使用剪枝与稀疏约束、参数量化、降低网络宽度和深度、优化算法等技术手段。

模型解释性问题

用户理解和信任。解释性模型能够帮助用户理解模型的决策依据，从而增加对模型的信任度。这是因为，当用户能够清晰地理解模型是如何作出决策时，他们更倾向于相信模型的输出是准确和可靠的。此外，模型的可解释性还可以提高模型的可信度和可靠性，这对于需要高度精准性和可解释性的工业场景尤为重要。然而，不能忽视大模型存在“幻觉”和无法解释的问题，这对强调精准性和可解释性的工业应用构成了挑战。对此，研究人员提出了多种解释方法，如特征归因、基于扰动的解释和基于梯度的解释等，以帮助用户更好地理解模型的工作机制。

因果关系的确定。工业大模型在解释性方面确定因果关系的难点主要如下。一是模型复杂性。大模型的复杂性是导致其难以解释的一个重要原因。由于深度学习和其他高级机器学习技术的应用，模型的结构变得非常复杂，这使得从模型中提取出可解释的因果关系变得困难。二是数据不确定性。由于数据本身的不完整或不准确，可能会影响到因果关系的准确推断。三是关联关系与因果关系的区分。大模型可能会捕捉到关联关系，但这些关联并不一定代表真正的因果关系。如何正确区分两者至关重要，但这一过程在实践中往往充满挑战。四是泛化性问题。即使能够从大模型中提取出某些因果关系，这些关系也可能不具备良好的泛化性。即对相似的样本，其解释可能剧烈变化，导致用户无法通过看少量样本解释得到本质的、对其他样本也适用的原因。五是反事实推断的难点。在缺乏反事实数据的情况下，进行反事实推断是业界的难点。这种情况下，如何准确地预测假设改变某个条件会发生什么，具有极大的挑战性。六是混杂因素和选择偏差。在实际应用中，如何有效地识别和处理混杂因素、选择偏差等问题，以减少偏差和误差，也是确定因果关系时面临的一个重要挑战。

综上所述，工业大模型在解释性方面确定因果关系的难点，主要集中在模型复杂性、数据不确定性、关联关系与因果关系的区分、泛化性问题、反事实推断的难点，以及混杂因素和选择偏差的处理上。

解释与精确度的平衡

工业大模型在解释性方面，平衡精确度与复杂性的方法主要体现在：选择合适的模型复杂度、采用可解释性算法、设计易于解释的代理模型、知识注入和模型融合、权衡可解释性和有效性等。

算力成本高

训练一个大型模型，初期的算力成本非常高，尤其是在参数越高、模型越大的情况下，泛化能力虽然增强，但相应的成本也会显著增加。这对于许多企业来说，可能是一个重大的经济负担。工业大模型训练初期算力成本高的技术挑战主要包括以下几个方面。

高算力需求。大模型的训练需要巨大的算力支持。例如，动辄几亿的算力投入仅是模型训练阶段的需求，而在模型推理应用阶段，对算力的需求要远远高于训练阶段，算力成本可能达到百亿量级。当然，算力成本随着新技术的应用已进入下降通道。

硬件成本高昂。大模型训练需要大量的GPU资源。以微软与英伟达合作推出的Megatron Turing-NLG（MT-NLG）模型为例，该模型拥有5300亿参数，其训练过程消耗了4480块A100 GPU，单次训练的成本可达数百万美元。其中，还不包括电费等其他成本，如ChatGPT的初始算力投入成本约为7.59亿美元，电费高达591,864kwh/日。

数据和算力资源分散。当前，我国数据开放共享机制不完善，缺少训练大模型的高质量工业数据语料库。同时，各地、各高校院所纷纷建立智算中心，造成算力资源分散严重。这不仅增加了获取足够算力的难度，而且提高了整体的运营成本。

技术瓶颈和优化方向。大模型训练是典型的超算应用场景，对算力、算法、数据三方面技术均有一定要求。需要专用的高速互联计算网络、高性能文件存储和强劲的GPU算力共同完成。此外，大模型对单位实例下的算力密度要求达到了前所未有的高度，这也使得其对计算平台的要求发生了颠覆性的巨大变化。

算力资源调度管理能力。为了降低千亿参数大模型训练成本，需要提升算力资源调度管理能力。除了直接的硬件成本外，还需要考虑如何高效地管理和调度这些宝贵资源所付出的成本。

行业知识不足

通用大模型在解决行业中遇到的复杂任务时，往往因为行业知识、语料不足而难以有效应对。

行业知识缺乏：工业大模型在应用于特定行业时，往往需要具备该行业的专业知识。然而，目前很多通用大模型缺乏对应行业的深入知识，这使得它们难以解决行业中遇到的复杂任务。在工业制造领域，专业知识的缺乏是关键难点之一。

高质量语料短缺：对于从头开始训练的模型来说，高质量语料的短缺会在很大程度上限制大模型的发展。特别是在中文语料方面，由于英文语料库的占比最大，依赖英语训练的大模型更具有可信性和权威性，比较而言，中文大模型在语料方面极度不足。

数据量和质量要求：行业大模型对数据的要求更高，不仅需要涵盖专业知识，还需要大量的数据支持。这些数据往往涉及用户敏感信息，其融合、脱敏等处理也存在一定难度。

二次预训练需求：由于通用大模型在行业知识和语料方面的不足，它们很难直接应用于解决行业中遇到的复杂任务。因此，需要对这些模型进行二次预训练，以适应特定行业的应用需求。

专属大模型的挑战：虽然“专属大模型”旨在通过积累对应行业和场景的知识，来更好地支撑垂直行业各式各样的应用与服务，但这也面临着如何有效整合和利用行业知识的挑战。

应用场景受限

尽管工业大模型在生产制造、研发设计和经营管理等场景中有着广泛的应用潜力，但在工艺设计等具体应用层面仍存在“硬骨头”。

场景适应性问题

首先是数据和模型质量问题。包括如何解决数据标注效率、跨域学习，以及数据管理等问题，以训练出更具泛化性、鲁棒性（即系统或算法在面对各种随机噪声、异常情况和攻击等干扰时的抗干扰能力）和场景适应性的模型。

其次是应用成本挑战。目前，定制化千亿参数通用大模型的成本难以被客户接受，算力成本仍然高居不下，训练卡价格仍在上升。未来考虑到LLM不断升级，训练推理成本或将持续上行。

再次是模型应用的可靠性。工业领域，尤其是生产制造流程，最重视安全、可靠和稳定。这就对人工智能模型，包括大模型提出了更高的要求。因此，保障应用的可靠性成为了一个核心需求。同时，高质量数据供给不足成为最大挑战。

然后是自动化和自适应性不足。未来的工业大模型将越来越注重自动化和自适应性。工业系统需要能够自动调整和优化模型参数、数据处理流程，以及模型的部署和推理策略。然而，目前这一领域的技术和实践还处于初级阶段。

最后是技术与应用场景间的鸿沟。AI大模型的落地关键，是解决技术与应用场景间的鸿沟。这涉及如何使大模型更好地适应特定的工业应用场景，以及如何克服不同模型和算力平台特性的差异带来的现实挑战。另外，在高精度要求行业中，应用场景适应性问题难度更大。

工艺设计适应性问题

数据问题：尤其是工艺数据的质量和数量，直接影响到模型的训练效果和应用性能。

专业知识缺乏：尽管大模型技术具有强大的表征、泛化和自适应能力，但在特定的工业应用场景中，专业知识的缺乏仍然是一个关键难点。

模型适应性问题：随着感知环境和应用场景的变化，模型的训练和调整变得越来越困难。如何使大模型能够更好地适应不同的工业场景，成为学术界和工业界面临的共同课题。

技术与场景应用的适配性问题：从应用落地角度出发，解决前沿技术与真实应用场景之间的鸿沟是大模型落地的关键，包括如何全方位匹配应用落地时的要求，以确保技术的有效性和实用性。

多模型协同与集成学习的需求：随着工业大模型应用的复杂性增加，单一模型不可能满足所有需求。因此，集成学习和多模型协同成为发展的趋势。

模型设计和调试的难度：设计和实现适合特定任务的模型结构，需要深入的专业知识和经验。同时，调试模型中的错误或性能问题也是一项复杂的任务。

成本和技术壁垒

训练大模型的成本和技术壁垒较高，需要寻求业内合作，使用相应的技术与能力。这对于中小企业来说，会是难以逾越的障碍。

成本问题

工业大模型的应用成本较高，至少在百万级起步，甚至可能达到上千万。对于企业而言，引入和维护大模型需要大量的资金投入。

人才问题

工业大模型的应用不仅需要大量的资金投入，还需要专业的人才支持。技术研发、算力资源投入、数据采集与标注，以及市场推广与商业化扩展等方面都需要专业的人才进行操作和管理。同时，随着AI技术的发展，对人力资源的需求也在不断扩大，这进一步增加了企业的负担。工业大模型应用中，人力成本高的原因主要包括以下几点。

人才需求增加。随着大模型技术的发展和应用，企业需要吸纳大量的人工智能领域人才，如机器学习工程师、数据科学家、领域专家等，这些岗位的薪酬相对较高，从而推高了整体的人力成本。

技术门槛高。企业自身开发大模型的难度很大，不仅训练成本、存算成本过高，而且开发工具与社区支持也不足，这导致企业在应用大模型时面临较高的技术门槛和成本压力。

数据处理需求大。中文大模型的成本高，一个主要原因就是中文数据量和质量与英文存在差距，训练中文大模型需要采集和处理更多的中文语言数据。此外，算法开发、测试、迭代、产品化等都需要大量技术人才的支持，进一步增加了人力成本。

极度依赖硬件资源。GPU作为训练模型与加速推理的关键算力硬件，其成本也是影响人力成本的一个重要因素。

技术壁垒

数据处理难题：在工业大模型应用中，数据获取与处理是一个重要的挑战。例如，从中国科学院文献情报中心获取的千万级PDF论文数据解析就非常困难。

模型应用可靠性：工业领域尤其是生产制造流程，对安全、可靠和稳定性的要求极高。这对人工智能模型，包括大模型提出了更高的要求。

应用成本挑战：从大模型驱动的AI应用方面来看，应用成本需要大幅度降低。目前定制化的大模型应用成本较高，这是企业面临的一个重要挑战。

芯片和分布式训练基础设施软件的技术壁垒：虽然大模型这项技术本身的技术壁垒并不算高，但是芯片和稳定的分布式训练基础设施软件技术壁垒却很高。

算力基础设施的挑战：大模型部署技术难点大，参数量太大，一般的显卡无法满足需求。

产业突破的挑战：大模型的难点不仅仅在于技术追赶，更重要的是如何在产业场景中落地应用，创造实际价值。

数据和模型质量问题：工业AI在数据和模型质量方面的问题，会对大模型的工业应用构成不小的挑战。

技术和商业落地的双重挑战：企业很难真正把大模型做得面面俱到，因为每一项业务都有其专业性。关键是要考虑如何尽快形成自己的技术壁垒，并成功商业落地。

尽管存在诸多挑战，但通过应用工业大模型可以大幅提升生产效率、节约研发成本、优化资源配置已是业界共识。因此，工业大模型应用被视为推动制造业高质量发展的重要手段。

未来，工业大模型产业将朝着定制化、边缘计算、产业协作等方向发展。这意味着未来的工业大模型将更加注重满足特定行业或应用场景的需求，同时也将更加注重与产业的深度融合和协作。

END

来源：中国工业和信息化

天元区中小企业公共服务平台

原创｜工业大模型的落地难题