探讨工程专家和数据科学家在大数据分析上的合作模式
康明斯(中国)投资有限公司 李勇
数字化转型是当前很多工业企业探索的重要任务,成立数字化部门,引进数字化人才,吸引数据科学家都是重要的事项。新事物的引入也会带来新的问题,其中如何让数据科学家和公司内的工程专家有效合作,发挥各自所长来正向促进企业数字化转型就是一个问题,这是一个参杂着技术和业务元素的复杂问题。本次演讲将分析这个问题,并探讨如何解决这个问题,创新性的提出了两种合作模式。
演讲的第一部分将详细分析大数据分析的能力要求,分别是机器学习、编程能力和领域知识。其中编程能力是数据科学家和工程专家重叠的地方,他们都擅长MATLAB®或Python®的编程,另两个是大家各自擅长的,这就意味着他们需要合作。
演讲的第二部分将深入分析数据科学家和工程专家之间的天然“矛盾”。第一个“矛盾”是观念上的,数据科学家推崇数据驱动的建模,强调关联,而不重视因果;工程专家却恰恰相反,基于物理或化学原理的建模才是他们最放心的。第二“矛盾”是技能上的,数据科学家擅长在大数据的基础上通过机器学习算法来发掘数据里的潜在规律,而工程专家擅长在试验数据上利用清晰的物理或化学原理来建立可靠的仿真模型。
演讲的第三部分将探讨大数据分析合作的两种模式,在工业企业数字化的真实场景中数据虽大,却不是真正意义上的大数据,数据虽多,但也存在数据质量差、采样频率的低的问题。目前主流的合作模式是工作坊式的合作,即工程专家和数据科学家坐在一起建模,将以发动机进气系统健康状态预测模型为例来说明。另一种创新的合作模式是流水线式的合作建模,以一种技术方法将完整模型分为边缘模型和云端模型。工程专家负责边缘模型,数据科学家负责云端模型。这种方式实现了建模在时间和空间上的解耦,也能充分的发挥工程专家和数据科学家各自擅长的技能。会以发动机起动系统性能监测为例来展开说明。 第二种合作模式可以让工程专家继续使用他们擅长的MATLAB、Simulink®在边缘控制器中集成边缘模型,而不是被分流去尝试云端建模。也让MathWorks可以集中精力让MATLAB成为云端建模的便利工具。
这次演讲期待参会者可以全面的了解工业企业里大数据分析上数据科学家和工程专家的潜在“矛盾”和合作的必要性,以及如何高效合作。希望在这一问题我们的成功经验可以被借鉴帮助到其他企业的数字化转型。
出版年份: 2022 年 7 月 31 日