新闻2021/03/12 09:18

晶圆加工车间设备智能维护
来源:

本文针对设备运行过程中传感器采集的各类参数,研究设备运行数据与设备运行状态之间的关联关系挖掘方法,设计设备运行状态诊断与控制模型,结合历史数据挖掘发现的控制规律,实现大数据驱动的设备运行维护优化;引入大数据技术实现海量设备运行数据的分析、挖掘,对晶圆制造车间进行智能监控和分析,辅助决策设备控制方案。晶圆加工车间设备智能维护示意图如图1所示。在上海某晶圆代工厂S1车间进行设备运行状态诊断应用研究中,构建了设备运行状态诊断模型,以设备为应用对象,对其112个采集参数,6个月历史数据进行综合挖掘与分析,诊断设备运行状态。主要工作如下:

 

(1)面向晶圆制造车间的设备智能维护系统总体框架。

(2)基于工业互联网的设备联网与数据采集技术。

(3)基于大数据平台的生产过程大数据实时监控方法与良率分析和监控方法。

(4)基于贝叶斯网络学习方法的可靠性指标预测技术。

(5)基于异常诊断模型的机台健康状况实时监控方法。

(6)基于多元分析算法的机台R2R控制方法。

 

图1 晶圆加工车间设备智能维护示意图

 

 

「 1. 晶圆制造车间设备智能维护系统总体架构 


 

晶圆制造车间设备智能维护系统总体架构。项目通过3C技术(Computer、Communication、Control)的有机融合与深度协作,实现晶圆制造过程的实时感知、动态控制和信息服务。通过建立晶圆制造车间工业互联网,对晶圆制造过程的生产数据和机台状态的进行监控,实时采集车间各个工序和机台的生产数据及状态,对采集的海量多源异构数据进行组织和存储;通过开发信息系统统计分析设备的运行状态,实现晶圆制造设备的先进过程控制,进而改善和优化晶圆生产过程,给企业带来更大的效益。

 

基于以上业务流程,根据系统建设的原则,将晶圆制造车间设备智能维护系统划分为物理层、数据采集层、数据网络层、数据处理存储层、应用层及表现层6个层次。

 

(1)物理层:由晶圆制造车间中的各类加工设备组成,是系统的数据来源,也是调控对象。

 

(2)数据采集层:现场数据采集层主要通过安装在设备上的现场数据采集器实现对设备和晶圆在制品的自动化监测,属于整个信息系统的最底层。根据设备间数据交换的通用国际标准,设计不同数据采集方式。

 

(3)数据网络层:以工业互联网标准为依据,建立基于OPC协议、TCP/IP协议、XML协议、Web Service、ProfiBus、工业以太网等的车间网络环境,传输采集到的数据,发布设备控制指令。

 

(4)数据处理存储层:数据处理存储层通过对采集参数的筛选和车间设备数据的预处理,剔除冗余数据;通过多源数据整合方法,融合不同来源的数据,维护数据的一致性;通过基于列存储和关系管理的统一数据服务,为上层应用提供标准化、可靠、可复用的数据来源。

 

(5)应用层:包括生产过程数据实时监控模块、良率分析与监控模块、可靠性关键指标预测模块、机台健康状态监测模块、机台R2R控制等。基于采集到的各类数据,应用算法分析得出结论,实现晶圆制造设备的先进过程控制。

 

(6)表现层:表现层提供多类型的可视化组件,将基于大数据分析的生产过程监控和优化的结果(数值、数值规律以及发展趋势等)通过图形化的呈现,实现跨平台的可视化交互与展现,便于用户更好地理解和接受。

 

 

「 2. 晶圆制造车间设备智能维护系统的组成 


 

1)设备联网与数据采集功能模块

 

晶圆制造车间中不同类型设备并存,根据设备间数据交换的通用国际标准,设计不同数据采集方式如下:

 

(1)基于RS-232协议的串口集成模式:一般设备都配置有RS-232串口,利用此项功能即可实现制造过程信息采集。这种方式无需设备增加任何硬件和修改PLC,因此,对各种具备此功能的设备实现信息采集具有普遍性。

 

(2)基于TCP/IP协议的以太网集成模式:随着技术的发展,大部分晶圆制造设备已配置以太网功能,而以太网方式的信息采集内容更加丰富,甚至可以做到远程控制。目前各主要厂商,如ASML、应用材料、北方微电子等均为晶圆制造设备配备了局域网口,并提供了大量与其它系统方便集成的接口。

 

(3)基于数据采集卡的集成模式:此方法与设备系统无关,只要能与生产设备的相关I/O点、对应的传感器能连接上,采用专用的采集卡即可采集到相关加工信息。

 

2)数据处理存储模块

 

晶圆在车间内的生产过程是多资源耦合的过程,其中涉及到的物料、设备、工艺、人员等信息庞杂,数量繁多。为实现对车间数据的有效采集,保证生产过程信息的实时、准确的获取与传输,项目首先需要对晶圆制造大数据感知技术展开研究。通过对采集参数的筛选和车间设备数据的预处理,剔除冗余数据;通过多源数据整合方法,融合不同来源的数据,维护数据的一致性;从而为后续分析提供标准化、可靠、可复用的数据资源。

 

(1)面向数据流的多源数据融合子系统。对于以数据为中心的应用系统,数据的收集和数据质量对决策的优劣至关重要。晶圆生产过程是一个持续过程,其产生的数据是一组顺序、大量、快速、连续到达的数据序列。因此,研究基于流处理技术的数据传输与采集方法,联网获取车间设备的实时监测数据。由于在生产过程会出现各种各样的异常状况,在这些异常状况下采集到的数据不能客观准确地反映生产过程的基本特征。因此需要对原始数据进行必要的取舍,研究监控参数的筛选机制,重点关注核心设备参数。同时,不同过程变量具有不同的量纲,如温度、重量、压力等。绝对数值大小差异很大,要将所有变量的测量结果共同计算,要求所有变量具有同等的重要性,因此需要对每个变量进行标准化处理。从而满足后续数据分析、设备监控的数据共享要求。

 

(2)基于列存储和关系管理的统一数据服务子系统。从晶圆制造车间里采集或历史数据库中查询到的原始数据是按照设备或某种数据类型组织的,仅反映了某一方面的特性,不能立即用于统计分析和控制。另外,晶圆生产过程中的各项技术指标、生产数据、控制参数相互关联、相互制约、相互影响。因此,针对数据来源多样和相互关联的特点,研究基于列存储和关系管理的统一数据服务,为上层应用提供可靠数据来源。研究由传统的SQL数据库向列存储数据库转化方法,有效、可靠的存储生产过程数据及其相互间的关联关系;研究单一查询在异构系统和数据库中的分解方法,按照数据间关联关系将查询请求合理地优化分解为子查询任务,分配到各数据库节点中执行;研究查询结果的组合筛选方法,返回合理的查询结果;在此基础上研究数据整合方法,建立并完善设备生产及工程数据仓库,提供数据查询与引用,对设备运行数据进行科学、高效管理,实现数据库间无障碍数据交互,提高数据库使用效率。

 

3)分析应用功能模块

 

在晶圆生产过程中,由于生产设备、物料以及操作等各方面因素的影响,生产过程中存在很多不确定的因素,影响生产的效率和质量。如果仅仅通过人工观察和判断,难以满足即时、高效的要求。并且,随着设备、工艺、技术的不断更新,车间运行中面临的不确定的因素也在发生变化,需要对线上设备控制方式做出调整。因此,项目研究晶圆制造大数据分析技术,包含生产过程大数据实时监控方法和良率分析和监控方法、基于贝叶斯网络学习方法的可靠性指标预测,基于异常诊断模型的机台健康状况实时监控方法、基于多元分析算法的机台R2R控制方法等。在满足实时性的要求下,对数据进行分析,判断设备运行情况;针对各类变化情况合理更新控制量,从而使控制方式适用于不断变化的现场工作情况。主要研究内容包括:

 

(1)生产过程大数据实时监控方法与良率分析和监控方法

 

依据SEMI的SVID设备接口标准对现有设备进行普查,并设法通过改造将接口标准统一化。针对现有设备的数据采集和输出能力,对设备硬件、软件进行改造,使设备能够支持至少10Hz以上的高频数据输出。建立基于分布式数据库(Hadoop,HDFS)的文件存储平台,应用分布式数据库的可靠性和高速计算能力实现大数据的实时存储、抽取和计算。其次,基于现有的大数据分析工具(Mahout,Spark/Mlib)和一些自行开发的基于分布式的统计分析方法,将这些方法应用于生产异常诊断和产品数据分析中。并将生产异常诊断的数字化模型嵌入到异常报警系统中,实现生产异常的提前预告和报警。

 

针对半导体企业晶圆良率在线准确预测和分析调控需求,考虑晶圆制造过程中质量监控数据具备的大数据特征,融合大数据思维与深度学习理论,通过多尺度分类、增量式多维索引与关联关系分析等大数据平台技术对各类晶圆质量监控数据进行处理与分析,深度学习晶圆质量监控数据、晶圆良率数据之间的关联关系与作用机理,通过构建晶圆质量监控大数据驱动的晶圆良率预测模型,描述晶圆制造过程中数据的多层次复杂作用关系,及时准确发现制造过程中的深层次质量问题并形成质量调控意见。

 

(2)基于贝叶斯网络学习方法的可靠性指标预测

 

伴随着特征尺寸从“微米级”到“纳米级”的跨越,超大型集成电路(VLSI)的生产工艺也发生了许多根本的变化,随之带来了很多产品及系统可靠性的问题。产品及系统失效具有的随机性导致在对产品可靠性或寿命进行统计推断时需要使用统计的方法。贝叶斯方法能够将从不同的试验获得的信息融合起来,从而实现从不同信息来源的数据中估计产品的可靠性指标;通过贝叶斯方法,专家的知识也可以与试验结果结合起来,共同对产品的可靠性指标做出估计。近年来,随着马尔科夫蒙特卡罗算法的出现,长期以来困扰贝叶斯方法的高维积分计算复杂性问题得到了解决,贝叶斯方法在可靠性领域中得到了越来越广泛的应用。

 

贝叶斯网络(BN)是从贝叶斯方法扩展而来,其本质上是一种概率论与图论相结合的产物,一方面用图论的语言直观揭示问题的结构,另一方面又按照概率论的原则对问题的结构加以利用,降低推理的计算复杂度。BN非常适用于表达和分析不确定性和概率性的事件,有条件地依赖多种控制因素的决策,可以从不完全、不精确或不确定的知识或信息中做出推理,现已成为不确定知识表达和推理领域重要的理论模型。随着人工智能的发展,尤其是机器学习、数据挖掘等学科的兴起,为BN的应用发展提供了广阔的空间。

 

集成电路工艺生产参数复杂,数据繁多,如何建立一个良好的随机变量间的拓扑关系成为问题的难点。因此,首先通过不断迭代和改进确定随机变量间的拓扑关系,形成有向无环图;然后不断训练贝叶斯网络,完成条件概率表的构造。采用贪心算法优化贝叶斯网络结构,要保证它产生的序列从头到尾的可能性最大,并采用蒙特卡洛方法避免贪心算法陷入局部最优。或者利用互信息,只保留信息节点的直接连接,然后在对简化的网络进行搜索,找到全局优化结构。而节点之间弧的权重确定可以通过最大后验估计来得到,使用EM过程(Expectation-Maximization Process)而解决。整个过程,参数和结构交替训练,先优化结构,再优化参数,然后再优化结构,直到得到收敛或误差足够小的模型。从而得到稳定模型,对可靠性指标进行预测。

 

(3)基于异常诊断模型的机台健康状况实时监控方法

 

首先需要对现有半导体设备进行改造,以达成大数据分析的基础条件:① 设备可以按照足够高的频率输出数据,而不影响正常生产相关指令、数据的传输;② 设备数量多,种类亦多,甚至同种类设备所运行软件版本不一,导致输出数据的格式、命名都存在不同的可能,因此需要统一这些内容;③ 海量数据的即时存储;④ 大数据处理速度必须足够高效,起到即时运算出结果,如果需要停机,可以迅速下达停机指令,而不至于造成更多的损失。

 

在此基础上,建立统一的数据收集平台,将工厂内所有设备都纳入到这个平台体系内,实现数据的互联互通,随时可调用。其间涉及到部分高频接口硬件改造,部分设备软件升级,SVID的命名统一等具体事宜。

 

然后基于现有的大数据分析工具对设备传感器数据和产品数据、设备维护周期数据等进行分析,建立数个异常诊断模型覆盖大部分关键设备。

 

最后将异常诊断模型导入监控体系,起到预先警示的功能,真正实现大数据平台的闭环应用。

 

(4)基于多元分析算法的机台R2R控制方法

 

机台R2R控制的技术难点涉及到设备和算法两方面,从知识理论体系来说涉及到物理层面和算法层面。

 

从设备角度来说,需要搭建合适的硬件和软件架构,使得工厂里的机台能够最大程度的将生产参数实时反馈给数据库终端。机台种类的繁多,数据量的庞大,都为这一步骤提供了难度。

 

从算法角度来说,需要考虑如何去收集数据:需要收集哪些数据?采集的频率又应该如何?是否有生产参数是冗余的?有哪些数据的统计量是至关重要的?这些问题,无论在工业还是在学术领域,都为APC-FDC的实施提供了研究方向。另外,收集到数据后,如何去分析?这里可能涉及到数据挖掘界最先进的多元分析算法(MVA)的研究,也会涉及到自动化领域最先进的控制算法的研究,为项目应用最优化的和切合实际的算法增加了难度。

 

针对设备方面的问题,考虑厂内工艺工程师和IT工程师,机台厂商以及软件厂商的紧密合作,对不同的机台设计不同的解决方案。从而尽快将工业互联网的前期准备(例如机台与数据终端之间的通讯),布局到厂内生产线上。

针对算法方面的问题,从工业界实际应用出发,结合半导体产业现状,积极的调研世界领先算法,并结合厂内现有的实施情况进行创新。

 

4)晶圆制造车间监控功能模块

 

数据可视化不仅可将最终分析结果的展示给用户,还可以帮助数据分析师来进行数据探索来发现和解决新问题。通过图形化的呈现,使得基于大数据分析的生产过程监控和优化更易被理解和接受,从而将大数据的潜在价值最大化。项目基于HTML5、CSS3、JavaScript等技术,通过对统计数据的分析、集成,实现跨平台的可视化交互与展现,提供多类型的可视化组件,如适用于常用数据的比较的柱状图、曲线图、饼状图等,适用于单个指标展示的仪表盘、温度计、能量条、进度条等,适用于元素之间关系强弱比较的弦图,适用于以时间为变化维度数据的时间轴等。