banner
ホームページ / ニュース / データ
ニュース

データ

Apr 10, 2023Apr 10, 2023

Scientific Reports volume 13、記事番号: 7517 (2023) この記事を引用

402 アクセス

1 オルトメトリック

メトリクスの詳細

一部の材料処理では、高い生産性で材料製造を完全に自動化することが重要な問題となります。 シリコンなどの半導体ウェーハの製造プロセスであるフローティングゾーン(FZ)結晶成長では、オペレータが結晶成長プロセスの状態に応じて入力パラメータを適応的に制御します。 FZ 結晶成長の操作ダイナミクスは複雑であるため、自動化が困難な場合が多く、通常、プロセスは手動で制御されます。 ここでは、少数の軌道からガウス混合モデリング (GMM) によって予測されたダイナミクスを使用した強化学習による FZ 結晶成長の自動制御を実証します。 私たちが提案する制御モデルの構築方法は完全にデータ駆動型です。 FZ結晶成長用のエミュレータプログラムを用いて、提案モデルで構築した制御モデルが人間の操作で作成したデモンストレーション軌跡よりも正確に理想的な成長軌跡をたどることができることを示します。 さらに、実証軌道付近での政策最適化により、理想軌道に追従した正確な制御が実現されることを明らかにする。

情報学の応用により、材料加工における効率的な最適化、自動化、進歩を実現できるようになりました1、2、3、4、5、6、7、8、9。 材料処理のための条件と環境の設計は、ニューラル ネットワークまたは他の機械学習アルゴリズムによって構築された代理モデルを使用して効率的に最適化されています1、2、6、10、11、12、13。 ベイジアン最適化は、材料加工に有利な条件を取得するための試行回数を首尾よく減らすことができます14、15、16、17。 一方で、材料加工の中には、稼働中に得られる情報に応じて手動で制御する必要があり、自動化が難しいものもあります。 たとえば、シリコンウェーハや、半導体、酸化物、金属、金属間化合物などのさまざまな種類の結晶材料の製造に使用されるフローティングゾーン(FZ)結晶成長では、オペレータは入力パラメータを適応的に制御して、好ましい条件を維持します。チャンバー内の融液の状態を監視することによる単結晶成長18、19、20、21、22、23、24、25、26、27、28。 本研究では、少数の運転軌跡からFZ結晶成長を自動運転するための制御モデルを構築することを目的とした。

FZ結晶成長は、溶融領域に異物が接触することなく高純度のシリコン単結晶を製造するために開発されました。 高純度の結晶を育成できる利点があるものの、チョクラルスキー法などの他の結晶育成法に比べて結晶径を大きくすることが難しい。 比較的小さなシリコンウェーハは、RF加熱を使用したFZ結晶成長によって製造されます。 図 1 に FZ 結晶成長の模式図を示します。 この方法では、多結晶ロッドの一部を加熱して FZ 溶融物を生成し、上部 (フィード) ロッドと下部 (シード) ロッドを下方に移動して表面張力によって FZ 溶融物を維持します。 最後に、結晶はシードロッド上で成長します。 オペレーターは、FZ 溶融物が分離したり滴り落ちたりしないように、加熱出力やフィードロッドの速度などの入力パラメーターを制御します。 また、単結晶を得るには、まず結晶径を小さくする一定の形状を形成し(ネッキングといいます)、その後結晶径を大きくする必要があります。 入力パラメータに依存する溶融状態のダイナミクスは非線形で複雑であるため、他の結晶成長法で達成されているように、FZ 結晶成長プロセスをシミュレートすることは困難です 29、30、31、32、33。 したがって、FZ 結晶成長のダイナミクスを動作軌跡から予測する必要があります。 FZ結晶成長のための多数の操作軌跡を取得することは困難であるため、私たちは最近、FZ結晶成長のダイナミクスを予測するための混合ガウスモデル(GMM)の適応を提案し、GMMが使用されたわずか5つの軌跡から操作軌跡を正確に予測できることを実証しました。トレーニング用34。 本研究では、近接政策最適化(PPO)とGMMで予測されるダイナミクスを用いた強化学習により制御モデルを構築した。

フローティングゾーン結晶成長の概略図。 高さ h の浮遊ゾーン溶融物がヒーター出力 P によって形成されます。直径 d0 の原料と結晶は、それぞれ速度 v と u0 で下方に移動します。 その結果、直径dの結晶が成長する。

少数の実証軌道による FZ 結晶成長の制御のために、GMM によって予測されたダイナミクスを使用した PPO による強化学習を適用しました。 ここでは文献 35 に基づいて GMM と PPO を組み合わせた FZ 結晶成長の制御モデルを構築する方法について説明します。 時間 (t + 1) における浮遊ゾーン融液の状態。成長結晶の高さ (h) と直径 (d) から構成されると仮定され、st+1 = (ht+1, dt) と表されます。 +1) は、時間 t (st) での溶湯の状態と、出力 (P) やフィードの移動速度 (v) などの入力パラメータによって決定され、at = ( pt、vt)。

f は、FZ 結晶成長の真のダイナミクスを表します。 デモンストレーション軌跡から GMM が構築されると、時間 (t + 1) での融液の状態は、時間 t での融液の状態と入力パラメーターによって予測できます。

サーカムフレックス (^) は値が予測されていることを表し、\({\varvec{f}}_{{{\varvec{GMM}}}}\) は GMM によってトレーニングされたダイナミクス モデルを表します。 GMM のトレーニングの詳細については、参考文献に記載されています。 34. PPO では、パラメーター化されたポリシー関数 \(\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\ varvec{t}}} {|}{\varvec{s}}_{{\varvec{t}}} } \right)\) パラメータ ベクトル \({\varvec{\theta}}_{{\varvec) {p}}}\) は、現在の状態 xt から確率分布として入力値を生成し、クリップされた代理目的 \(L^{CLIP} \left( {{\varvec{\theta}}) を使用して反復的に最適化されます。 _{{\varvec{p}}} } \right)\) の代わりにポリシー勾配 35、36、37。

\(\in\) は、クリップ領域を決定するハイパーパラメータです。 \(A\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) はアドバンテージ関数は次のように説明されます。

ここで \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) は状態アクション値関数、\(V\left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) は状態値関数です。 ここでは、近似的に \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) と表します。 \) 次のように:

ここで \(R_{t} \left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) と γ は、それぞれ報酬関数と割引係数です。 アドバンテージ関数は、入力値 \({\varvec{a}}_{{\varvec{t}}}\) が \({\varvec{s}} で記述される溶融状態の下で設定されるアクションかどうかを表します) _{{\varvec{t}}}\) が望ましいです。 アクションが好ましい場合、アドバンテージ関数は正の値をとり、確率比 \(r_{t} \left( {{\varvec{\theta}}_{{\varvec{p}) が増加するようにポリシーが更新されます。 }} } \right)\) サロゲート目標を最大化することによって。 一方、有利な関数は負の値をとり、アクションが好ましくない場合には確率比を下げるようにポリシーが更新される。 ポリシーとダイナミクスが与えられた条件下で、状態シーケンスが確率分布として生成され、状態値関数を計算できます。

ここで、T は軌跡の長さであり、期待値は状態シーケンスの確率分布に対して計算されます。 PPO では、ポリシーを割り当てることなく、トレーニング データから状態値関数が予測されます。 したがって、予測された状態値関数は \({\varvec{\theta}}_{{\varvec{v}}}\) \(\left( {\hat{V}_{{{\varvec{ \theta}}_{{\varvec{v}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)} \right)\) は次のように最適化されます。二乗誤差損失 \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\);

状態値関数が予測されると、アクション値関数 \(\left( {\hat{Q}\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec {a}}_{{\varvec{t}}} } \right)} \right)\) と利点関数 \(\left( {\hat{A}_{t} } \right)\) は次のようになります。 eqs によっても予測されます。 それぞれ(6)と(5)。 クリップされたサロゲート目標と状態値関数エラーに加えて、十分な探索を確保するためにエントロピー ボーナスが追加され、PPO38 の反復ごとに次の目標が最大化されます。

ここで、c1 と c2 は重みです。 \(L^{CLIP} \left( {{\varvec{\theta}}_{{\varvec{p}}} } \right)\) を最大化することは、最適化されたポリシー \(\pi_{{{\varvec) を取得することを意味します{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\varvec{t}}} {|}{\varvec{s}}_{ {\varvec{t}}} } \right)\) は式 1 で説明されています。 (3)と(4)。 \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\) を最小化すると、ポリシーを次のように仮定せずに状態値関数が予測されることを意味します。式で説明されています。 (8)。 \(S\left[ {\pi_{{{\varvec{\theta}}}_{{\varvec{p}}} }} } \right]\left( {{\varvec{s}}_{{ \varvec{t}}} } \right)\) は、トレーニングの正則化項であるポリシーのエントロピーです。 PPO では、 \({\varvec{\theta}}_{{\varvec{p}}} ,\user2{ \theta }_{{\varvec{v}}}\) が各反復で同時に最適化されます。 ただし、LCLIP は \(A\left( {{\varvec{s}}_{{\varvec{t}}) 経由で \({\varvec{\theta}}_{{\varvec{v}}}\) に依存します。 } ,{\varvec{a}}_{{\varvec{t}}} } \right)\) および LVF は \({\varvec{\theta}}_{{\varvec{p}}}\ に依存します) ) \(V_{\pi } \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) 経由、反復最適化プロセス \({\varvec{\ LCLIP の theta}}_{{\varvec{v}}}\) と LVF の \({\varvec{\theta}}_{{\varvec{p}}}\) は定数値とみなされ、最適化されません、前のステップの値が適用されます。

ポリシーを最適化するには、式 (1) によって状態値関数を計算するためのダイナミクスを指定する必要があります。 (7)。 私たちのアルゴリズムでは、状態値関数の計算に GMM ダイナミクスが使用されました。 したがって、アルゴリズムはシミュレーションを一切行わずに完全にデータ駆動型であり、「sim-to-real」アプローチなどの他の方法とは異なります39,40。 ただし、GMM ダイナミクスは、トレーニング軌道の近傍でのみ実際のダイナミクスを確実に予測できます。 そこで、GMM ダイナミクスが実際のダイナミクスを確実に予測し、実際の FZ 結晶成長に移行できるポリシーを取得する、トレーニング軌道付近のポリシーを最適化する方法を提案しました。 トレーニング軌跡に近いポリシー空間を探索するために、まず、ポリシーをトレーニング軌跡に近づけるために事前トレーニングを実行しました。 次に、直径 \(\left( {d_{t}^{ideal} } \right)\) の理想的な軌道からの誤差に加えて、平均化されたアクション シーケンスからの誤差を報酬関数に導入しました。 提案したアルゴリズムで使用される報酬関数は次のとおりです。

\(\overline{{{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} }}\) と \(\lambda\) はトレーニング軌跡の平均化されたアクション シーケンスを示しますそして重さ。

GMM ダイナミクスを備えた PPO を使用したアルゴリズムによる FZ 結晶成長の自動制御を検証するために、トレーニング用のデータセットを準備しました (\(D = \left\{ {\left( {{\varvec{s}}_{{\varvec{ t}}}^{\user2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} } \right)_{1} ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} 、{\varvec{a}}_{{\varvec{t}}}^{\user2{* }} } \right)_{2} , \ldots ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a} }_{{\varvec{t}}}^{\user2{*}} } \right)_{N} } \right\}\)、N はトレーニング データセットの数です) エミュレータ プログラムの使用による与えられた一連のダイナミクスによる FZ 結晶成長の場合 34。 単結晶成長のネッキングプロセスを考慮して、図2aに示すような理想的な結晶形状\(\left( {d_{t}^{ideal} } \right)\)を作成することを目的とした12のデータセットを準備しました。 図 2b ~ d は、理想的な形状の作成を目的として準備されたデータセットを示しています。 軌道は手作業で作成されたため、それぞれ異なり、理想的な形状に完全には従っていませんでした。

(a) 結晶の直径の理想的な軌道、(b) トレーニング用の直径の軌道、(c、d) フィードのパワーと移動速度の動作軌道。

強化学習の前に、以前に報告したように、GMM による FZ 結晶成長のデータ駆動型予測モデルを構築しました。 GMM のハイパーパラメータであるガウス混合の数は 50 に設定されました。 GMM によるダイナミクスの予測はトレーニング軌跡の近くでのみ信頼できるため、軌跡がトレーニング軌跡から大きく外れる場合、予測の精度は大幅に低下します。理想的な軌道については、「結果と考察」セクションで特に図 4 を詳細に示して説明します。 ランダムなデフォルトポリシーを使用して最適化を開始すると、GMM によって生成された状態シーケンスは実際の状態シーケンスから遠く離れ、図 2a に示す理想的な軌道に到達できなくなります。 そこで、PPO によるポリシーの最適化の前に、トレーニング軌跡を使用して事前トレーニングを実行しました。 事前トレーニングでは、ポリシーはトレーニング軌跡の平均化されたアクション シーケンスに近づくようにトレーニングされました。 次の損失関数は事前トレーニングで最小化されます。

ここで、 σ と \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_ {{\varvec{t}}} } \right)\) は、状態 \({\varvec{s}}_{{\varvec{t}}}^ における分散パラメーターと入力値の予測平均値を表します) {\user2{*}}\) をトレーニング軌跡に追加します。 \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\ varvec{t}}} } \right)\) と \(\hat{V}_{{{\varvec{\theta}}_{{\varvec{v}}} }} \left( {{\varvec {s}}_{{\varvec{t}}} } \right)\) はニューラル ネットワークによってモデル化されています。 隠れ層の数、ノード数、活性化関数はそれぞれ 2、64、双曲線正接 (tanh) です。 ポリシーネットワークの出力層の活性化関数としてシグモイド関数が使用され、状態値関数のネットワークの出力層には活性化関数が存在しない。 両方のネットワークは、出力層を除き、重み値を共有します。 ニューラル ネットワークのトレーニングは、学習率 1 × 10–5、バッチ サイズ 12841 の Adam メソッドによって実行されました。確率的ポリシーは \(\hat{\user2{\mu }}_{{ {\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) と分散パラメーター。

ポリシーと状態値関数を事前トレーニングするための詳細なアルゴリズムをアルゴリズム 1 に示します。ポリシーの事前トレーニング後、式 1 に示す目的を最大化しながら、ポリシーは PPO によって最適化されました。 (8)。 PPO による事前トレーニングとトレーニングに使用されるハイパーパラメーターを表 1 にまとめます。FZ 結晶成長軌道の PPO に関するプログラムは GitHub42 にアップロードされています。

図 3 は、提案アルゴリズムを使用して学習されたポリシーによる自動制御の結果を示しています。 ポリシーのトレーニングは、トレーニング軌跡のみから GMM によって予測されたダイナミクスによって実行されたことに注意してください。 得られた軌道は径的にも理想軌道によく追従している。 表 2 は、PPO および人間による制御 (トレーニング軌道) の直径 d の理想的な軌道からの平均二乗誤差 (MSE) をまとめたものです。 PPO による制御は人間による制御に比べて理想軌道からのずれが小さい。 我々は、いくつかのトレーニング軌道から定義された理想的な形状を持つFZ結晶成長の制御アルゴリズムを構築することに成功しました。

提案したアルゴリズムによって訓練された制御モデルによって生成された直径の軌跡。

PPO 前のポリシーの事前トレーニングは非常に重要です。 事前トレーニングがなければ、ポリシーの学習はまったく進みません。 図 4 は、ランダムに設定された初期値を使用して事前トレーニング後に開始されたトレーニング中の、直径 d の理想的な軌道からの平均絶対誤差の推移を示しています。 事前トレーニングにより、ポリシーは適切にトレーニングされ、反復が増加するにつれてエラーが減少し、飽和状態になりました。 一方、事前トレーニングなしで反復を増やしても、理想的な軌道からの誤差は減少しませんでした。 さらに、生成された軌道に沿った真のダイナミクスからの GMM ダイナミクスの誤差は、事前トレーニング後よりも事前トレーニングなしの方が一貫して高かった。 これらの結果は、事前学習後にポリシー空間が GMM ダイナミクスによって高精度に適切に検索されたことを示しています。

(a) 理想的な軌道からの平均絶対誤差 (MAE)、および (b) 事前トレーニングありおよびなしのトレーニング中に生成された軌道に沿った GMM ダイナミクスの MAE。

理想的な軌道からの誤差に加えて、平均化されたアクションシーケンスからの誤差を追加する報酬関数の設計も、ポリシーの最適化にとって重要です。 式の第 2 項を省略すると、 (11) のように、理想的な軌道からの偏差は、式 (11) で示される提案された報酬よ​​りも大きくなります。 (11)、特に t = 400 および t > 600 付近 (図 5a)。 これらの期間では、方程式の第 2 項を除いた報酬によって生成された軌道に対する GMM ダイナミクスの誤差は次のようになります。 (11) は、報酬関数によって生成された軌道の値よりも高くなります (図 5b)。 これらの結果は、式 (1) に 2 番目の項を追加すると、次のことがわかることを示しています。 (11) は、報酬関数を適切に設定することにより、GMM ダイナミクスを使用したポリシーの最適化を高精度で達成することに成功しました。

(a) 理想的な軌道からの絶対誤差、および (b) 式の第 2 項の有無にかかわらず生成された軌道に沿った GMM ダイナミクスの絶対誤差。 (11) 報酬関数内。

今回の実証は、少数の実証軌跡から提案手法によりFZ結晶成長の自動制御が可能であることを示しています。 我々の手法は GMM によって予測されたダイナミクスに基づいて政策を決定するため、政策最適化の際には生成された軌道を実証軌道に近づける必要があります。 ポリシーの事前トレーニングと報酬関数の適切な設計により、信頼できる予測マージン内で GMM ダイナミクスによるポリシーの最適化が達成されます。 提案手法は、プロセス状態に応じた適応制御が必要な他の材料プロセスにも適用可能です。 今回のデモン​​ストレーションはエミュレータ プログラムによって取得されたデータに基づいていますが、私たちが提案する方法論は実際の FZ 結晶成長でも機能します。

GMMで予測されたダイナミクスを用いたPPOを用いた強化学習により、FZ結晶成長の制御モデルを構築しました。 私たちが提案する手法は完全にデータ駆動型であり、少数の実証軌跡のみから制御モデルを構築できます。 FZ結晶成長のエミュレータプログラムを用いた仮想実験により、この方法を検証しました。 その結果、制御モデルは、人間の操作によって作成された実証軌道よりも、融液直径の理想的な軌道をたどるように正確に動作することが明らかになりました。 我々の手法は GMM によって予測されたダイナミクスに基づいて政策を決定するため、政策最適化の際には生成された軌道を実証軌道に近づける必要があります。 トレーニング軌道に近いポリシーの事前トレーニングと報酬関数の適切な設計により、信頼できる予測マージン内で GMM ダイナミクスによるポリシーの最適化が成功しました。 私たちが提案する手法は、適応的な操作が求められる材料加工の自動化につながり、材料製造における高生産性の実現に貢献します。 実際のFZ結晶成長プロセスは、人間が操作する少数の実証軌道から自動化できることが期待されています。

この研究の結果を裏付けるデータは、合理的な要求に応じて責任著者である SH から入手できます。

角岡 義 ほか結晶成長における数値流体力学シミュレーションの高速予測。 CrystEngComm 20、47 (2018)。

記事 Google Scholar

Dropka, N. & Holena, M. 人工ニューラル ネットワークとガウス プロセス モデルを使用した、磁気駆動によるシリコンの方向性凝固の最適化。 J.Cryst. 成長 471、53–61 (2017)。

記事 ADS CAS Google Scholar

ワン、L.ら。 強化学習を使用したRF-TSSGシステムにおけるSiC結晶成長の最適制御。 クリスタル (バーゼル) 10, 791 (2020)。

記事 CAS Google Scholar

Takehara, Y.、Sekimoto, A.、Okano, Y.、Ujihara, T. & Dost, S. 磁気印加下での炭化ケイ素のトップシード溶液成長プロセスにおける高速かつ均一な結晶成長速度のためのベイジアン最適化圃場と種子のローテーション。 J.Cryst. 成長 532、125437 (2020)。

記事 CAS Google Scholar

Wang、C.、Tan、XP、Tor、SB、Lim、CS 積層造形における機械学習: 最先端の技術と展望。 追記。 メーカー 36、101538 (2020)。

Google スカラー

Yu、W.ら。 機械学習アルゴリズムに基づいた結晶成長システムの幾何学的設計。 CrystEngComm 23、2695–2702 (2021)。

記事 CAS Google Scholar

Kawata, A.、Murayama, K.、Sumitani, S.、Harada, S. SiC ウェーハの複屈折画像における転位コントラストの自動検出アルゴリズムの設計。 日本 J.Appl. 物理学。 60、SBBD06 (2021)。

記事 Google Scholar

原田 S.、辻森 K.、松下 Y. フォトルミネッセンス イメージングとテンプレート マッチング アルゴリズムによる 150 mm SiC エピタキシャル ウェーハの基底面転位の自動検出。 J.エレクトロン. メーター。 52、1243–1248 (2022)。

Google スカラー

辻森 K.、広谷 J.、原田 S. スペクトル ピーク形状の正確な特性評価のための分光データへのベイジアン超解像の適用。 J.エレクトロン. メーター。 51、712–717 (2022)。

記事 ADS CAS Google Scholar

Dropka, N.、Holena, M.、Ecklebe, S.、Frank-Rotsch, C. & Winkler, J. 動的ニューラル ネットワークによる VGF 結晶成長プロセスの高速予測。 J.Cryst. グロース 521、9–14 (2019)。

記事 ADS CAS Google Scholar

Dang, Y. et al. 高速予測のための機械学習を使用した結晶成長の適応的プロセス制御: SiC 溶液成長への応用。 CrystEngComm 23、1982–1990 (2021)。

記事 CAS Google Scholar

磯野正人ほか SiCの溶液成長におけるトポロジカル記述と機械学習による流れ分布の最適化。 上級理論サイマル。 5、202200302 (2022)。

記事 Google Scholar

本田 哲 ほか有形の材料に対するディープラーニングによる仮想実験。 共通。 メーター。 2、1–8 (2021)。

記事 Google Scholar

清水 良、小林 晋、渡邉 裕也、安藤 祐也、一杉 達也、機械学習とロボティクスによる自律的な材料合成。 APLメーター。 8、111110 (2020)。

記事 ADS CAS Google Scholar

宮川 伸、後藤 和、沓掛 和、黒川 裕、宇佐美 直。水素プラズマ処理による TiOx/SiOy/c-Si ヘテロ構造の不動態化性能向上のためのベイジアン最適化の適用。 応用物理学。 エクスプレス 14、025503 (2021)。

記事 ADS CAS Google Scholar

長田和也ほかさまざまな制約下での Si 薄膜のエピタキシャル成長のための適応ベイジアン最適化。 メーター。 今日はコミュ。 25、101538 (2020)。

記事 CAS Google Scholar

若林、YK 他機械学習支援による薄膜成長: SrRuO3 薄膜の分子線エピタキシーにおけるベイジアン最適化。 APLメーター。 7、101114 (2019)。

記事 ADS Google Scholar

Campbell, TA、Schweizer, M.、Dold, P.、Cröll, A. & Benz, KW フロート ゾーン成長と Ge1−xSix (x ⩽10 at%) 単結晶の特性評価。 J.Cryst. グロース 226、231–239 (2001)。

記事 ADS CAS Google Scholar

Calverley, A. & Lever, RF 電子衝撃による高融点金属の浮遊ゾーン溶解。 J.Sci. インストラム。 34、142 (1957)。

記事 ADS CAS Google Scholar

Inui, H.、Oh, MH、中村 A.、山口 M. TiAl の多合成双晶 (PST) 結晶の室温引張変形。 アクタメタル。 メーター。 40、3095–3104 (1992)。

記事 CAS Google Scholar

平野 達人、廻り 達人:フローティングゾーン法による Ni3Al の一方向凝固。 アクタメタル。 メーター。 41、1783–1789 (1993)。

記事 CAS Google Scholar

Balbashov, AM および Egorov, SK 放射加熱による浮遊帯域溶融による酸化物化合物の単結晶の成長のための装置。 J.Cryst. グロース 52、498–504 (1981)。

記事 ADS CAS Google Scholar

Koohpayeh、SM、Fort、D. & Abell、JS 光学浮遊ゾーン技術: 酸化物に特に言及した実験手順のレビュー。 プログレ。 クリスタ。 成長キャラクター。 メーター。 54、121–137 (2008)。

記事 CAS Google Scholar

原田 晋 ほかバルク酸化チタン天然超格子におけるインコヒーレント熱伝導からコヒーレント熱伝導へのクロスオーバー。 Scr. メーター。 208、114326 (2022)。

記事 CAS Google Scholar

Christensen, AN フローティング ゾーン技術による遷移金属化合物 TiC、TiN、および ZrN の結晶成長。 J.Cryst. 『グロース』33、99–104 (1976)。

記事 ADS CAS Google Scholar

Nørlund Christensen、A. 遷移金属ケイ化物 MoSi2 および WSi2 の結晶成長と特性評価。 J.Cryst. グロース 129、266–268 (1993)。

記事 ADS Google Scholar

原田 晋 ほかシリコン空孔が規則的に配列された ReSi1.75 の結晶構造の微細化。 フィロス。 マグ。 91、3108–3127 (2011)。

記事 ADS CAS Google Scholar

原田 晋 ほか熱電レニウムシリサイドにおける空孔と局所的な熱振動の直接観察。 応用物理学。 エクスプレス 5、035203 (2012)。

記事 ADS Google Scholar

Muiznieks, A.、Virbulis, J.、Lüdge, A.、Riemann, H. & Werner, N. シリコンのフローティング ゾーン成長。 結晶成長ハンドブック: バルク結晶成長: 第 2 版 vol. 2 241–279 (エルゼビア、2015)。

ダービー、JJ & ブラウン、RA チョクラルスキーおよび液体カプセル化チョクラルスキー結晶成長の熱毛細管分析: I. シミュレーション。 J.Cryst. グロース 74、605–624 (1986)。

記事 ADS CAS Google Scholar

メジエール、J. et al. 水平ホットウォール反応器コンセプトにおける SiC CVD のモデリングとシミュレーション。 J.Cryst. グロース 267、436–451 (2004)。

記事 ADS CAS Google Scholar

カルポフ、SYu.、マカロフ、Yu. N. & Ramm, MS SiC 単結晶の昇華成長のシミュレーション。 Physica Status Solidi (b) 202、201–220 (2001)。

3.0.CO;2-T" data-track-action="article reference" href="https://doi.org/10.1002%2F1521-3951%28199707%29202%3A1%3C201%3A%3AAID-PSSB201%3E3.0.CO%3B2-T" aria-label="Article reference 32" data-doi="10.1002/1521-3951(199707)202:13.0.CO;2-T">記事 ADS Google Scholar

Dang, Y. et al. 溶液からの結晶成長における溶質蒸発の数値的検討:TSSG法によるSiC成長のケーススタディ。 J.Cryst. 成長 579、126448 (2022)。

記事 CAS Google Scholar

大前 良、炭谷 伸、土佐 裕一、原田 晋。混合ガウスモデルを用いたフローティングゾーン結晶成長の動作ダイナミクスの予測。 科学。 テクノロジー。 上級メーター。 方法 2、294–301 (2022)。

Google スカラー

Schulman, J.、Wolski, F.、Dhariwal, P.、Radford, A.、Openai, OK 近接ポリシー最適化アルゴリズム。 https://doi.org/10.48550/archiv.1707.06347 (2017)。

Schulman, J.、Levine, S.、Abbeel, P.、Jordan, M.、Moritz, P. トラスト地域ポリシーの最適化。 手順マッハ。 学ぶ。 記録 37、1889–1897 (2015)。

Google スカラー

Sutton, RS、McAllester, D.、Singh, S.、Mansour, Y. 関数近似による強化学習のためのポリシー勾配法。 上級神経情報プロセス。 システム。 12、447 (1999)。

Google スカラー

Mnih、V. et al. 深層強化学習の非同期手法。 第 33 回機械学習国際会議、ICML 2016 4、2850–2869 (2016)。

クリスティアーノ、P. et al. 深い逆ダイナミクスモデルの学習を通じて、シミュレーションから現実世界に移行します。 https://doi.org/10.48550/arxiv.1610.03518 (2016)。

Peng, XB、Andrychowicz, M.、Zaremba, W. & Abbeel, P. ダイナミクスのランダム化によるロボット制御のシムからリアルへの移行。 手順 IEEE国際会議ロボット。 オートム。 https://doi.org/10.1109/ICRA.2018.8460528 (2017)。

記事 Google Scholar

Kingma、DP、Ba、JL Adam: 確率的最適化の手法。 第 3 回学習表現に関する国際会議、ICLR 2015 - Conference Track Proceedings (2014) doi:https://doi.org/10.48550/arxiv.1412.6980。

https://github.com/AnamorResearch/fz_rl

リファレンスをダウンロードする

この論文は、JSPS 科研費 JP21H01681 の助成を受けて作成されました。 実際の FZ 結晶成長炉の適用に関して有意義な議論をしていただきましたサンコー株式会社の奥野氏とその同僚に感謝いたします。

Anamorphosis Networks, 50 Higashionmaeda-Cho, Nishishichijo, Shimogyo-Ku, Kyoto, 600-8898, Japan

Yusuke Tosa, Ryo Omae, Ryohei Matsumoto & Shogo Sumitani

名古屋大学 サステナビリティ材料・システム研究所 (IMaSS) 未来エレクトロニクス統合研究センター (CIRFE) 〒464-8601 名古屋市千種区不老町

Shunta Harada

名古屋大学物質プロセス工学科〒464-8603 名古屋市千種区不老町

Shunta Harada

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

SH と SS は、基本的なアイデアと材料プロセスへの応用を概念化しました。 YT は、SS の指導の下、RO の支援を受け、すべての著者と継続的に議論しながら、分析のためのアルゴリズムとプログラムを構築しました。 この原稿は、SH と YT が他の著者全員と話し合いながら書きました。

原田俊太氏への対応。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

土佐 裕也、大前 隆、松本 良 他強化学習によって導出されたフローティングゾーン結晶成長のためのデータ駆動型自動制御アルゴリズム。 Sci Rep 13、7517 (2023)。 https://doi.org/10.1038/s41598-023-34732-5

引用をダウンロード

受信日: 2023 年 3 月 7 日

受理日: 2023 年 5 月 6 日

公開日: 2023 年 5 月 9 日

DOI: https://doi.org/10.1038/s41598-023-34732-5

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。