# サイクルレベルの空間及び時間冗長化技術を融合させた高信頼プロセッサの提案

A Reliable Processor Based on Cycle Level Fusion of Space and Time Redundancy Techniques

渡邊良二<sup>†1</sup>姚駿<sup>†1</sup>中田尚<sup>†1</sup>Ryoji WATANABEJun YAOTakashi NAKADA嶋田創<sup>†1</sup>中島康彦<sup>†1</sup>Hajime SHIMADAYasuhiko NAKASHIMA

### 1. はじめに

近年,半導体製造技術の微細化が進むにつれ,ビット反転 に必要な最小電荷量が減少し,内外ノイズの影響によって発 生したビット反転により,回路が一時的に誤動作を起こす一 時故障の発生増加が懸念されている<sup>1)</sup>.また,半導体の微細 化による製造ばらつきの増加で正確な加工が困難となり,同 時にチップ内配線も微細化するため断線が発生しやすくなり, 永久故障の発生増加も深刻な問題となる<sup>2)</sup>.そこで,故障の 増加という問題を解決しシステム性能の継続的な改良を進め ていくために,空間冗長化や時間冗長化などの冗長化技術<sup>3)</sup> を用いて,故障を許容するような設計を採り入れたプロセッ サが多数提案されている<sup>4)-7)</sup>.

空間冗長化の中で幅広く使われている技術に Dual Modular Redundancy (DMR), Triple Modular Redundancy (TMR)がある.DMRでは2つの同一の回路からの出力を 比較することにより故障を検出する.一時故障であれば,正 常な状態からの再実行によって,正常な動作を続けることが できる.また,TMRでは3つの同一の回路からの出力の多 数決を採ることにより,故障の発生を隠蔽して実行を続ける ことができる.この構成は,一時故障のみならず,永久故障 の発生時にも正常な動作を続けることができる点でも優れて いる.これらの構成の欠点として,回路面積や実行時の消費 電力が2倍,3倍になるという点がある.

この問題を緩和するために,我々は文献4)においてパイプ ライン・レベルでの多重化度を動的に変更可能にすることに より,信頼性を確保するために必要な電力コストを削減する ことのできる Dynamic Adaptive Redundant Architecture (DARA)を提案した.また,我々は文献8)において,DARA のパイプライン構成を元に,本来多重化に用いられる2本の パイプラインを協調動作させることによって1つのスーパス カラ・プロセッサとして動作させ,処理性能を向上する方法 を示した.

本稿ではこれまでの研究を発展させ,DARAの空間冗長化 技術に時間冗長化技術を融合させ,DMRと同等の信頼性を 持ち,文献8)のスーパスカラ構成に近い性能を発揮する新し い構成を提案する.そして,この構成が面積性能比に優れる

†1 奈良先端科学技術大学院大学 Nara Institute of Science and Technology ことを,回路合成結果とソフトウェア・シミュレータによる プロセッサ性能評価結果によって示す.以下では,2章にお いて先行研究について紹介し,3章において提案構成につい て紹介する.そして,4章で提案構成について評価結果を示 し,5章でまとめと今後の課題を述べる.

### 2. 先行研究

これまでに,時間冗長や空間冗長を応用したプロセッサが 多数提案されている.AR-SMT<sup>5)</sup>では時間冗長の技術を用い, 単一の SMT (Simultaneous Multi-Threading) プロセッサ によって,スレッド・レベルでの時間冗長実行を行い故障検 出/訂正を可能にしている.また,空間冗長化を用いたプロ セッサとして, IBM の Z990<sup>6)</sup> では複製されたフェッチ・ユ ニット,デコーダ,実行ユニットで同一の処理を実行し,実行 結果をチェックポイントアレイもしくはキャッシュにコミット する際に比較することによりエラー検出を行う. CRTR<sup>7)</sup>で は CMP (Chip Multi-Processor)内の異なるプロセッサを 用いて,先行スレッド,追従スレッドと呼ばれる同一スレッ ドを実行し,結果を比較することにより故障の検出を行う手 法が提案されている.また,我々は文献4)において,必要と される信頼性に応じて多重化に用いる回路数を動的に変更す ることによって,信頼性を確保するために必要な平均の電力 量を削減する DARA を提案しており,次節で本研究のベー スとなる DARA の詳細を述べる.

2.1 DARA による高信頼実行

DARA は空間冗長化の代表的な手法である DMR, TMR を応用したプロセッサである.図1にDARAの概略図を示 す.DARA は,命令フェッチ(IF),命令デコード(ID), レジスタ値読み込み(RR),実行(EX),メモリアクセス (MA),レジスタ値書き戻し(WB)の6ステージのパイプ ラインが複数集まって構成される.各パイプラインは単純な スカラ・パイプラインであり,複数のパイプラインで同一の 処理を実行し,各々のパイプライン・レジスタの値を比較する ことによってステージ・レベルでの故障検出を行う.従って, 各パイプライン・ステージには故障検出を行うために,図1 に示すような,自身と他のパイプラインが保持するパイプラ イン・レジスタの値を比較するための比較器と,自身のパイ プライン・レジスタの値を他のパイプラインに渡すための通 信路を有する.

A-05



DARA の動作モデルを図2に示す. DARA は基本的な動 作モードとして DMR 動作を採用している、図1に示したパ イプライン同士を2つ接続し,同一の処理を実行する.故障 の検出はパイプライン・ステージごとにパイプライン・レジ スタの値を比較することにより,故障の発生した個所と命令 を特定する.DMR 動作中に故障が検出された場合,初期の 対応では故障が検出された命令の再実行を行う(図2(a)). 検出された故障が一時故障である場合, 誤動作を起こした命 令の再実行により訂正できる.しかし,繰返し同一の命令の 再実行を行っても故障を訂正できない場合には,その故障は 永久故障であると判断し動作モードを永久故障箇所特定モー ドに変更する.これは,基本の動作モードである DMR 構成 に,3本目のパイプラインを接続し TMR 構成とするもので ある (図2(b)). TMR 構成において永久故障個所を特定 した後に, 故障パイプラインを切り離し, 再び DMR 構成で 命令の実行を継続する(図2(c)). すなわち, DARA にお いて TMR 構成は,永久故障が発生した個所を特定する場合 にのみ用いられる.従って,DARA では一時/永久故障の両 方に対応可能であり, さらに, つねに TMR 構成とする手法 に比べ,平均の消費電力を抑えることが可能となる.

2.2 DARA による 2-way インオーダ・スーパスカラ実行 我々は文献 8) において, DARA の 2本のパイプラインを 用いて,1つの 2-way インオーダ実行スーパスカラ・プロセッ サを構成する方法を提案した.DARA においてあらかじめ 用意されているパイプラインを2本用いて,故障検出のため に用意されたパイプライン・レジスタの値を他のパイプライ ンに渡すためのネットワークで接続し,協調動作をさせる. スーパスカラ実行を行うためには,新たに次命令フェッチ機 構や,レジスタ・ポート数の追加,その他に,結果フォワー ディングや協調制御機構が必要である.図3に2-wayのイン





オーダ・スーパスカラ動作の実現のために必要な構成の変更 例として,追加された結果フォワーディング・ユニットを示 す.ここで,重要なことはあらかじめ用意されているパイプ ライン・レジスタの値を渡すためのネットワークは,他のパ イプラインからの結果フォワーディングに用いることが可能 であり,その他にも多くの既存パイプライン資源が利用可能 であるため,ハードウェアの追加量を抑えることができると いう点である.

### 3. 空間/時間冗長を融合したプロセッサの提案

DARAでは,故障状況に応じた適応的な多重化を行うことに より一時/永久故障の両方に対応可能であった.また,DARA には豊富なパイプライン資源に加え,各々のパイプライン同 士がネットワークを通じてパイプライン・レジスタの値を伝 搬できるという特徴がある.そこで,本章では上記のような DARAのパイプライン構成を利用し,信頼性を維持しつつ, コスト対性能比を向上させる新しい構成の提案を行う.

**3.1** 提案構成の概要

本節では, DARA のパイプラインを3本接続した構成を もとに,信頼性を維持しながらも,プロセッサの処理性能を 向上する構成を提案する.

DARA において,あらかじめ用意されているパイプライン のうち3本を協調動作させることにより,最大で3命令を同 時に実行できる.そこで,本提案では3本のパイプラインを 用いて,1クロック・サイクル中にデータ依存のない2命令 の同時実行を行う.2命令のうち1命令は複製し,2本のパ イプラインで実行することにより空間冗長実行を適用し,残 りの1命令は次サイクルとの間で時間冗長実行を適用し,残 りの1命令は次サイクルとの間で時間冗長実行を行う.各命 令はフェッチ時にその命令をDMR動作による空間冗長実行 を行うか,1クロック・サイクル分の時間冗長実行を行うか が決まる.以降,パイプラインが空の状態からの実行を例示 する.3本のパイプラインにおいて,最初の命令は複製し2 本のパイプラインを用いて空間冗長実行する.このとき,2 番目の命令は残り1本のパイプラインが利用可能であるため 時間冗長実行の1度目の実行を行う.そして,次のサイクル



図 4 DARA パイプラインを用いた時間冗長実行の構成

において1本のパイプラインを用いて2番目の命令を再度実 行することにより、1クロック・サイクル分の時間冗長実行 を行い故障検出を行う.3番目の命令は最初の命令と同様に, 残りの2本のパイプラインを利用することにより空間冗長実 行を行う.上記のように,空間冗長実行と時間冗長実行を融 合することにより、3本のパイプライン資源を最大限利用し, 信頼性を維持しながら性能を向上する構成を提案する.

本節では,まず DARA のパイプラインでの時間冗長実行 の実現について説明し,続いて3本のパイプラインを協調動 作させることによって,信頼性を維持し性能を改善する提案 構成の詳細とその動作例について示す.

3.1.1 サイクルレベル時間冗長実行の追加

本項では, DARA のパイプラインにおいてサイクル・レ ベルの時間冗長実行を実現する方法について述べる.図4に DARA のパイプラインをもとに構成した時間冗長実行パイプ ラインを示す.時間冗長実行実現のため,もとのパイプライ ン構成に対してディレイ・バッファ(Delay Buffer)が追加 されている.時間冗長実行パイプラインでは,フェッチされ た命令と同一の命令を,次のサイクルにもう一度フェッチし 1 サイクル分だけ遅れた時間冗長実行を行う. 最初に実行す る命令を先行命令 (Leading instruction), 続いて実行す る冗長命令を追従命令 (Trailing instruction)と呼ぶ.時 間冗長パイプラインでは,各ステージで実行された先行命令 の結果をディレイ・バッファに蓄える、そして、次のサイク ルに実行される追従命令の結果と,ディレイ・バッファ内に 蓄えられている先行命令の結果を比較することによって故障 検出を行う.なお,パイプライン・レジスタとディレイ・バッ ファの内容の比較は,通常の DARA の動作と同様に次のス テージで行われる.これは,各ステージのクロック・サイク ル時間を増加させないためである.



3.1.2 3本のパイプラインを利用した空間及び時間冗長を 融合したスーパスカラの構成

3.1.1 項で提案したパイプラインの時間冗長実行, 文献 8) で提案した2本のパイプラインを用いたスーパスカラ実行の アイデアを用いて,3本のパイプラインを用いた信頼性/性能 を両立するアーキテクチャを構成する.

図 5(a)に提案構成の構成図を,図5(b)に各パイプラ イン・ステージでの命令の実行モデルを示す.図5(a)に示 すように,パイプラインAは空間冗長実行を行う命令のみで 用いられ,パイプラインB,Cは空間冗長実行と時間冗長実 行を行う命令の両方で用いられる.また,図5(b)の中で空 間冗長実行されている命令は i1, i3, i4, i6, i7, i9 であり, 時間冗長実行されている命令は i2, i5, i8 である.図5(b) に示すように,命令i2,i5,i8は異なるパイプラインを用い て時間冗長実行されている.このように,異なるパイプライ ンで時間冗長実行を行う理由は, 3.1.1 項で示したような, 同 一のハードウェアで1クロック・サイクル分のみ間隔をあけ て時間冗長実行を行った場合,組み合わせ回路やラッチの一 時的なビット反転が複数サイクルにわたって生じる場合に対 応できないためである.複数サイクルにおよぶビット反転は 半導体製造技術の微細化に伴って増加すると考えられており、 永久故障発生時も同様に時間冗長実行では対応できない.す なわち,このような複数サイクルに及ぶ一時故障や,永久故 障を検出できない状況を回避するために時間冗長実行におけ る先行命令,追従命令を異なるパイプラインで実行する構成 を採用する.

こうして構成された図 5(b)のような実行モデルにより, 命令ごとに空間冗長,時間冗長どちらかの冗長実行を適用す ることによって,命令の実行における誤動作を検出し,信頼 性を保証する.また,本構成では図 5(b)に示すような動作 を行うことによって,最大で2クロック・サイクル(CC)あ たり3命令実行可能(最大 IPC1.5)なスーパスカラ・プロ セッサの構成にもなっており,処理性能も改善することがで きる.

3.2 提案構成の動作モデル

本節では, 3.1.2 項で構成した提案構成が, 実際にどのよう

| CC1                                                | Pipeline                             | CC2 Pipeline                                                |  |  |  |
|----------------------------------------------------|--------------------------------------|-------------------------------------------------------------|--|--|--|
|                                                    | A B Delay C Buffer C                 | A B Delay C<br>Buffer C                                     |  |  |  |
| IF                                                 | i1 <b>≕ i1</b> i2 <sup>®</sup> ⇐ i2  | IF = i3 i2 == i2 <sup>B</sup> i3 =                          |  |  |  |
| မ္မ ID                                             |                                      | ଞୁ iD i1 <b>== i1</b> i2 <sup>®</sup> ⇐ i2                  |  |  |  |
| to RR                                              |                                      | RR RR                                                       |  |  |  |
| EX                                                 |                                      | EX                                                          |  |  |  |
| CC3                                                | Pipeline                             | CC4 Pipeline                                                |  |  |  |
|                                                    | A B Delay C Buffer C                 | A B Delay C<br>Buffer C                                     |  |  |  |
| IF                                                 | i4 <b>==</b> i4 i5 <sup>®</sup> ⇐ i5 | IF = i6 i5 == i5 <sup>®</sup> i6 s                          |  |  |  |
| age ID =                                           | ŧ i3 i2 == i2 <sup>B</sup> i3 ≠      | ພູ ID i4 =≑ i4 i5 <sup>®</sup> ⇐ i5                         |  |  |  |
| tr RR                                              | i1 <b>≕</b> i1 i2 <sup>®</sup> ⇐ i2  | <sup>to</sup> RR <b>=</b> i3 i2 <b>=</b> i2 <sup>B</sup> i3 |  |  |  |
| EX                                                 |                                      | EX i1 == i1 i2 <sup>B</sup> $\Leftarrow$ i2                 |  |  |  |
| in : Leading instruction in : Trailing instruction |                                      |                                                             |  |  |  |
| in <sup>B</sup> :                                  | Copy of Leading instruction          | ==: Compare 🔿 : Copy                                        |  |  |  |

図 6 提案プロセッサ内の実行命令の流れ

に命令を実行しているのかについて説明する.続いて,時間 冗長実行による性能低下を最小限に抑えるためのデータ依存 や分岐命令の取り扱い方について説明を行う.

### 3.2.1 通常動作

提案構成における命令の実行モデルについて説明する.図6 に提案構成のクロック・サイクル(CC)ごとの命令の実行状 況を示す.まず,図6のCC1においてパイプラインA,Bで は同一の命令 i1 がフェッチされ,パイプライン C では次の命 令 i2 がフェッチされる.このとき,パイプライン C でフェッ チされた先行命令 i2 の結果はディレイ・バッファに蓄えられ る.次に, CC2 においてパイプライン A, C では次の命令 i3 がフェッチされるが,パイプラインBでは再度i2が追従命令 としてフェッチされる.このとき,ディレイ・バッファに蓄 えられていた先行命令 i2<sup>B</sup> とフェッチしてきた追従命令 i2 を 比較することによって,フェッチした命令の正しさを確認す る. CC3 においても同様に, CC2 のパイプライン C の ID ステージでディレイ・バッファに保存された i2 の先行命令の 結果と, CC3 のパイプライン Bの ID ステージで実行された i2 の追従命令の結果を比較することにより ID ステージの故 障を検出することができる.以降のステージでも同様の処理 により故障を検出することが可能である.故障を検出した場 合,故障が検出された命令と,後続命令をすべてフラッシュ し,命令を再実行する.

### 3.2.2 命令間に依存関係がある場合

AR-SMT や CRTR では,時間冗長実行する命令において, 最初に実行した命令の結果の正しさを確認する前にその結果 を投機的に用いることにより,命令間に存在する依存関係等 を解消し,性能低下を最小限に抑える手法が採られている. そこで,本提案構成においても同様に命令間に依存関係があ る場合に時間冗長パイプラインで実行された先行命令の結果 を,正確性が確認される前に投機的に後続の命令で用いるこ



# とによって,性能低下を最小限に抑える手法を用いる.

まず,図6のCC4において時間冗長実行しているi2と, 空間冗長実行している i3 の間にデータ依存がある場合を考え る.i2の実行結果の正確性を確認後にi3がi2の結果を用い るためには,まず CC4 の次のサイクル CC5 において EX ス テージで実行される i2 の追従命令とディレイ・バッファ内の i2の先行命令の結果を比較し,命令i2の演算結果が正しいこ とを確認する.その後, CC6 において i3 に正しいことが確 認された i2 の結果をフォワーディングすれば, i3 に使われる フォワーディング・データは正しいと言える.しかし,i3は CC5 で実行される i2 の追従命令の演算が完了した次のサイ クル CC6 で実行されるため, i2 の時間冗長実行によって1 サイクル分性能は低下する. そこで, CC4 において演算され た i2 の先行命令の結果を i3 にフォワーディングし, CC5 で そのデータを用いて i3 の演算を行えば1 サイクル分の性能低 下を防止することができる.この場合,i2の先行命令からの フォワーディング・データは正しさが確認されていない.し かし, i2 の先行命令の演算結果が間違っていた場合には CC5 で実行される i2 の追従命令との結果比較により誤動作は検出 できる.従って,i2及びその後続命令はすべてフラッシュさ れ,再びi2のフェッチから行われるため,投機的にデータを フォワーディングすることによる信頼性への影響はなく,性 能低下も防止できる.

次に,図7において空間冗長実行しているi1と,時間冗 長実行しているi2の間にデータ依存がある場合を考える.こ の場合,i1は空間冗長実行されているため,結果を投機的に フォワーディングすることができず,i2は必ずストールしな ければならない.そこで,このような場合にはi1とi2の間 の依存関係を CC2の ID ステージにおいて,デコードした結 果から検出し,図7の CC3に示すようにi2を時間冗長実行 から空間冗長実行に切り替える.CC2から CC3にかけて先 行命令i2をパイプラインCからパイプラインBに移すこと は,パイプライン・レジスタの値を渡すための通信路を用い ることにより容易に実現でき,他の命令も同様の方法でパイ プライン間を移動することができる.

### 3.2.3 分岐命令

時間冗長実行している命令が分岐命令の場合は 3.2.2 項で 述べた,命令間に依存関係がある場合と同様に投機的な実行 を行うことにより性能低下を防ぐことができる.図6のCC4



において i2 が分岐命令である場合, CC4 で実行される i2 の 先行命令の分岐先アドレスの計算結果から投機的に次の命令 のフェッチを開始することによって 1CC 分の性能低下を防止 できる.投機的に分岐した後に, CC5 で実行される i2 の追 従命令によって計算された分岐先アドレスと, CC4 でディレ イ・バッファに蓄えられた i2 の先行命令の分岐先アドレスを 比較することにより誤動作は検出できる.すなわち, データ 依存の場合と同様に,結果が間違っていれば後続の命令をす べてフラッシュし,再実行を行うことによって投機的実行に よる信頼性への影響はない.

4.評価

3章で提案した構成について面積及び性能について評価を 行い,提案構成の有効性について検証する.

### 4.1 面積評価

本節では3章において提案した構成について面積評価を行う.提案構成の基本となる DARA の各パイプラインは,命 令長16-bitのRISC命令セットをもとに6ステージで設計さ れている.命令/データ・キャッシュは共用されており,今回 使用したキャッシュ・サイズは4Kbyteと設定した.上記のよ うに設計されたDARAのパイプラインをもとに,文献8)で 提案したDARAの2本のパイプラインをもとにした2-way インオーダ・スーパスカラ構成と,3.1.2項で構成を提案し た信頼性/性能を両立する提案構成について面積評価を行っ た.RTL 実装には Verilog-HDLを用い,Synopsys Design CompilerにおいてRohm 0.18µm cell libraryを用いて論理 合成を行った.

図8に各パイプライン構成において,パイプライン・ステージ単位で論理合成を行った結果を示す.また,表1に各々の構成における面積を,DARAのベース・パイプラインを基準として比較した結果を示す.図8の結果からDARAのベース・パイプラインから2-wayのインオーダ・スーパスカラにするためには,新たに次命令フェッチや結果フォワーディングなどのハードウェアが必要なためIF,RR,EXステージ

表 1 DARA をベースとしたの面積比率評価

|                    | 評価値     |       |           |  |
|--------------------|---------|-------|-----------|--|
| Pipeline 構成        | ゲート数    | 比率    | バッファ追加に   |  |
|                    | (NAND2) |       | よる増加率 (%) |  |
| DARA               | 74583   | 100.0 | _         |  |
| + Superscalar 化の資源 | 84455   | 113.2 | _         |  |
| + Superscalar 化の資源 |         |       |           |  |
| + 全パイプライン・         | 91908   | 123.2 | 10.0      |  |
| レジスタ分のバッファ         |         |       |           |  |

で面積の増加が見られ,パイプライン全体として 13.2%の面 積増加となった.特に RR ステージでは,スーパスカラによ る2命令の同時実行を実現するために必要なレジスタ・ポー ト数の追加が影響し,39.6%の面積増加が発生した.

続いて,3.1.1 頃で述べた,時間冗長実行を実現する構成を 検討する.表1よりすべてのパイプライン・レジスタと同一 のサイズのディレイ・バッファを用意し,時間冗長実行を実 現するには,ディレイ・バッファの追加によって10.0%分の 面積増加が必要である.すなわち,提案構成を実現するため には DARA のペース・パイプラインに対し,ディレイ・バッ ファに加えスーパスカラ化の資源も必要であるため,合計で 23.2%の面積増加が必要であることが分かった.

#### 4.2 性能評価

本節では,3.1 節において提案した,2 サイクルで3 命令 実行可能な提案構成が,DARAのベース・パイプライン構成 や通常の2-wayインオーダ・スーパスカラ構成に対してどの 程度の性能向上を達成できるのかを検討する.性能評価では, 上記の各構成に対するサイクル・アキュレートのソフトウェ ア・シミュレータと Stanford ベンチマークを用いて評価した.

図9に各構成においてベンチマークを実行した結果を示す. 図 9 から, 各構成での平均の IPC を見ると, 2-way インオー ダ・スーパスカラ構成では DARA のベース・パイプライン構 成に対し 29.4%性能が向上しており,提案構成では 21.3%性 能が向上した.すなわち,この結果から2サイクルで3命令 実行できる提案構成では, 2-way インオーダ・スーパスカラ構 成での性能改善率に対して,73.3%分の性能改善を達成できて いることが分かった.さらに,図9において,各ベンチマーク における 2-way インオーダ・スーパスカラ構成の性能と提案 構成の性能について見ると, Intmm, Trees では提案構成と 2-way インオーダ・スーパスカラ構成においての性能差は殆 どないことが分かる.しかし, Bubble, Towers, Perm にお いては比較的大きな性能差が見られる.この原因は,DARA のベース・パイプライン構成での性能と 2-way インオーダ・ スーパスカラ構成にした場合の性能の改善度に着目すると, Bubble, Towers, Perm においては性能が大幅に改善されて おり,プログラム中の命令レベル並列度が高く2命令同時実 行できるパターンが多く存在していることが分かる.しかし ながら,提案構成においては2サイクルで3命令実行という 制約があるために, 2-way インオーダ・スーパスカラ構成で は2命令同時実行できる状況においても,提案構成では2命



表 2 提案構成の面積性能比評価

|             | 評価値     |        |        |  |
|-------------|---------|--------|--------|--|
| Pipeline 構成 | ゲート数    | 平均 IPC | 面積性能比  |  |
|             | (NAND2) |        | (正規化値) |  |
| 提案構成        | 275724  | 0.947  | 0.660  |  |
| DMR-スーパスカラ  | 337820  | 1.011  | 0.575  |  |

令を同時に実行できない場合がある.そのため, 2-way イン オーダ・スーパスカラ構成で同時実行できる命令の割合が増 えるにしたがって、提案構成では同時実行できない状況が増 え,性能に差が生じたと考えられる.

### 4.3 提案構成の面積性能評価

DARA のパイプライン構成を利用して信頼性を維持し,性 能を改善する単純なアイデアとして,3.1節で提案した構成の 他に4本のパイプラインを用いて性能を改善する構成がある. まず,4本のパイプラインのうち2本ずつをペアとして2本 の DMR 構成のパイプラインを作る.そして,2本の DMR パイプラインを文献 8) で提案した方法により 2-way インオー ダ・スーパスカラ化することにより, すべての命令で空間冗 長実行を行えるため信頼性を低下することなく、さらに性能 も改善できる.

本節では,4本のパイプラインを利用した構成をDMR-スー パスカラ構成と呼び,3.1節で提案した提案構成と共に面積性 能比を評価した.3本のパイプラインを利用した提案構成で は,3本すべてのパイプラインにスーパスカラ実行と時間冗 長実行の機能を持たせた構成を提案構成として評価を行った.

表2に各構成での面積性能比の評価結果を示す.表2にお ける面積性能比は, DARAの基本構成である DMR 構成の性 能,面積で正規化した値となっている.この結果から各構成 における面積性能比は提案構成で 0.660, DMR-スーパスカラ 構成では 0.575 と,提案構成は 4本のパイプラインを用いて 単純な空間冗長構成とする構成に比べ面積性能比が14.9%良 いことが分かった.

5. ま と め

本稿では, 冗長化度変更可能なアーキテクチャである DARA

のパイプライン構成をもとに拡張を行い,3本のパイプライ ンを利用して信頼性を維持しながら,性能を改善できる新し い構成の提案を行った.面積評価において DARA のベース・ パイプラインに対し,時間冗長実行とスーパスカラの機能を 付け加えるためには,パイプラインの面積が23.2%増加する ことを確認した.また,面積性能比の評価において,提案構 成は単純に空間冗長化によって信頼性を確保し,性能を改善 する DMR-スーパスカラ構成に比べ面積性能比を 14.9% 改善 することができた.

今後の研究において,複数パイプラインを協調動作させた 場合のクリティカル・パスの増加や,時間冗長実行のための 最適なバッファ配置などの検討を行っていく予定である. 謝 宼

本研究の一部は科学技術振興機構・戦略的創造研究推進事 業の協力により行われたものである.また,本研究は東京大 学大規模集積システム設計教育研究センターを通し,シノプ シス株式会社,日本ケイデンス株式会社,ローム株式会社の 協力で行われたものである.

## 参考文献

- 1) P. Shivakumar, et al. "Modeling the Effect of Technology Trends on the Soft Error Rate of Combinational Logic", In Proceedings of the 2002 International Conference on Dependable Systems and Networks, pp. 389-398, 2002.
- 2) J. Srinivasan, et al. "The Impact of Technology Scaling on Lifetime Reliability", In Proceedings of the 2004 International Conference on Dependable Systems and Networks, pp. 177-186, 2004.
- 3) S. Mitra, et al. "Robust System Design with Built-In Soft Error Resilience", IEEE Computer, vol. 38, no. 2, pp. 43-52, 2005.
- 4) Jun Yao, et al. "A Scalable Pipeline Design for Modularizing High Dependable Framework via Spatial Redundancy", In Proceedings of the DA symposium 2008, pp. 169-174, 2008.
- 5) F. Rotenberg, et al. "AR-SMT: A Microarchitectural Approach to Fault Tolerance in Microprocessors", In Proceedings of the 29th Annual International Symposium on Fault-Tolerant Computing, pp.84-91, 1999.
- 6) P. Meaney, et al. "IBM z990 soft error detection and recovery", In Proceedings of the IEEE Transactions on Device and Materials Reliability, vol. 5, no. 3, pp. 419-427, 2005.
- 7) M. Gomaa, et al. "Transient-Fault Recovery for Chip Multiprocessors", In Proceedings of the 29th International Symposium on Computer Architecture, pp. 98-109. 2003.
- 8) R. Watanabe, et al. "Implementation and Evaluation of Superscalar Processor Based on Dynamic Adaptive Redundant Architecture", In Proceedings of COOL Chips XIII, pp. 195, 2010.