木村 啓二 (キムラ ケイジ)

写真a

所属

理工学術院 基幹理工学部

職名

教授

ホームページ

http://www.apal.cs.waseda.ac.jp/

兼担 【 表示 / 非表示

  • 理工学術院   大学院基幹理工学研究科

学内研究所等 【 表示 / 非表示

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴 【 表示 / 非表示

  •  
    -
    1996年

    早稲田大学   理工学部   電気工学科  

学位 【 表示 / 非表示

  • Doctor of Engineering

  • 早稲田大学   博士(工学)

経歴 【 表示 / 非表示

  • 2012年
    -
     

    早稲田大学理工学術院 情報理工学科 教授

  • 2005年
    -
    2012年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授

  • 2005年
    -
    2012年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授

  • 2004年
    -
    2005年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 専任講師

  • 2002年
    -
    2004年

    早稲田大学理工学総合研究センター 客員講師(専任扱い)

全件表示 >>

所属学協会 【 表示 / 非表示

  •  
     
     

    ACM

  •  
     
     

    IEEE Computer Society

  •  
     
     

    電子情報通信学会

  •  
     
     

    情報処理学会

 

研究キーワード 【 表示 / 非表示

  • 並列計算機、並列化コンパイラ、計算機科学

論文 【 表示 / 非表示

  • Scalable and Fast Lazy Persistency on GPUs

    Ardhi Wiratama, Baskara Yudha, Keiji Kimura, Huiyang Zhou, Yan Solihin

    2020 IEEE International Symposium on Workload Characterization (IISWC 2020)     252 - 263  2020年10月  [査読有り]

  • Local Memory Mapping of Multicore Processors on an Automatic Parallelizing Compiler

    Yoshitake OKI, Yuto ABE, Kazuki YAMAMOTO, Kohei YAMAMOTO, Tomoya SHIRAKAWA, Akimasa YOSHIDA, Keiji KIMURA, Hironori KASAHARA

    IEICE TRANSACTIONS on Electronics   E103-C ( 3 ) 98 - 109  2020年03月  [査読有り]

  • Compiler Software Coherent Control for Embedded High Performance Multicore

    Boma A. ADHI, Tomoya KASHIMATA, Ken TAKAHASHI, Keiji KIMURA, Hironori KASAHARA

    IEICE TRANSACTIONS on Electronics   E103-C ( 3 ) 85 - 97  2020年03月  [査読有り]

  • Compiler-support for Critical Data Persistence in NVM

    Reem Elkhouly, Mohammad Alshboul, Akihiro Hayashi, Yan Solihin, Keiji Kimura

    ACM Transactions on Architecture and Code Optimization (TACO)   16 ( 4 )  2019年12月  [査読有り]

  • Software Cache Coherent Control by Parallelizing Compiler

    Boma A. Adhi, Masayoshi Mase, Yuhei Hosokawa, Yohei Kishimoto, Taisuke Onishi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   11403   17 - 25  2019年11月  [査読有り]

全件表示 >>

産業財産権 【 表示 / 非表示

  • 並列化コンパイラ、並列化コンパイル装置、及び並列プログラムの生成方法

    6600888

    笠原 博徳, 木村 啓二, 梅田 弾, 見神 広紀

    特許権

  • マルチプロセッサシステム

    6335253

    笠原 博徳, 木村 啓二

    特許権

  • マルチプロセッサシステム

    笠原 博徳, 木村 啓二

    特許権

  • 並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置

    6018022

    笠原 博徳, 木村 啓二, 林 明宏, 見神 広紀, 梅田 弾, 金羽木 洋平

    特許権

  • 並列性の抽出方法及びプログラムの作成方法

    6319880

    木村 啓二, 林 明宏, 笠原 博徳, 見神 広紀, 金羽木 洋平, 梅田 弾

    特許権

全件表示 >>

受賞 【 表示 / 非表示

  • 文部科学大臣表彰科学技術賞(研究部門)

    2014年04月   文部科学省  

共同研究・競争的資金等の研究課題 【 表示 / 非表示

  • 深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

    研究期間:

    2018年06月
    -
    2020年03月
     

     概要を見る

    本研究は、安全な深層学習計算の高速化を目的として、暗号化したまま計算が可能な準同型暗号による行列計算の高速化手法を探求する。研究開始の2018年度は、公開されている準同型暗号計算ライブラリHElibの調査及び深層学習の公開モデルの調査等を行った。最終年度の2019年度では、HElibのボトルネック部分の高速化(1)、データ転送機構の開発(2)、及び行列サイズ削減と推論精度のトレードオフの調査(3)を実施した。(1)に関しては、まずHElibによる行列計算の特に時間を要する部分として、演算中に必要となる鍵変換行列の生成部と暗号文演算部を特定した。各々に対して、演算に要するビット幅削減及びSIMD化による並列演算の導入を適用した。Intel Xeonプロセッサを搭載するサーバで提案手法を評価したところ、鍵変換行列生成部で3.4倍、暗号文演算部では加算処理で5.53倍、乗算処理で3.73倍の性能向上を得た。(2)に関しては、疎行列計算に必要な間接参照アクセスを効率良く処理可能なデータ転送機構を開発した。提案データ転送機構とベクトルアクセラレータを持つマルチコアをFPGA上に実装し、まずは通常の疎行列・ベクトル積を用いて評価を行った。評価の結果、提案データ転送機構を使わずにCPU転送を行った場合と比較して17倍の速度向上を得ることができた。(3)に関しては、行列サイズ削減手法として小規模なニューラルネットワークを複数並列に用いる手法を提案・検討した。提案手法は、ニューラルネットワークを分割することで、認識精度を保ちつつ個々のニューラルネットワークの規模を縮小する。提案手法をFPGAに実装し、作成したニューラルネットワーク8つを並列に用いて推論を行った結果、1つのネットワークを用いた場合と比較して、認識精度で約8ポイント、認識速度でおよそ54パーセントの向上が確認できた

  • フラグによりCPUとアクセラレータが連携するヘテロジニアスマルチコアに関する研究

    研究期間:

    2015年04月
    -
    2018年03月
     

     概要を見る

    本研究では、CPU、アクセラレータ、及びデータ転送ユニットの柔軟な連携を可能とするヘテロジニアスマルチコアのコンパイラ及びアーキテクチャを開発した。本研究による主な成果の一つとして、アクセラレータ用LLVMバックエンドコンパイラを含むコンパイルフローを開発し、コンパイルしたプログラムを開発したFPGAテストベッドで評価したところ、1CPU実行に対して24.91倍の性能向上が得られたことが挙げられる

  • 大規模非線形時空間パターン制御の実時間最適化アルゴリズムと応用

    研究期間:

    2012年04月
    -
    2016年03月
     

     概要を見る

    大規模かつ複雑なシステムでも最適に制御できるよう,非線形最適制御問題を高速に解くアルゴリズムについて研究し,さまざまな分野への応用を検討した.たとえば,大規模システムを制御する場合の最適化計算効率化,制御の応答を見通しよく調整する方法の提案,アルゴリズムのプログラミングを自動化するツールの開発などの成果を得た.そして,熱流体における温度や流速の制御,鉄鋼プロセスにおける製品ばらつきの抑制,高度下水処理施設の水質制御,スマートグリッドにおける需要誘導,浮体式洋上風力発電施設の発電量と動揺の制御など,多岐にわたる問題でアルゴリズムの有効性を示した

  • プログラムの大域的構造を利用したメニーコア・シミュレーションの高速化に関する研究

    研究期間:

    2011年04月
    -
    2014年03月
     

     概要を見る

    本研究では、マルチコア・メニーコアのアーキテクチャシミュレーションにおいて、並列化されたアプリケーションをマルチコア上で実行するという前提の基、シミュレーションの精度を適宜切り替えながら、高速かつ高精度にシミュレーションを行う手法を提案する。本手法を4つの異なる特性を持つアプリケーションを用い、16コアのマルチコアアーキテクチャを想定して評価した結果、最大443倍の速度向上を誤差0.52%で得ることができ、平均では218倍の速度向上を2.76%の誤差で得られることが確認できた

  • ソフトウェア協調整チップマルチプロセッサにおけるデータ利用最適化に関する研究

     概要を見る

    本年度は、昨年度に引き続きソフトウェア協調動作型チップマルチプロセッサ用のデータローカリティ最適化およびデータ転送最適化に関する研究を行なった。本研究では、データを共有するタスク群に着目し、プロセッサコアローカルなキャッシュやローカルメモリのサイズを考慮してこれらのタスクを分割し各プロセッサコアに割り当て、キャッシュやローカルメモリの有効利用を図る。さらに、残存するデータ転送を、プロセッサコアに割り当てたタスクとオーバラップして行うことにより、データ転送オーバヘッドの隠蔽を図る。具体的には、MPEG2エンコーデイング処理やJPEG2000エンコーディング処理などのマルチメディアデプリケーションをターゲットとして、これらのアプリケーションに自動的にデータローカリティ最適化とデータ転送最適化手法を適用し、チップマルチプロセッサ上で効率よく動作させるためのソフトウェア・ハードウェア協調動作技術の開発とその評価を行なった。評価の結果、とりわけMPEG2エンコーディング処理では動作周波数400MHz時で逐次実行に対し8プロセッサ使用時で7.97倍、動作周波数2.8GHz時で逐次実行に対し8プロセッサ使用時で6.54倍の速度向上率を得られることが確認できた。MPEG2エンコーディングプログラムに対する本データローカリティ最適化およびデータ転送最適化は、自動並列化コンパイラによりほぼ自動的に行われる。より多くのアプリケーションに対して本手法を自動的に適用し対象アプリケーションを拡大することは今後の課題である

講演・口頭発表等 【 表示 / 非表示

  • OSCAR自動並列化コンパイラとNECベクトル化コンパイラの協調によるベクトル・パーソナルスパコン上での自動ベクトル並列化

    田處 雄大, 見神 広紀, 細見 岳生, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • マルチターゲット自動並列化コンパイラにおけるアクセラレータコスト推定手法の検討

    山本 一貴, 藤田 一輝, 柏俣 智哉, 高橋 健, Boma A. Adhi, 北村 俊明, 川島 慧大, 納富 昭, 森 裕司, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • OSCARコンパイラのC++プログラム対応の検討

    川角 冬馬, TilmanPriesner, 野口 真聖, 韓 吉新, 見神 広紀, 川島 慧大, 田中啓士郎, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • NDCKPT:不揮発性メインメモリを用いたOSによる透過的なプロセスチェックポインティングの実現

    西田 耀, 木村 啓二

    電子通信情報学会技術報告 CPSY2019-102   電子情報通信学会  

    発表年月: 2020年03月

  • 準同型暗号による行列積の高速化の検討

    牧田 哲也, 宍戸 哲平, 和田 康孝, 木村 啓二

    電子通信情報学会技術報告 CPSY2019-96   電子情報通信学会  

    発表年月: 2020年03月

全件表示 >>

特定課題研究 【 表示 / 非表示

  • 深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

    2020年  

     概要を見る

    2020年度は、研究のベースとなるソフトウェアとして、Microsoft ResearchのSEAを利用し、これによる行列積演算を構成する各種処理の時間を測定し、そのオーバーヘッドと並列性の調査を行った。まず、行列積計算をOpenMPで並列化し、8コア搭載のIntel Xeon W2145(3.70GHz)で実行した結果、1コア実行時に対して約6倍の性能向上を得ることが出来た。さらに、準同型暗号による行列積演算を構成する処理をSIMD演算(AVX512)により高速化することを試みた。その結果、ライブラリ内部で使用する基本データ型を64bitから32bitに縮小しかつSIMD演算幅を増やすことで、行列演算の重要処理をSIMDオリジナルの実装に対して3.48倍高速化可能となった。 

  • フラグによりCPUとアクセラレータが連係するヘテロジニアスマルチコアに関する研究

    2014年  

     概要を見る

    本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させることで上記オーバーヘッドを隠蔽可能とするタスク分割及びスケジューリング手法を開発し、自動並列化コンパイラに実装する。本年度の成果としては、まず本研究が前提とするアクセラレータの基本仕様を決定した。その上で、本アクセラレータ用のコンパイラモジュールを開発し、さらにアクセラレータのアーキテクチャシミュレータを開発することにより、本研究を行う上での基本的な評価環境を整備した。

  • コンパイラ解析情報と実機実行情報を利用したマルチコアシミュレーション高速化の研究

    2009年  

     概要を見る

    計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。このような膨大な評価時間は今後のメニーコアの研究・開発の大きな妨げになる。本研究では、このような問題を克服するための、マルチコア・メニーコアのソフトウェアシミュレーション高速化手法の研究を行う。特に並列アーキテクチャ研究のためのシミュレーション高速化の研究に関しては、これまでミュレーションによる実験対象となる仮想のマルチコアやマルチプロセッサのコアを、シミュレータを実行する実際のマルチプロセッサのコアに割り当てるという方法が提案されてきたが、実機上の並列処理オーバーヘッドが大きく、実用的なシステムはこれまで実現されていない。本研究の特徴は、マルチコア・メニーコアのソフトウェアシミュレーションの高速化に、ループ構造や並列化情報などの並列化コンパイラによる解析情報と、評価対象アプリケーションの実機での実行情報を利用することである。これらの情報を利用し、詳細にシミュレーションする必要がある箇所とそうでない箇所を特定する。従来のソフトウェアシミュレーション高速化手法では利用されてこなかったこれらの付加的な情報を利用することで、精度の高い性能値を最小の実行コストで得ることができる。本年度は、本高速化手法の基本的な適用可能性を検討するための予備実験を行った。具体的には、二種類のマルチコアアーキテクチャのコア数を32コアまで変化させ、ベンチマークプログラムのメインループの回転数を変化させ本研究による性能値推定手法により本来のループ回転数における性能値を再現できるか調査した。ベンチマークプログラムとしてSPEC95ベンチマークのtomcatvとswim、および音声圧縮で標準的に使われているAACエンコーディングプログラムを用いた。評価の結果、いずれのアーキテクチャ、コア数、ベンチマークプログラムの組み合わせにおいても、わずか数回転分の性能値から本来の数百回転分の性能値を高々2%程度の誤差で予測することができた。今後は適用アプリケーションの拡大ならびにシステムの自動化を行う予定である。

  • ソフトウェア協調型チップマルチプロセッサにおけるメモリ最適化に関する研究

    2004年  

     概要を見る

    本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミレニアムプロジェクトIT21 アドバンスト並列化コンパイラで開発されたOSCARマルチグレイン並列化コンパイラをコアとした。また、チップマルチプロセッサアーキテクチャとしては、簡素なプロセッサコア、ローカルデータメモリ、2ポート構成の分散共有メモリ、およびデータ転送ユニットを持つプロセッシングエレメント(PE)をPE間ネットワークで接続したOSCAR型チップマルチプロセッサとした。本研究では、OSCARマルチグレイン並列化コンパイラに対してOSCAR型チップマルチプロセッサ用のバックエンド(コード生成器)を追加開発した。データローカリティ最適化およびデータ転送最適化技術開発の第一歩として、ターゲットアプリケーションには、SPECfp95ベンチマークより科学技術計算の典型例であるTomcatvとSwimプログラムを選んだ。本研究では、これらに対してタスク(並列処理の単位)とデータをデータローカリティと並列性の両方を考慮しながらPEへスケジューリングし、さらに共有メモリとプロセッサのローカルメモリ(データローカルメモリおよび分散共有メモリ)とのやり取りをプロセッサと非同期で動作するデータ転送ユニットにより処理させることにより、データローカリティ利用とデータ転送処理の効率化を行った。8PEで評価を行った結果、データローカリティ最適化を適用していない場合に対してTomcatvで1.56倍、Swimで1.38倍の速度向上を得ることができた。

海外研究活動 【 表示 / 非表示

  • 新しいメモリ階層を考慮したソフトウェア・ハードウェアの構成法に関する研究

    2017年08月
    -
    2018年02月

    アメリカ   North Carolina State University

 

現在担当している科目 【 表示 / 非表示

全件表示 >>

 

委員歴 【 表示 / 非表示

  • 2020年
    -
     

    The 26th IEEE International Symposium on High-Performance Computer Architecture  Program Committee

  • 2020年
    -
     

    The 26th IEEE International Symposium on High-Performance Computer Architecture  Program Committee

  • 2018年
    -
    2020年

    IEEE International Parallel & Distributed Processing Symposium (IPDPS 2018-2020)  Program Committee

  • 2018年
    -
    2020年

    IEEE International Parallel & Distributed Processing Symposium (IPDPS 2018-2020)  Program Committee

  • 2019年
    -
     

    The 37th IEEE International Conference on Computer Design (ICCD 2019)  Program track Chair (Processor Architecture)

全件表示 >>