2022/10/01 更新

写真a

キムラ ケイジ
木村 啓二
所属
理工学術院 基幹理工学部
職名
教授

兼担

  • 理工学術院   大学院基幹理工学研究科

学内研究所等

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴

  •  
    -
    1996年

    早稲田大学   理工学部   電気工学科  

学位

  • 早稲田大学   博士(工学)

  • Doctor of Engineering

経歴

  • 2012年
    -
     

    早稲田大学理工学術院 情報理工学科 教授

  • 2005年
    -
    2012年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授

  • 2005年
    -
    2012年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 助教授

  • 2004年
    -
    2005年

    早稲田大学理工学部コンピュータ・ネットワーク工学科 専任講師

  • 2002年
    -
    2004年

    早稲田大学理工学総合研究センター 客員講師(専任扱い)

  • 1999年
    -
    2002年

    早稲田大学理工学部電気電子情報工学科 助手

  • 1999年
    -
    2002年

    早稲田大学理工学部電気電子情報工学科 助手

▼全件表示

所属学協会

  •  
     
     

    ACM

  •  
     
     

    IEEE Computer Society

  •  
     
     

    電子情報通信学会

  •  
     
     

    情報処理学会

 

研究分野

  • 計算機システム

研究キーワード

  • 並列計算機、並列化コンパイラ、計算機科学

論文

  • Open-Source Hardware Memory Protection Engine Integrated With NVMM Simulator

    Yu Omori, Keiji Kimura

    IEEE Computer Architecture Letters   21 ( 2 ) 77 - 80  2022年08月  [査読有り]

    担当区分:最終著者

    DOI

  • Data stream clustering for low-cost machines

      166   57 - 70  2022年08月  [査読有り]

    DOI

  • Open-Source RISC-V Linux-Compatible NVMM Emulator

    Yu Omori, Keiji Kimura

    Sixth Workshop on Computer Architecture Research with RISC-V (CARRV 2022)    2022年06月  [査読有り]

    担当区分:最終著者

  • Lightweight Array Contraction by Trace-Based Polyhedral Analysis

    Hugo Thievenaz, Keiji Kimura, Christophe Alias

    C3PO’22: Compiler-assisted Correctness Checking and Performance Optimization for HPC    2022年06月  [査読有り]

  • Rephrasing polyhedral optimizations with trace analysis

    Hugo Thievenaz, Keiji Kimura, Christophe Alias

    12th International Workshop on Polyhedral Compilation Techniques (IMPACT 2022)    2022年06月  [査読有り]

  • Performance Evaluation of OSCAR Multi-target Automatic Parallelizing Compiler on Intel, AMD, Arm and RISC-V Multicores

    Birk M. Magnussen, Tohma Kawasumi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    LCPC2021    2021年10月  [査読有り]

  • Durable Queue Implementations Built on a Formally Defined Strand Persistency Model

      29   823 - 838  2021年  [査読有り]

    担当区分:最終著者

    DOI

  • Secure Image Inference Using Pairwise Activation Functions

    Jonas T. Agyepong, Mostafa Soliman, Yasutaka Wada, Keiji Kimura, Ahmed El-Mahdy

    IEEE Access   9   118271 - 118290  2021年  [査読有り]

    DOI

  • Non-Volatile Main Memory Emulator for Embedded Systems Employing Three NVMM Behaviour Models

    Yu OMORI, Keiji KIMURA

    IEICE TRANSACTIONS on Information and Systems   E104-D ( 5 ) 697 - 708  2021年  [査読有り]

    担当区分:最終著者

  • Scalable and Fast Lazy Persistency on GPUs

    Ardhi Wiratama, Baskara Yudha, Keiji Kimura, Huiyang Zhou, Yan Solihin

    2020 IEEE International Symposium on Workload Characterization (IISWC 2020)     252 - 263  2020年10月  [査読有り]

  • Local Memory Mapping of Multicore Processors on an Automatic Parallelizing Compiler

    Yoshitake OKI, Yuto ABE, Kazuki YAMAMOTO, Kohei YAMAMOTO, Tomoya SHIRAKAWA, Akimasa YOSHIDA, Keiji KIMURA, Hironori KASAHARA

    IEICE TRANSACTIONS on Electronics   E103-C ( 3 ) 98 - 109  2020年03月  [査読有り]

  • Compiler Software Coherent Control for Embedded High Performance Multicore

    Boma A. ADHI, Tomoya KASHIMATA, Ken TAKAHASHI, Keiji KIMURA, Hironori KASAHARA

    IEICE TRANSACTIONS on Electronics   E103-C ( 3 ) 85 - 97  2020年03月  [査読有り]

  • Compiler-support for Critical Data Persistence in NVM

    Reem Elkhouly, Mohammad Alshboul, Akihiro Hayashi, Yan Solihin, Keiji Kimura

    ACM Transactions on Architecture and Code Optimization (TACO)   16 ( 4 )  2019年12月  [査読有り]

    担当区分:最終著者

  • Software Cache Coherent Control by Parallelizing Compiler

    Boma A. Adhi, Masayoshi Mase, Yuhei Hosokawa, Yohei Kishimoto, Taisuke Onishi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   11403   17 - 25  2019年11月  [査読有り]

  • Cascaded DMA Controller for Speedup of Indirect Memory Access in Irregular Applications

    Tomoya Kashimata, Toshiaki Kitamura, Keiji Kimura, Hironori Kasahara

    9th Workshop on Irregular Applications: Architectures and Algorithms     71 - 76  2019年11月  [査読有り]

  • Performance of Static and Dynamic Task Scheduling for Real-Time Control System on Embedded Multicore Processor

    Yoshitake Oki, Hiroki Mikami, Hikaru Nishida, Dan Umeda, Keiji Kimura, Hironori Kasahara

    32nd International Workshop on Languages and Compilers for Parallel Computing(LCPC)    2019年10月  [査読有り]

  • Performance Evaluation on NVMM Emulator Employing Fine-Grain Delay Injection

    Yu Omori, Keiji Kimura

    The 8th IEEE Non-Volatile Memory Systems and Applications Symposium (IEEE NVMSA 2019)     1 - 6  2019年08月  [査読有り]

    担当区分:最終著者

    DOI

  • Fast and Highly Optimizing Separate Compilation for Automatic Parallelization

    Tohma Kawasumi, Ryota Tamura, Yuya Asada, Jixin Han, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    The 2019 International Conference on High Performance Computing & Simulation (HPCS 2019)     478 - 485  2019年07月  [査読有り]

  • Efficient Checkpointing with Recompute Scheme for Non-volatile Main Memory

    Mohammad Alshboul, Hussein Elnawawy, Reem Elkhouly, Keiji Kimura, James Tuck, Yan Solihin

    ACM Transactions on Architecture and Code Optimization (TACO)   16 ( 2 )  2019年05月  [査読有り]

  • Multicore Cache Coherence Control by a Parallelizing Compiler

    Hironori Kasahara, Keiji Kimura, Boma A. Adhi, Yuhei Hosokawa, Yohei Kishimoto, Masayoshi Mase

    Proceedings - International Computer Software and Applications Conference   1   492 - 497  2017年09月  [査読有り]

     概要を見る

    A recent development in multicore technology has enabled development of hundreds or thousands core processor. However, on such multicore processor, an efficient hardware cache coherence scheme will become very complex and expensive to develop. This paper proposes a parallelizing compiler directed software coherence scheme for shared memory multicore systems without hardware cache coherence control. The general idea of the proposed method is that an automatic parallelizing compiler analyzes the control dependency and data dependency among coarse grain task in the program. Then based on the obtained information, task parallelization, false sharing detection and data restructuration to prevent false sharing are performed. Next the compiler inserts cache control code to handle stale data problem. The proposed method is built on OSCAR automatic parallelizing compiler and evaluated on Renesas RP2 with 8 SH-4A cores processor. The hardware cache coherence scheme on the RP2 processor is only available for up to 4 cores and the hardware cache coherence can be completely turned off for non-coherence cache mode. Performance evaluation is performed using 10 benchmark program from SPEC2000, SPEC2006, NAS Parallel Benchmark (NPB) and Mediabench II. The proposed method performs as good as or better than hardware cache coherence scheme. For example, 4 cores with the hardware coherence mechanism gave us speed up of 2.52 times against 1 core for SPEC2000 'equake', 2.9 times for SPEC2006 'lbm', 3.34 times for NPB 'cg', and 3.17 times for MediaBench II MPEG2 Encoder. The proposed software cache coherence control gave us 2.63 times for 4 cores and 4.37 for 8 cores for 'equake', 3.28 times for 4 cores and 4.76 times for 8 cores for lbm, 3.71 times for 4 cores and 4.92 times for 8 cores for 'MPEG2 Encoder'.

    DOI

  • Automatic Local Memory Management for Multicores Having Global Address Space

    Kouhei Yamamoto, Tomoya Shirakawa, Yoshitake Oki, Akimasa Yoshida, Keiji Kimura, Hironori Kasahara

    LANGUAGES AND COMPILERS FOR PARALLEL COMPUTING, LCPC 2016   10136   282 - 296  2017年  [査読有り]

     概要を見る

    Embedded multicore processors for hard real-time applications like automobile engine control require the usage of local memory on each processor core to precisely meet the real-time deadline constraints, since cache memory cannot satisfy the deadline requirements due to cache misses. To utilize local memory, programmers or compilers need to explicitly manage data movement and data replacement for local memory considering the limited size. However, such management is extremely difficult and time consuming for programmers. This paper proposes an automatic local memory management method by compilers through (i) multi-dimensional data decomposition techniques to fit working sets onto limited size local memory (ii) suitable block management structures, called Adjustable Blocks, to create application specific fixed size data transfer blocks (iii) multi-dimensional templates to preserve the original multi-dimensional representations of the decomposed multi-dimensional data that are mapped onto one-dimensional Adjustable Blocks (iv) block replacement policies from liveness analysis of the decomposed data, and (v) code size reduction schemes to generate shorter codes. The proposed local memory management method is implemented on the OSCAR multi-grain and multi-platform compiler and evaluated on the Renesas RP2 8 core embedded homogeneous multicore processor equipped with local and shared memory. Evaluations on 5 programs including multimedia and scientific applications show promising results. For instance, speedups on 8 cores compared to single core execution using off-chip shared memory on an AAC encoder program, a MPEG2 encoder program, Tomcatv, and Swim are improved from 7.14 to 20.12, 1.97 to 7.59, 5.73 to 7.38, and 7.40 to 11.30, respectively, when using local memory with the proposed method. These evaluations indicate the usefulness and the validity of the proposed local memory management method on real embedded multicore processors.

    DOI

  • Architecture design for the environmental monitoring system over the winter season

    Koichiro Yamashita, Chen Ao, Takahisa Suzuki, Yi Xu, Hongchun Li, Jun Tian, Keiji Kimura, Hironori Kasahara

    MobiWac 2016 - Proceedings of the 14th ACM International Symposium on Mobility Management and Wireless Access, co-located with MSWiM 2016     27 - 34  2016年11月  [査読有り]

     概要を見る

    One of the applications as a source of big data, there is a sensor network for the environmental monitoring that is designed to detect the deterioration of the infrastructure, erosion control and so on. The specific targets are bridges, buildings, slopes and embankments due to the natural disasters or aging. Basic requirement of this monitoring system is to collect data over a long period of time from a large number of nodes that installed in a wide area. However, in order to apply a wireless sensor network (WSN), using wireless communication and energy harvesting, there are not many cases in the actual monitoring system design. Because of the system must satisfy various conditions measurement location and time specified by the civil engineering communication quality and topology obtained from the network technology the electrical engineering to solve the balance of weather environment and power consumption that depends on the above-mentioned conditions. We propose the whole WSN design methodology especially for the electrical architecture that is affected by the network behavior and the environmental disturbance. It is characterized by determining recursively mutual trade-off of a wireless simulation and a power architecture simulation of the node devices. Furthermore, the system allows the redundancy of the design. In addition, we deployed the actual slope monitoring WSN that is designed by the proposed method to the snow-covered area. A conventional similar monitoring WSN, with 7 Ah Li-battery, it worked only 129 days in a mild climate area. On the other hand, our proposed system, deployed in the heavy snow area has been working more than 6 months (still working) with 3.2 Ah batteries. Finally, it made a contribution to the civil engineering succeeded in the real time observation of the groundwater level displacement at the time of melting snow in the spring season.

    DOI

  • Reducing parallelizing compilation time by removing redundant analysis

    Jixin Han, Rina Fujino, Ryota Tamura, Mamoru Shimaoka, Hiroki Mikami, Moriyuki Takamura, Sachio Kamiya, Kazuhiko Suzuki, Takahiro Miyajima, Keiji Kimura, Hironori Kasahara

    SEPS 2016 - Proceedings of the 3rd International Workshop on Software Engineering for Parallel Systems, co-located with SPLASH 2016     1 - 9  2016年10月  [査読有り]

     概要を見る

    Parallelizing compilers employing powerful compiler optimizations are essential tools to fully exploit performance from today's computer systems. These optimizations are supported by both highly sophisticated program analysis techniques and aggressive program restructuring techniques. However, the compilation time for such powerful compilers becomes larger and larger for real commercial application due to these strong program analysis techniques. In this paper, we propose a compilation time reduction technique for parallelizing compilers. The basic idea of the proposed technique is based on an observation that parallelizing compilers apply multiple program analysis passes and restructuring passes to a source program but all program analysis passes do not have to be applied to the whole source program. Thus, there is an opportunity for compilation time reduction by removing redundant program analysis. We describe the removing redundant program analysis techniques considering the inter-procedural propagation of analysis update information in this paper. We implement the proposed technique into OSCAR automatically multigrain parallelizing compiler. We then evaluate the proposed technique by using three proprietary large scale programs. The proposed technique can remove 37.7% of program analysis time on average for basic analysis includes def-use analysis and dependence calculation, and 51.7% for pointer analysis, respectively.

    DOI

  • An Android Systrace Extension for Tracing Wakelocks

    Bui Duc Binh, Keiji Kimura

    IEEE International Conference on Embedded and Ubiquitous Computing (EUC 2016)     146 - 149  2016年08月  [査読有り]

    担当区分:責任著者

  • 組み込み向けモデルベース開発アプリケーションのプロファイル情報を用いたマルチコア用マルチグレイン並列処理

    梅田 弾, 鈴木 貴広, 見神 広紀, 木村 啓二, 笠原 博徳

    情報処理学会論文誌   57 ( 2 ) 1 - 12  2016年02月  [査読有り]

  • Android video processing system combined with automatically parallelized and power optimized code by OSCAR compiler

    Bui Duc Binh, Tomohiro Hirano, Hiroki Mikami, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

    Journal of Information Processing   24 ( 3 ) 504 - 511  2016年  [査読有り]

     概要を見る

    The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of realtime video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext- A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.

    DOI CiNii

  • Multigrain parallelization for model-based design applications using the OSCAR compiler

    Dan Umeda, Takahiro Suzuki, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   9519   125 - 139  2016年  [査読有り]

     概要を見る

    Model-based design is a very popular software development method for developing a wide variety of embedded applications such as automotive systems, aircraft systems, and medical systems. Model-based design tools like MATLAB/Simulink typically allow engineers to graphically build models consisting of connected blocks for the purpose of reducing development time. These tools also support automatic C code generation from models with a special tool such as Embedded Coder to map models onto various kinds of embedded CPUs. Since embedded systems require real-time processing, the use of multi-core CPUs poses more opportunities for accelerating program execution to satisfy the real-time constraints. While prior approaches exploit parallelism among blocks by inspecting MATLAB/Simulink models, this may lose an opportunity for fully exploiting parallelism of the whole program because models potentially have parallelism within a block. To unlock this limitation, this paper presents an automatic parallelization technique for auto-generated C code developed by MATLAB/Simulink with Embedded Coder. Specifically, this work (1) exploits multi-level parallelism including inter-block and intra-block parallelism by analyzing the auto-generated C code, and (2) performs static scheduling to reduce dynamic overheads as much as possible. Also, this paper proposes an automatic profiling framework for the auto-generated code for enhancing static scheduling, which leads to improving the performance of MATLAB/Simulink applications. Performance evaluation shows 4.21 times speedup with six processor cores on Intel Xeon X5670 and 3.38 times speedup with four processor cores on ARM Cortex-A15 compared with uniprocessor execution for a road tracking application.

    DOI

  • Coarse grain task parallelization of earthquake simulator GMS using OSCAR compiler on various Cc-NUMA servers

    Mamoru Shimaoka, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   9519   238 - 253  2016年  [査読有り]

     概要を見る

    This paper proposes coarse grain task parallelization for a earthquake simulation program using Finite Difference Method to solve the wave equations in 3-D heterogeneous structure or the Ground Motion Simulator (GMS) on various cc-NUMA servers using IBM, Intel and Fujitsu multicore processors. The GMS has been developed by the National Research Institute for Earth Science and Disaster Prevention (NIED) in Japan. Earthquake wave propagation simulations are important numerical applications to save lives through damage predictions of residential areas by earthquakes. Parallel processing with strong scaling has been required to precisely calculate the simulations quickly. The proposed method uses the OSCAR compiler for exploiting coarse grain task parallelism efficiently to get scalable speed-ups with strong scaling. The OSCAR compiler can analyze data dependence and control dependence among coarse grain tasks, such as subroutines, loops and basic blocks. Moreover, locality optimizations considering the boundary calculations of FDM and a new static scheduler that enables more efficient task schedulings on cc-NUMA servers are presented. The performance evaluation shows 110 times speed-up using 128 cores against the sequential execution on a POWER7 based 128 cores cc-NUMA server Hitachi SR16000 VM1, 37.2 times speed-up using 64 cores against the sequential execution on a Xeon E7-8830 based 64 cores cc-NUMA server BS2000, 19.8 times speed-up using 32 cores against the sequential execution on a Xeon X7560 based 32 cores cc-NUMA server HA8000/RS440, 99.3 times speed-up using 128 cores against the sequential execution on a SPARC64 VII based 256 cores cc-NUMA server Fujitsu M9000, 9.42 times speed-up using 12 cores against the sequential execution on a POWER8 based 12 cores cc-NUMA server Power System S812L.

    DOI

  • 2-Step Power Scheduling with Adaptive Control Interval for Network Intrusion Detection Systems on Multicores

    Lau Phi Tuong, Keiji Kimura

    2016 IEEE 10TH INTERNATIONAL SYMPOSIUM ON EMBEDDED MULTICORE/MANY-CORE SYSTEMS-ON-CHIP (MCSOC)     69 - 76  2016年  [査読有り]

    担当区分:最終著者

     概要を見る

    Network intrusion detection system (NIDS) is becoming an important element even in embedded systems as well as in data centers since embedded computers have been increasingly exposed to the Internet. The demand for power budget of these embedded systems is a critical issue in addition to that for performance. In this paper, we propose a technique to minimize power consumption in the NIDS by 2-step power scheduling with the adaptive control interval. In addition, we also propose a CPU-core controlling algorithm so that our scheduling technique can preserve the performance for other applications and NIDS assuming the cases of multiplexing NIDS and them simultaneously on the same device such as a home server or a mobile platform. We implement our 2-step algorithm into Suricata, which is a popular NIDS, as well as a 1-step algorithm with the adaptive interval, and a simple fixed-interval algorithm for evaluations. Experimental results show that our 2-step scheduling with both the adaptive and the fixed 30-millisecond interval achieve 75% power saving comparing with the Ondemand governor and 87% comparing with the Performance governor in Linux, respectively, without affecting their performance capability on four ARM Cortex-A15 cores at the network traffic of 1,000 packets/seconds. In contrast, when the network traffic reaches to 17,000 packets/seconds, our 2-step scheduling and the Ondemand as well as the Performance governor can maintain the packet processing capacity while the fixed 30-milliseconds interval processes only 50% packets with two and three cores, and about 80% packets on four cores.

    DOI

  • Accelerating Multicore Architecture Simulation Using Application Profile

    Keiji Kimura, Gakuho Taguchi, Hironori Kasahara

    2016 IEEE 10TH INTERNATIONAL SYMPOSIUM ON EMBEDDED MULTICORE/MANY-CORE SYSTEMS-ON-CHIP (MCSOC)     177 - 184  2016年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    Architecture simulators play an important role in exploring frontiers in the early stages of the architecture design. However, the execution time of simulators increases with an increase the number of cores. The sampling simulation technique that was originally proposed to simulate single-core processors is a promising approach to reduce simulation time. Two main hurdles for multi/many-core are preparing sampling points and thread skewing at functional simulation time. This paper proposes a very simple and low-error sampling-based acceleration technique for multi/many-core simulators. For a parallelized application, an iteration of a large loop including a parallelizable program part, is defined as a sampling unit. We apply X-means method to a profile result of the collection of iterations derived from a real machine to form clusters of those iterations. Multiple iterations are exploited as sampling points from these clusters. We execute the simulation along the sampling points and calculate the number of total execution cycles. Results from a 16-core simulation show that our proposed simulation technique gives us a maximum of 443x speedup with a 0.52% error and 218x speedup with 1.50% error on an average.

    DOI

  • Annotatable systrace: An extended linux ftrace for tracing a parallelized program

    Daichi Fukui, Mamoru Shimaoka, Hiroki Mikami, Dominic Hillenbrand, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

    SEPS 2015 - Proceedings of the 2nd International Workshop on Software Engineering for Parallel Systems     21 - 25  2015年10月  [査読有り]

     概要を見る

    Investigation of the runtime behavior is one of the most important processes for performance tuning on a computer system. Profiling tools have been widely used to detect hot-spots in a program. In addition to them, tracing tools produce valuable information especially from parallelized programs, such as thread scheduling, barrier synchronizations, context switching, thread migration, and jitter by interrupts. Users can optimize a runtime system and hardware configuration in addition to a program itself by utilizing the attained information. However, existing tools provide information per process or per function. Finer information like task-or loop-granularity should be required to understand the program behavior more precisely. This paper has proposed a tracing tool, Annotatable Systrace, to investigate runtime execution behavior of a parallelized program based on an extended Linux ftrace. The Annotatable Systrace can add arbitrary annotations in a trace of a target program. The proposed tool exploits traces from 183.equake, 179.art, and mpeg2enc on Intel Xeon X7560 and ARMv7 as an evaluation. The evaluation shows that the tool enables us to observe load imbalance along with the program execution. It can also generate a trace with the inserted annotations even on a 32-core machine. The overhead of one annotation on Intel Xeon is 1.07 us and the one on ARMv7 is 4.44 us, respectively.

    DOI

  • Evaluation of Automatic Power Reduction with OSCAR Compiler on Intel Haswell and ARM Cortex-A9 Multicores

    Tomohiro Hirano, Hideo Yamamoto, Shuhei Iizuka, Kohei Muto, Takashi Goto, Tamami Wake, Hiroki Mikami, Moriyuki Takamura, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   8967   239 - 252  2015年05月  [査読有り]

  • MATLAB/Simulinkで設計されたエンジン制御Cコードのマルチコア用自動並列化

    梅田 弾, 金羽木 洋平, 見神 広紀, 林 明宏, 谷 充弘, 森 裕司, 木村 啓二, 笠原 博徳

    情報処理学会論文誌   55 ( 8 ) 1817 - 1829  2014年08月  [査読有り]

     概要を見る

    近年の自動車では安全性・快適性・環境適合性が求められ,これらを実現するために自動車制御系のソフトウェアが年々より高度化している.制御の高度化と同時に,これらを実現するソフトウェアをリアルタイムで動作させるために,プロセッサの高速化が必要である.しかし,シングルコアの動作周波数の向上が困難であることから,1コアによる処理性能向上が限界となり,今後の自動車制御系でマルチコアへの移行が進んでいくと考えられる.また,自動車制御系において開発期間の短縮および信頼性の向上のためにMATLAB/Simulinkによるモデルベース設計が普及している.しかし,現時点でこのようなモデルベース設計で自動的にコード生成されるソースコードはマルチコア上で自動的に並列処理できるまでには至っていない.そこで,本論文ではMATLAB/Simulinkによって設計された制御モデルからEmbedded Coderにより自動生成されたエンジン制御Cコードをマルチコア上で動作するための並列化手法を提案する.提案手法を用いて,従来手動ではタスク粒度が細かく並列化が困難であった条件分岐と算術代入文からなるエンジン制御CコードをOSCAR自動並列化コンパイラにて自動並列化した.RP2やV850E2R等の組み込みマルチコア上で実行したところ,2コアで最大1.91倍,4コアで最大3.76倍の性能向上が得られた.

    CiNii

  • 低消費電力コンピューティングを実現するマルチコア技術

    木村啓二, 笠原博徳

    電子情報通信学会誌   97 ( 2 ) 133 - 139  2014年02月  [招待有り]

    担当区分:筆頭著者

     概要を見る

    マルチコアプロセッサは,スマートフォン,パーソナルコンピュータ,自動車からクラウドサーバ,スーパコンピュータに至るまで,各種のIT機器で利用されている.これは,マルチコアでは半導体集積度の向上とともに性能向上を可能にしつつ消費電力を抑えることができるためで,環境に優しい低消費電力コンピューティング,すなわちグリーンコンピューティングの実現のための最有力技術として採用されている.本稿では,この低消費電力マルチコアにおけるコンパイラを中心としたソフトウェアとハードウェアの協調及び各種組込み応用について紹介する.

    CiNii

  • OSCAR Compiler Controlled Multicore Power Reduction on Android Platform

    Hideo Yamamoto, Tomohiro Hirano, Kohei Muto, Hiroki Mikami, Takashi Goto, Dominic Hillenbrand, Moriyuki Takamura, Keiji Kimura, Hironori Kasahara

    LANGUAGES AND COMPILERS FOR PARALLEL COMPUTING, LCPC 2013   8664   155 - 168  2014年  [査読有り]

     概要を見る

    In recent years, smart devices are transitioning from single core processors to multicore processors to satisfy the growing demands of higher performance and lower power consumption. However, power consumption of multicore processors is increasing, as usage of smart devices become more intense. This situation is one of the most fundamental and important obstacle that the mobile device industries face, to extend the battery life of smart devices. This paper evaluates the power reduction control by the OSCAR Automatic Parallelizing Compiler on an Android platform with the newly developed precise power measurement environment on the ODROID-X2, a development platform with the Samsung Exynos4412 Prime, which consists of 4 ARM Cortex-A9 cores. The OSCAR Compiler enables automatic exploitation of multigrain parallelism within a sequential program, and automatically generates a parallelized code with the OSCAR Multi-Platform API power reduction directives for the purpose of DVFS (Dynamic Voltage and Frequency Scaling), clock gating, and power gating. The paper also introduces a newly developed micro second order pseudo clock gating method to reduce power consumption using WFI (Wait For Interrupt). By inserting GPIO (General Purpose Input Output) control functions into programs, signals appear on the power waveform indicating the point of where the GPIO control was inserted and provides a precise power measurement of the specified program area. The results of the power evaluation for real-time Mpeg2 Decoder show 86.7% power reduction, namely from 2.79[W] to 0.37[W] and for real-time Optical Flow show 86.5% power reduction, namely from 2.23[W] to 0.36[W] on 3 core execution.

    DOI

  • モデルベース設計により自動生成されたエンジン制御Cコードのマルチコア用自動並列化

    梅田弾, 金羽木洋平, 見神広紀, 谷充弘(デンソー, 森裕司(デンソー, 木村啓二, 笠原博徳

    組み込みシステムシンポジウム(ESS2013)    2013年10月

  • OSAR API v2.1: Extensions for an Advanced Accelerator Control Scheme to a Low-Power Multicore API

    Keiji Kimura, Cecilia Gonzales-Alvarez, Akihiro Hayashi, Hiroki Mikami, Mamoru Shimaoka, Jun Shirako, Hironori Kasahara

    17th Workshop on Compilers for Parallel Computing (CPC2013)    2013年07月  [査読有り]

    担当区分:筆頭著者

  • Automatic Parallelization of Hand Written Automotive Engine Control Codes Using OSCAR Compiler

    Dan Umeda, Yohei Kanehagi, Hiroki Mikami, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

    17th Workshop on Compilers for Parallel Computing (CPC2013)    2013年07月  [査読有り]

  • Evaluation of power consumption at execution of multiple automatically parallelized and power controlled media applications on the RP2 low-power multicore

    Hiroki Mikami, Shumpei Kitaki, Masayoshi Mase, Akihiro Hayashi, Mamoru Shimaoka, Keiji Kimura, Masato Edahiro, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   7146   31 - 45  2013年

     概要を見る

    This paper evaluates an automatic power reduction scheme of OSCAR automatic parallelizing compiler having power reduction control capability when multiple media applications parallelized by the OSCAR compiler are executed simultaneously on RP2, a 8-core multicore processor developed by Renesas Electronics, Hitachi, and Waseda University. OSCAR compiler enables the hierarchical multigrain parallel processing and power reduction control using DVFS (Dynamic Voltage and Frequency Scaling), clock gating and power gating for each processor core using the OSCAR multi-platform API. The RP2 has eight SH4A processor cores, each of which has power control mechanisms such as DVFS, clock gating and power gating. First, multiple applications with relatively light computational load are executed simultaneously on the RP2. The average power consumption of power controlled eight AAC encoder programs, each of which was executed on one processor, was reduced by 47%, (to 1.01W), against one AAC encoder execution on one processor (from 1.89W) without power control. Second, when multiple intermediate computational load applications are executed, the power consumptions of an AAC encoder executed on four processors with the power reduction control was reduced by 57% (to 0.84W) against an AAC encoder execution on one processor (from 1.95W). Power consumptions of one MPEG2 decoder on four processors with power reduction control was reduced by 49% (to 1.01W) against one MPEG2 decoder execution on one processor (from 1.99W). Finally, when a combination of a high computational load application program and an intermediate computational load application program are executed simultaneously, the consumed power reduced by 21% by using twice number of cores for each application. This paper confirmed parallel processing and power reduction by OSCAR compiler are efficient for multiple application executions. In execution of multiple light computational load applications, power consumption increases only 12% for one application. Parallel processing being applied to intermediate computational load applications, power consumption of executing one application on one processor core (1.49W) is almost same power consumption of two applications on eight processor cores (1.46W). © 2013 Springer-Verlag.

    DOI

  • Automatic Design Exploration Framework for Multicores with Reconfigurable Accelerators

    Cecilia Gonzalez-Alvarez, Haruku Ishikawa, Akihiro Hayashi, Daniel Jimenez-Gonzalez, Carlos Alvarez, Keiji Kimura, Hironori Kasahara

    th Workshop on Reconfigurable Computing (WRC) 2013, held in conjuction with HiPEAC conference 2013    2013年01月  [査読有り]

  • Parallelization of Automotive Engine Control Software On Embedded Multi-core Processor Using OSCAR Compiler

    Yohei Kanehagi, Dan Umeda, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

    2013 IEEE COOL CHIPS XVI (COOL CHIPS)    2013年  [査読有り]

  • Automatic Parallelization, Performance Predictability and Power Control for Mobile-Applications

    Dominic Hillenbrand, Akihiro Hayashi, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

    2013 IEEE COOL CHIPS XVI (COOL CHIPS)    2013年  [査読有り]

     概要を見る

    Currently few mobile applications exploit the power- and performance capabilities of multi-core architectures. As the number of cores increases, the challenges become more pressing. We picked three challenges: application parallelization, performance-predictability/portability and power control for mobile devices. We tackled the challenges with our auto-parallelizing compiler and operating system enhancements.

  • Reconciling application power control and operating systems for optimal power and performance

    Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    2013 8th International Workshop on Reconfigurable and Communication-Centric Systems-on-Chip, ReCoSoC 2013    2013年

     概要を見る

    In the age of dark silicon on-chip power control is a necessity. Upcoming and state of the art embedded- and cloud computer system-on-chips (SoCs) already provide interfaces for fine grained power control. Sometimes both: core- and interconnect-voltage and frequency can be scaled for example. To further reduce power consumption SoCs often have specialized accelerators. Due to the rising specialization of hard- and software general purpose operating systems require changes to exploit the power saving opportunities provided by the hardware. However, they lack detailed hardware- and application-level-information. Application-level power control in turn is still very uncommon and difficult to realize. Now a days vendors of mobile devices are forced to tweak and patch system-level software to enhance the power efficiency of each individual product. This manual process is time consuming and must be re-iterated for each new product. In this paper we explore the opportunities and challenges of automatic application- level power control using compilers. © 2013 IEEE.

    DOI

  • 組込マルチコア用OSCAR APIを用いたTILEPro64上でのマルチメディアアプリケーションの 並列処理

    岸本耀平, 見神広紀, 中野恵一, 林明宏, 木村啓二, 笠原博徳

    組み込みシステムシンポジウム(ESS2012)    2012年10月

  • OSCAR Parallelizing Compiler and API for Real-time Low Power Heterogeneous Multicores

    Akihiro Hayashi, Mamoru Shimaoka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Jun Shirako, Keiji Kimura, Hironori Kasahara

    6th Workshop on Compilers for Parallel Computing(CPC2012)    2012年01月  [査読有り]

  • 重粒子線がん治療用線量計算エンジンの自動並列化

    林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

    HPCS2012 - ハイパフォーマンスコンピューティングと計算科学シンポジウム    2012年01月

  • Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

    Yasir I. M. Al-Dosary, Keiji Kimura, Hironori Kasahara, Seinosuke Narita

    2012 17TH INTERNATIONAL CONFERENCE ON COMPUTER GAMES (CGAMES)     67 - 75  2012年  [査読有り]

     概要を見る

    Video Games have been a very popular form of digital entertainment in recent years. They have been delivered in state of the art technologies that include multi-core processors that are known to be the leading contributor in enhancing the performance of computer applications. Since parallel programming is a difficult technology to implement, that field in Video Games is still rich with areas for advancements. This paper investigates performance enhancement in Video Games when using parallelizing compilers and the difficulties involved in achieving that. This experiment conducts several stages in attempting to parallelize a well-renowned sequentially written Video Game called ioquake3. First, the Game is profiled for discovering bottlenecks, then examined by hand on how much parallelism could be extracted from those bottlenecks, and what sort of hazards exist in delivering a parallel-friendly version of ioquake3. Then, the Game code is rewritten into a hazard-free version while also modified to comply with the Parallelizable-C rules, which crucially aid parallelizing compilers in extracting parallelism. Next, the program is compiled using a parallelizing compiler called OSCAR (Optimally Scheduled Advanced Multiprocessor) to produce a parallel version of ioquake3. Finally, the performance of the newly produced parallel version of ioquake3 on a Multi-core platform is analyzed.
    The following is found: (1) the parallelized game by the compiler from the revised sequential program of the game is found to achieve a 5.1 faster performance at 8-threads than original one on an IBM Power 5+ machine that is equipped with 8-cores, and (2) hazards are caused by thread contentions over globally shared data, and as well as thread private data, and (3) AI driven players are represented very similarly to Human players inside ioquake3 engine, which gives an estimation of the costs for parallelizing Human driven sessions, and (4) 70% of the costs of the experiment is spent in analyzing ioquake3 code, 30% in implementing the changes in the code.

  • ヘテロジニアスマルチコア向けソフトウェア開発フレームワーク及びAPI

    林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

    情報処理学会論文誌コンピューティングシステム(ACS36)   5 ( 1 ) 68 - 79  2011年11月  [査読有り]

  • A 45-nm 37.3 GOPS/W Heterogeneous Multi-Core SOC with 16/32 Bit Instruction-Set General-Purpose Core

    Osamu Nishii, Yoichi Yuyama, Masayuki Ito, Yoshikazu Kiyoshige, Yusuke Nitta, Makoto Ishikawa, Tetsuya Yamada, Junichi Miyakoshi, Yasutaka Wada, Keiji Kimura, Hironori Kasahara, Hideo Maejima

    IEICE TRANSACTIONS ON ELECTRONICS   E94C ( 4 ) 663 - 669  2011年04月  [査読有り]

     概要を見る

    We built a 12.4 mm x 12.4 mm, 45-nm CMOS, chip that integrates eight 648-MHz general purpose cores, two matrix processor (MX-2) cores, four flexible engine (FE) cores and media IP (VPU5) to establish heterogeneous multi-core chip architecture. The general purpose core had its IPC (instructions per cycle) performance enhanced by adding 32-bit instructions to the existing 16-bit fixed-length instruction set and executing up to two 32-bit instructions per cycle. Considering these five-to-seven years of embedded LSI and increasing trend of access-master within LSI, we predict that the memory usage of single core will not exceed 32-bit physical area (i.e. 4 GB), but chip-total memory usage will exceed 4 GB. Based on this prediction, the physical address was expanded from 32-bit to 40-bit. The fabricated chip was tested and a parallel operation of eight general purpose cores and four FE cores and eight data transfer units (DTU) is obtained on AAC (Advanced Audio Coding) encode processing.

    DOI

  • Parallelizing Compiler Framework and API for Power Reduction and Software Productivity of Real-Time Heterogeneous Multicores

    Akihiro Hayashi, Yasutaka Wada, Takeshi Watanabe, Takeshi Sekiguchi, Masayoshi Mase, Jun Shirako, Keiji Kimura, Hironori Kasahara

    LANGUAGES AND COMPILERS FOR PARALLEL COMPUTING   6548   184 - 198  2011年  [査読有り]

     概要を見る

    Heterogeneous multicores have been attracting much attention to attain high performance keeping power consumption low in wide spread of areas. However, heterogeneous multicores force programmers very difficult programming. The long application program development period lowers product competitiveness. In order to overcome such a situation, this paper proposes a compilation framework which bridges a gap between programmers and heterogeneous multicores. In particular, this paper describes the compilation framework based on OSCAR compiler. It realizes coarse grain task parallel processing, data transfer using a DMA controller, power reduction control from user programs with DVFS and clock gating on various heterogeneous multicores from different vendors. This paper also evaluates processing performance and the power reduction by the proposed framework on a newly developed 15 core heterogeneous multicore chip named RP-X integrating 8 general purpose processor cores and 3 types of accelerator cores which was developed by Renesas Electronics, Hitachi, Tokyo Institute of Technology and Waseda University. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP(Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding.

  • A parallelizing compiler cooperative heterogeneous multicore processor architecture

    Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   6760   215 - 233  2011年

     概要を見る

    Heterogeneous multicore architectures, integrating several kinds of accelerator cores in addition to general purpose processor cores, have been attracting much attention to realize high performance with low power consumption. To attain effective high performance, high application software productivity, and low power consumption on heterogeneous multicores, cooperation between an architecture and a parallelizing compiler is important. This paper proposes a compiler cooperative heterogeneous multicore architecture and parallelizing compilation scheme for it. Performance of the proposed scheme is evaluated on the heterogeneous multicore integrating Hitachi and Renesas' SH4A processor cores and Hitachi's FE-GA accelerator cores, using an MP3 encoder. The heterogeneous multicore gives us 14.34 times speedup with two SH4As and two FE-GAs, and 26.05 times speedup with four SH4As and four FE-GAs against sequential execution with a single SH4A. The cooperation between the heterogeneous multicore architecture and the parallelizing compiler enables to achieve high performance in a short development period. © 2011 Springer-Verlag Berlin Heidelberg.

    DOI

  • Parallelizable C and Its Performance on Low Power High Performance Multicore Processors

    Masayoshi Mase, Yuto Onozaki, Keiji Kimura, Hironori Kasahara

    Proc. of 15th Workshop on Compilers for Parallel Computing (CPC 2010)    2010年07月  [査読有り]

  • 自動並列化のためのElement-Sensitiveポインタ解析

    間瀬正啓, 村田雄太, 木村啓二, 笠原博徳

    情報処理学会論文誌プログラミング(PRO)   3 ( 2 ) 36 - 47  2010年03月  [査読有り]

  • A 45nm 37.3GOPS/W heterogeneous multi-core SoC

    Yoichi Yuyama, Masayuki Ito, Yoshikazu Kiyoshige, Yusuke Nitta, Shigezumi Matsui, Osamu Nishii, Atsushi Hasegawa, Makoto Ishikawa, Tetsuya Yamada, Junichi Miyakoshi, Koichi Terada, Tohru Nojiri, Makoto Satoh, Hiroyuki Mizuno, Kunio Uchiyama, Yasutaka Wada, Keiji Kimura, Hironori Kasahara, Hideo Maejima

    Digest of Technical Papers - IEEE International Solid-State Circuits Conference   53   100 - 101  2010年

     概要を見る

    We develop a heterogeneous multi-core SoC for applications, such as digital TV systems with IP networks (IP-TV) including image recognition and database search. Figure 5.3.1 shows the chip features. This SoC is capable of decoding 1080i audio/video data using a part of SoC (one general-purpose CPU core, video processing unit called VPU5 and sound processing unit called SPU) [1]. Four dynamically reconfigurable processors called FE [2] are integrated and have a total theoretical performance of 41.5GOPS and power consumption of 0.76W. Two 1024-way matrix-processors called MX-2 [3] are integrated and have a total theoretical performance of 36.9GOPS and power consumption of 1.10W. Overall, the performance per watt of our SoC is 37.3GOPS/W at 1.15V, the highest among comparable processors [4-6] excluding special-purpose codecs. The operation granularity of the CPU, FE and MX-2 are 32bit, 16bit, and 4bit respectively, and thus we can assign the appropriate processor for each task in an effective manner. A heterogeneous multi-core approach is one of the most promising approaches to attain high performance with low frequency, or low power, for consumer electronics application and scientific applications, compared to homogeneous multi-core SoCs [4]. For example, for image-recognition application in the IP-TV system, the FEs are assigned to calculate optical flow operation [7] of VGA (640x480) size video data at 15fps, which requires 0.62GOPS. The MX-2s are used for face detection and calculation of the feature quantity of the VGA video data at 15fps, which requires 30.6GOPS. In addition, general-purpose CPU cores are used for database search using the results of the above operations, which requires further enhancement of CPU. The automatic parallelization compilers analyze parallelism of the data flow, generate coarse grain tasks, schedule tasks to minimize execution time considering data transfer overhead for general-purpose CPU and FE. ©2010 IEEE.

    DOI

  • OSCAR API for Real-Time Low-Power Multicores and Its Performance on Multicores and SMP Servers

    Keiji Kimura, Masayoshi Mase, Hiroki Mikami, Takamichi Miyamoto, Jun Shirako, Hironori Kasahara

    LANGUAGES AND COMPILERS FOR PARALLEL COMPUTING   5898   188 - 202  2010年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    OSCAR (Optimally Scheduled Advanced Multiprocessor) API has been designed for real-time embedded low-power multicores to generate parallel programs for various multicores from different vendors by using the OSCAR parallelizing compiler. The OSCAR API has been developed by Waseda University in collaboration with Fujitsu Laboratory, Hitachi, NEC, Panasonic, Renesas Technology, and Toshiba in an METI/NEDO project entitled "Multicore Technology for Realtime Consumer Electronics." By using the OSCAR API as an interface between the OSCAR compiler and backend compilers, the OSCAR compiler enables hierarchical multigrain parallel processing with memory optimization under capacity restriction for cache memory, local memory, distributed shared memory, and on-chip/off-chip shared memory; data transfer using a DMA controller; and power reduction control using DVFS (Dynamic Voltage and Frequency Scaling), clock gating, and power gating for various embedded multicores. In addition, a parallelized program automatically generated by the OSCAR, compiler with OSCAR API can be compiled by the ordinary OpenMP compilers since the OSCAR API is designed on a subset of the OpenMP. This paper describes the OSCAR API and its compatibility with the OSCAR compiler by showing code examples. Performance evaluations of the OSCAR compiler and the OSCAR. API are carried out using an IBM Power5+ workstation, an IBM Power6 high-end SMP server, and a newly developed consumer electronics multicore chip RP2 by Renesas, Hitachi and Waseda. From the results of scalability evaluation, it is found that on an average, the OSCAR compiler with the OSCAR API can exploit 5.8 times speedup over the sequential execution on the Power5+ workstation with eight cores and 2.9 times speedup on RP2 with four cores, respectively. In addition, the OSCAR compiler can accelerate an IBM XL Fortran compiler up to 3.3 times on the Power6 SMP server. Due to low-power optimization on RP2, the OSCAR compiler with the OSCAR API achieves a maximum power reduction of 84% in the real-time execution mode.

  • マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

    間瀬正啓, 中川亮, 大國直人, 白子準, 木村啓二, 笠原博徳

    情報処理学会論文誌コンピューティングシステム(ACS)   2 ( 3 ) 96 - 106  2009年09月  [査読有り]

  • マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

    中川亮, 間瀬正啓, 大國直人, 白子準, 木村啓二, 笠原博徳

    先進的計算基盤システムシンポジウム(SACSIS2009)     3 - 10  2009年05月

  • Performance of OSCAR Multigrain Parallelizing Compiler on Multicore Processors

    Hiroki Mikami, Jun Shirako, Masayoshi Mase, Takamichi Miyamoto, Hirofumi Nakano, Fumiyo Takano, Akihiro Hayashi, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    Proc. of 14th Workshop on Compilers for Parallel Computing(CPC 2009)    2009年01月  [査読有り]

  • Green multicore-SoC software-execution framework with timely-power-gating scheme

    Masafumi Onouchi, Keisuke Toyama, Toru Nojiri, Makoto Sato, Masayoshi Mase, Jun Shirako, Mikiko Sato, Masashi Takada, Masayuki Ito, Hiroyuki Mizuno, Mitaro Namiki, Keiji Kimura, Hironori Kasahara

    Proceedings of the International Conference on Parallel Processing     510 - 517  2009年

     概要を見る

    We are developing a software-execution framework based on an octo-core chip multiprocessor named RP2 and an automatic multigrain-parallelizing compiler named OSCAR. The main purpose of this framework is to maintain good speed scalability and power efficiency over the number of processor cores under severe hardware restrictions for embedded use. Key to the speed scalability is reduction of a communication overhead with parallelized tasks. A data-categorization scheme enables small-overhead cache-coherency maintenance by using directives and instructions from the compiler. In this scheme, the number of cache-flushing time is minimized and parallelized tasks are quickly synchronized by using flags in local memory. As regards power efficiency, to reduce power consumption, power supply to processor cores waiting for other cores is timely and frequently cut off, even in the middle of an application, by using a timelypower- gating scheme. In this scheme, to achieve quick mode transition between "NORMAL" mode and "RESUME POWEROFF" mode, register values of the processor core are stored in core-local memory, which is active even in "RESUME POWEROFF" mode and can be accessed in one or two clock cycles. Measured speed and power of an application show good speed scalability in execution time and high power efficiency, simultaneously. In the case of a secure AAC-LC encoding program, execution speed when eight processor cores are used can be increased by 4.85 times compared to that of sequential execution. Moreover, power consumption under the same condition can be reduced by 51.0% by parallelizing and timely-power gating. The time for mode transition is less than 20 μsec, which is only 2.5% of the "RESUME POWER-OFF" period. © 2009 IEEE.

    DOI

  • 情報家電用マルチコア並列化APIを生成する自動並列化コンパイラによる並列化の評価

    宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

    情報処理学会論文誌 コンピューティングシステム(ACS)   1 ( 3 ) 83 - 95  2008年12月  [査読有り]

     概要を見る

    マルチコアプロセッサは携帯機器,カーナビ,デジタルTV,ゲーム機等の情報家電向けの組み込み分野において低消費電力で高性能を得るために利用され始めている.一方,これらのマルチコアを有効利用可能なOSCAR自動並列化コンパイラが開発されている.このOSCARコンパイラによる最適化を複数種類のマルチコアに適用するために,OSCARコンパイラと各マルチコア用ネイティブコンパイラを接続できる並列化APIをNEDO “リアルタイム情報家電用マルチコア技術”プロジェクトで新規に開発した.本論文では各社情報家電用マルチコア向けに新規開発したAPIを用いて,並列化コンパイラが情報家電用マルチコア向けに生成したコードを,VLIWコアを4基集積の富士通FR1000マルチコア,およびルネサステクノロジ,日立製作所,早稲田大学で共同開発したSH-4Aコアを4基集積のRP1マルチコア上で並列性能評価を行った.情報家電機器上での高速化が重要となるコーデック,グラフィックス等のマルチメディア処理を対象として,FR1000マルチコアでは4プロセッサ時に1プロセッサ時に比べ平均で3.28倍,RP1マルチコアでは4プロセッサ時に1プロセッサ時に比べ平均で3.31倍という並列処理性能が得られた.さらにFR1000マルチコアでは新規開発したAPIを用いることでOpenMP API準拠の並列処理APIのみを用いたコードと比較して最大1.74倍の速度向上が得られた.Multicore processors are adopted for embedded systems like portable electronics, car navigation systems, digital TVs and games to obtain high performance and low power. Furthermore, OSCAR automatic parallelizing compiler has been developed to utilize these multicores. We newly develop consumer electronics multicore API, with support by NEDO “Multicore-processor Technology for Real-Time Consumer Electronics project”, to connect OSCAR compiler with native compilers for various kinds of multicores to apply optimization by OSCAR compiler. This paper evaluates parallel processing performances of multimedia applications using this API by OSCAR compiler on FR1000 4 VLIW cores multicore processor developed by Fujitsu Ltd, and RP1 4 SH-4A cores multicore processor jointly-developed by Renesas Technology Corp., Hitachi Ltd. and Waseda University. As the results, the developed API gives us 3.28 times speedup in average using 4 cores against using 1 core on FR1000 multicore, and 3.31 times speedup in average using 4 cores against using 1 core on RP1 multicore. Furthermore, the developed API gives us maximum of 1.74 times speedup against using only parallelization API which is compliant with OpenMP API on FR1000 multicore.

    CiNii

  • Parallelizing Compiler Cooperative Heterogeneous Multicore

    Yasutaka Wada, Akihiro Hayashi, Takeshi Masuura, Jun Shirako, Hirofumi Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    Proc. of Workshop on Software and Hardware Challenges of Manycore Platforms (SHCMP 2008)    2008年06月  [査読有り]

  • ヘテロジニアスマルチコア上でのスタティックスケジューリングを用いた MP3エンコーダの並列化

    和田康孝, 林明宏, 益浦健, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会論文誌コンピューティングシステム   1 ( 1 ) 105 - 119  2008年06月  [査読有り]

     概要を見る

    情報家電の市場拡大にともない,低消費電力でありながら高い性能を実現するプロセッサが求められるようになっている.この要求に対応するため,汎用プロセッサに加え,動的再構成可能プロセッサ(DRP)や信号処理用プロセッサ(DSP)等のアクセラレータを1チップ上に複数集積したヘテロジニアスマルチコアアーキテクチャが注目を集めている.このようなヘテロジニアスマルチコアにおいては,処理の特性やコア間のデータ転送を考慮して適切に各コアに処理を割り当てることが必要となる.本論文では,このようなヘテロジニアスマルチコア用の粗粒度タスクスタティックスケジューリング手法を提案する.本論文で提案するスタティックスケジューリング手法では,ループやサブルーチン,基本ブロック間の並列性を利用する粗粒度タスク並列処理において,各タスクがどのコアで実行可能か等の特性,各コア間でのデータ転送オーバヘッドを考慮して処理時間を最小とするように汎用コアあるいはアクセラレータに割り当て,さらにコア間でのデータ転送をDMAを用いてタスク処理とオーバラップして行う.これによりプログラムの階層的な並列性とチップ上のアクセラレータを有効に利用し,処理の高速化を図ることができる.本手法を用い,世界初のヘテロジニアス並列化コンパイラを開発しMP3エンコーダに適用し評価した結果,SH4A 1コアのみを用いた場合に対して,SH4A 4コアで3.99倍,SH4A 2コアとDRP 2コアで14.55倍,SH4A 4コアとDRP 4コアを用いたときに25.20倍の性能向上を得られることが確認できた.Heterogeneous multicore architectures integrating various kind of accelerators like dynamically reconfigurable processors (DRPs) or digital signal processors (DSPs) in addition to general purpose processor cores have attracted much attention to realize high performance with low power consumption. These heterogeneous multicores require scheduling schemes considering characteristics of tasks on each core and data transfers on chips. This paper proposes a static scheduling scheme for coarse grain task parallel processing on a heterogeneous multicore processor with overlapping data transfer and task execution. In the proposed scheme, the compiler extracts parallelism using coarse grain parallel processing and assigns tasks considering characteristics on each core to minimize the execution time of an application. Performance of the proposed scheme is evaluated on a heterogeneous multicore processor using an MP3 encoder. Heterogeneous configurations give us 14.55 times speedup with two SH4As and two DRPs and 25.20 times speedup with four SH4As and four DRPs against sequential execution with one SH4A core.

    CiNii

  • 情報家電用マルチコア上におけるマルチメディア処理のコンパイラによる並列化

    宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

    SACSIS2008 - 先進的計算基盤システムシンポジウム    2008年05月

  • Power-aware compiler controllable chip multiprocessor

    Hiroaki Shikano, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    IEICE TRANSACTIONS ON ELECTRONICS   E91C ( 4 ) 432 - 439  2008年04月  [査読有り]

     概要を見る

    A power-aware compiler controllable chip multiprocessor (CMP) is presented and its performance and power consumption are evaluated with the optimally scheduled advanced multiprocessor (OSCAR) parallelizing compiler. The CMP is equipped with power control registers that change clock frequency and power supply voltage to functional units including processor cores, memories, and an interconnection network. The OSCAR compiler carries out coarse-grain task parallelization of programs and reduces power consumption using architectural power control support and the compiler's power saving scheme. The performance evaluation shows that MPEG-2 encoding on the proposed CMP with four CPUs results in 82.6% power reduction in real-time execution mode with a deadline constraint on its sequential execution time. Furthermore, MP3 encoding on a heterogeneous CMP with four CPUs and four accelerators results in 53.9% power reduction at 21.1-fold speed-up in performance against its sequential execution in the fastest execution mode.

    DOI

  • Heterogeneous multi-core architecture that enables 54x AAC-LC stereo encoding

    Hiroaki Shikano, Masaki Ito, Masafumi Onouchi, Takashi Todaka, Takanobu Tsunoda, Tomoyuki Kodama, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yusuke Nitta, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    IEEE JOURNAL OF SOLID-STATE CIRCUITS   43 ( 4 ) 902 - 910  2008年04月  [査読有り]

     概要を見る

    This paper describes a heterogeneous multi-core processor (HMCP) architecture that integrates general-purpose processors (CPUs) and accelerators (ACCs) to achieve exceptional performance as well as low-power consumption for the SoCs of embedded systems. The memory architectures of CPUs and ACCs were unified to improve programming and compiling efficiency. Advanced audio codec-low complexity (AAC-LC) stereo audio encoding was parallelized on a heterogeneous multi-core having homogeneous processor cores and dynamically reconfigurable processor (DRP) ACC cores in a preliminary evaluation of the HMCP architecture. The performance evaluation revealed that 54x AAC encoding was achieved on the chip with two CPUs at 600 MHz and two DRPs at 300 MHz, which achieved encoding of an entire CD within 1-2 min.

    DOI

  • An 8 CPU SoC with Independent Power-off Control of CPUs and Multicore Software Debug Function

    Yutaka Yoshida, Masayuki Ito, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Toshihiro Hattori, Jun Sakiyama, Masashi Takada, Kunio Uchiyama, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

    Proc. of IEEE Cool Chips XI: Symposium on Low-Power and High-Speed Chips 2008    2008年04月  [査読有り]

  • A 600MHz SoC with Compiler Power-off Control of 8 CPUs and 8 Onchip-RAMs

    Masayuki Ito, Toshihiro Hattori, Yutaka Yoshida, Kiyoshi Hayase, Tomoichi Hayashi, Osamu Nishii, Yoshihiko Yasu, Atsushi Hasegawa, Masashi Takada, Masaki Ito, Hiroyuki Mizuno, Kunio Uchiyama, Toshihiko Odaka, Jun Shirako, Masayoshi Mase, Keiji Kimura, Hironori Kasahara

    Proc. of International Solid State Circuits Conference (ISSCC2008)     90 - 91  2008年02月  [査読有り]

  • Performance evaluation of compiler controlled power saving scheme

    Jun Shirako, Munehiro Yoshida, Naoto Oshiyama, Yasutaka Wada, Hirofurni Nakano, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    HIGH-PERFORMANCE COMPUTING   4759   480 - 493  2008年  [査読有り]

     概要を見る

    Multicore processors, or chip multiprocessors, which allow us to realize low power consumption, high effective performance, good cost performance and short hardware/software development period, are attracting much attention. In order to achieve full potential of multicore processors, cooperation with a parallelizing compiler is very important. The latest compiler extracts multilevel parallelism, such as coarse grain task parallelism, loop parallelism and near fine grain parallelism, to keep parallel execution efficiency high. It also controls voltage and clock frequency of processors carefully to reduce energy consumption during execution of an application program. This paper evaluates performance of compiler controlled power saving scheme which has been implemented in OSCAR multigrain parallelizing compiler. The developed power saving scheme realizes voltage/frequency control and power shutdown of each processor core during coarse grain task parallel processing. In performance evaluation, when static power is assumed as one-tenth of dynamic power, OSCAR compiler with the power saving scheme achieved 61.2 percent energy reduction for SPEC CFP95 applu without performance degradation on 4 processors and 87.4 percent energy reduction for mpeg2encode, 88.1 percent energy reduction for SPEC CFP95 tomcatv and 84.6 percent energy reduction for applu with real-time deadline constraint on 4 processors.

  • Software-cooperative power-efficient heterogeneous multi-core for media processing

    Hiroaki Shikano, Masaki Ito, Kunio Uchiyama, Toshihiko Odaka, Akihiro Hayashi, Takeshi Masuura, Masayoshi Mase, Jun Shirako, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    2008 ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE, VOLS 1 AND 2     712 - +  2008年  [査読有り]

     概要を見る

    A heterogeneous multi-core processor (HMCP) architecture, which integrates general purpose processors (CPU) and accelerators (ACC) to achieve high-performance as well as low-power consumption with the support of a parallelizing compiler, was developed. The evaluation was performed using an MP3 audio encoder on a simulator that accurately models the HMCP, It showed that 16-frame encoding on the HMCP with four CPUs and four ACCs yielded 24.5-fold speed-up of performance against sequential execution on one CPU. Furthermore, power saving by the compiler reduced energy consumption of the encoding to 0.17 J, namely, by 28.4%.

  • Power Reduction Controll for Multicores in OSCAR Multigrain Parallelizing Compiler

    Jun Shirako, Keiji Kimura, Hironori Kasahara

    ISOCC: 2008 INTERNATIONAL SOC DESIGN CONFERENCE, VOLS 1-3     50 - 55  2008年  [査読有り]

     概要を見る

    Multicore processors have become mainstream computer architecture to go beyond the performance and power efficiency limits of single-core processors. To achieve low power consumption and high performance on multicores, parallelizing compilers take on an important role. This paper describes the performance of a compiler-based power reduction scheme cooperating with OSCAR multigrain parallelizing compiler on a newly developed 8-way SH4A low power multicore chip for consumer electronics, which supports DVFS (Dynamic Voltage and Frequency Scaling) and Clock/Power Gating. Using hardware parameters and parallelized program information, OSCAR compiler determines suitable voltage and frequency of each active processor core and appropriate schedule of clock gating and power gating. Performance experiments shows the compiler reduces consumed power by 88.3%, namely from 5.68 W to 0.67 W, for real-time secure AAC Encoding and 73.5%, namely from 5.73 W to 1.52 W, for real-time MPEG2 Decoding on 8 core execution.

  • Parallelization with Automatic Parallelizing Compiler Generating Consumer Electronics Multicore API

    Takamichi Miyamoto, Saori Asaka, Hiroki Mikami, Masayoshi Mase, Yasutaka Wada, Hirofumi Nakano, Keiji Kimura, Hironori Kasahara

    PROCEEDINGS OF THE 2008 INTERNATIONAL SYMPOSIUM ON PARALLEL AND DISTRIBUTED PROCESSING WITH APPLICATIONS     600 - 607  2008年  [査読有り]

     概要を見る

    Multicore processors have been adopted for consumer electronics like portable electronics, mobile phones, car navigation systems, digital TVs and games to obtain high performance with low power consumption. The OSCAR automatic parallelizing compiler has been developed to utilize these multicores easily. Also, a new Consumer Electronics Multicore Application Program Interface (API) to use the OSCAR compiler with native sequential compilers for various kinds of multicores from different vendors has been developed in NEDO (New Energy and Industrial Technology Development Organization) "Multicore Technology for Realtime Consumer Electronics" project with Japanese 6 IT companies. This paper evaluates the parallel processing performance of multimedia applications using this API by the OSCAR compiler on the FR1000 4 VLIW cores multicore processor developed by Fujitsu Ltd, and the RP1 4 SH-4A cores multicore processor jointly-developed by Renesas Technology Corp., Hitachi Ltd. and Waseda University. As the results, the parallel codes generated by the OSCAR compiler using the API give us 3.27 times speedup on average using 4 cores against 1 core on the FR1000 multicore, and 3.31 times speedup on average using 4 cores against 1 core on the RP1 multicore.

    DOI

  • 情報家電用マルチコアSMP実行モードにおける制約付きCプログラムのマルチグレイン並列化

    間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

    組込みシステムシンポジウム2007    2007年10月

  • MP3エンコーダを用いたOSCARヘテロジニアスチップマルチプロセッサの性能評価

    鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

    情報処理学会論文誌コンピューティングシステム   Vol. 48, No. SIG8(ACS18),   141 - 152  2007年05月  [査読有り]

  • A 4320MIPS four-processor core SMP/AMP with individually managed clock frequency for low power consumption

    Yutaka Yoshida, Tatsuya Kamei, Kiyoshi Hayase, Shinichi Shibahara, Osamu Nishii, Toshihiro Hattori, Atsushi Hasegawa, Masashi Takada, Naohiko Irie, Kunio Uchiyama, Toshihiko Odaka, Kiwamu Takada, Keiji Kimura, Hironori Kasahara

    Digest of Technical Papers - IEEE International Solid-State Circuits Conference     95 - 590  2007年

     概要を見る

    A 4320MIPS four-core SoC that supports both SMP and AMP for embedded applications is designed in 90nm CMOS. Each processor-core can be operated with a different frequency dynamically including clock stop, while keeping data cache coherency, to maintain maximum processing performance and to reduce average operating power. The 97.6mm2 die achieves a floating-point performance of 16.8GFLOPS. © 2007 IEEE.

    DOI

  • Heterogeneous multiprocessor on a chip which enables 54x AAC-LC stereo encoding

    Masaki Ito, Takashi Todaka, Takanobu Tsunoda, Hiroshi Tanaka, Tomoyuki Kodama, Hiroaki Shikano, Masafumi Onouchi, Kunio Uchiyama, Toshihiko Odaka, Tatsuya Kamei, Ei Nagahama, Manabu Kusaoke, Yusuke Nitta, Yasutaka Wada, Keiji Kimura, Hironori Kasahara

    2007 Symposium on VLSI Circuits, Digest of Technical Papers     18 - 19  2007年  [査読有り]

     概要を見る

    A heterogeneous multiprocessor on a chip has been designed and implemented. It consists of 2 CPUs and 2 DRPs (Dynamic Reconfigurable Processors). The design of DRP was intended to achieve high-performance in a small area to be integrated on a SoC for embedded systems. Memory architecture of CPUs and DRPs were unified to improve programming and compiling efficiency. 54x AAC-LC stereo encoding has been enabled with 2 DRPs at 300MHz and 2 CPUs at 600MHz.

  • マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

    白子準, 吉田宗弘, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会論文誌コンピューティングシステム   Vol. 47(ACS15)  2006年09月  [査読有り]

  • マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

    白子準, 吉田宗広, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    先進的計算基盤システムシンポジウム(SACSIS2006)   ( 467 ) 476  2006年05月

  • Performance Evaluation of Heterogeneous Chip Multi-Processor with MP3 Audio Encoder

    Hiroaki Shikano, Yuki Suzuki, Yasutaka Wada, Jun Shirako, Keiji Kimura, Hironori Kasahara

    Proc. of IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX)     349 - 363  2006年05月  [査読有り]

  • Compiler control power saving scheme for multi core processors

    Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   4339   362 - 376  2006年

     概要を見る

    With the increase of transistors integrated onto a chip, multi core processor architectures have attracted much attention to achieve high effective performance, shorten development period and reduce the power consumption. To this end, the compiler for a multi core processor is expected not only to parallelize program effectively, but also to control the voltage and clock frequency of processors and storages carefully inside an application program. This paper proposes a compilation scheme for reduction of power consumption under the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each processor core on a chip. In the evaluation, the OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu without performance degradation on 4 processors, and 45.4 percent energy savings for SPEC CFP95 tomcatv with real-time deadline constraint on 4 processors, and 46.5 percent energy savings for SPEC CFP95 swim with the deadline constraint on 4 processors. © 2006 Springer-Verlag Berlin Heidelberg.

    DOI

  • マルチコアにおけるプログラミング

    木村啓二, 笠原博徳

    情報処理   47 ( 1 ) 17 - 23  2006年01月  [招待有り]

    担当区分:筆頭著者

  • マルチコア化するマイクロプロセッサ

    笠原博徳, 木村啓二

    情報処理   47 ( 1 ) 10 - 16  2006年01月  [査読有り]

  • Parallelizing Compilation Scheme for Reduction of Power Consumption of Chip Multiprocessors

    Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    Proc. of 12th Workshop on Compilers for Parallel Computers (CPC 2006),    2006年01月  [査読有り]

  • Compiler control power saving scheme for multi core processors

    Jun Shirako, Naoto Oshiyama, Yasutaka Wada, Hiroaki Shikano, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   4339   362 - 376  2006年

     概要を見る

    With the increase of transistors integrated onto a chip, multi core processor architectures have attracted much attention to achieve high effective performance, shorten development period and reduce the power consumption. To this end, the compiler for a multi core processor is expected not only to parallelize program effectively, but also to control the voltage and clock frequency of processors and storages carefully inside an application program. This paper proposes a compilation scheme for reduction of power consumption under the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each processor core on a chip. In the evaluation, the OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu without performance degradation on 4 processors, and 45.4 percent energy savings for SPEC CFP95 tomcatv with real-time deadline constraint on 4 processors, and 46.5 percent energy savings for SPEC CFP95 swim with the deadline constraint on 4 processors. © 2006 Springer-Verlag Berlin Heidelberg.

    DOI

  • マルチコアプロセッサ上でのデータローカライゼーション

    中野啓文, 浅野尚一郎, 内藤陽介, 仁藤拓実, 田川友博, 宮本孝道, 小高剛, 木村啓二, 笠原博徳

    情報処理学会研究報告   ARC2005-165-10  2005年12月

  • チップマルチプロセッサ上でのMPEG2エンコードの並列処理

    小高剛, 中野啓文, 木村啓二, 笠原博徳

    情報処理学会論文誌   46 ( 9 ) 2311 - 2325  2005年09月  [査読有り]

  • ホモジニアスマルチコアにおけるコンパイラ制御低消費電力化手法

    白子準, 押山直人, 和田康孝, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会研究報告   ARC2005-164-10 (SWoPP205)  2005年08月

  • Performance of OSCAR multigrain parallelizing compiler on SMP servers

    K Ishizaka, T Miyamoto, J Shirako, M Obata, K Kimura, H Kasahara

    LANGUAGES AND COMPILERS FOR HIGH PERFORMANCE COMPUTING   3602   319 - 331  2005年  [査読有り]

     概要を見る

    This paper describes performance of OSCAR multigrain parallelizing compiler on various SMP servers, such as IBM pSeries 690, Sun Fire V880, Sun Ultra 80, NEC TX7/i6010 and SGI Altix 3700. The OSCAR compiler hierarchically exploits the coarse grain task parallelism among loops, subroutines and basic blocks and the near fine grain parallelism among statements inside a basic block in addition to the loop parallelism. Also, it allows us global cache optimization over different loops, or coarse grain tasks, based on data localization technique with interarray padding to reduce memory access overhead. Current performance of OSCAR compiler is evaluated on the above SMP servers. For example, the OSCAR compiler generating OpenMP parallelized programs from ordinary sequential Fortran programs gives us 5.7 times speedup, in the average of seven programs, such as SPEC CFP95 tomcatv, swim, su2cor, hydro2d, mgrid, applu and turb3d, compared with IBM XL Fortran compiler 8.1 on IBM pSeries 690 24 processors SMP server. Also, it gives us 2.6 times speedup compare with Intel Fortran Itanium Compiler 7.1 on SGI Altix 3700 Itanium 2 16 processors server, 1.7 times speedup compared with NEC Fortran Itanium Compiler 3.4 on NEC TX7/i6010 Itanium 2 8 processors server, 2.5 times speedup compared with Sun Forte 7.0 on Sun Ultra 80 UltraSPARC II4 processors desktop work-station, and 2.1 times speedup compare with Sun Forte compiler 7.1 on Sun Fire V880 UltraSPARC III Cu 8 processors server.

  • Performance of OSCAR multigrain parallelizing compiler on SMP servers

    K Ishizaka, T Miyamoto, J Shirako, M Obata, K Kimura, H Kasahara

    LANGUAGES AND COMPILERS FOR HIGH PERFORMANCE COMPUTING   3602   319 - 331  2005年  [査読有り]

     概要を見る

    This paper describes performance of OSCAR multigrain parallelizing compiler on various SMP servers, such as IBM pSeries 690, Sun Fire V880, Sun Ultra 80, NEC TX7/i6010 and SGI Altix 3700. The OSCAR compiler hierarchically exploits the coarse grain task parallelism among loops, subroutines and basic blocks and the near fine grain parallelism among statements inside a basic block in addition to the loop parallelism. Also, it allows us global cache optimization over different loops, or coarse grain tasks, based on data localization technique with interarray padding to reduce memory access overhead. Current performance of OSCAR compiler is evaluated on the above SMP servers. For example, the OSCAR compiler generating OpenMP parallelized programs from ordinary sequential Fortran programs gives us 5.7 times speedup, in the average of seven programs, such as SPEC CFP95 tomcatv, swim, su2cor, hydro2d, mgrid, applu and turb3d, compared with IBM XL Fortran compiler 8.1 on IBM pSeries 690 24 processors SMP server. Also, it gives us 2.6 times speedup compare with Intel Fortran Itanium Compiler 7.1 on SGI Altix 3700 Itanium 2 16 processors server, 1.7 times speedup compared with NEC Fortran Itanium Compiler 3.4 on NEC TX7/i6010 Itanium 2 8 processors server, 2.5 times speedup compared with Sun Forte 7.0 on Sun Ultra 80 UltraSPARC II4 processors desktop work-station, and 2.1 times speedup compare with Sun Forte compiler 7.1 on Sun Fire V880 UltraSPARC III Cu 8 processors server.

  • Multigrain parallel processing on compiler cooperative chip multiprocessor

    K Kimura, Y Wada, H Nakano, T Kodaka, J Shirako, K Ishizaka, H Kasahara

    9TH ANNUAL WORKSHOP ON INTERACTION BETWEEN COMPILERS AND COMPUTER ARCHITECTURES, PROCEEDINGS     11 - 20  2005年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    This paper describes multigrain parallel processing on a compiler cooperative chip multiprocessor The multigrain parallel processing hierarchically exploits multiple grains of parallelism such as coarse grain task parallelism, loop iteration level parallelism and statement level near-fine grain parallelism. The chip multiprocessor has been designed to attain high effective peformance, cost effectiveness and high software productivity by supporting the optimizations of the multigrain parallelizing compiler, which is developed by Japanese Millennium Project IT21 "Advance Parallelizing Compiler". To achieve full potential of multigrain parallel processing, the chip multiprocessor integrates simple single-issue processors having distributed shared data memory for both optimal use of data locality and scalar data transfer local data memory for processor private data, in addition to centralized shared memory for shared data among processors. This paper focuses on the scalability of the chip multiprocessor having up to eight processors on a chip by exploiting of the multigrain parallelism from SPECfp95 programs. When microSPARC like the simple processor core is used under assumption of 90 nm technology and 2.8 GHz, the evaluation results show the speedups for eight processors and four processors reach 7.1 and 3.9, respectively. Similarly, when 400 MHz is assumed for embedded usage, the speedups reach 7.8 and 4.0, respectively.

  • Memory Management for Data Localication on OSCAR Chip Multiprocessor

    Hirofumi Nakano, Takeshi Kodaka, Keiji Kimura, Hironori Kasahara

    Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'04)     82 - 88  2004年  [査読有り]

  • Parallel processing using data localization for MPEG2 encoding on OSCAR chip multiprocessor

    T Kodaka, H Nakano, K Kimura, H Kasahara

    INNOVATIVE ARCHITECTURE FOR FUTURE GENERATION HIGH-PERFORMANCE PROCESSORS AND SYSTEMS, PROCEEDINGS     119 - 127  2004年  [査読有り]

     概要を見る

    Currently, many people are enjoying multimedia applications with image and audio processing on PCs, PDAs, mobile phones and so on. With the popularization of the multimedia applications, needs for low cost, low power consumption and high performance processors has been increasing. To this end, chip multiprocessor architectures which allow us to attain scalable performance improvement by using multigrain parallelism are attracting much attention. However, in order to extract higher performance on a chip multiprocessor, more sophisticated software techniques are required, such as decomposing a program into adequate grain of tasks, assigning them onto processors considering parallelism, data locality optimization and so on. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which improve execution efficiency assigning coarse grain tasks sharing same data on a same processor consecutively for a chip multiprocessor. The performance evaluation on OSCAR chip multiprocessor architecture shows that proposed scheme gives us 6.97 times speedup using 8 processors and 10.93 times speedup using 16 processors against sequential execution time respectively. Moreover, the proposed scheme gives us 1.61 times speedup using 8 processors and 2.08 times speedup using 16 processors against loop parallel processing which has been widely used for multiprocessor systems using the same number of processors.

  • Static coarse grain task scheduling with cache optimization using OpenMP

    H Nakano, K Ishizaka, M Obata, K Kimura, H Kasahara

    INTERNATIONAL JOURNAL OF PARALLEL PROGRAMMING   31 ( 3 ) 211 - 223  2003年06月  [査読有り]

     概要を見る

    Effective use of cache memory is getting more important with increasing gap between the processor speed and memory access speed. Also, use of multigrain parallelism is getting more important to improve effective performance beyond the limitation of loop iteration level parallelism. Considering these factors, this paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme schedules coarse grain tasks to threads so that shared data among coarse grain tasks can be passed via cache after task and data decomposition considering cache size at compile time. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP workstation using Swim and Tomcatv from the SPEC fp 95. As the results, the proposed scheme gives us 4.56 times speedup for Swim and 2.37 times on 4 processors for Tomcatv respectively against the Sun Forte HPC Ver. 6 update 1 loop parallelizing compiler.

  • Multigrain Parallel Processing on Compiler Cooperative OSCAR Chip Multiprocessor Architecture 'Jointly Worked'

    Keiji Kimura, Yasutaka Wada, Hirofumi Nakano, Takeshi Kodaka, Jun Shirako, Kazuhisa Ishizaka, Hironori Kasahara

    The IEICE Transactions on Electronics, Special Issue on High-Performance and Low-Power System LSIs and Related Technologies   E86-C ( 4 ) 570 - 579  2003年02月  [査読有り]

    担当区分:筆頭著者

  • Multigrain parallel processing on OSCAR CMP

    K Kimura, T Kodaka, M Obata, H Kasahara

    INNOVATIVE ARCHITECTURE FOR FUTURE GENERATION HIGH-PERFORMANCE PROCESSORS AND SYSTEMS     56 - 65  2003年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    It seems that Instruction Level Parallelism (ILP) approach, which has been used by various superscalar processors and VLIW processors for a long time, reaches its limitation of performance improvement. To obtain scalable performance improvement, cost effectiveness and high productivity even in the era of one billion transistors, the cooperative work between software and hardware is getting increasingly important. For this reason, the authors have developed OSCAR (Optimally SCheduled Advanced multiprocessoR) Chip Multiprocessor (OSCAR CMP) and OSCAR multigrain compiler simultaneously. To preserve the scalability in the future, OSCAR CMP has mechanisms for efficient use of parallelism and data locality, and for hiding data transfer overhead. These mechanisms can be fully controlled by the OSCAR multigrain compiler In this paper, the authors focus on multigrain parallel processing on OSCAR CMP, which enables us to exploit loop iteration level parallelism and coarse grain task parallelism in addition to ILP from the entire of a program. Performance of multigrain parallel processing on OSCAR CMP architecture is evaluated using SPEC fp 2000195 benchmark suite. When microSPARC like single issue core is used, OSCAR CMP gives us from 1.77 to 3.96 times speedup for four processors against single processor In addition, OSCAR CMP is compared with Sun UltraSPARC II like processor to evaluate cost effectiveness. As a result, OSCAR CMP gives us 1.66 times better performance on the average under the condition that OSCAR CMP and UltraSPARC II are built from almost same number of transistors.

  • シングルチップマルチプロセッサにおけるJPEGエンコーディングのマルチグレイン並列処理

    小高剛, 内田貴之, 木村啓二, 笠原博徳

    情報処理学会ハイパフォーマンスコンピューティングシステム論文誌   43 ( Sig 6(HPS5) ) 153 - 162  2002年09月  [査読有り]

     概要を見る

    近年のJPEG,MPEGなどを用いたマルチメディアコンテンツの増加にともない,これらマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高性能なプロセッサの開発が望まれている.特に,複数のプロセッサコアを搭載したシングルチップマルチプロセッサは命令レベル以外の並列性も自然に引き出すことができ集積度向上に対しスケーラブルな性能向上が得られるアーキテクチャとして注目されている.本論文では,JPEGエンコーディングのシングルチップマルチプロセッサ用マルチグレイン並列処理手法を提案するとともに,その性能評価を行う.評価の結果,シンプルなシングルイシュープロセッサを4基搭載したOSCAR型シングルチップマルチプロセッサアーキテクチャでは逐次実行に対して約3.59倍の性能向上が得られスケーラブルな性能向上が得られることが確かめられた.

    CiNii

  • シングルチップマルチプロセッサにおける JPEGエンコーディングのマルチグレイン並列処理 (共著)

    小高剛, 内田貴之, 木村啓二, 笠原博徳

    情報処理学会並列処理シンポジウム(JSPP2002)    2002年05月

  • Static coarse grain task scheduling with cache optimization using openMP

    Hirofumi Nakano, Kazuhisa Ishizaka, Motoki Obata, Keiji Kimura, Hironori Kasahara

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   2327   479 - 489  2002年

     概要を見る

    Effective use of cache memory is getting more important with increasing gap between the processor speed and memory access speed. Also, use of multigrain parallelism is getting more important to improve effective performance beyond the limitation of loop iteration level parallelism. Considering these factors, this paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme schedules coarse grain tasks to threads so that shared data among coarse grain tasks can be passed via cache after task and data decomposition considering cache size at compile time. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP workstation, using Swim and Tomcatv from the SPEC fp 95. As the results, the proposed scheme gives us 4.56 times speedup for Swim and 2.37 times on 4 processors for Tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler. © 2002 Springer Berlin Heidelberg.

    DOI

  • Multigrain parallel processing for JPEG encoding on a single chip multiprocessor

    T Kodaka, K Kimura, H Kasahara

    INTERNATIONAL WORKSHOP ON INNOVATIVE ARCHITECTURE FOR FUTURE GENERATION HIGH-PERFORMANCE PROCESSORS AND SYSTEMS     57 - 63  2002年  [査読有り]

     概要を見る

    With the recent increase of multimedia contents using JPEG and MPEG, low cost, low power consumption and high performance processors for multimedia application have been expected. Particularly, single chip multiprocessor architecture having simple processor cores that will attain good scalability and cost effectiveness is attracting much attention. To exploit full performance of single chip multiprocessor architecture, multigrain parallel processing, which exploits coarse grain task parallelism, loop parallelism and instruction level parallelism, is attractive. This paper describes a multigrain parallel processing scheme for the JPEG encoding on a single chip multiprocessor and its performance. The evaluation shows an OSCAR type single chip multiprocessor having four single-issue simple processor cores gave us 3.59 times speed-up against sequential execution time.

  • Multigrain automatic parallelization in Japanese Millennium Project IT21 Advanced Parallelizing Compiler

    H Kasahara, M Obata, K Ishizaka, K Kimura, H Kaminaga, H Nakano, K Nagasawa, A Murai, H Itagaki, J Shirako

    PAR ELEC 2002: INTERNATIONAL CONFERENCE ON PARALLEL COMPUTING IN ELECTRICAL ENGINEERING     105 - 111  2002年  [査読有り]

     概要を見る

    This paper describes OSCAR multigrain parallelizing compiler which has been developed in Japanese Millennium Project IT21 "Advanced Parallelizing Compiler" project and its performance on SMP machines. The compiler realizes multigrain parallelization for chip-multiprocessors to high-end servers. It hierarchically exploits coarse grain task parallelism among loops, subroutines and basic blocks and near fine grain parallelism among statements inside a basic block in addition to loop parallelism. Also, it globally optimizes cache use over different loops, or coarse grain tasks, based on data localization technique to reduce memory access overhead Current performance of OSCAR compiler for SPEC95fp is evaluated on different SMPs. For example, it gives us 3.7 times speedup for HYDRO2D, 1.8 times for SWIM, 1.7 times for SU2COR, 2.0 times for MGRID, 3.3 times for TURB3D on 8 processor IBM RS6000, against XL Fortran compiler ver:7.1 and 4.2 times speedup for SWIM and 2.2 times speedup for TURB3D on 4 processor Sun Ultra80 workstation against Forte6 update 2.

  • 近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの評価

    木村啓二, 加藤孝幸, 笠原博徳

    情報処理学会論文誌   42 ( 4 ) 692 - 703  2001年04月  [査読有り]

    担当区分:筆頭著者

  • Evaluation of Single Chip Multiprocessor Core Architecture with Near Fine Grain Parallel Processing

    Keiji Kimura, Hironori Kasahara

    Proc. of International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems (IWIA'01)    2001年01月  [査読有り]

    担当区分:筆頭著者

  • シングルチップマルチプロセッサ上での近細粒度並列処理

    木村啓二, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会論文誌   40 ( 5 ) 1924 - 1934  1999年05月  [査読有り]

    担当区分:筆頭著者

  • Near fine grain parallel processing using static scheduling on single chip multiprocessors

    Keiji Kimura, Hironori Kasahara

    Proceedings of the Innovative Architecture for Future Generation High-Performance Processors and Systems   1999-   23 - 31  1999年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    With the increase of the number of transistors integrated on a chip, efficient use of transistors and scalable improvement of effective performance of a processor are getting im-portant problems. However, it has been thought that popular superscalar and VLIW would have difficulty to obtain scalable improvement of effective performance in future because of the limitation of instruction level parallelism. To cope with this problem, a single chip multiprocessor (SCM) approach with multi grain parallel processing inside a chip, which hierarchically exploits loop parallelism and coarse grain parallelism among subroutines, loops and basic blocks in addition to instruction level parallelism, is thought one of the most promising approaches. This paper evaluates effectiveness of the single chip multiprocessor architectures with a shared cache, global registers, distributed shared memory and/or local memory for near fine grain parallel processing as the first step of research on SCM architecture to support multi grain parallel processing. The evaluation shows OSCAR (Optimally Scheduled Advanced Multiprocessor) architecture having distributed shared memory and local memory in addition to centralized shared memory and attachment of global register gives us significant speed up such as 13.8% to 143.8% for four pro-cessors compared with shared cache architecture for applications which have been difficult to extract parallelism effectively.

    DOI

  • OSCAR multi-grain architecture and its evaluation

    H Kasahara, W Ogata, K Kimura, G Matsui, H Matsuzaki, M Okamoto, A Yoshida, H Honda

    INNOVATIVE ARCHITECTURE FOR FUTURE GENERATION HIGH-PERFORMANCE PROCESSORS AND SYSTEMS, PROCEEDINGS     106 - 115  1998年  [査読有り]

     概要を見る

    OSCAR (Optimally Scheduled Advanced Multiprocessor) was designed to efficiently realize multi-grain parallel processing using static and dynamic scheduling. It is a shared memory multiprocessor system having centralized and distributed shared memories in addition to local memory on each processor with data transfer controller for overlapping of data transfer and task processing. Also, its Fortran multi-grain compiler hierarchically exploits coarse grain parallelism among loops, subroutines and basic blocks, conventional medium grain parallelism among loop-iterations in a Doall loop and near fine grain parallelism among statements. At the coarse grain parallel processing, data localization (automatic data distribution) have been employed to minimize data transfer overhear. In the near fine grain processing of a basic block, explicit synchronization can be removed by use of a clock level accurate code scheduling technique with architectural supports. This paper describes OSCAR's architecture, its compiler and the performance for the multi-grain parallel processing. OSCAR's architecture and compilation technology will be more important in future High Performance Computers and single chip multiprocessors.

  • Data-Localization among Doall and Sequential Loops in Coarse Grain Parallel Processing

    Akimasa Yoshida, Yasushi Ujigawa, Motoki Obata, Keiji Kimura, Hironori Kasahara

    Seventh Workshop on Compilers for Parallel Computers Linkoping Sweden     266 - 277  1998年01月  [査読有り]

  • Near Fine Grain Parallel Processing without Explicit Synchronization on a Multiprocessor System

    Wataru Ogata, Akimasa Yoshida, Masami Okamoto, Keiji Kimura, Hironori Kasahara

    Proc. of Sixth Workshop on Compilers for Parallel Computers (Aachen Germany)    1996年12月  [査読有り]

▼全件表示

Misc

  • 自動並列化コンパイラのコンパイル時間短縮のための実行プロファイル・フィードバックを用いたコード生成手法 (コンピュータシステム) -- (組込み技術とネットワークに関するワークショップETNET2017)

    藤野 里奈, 韓 吉新, 島岡 護, 見神 広紀, 宮島 崇浩, 高村 守幸, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 510 ) 207 - 212  2017年03月

    CiNii

  • 自動車リアルタイム制御計算の複数クラスタ構成マルチコア上での並列化 (コンピュータシステム) -- (組込み技術とネットワークに関するワークショップETNET2017)

    宮田 仁, 島岡 護, 見神 広紀, 西 博史, 鈴木 均, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 510 ) 177 - 182  2017年03月

    CiNii

  • 大規模システムを想定したGem5シミュレータの階層的インターコネクションネットワーク拡張 (コンピュータシステム) -- (組込み技術とネットワークに関するワークショップETNET2017)

    小野口 達也, 林 綾音, 宇高 勝之, 松島 裕一, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 510 ) 147 - 152  2017年03月

    CiNii

  • LLVMを用いたベクトルアクセラレータ用コードのコンパイル手法 (コンピュータシステム)

    丸岡 晃, 無州 祐也, 狩野 哲史, 持山 貴司, 北村 俊明, 神谷 幸男, 高村 守幸, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 177 ) 19 - 24  2016年08月

    CiNii

  • Android Video Processing System Combined with Automatically Parallelized and Power Optimized Code by OSCAR Compiler

    Bui Duc Binh, Tomohiro Hirano, Hiroki Mikami, Hideo Yamamoto, Keiji Kimura, Hironori Kasahara

    情報処理学会論文誌   57 ( 4 )  2016年04月

     概要を見る

    The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of real-time video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext-A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.\n------------------------------This is a preprint of an article intended for publication Journal ofInformation Processing(JIP). This preprint should not be cited. Thisarticle should be cited as: Journal of Information Processing Vol.24(2016) No.3 (online)------------------------------The emergence of multi-core processors in smart devices promises higher performance and low power consumption. The parallelization of applications enables us to improve their performance. However, simultaneously utilizing many cores would drastically drain the device battery life. This paper shows a demonstration system of real-time video processing combined with power reduction controlled by the OSCAR automatic parallelization compiler on ODROID-X2, an open Android development platform based on Samsung Exynos4412 Prime with 4 ARM Cortext-A9 cores. In this paper, we exploited the DVFS framework, core partitioning, and profiling technique and OSCAR parallelization - power control algorithm to reduce the total consumption in a real-time video application. The demonstration results show that it can cut power consumption by 42.8% for MPEG-2 Decoder application and 59.8% for Optical Flow application by using 3 cores in both applications.\n------------------------------This is a preprint of an article intended for publication Journal ofInformation Processing(JIP). This preprint should not be cited. Thisarticle should be cited as: Journal of Information Processing Vol.24(2016) No.3 (online)------------------------------

    CiNii

  • 自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法 (コンピュータシステム)

    後藤 隆志, 武藤 康平, 平野 智大, 見神 広紀, 高橋 宇一郎, 井上 栄, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 506 ) 95 - 100  2015年03月

     概要を見る

    本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM4コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO方式と比べ速度向上率で18.5%,電力削減率で-28.8%の結果が得られた.

    CiNii

  • OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化 (コンピュータシステム)

    飯塚 修平, 山本 英雄, 平野 智大, 岸本 耀平, 後藤 隆志, 見神 広紀, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 506 ) 219 - 224  2015年03月

     概要を見る

    スマートフォンやノートパソコンといったモバイル端末からデータセンタで利用されるサーバーマシンまで,あらゆる計算機において消費電力の削減が最重要課題となっている.これは、消費電力の削減によりモバイル機器においてはバッテリー持続時間の延長により利便性が大幅に向上し,またサーバーマシンにおいては膨大な電力コストや空調コストの削減が実現できるからである.これらの計算機は高性能かつ低消費電力を実現するためにマルチコアプロセッサを搭載したものが主流となっている.しかしながらマルチコアの資源を有効活用してこれらを実現するためには,プログラムの並列化が不可欠であり手動で行うには膨大な工数を必要とする.本稿では,医用・防犯・個人認証・車載などで広く利用されているリアルタイム物体認識処理に対して,OSCAR自動並列化コンパイラによるDVFS及びclock gatingによる電力制御を適用し,現在幅広く利用されているIntel Haswell Core i7-4770Kマルチコア上で評価した. Intel Haswellマルチコア上で,Webカメラからの画像の入力・人の顔の認識処理・画面描画というリアルタイムなシステム全域における消費電力の削減を行ったところ,1PE逐次実行では電力制御なしの場合の31.06[W]から電力制御ありの場合では28.74[W]に、3PEで並列化実行した場合では電力制御なし場合のの41.73[W]から電力制御の場合では17.78[W]に消費電力を削減したことが確認され,物体認識処理におけるマルチコア用のコンパイラ自動電力制御の有用性が確認できた.

    CiNii

  • OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化 (ディペンダブルコンピューティング)

    飯塚 修平, 山本 英雄, 平野 智大, 岸本 耀平, 後藤 隆志, 見神 広紀, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 507 ) 219 - 224  2015年03月

     概要を見る

    スマートフォンやノートパソコンといったモバイル端末からデータセンタで利用されるサーバーマシンまで,あらゆる計算機において消費電力の削減が最重要課題となっている.これは、消費電力の削減によりモバイル機器においてはバッテリー持続時間の延長により利便性が大幅に向上し,またサーバーマシンにおいては膨大な電力コストや空調コストの削減が実現できるからである.これらの計算機は高性能かつ低消費電力を実現するためにマルチコアプロセッサを搭載したものが主流となっている.しかしながらマルチコアの資源を有効活用してこれらを実現するためには,プログラムの並列化が不可欠であり手動で行うには膨大な工数を必要とする.本稿では,医用・防犯・個人認証・車載などで広く利用されているリアルタイム物体認識処理に対して,OSCAR自動並列化コンパイラによるDVFS及びclock gatingによる電力制御を適用し,現在幅広く利用されているIntel Haswell Core i7-4770Kマルチコア上で評価した. Intel Haswellマルチコア上で,Webカメラからの画像の入力・人の顔の認識処理・画面描画というリアルタイムなシステム全域における消費電力の削減を行ったところ, 1PE逐次実行では電力制御なしの場合の31.06[W]から電力制御ありの場合では28.74[W]に、3PEで並列化実行した場合では電力制御なし場合のの41.73[W]から電力制御の場合では17.78[W]に消費電力を削減したことが確認され,物体認識処理におけるマルチコア用のコンパイラ自動電力制御の有用性が確認できた.

    CiNii

  • 自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法 (ディペンダブルコンピューティング)

    後藤 隆志, 武藤 康平, 平野 智大, 見神 広紀, 高橋 宇一郎, 井上 栄, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 507 ) 95 - 100  2015年03月

     概要を見る

    本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM4コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO方式と比べ速度向上率で18.5%,電力削減率で-28.8%の結果が得られた.

    CiNii

  • 動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価 (ディペンダブルコンピューティング)

    和気 珠実, 飯塚 修平, 見神 広紀, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 507 ) 263 - 268  2015年03月

     概要を見る

    本稿では,マルチコアプロセッサを用いて動画像デコーディング処理の高速化を実現する手法として2種類の並列化手法について性能評価を行った.1つ目の並列化手法は並列化対象ループにループスキューイング/ループインターチェンジを適用する手法,2つ目の並列化手法はwave-front手法を適用する手法であり,どちらの場合もマクロブロック間の依存関係を満たしつつこれらの間の並列性を利用することで並列処理が可能となる.評価に用いる動画像コーデックは,MPEG2と比較して約2倍の符号化効率を持ちワンセグ放送等に用いられているH.264/AVCと,H.264/AVCと同等の品質を持ちYoutube等でも採用されている動画規格であるWebMのビデオコーデックVP8である.これらの規格により動画像デコーディングを行うプログラムに対して,上記2つの並列化手法をそれぞれ適用した.Snapdragon APQ8064 Krait 4コアを搭載したNexus7上で評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ3コアで1.33倍速度向上し,その一方でwave-front手法では3コアで2.86倍の速度向上が得られた.同様にIntel(R) Xeon(R) CPU X5670プロセッサを搭載したマシンで評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ6コアで1.82倍速度向上し,一方でwave-front手法では6コアで4.61倍の速度向上が得られた.

    CiNii

  • OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化

    飯塚 修平, 山本 英雄, 平野 智大, 岸本 耀平, 後藤 隆志, 見神 広紀, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2015 ( 20 ) 1 - 6  2015年02月

     概要を見る

    スマートフォンやノートパソコンといったモバイル端末からデータセンタで利用されるサーバーマシンまで,あらゆる計算機において消費電力の削減が最重要課題となっている.これは,消費電力の削減によりモバイル機器においてはバッテリー持続時間の延長により利便性が大幅に向上し,またサーバーマシンにおいては膨大な電力コストや空調コストの削減が実現できるからである.これらの計算機は高性能かつ低消費電力を実現するためにマルチコアプロセッサを搭載したものが主流となっている.しかしながらマルチコアの資源を有効活用してこれらを実現するためには,プログラムの並列化が不可欠であり手動で行うには膨大な工数を必要とする.本稿では,医用・防犯・個人認証・車載などで広く利用されているリアルタイム物体認識処理に対して,OSCAR 自動並列化コンパイラによる DVFS 及び clock gating による電力制御を適用し,現在幅広く利用されている Intel Haswell Core i7-4770K マルチコア上で評価した.Intel Haswell マルチコア上で,Web カメラからの画像の入力・人の顔の認識処理・画面描画というリアルタイムなシステム全域における消費電力の削減を行ったところ,1PE 逐次実行では電力制御なしの場合の 31.06[W] から電力制御ありの場合では 28.74[W] に,3PE で並列化実行した場合では電力制御なし場合のの 41.73[W] から電力制御の場合では 17.78[W] に消費電力を削減したことが確認され,物体認識処理におけるマルチコア用のコンパイラ自動電力制御の有用性が確認できた.

    CiNii

  • 動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価

    和気 珠実, 飯塚 修平, 見神 広紀, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2015 ( 35 ) 1 - 6  2015年02月

     概要を見る

    本稿では,マルチコアプロセッサを用いて動画像デコーディング処理の高速化を実現する手法として 2 種類の並列化手法について性能評価を行った.1 つ目の並列化手法は並列化対象ループにループスキューイング/ループインターチェンジを適用する手法,2 つ目の並列化手法は wave-front 手法を適用する手法であり,どちらの場合もマクロブロック間の依存関係を満たしつつこれらの間の並列性を利用することで並列処理が可能となる.評価に用いる動画像コーデックは,MPEG2 と比較して約 2 倍の符号化効率を持ちワンセグ放送等に用いられている H.264/AVC と,H.264/AVC と同等の品質を持ち Youtube 等でも採用されている動画規格である WebM のビデオコーデック VP8 である.これらの規格により動画像デコーディングを行うプログラムに対して,上記 2 つの並列化手法をそれぞれ適用した.Snapdragon APQ8064 Krait 4 コアを搭載した Nexus7 上で評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 3 コアで 1.33 倍速度向上し,その一方で wave-front 手法では 3 コアで 2.86 倍の速度向上が得られた.同様に Intel(R) Xeon(R) CPU X5670 プロセッサを搭載したマシンで評価を行った結果,ループスキューイング/ループインターチェンジ手法で並列化した場合,並列化箇所のみで逐次実行に比べ 6 コアで 1.82 倍速度向上し,一方で wave-front 手法では 6 コアで 4.61 倍の速度向上が得られた.

    CiNii

  • 自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

    後藤 隆志, 武藤 康平, 平野 智大, 見神 広紀, 高橋 宇一郎, 井上 栄, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2015 ( 34 ) 1 - 6  2015年02月

     概要を見る

    本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.This paper proposes a dynamic scheduling algorithm for multiple automatically parallelized or power reduced applications on a multicore smart devices to gain higher performance and lower power comsumption within the application's deadline. This scheduling algorithm uses the information such as time, power, deadline and number of cores for each application, and is composed of three type of scheduling. Using media codec applications as a benchmark, the proposed scheduling gained 18.5% speedup and 28.8% power reduction compared to FIFO scheduling.

    CiNii

  • 自動並列化コンパイラによるソフトウェアキャッシュコヒーレンシ制御手法の評価

    岸本 耀平, 間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告ハイパフォーマンスコンピューティング(HPC)   2014 ( 19 ) 1 - 7  2014年12月

     概要を見る

    主記憶共有型マルチコアプロセッサにおいて,一般にキャッシュコヒーレンシ制御はハードウェアにより実現されている.今後のプロセッサコア数の増加に伴いキャッシュコヒーレンシハードウェアの回路規模は大きくなり,チップへの実装が困難になること,電力消費が大きくなること,設計期間及び開発費用が増大することが懸念されている.本稿ではこのハードウェアコヒーレンシ制御の問題を解決するために,ハードウェアコヒーレンシ制御機構を持たない主記憶共有型ノンコヒーレントキャッシュマルチコアに対して,並列化コンパイラがソフトウェアに対し自動的にコヒーレンシ制御を行う手法を提案する.本手法を実装した OSCAR 自動並列化コンパイラと,4 コアのクラスタを 2 つ持ちクラスタ間ではハードウェアコヒーレンシを持たない情報家電用マルチコア RP2 を用い性能評価を行った.9 つの科学技術計算アプリケーションを対象として評価を行ったところ,4 コアのハードウェアコヒーレンシ制御使用時の性能は平均で 1 コア性能の 2.80 倍であったのに対し,ハードウェアコヒーレンシを使用せず本手法を適用した 4 コア実行時の性能は平均で 1 コア性能の 2.61 倍となりほぼ同等の速度向上が得られ,さらに 8 コアハードウェアコヒーレンシ制御無効時には平均で 1 コア性能の 3.66 倍とスケールアップすることが確認できた.

    CiNii

  • Android Movie Player System Combined with Automatically Parallelized and Power Optimized Code by OSCAR Compiler

    BuiDucBinh, Tomohiro Hirano, Dominic Hillenbrand, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    組込みシステムシンポジウム2014論文集   2014   55 - 62  2014年10月

    CiNii

  • グリーンコンピューティングの展望 (特集 スマートグリッドをささえる新技術)

    木村 啓二, 笠原 博徳

    スマートグリッド : 技術雑誌 = Smart grid : technical journal   4 ( 4 ) 3 - 8  2014年10月

    CiNii

  • MATLAB/Simulinkで設計されたエンジン制御Cコードのマルチコア用自動並列化

    梅田 弾, 金羽木 洋平, 見神 広紀, 林 明宏, 谷 充弘, 森 裕司, 木村 啓二, 笠原 博徳

    情報処理学会論文誌   55 ( 8 ) 1817 - 1829  2014年08月

     概要を見る

    近年の自動車では安全性・快適性・環境適合性が求められ,これらを実現するために自動車制御系のソフトウェアが年々より高度化している.制御の高度化と同時に,これらを実現するソフトウェアをリアルタイムで動作させるために,プロセッサの高速化が必要である.しかし,シングルコアの動作周波数の向上が困難であることから,1コアによる処理性能向上が限界となり,今後の自動車制御系でマルチコアへの移行が進んでいくと考えられる.また,自動車制御系において開発期間の短縮および信頼性の向上のためにMATLAB/Simulinkによるモデルベース設計が普及している.しかし,現時点でこのようなモデルベース設計で自動的にコード生成されるソースコードはマルチコア上で自動的に並列処理できるまでには至っていない.そこで,本論文ではMATLAB/Simulinkによって設計された制御モデルからEmbedded Coderにより自動生成されたエンジン制御Cコードをマルチコア上で動作するための並列化手法を提案する.提案手法を用いて,従来手動ではタスク粒度が細かく並列化が困難であった条件分岐と算術代入文からなるエンジン制御CコードをOSCAR自動並列化コンパイラにて自動並列化した.RP2やV850E2R等の組み込みマルチコア上で実行したところ,2コアで最大1.91倍,4コアで最大3.76倍の性能向上が得られた.Recently, more safety, comfort and environmental feasibility are required for the automobile. Accordingly, control systems need performance enhancement on microprocessors for real-time software which realize that. However, the improvement of clock frequency has been limited by power consumption and the performance of a single-core processor which controls power has reached the limits. For these factors, multi-core processors will be used for automotive control system. Recently Model-based Design by MATLAB and Simulink has been used for developing automobile systems because of elimination time of development and improvement of reliability. However, auto-generated-code from MATLAB and Simulink has been functioned on only single core processor so far. This paper proposes a parallelization method of engine control C codes for a multi-core processor generated from MATLAB and Simulink using Embedded Coder. The engine control C code which composed of many conditional branches and arithmetic assignment statements and are difficult to parallelize have been parallelized automatically using OSCAR automatic parallel compiler. In this result, it is succeeded to attain performance improvement on RP2 and V850E2R. Maximum 1.9x speedup on two cores and 3.76x speedup on four cores are attained.

    CiNii

  • Linux ftraceを用いたマルチコアプロセッサ上での並列化プログラムのトレース手法

    福意 大智, 島岡 護, 見神 広紀, Dominic Hillenbrand, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2014 ( 6 ) 1 - 6  2014年07月

     概要を見る

    ソフトウェアの適切な並列化により,マルチコアを搭載したコンピュータシステム上でアプリケーションを高速に動作させることが可能である.並列化されたソフトウェアの挙動や性能を調査する手法として,ソースコードの解読や実行ダンプファイルの収集,プロファイラの利用,デバッガの利用といった方法が挙げられる.しかしこれらの手法ではどのようなタイミングにおいてコンテクストスイッチが発生したのか,システムで発生する事象に対してソフトウェアがどのような影響を受けているかといった情報を得ることは困難である.そこで,本稿では並列化されたプログラムが実際に並列実行される様子をソフトウェアからトレースに任意のアノテーションを挿入可能とする拡張を施した Linux ftrace を用いて解析する手法を提案する.提案手法を用いて,Intel Xeon X7560,ARMv7 の各々のプラットフォームにおいて equake,art,mpeg2enc というベンチマークのトレースを行い,これらのプログラムが実行時に OS からどのような影響を受けているか観測できることが確認できた.また,1 回のアノテーションの挿入を Intel Xeon で 1.07[us],ARMで4.44[us] で可能であることが確認できた.

    CiNii

  • 大規模無線センサネットワークにおける外乱を考慮したアーキテクチャ探索シミュレータの実装と評価

    山下浩一郎, 鈴木貴久, 栗原康志, 大友俊也, 木村啓二, 笠原博徳

    マルチメディア、分散協調とモバイルシンポジウム2014論文集   2014   1368 - 1377  2014年07月

    CiNii

  • 統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法 (ディペンダブルコンピューティング 組込み技術とネットワークに関するワークショップETNET2014)

    田口 学豊, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 498 ) 289 - 294  2014年03月

     概要を見る

    本稿では,並列化コンパイラと協調しマルチコアアーキテクチャシミュレーションを高速化する手法を提案する.本手法では,まず実機での逐次実行のプロファイルを取得し,そのプロファイル結果をx-means法でクラスタリングすることにより,評価対象アーキテクチャの詳細シミュレーションを行う箇所を特定する.さらに,クラスタリングの情報と評価対象マルチコアで実行するアプリケーションから,並列化コンパイラは精度切り替えコードを含む並列化コードを生成する.評価の結果,16コアのシミュレーションをSPECベンチマークのequakeにおいて誤差0.04%で437倍,MediaBenchのMPEG2エンコーダにおいて誤差0.04%で28倍の速度向上をそれぞれ得ることが出来た.

    CiNii

  • 統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法

    田口 学豐, 木村 啓二, 笠原 博徳

    研究報告システムLSI設計技術(SLDM)   2014 ( 49 ) 1 - 6  2014年03月

     概要を見る

    本稿では,並列化コンパイラと協調しマルチコアアーキテクチャシミュレーションを高速化する手法を提案する.本手法では,まず実機での逐次実行のプロファイルを取得し,そのプロファイル結果を x-means 法でクラスタリングすることにより,評価対象アーキテクチャの詳細シミュレーションを行う箇所を特定する.さらに,クラスタリングの情報と評価対象マルチコアで実行するアプリケーションから,並列化コンパイラは精度切り替えコードを含む並列化コードを生成する.評価の結果,16 コアのシミュレーションを SPEC ベンチマークの equake において誤差 0.04%で 437 倍,MediaBench の MPEG2 エンコーダにおいて誤差 0.04%で 28 倍の速度向上をそれぞれ得ることが出来た.A parallelizing compiler cooperative acceleration technique for multicore architecture simulation is proposed in this paper. Profile data of a sequential execution of a target application on a real machine is decomposed into multiple clusters by x-means clustering. Then, sampling points for a detail simulation mode in each cluster are calculated. In addition, a parallelizing compiler generates a parallelized code by taking both of the clustering information and the source code of the target application. The evaluation results show, in the case of the simulation for 16 cores, 437 times speedup is achieved with 0.04% error for equake, and 28 times speedup is achieved with 0.04% error for mpeg2 encoder.

    CiNii

  • 統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法

    田口 学豐, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2014 ( 49 ) 1 - 6  2014年03月

     概要を見る

    本稿では,並列化コンパイラと協調しマルチコアアーキテクチャシミュレーションを高速化する手法を提案する.本手法では,まず実機での逐次実行のプロファイルを取得し,そのプロファイル結果を x-means 法でクラスタリングすることにより,評価対象アーキテクチャの詳細シミュレーションを行う箇所を特定する.さらに,クラスタリングの情報と評価対象マルチコアで実行するアプリケーションから,並列化コンパイラは精度切り替えコードを含む並列化コードを生成する.評価の結果,16 コアのシミュレーションを SPEC ベンチマークの equake において誤差 0.04%で 437 倍,MediaBench の MPEG2 エンコーダにおいて誤差 0.04%で 28 倍の速度向上をそれぞれ得ることが出来た.A parallelizing compiler cooperative acceleration technique for multicore architecture simulation is proposed in this paper. Profile data of a sequential execution of a target application on a real machine is decomposed into multiple clusters by x-means clustering. Then, sampling points for a detail simulation mode in each cluster are calculated. In addition, a parallelizing compiler generates a parallelized code by taking both of the clustering information and the source code of the target application. The evaluation results show, in the case of the simulation for 16 cores, 437 times speedup is achieved with 0.04% error for equake, and 28 times speedup is achieved with 0.04% error for mpeg2 encoder.

    CiNii

  • 不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法

    山田 正平, 見神 広紀, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2014 ( 2 ) 1 - 8  2014年02月

     概要を見る

    企業や政府機関を標的としたサイバー攻撃が年々高度で大規模なものになっている.これらサイバー攻撃の有効策のひとつとして不正侵入検知システムが挙げられる.不正侵入検知システムはネットワークを監視し,IP パケットをフィルタリングすることで不審なアクセスをリアルタイムで検知する.一方で,膨大なパケットを処理するための処理性能が求められる.そこで本研究では,シグネチャ型の不正侵入検知システムにおいてシグネチャを分割し,マルチコアへの割当によるレイテンシ削減手法を提案する.本手法は,並列処理によってパケットあたりの検知処理時間の短縮が可能である.レイテンシ削減手法をオープンソースの不正侵入検知システムであるSuricataにおいて適用し,DARPA Intrusion Detection Evaluation Data Setなどのデータセットを入力とした際の検知処理性能を評価した.その結果,2 コア上でシグネチャを分割しない場合と比較して DARPA Intrusion Detection Evaluation Data Set において 4 コア上で最大 3.22 倍の検知処理時間の短縮を得ることができた.Cyber attacks targeting on companies and government organizations have been increasing and highly developed. An Intrusion Detection System (IDS) is one of efficient solutions to prevent those attacks. An IDS detects illegal network accesses in realtime by monitoring the network and filtering suspicious IP packets. Large processing performance is required for IDSs to process a large number of IP packets in realtime. In order to satisfy this requirement, a latency reduction technique for signature-based IDSs by allocating decomposed signature on multicores is proposed in this paper. The proposed technique is implemented in Suricata, which is an open source IDS, and evaluated it with several data sets, such as DARPA Intrusion Detection Evaluation Data Set. The evaluation results show the proposed techniques with four cores achieves 3.22 times performance improvement in maximum comparing with two cores without signature decomposition.

    CiNii

  • 小ポイントFFTのマルチコア上での自動並列化手法

    古山 祐樹, 見神 広紀, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2014 ( 3 ) 1 - 8  2014年02月

     概要を見る

    高速フーリエ変換 (FFT) は,ディジタル信号処理や画像圧縮など様々な分野で使用される非常に応用性の高い計算アルゴリズムである.その中でも,LTE 等のベースバンド処理で用いられる小ポイントの FFT プログラムは,データ転送や制御のオーバーヘッドを伴う専用ハードウェアを使用しにくく,マルチコア上での並列化の要求が高まっている.本稿では,そのような小ポイントの FFT プログラムに対しコンパイラによる自動並列化及び,false sharing 回避を目的としたキャッシュ最適化を適用し,データキャッシュを持つ種々の共有メモリ型マルチコアアーキテクチャに向けて低オーバーヘッドな並列化コードを生成する自動並列化手法を提案する.提案手法を OSCAR 自動並列化コンパイラに実装し,32 ポイントから 256 ポイントまでの小ポイントFFTを並列化し,8 つの SH4A コアを集積した情報家電用マルチコアプロセッサ RP2 上で性能評価を行ったところ,256 ポイントの FFT プログラムで,逐次プログラムに対し 2 コア並列化で 1.97 倍,4 コア並列化で 3.9 倍というスケーラブルな速度向上を得ることが出来た.また,FFT と同様にバタフライ演算を行う高速アダマール変換のプログラムにも同手法を適用し評価を行い,256 ポイントのプログラムで 2 コア並列化で 1.91 倍,4 コア並列化で 3.32 倍という高い速度向上が得られ,提案手法の有用性が確認された.Fast Fourier Transorm (FFT) is one of the most frequently used algorihtms in many applications including digital signal processing and image processing to compute Descrite Fourier Transform (DFT). Although small size FFT programs must be used in baseband signal processing such as LTE and so on, it's difficult to use special hardwares like DSPs for computing such a small problem because of their relatively large data transfer and control overhead. This paper proposes an automatic parallelization method to generate parallelized programs with low overhead for small size FFTs suited for shared memory multicore processor by applying cache optimization to avoide false sharing between cores. The proposed method has been implemented in OSCAR automatic parallelizing compiler, parallelized small point FFT programs from 32 points to 256 points and evaluated them on RP2 multicore processor having 8 SH-4A cores. It achieved 1.97 times speedup on 2 SH-4A cores and 3.9 times speedup on 4 SH-4A cores in a 256 points FFT program. In addition to the FFT programs, the proposed approach is applied to Fast Hadamard Transform (FHT) which has similar computation to the FFT. The results are 1.91 times speedup on 2 SH-4A cores and 3.32 times speedup on 4 SH-4A cores. It shows effectiveness of the proposed method and easiness of applying the method to many kinds of programs.

    CiNii

  • プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

    後藤隆志, 武藤康平, 山本英雄, 平野智大, 見神広紀, 木村啓二, 笠原博徳

    研究報告ハイパフォーマンスコンピューティング(HPC)   2013 ( 12 ) 1 - 7  2013年12月

     概要を見る

    本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.

    CiNii

  • プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

    後藤隆志, 武藤康平, 山本英雄, 平野智大, 見神広紀, 木村啓二, 笠原博徳

    研究報告計算機アーキテクチャ(ARC)   2013 ( 12 ) 1 - 7  2013年12月

     概要を見る

    本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.

    CiNii

  • OSCAR API標準解釈系を用いた階層グルーピング対応ハードウェアバリア同期機構の評価

    川島慧大, 金羽木洋平, 林明宏, 木村啓二, 笠原博徳

    研究報告計算機アーキテクチャ(ARC)   2013 ( 16 ) 1 - 6  2013年07月

     概要を見る

    1 チップ内に搭載されるコア数の増加に伴い,アプリケーションからより多くの並列性を抽出し,低オーバーヘッドで利用することがこれらのコアを有効利用するために重要となっている.OSCAR コンパイラによる自動並列化ではより多くの並列性を利用するため,ループやサブルーチン内部の粗粒度並列性を解析し,階層的にタスク定義を行う.この階層的に定義されたタスクをコアを階層的にグルーピングし,コアグループに対して割り当てることにより並列処理を実現する.この階層的なグループ間で独立かつ低コストでバリア同期を実現できるハードウェアが提案され,SH4A プロセッサ 8 コア搭載の情報家電用マルチコア RP2 に実装されている.本稿では,OSCAR API 標準解釈系の階層グループバリア同期 API を RP2 のハードウェアバリア同期機構に対応し評価を行った結果について述べる.8 コアを使用した SPEC CPU 2000 の ART による評価ではソフトウェアでのバリア同期に対し 1.16 倍の性能向上が得られた.

    CiNii

  • マルチコア商用スマートディバイスの評価と並列化の試み

    山本 英雄, 後藤 隆志, 平野 智大, 武藤 康平, 見神 広紀, Dominic Hillenbrand, 林 明宏, 木村 啓二, 笠原 博徳

    研究報告システムソフトウェアとオペレーティング・システム(OS)   2013 ( 2 ) 1 - 7  2013年02月

     概要を見る

    半導体プロセスの微細化に伴いスマートフォン,タブレットに代表される民生機器にも4コア程度のマルチコアSoCの採用が進んでいる.一方,ソフトウェアはマルチコアを活用するための並列化が十分に進んでおらず,対応が望まれている.本稿ではAndroidを搭載した商用スマートデバイスにおいて,一般的な利用範囲におけるマルチコアの活用状況を評価し,並列化されたベンチマークプログラムを用いて実行環境の課題と改善方式を述べた上で,標準APIの仕様を変更すること無く,アプリケーションがオフスクリーンバッファを描画バッファに書くBitBLT処理の並列化を試みた結果を報告する.この処理並列化の結果,アプリケーションから2D描画APIを呼び出すベンチマークテストで約3%のフレームレートの改善を確認した.

    CiNii

  • コンパイラと協調したシミュレーション精度切り換え可能なマルチコアアーキテクチャシミュレータ (集積回路)

    田口 学豊, 阿部 洋一, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 : 信学技報   112 ( 425 ) 65 - 71  2013年01月

     概要を見る

    本稿ては,コンパイラと協調してノミュレーンヨン精度を相互に切り替えることかてきるマルチコアアーキテクチャシミュレータによってンミュレーノョン速度を高速化する枠組みを提案する 本提案ては,コンパイラを介して,対象プログラムにおける詳細ノミュレーノョンを行うサンプリンク量の決定や,並列化プロクラムに対する精度切り換えコートの自動生成を行う 本手法をSPEC CPU 2000のEQUAKEに適用したところ,誤差16パーセント以内て50倍〜500倍の高速化か可能てあることを示した

    CiNii

  • 並列化アプリケーションを対象とした統計的手法によるメニーコアアーキテクチャシミュレーションの高速化 (集積回路)

    阿部 洋一, 田口 学豊, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 : 信学技報   112 ( 425 ) 57 - 63  2013年01月

     概要を見る

    本稿ては,プログラムのループに着目した統計的サンプリングによるメニーコアアーキテクチャノミュレーノョンの高速化手法の,自動クラスタリングによるサンプリング位置特定手法を提案する筆者等による従来の提案手法ては,着目するループからサンプリングするイタレーンヨン数を統計的手法によって算出するさらに,イタレーノョンことの実行サイクル数か大きく変化するようなアプリケーンヨンては,クラスタリングによってプロファイル結果をサンプルサイスか小さくなるように分類することて,低サンプル数て高精度なシミュレーンヨン結果推定を行うことかできる しかしなから,クラスタ数の決定は手動て行う必要かあった 本稿ではクラスタリング手法としてx-means法を用いることて,クラスタ数の決定を自動て行う手法を提案する 本手法の予備評価として逐次実行コストの推定を行った結果,最もイタレーンヨン実行コストの変動か激しいMPEG-2エンコーダの入力動画SIFI6の場合において, x-measnsては450イタレーション中の14イタレーションをサンプリングすることて192%の誤差か得られることを確認てき,高精度かつ低サンプリング数となるクラスタ数の決定を自動的に得られることか確認てきた

    CiNii

  • 自動車エンジン制御ソフトウェアにおけるマルチコア上での並列処理 (集積回路)

    金羽木 洋平, 梅田 弾, 見神 広紀, 林明 宏, 沢田 光男, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告 : 信学技報   112 ( 425 ) 3 - 10  2013年01月

     概要を見る

    より安全,快適,省エネな自動車の要求が高まっており,自動車制御系の計算負荷か増大しているこれに伴い,制御用プロセッサコアに高い性能が求められるが,動作周波数の向上によるプロセッサコアの高性能化が困難となっており,マルチコアへの移行が求められているしかし,エンシン制御におけるマルチコア利用においては手動によるプログラムの並列化が困難て,処理性能,並列化に伴うコスト,期間等が問題となっている本稿ては,これらの問題を解決し,従来シンクルコアのみて動作していた自動車エンジン制御ソフトウェアをマルチコア上て並列化する手法を提案する.具体的には,自動車エンジン制御Cプロクラムに対し,より多くの並列性を抽出するため,関数のインライン展開および条件分岐の複製等,逐次プロクラムのリストラクチャリンクを行った後, OSCAR自動並列化コンパイラにより自動並列化を行う.その結果,従来タスクの粒度が細かく,手動ての並列化が困難てあった自動車エンシン制御ソフトウェアを,組込用マルチコアRP-X上て2コアを用いて並列実行したところ, 1コアに対して171倍の速度向上を得ることに成功し,自動車エンシン制御ソフトウェアのマルチコア上ての並列処理か有効てあることを確認した

    CiNii

  • Automatic parallelization with OSCAR API Analyzer: a cross-platform performance evaluation

    CeciliaGonzalez-Alvarez, Youhei Kanehagi, Kosei Takemoto, Yohei Kishimoto, Kohei Muto, Hiroki Mikami, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

    研究報告ハイパフォーマンスコンピューティング(HPC)   2012 ( 10 ) 1 - 8  2012年12月

     概要を見る

    To satisfy the demands of auto parallelizing compilers in the diverse industry of multicores, we have developed the OSCAR API Analyzer. It allows programs automatically parallelized by the OSCAR compiler with OSCAR API directives to target many different platforms using just sequential compilers. We have evaluated the execution performance of the parallelization of Fortran SPEC benchmarks (tomcatv, swim2000, mgrid2000) and media C benchmarks (AAC encoder, Optical flow, MPEG2 encoder, MPEG2 decoder, Face detect) on five HPC servers and four embedded multicores. Speedups on servers were up to 18x for 32 cores (swim2000 on Hitachi SR16000), whereas on embedded systems, AAC encoder speedup was up to 47x on TilePro64, for 64 homogeneous cores, and up to 32.65x for the optical flow on the heterogeneous multicore RP-X, using 8 cores and 4 accelerators.To satisfy the demands of auto parallelizing compilers in the diverse industry of multicores, we have developed the OSCAR API Analyzer. It allows programs automatically parallelized by the OSCAR compiler with OSCAR API directives to target many different platforms using just sequential compilers. We have evaluated the execution performance of the parallelization of Fortran SPEC benchmarks (tomcatv, swim2000, mgrid2000) and media C benchmarks (AAC encoder, Optical flow, MPEG2 encoder, MPEG2 decoder, Face detect) on five HPC servers and four embedded multicores. Speedups on servers were up to 18x for 32 cores (swim2000 on Hitachi SR16000), whereas on embedded systems, AAC encoder speedup was up to 47x on TilePro64, for 64 homogeneous cores, and up to 32.65x for the optical flow on the heterogeneous multicore RP-X, using 8 cores and 4 accelerators.

    CiNii

  • 地震動シミュレータGMSのOSCARコンパイラによる自動並列化

    島岡護, 見神広紀, 林明宏, 和田康孝, 木村啓二, 森田秀和, 内山邦男, 笠原博徳

    研究報告ハイパフォーマンスコンピューティング(HPC)   2012 ( 11 ) 1 - 8  2012年12月

     概要を見る

    地震など自然災害から人命を救うために災害シミュレーションが注目を集めている.シミュレーションの高精度化とそれに伴うシミュレーション時間の増大を抑えるための処理の並列化が重要な課題となっている.本稿では防災科学技術研究所で開発された不連続格子を用いた差分法による地震動シミュレータ GMS (Ground Motion Simulator) の OSCAR 自動並列化コンパイラを用いた並列化手法について報告する. POWER7 ベースの 128 コア SMP サーバ Hitachi SR16000 上での性能評価の結果、 OSCAR 自動並列化により 1 コアでの実行と比べて 92 倍の速度向上をすることができた.同様に Xeon ベースの 64 コアブレード SMP サーバ Hitachi BS2000 上での性能評価の結果、 OSCAR 自動並列化により 1 コアでの実行と比べて 43 倍の速度向上をすることができた.To protect human's lives from disaster, disaster simulation attracts a lot of attensions in recent years. Parallelization of the simulation is an important issue to calculate more bigger and precise simulations. In this article, I report an automatic parallelization of GMS(Ground Motion Simulator) by OSCAR compiler. The performance evaluation shows that the automatic parallelization achives 92 times speedup on 128 cores Hitachi SR16000 with 16 POWER7 processors, and 43 times speedup on 64 cores Hitachi BS2000 with 8 Xeon processors, respectively.

    CiNii

  • Automatic parallelization with OSCAR API Analyzer: a cross-platform performance evaluation

    CeciliaGonzalez-Alvarez, Youhei Kanehagi, Kosei Takemoto, Yohei Kishimoto, Kohei Muto, Hiroki Mikami, Akihiro Hayashi, Keiji Kimura, Hironori Kasahara

    研究報告計算機アーキテクチャ(ARC)   2012 ( 10 ) 1 - 8  2012年12月

     概要を見る

    To satisfy the demands of auto parallelizing compilers in the diverse industry of multicores, we have developed the OSCAR API Analyzer. It allows programs automatically parallelized by the OSCAR compiler with OSCAR API directives to target many different platforms using just sequential compilers. We have evaluated the execution performance of the parallelization of Fortran SPEC benchmarks (tomcatv, swim2000, mgrid2000) and media C benchmarks (AAC encoder, Optical flow, MPEG2 encoder, MPEG2 decoder, Face detect) on five HPC servers and four embedded multicores. Speedups on servers were up to 18x for 32 cores (swim2000 on Hitachi SR16000), whereas on embedded systems, AAC encoder speedup was up to 47x on TilePro64, for 64 homogeneous cores, and up to 32.65x for the optical flow on the heterogeneous multicore RP-X, using 8 cores and 4 accelerators.To satisfy the demands of auto parallelizing compilers in the diverse industry of multicores, we have developed the OSCAR API Analyzer. It allows programs automatically parallelized by the OSCAR compiler with OSCAR API directives to target many different platforms using just sequential compilers. We have evaluated the execution performance of the parallelization of Fortran SPEC benchmarks (tomcatv, swim2000, mgrid2000) and media C benchmarks (AAC encoder, Optical flow, MPEG2 encoder, MPEG2 decoder, Face detect) on five HPC servers and four embedded multicores. Speedups on servers were up to 18x for 32 cores (swim2000 on Hitachi SR16000), whereas on embedded systems, AAC encoder speedup was up to 47x on TilePro64, for 64 homogeneous cores, and up to 32.65x for the optical flow on the heterogeneous multicore RP-X, using 8 cores and 4 accelerators.

    CiNii

  • エンジン基本制御ソフトウェアモデルのルチコア上での並列処理

    梅田 弾, 金羽木 洋平, 見神 広紀, 林 明宏, 谷 充弘, 森 裕司, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2012 ( 22 ) 1 - 7  2012年07月

     概要を見る

    自動車の安全性・快適性・環境負荷の低減を目指し,自動車制御系は年々高度化している.これに伴い,制御プロセッサには高い性能が求められるが,シングルコアの動作周波数,及び命令レベル並列性の向上が困難となり,1 コアによる処理性能が限界に達したため,マルチコアへの移行が求められている.しかし,マルチコアではプログラムの並列化の困難なため,並列化プログラムの開発コスト・開発期間・信頼性等が問題となっている.本稿では従来シングルコアのみで動作していた基本エンジン制御ソフトウェアモデルのマルチコア上での並列化手法を提案する.具体的には基本エンジン制御 C プログラムをポインタ利用等に制限を加えた Parallelizable C によって記述されたプログラムに変換し,OSCAR 自動並列化コンパイラにより自動並列化を行う.その結果,従来タスク粒度が細かく手動では並列化ができなかった基本エンジン制御 C プログラムを情報家電用 RP2 上で 2 コアを用いて並列実行したところ,1 コアに対して 1.89 倍,V850 2 コア上で 1 コアに対して 2.06 倍の性能向上することに成功し,エンジン制御ソフトウェアモデルのマルチコア上での並列処理が可能であることを確認した.The automobile control system is advancing from year to year to achieve safety, comfort and fuel efficiency. Accordingly, control system needs high performance. However, the improvement of clock frequency and instruction-level parallelism are difficult, and the performance of a single-core processor has reached the limits. This paper proposes a parallelization method of a basic engine control software model for a multicore processor, which has only functioned on single-core processors. In the multicore, development cost, development period, and software reliability are problems because it is difficult to parallelize a software. By developing a Parallelizable C program with some limitations for pointer usage, the OSCAR compiler allows us perform automatic parallelization and generation of a parallel C program. Using the proposed method, the basic engine control program, which is difficult to parallelize because of very fine grain, is parallelized and gives us 1.89 times speedup using 2 cores on RP2 multicore and 2.06 times speedup using 2 cores of V850 multicore. It is confirmed that parallelization of a basic engine control C program on multi-core processor is possible.

    CiNii

  • 低消費電力マルチコアRP-Xを用いた1ワットWebサービスの実現

    古山 祐樹, 島岡 護, 見神 広紀, 林 明宏, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2012 ( 24 ) 1 - 6  2012年07月

     概要を見る

    一般に Web サーバの稼働時間の多くはアイドル状態であると言われるが,その際においても常に数十ワットの電力を消費し,大きな電力の浪費となっている。そこで本研究では,Web サーバのプロセッサに低消費電力情報家電用ヘテロジニアスマルチコア RP-X を用いることで,QoS (Quality of Service) を確保しつつ低消費電力で動作する Web サーバを開発した。評価の結果,提案する Web サーバを実際に早稲田大学笠原研究室の Web サーバとして運用した所,平均 1.04 ワットの低消費電力で動作可能なことを確認した.また,様々なアクセス頻度のワークロードでシミュレートした結果,Web サービスとしての QoS(Quality of Service) を満足しつつ,1.66 ワットで動作できることも確認した.本稿では Web サーバの電力をリアルタイムでモニタリングし,電力の可視化を行うシステムについても言及する.Web servers are known to be in the idle state for most of their execution time though they consume tens of watts even in this situation. This causes a signi cant waste of power consumption. To satisfy both keeping QoS (Quality of Service) and low power consumption for web servers simultaneously, in this paper, a web server is built upon the low-power multicore processor for consumer electronics, RP-X. Using the proposed server system as the web server of Kasahara Laboratoy in Waseda University, power consumption was 1.04 Watt on average. In addition, the power consumption of the web server is evaluated over several workload with different access frequency. As the results, the developed web server runs on 1.66 Watt with satisfying QoS. This paper also presents the real-time power monitoring system that allows the power consumption visualization of the web server.

    CiNii

  • Javaの自動並列化における例外フローとメソッドディスパッチのインライン化解析

    田端 啓一, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2012 ( 9 ) 1 - 6  2012年03月

     概要を見る

    本稿では,Java プログラムを自動並列化するためのコンパイル手法を提案する.Java プログラムから複数粒度の並列性を抽出する上では,2 つの動的なメカニズムに対する解析の複雑さが問題となる.1 つは,例外によって生じる制御フローの解析である.もう 1 つは,メソッド呼び出しによって生じる動的ディスパッチの解析である.本稿の提案手法は,ランタイム環境におけるこれらの動的なメカニズムを,中間表現でのプリミティブな条件分岐にインライン展開し,解析を容易にする.提案手法を実装し評価したところ,Java で記述された optical flow など 3 つの画像処理プログラムから並列性の抽出が可能となり,IBM Power5+ 8 プロセッサにおける 1 プロセッサに対する速度向上率として,最低 7.84 倍の性能向上が得られた.This paper proposes compilation methods for automatic parallelization of Java. Java programs have two dynamic mechanisms which complicates multiple-grain parallelism extraction. The one is implicit or possible control flow by exception. Another one is dynamic dispatch for virtual method call. The proposed methods inline these dynamic mechanisms into primitive conditional branches on intermediate representation for easier analysis. The evaluation result shows at least 7.84x speedup on optical flow and other two image processing programs with IBM Power5+ 8 processors.

    CiNii

  • 並列化メディアアプリケーションを対象としたメニーコアアーキテクチャシミュレーションの高速化の検討

    阿部 洋一, 石塚 亮, 大胡 亮太, 田口 学豊, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2012 ( 3 ) 1 - 4  2012年03月

     概要を見る

    本稿ではプログラム上のループ処理に対する統計的サンプリングによる,並列化メディアアプリケーションを対象としたメニーコアシミュレーションの高速化手法を検討する.筆者などによるこれまでのループ全体を 1 つの母集団とみなしてサンプリングを行う手法では,イテレーション間のコスト変動が大きい場合に,サンプル数の増加や推定誤差が大きくなってしまうという問題があった.本稿では,この問題を K 平均法によるクラスタリングを用いてサンプル数,サンプル位置の特定を行うことで解決を試みる.動画圧縮アプリケーションの MPEG2 エンコーダを実サーバー上で動作させて得た計測結果を元に検証したところ,クラスタリングをすることによって,クラスタリングを行わない場合と比較して最大で 11.4 倍の速度向上が見込まれることが分かった.推定誤差については,検証した全ての条件で目標とする誤差の範囲に収められる見込みとなった.This paper examines an acceleration technique of many-core architecture simulator by statistical sampling on loop blocks in a program. The authors' previous work has a problem that the number of samples increases and estimation error becomes greater, since the previous work assumes that the cost of iterations is not varied so much. This paper proposes using clustering by K-means for making decision about sampling in order to solve the problem. MPEG2 encoder, that is video compression application, is used for examination. The preliminary evaluation shows the proposed technique achieves 11.4 times speed up compared with the previous work. In addition, the estimation error becomes under the target range.

    CiNii

  • JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いたParallelizable Cの定義

    木村 啓二, 間瀬 正啓, 笠原 博徳

    研究報告システムLSI設計技術(SLDM)   2012 ( 22 ) 1 - 6  2012年02月

     概要を見る

    組込みソフトウェアの品質向上を目的として,JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」が策定された.一方,自動並列化コンパイラによる並列性抽出を補助するための Paralleliza C が提案されている.本稿では,組込みソフトウェア開発者の自動並列化コンパイラ活用によるマルチコア用アプリケーション開発の生産性向上を目的とし,JISX0180:2011 による Parallelizable C の定義を提案する.本コーディング規約によるプログラムを商用 SMP 及び情報家電用マルチコア上で評価した結果,8 コアの IBM p5 550Q では平均 5.54 倍,4 コアの Intel Core i7 960 では平均 2.43 倍,4 コアの Renesas/Hitachi/Waseda RP2 では平均 2.79 倍の速度向上をそれぞれ得ることができた.JISX0180:2011 "Framework of establishing coding guidelines for embedded system development" was decided to improve the quality of embeded systems. Parallelizable C has bee also proposed to support exploitation of parallelism by a parallelizing compiler. This paper proposes a definition of Parallelizable C by JISX0180:2011 aiming at the improvement of productivity for embeded multicore developers with parallelizing compilers. An evaluation has been carried out using rewritten programs by the defined coding guideline on ordinary SMPs and a consumer electronics multicore. As the result, 5.54x speedup on IBM p5 550Q (8core), 2.42x speedup on Intel Core i7 960 (4core), and 2.79x speedup on Renesas/Hitachi/Waseda RP2 (4core) have been achieved, respectively.

    CiNii

  • JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いたParallelizable Cの定義

    木村 啓二, 間瀬 正啓, 笠原 博徳

    研究報告組込みシステム(EMB)   2012 ( 22 ) 1 - 6  2012年02月

     概要を見る

    組込みソフトウェアの品質向上を目的として,JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」が策定された.一方,自動並列化コンパイラによる並列性抽出を補助するための Paralleliza C が提案されている.本稿では,組込みソフトウェア開発者の自動並列化コンパイラ活用によるマルチコア用アプリケーション開発の生産性向上を目的とし,JISX0180:2011 による Parallelizable C の定義を提案する.本コーディング規約によるプログラムを商用 SMP 及び情報家電用マルチコア上で評価した結果,8 コアの IBM p5 550Q では平均 5.54 倍,4 コアの Intel Core i7 960 では平均 2.43 倍,4 コアの Renesas/Hitachi/Waseda RP2 では平均 2.79 倍の速度向上をそれぞれ得ることができた.JISX0180:2011 "Framework of establishing coding guidelines for embedded system development" was decided to improve the quality of embeded systems. Parallelizable C has bee also proposed to support exploitation of parallelism by a parallelizing compiler. This paper proposes a definition of Parallelizable C by JISX0180:2011 aiming at the improvement of productivity for embeded multicore developers with parallelizing compilers. An evaluation has been carried out using rewritten programs by the defined coding guideline on ordinary SMPs and a consumer electronics multicore. As the result, 5.54x speedup on IBM p5 550Q (8core), 2.42x speedup on Intel Core i7 960 (4core), and 2.79x speedup on Renesas/Hitachi/Waseda RP2 (4core) have been achieved, respectively.

    CiNii

  • JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いた Parallelizable C の定義

    木村 啓二, 間瀬 正啓, 笠原 博徳

    電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング : IEICE technical report   111 ( 462 ) 127 - 132  2012年02月

     概要を見る

    組込みソフトウェアの品質向上を目的として,JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」が策定された.一方,自動並列化コンパイラによる並列性抽出を補助するためのParalleliza Cが提案されている.本稿では,組込みソフトウェア開発者の自動並列化コンパイラ活用によるマルチコア用アプリケーション開発の生産性向上を目的とし,JISX0180:2011によるParallelizable Cの定義を提案する.本コーディング規約によるプログラムを商用SMP及び情報家電用マルチコア上で評価した結果,8コアのIBM p5 550Qでは平均5.54倍,4コアのIntel Core i7 960では平均2.43倍,4コアのRenesas/Hitachi/Waseda RP2では平均2.79倍の速度向上をそれぞれ得ることができた.

    CiNii

  • SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

    林 明宏, 松本 卓司, 見神 広紀, 木村 啓二, 山本 啓二, 崎 浩典, 高谷 保行, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2011 ( 2 ) 1 - 9  2011年11月

     概要を見る

    粒子線によるがん治療は臨床レベルで実用化されており,外科的侵襲を伴わず患者への負担が少なく,また X 線放射線治療の様に皮膚からがん患部までの正常細胞に損傷を負わせることもなくその高い治癒率から注目を集めている.治療にあたっては医師が事前に計算機を使用してがん細胞にのみ照射するための照射計画のシミューレーションを行うが,標的に必要な投与線量が集中するように各種機器の設定条件を調整するには,シミュレーションを繰り返して評価することが必要であり時間が非常にかかるなどの問題点があった.本論文では,この治療計画を高速に行う重粒子線治療用線量計算エンジンの並列化手法を提案する.具体的には逐次プログラムをコンパイラで並列化しやすい Parallelizable C によって記述された計算エンジン本体を開発することにより OSCAR 自動並列化コンパイラにより自動並列化を行う.これにより一度だけの書き換えで任意の SMP サーバーで任意プロセッサ数に対応できるようにした.その結果 IBM Power 7 プロセッサを搭載した日立 SR16000 SMP サーバー上において.64CPU 使用時に約 50 倍,そして Intel Xeon X5670 プロセッサを搭載した日立 HA8000/RS220 SMP サーバー上において,12CPU 使用時に約 9 倍の性能向上を実現し,提案手法が高いスケーラビリティを実現可能であることを確認した.A particle therapy has been attracted much attention over the years. This is because a particle therapy is really effective for the cancers and has a small effect on normal cells. However, it takes a long time to simulates the dose calculation before the treatment. It is essential to gain the performance of a treatment simulation by using multicore processors. In this paper, we realize an automatic parallelization of dose calculation engine for a particle therapy. We apply a kind of technique which increase the paralellism to the calculation engine in order that parallelizing compiler is able to exploit the loop level parallelism. As a result, the proposed method attains speedup up to 50.0x with 64 IBM Power 7 processors and 9.0x with 12 Intel Xeon processors.

    CiNii

  • SPECベンチマークプログラムのCUDAによる並列化の検討

    平 勇樹, 木村 啓二, 笠原 博徳

    研究報告ハイパフォーマンスコンピューティング(HPC)   2011 ( 16 ) 1 - 6  2011年07月

     概要を見る

    近年,GPU を汎用的な科学計算に用いる手法である GPGPU が注目されている.GPU は CPU と比べて高速な演算性能を持っているが,GPU の高い並列性を生かすためには並列性を持ったプログラムの選択と最適化が不可欠である.Doall のような単純な計算においては性能を出しやすいが,漸化計算 (Reduction) のような並列性が低くなる計算では最適化を行わなければ性能を生かし切ることが出来ない.本研究報告では,並列性の高い汎用 SMP 用ベンチマークである SPEC OMPL2001 331.art を評価対象とし,最適化によって GPU の性能がどれほど得られ,データサイズによってどれほど性能向上の差があるかを調査する.GPGPU のための並列アーキテクチャ CUDA を用いてベンチマークプログラム 331.art を最適化し評価を行ったところ,12 コアでの並列実行の総計算時間と比べて 1.90 倍の速度向上を得た.また,配列サイズが 200 万個以上の漸化計算であればデータ転送帯域を有効に使うことが出来,CPU での並列実行より高速に動作させられることが確認できた.Recently, GPGPU which means a technique of General Purpose computing on GPU has attracted attention. GPU has a high-speed computing performance compared with CPU. Although in order to utilize a high parallelism that GPU have well, it is necessary to select a program with parallelism and optimize the program. It is easy to give high performance in the simple calculation such as Doall, but cannot make use of performance if you don't optimize a low parallelism compute such as Reduction. In this paper, we set a target for SPEC OMPL2001 331.art which has high parallelism and evaluate how much performance is provided by GPU optimize and evaluate how much difference will appear by changing data size of arrays. In this paper, we got speed-up of 1.90 times compared with the total calculation time of parallel execution in 12 cores. We can execute faster than parallel execution in 12 cores when we set a target as a Reduction which access to 2 Million data array.

    CiNii

  • 科学技術計算プログラムの構造を利用したメニーコアアーキテクチャシミュレーション高速化手法の評価

    石塚亮, 阿部洋一, 大胡亮太, 木村啓二, 笠原博徳

    研究報告計算機アーキテクチャ(ARC)   2011 ( 14 ) 1 - 11  2011年07月

     概要を見る

    本稿ではキャッシュやパイプラインまでシミュレーションする詳細シミュレーションと命令実行のみの高速な機能シミュレーションの両方を用いたシミュレーション精度切り替えによるメニーコアシミュレータの高速化手法を提案する.本手法はメニーコアシミュレータ上で並列化プログラムを実行することを前提としており,このプログラムの一部のみを詳細シミュレーションを行うことにより高速化を図る.このとき,詳細シミュレーションを行うサンプリング部分を実機での逐次実行プロファイル情報とプログラム構造から判断し,その分量を統計的手法により決定する.本手法を比較的規則性の高い科学技術計算である SPEC CPU 95のTOMCATV,SWIM で及び SPEC CPU 2000 の ART,EQUAKE を用いて統計学的に算出したサンプリングサイズの値を堺に,実行サイクルが収束していくことを示した.これにより,評価したところ,64 コアかつ精度切換えを想定したシミュレーションで,各アプリケーションにおいて,誤差5%の範囲で約 100 倍の高速化が可能であることを示した.

    CiNii

  • メディアアプリケーションにおけるコンパイラによるI/Oオーバーヘッド隠蔽手法

    林 明宏, 関口 威, 間瀬 正啓, 和田 康孝, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2011 ( 14 ) 1 - 7  2011年04月

     概要を見る

    本稿では,相対的に増大するI/Oオーバーヘッドの削減を目指して,連続したファイル入出力を伴うストリーミングデータを扱うメディア処理アプリケーションを対象としたI/Oオーバーヘッド隠蔽手法を提案する.本手法ではI/O処理を並列化コンパイラが生成する通常の粗粒度タスクの1つとして扱い,粗粒度タスク間並列性解析,タスクスケジューリングを行うことでI/Oタスクと演算タスクの並列化を実現する.AACエンコードプログラムを用いて情報家電用マルチコアRP-X及びXeonサーバ上でその性能を評価した結果,提案手法は最大48%の速度向上を実現可能であることが分かった.In this paper, we propose a novel method which hides I/O overheads in multimedia applications. We propose a compilation technique which realize a I/O task definition, a data dependency analysis among coarse-grain tasks and coarse-grain task scheduling in order to hide I/O overheads for multimedia applications. This paper evaluates processing performance by the proposed methods on RP-X processor and Xeon server. As a result, the proposed method attains speedups to 1.5x for AAC encoding program with 4 SH-4A processors compared with conventional method.

    CiNii

  • 低消費電力マルチコアRP2上での複数メディアアプリケーション実行時の消費電力評価

    見神 広紀, 北基 俊平, 佐藤 崇文, 間瀬 正啓, 木村 啓二, 石坂 一久, 酒井 淳嗣, 枝廣 正人, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2011 ( 1 ) 1 - 8  2011年03月

     概要を見る

    組み込み向けマルチコアではユーザーのインタラクティブな操作等で複数の逐次あるいは並列プロセスが動作させる環境においても高い性能を得ることが重要となる.さらに組み込みマルチコアプロセッサを省電力で動作させるためには,動作周波数・電圧を動的に制御することが重要となる.本論文では,OSCAR 自動並列化コンパイラにより自動で電力制御された各アプリケーションを複数同時実行した際の電力性能をルネサスエレクトロニクス/日立/早稲田大学で開発した 8 コアのマルチコア RP2 上で評価した.コンパイラによるデッドライン制御モードにおいて,1 コアでもリアルタイム制約を低周波数動作で満たせる軽負荷の AAC エンコーダの場合には,各アプリケーションに 1 コアを割り当て同時実行したときが 1 アプリケーションあたりの電力が最小になったが,1 プロセッサでは高周波数動作しないとデッドラインを満たせない中負荷の AAC エンコーダでは各 AAC エンコーダを2プロセッサで並列処理しつつ複数実行した場合のアプリケーションあたりの電力が低く,1 アプリのみ実行した場合には 1 プロセッサで 1.95W を要したものが 4 プロセッサで 0.84W に下げられる事がわかった.高負荷の MPEG2 デコーダでは 4 プロセッサで並列処理しつつ複数実行した時が 1 アプリケーションの電力が最小となり,負荷のあるアプリケーションでは並列処理を行いつつ電力制御を行うことが有効であると確かめられた.On embedded multicores, it is important to obtain high performance although multiple sequential or parallel applications run together. In addition, it is important to control frequency and voltage executing application with low power. This paper evaluated OSCAR compiler's power reduction control with media applications on Renesas Electronics / Hitachi / Waseda RP2. Scheduling with "Deadline mode", power consumption is minimum when it allocates 1 application for 1 processor by low-complex long-wait applications. But in middle-complex and high-complex applications, power consumption is minimum when applications are executed by parallel. It is confirmed parallel processing and frequency / voltage control is effective on multicore processors.

    CiNii

  • OSCAR API標準解釈系を用いたParallelizable Cプログラムの評価

    佐藤 卓也, 見神 広紀, 林 明宏, 間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2010 ( 2 ) 1 - 6  2010年10月

     概要を見る

    本稿では種々の組み込みプロセッサ上で OSCAR (Optimally Scheduled AdvancedMultiprocessor) コンパイラが並列化した C あるいは Fortran プログラムを動作させることを可能とする OSCAR API を各マルチコア用のライブラリコールに変換する OSCAR API 標準解釈系を提案する.この OSCAR API 標準解釈系を用いることにより,OSCAR コンパイラが出力したプログラムは各コア用のライブラリコール入り C あるいは Fortran プログラムになり対象マルチコア内のシングルコア用コンパイラを用いて簡単にバイナリを生成し,各マルチコア上で DMA や電力制御機能を含めて実行することができる.この OSCAR API 標準解釈系を用いて OSCAR コンパイラにより並列化された Parallelizable C プログラムの評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア SMPサーバである IBM p5 550Q において平均 5.61 倍,4 コア集積のマルチコアである Intel Xeon 5506 プロセッサを 2 基搭載した 8 コア SMP サーバにおいて平均 4.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 3.34 倍の性能向上が得られた.This paper proposes OSCAR(Optimally Scheduled Advanced Multiprocessor) API Standard Translator. OSCAR API has been developped as an interface between OSCAR compiler, which can parallelize C and Fortran programs, and various embedded multi cores. The OSCAR API Standard Translator translates a parallelized C or Fortran program by OSCAR compiler into a program having runtime library calls for DMA transfer, power control and so on for a target multicore. The parallel processing performance for Parallelizable C programs, which are automatically parallelized by OSCAR compiler, are evaluated on there multicore systems. The evaluation results show that, compared with sequential execution, 5.61 times speedup is achieved on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors on average, 4.43 times speedup on a 4 cores server with 2 quad-core Intel Xeon processors on average, and 3.34 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores on average, respectively.

    CiNii

  • 情報家電用ヘテロジニアスマルチコアRP-Xにおけるコンパイラ低消費電力制御性能

    和田 康孝, 林 明宏, 渡辺 岳志, 関口 威, 間瀬 正啓, 白子 準, 木村 啓二, 伊藤 雅之, 長谷川 淳, 佐藤 真琴, 野尻 徹, 内山 邦男, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2010 ( 8 ) 1 - 10  2010年07月

     概要を見る

    本稿では,情報家電用ヘテロジニアスマルチコア RP-X 上で,コンパイラによる低消費電力制御を適用した結果について述べる.RP-X は NEDO の "情報家電用ヘテロジニアス・マルチコア技術の研究開発" プロジェクトにおいて開発された情報家電用のヘテロジニアスマルチコアであり,汎用 CPU コアとして SH-4A コアを 8 基,アクセラレータコアとして多目的 DRP コア FE-GA 4 基と画像処理用コア MX2 2 基,さらにメディア用コア VPU5 を搭載する.また,周波数制御・電圧制御等の低消費電力化のための機構を持つ.OSCAR コンパイラによって実現される低消費電力制御手法を RP-X の低消費電力機構に適用し,リアルタイム処理時の消費電力削減効果の評価を行った.その結果,SH-4A 8 コアと FE-GA 4 コアを用いた場合,制御を適用しない場合と比較して,オプティカルフロー演算において約 70[%],AAC エンコーダにおいて約 80[%] の電力削減を得ることができた.This paper reports the efficiency of power reduction scheme by OSCAR compiler applied for a heterogeneous multicore for consumer electronics "RP-X". RP-X is a heterogeneous multicore developed in NEDO "Heterogeneous Multicore for Consumer Electronics" project. RP-X includes eight SH-4A cores, four FE-GA DRPs, two MX2 matrix processors, and one VPU5 media processor. To satisfy strong demands for low power consumption, RP-X is also equipped with mechanisms to reduce the power by changing operation frequency and voltage, or by gating clock. Power reduction scheme implemented in OSCAR compiler is applied to RP-X, and evaluated under the realtime constraint using eight SH-4A cores and four FE-GA cores. As the results, consumed power was reduced by about 70[%] for optical flow calculation, and about 80[%] for an AAC encoder program.

    CiNii

  • プログラム構造に着目したメニーコアアーキテクチャシミュレータの高速化手法

    石塚 亮, 大友 俊也, 大胡 亮太, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2010 ( 20 ) 1 - 7  2010年07月

     概要を見る

    本稿ではキャッシュやパイプラインまでシミュレーションする詳細シミュレーションと命令実行のみの高速な機能シミュレーションの両方を用いたシミュレーション精度切り替えによるメニーコアシミュレータの高速化手法を提案する.本手法はメニーコアシミュレータ上で並列化プログラムを実行することを前提としており,このプログラムの一部のみを詳細シミュレーションを行うことにより高速化を図る.このとき,詳細シミュレーションを行うサンプリング部分をプログラム構造から判断し,その分量を統計的手法により決定する.本手法を SPEC95 の TOMCATV,SWIM で及びルネサステクノロジ (当時) 提供の AAC エンコーダプログラムを用いて評価したところ,64 コアを想定したシミュレーションで,TOMCATV で 3% 以下の誤差,SWIM で 6% 以下の誤差,AAC エンコーダで 5% 以下の誤差の実行サイクル数を 1/90~1/8 のサンプリング実行で得ることができた.This paper proposes an acceleration technique of many core architecture simulator which dynamically changes the simulation mode. The detailed simulation mode considering architectual details, such as cache and pipeline, is used for some essential portion of the target program while the fast functional simulation mode which only simulates instruction execution is leveraged for the rest of the program. The key feature of the proposed technique is that the essensial portion of the program which should be precisely simulated, is analyzed from the program strutre as well as the appropriate sampling size for detail simulation for that portion are determined with statistical approach. The evaluation results show that the simulation method give us the within 3% error for TOMCATV, 6% error for SWIM, 5%error for AACencorder, of execution clock cycles by 1/90 - 1/8 of samplings in the simulation of 64 cores.

    CiNii

  • 情報家電用ヘテロジニアスマルチコア用自動並列化コンパイラフレームワーク

    林 明宏, 和田 康孝, 渡辺 岳志, 関口 威, 間瀬 正啓, 木村 啓二, 伊藤 雅之, 長谷川 淳, 佐藤 真琴, 野尻 徹, 内山 邦男, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2010 ( 7 ) 1 - 9  2010年07月

     概要を見る

    汎用 CPU コアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くの負担をプログラマが負う必要がある等プログラミングが困難である.そこで本稿では,複数 CPU 及びアクセラレータを持つヘテロジニアスマルチコアに対して,逐次プログラムを入力とし自動的に実行効率の良い並列プログラムを生成する,ヘテロジニアスマルチコア向け自動並列化コンパイラフレームワークを提案する.本フレームワークでは自動並列化コンパイラとアクセラレータコンパイラとのインターフェースとして新たに提案するヘテロジニアスマルチコア向け OSCAR API を利用することで,逐次 C プログラムを自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能を実現する.本手法を情報家電用ヘテロジニアスマルチコアプロセッサ RP-X をターゲットとして,AAC エンコーダ及び Optical Flow 計算の自動並列化性能を評価した.その結果,8 つの汎用 CPU コア及び 4 つのアクセラレータコアを使用した場合,逐次実行時と比較して Optical Flow 計算で約 12 倍 (OSCAR コンパイラ+アクセラレータコンパイラ使用時),約 32 倍 (OSCAR コンパイラ+既存ライブラリ使用時),AAC エンコーダで約 16 倍 (OSCAR コンパイラ+既存ライブラリ使用時) の性能向上が得られ,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現可能であることがわかった.Heterogeneous multicores, which integrates multiple general purpose CPU cores and special purpose accelerator cores on a chip, has been widely used in order to attain high performance keeping power consumption low. However, heterogeneous multicores require to programmers very difficult coding for load distribution to CPU cores and accelerator cores, synchronizations and data transfer using DMA controllers. To this end, this paper proposes a compiler framework which facilitates the development of the program for heterogeneous multicores. This framework parallelize the sequenctial C program using OSCAR parallelizing compiler and accelerator compiler. The developed framework gives us 12 times, 32 times and 16 times speedup with eight general purpose CPU cores and four accelerator cores on RP-X processor for an Optical Flow Calculation(using accelerator compiler), Optical Flow Calculation(using library) and an AAC audio encoder program(using library), respectively, against sequential execution by a single CPU core.

    CiNii

  • 並列化コンパイラによるソフトウェアコヒーレンシ制御

    間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告システムソフトウェアと オペレーティング・システム(OS)   2010 ( 7 ) 1 - 10  2010年04月

     概要を見る

    近年,あらゆる情報機器において処理性能の向上および低消費電力化のため,マルチコアの採用が進んでおり,今後チップ上に集積されるコア数はさらに増え,メニーコア時代が訪れると考えられている.しかしながら,64,128 コア以上のメニーコアプロセッサにおけるコヒーレントキャッシュハードウェアは回路規模的にも消費電力的にも実装コストが大きくなりすぎるため,実用化が困難と考えられている.本稿では,キャッシュコヒーレンシ制御機構を持たない共有メモリ型のマルチプロセッサシステムにおいても,並列化コンパイラによりコヒーレントキャッシュと同等な処理を可能とする,ソフトウェアコヒーレンシ制御手法を提案する.本手法を OSCAR 自動並列化コンパイラに実装し,4 コアまではハードウェアコヒーレント機構を持つが,5 コア以上はノンコヒーレント共有メモリ動作となる,8 コア構成の情報家電用マルチコア RP2 において評価を行ったところ,4 アプリケーションプログラムにおいて 4 コアまででノンコヒーレントキャッシュモードでもコヒーレントキャッシュモードと同等以上の性能が得られ,さらに 8 コア使用時にも 1 コア使用時と比較して平均 4.88 倍の速度向上が自動で得られた.As multicore processor becomes widely used in various computer systems, the number of cores integrated in a chip is increasing for improved performance and reduced power consumption toward manycore era. However, cache coherency hardware in manycore processors which integrates over 64 or 128 cores is hard to implement both for circuit area and energy cost. This paper proposes a parallelizing compiler directed software coherence for shared memory multiprocessor systems without hardware cache coherence mechanism that enables as same parallelization as on hardware coherent cache. We implemented the proposed method in OSCAR automatic parallelizing compiler and evaluated on RP2, a multicore for consumer electronics integrating 8 cores, that can support hardware coherent cache mode under 4 cores and non-coherent shared memory multiprocessor mode over 4 cores. The evaluation results shows that automatic parallelization with the proposed software coherence mechanism achieves as much or even better performance than hardware coherence under 4 cores. Also, the software coherence gives us 4.88x speedup for 8 cores in average on 4 application programs against sequential execution.

    CiNii

  • 自動並列化技術を用いたメディア処理オフロード

    石坂 一久, 酒井 淳嗣, 枝廣 正人, 宮本 孝道, 間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告モバイルコンピューティングとユビキタス通信(MBL)   2010 ( 59 ) 1 - 7  2010年03月

     概要を見る

    自動並列化技術と自動オフロード技術により,アプリプログラムを変更することなくメディア処理をヘテロマルチコア上で高速化する手法を提案する.メディア処理は高い演算性能を必要とするが,プロセッサの進歩はヘテロマルチコアへと進んでおりソフトウェアが複雑化する.本稿では,メディア処理アプリの特徴を利用し,コアへの処理の分割と並列化をアプリプログラマに隠蔽した高速化手法を提案する.実験では,提案手法により Window Media Player のソースコードを変更することなくデコード処理をオフロードすることができ,3 コアのアクセラレータを利用して 1.8 倍の性能向上が確認できた.This paper proposes new software architecture for media processing using the automatic parallelization and offload for hetero multicore. While media processing demands more and more computational power, it is difficult for a non-expert programmer to exploit hetero multicore that is a promising future processor architecture. The proposed method keeps programers away from parallelization and offloading for hetero multicore. Our experiments showed that the Windows Media Player speeduped 1.8 times by offloading the decoder to three cores accelerator without source code modification.

    CiNii

  • 組込み向けマルチコア上での複数アプリケーション動作時の自動並列化されたアプリケーションの処理性能

    宮本 孝道, 間瀬 正啓, 木村 啓二, 石坂 一久, 酒井 淳嗣, 枝廣 正人, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2010 ( 9 ) 1 - 8  2010年02月

     概要を見る

    組込み向けマルチコアではユーザの入力などにより複数の逐次あるいは並列プロセスが動作される環境においても高い性能を得ることが重要となる.複数のアプリケーションが同時に実行される環境では,性能低下への対策として共有リソースの競合を減少させることが重要となる.本論文では,アプリケーションの複数同時実行時の OSCAR 自動並列化コンパイラにより生成されたプログラムの並列処理性能を NEC エレクトロニクス NaviEngine 上で評価した.コンパイラにより最適化された MPEG2 デコードと他アプリケーションを同時実行した場合には MPEG2 デコードは最大で 0.91% の性能低下に抑えられ,SPEC95 CFP 101.tomcatv ではコンパイラによる複数のキャッシュ最適化コードを同時実行した場合においても最大で 1.06% の性能低下に抑えられ,性能低下が起こらないことが確かめられた.On embedded multicores, it is important which high performance is obtained although multiple sequential or parallel applications run together. However, performance degradation is occurred by competing resources of multicores. In this paper, we have evaluated parallel performance of programs generated by OSCAR automatic parallelizing compiler in an environment where multiple applications run on NaviEngine developed by NEC Electronics Corporation. When a MPEG2 decoder and other application run together, a MPEG2 decoder's performance degradation is little, a maximum of 0.91% performance degradation. When some SPEC95 CFP 101.tomcatv with cache optimizations by OSCAR automatic parallelizing compiler run together, it is verified which performance degradation is little, a maximum of 1.06% performance degradation.

    CiNii

  • H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理 (集積回路)

    見神 広紀, 宮本 孝道, 木村 啓二

    電子情報通信学会技術研究報告   109 ( 405 ) 121 - 126  2010年01月

    CiNii

  • H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理

    見神 広紀, 宮本 孝道, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2010 ( 22 ) 1 - 6  2010年01月

     概要を見る

    本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.This paper proposes hierarchical parallel processing method of H.264/AVC encoder. Data structures and data dependencies are analyzed to exploit multi-level parallelization as frame-level and macroblock-level. We implemented macroblock-level parallel processing on the x264, an open source H.264/AVC encoder. As a result, on SGI Altix450 (Intel Itanium2 (Montvale), 64 cores ccNUMA server), speed up is saturated by using 8 cores when execute encoder in only frame-level parallelization. However, scalable speedup is attained when execute encoder in frame and macroblock multi-level parallelization.

    CiNii

  • 瞬時電源遮断機構を用いたマルチコアSoC向け省電力ソフトウェア実行環境

    小野内 雅文, 十山 圭介, 野尻 徹, 佐藤 真琴, 間瀬 正啓, 白子 準, 佐藤 未来子, 高田 雅士, 伊藤 雅之, 水野 弘之, 並木 美太郎, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. CST, コンカレント工学   109 ( 367 ) 7 - 12  2010年01月

     概要を見る

    8つのCPUコアを搭載するマルチコアSoC RP2と,自動並列化コンパイラOSCARを用いて,高い処理性能と省電力を両立するソフトウェア実行環境を構築した。この環境ではCPUコア数の増加に応じて処理速度を向上させるため,OSCARコンパイラと連携しデータの特性を考慮したメモリ配置を行うデータマッピング手法を開発し,各CPUコア上で実行される並列化タスク間のコミュニケーションオーバヘッド,すなわち,キャッシュコヒーレンシ維持とタスク間同期の時間を削減した。さらに,オンチップのCPUコアローカルメモリを活用した高速な電源遮断・復帰を実現する瞬時電源遮断機構を開発し,OSCARコンパイラとの連携によりプログラム実行中の待機CPUコアの電源を細粒度に遮断することで,無駄な電力消費を削減した。開発したソフトウェア実行環境上でセキュアAAC-LC圧縮処理を実行したところ,データマッピング手法を適用することにより,CPUコア数を1から8へと増やした場合に5.00倍の処理速度を達成した。さらに,瞬時電源遮断機構を併用することで,電力効率が10%向上することを確認した。

    CiNii

  • マルチコアにおけるParallelizable Cプログラムの自動並列化

    間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2009 ( 15 ) 1 - 10  2009年07月

     概要を見る

    本稿ではコンパイラによる自動並列化を可能とするための C 言語の記述方法として Parallelizable C を提案する.Parallelizable C で記述した科学技術計算およびマルチメディア処理の逐次プログラム 6 本に対して OSCAR コンパイラによる自動並列化を適用し,マルチコアシステム上での処理性能の評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア構成のサーバである IBM p5 550Q において平均 5.54 倍,4 コア集積のマルチコアである Intel Core i7 920 プロセッサを搭載した PC において平均 2.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 2.78 倍の性能向上が得られた.This paper proposes Parallelizable C, a guideline for writing C programs which enables automatic parallelization by a compiler. 6 sequential programs written in Parallelizable C from numerical and multimedia application domains are automatically parallelized by OSCAR compiler. The parallel processing performance for these applications are evaluated on multicore systems. The evaluation results show that the compiler automatic parallelization achieves average 5.54 times speedup on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors, average 2.43 times speedup on a 4 cores multicore processor PC with Intel Core i7 920, and average 2.78 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores compared with sequential execution, respectively.

    CiNii

  • マルチコアプロセッサ上での粗粒度タスク並列処理のためのコンパイラによるローカルメモリ管理手法

    中野 啓史, 桃園 拓, 間瀬 正啓, 木村 啓二, 笠原 博徳

    情報処理学会論文誌コンピューティングシステム(ACS)   2 ( 2 ) 63 - 74  2009年07月

     概要を見る

    リアルタイム性および高性能,低電力が要求される情報家電機器では,オフチップ共有メモリに加え,小容量高速なローカルメモリを搭載したマルチコアプロセッサが開発されている.しかしながら,プログラマが手動でローカルメモリ容量を考慮しつつローカリティの最適化を行うことはきわめて困難であり,プログラム開発期間の短縮のためにはコンパイラによる自動最適化が必要となる.そこで,本論文では,容量制約のあるローカルメモリを有効に利用するための並列化コンパイル手法を提案する.提案手法ではまず,粗粒度タスク並列処理によりループやサブルーチン間の並列性を抽出する.続いてループ整合分割により,ローカルメモリサイズを考慮した粗粒度タスク分割を行う.従来のデータローカライゼーション手法は,分割されたデータを固定的にローカルメモリに割り当てていた.提案手法では,タスク分割後,データの定義あるいは参照時刻に基づくローカルメモリの割当てと解放を行い,より柔軟なローカルメモリ管理を実現する.オーディオ圧縮に用いられる AAC エンコーダを用いた性能評価の結果,固定的な割当てを行う従来のデータローカライゼーション手法と比較し,SH4A を 4 コア集積した RP1 マルチコア上で,約 2.6 倍,8 コア集積した RP2 マルチコア上で,約 2.5 倍の速度向上がそれぞれ得られた.Multicore processors integrating a small fast local memory for each core in addition to an off-chip shared memory has been developed for consumer electronics to meet real-time constraints, high performance and low power demand. However, data locality optimization by hand considering local memory size is much difficult. Therefore automatic compilation optimization is necessary to speed up application development time. This paper proposes a parallelizing compilation scheme which realizes effective use of limited local memory. First, the proposed scheme extracts parallelism among loops or subroutines using coarse grain task parallel processing. Subsequently, a loop is decomposed into smaller loops to fit local memory size using loop aligned decomposition. A conventional data localization scheme allocates decomposed data to fixed local memory address. On the other hand, the proposed scheme effectively allocates and deallocates decomposed data based on data definition and reference time. As the results, the proposed scheme gives us about 2.6 times speedup for AAC encoding program against the conventional scheme which does not manage each array on RP1 4 SH4A multicore processor and about 2.5 on RP2 8 SH4A multicore processor, respectively.

    CiNii

  • 並列度・タスク実行時間の偏りを考慮した標準タスクグラフセット STG Ver3 を用いたスケジューリングアルゴリズムの評価

    島岡 護, 今泉 和浩, 鷹野 芙美代, 木村 啓二, 笠原 博徳

    研究報告ハイパフォーマンスコンピューティング(HPC)   2009 ( 14 ) 127 - 132  2009年02月

     概要を見る

    本稿では強 NP 困難な組み合わせ最適化問題である実行時間最小マルチプロセッサスケジューリング問題のための標準タスクグラフセット STG Ver3 を提案するとともに,それを用いたアルゴリズムの性能評価について述べる. STG Ver2 はタスク実行時間生成乱数,先行制約形状生成乱数により生成されたタスクグラフセットである. STG Ver3 は STG Ver2 にタスクの並列度,タスク実行時間の偏差に考慮を加えることにより生成した "並列度セット" , "正規化偏差セット" により構成される.評価の結果,最適化アルゴリズム DF/IHS (Depth First/ ImplicitHeuristic Search) では 87.25% , PDF/IHS (Parallelized DF/IHS) では 92.25% の問題で 10 分以内に最適解を得られることを確認した.This paper proposes the "Standard Task Graph Set Ver3" (STG Ver3) to evaluate performance of heuristic and optimization algorithms for the minimum execution time multiprocessor scheduling problem. The minimum execution time multiprocessor scheduling problem is known as a strong NP-hard combinational optimization problem to the public. The STG Ver2 was created by random task execution times and random predecessors. In addition, the STG Ver3 considers parallelism of task graphs and deviation of task execution times to let us understand characteristics of algrithms. This paper describes evaluation results by applying the STG Ver3 to several algorithms. Performance evaluation show that DF/IHS can give us optimal solutions for 87.25%, and PDF/IHS 92.25% within 600 seconds.

    CiNii

  • 並列度・タスク実行時間の偏りを考慮した標準タスクグラフセット STG Ver3 を用いたスケジューリングアルゴリズムの評価

    島岡 護, 今泉 和浩, 鷹野 芙美代, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2009 ( 14 ) 127 - 132  2009年02月

     概要を見る

    本稿では強 NP 困難な組み合わせ最適化問題である実行時間最小マルチプロセッサスケジューリング問題のための標準タスクグラフセット STG Ver3 を提案するとともに,それを用いたアルゴリズムの性能評価について述べる. STG Ver2 はタスク実行時間生成乱数,先行制約形状生成乱数により生成されたタスクグラフセットである. STG Ver3 は STG Ver2 にタスクの並列度,タスク実行時間の偏差に考慮を加えることにより生成した "並列度セット" , "正規化偏差セット" により構成される.評価の結果,最適化アルゴリズム DF/IHS (Depth First/ ImplicitHeuristic Search) では 87.25% , PDF/IHS (Parallelized DF/IHS) では 92.25% の問題で 10 分以内に最適解を得られることを確認した.This paper proposes the "Standard Task Graph Set Ver3" (STG Ver3) to evaluate performance of heuristic and optimization algorithms for the minimum execution time multiprocessor scheduling problem. The minimum execution time multiprocessor scheduling problem is known as a strong NP-hard combinational optimization problem to the public. The STG Ver2 was created by random task execution times and random predecessors. In addition, the STG Ver3 considers parallelism of task graphs and deviation of task execution times to let us understand characteristics of algrithms. This paper describes evaluation results by applying the STG Ver3 to several algorithms. Performance evaluation show that DF/IHS can give us optimal solutions for 87.25%, and PDF/IHS 92.25% within 600 seconds.

    CiNii

  • マルチコアのためのコンパイラにおけるローカルメモリ管理手法

    桃園 拓, 中野 啓史, 間瀬 正啓, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   108 ( 375 ) 69 - 74  2009年01月

     概要を見る

    従来容量制限のあるローカルメモリ利用の最適化はプログラマにより手動で行われており,これは長時間を要する非常に困難な作業であった.そこで,本稿ではマルチコア上で,プロセッサに近接した高速小容量のローカルメモリを自動並列化コンパイラにより自動的に有効活用する手法を提案する.本手法では,データローカリティと並列性を考慮してループ整合分割とタスクスケジューリングを行った後,スケジューリング結果を利用してローカルメモリ上のデータを長時間に渡り再利用できるようにデータ配置,DMAコントローラを用いたリプレースを行う.本自動ローカルメモリ管理手法の性能評価を,32KBのローカルデータメモリと64KBの分散共有メモリを搭載したSH4Aを8コア集積した情報家電用マルチコアであるRP2上で行ったところ,逐次実行に比べ,8PE時にMPEG2エンコーダで約6.20倍,AACエンコーダで約725倍,MiBench susanで約7.64倍の速度向上を自動で得ることに成功した.

    CiNii

  • マルチコア上でのOSCAR APIを用いた低消費電力化手法

    中川 亮, 間瀬 正啓, 白子 準, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   108 ( 375 ) 93 - 98  2009年01月

     概要を見る

    マルチコアプロセッサ上でアプリケーションプログラム実行時の消費電力を削減するためには,コンパイラやユーザによるプログラム実行中のチップ内リソースの適切な周波数・電圧・電源制御が必要であり,電力制御の指示が可能なAPIの利用が必要となる.本稿ではリアルタイム情報家電マルチコア用のOSCAR(Optimally Scheduled Advanced Multiprocessor)APIを用いた低消費電力化手法を提案する.本手法はOSCARコンパイラに実装されており,最小時間での処理を保証しつつ消費電力を最小化する最速実行モードと,メディアアプリケーションなどのリアルタイム処理において,リアルタイム制約を満たす範囲で消費電力を最小化するリアルタイム制約モードを実現する.NEDOの"リアルタイム情報家電用マルチコア技術"プロジェクトにて,ルネサステクノロジ,日立製作所,早稲田大学が開発した8コアの情報家電用マルチコアRP2上で提案手法を評価したところ,最速実行モードにおいて,SPEC2000のartで消費エネルギーが13.05%削減され,SPEC2000のequakeで消費エネルギーが3,99%削減されることが確かめられた.また,リアルタイム制約モードにおいてはAACエンコーダで平均電力が87.9%削減され,MPEG2デコーダで平均電力が73.2%削減されることが確かめられた.

    CiNii

  • メディアアプリケーションを用いた並列化コンパイラ協調型へテロジニアスマルチコアアーキテクチャのシミュレーション評価

    神山 輝壮, 和田 康孝, 林 明宏, 間瀬 正啓, 中野 啓史, 渡辺 岳志, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2009 ( 1 ) 63 - 68  2009年01月

     概要を見る

    本稿では,汎用プロセッサコアに加え複数のアクセラレータを 1 チップ上に集積したヘテロジニアスマルチコアアーキテクチャと,それに協調する自動並列化コンパイラの性能について述べる.コンパイラによる並列性の抽出を考慮して記述されたマルチメディアアプリケーションを用いて,汎用 CPU コアを 2 基, FE-GA を想定したアクセラレータコアを 2 基搭載したヘテロジニアスマルチコアアーキテクチヤ構成で評価したところ, MP3 エンコーダでは 1 つの汎用 CPU コアに対して 9.82 倍, JPEG 2000 エンコーダでは 14.64 倍 の速度向上率が得られた.This paper describes a heterogeneous multicore architecture having accelerator cores in addition to general purpose cores, an automatic parallelizing compiler that cooperatively works with the heterogeneous multicore, a heterogeneous multicore architecture simulation environment, and performance evaluation results with the simulation environment. For the performance evaluation, multimedia applications written in C or Fortran, considered with parallelization by the compiler, are used. As a result, the evaluated heterogeneous multicore having two general purpose cores and two accelerator cores achieves 9.82 times speedup from MP3 encoder. This architecture also achieves 14.64 times speedup from JPEG2000 encoder.

    CiNii

  • メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価

    神山 輝壮, 和田 康孝, 林 明宏, 間瀬 正啓, 中野 啓史, 渡辺 岳志, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   108 ( 375 ) 63 - 68  2009年01月

     概要を見る

    本稿では,汎用プロセッサコアに加え複数のアクセラレータを1チップ上に集積したヘテロジニアスマルチコアアーキテクチャと,それに協調する自動並列化コンパイラの性能について述べる.コンパイラによる並列性の抽出を考慮して記述されたマルチメディアアプリケーションを用いて,汎用CPUコアを2基,FE-GAを想定したアクセラレータコアを2基搭載したヘテロジニアスマルチコアアーキテクチャ構成で評価したところ,MP3エンコーダでは1つの汎用CPUコアに対して9.82倍,JPEG2000エンコーダでは14.64倍の速度向上率が得られた.

    CiNii

  • メディアアプリケーションを用いた並列化コンパイラ協調型へテロジニアスマルチコアアーキテクチャのシミュレーション評価

    神山 輝壮, 和田 康孝, 林 明宏, 間瀬 正啓, 中野 啓史, 渡辺 岳志, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2009 ( 1 ) 63 - 68  2009年01月

     概要を見る

    本稿では,汎用プロセッサコアに加え複数のアクセラレータを 1 チップ上に集積したヘテロジニアスマルチコアアーキテクチャと,それに協調する自動並列化コンパイラの性能について述べる.コンパイラによる並列性の抽出を考慮して記述されたマルチメディアアプリケーションを用いて,汎用 CPU コアを 2 基, FE-GA を想定したアクセラレータコアを 2 基搭載したヘテロジニアスマルチコアアーキテクチヤ構成で評価したところ, MP3 エンコーダでは 1 つの汎用 CPU コアに対して 9.82 倍, JPEG 2000 エンコーダでは 14.64 倍 の速度向上率が得られた.This paper describes a heterogeneous multicore architecture having accelerator cores in addition to general purpose cores, an automatic parallelizing compiler that cooperatively works with the heterogeneous multicore, a heterogeneous multicore architecture simulation environment, and performance evaluation results with the simulation environment. For the performance evaluation, multimedia applications written in C or Fortran, considered with parallelization by the compiler, are used. As a result, the evaluated heterogeneous multicore having two general purpose cores and two accelerator cores achieves 9.82 times speedup from MP3 encoder. This architecture also achieves 14.64 times speedup from JPEG2000 encoder.

    CiNii

  • マルチコア上でのOSCAR APIを用いた低消費電力化手法

    中川 亮, 間瀬 正啓, 白子 準, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2009 ( 1 ) 93 - 98  2009年01月

     概要を見る

    マルチコアプロセッサ上でアプリケーションプログラム実行時の消費電力を削減するためには,コンパイラやユーザによるプログラム実行中のチップ内リソースの適切な周波数・電圧・電源制御が必要であり,電力制御の指示が可能な API の利用が必要となる.本稿ではリアルタイム情報家電マルチコア用の OSCAR (Optimally Scheduled Advanced Multiprocessor) API を用いた低消費電力化手法を提案する.本手法は OSCAR コンパイラに実装されており,最小時間での処理を保証しつつ消費電力を最小化する最速実行モードと,メディアアプリケーションなどのリアルタイム処理において,リアルタイム制約を満たす範囲で消費電力を最小化するリアルタイム制約モードを実現する. NEDO の "リアルタイム情報家電用マルチコア技術" プロジェクトにて,ルネサステクノロジ,日立製作所,早稲田大学が開発した 8 コアの情報家電用マルチコア RP2 上で提案手法を評価したところ,最速実行モードにおいて, SPEC2000 の art で消費エネルギーが 13.05% 削減され, SPEC2000 の equake で消費エネルギーが 3.99% 削減されることが確かめられた.また,リアルタイム制約モードにおいては AAC エンコーダで平均電力が 87.9% 削減され, MPEG2 デコーダで平均電力が 73.2% 削減されることが確かめられた.Effective power reduction of an application program on multicore processors requires appropriate power control for each on-chip resource by compilers or users. These low power techniques need an application program interface (API) to realize power control in a user program. This paper proposes a power saving scheme for multicore processors using OSCAR API developed in NEDO "Multicore for Realtime Consumer Electronics" project. The proposed scheme has been implemented in OSCAR compiler to realize the power reduction for fastest execution mode, which minimizes power consumption without performance degradation, and the realtime execution mode to minimize power consumption under realtime constrains. The proposed scheme is evaluated on an 8 cores SH4A multicore processor RP2, newly developed for consumer electronics by Renesas Technology Corp., Hitachi, Ltd. and Waseda University in the above project. For the fastest execution mode, consumed energy was reduced by 13.05% for SPEC2000 art and 3.99% for SPEC2000 equake. Also, for the realtime execution mode, consumed power was reduced by 87.9% for AAC encoder and 73.2% for MPEG2 decoder.

    CiNii

  • マルチコアのためのコンパイラにおけるローカルメモリ管理手法

    桃園 拓, 中野 啓史, 間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2009 ( 1 ) 69 - 74  2009年01月

     概要を見る

    従来容量制限のあるローカルメモリ利用の最適化はプログラマにより手動で行われており,これは長時間を要する非常に困難な作業であったそこで,本稿ではマルチコア上で,プロセッサに近接した高速小容量のローカルメモリを自動並列化コンパイラにより自動的に有効活用する手法を提案する.本手法では,データローカリティと並列性を考慮してループ整合分割とタスクスケジューリングを行った後,スケジューリング結果を利用してローカルメモリ上のデータを長時間に渡り再利用できるようにデータ配置, DMA コントローラを用いたリプレースを行う.本自動ローカルメモリ管理手法の性能評価を, 32KB のローカルデータメモリと 64KB の分散共有メモリを搭載した SH4A を 8 コア集積した情報家電用マルチコアである RP2上で行ったところ,逐次実行に比べ, 8PE 時に MPEG2 エンコーダで約 6.20 倍, AAC エンコーダで約 7.25倍 , MiBench susan で約 7.64 倍の速度向上を自動で得ることに成功した.This paper proposes a local memory management scheme for an automatic parallelizing compiler to realize effective use of a limited size of local memory. After the loop aligned decomposition and task scheduling considering data locality and parallelism, the compiler allocates data to the local memory effectively using the task scheduling result. This paper evaluates the proposed scheme on RP2 multicore for consumer electronics which has 8 SH4A processor cores. Each core integrates 32KB of local data memory and 64KB of distributed shared memory. As the results, the proposed scheme using 8 processors gives us about 6.20 times speedup for MPEG2 encoding program, 7.25 times speedup for AAC encoding program and 7.64 times speedup for susan against the sequential execution.

    CiNii

  • マルチコア上でのOSCAR APIを用いた低消費電力化手法

    中川 亮, 間瀬 正啓, 白子 準, 木村 啓二, 笠原 博徳

    研究報告計算機アーキテクチャ(ARC)   2009 ( 1 ) 93 - 98  2009年01月

     概要を見る

    マルチコアプロセッサ上でアプリケーションプログラム実行時の消費電力を削減するためには,コンパイラやユーザによるプログラム実行中のチップ内リソースの適切な周波数・電圧・電源制御が必要であり,電力制御の指示が可能な API の利用が必要となる.本稿ではリアルタイム情報家電マルチコア用の OSCAR (Optimally Scheduled Advanced Multiprocessor) API を用いた低消費電力化手法を提案する.本手法は OSCAR コンパイラに実装されており,最小時間での処理を保証しつつ消費電力を最小化する最速実行モードと,メディアアプリケーションなどのリアルタイム処理において,リアルタイム制約を満たす範囲で消費電力を最小化するリアルタイム制約モードを実現する. NEDO の "リアルタイム情報家電用マルチコア技術" プロジェクトにて,ルネサステクノロジ,日立製作所,早稲田大学が開発した 8 コアの情報家電用マルチコア RP2 上で提案手法を評価したところ,最速実行モードにおいて, SPEC2000 の art で消費エネルギーが 13.05% 削減され, SPEC2000 の equake で消費エネルギーが 3.99% 削減されることが確かめられた.また,リアルタイム制約モードにおいては AAC エンコーダで平均電力が 87.9% 削減され, MPEG2 デコーダで平均電力が 73.2% 削減されることが確かめられた.Effective power reduction of an application program on multicore processors requires appropriate power control for each on-chip resource by compilers or users. These low power techniques need an application program interface (API) to realize power control in a user program. This paper proposes a power saving scheme for multicore processors using OSCAR API developed in NEDO "Multicore for Realtime Consumer Electronics" project. The proposed scheme has been implemented in OSCAR compiler to realize the power reduction for fastest execution mode, which minimizes power consumption without performance degradation, and the realtime execution mode to minimize power consumption under realtime constrains. The proposed scheme is evaluated on an 8 cores SH4A multicore processor RP2, newly developed for consumer electronics by Renesas Technology Corp., Hitachi, Ltd. and Waseda University in the above project. For the fastest execution mode, consumed energy was reduced by 13.05% for SPEC2000 art and 3.99% for SPEC2000 equake. Also, for the realtime execution mode, consumed power was reduced by 87.9% for AAC encoder and 73.2% for MPEG2 decoder.

    CiNii

  • マルチコアのためのコンパイラにおけるローカルメモリ管理手法

    桃園 拓, 中野 啓史, 間瀬 正啓, 木村 啓二, 笠原 博徳

    研究報告組込みシステム(EMB)   2009 ( 1 ) 69 - 74  2009年01月

     概要を見る

    従来容量制限のあるローカルメモリ利用の最適化はプログラマにより手動で行われており,これは長時間を要する非常に困難な作業であったそこで,本稿ではマルチコア上で,プロセッサに近接した高速小容量のローカルメモリを自動並列化コンパイラにより自動的に有効活用する手法を提案する.本手法では,データローカリティと並列性を考慮してループ整合分割とタスクスケジューリングを行った後,スケジューリング結果を利用してローカルメモリ上のデータを長時間に渡り再利用できるようにデータ配置, DMA コントローラを用いたリプレースを行う.本自動ローカルメモリ管理手法の性能評価を, 32KB のローカルデータメモリと 64KB の分散共有メモリを搭載した SH4A を 8 コア集積した情報家電用マルチコアである RP2上で行ったところ,逐次実行に比べ, 8PE 時に MPEG2 エンコーダで約 6.20 倍, AAC エンコーダで約 7.25倍 , MiBench susan で約 7.64 倍の速度向上を自動で得ることに成功した.This paper proposes a local memory management scheme for an automatic parallelizing compiler to realize effective use of a limited size of local memory. After the loop aligned decomposition and task scheduling considering data locality and parallelism, the compiler allocates data to the local memory effectively using the task scheduling result. This paper evaluates the proposed scheme on RP2 multicore for consumer electronics which has 8 SH4A processor cores. Each core integrates 32KB of local data memory and 64KB of distributed shared memory. As the results, the proposed scheme using 8 processors gives us about 6.20 times speedup for MPEG2 encoding program, 7.25 times speedup for AAC encoding program and 7.64 times speedup for susan against the sequential execution.

    CiNii

  • 階層グルーピング対応バリア同期機構の評価

    山田 海斗, 間瀬 正啓, 白子 準, 木村 啓二, 伊藤 雅之, 服部 俊洋, 水野 弘之, 内山 邦男, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   108 ( 28 ) 19 - 24  2008年05月

     概要を見る

    マルチコアプロセッサに搭載されつつある多数のコアを効率よく利用するため,ループやサブルーチンの内部の並列性を階層的に解析しタスクの定義を行い,プログラム全域の並列性を利用する階層的粗粒度タスク並列処理が提案されOSCARコンパイラに実装されている.階層的粗粒度タスク並列処理では,複数のプロセッサをソフトウェアにより階層的にグルーピングし,これらのグルーピングされたプロセッサ群に対して階層的に定義された粗粒度タスクを割り当てる.この階層的粗粒度タスク並列処理を効率よくサポートする,軽量かつスケーラブルな階層グルーピング対応バリア同期機構を開発し,NEDOリアルタイム情報家電用マルチコアプロジェクトにより開発したSH4Aプロセッサ8コア搭載の情報家電用マルチコアRP2に実装した.本稿では,この階層グルーピング対応バリア同期機構を提案すると共にRP2上で評価を行った結果について述べる.8コアを使用したAACエンコーダによる評価の結果,ソフトウェアのみによるバリア同期に対し16%の性能向上を得ることができた.

    CiNii

  • ポインタ解析を用いた制約付きCプログラムの自動並列化

    間瀬 正啓, 馬場 大介, 長山 晴美, 村田 雄太, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   108 ( 28 ) 69 - 74  2008年05月

     概要を見る

    本稿では,自動並列化コンパイラにより並列性抽出が可能なC言語におけるポインタ利用方法の制約について述べる.実際にこの制約を満たすようにプログラムを作成し,flow-sensitive, context-sensitiveなポインタ解析を用いた自動並列化を適用したところ,8コアSMPサーバにおいて,逐次実行と比較してSPEC2000 artで3.80倍,SPEC2006 lbmで6.17倍,MediaBench mpeg2encで5.14倍の速度向上が得られた.

    CiNii

  • ポインタ解析を用いた制約付きCプログラムの自動並列化

    間瀬 正啓, 馬場 大介, 長山 晴美, 村田 雄太, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2008 ( 39 ) 69 - 74  2008年05月

     概要を見る

    本稿では,自動並列化コンパイラにより並列性抽出が可能なC言語におけるポインタ利用方法の制約について述べる.実際にこの制約を満たすようにプログラムを作成し,flow-sensitive,context-sensitive なポインタ解析を用いた自動並列化を適用したところ,8コア SMP サーバにおいて,逐次実行と比較して SPEC2000 art で 3.80倍,SPEC2006 lbm で 6.17倍,MediaBench mpeg2enc で514倍の速度向上が得られた.This paper describes a restriction on pointer usage in C language for parallelism extraction by an automatic parallelizing compiler. By rewriting programs to satisfy the restriction, automatic parallelization using flow-sensitive, context-sensitive pointer analysis on an 8 cores SMP server achieved 3.80 times speedup for SPEC2000 art, 6.17 times speedup for SPEC2006 lbm and 5.14 times speedup for MediaBench mpeg2enc against the sequential execution, respectively.

    CiNii

  • 階層グルーピング対応バリア同期機構の評価

    山田 海斗, 間瀬 正啓, 白子 準, 木村 啓二, 伊藤 雅之, 服部 俊洋, 水野 弘之, 内山 邦男, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2008 ( 39 ) 19 - 24  2008年05月

     概要を見る

    マルチコアプロセッサに搭載されつつある多数のコアを効率よく利用するため,ループやサブルーチンの内部の並列性を階層的に解析しタスクの定義を行い,プログラム全域の並列性を利用する階層的粗粒度タスク並列処理が提案され OSCAR コンパイラに実装されている.階層的粗粒度タスク並列処理では,複数のプロセッサをソフトウェアにより階層的にグルーピングし,これらのグルーピングされたプロセッサ群に対して階層的に定義された粗粒度タスクを割り当てる.この階層的粗粒度タスク並列処理を効率よくサポートする,軽量かつスケーラブルな階層グルーピング対応バリア同期機構を開発し,NEDO リアルタイム情報家電用マルチコアプロジェクトにより開発した SH4A プロセッサ8コア搭載の情報家電用マルチコア RP2 に実装した.本稿では,この階層グルーピング対応バリア同期機構を提案すると共に RP2 上で評価を行った結果について述べる.8コアを使用した AAC エンコーダによる評価の結果,ソフトウェアのみによるバリア同期に対し 16%の性能向上を得ることができた.In order to use a large number of processor cores in a chip, hierarchical coarse grain task parallel processing, which exploits whole program parallelism by analyzing hierarchical coarse grain task parallelism inside loops and subroutines, has been proposed and implemented in OSCAR automatic parallelizing compiler. This hierarchical coarse grain task parallel processing defines processor groups hierarchically and logically, and assigns hierarchical coarse grain tasks to each processor group. A light-weight and scalable barrier synchronization mechanism considering hierarchical processor grouping, which supports hierarchical coarse grain task parallel processing, is developed and implemented into RP2 multicore processor having eight SH4A cores with support by NEDO "Multicore Technology for Realtime Consumer Electronics". This barrier mechanism is proposed and evaluated in this paper. The evaluation using AAC encoder program by 8 cores shows our barrier mechanism achieves 16% better performance than software barrier.

    CiNii

  • マルチコアプロセッサ上でのマルチメディア処理の並列化

    宮本 孝道, 田村 圭, 田野 裕秋, 見神 広紀, 浅香 沙織, 間瀬 正啓, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 115 ) 77 - 82  2007年11月

     概要を見る

    半導体集積度向上に伴う消費電力の増大,プロセッサ動作クロック周波数向上の鈍化,ハードウェア・ソフトウェア開発期間の増大といった問題に対処すべ<,一つのチップ上に複数のプロセッサコアを集積するマルチコアプロセッサが注目を集めている.また,携帯電話,デジタル TV,ゲーム等の情報家電機器ではコーデック,グラフィックス等のマルチメディア処理の高速化が非常に重要となっている.本稿ではこのようなマルチメディアアプリケーションのマルチコアプロセッサ上での並列化について述べる.特に動画像処理における MPEG2 エシコード,MPEG2 デコード,音声処理における MP3 エンコード,静止画処理における JPEG2000 エンコードを例として OSCAR マルチグレイン自動並列化コンパイラを用いた富土通株式会社製 FR1000 と早稲田大学,ルネサステクノロジ,株式会社日立製作所共同開発 RP1 マルチコアでの並列処理結果について述べる.Multicore processors have attracted much attention to handle the increase of power consumption, the slowdown of improvement of processor clock speed, and the increase of hardware/software developing period. Also, speeding up multimedia applications is required with the progress of the consumer electronics devices like mobile phones, digital TV and games. This paper describes parallelization methods of multimedia applications on the multicore processors. Especially in this paper, MPEG2 encoding and MPEG2 decoding are selected as examples of video sequence processing, MP3 encoding is selected as an example of audio processing, JPEG 2000 encoding is selected as an example of picture processing. OSCAR multigrain parallelizing compiler parallelizes these media applications using newly developed multicore API. This paper evaluates parallel processing performances of these multimedia applications on the FR1000 multicore processor developed by Fujitsu Ltd, and the RPl multicore processor jointly-developed by Waseda University, Renesas Technology Corp. and Hitachi Ltd.

    CiNii

  • 54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討

    鹿野 裕明, 伊藤 雅樹, 戸高 貴司, 津野田 賢伸, 兒玉 征之, 小野内 雅文, 内山 邦男, 小高 俊彦, 亀井 達也, 永濱 衛, 草桶 学, 新田 祐介, 和田 康孝, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. SDM, シリコン材料・デバイス   107 ( 194 ) 11 - 16  2007年08月

     概要を見る

    汎用プロセッサ(CPU)コアとアクセラレータ(ACC)コアを複数個集積したヘテロジニアスマルチコアプロセッサ(HMCP)アーキテクチャを検討した.HMCPは,特定の演算を効率よく実行可能なACCコアの効果的な利用と複数のプロセッサコアの並列利用により,動作周波数を向上させなくとも高い演算性能を得ることが可能であり,組み込み向けSoCに求められる高性能,小面積,省電力を同時に実現する.今回HMCPアーキテクチャの有効性評価に当たり,AAC-LCエンコーディングのHMCPにおける処理方式を検討し,ホモジニアスマルチコアプロセッサにアクセラレータとして動的再構成可能プロセッサ(DRP)を付加した試作チップ上での評価を行った.その結果,600MHzで動作するCPU2個と300MHzで動作するDRP2個を集積したHMCPにおいて,CD一枚が1-2分程度でエンコード可能となる54倍速AACエンコーディングの性能が得られることを確認した。

    CiNii

  • ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法

    和田 康孝, 林 明宏, 伊能健人, 益浦 健, 白子 準, 中野 啓史, 鹿野 裕明, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 79 ) 97 - 102  2007年08月

     概要を見る

    本稿では,ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法について述べる.ヘテロジニアスマルチコアは.1チップ上に汎用プロセッサに加え,動的再構成可能プロセッサ (DRP) や信号処理用プロセッサ (DSP) などのアクセラレータを複数集積したプロセッサで,低消費電力で高い処理性能を得ることができるアーキテクチャとして情報家電等の分野で注目を集めている.本稿で提案するスタティックスケジューリング手法は,ループやサブルーチン,基本ブロック間の並列性を利用する粗粒度タスク並列処理において,各タスクの特性,チップ上の各コアの種類を考慮して処理時間を最小とするようにタスクを汎用コア及びアクセラレータに割り当て,コア間でのデータ転送は DMR を用いてタスク処理とオーバーラップして行うことにより,プログラムの階層的な並列性とチップ上のアクセラレータを最大限利用する手法である.本手法をMP3エンコーダに適用し評価した結果,SH4A1コアのみを用いた場合に対して,SH4A4コア で3.97倍,SH4A2コアとDRP2コアで12.64 倍,SH4A4コアとDRP4コアを用いたときに24.48倍の速度向上を得られることが確認できた.This paper proposes a static scheduling scheme for hierarchical coarse grain task parallel pro cessing on a heterogeneous multicore processor. A heterogeneous multicore processor integrates not only general purpose processors but also accelerators like dynamically reconfigurable proces sors (DRPs) or digital signal processors (DSPs). Effective usage of these accelerators allows us to get high performance and low power consumption at the same time. In the proposed scheme, the compiler extracts parallelism using coarse grain parallel processing and assigns tasks considering characteristics of each core to minimize the execution time of an application. Performance of the proposed scheme is evaluated on a heterogeneous multicore processor using MP3 encoder. Hetero geneous configurations give us 12.64 times speedup with two SH4As and two DRPs and 24.48 times speedup with four SH4As and four DRPs against sequential execution with one SH4A core.

    CiNii

  • ヘテロジニアスマルチコア上でのコンパイラによる低消費電力制御

    林 明宏, 伊能健人, 中川 亮, 益浦 健, 松本 繁, 山田 海斗, 押山 直人, 白子 準, 和田 康孝, 中野 啓史, 鹿野 裕明, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 79 ) 103 - 108  2007年08月

     概要を見る

    現在,情報家電分野からPC,サーバ,スーパーコンピュータに至るまで処理性能の向上と低消費電力化のためにマルチコアプロセッサの導入が図られている.特に情報家電では電力あたりの性能を高めるために1チップ上に複数の汎用コアとアクセラレータコアを集積するヘテロジニアスマルチコアが注目を集めている.この高処理性能/低消費電力,さらにはソフトウェア生産性向上の要求を満たすためには,実行するプログラムの適切な並列化,チップ上のリソースのきめ細かな電圧や動作周波数制御を実現する並列化コンパイラの開発が必要不可欠である.本稿では各コアがローカルメモリ,データ転送機構および電力制御機構を持つヘテロジニアスマルチコアアーキテクチャにおいて,コンパイラによる周波数及び電源制御を適用した際の性能評価結果について述べる.MP3エンコーダを用いて,CPUコアとしてSH4Aを4基,アクセラレータコアとして FE-GAを4基からなるヘテロジニアスマルチコアを想定し周波数および電源制御を行った場合,1SHコア に対し,24.32倍の速度向上が得られ,消費電力制御を行わない場合に比べて処理性能をほぼ維持したままで28.43% の消費エネルギーを削減できることが確認できた.Multicore processors are getting introduced for performance improvement and reduction of power dissipation in various IT fields, such as consumer electronics, PCs, servers and super computers. Especially, heterogeneous multicores have attracted much attention in consumer electronics to achieve higher performance per watt. In order to satisfy the demand for the high performance, low power dissipation and high software productivity, Parallelizing compilers for both parallelization and Frequency and Voltage control are required. This paper describes the evaluation results of compiler control power saving for a heterogeneous multicore processor which integrates upto 4 general purpose embedded processor Renesas SH4As and 4 accelera tor core like dynamically reconfigureable processors Hitachi FE-GAs. Performance evaluation shows the heterogeneous multicore gave us 24.32 times speed up against sequential processing and 28.43% energy savings for MP3 encoding program without performance degradation.

    CiNii

  • 独立に周波数制御可能な 4320MIPS、SMP/AMP 対応 4プロセッサ LSI の開発

    早瀬 清, 吉田 裕, 亀井 達也, 芝原 真一, 西井 修, 服部 俊洋, 長谷川 淳, 高田 雅士, 入江 直彦, 内山 邦男, 小高 俊彦, 高田 究, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 55 ) 31 - 35  2007年05月

     概要を見る

    低消費電力と高性能を備えた、4320MIPS4 プロセッサ SOC を 90nm プロセスで設計した。それぞれのプロセッサには、32KB のデータキャッシュを内蔵しており、プロセッサ間のデータキャッシュのコヒーレンシを維持するためのモジュールを内蔵する。プロセッサ毎に処理量に応じた周波数制御と、プロセッサ間のデータキャッシュのコヒーレンシを維持するスリープモードの採用により、低電力を実現する。4320MIPS 4-processor SoC that provides with low power consumption and high performance was designed using 90nm process. The 32KB-data cache is built into each processor, and the module to maintain the coherency of the data cache between processors is built into. A low electric power is achieved by frequency control of each processor according to amount of processing and adopting sleep mode that maintains coherency of the data cache between processors.

    CiNii

  • 情報家電用マルチコア SMP 実行モードにおけるマルチグレイン並列処理

    間瀬 正啓, 馬場 大介, 長山 晴美, 田野 裕秋, 益浦 健, 宮本 孝道, 白子 準, 中野 啓史, 木村 啓二, 亀井 達也, 服部 俊洋, 長谷川 淳, 伊藤 雅樹, 佐藤 真琴, 内山 邦男, 小高 俊彦, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 55 ) 25 - 30  2007年05月

     概要を見る

    現在、ゲーム、カーナビゲーションシステム、デジタルTV、携帯電話等の情報家電機器を始め、PC からスーパーコンピュータに至る、多くの情報機器でマルチコアプロセッサ採用の動きが進んでいる。本稿では、制約付き C 言語で記述されたメディア処理等のプログラムを OSCAR マルチグレイン自動並列化コンパイラにより並列化し、NEDO "リアルタイム情報家電用マルチコア技術の研究開発"プロジェクトの一環で OSCAR 標準マルチコアメモリアーキテクチャに基づき株式会社ノレネサステクノロジ、株式会社日立製作所により開発された SH-4A(SH-X3)コアを4コア集積した情報家電用マルチコアプロセッサ RP1 上で SMP モード実行時の性能評価を行った。評価の結果、AAC オーディオエンコーダで4コア使用時に1コア使用時の 3.34 倍の速度向上が得られた。Currently, multicore processors are becoming ubiquitous in various computing domains, namely consumer electronics such as games, car navigation systems and mobile phones, PCs, and supercomputers. This paper describes parallelization of media processing programs written in restricted C language by OSCAR multigrain parallelizing compiler and SMP processing performance on RP1 4-core SH-4A (SH-X3) multicore processor developed by Renesas Technology Corp. and Hitachi, Ltd. based on standard OSCAR multicore memory architecture as a part of NEDO "Research and Development of Multicore Technology for Real Time Consumer Electronics Project". Performance evaluation shows OSCAR compiler achieved 3.34 times speedup using 4 cores against using 1 core for AAC audio encoder.

    CiNii

  • 独立に周波数制御可能な4320MIPS、SMP/AMP対応4プロセッサLSIの開発

    早瀬 清, 吉田 裕, 亀井 達也, 芝原 真一, 西井 修, 服部 俊洋, 長谷川 淳, 高田 雅士, 入江 直彦, 内山 邦男, 小高 俊彦, 高田 究, 木村 啓二, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   107 ( 76 ) 31 - 35  2007年05月

     概要を見る

    低消費電力と高性能を備えた、4320MIPS4プロセッサSOCを90nmプロセスで設計した。それぞれのプロセッサには、32KBのデータキャッシュを内蔵しており、プロセッサ間のデータキャッシュのコヒーレンシを維持するためのモジュールを内蔵する。プロセッサ毎に処理量に応じた周波数制御と、プロセッサ間のデータキャッシュのコヒーレンシを維持するスリープモードの採用により、低電力を実現する。

    CiNii

  • 情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理

    間瀬 正啓, 馬場 大介, 長山 晴美, 田野 裕秋, 益浦 健, 宮本 孝道, 白子 準, 中野 啓史, 木村 啓二, 亀井 達也, 服部 俊洋, 長谷川 淳, 伊藤 雅樹, 佐藤 真琴, 内山 邦男, 小高 俊彦, 笠原 博徳

    電子情報通信学会技術研究報告. ICD, 集積回路   107 ( 76 ) 25 - 30  2007年05月

     概要を見る

    現在,ゲーム,カーナビゲーションシステム,デジタルTV,携帯電話等の情報家電機器を始め,PCからスーパーコンピュータに至る,多くの情報機器でマルチコアプロセッサ採用の動きが進んでいる.本稿では,制約付きC言語で記述されたメディア処理等のプログラムをOSCARマルチグレイン自動並列化コンパイラにより並列化し,NEDO"リアルタイム情報家電用マルチコア技術の研究開発"プロジェクトの一環でOSCAR標準マルチコアメモリアーキテクチャに基づき株式会社ルネサルテクノロジ,株式会社日立製作所により開発されたSH-4A(SH-X3)コアを4コア集積した情報家電用マルチコアプロセッサRP1上でSMPモード実行時の性能評価を行った.評価の結果AACオーディオエンコーダで4コア使用時に1コア使用時の3.34倍の速度向上が得られた.

    CiNii

  • マルチグレイン並列化コンパイラにおけるローカルメモリ管理手法

    三浦 剛, 田川 友博, 村松 裕介, 池見 明紀, 中川 正洋, 中野 啓史, 白子 準, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 17 ) 61 - 66  2007年03月

     概要を見る

    半導体集積度向上に伴うスケーラブルな性能向上,低消費電力,価格性能を達成するためにマルチコアプロセッサが大きな注目を集めている.消費電力を抑えつつマルチコアプロセッサの実効性能を向上させ,アプリケーションソフトウェアの開発期間を短縮するためには自動並列化コンパイラが重要な役目を果たす.この実効性能の向上のためには,マルチコアプロセッサにおいても,プロセッサとメモリ動作速度のギャップに起因するメモリウォール問題への対処が必要となる.具体的には,プロセッサに近接したキャッシュやローカルメモリ等の高速メモリの有効利用が実効性能向上のために必須である.本稿では,OSCARマルチグレイン自動並列化コンパイラを用いた粗粒度タスク並列処理において,プログラム全域のデータローカリティを有効利用した,マルチコア上のローカルメモリ管理手法について提案する.SPEC 95fpのtomcatvを用いたOSCARマルチコアシミュレータ上の性能評価において,本手法未適用時の共有メモリを用いた逐次処理に対して,本手法適用によるローカルメモリ利用最適化により,8プロセッサで19.6倍の性能向上が得られた.Multicore systems have been attracting much attention for performance, low power consumption and short hardware/software development period. To take the full advantage of multiprocessor systems, parallelizing compilers serve important roles. On multicore processor, a memory wall caused by the speed gap between processor core and memory is also serious problem. Therefore, it is important for performance improvement to use fast memolies like cache and local memory nearby a processor effectively. This paper proposes a local memory management scheme for coarse grain task parallel processing. In the evaluation using SPEC 95fp tomcatv, the proposed scheme using 8 processors achieved 19.6 times speedup against the sequantial execution without the proposed scheme on the OSCAR multicore processor by the effective use of local memories.

    CiNii

  • マルチコア上でのマルチメディアアプリケーションの自動並列化

    宮本 孝道, 浅香 沙織, 鎌倉 信仁, 山内 宏真, 間瀬 正啓, 白子 準, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告組込みシステム(EMB)   2007 ( 4 ) 69 - 74  2007年01月

     概要を見る

    半導体集積度向上に伴う消費電力の増大、プロセッサ動作クロック周波数向上の鈍化、ハードウェア・ソフトウェア開発期間の増大といった問題に対処すべく、一つのチップ上に複数のプロセッサコアを集積するマルチコアプロセッサが注目を集めている。また、携帯電話、デジタル TV、ゲーム等の情報家電上ではコーデック、グラフィックス等のマルチメディア処理の高速化が非常に重要となっている。本稿ではこのようなマルチメディアアプリケーションのマルチコアプロセッサ上での並列化について述べる。特に動画像処理の例として MPEG2 エンコード、MPEG2 デコード、音声処理の例として MP3 エンコード、静止画処理の例として JPEG2000 エンコ-ドの OSCAR マルチグレイン自動並列化コンパイラをもちいたマルチコア上での並列処理について述べる。各マルチメディア処理の並列処理を OSCAR マルチコアプロセッサ、IBM p5 550Q Power+ 2 コア集積マルチコアプロセッサベース SMP サーバ上で評価を行った。OSCAR マルチコアプロセッサ上では、逐次処理に対して、提案するローカルメモリ最適化、データ転送最適化を伴う並列化手法により4プロセッサでの並列処理では、MPEG2 エンコードで3.81倍、MPEG2 デコードで3.04倍、MP3 エンコードで3.09倍、JPEG 2000 エンコードで3.79倍の速度向上が得られた。IBM p5 550Q 上では、逐次処理に対して OSCAR コンパイラによる8プロセッサでの並列処理では、MPEG2 エンコードで5.19倍、MPEG2 デコードで5.12倍、MP3 エンコードで3.69倍、JPEG 2000 エンコードで4.32倍の速度向上が得られた。Multicore processors have attracted much attention to handle the increase of power consumption along with the increase of integration degree of semiconductor devices, the slowdown of improvement of processor clocks, and the increase of hardware/software developing period. Also, speeding up multimedia applications is required with the progress of the consumer electronics like mobile phones, digital TV and games. This paper describes parallelization methods of multimedia applications on the multicore processors. Especially in this paper, MPEG2 encoding and MPEG2 decoding are selected as examples of video sequence processing, MP3 encoding is selected as an example of audio processing, JPEG 2000 encoding is selected as an example of picture processing. OSCAR multigrain parallelizing compiler automatically parallelizes these media applications. This paper evaluates parallel processing performances of these multimedia applications on the OSCAR multicore processor, and the IBM p5 550Q Power5+ 8 processors SMP server. On the OSCAR multicore processor, the parallel execution with the proposed method of managing local memory and optimizing data transfer using 4 processors, gives us 3.81 times speedup for MPEG2 encoding, 3.04 times speedup for MPEG2 decoding, 3.09 times speedup for MP3 encoding, 3.79 times speedup for JPEG 2000 encoding against the sequential execution. On the IBM p5 550Q Power5+ 8 processors server, the parallel execution using 8 processors gives us 5.19 times speedup for MPEG2 encoding, 5.12 times speedup for MPEG2 decoding, 3.69 times speedup for MP3 encoding, 4.32 times speedup for JPEG 2000 encoding against the sequential execution.

    CiNii

  • OSCARコンパイラにおける制約付きCプログラムの自動並列化

    間瀬 正啓, 馬場 大介, 長山 晴美, 田野 裕秋, 益浦 健, 深津幸二, 宮本 孝道, 白子 準, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 127 ) 1 - 6  2006年11月

     概要を見る

    マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.

    CiNii

  • SMPサーバ及び組込み用マルチコア上でのOSCARマルチグレイン自動並列化コンパイラの性能

    白子 準, 田川 友博, 三浦 剛, 宮本 孝道, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 127 ) 7 - 12  2006年11月

     概要を見る

    半導体集積度向上に伴うスケーラブルな性能向上、低消費電力、価格性能を達成するためにマルチコアプロセッサが大きな注目を集めている。このようなマルチコアプロセッサの性能を最大限に引き出し、ソフトウェア/ハードウェア開発期間を短縮するためには自動並列化コンパイラが重要な役目を果たす。本論文ではループ並列処理に加え、粗粒度タスク並列処理・近細粒度並列処理によりプログラム全域にわたる並列化を行うOSCARマルチグレイン自動並列化コンパイラを用いた、最新SMPサーバ及び組込み組込み用マルチコアプロセッサ上での性能評価について述べる。OSCARコンパイラではプログラム中の各部分に対する適切な処理プロセッサ数と並列処理手法の決定、複数のループや粗粒度タスク間にまたがる広域的なキャッシュメモリ最適化技術が実現されている。SPEC CFP95ベンチマーク全10本とCFP2000ベンチマーク4本を用いた性能評価において、OSCARコンパイラはIBM p5 550Q Power+8 プロセッササーバ上でIBM XL Fortran コンパイラ version 10.1の自動並列化性能に比べ平均2.74倍、IBM pSeries690 Power4 24 プロセッササーバ上でIBM XL Fortran コンパイラ version 8.1 の自動並列化性能に比べ平均4.82倍の性能向上が得られた。またNEC/ARM MPCore ARMv6 4 プロセッサ集積組込み用マルチコアにおいて、OpenMP API の一部機能をサポートすることでOSCARコンパイラによる自動並列化を実現した。組込み用途を考慮しデータセットを縮小したSPEC CFP95 を用いた評価において、逐次処理に比べtomcatv で4.08倍、swim で3.90倍、su2cor で2.21倍、hydro2d で3.53倍、mgrid で3.85倍、applu で3.62倍、turb3d で3.20倍の性能向上が得られた。Currently, multiprocessor systems, especially multicore processors, are attracting much attention for performance, low power consumption and short hardware/software development period. To take the full advantage of multiprocessor systems, parallelizing compilers serve important roles. This paper describes the execution performance of OSCAR multigrain parallelizing compiler using coarse grain task parallelization and near fine grain parallelization in addition to loop parallelization, on the latest SMP servers and a SMP embedded multicore. The OSCAR compiler has realized the automatic determination of parallelizing layer, which decides the suitable number of processors and parallelizing technique for each nested part of the program, and global cache memory optimization over loops and coarse grain tasks. In the performance evaluation using 10 SPEC CFP95 benchmark programs and 4 SPEC CFP2000, OSCAR compiler gave us 2.74 times speedup compared with IBM XL Fortran compiler 10.1 on IBM p5550Q Power5+ 8 processors server, 4.82 times speedup compared with IBM XL Fortran compiler 8.1 on IBM pSeries690 Power4 24 processors server. OSCAR compiler can be also applied for NEC/ARM MPCore ARMv6 4 processors low power embedded multicore, using subset of OpenMP libraries and g77 compiler. In the evaluation using SPEC CFP95 benchmarks with reduced data sets, OSCAR compiler achieved 4.08 times speedup for tomcatv, 3.90 times speedup for swim, 2.21 times speedup for su2cor, 3.53 times speedup for hydro2d, 3.85 times speedup for mgrid, 3.62 times speedup for applu and 3.20 times speedup for turb3d against the sequential execution.

    CiNii

  • OSCARマルチコア上でのローカルメモリ管理手法

    中野 啓史, 仁藤拓実, 丸山 貴紀, 中川 正洋, 鈴木 裕貴, 内藤陽介, 宮本 孝道, 和田 康孝, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 88 ) 163 - 168  2006年07月

     概要を見る

    半導体集積度向上に伴う消費電力の増大、プロセッサ実質速度向上の鈍化,ハードウエア,ソフトウエア開発期間の増大といった問題を解決すべく,一つのチップ上に複数のプロセッサコアを集積するマルチコアプロセッサが次世代プロセッサアーキテクチャとして注目を集めている.このマルチコアプロセッサにおいても,プロセッサとメモリ動作速度のギャップに伴うメモリウオールは深刻な問題であり,プロセッサに近接したキャッシュやローカルメモリ等の高速メモリの有効利用が実効性能向上のために重要なポイントとなっている.このような事項を考慮して筆者等は自動マルチグレイン並列化コンパイラとの協調動作により実行性能が高く価格性能比の良いコンピュータシステムの実現を目指すOSCARマルチコアプロセッサを提案している.このOSCARマルチコアプロセッサは,すべてのプロセッサコアがアクセスできる集中共有メモリ(CSM)の他に,プロセッサコアのプライベートデータメモリ(LDM)とプロセッサコア間の同期やデータ転送に使用する2ポートメモリ構成の分散共有メモリ(DSM),死す手で0多点創オーバヘッドの隠蔽を目指し,プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿ではOSCARコンパイラを用いた粗粒度タスク並列処理におけるLDM/DSM管理手法について述べる.性能評価の結果,逐次実効に比べ8PE時,MP3エンコーダで約7.1倍,MPEG2エンコーダで約6.3倍,JPEG2000エンコーダで約3.8倍の速度向上が得られた。Along with the advancement of integration technology of semiconductor devices, to overcome the increase of power consumption, the slowdown of processor effective performance improvement rate, and the increase of period for hardware/software developing transistors integrated on to a chip, multicore processors have attracted much attention as a next-generation microprocessor architecture. However, the memory wall caused by the gap between memory access speed and processor core speed is getting a serious problem also on the multicore processors. Therefore, the effective use of fast memories like cache and local memory nearby a processor with high effective performance and good cost performance. The OSCAR multicore processor has local data memory (LDM) for processor private data, distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centerlized shared memory(CSM) to support dynamic task scheduling, and data transfer unit (DTU) which transfers data asynchronously and aims at overlapping data transfaroverhand. This paper descrives data location scheme that aimed at improving the effective use of LDM and DSM using coarse grain task parallel processing and compiler-controlled LDM and DSM management scheme. As the results, the proposed scheme gives us 7.1 times speedup for MP3 encoding rogram, 6.3 for MPEG2 encording program and 3.8 for JPEG2000 encording program against the sequential execution without the proposed scheme on 8 processors automatically.

    CiNii

  • マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ

    宮本 孝道, 中川 正洋, 浅野 尚一郎, 内藤陽介, 仁藤拓実, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 20 ) 55 - 60  2006年02月

     概要を見る

    半導体集積度向上に伴う消費電力の増大,プロセッサ実質速度向上の鈍化,ハードウェア,ソフトウェア開発期間の増大といった問題を解決すべく,一つのチップ上に複数のプロセッサコアを集積するマルチコアプロセッサが次世代プロセッサアーキテクチャとして注目を集めている.このマルチコアプロセッサにおいても,プロセッサとメモリ動作速度のギャップに伴うメモリウォールは深刻な問題であり,プロセッサに近接したキャッシュやローカルメモリ等の高速メモリの有効利用が実効性能向上のために重要なポイントであり,それに伴い発生するデータ転送によるオーバヘッドを減少させなければならない.このような事項を考慮して筆者等は自動マルチグレイン並列化コンパイラとの協調動作により実効性能が高く価格性能比の良いコンピュータシステムの実現を目指すOSCARマルチコアプロセッサを提案している.このOSCARマルチコアプロセッサは,全てのプロセッサコアがアクセスできる集中共有メモリ(CSM) の他に,プロセッサコアのプライベートデータを格納するローカルデータメモリ(LDM)とプロセッサコア間の同期やデータ転送に使用する2ポートメモリ構成の分散共有メモリ(DSM) ,そしてデータ転送オーバヘッドの隠蔽を目指し,プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿ではOSCARコンパイラを用いた粗粒度タスク並列処理において,DTUを利用したデータ転送オーバラップを考慮したタスクスケジューリングアルゴリズムとデータ転送スケジューリング手法によるデータ転送オーバラップ手法について述べる.提案手法をOSCARコンパイラに組み込み,JPEG2000エンコーディングプログラムに適用して評価を行った結果,4PEではほとんど全てデータをローカルメモリに割り当てた1PEでの処理と比べ2.86倍の速度向上率が得られた.Along with the increase of integration degree of semiconductor devices, to overcome the increase of power consumption, the slowdown of improvement of processor effective performance, and the increase of period for hardware/software developing transistors integrated on to a chip, multicore processors, have attracted much attention as a next-generation microprocessor architecture. However, the memory wall caused by the gap between memory access speed and processor core speed is still a serious problem also on the multicore processors. Therefore, the effective use of fast memories like cache and local memory nearby processor is important for reducing large memory access overhead. Futhermore, hiding data transfer overhead among local or distributed shared memories of processors and centralized shared memory is important. On the memory architechture, the data transfer is specified. Considering these problems, the authors have proposed the OSCAR multicore processor architecture which cooperates with OSCAR multigrain parallelizing compiler and aims at developing a processor with high effective performance and good cost performance computer system. The OSCAR multicore processor has local data memory (LDM) for processor private data, distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit (DTU) which transfers data asynchronously and aims at overlapping data transfer overhead. This paper proposes and evaluates a static data transfer scheduling algorithm aiming at overlapping data transfer overhead. As the results, the proposed scheme controlled by OSCAR compiler gives us 2.86 times speedup using 4 processors for JPEG2000 encoding program against the ideal sequential execution assuming that the all data can be assigned to the local memory.

    CiNii

  • ヘテロジニアスチップマルチプロセッサにおける粗粒度タスクスタティックスケジューリング手法

    和田 康孝, 押山 直人, 鈴木 裕貴, 白子 準, 中野 啓史, 鹿野 裕明, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 8 ) 13 - 18  2006年01月

     概要を見る

    本論文では,汎用プロセッサに加え,DRP(Dynamically Recofigurable Processor)やDSP(Digital Signal Processor)などのアクセラレータを1チップ上に複数集積したヘテロジニアスチップマルチプロセッサ上で,アクセラレータの利用による高い実効性能と動作周波数・電圧の制御による低消費電力化を実現する,各コアの特性を考慮した租粒度タスクスタティックスケジューリング手法を提案する.本手法は,ループやサブルーチン,基本ブロック間の並列性を利用する粗粒度タスク並列処理において,チップ上の各コアの種類や実行可能なタスクおよびコストを考慮した処理時間最小を目指したスタティックスケジューリング手法であり,その性能をMP3エンコーダに適用し評価した.今回の評価では,汎用プロセッサ4コアとアクセラレータとしてDRP2コアを搭載したヘテロジニアスチップマルチプロセッサを対象とした評価を行った結果,本手法を適用せず汎用プロセッサ1コアのみを用いて逐次実行した場合に対して,最大8.8倍の速度向上が得られることが確認できた.This paper proposes a static scheduling scheme for coarse grain tasks on a heterogeneous chip multi processor which integrates not only general purpose processors but also accelerators like DRP or DSP. A heterogeneous chip multi processor allows us to get high performance by using the accelerators and to save energy by frequency/voltage control by the compiler. In this scheme, the compiler aim to minimize the execution time of an application in consideration of the characteristic in each core. Performance of the proposed scheme is evaluated on a heterogeneous chip multi processor which has 4 general purpose processors and 2 accelerators using MP3 encoder and gives us 8.8 times speedup against sequencial execution without the poroposed scheme.

    CiNii

  • MP3エンコーダを用いたヘテロジニアスチップマルチプロセッサの性能評価

    鹿野 裕明, 鈴木 裕貴, 和田 康孝, 白子 順, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2006 ( 8 ) 1 - 6  2006年01月

     概要を見る

    汎用プロセッサや専用プロセッサ,アクセラレータなど,様々な種類のプロセッサエレメント(PE)を複数個同一チップ上に集積し,処理を並列で行うことで,動作周波数を向上させなくとも高い演算性能を得ることが可能なソフトウェア協調ヘテロジニアスマルチプロセッサ (HCMP) を提案する.本プロセッサは各PEにローカルメモリ,データ転送機構及び電力制御機構を持ち,コンパイラと協調することで,性能向上と低電力の両立を狙う.今回,MP3エンコーダを評価対象とし,その並列処理方式と電力制御方式を検討し,HCMP上での机上評価を実施した.その結果,汎用プロセッサコア3個,動的再構成プロセッサコア2個を搭載したHCMPは,汎用プロセッサ1個のシングルコアプロセッサと比較して16.3倍,汎用プロセッサ5個を搭載したホモジニアスマルチコアプロセッサと比較して4.0倍の速度向上となった.また,電力制御を実施することにより,24%の電力削減効果を期待できる結果となった.This paper proposes a heterogeneous chip multi-processor (HCMP) that possesses different types of processing elements (PEs) such as CPUs as general-purpose processors, as well as digital signal processors or dynamic reconfigurable processors (DRPs) as special-purpose processors. The HCMP realizes higher performance than conventional single-core processors or even homogeneous multi-processors in some specific applications such as media processing, with low operating frequency supplied, which results in lower power consumption. In this paper, the performance of the HCMP is analyzed by studying parallelizing scheme and power control scheme of an MP3 audio encoding program and by scheduling the program onto the HCMP using these two schemes. As a result, it is confirmed that an HCMP, consisting of three CPUs and two DRPs, outperforms a single-core processor with one CPU by a speed-up factor of 16.3, and a homogeneous multi-processor with 5 CPUs by a speed-up factor of 4.0. It is also confirmed that the power control on the HCMP results in 24 % power reduction.

    CiNii

  • 配列間接アクセスを用いないコード生成法を用いた電子回路シミュレーション手法の性能評価

    黒田 亮, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2005 ( 7 ) 1 - 6  2005年01月

     概要を見る

    本稿では、ランダムスパースマトリクス処理に伴う配列間接アクセスを除去したループフリーコード生成による電子回路シミュレーションの高速化手法をWS及びPC上で評価した結果について報告する。広く用いられている電子回路シミュレータSPICEでは直接法を用いたスパースマトリクス求解の高速化のために、コード生成法により非零要素のみの計算を列挙したループフリーコードを生成している。しかし、その際のスパースマトリクス処理のための配列間接アクセスが処理高速化を阻害する要因の一つになっている。そこで本論文では間接配列アクセスを用いないループフリーコードを生成する電子回路シミュレーション手法を間接法による求解が難しいBJTを含む回路に対して適用し、単一プロセッサのWS及びPC上で性能評価を行なった。その結果、過渡解析をSPICE3f5より2倍から110倍高速に行なえることが確認され、さらにこの高速化はメモリアクセスの大幅な削減によることが確認された。This paper evaluates performance of a fast sequential circuit simulation scheme using the loop free code without the array indirect accesses. This scheme allows us to get several tens of times higher processing performance than SPICE version 3f5 on a WS and a PC. The array indirect accesses for the sparse matrix solution in SPICE have been one of the factors that prevents from efficient processing. This paper describes the circuit simulation scheme using loop free code without any array indirect accesses and its performance evaluation shows the scheme gives us 2 to 110 times better performance than SPICE3f5 on a WS and a PC. The performance by reducing the memory accesses overhead significantly.

    CiNii

  • 共有メモリ型マルチプロセッササーバー上におけるOSCAR マルチグレイン自動並列化コンパイラの性能評価

    白子 準, 宮本 孝道, 石坂 一久, 小幡 元樹, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2005 ( 7 ) 21 - 26  2005年01月

     概要を見る

    マルチプロセッサシステムの普及に伴い,実効性能,システム価格性能比,ソフトウェア生産性向上のため高性能な自動並列化コンパイラの重要性が高まっている.しかしながら並列処理技術において広く利用されているループ並列処理手法は既に成熟期に至り,今後の大幅な性能向上実現のためには従来とは異なる並列化手法の利用が必須である.本論文ではループ並列処理に加え,基本ブロック,ループ,サブルーチンといった粗粒度タスク間の並列性を利用する粗粒度タスク並列処理・基本ブロック内ステートメントレベルの並列性を用いる近細粒度並列処理によりプログラム全域にわたる並列化を行うOSCAR マルチグレイン自動並列化コンパイラの性能評価について述べる.OSCAR コンパイラではプログラムの形状や並列性に応じた適切な処理プロセッサ数や各並列処理粒度の決定,複数のループや粗粒度タスク間にまたがる広域的なキャッシュメモリ最適化技術が実現されている.SPEC95FP を用いた本性能評価においてOSCAR コンパイラは,IBM pSeries690Power4 24 プロセッササーバ上でIBM XL Fortran コンパイラ 8.1 の自動並列化性能に比べ平均4.78 倍,SGI Altix3700 Itanium2 16 プロセッササーバ上においてIntel Fortran Itanium Compiler 7.1 に比べ平均2.40 倍,Sun Fire V880 Ultra SPARC III Cu 8 プロセッササーバ上においてSun Forteコンパイラ 7.1 に比べ平均1.90 倍の性能向上が得られた.The needs for automatic parallelizing compilers are getting larger with widly use of multiprocessor systems.However, the loop parallelization techniques are almost matured and new generation of parallelization methods like multi-grain parallelization are required to achieve higher effective performance. This paper describes the performance of OSCAR multigrain parallelizing compiler that uses the coarse grain task parallelization and the near fine grain parallelization in addition to the loop parallelization. OSCAR compiler realizes the following two important techniques. The first is the automatic determination scheme of parallelizing layer, which decides the number of processors and parallelizing technique for each part of the program. The other is global cache memory optimization among loops and coarse grain tasks. In the evaluation using SPEC95FP benchmarks, OSCAR compiler gave us 4.78 times speedup compared with IBM XL Fortran compiler 8.1 on IBM pSeries690 Power4 24 processors server, 2.40 times speedup compared with Intel Fortran Itanium Compiler 7.1 on SGI Altix3700 Itanium2 16 processors server, 1.90 times speedup compared with Sun Forte compiler 7.1 on Sun Fire V880 Ultra SPARC III Cu 8 processors server.

    CiNii

  • OSCARチップマルチプロセッサ上でのMPEG2エンコードの並列処理

    小高 剛, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2004 ( 123 ) 53 - 58  2004年12月

     概要を見る

    本論文では,マルチメディアアプリケーションとしてディジタルTVやDVDなどのメディアで広く利用されているMPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法を伴う粗粒度タスク並列処理手法の提案を行なうと共に,OSCARチップマルチプロセッサ上での性能評価を行なう.性能評価の結果,データローカリティの利用およびデータ転送オーバーヘッド隠蔽手法を含む提案する粗粒度タスク並列処理を適用したMPEG2エンコードは,逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,16プロセッサ利用時11.93倍の速度向上率が得られることが確認できた.This paper proposes a coarse grain task parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer overlapping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors, 7.97 times speedup for 8 processors and 11.93 times speedup for 16 processors respectively against the sequential execution on a single processor without the proposed scheme.

    CiNii

  • OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いた データローカライゼーション

    中野 啓史, 内藤陽介, 鈴木 貴久, 小高 剛, 石坂 一久, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2004 ( 80 ) 115 - 120  2004年07月

     概要を見る

    現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.

    CiNii

  • OSCARチップマルチプロセッサ上でのマルチグレイン並列性評価

    和田 康孝, 白子 準, 石坂 一久, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2004 ( 80 ) 61 - 66  2004年07月

     概要を見る

    本論文では,コンパイラ協調型OSCARチップマルチプロセッサ(OSCAR CMP)上でのマルチグレイン並列性の評価について述べる.OSCAR CMPは,プログラム中のステートメント間の並列性を利用する近細粒度並列処理,ループイタレーションレベルの並列性を利用する中粒度並列処理,ループやサブルーチン,基本ブロック間の並列性を利用する粗粒度タスク並列処理を階層的に組み合わせて利用するマルチグレイン並列処理をOSCARマルチグレイン並列化コンパイラと協調して行うことができるように設計されている.このコンパイラとアーキテクチャの協調動作により,OSCAR CMPはチップ上の資源の有効利用およびプログラムの開発効率の向上を可能とする.本論文では,SPEC CFP 95ベンチマークの,OSCAR CMP上でのマルチグレイン並列処理性能を評価した結果を報告する.評価の結果,8プロセッサコアおよび集中共有メモリを1チップ上に搭載したOSCAR CMPは,逐次実行に対して,動作周波数が400MHzであると想定した場合に2.03?7.79倍の性能向上を,動作周波数が2.8GHzであると想定した場合に1.89?7.05倍の性能向上を得られることが確かめられた.This paper describes performance of multigrain parallel processing of SPEC CFP 95 on OSCAR Chip Multi Processor(OSCAR CMP). OSCAR multigrain parallelizing compiler, which exploits statement level near-fine grain parallelism, loop iteration level parallelism and coarse grain parallelism hierarchically, allows us to fully control hardware on OSCAR CMP. Also, this cooperation realizes high software productivity and effective use of hardware resources. Performance of multigrain parallel processing of SPEC CFP 95 benchmark programs on OSCAR CMP with 8 processor cores and centralized shared memory were 2.03 to 7.79 times speedup against sequential execution using 400MHz clock cycles for embedded use and 1.89 to 7.05 times speedup against sequential execution using 2.8GHz clock cycles for high-end use.

    CiNii

  • データローカライゼーションを伴うMPEG2エンコーディングの並列処理

    小高 剛, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2004 ( 12 ) 13 - 18  2004年02月

     概要を見る

    PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高性能なプロセッサの必要性が増してきている.このような要求を満たすアーキテクチャとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが,命令レベル以外の粗粒度タスク並列性,中粒度ループ並列性など複数レベル並列性も自然に引き出すことができ,集積度向上に対しスケーラブルな性能向上が得られるプロセッサアーキテクチャとして注目されている.しかしながら,チップマルチプロセッサアーキテクチャ上で効率の良い処理を行なうには,アプリケーションの特性を解析し,その並列性とデータローカリティを考慮しながらプログラムを適切な粒度のタスクに分割し,それらのタスクをバランス良くCPUに配置する並列化技術が不可欠である.本論文では,データを共有する粗粒度タスクの連続実行によりチップ内ローカルメモリを利用したデータの授受を行ない実行効率を向上させるデータローカライゼーション手法のMPEG2エンコーディングへの適用を提案し,OSCARチップマルチプロセッサ上で性能評価を行なう.評価の結果,提案手法は8プロセッサ利用時で従来のループ並列処理に対して1.64倍の性能が得られ,逐次実行に対しても6.82倍の速度向上が得られた.Recently, many people are getting to enjoy multimedia applications with image and audio processing on PCs, mobile phones and PDAs. For this situation, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To satisfy these demands, chip multiprocessor architectures which allows us to attain scalability using coarse grain level parallelism and loop level parallelism in addition to instruction level parallelism are attracting much attention. However, in order to extract much performance from chip multiprocessor architectures efficiently, highly sophisticated technique is required such as decomposing a program into adequate grain of tasks and assigning them onto processors considering parallelism and data locality of target applications. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which improve execution efficiency assigning coarse grain tasks sharing same data on a same processor consecutively for a chip multiprocessor, and evaluate its performance. As the evaluation result on OSCAR CMP using 8 processors, proposed scheme gives us 1.64 times speedup against loop parallel processing, and 6.82 times speedup against sequential execution time.

    CiNii

  • SMPマシン上での粗粒度タスク並列処理におけるデータプリフェッチ手法

    宮本 孝道, 山口 高弘, 飛田 高雄, 石坂 一久, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2003 ( 119 ) 63 - 68  2003年11月

     概要を見る

    現在多くのサーバで使用されている主記憶共有型マルチプロセッサシステム(SMP)では,プロセッサの動作速度向上と共に,メモリアクセスオーバヘッドの増大が,プロセッサ毎にスケーラブルな性能向上を得るための大きな障壁となっている.本論文では,このメモリアクセスオーバヘッドを軽減しスケーラブルな性能向上を得るために、粗粒度タスクのデータローカライゼーション(データ分割)によっても取り除けなかったデータ転送をプリフェッチによりタスク処理とオーバラップさせることにより軽減させるスタティックスケジューリングを提案し,その性能を評価する.提案するアルゴリズムは,コンパイル時のスタティックスケジューリングを前提とし,今回評価に使用したv880用のプリフェッチディレクティブを挿入したOpenMP並列化Fortranを出力するものである.性能評価の結果,Sun Forteコンパイラの逐次処理プリフェッチなしの場合と比較すると,SPEC95fpのtomcatvでは8プロセッサで最大13.9倍,swinでは8プロセッサで最大22.3倍の速度向上を得るなど,スーパーリニアスピードアップが効率良く引き出せるだけでなく,Sun Forteコンパイラによる自動プリフェッチ命令挿入を用い同一プロセッサ台数で処理する場合どうしを比較してもtomcatvでは1プロセッサで1.11倍,8プロセッサで3.86倍,swimで1プロセッサで1.44倍,8プロセッサで1.85倍の速度向上が得られ,本手法の有効性が確認された。On the shared multi processor system used in current computing servers, the increase of memory access overhead with the speedup of CPU interfere to get the scalable performance improvement with the increase of the processors. In order to get scalable performance improvement, this paper proposes and evaluates the static scheduling algorithm which reduces the memory access overhead by using cache prefetch to overlap of data transfer and task processing. The proposed algorithm is used in static scheduling stage in a compiler, moreover the compiler generates a OpenMP pararellelized Fortran program with prefetch directive for SUN Forte compiler for Sun Fire V880 server. Performance evaluation shows that the proposed algorithm gave us super liner speedup with sequential processing without prefetching by Sun Forte compiler such as 13.9 times speedup on 8processors for SPEC95fp tomcatv program and 22.3 times speedup on 8 processors for SPEC95fp swim program. Futhermore, compared with automatic prefetching by SUN Forte compiler using the same number of processors, this algorithm shows that 1.1 times speedup on 1 processor, 3.86 times speedup on 8 processors for SPEC95fp tomcatv and 1.44 times speedup on 1processor, 1.85 times speedup on 8 processors for SPEC95fp swim.

    CiNii

  • OSCAR CMP上でのスタティックスケジューリングを用いたデータローカライゼーション手法

    中野 啓史, 小高 剛, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2003 ( 84 ) 79 - 84  2003年08月

     概要を見る

    近年の集積度向上に伴い,1チップ上に複数のプロセッサを集積するチップマルチプロセッサ・アーキテクチャの実用化が進められている.筆者等はこれまで,1チップ上で複数粒度の並列性を階層的に組み合わせて利用するマルチグレイン並列処理を指向した,OSCARチップマルチプロセッサ(OSCAR CMP)を提案してきた.OSCARCMPはチップ内のプロセッサ・プライベートデータを格納するローカルデータメモリ(LDM),プロセッサ間共有データを格納する2ポート構成の分散共有メモリ(DSM)を搭載し,コンパイラがデータ配置を適切に制御する.本稿では,データを共有するループやサブルーチン等の粗粒度タスクを同一プロセッサで連続的に実行することでデータローカリティ最適化を図るデータローカライゼーション手法の,OSCAR CMPに対する適用について述べる.さらに,OSCAR CMPにデータローカライゼーション手法を適用して評価した結果を,共有キャッシュアーキテクチャやスヌープキャッシュアーキテクチャと比較し,現在のOSCAR CMP用の単純なコード生成に対する改善点の考察も行う.Recently, chip multiprocessor architecture that contains multiple processors on a chip becomes popular approarch even in commercial area.The authors have proposed OSCAR chip multiprocessor(OSCAR CMP) that is simed at exploiting multiple grains of parallelim hierarchically from a sequeutial program on a chip. OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory having two ports for processor shared data to control data allocation by a compiler appropriatery. This paper describes data on a same processor cosecutively. In addition, OSCAR CMP using data localization scheme is compared with shared cache architecture and snooping cache architecture. Then, current naive code generation for OSCAR CMP is considered using evaluation results.

    CiNii

  • OSCARチップマルチプロセッサ上でのMPEG2エンコーディングの並列処理

    小高 剛, 中野 啓史, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2003 ( 84 ) 55 - 60  2003年08月

     概要を見る

    最近の携帯電話,PDAなどのモバイル端末では,静止画像,動画像,音声処理など様々なマルチメディアアプリケーションの処理が必要となっている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高性能なプロセッサの開発が望まれている.これらの要求を満たしつつマルチメディアアプリケーションを効率良く処理するプロセッサとして,複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが命令レベル以外の粗粒度タスク並列性,中粒度ループ並列性など複数レベル並列性も自然に引き出すことができ,集積度向上に対しスケーラブルな性能向上が得られるアーキテクチャとして注目されている.しかしながら,チップマルチプロセッサアーキテクチャ上で効率の良い処理を行なうには,アプリケーションの特性を解析しプログラムを適切な粒度のタスクに分割し,それらをバランス良くCPUに配置する並列化技術が不可欠である.本論文では,チップマルチプロセッサ上におけるマルチメディアアプリケーションの一例として,MPEG2エンコーディングの並列性を抽出しその評価を行なう.Recently, multimedia applications with visual and sound processing are popular on mobile phones and PDAs. To satisfy the needs for efficient multimedia processing, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. Chip multiprocessor architectures which allows us to attain scalability using coarse grain level parallelism and loop level parallelism in addition to instruction level parallelism are attracting much attention. However, to realize efficient processing on chip multiprocessor architectures, parallel processing techniques such as decomposing a program into adequate tasks considering characteristics of a program and assigning these tasks onto processors are essential. This paper describes a parallel processing scheme for MPEG2 encoding for a chip multiprocessor and its performance.

    CiNii

  • チップマルチプロセッサ上での粗粒度タスク並列処理によるデータローカライゼーション

    中野 啓史, 小高 剛, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2003 ( 10 ) 13 - 18  2003年01月

     概要を見る

    近年,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集め,研究及び実用化されている.これらのCMPアーキテクチャは,共有キャッシュ等のメモリアーキテクチャを採用しているが,依然として従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題を抱えている.一方,筆者等はマルチグレイン並列処理との協調動作による実効性能が高く価格性能比の良いコンピュータシステムの実現を目指して,OSCARCMPを提案している.このOSCAR CMPは,全てのプロセッサコアがアクセスできる集中共有メモリ(CSM)の他に,プロセッサコアのプライベートデータを格納するローカルデータメモリ(LDM)とプロセッサコア間の同期やデータ転送に使用する2ポートメモリ構成の分散共有メモリ(DSM) を持ち,これらのメモリをコンパイラが適切に使用するデータローカライゼーションを適用することにより,前述のプロセッサコア近接メモリの有効利用に関する問題に対処する.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行うスタティックスケジューリングアルゴリズムについて述べる.さらに,スケジューリング後のタスクに,生死解析情報を用いてCSM--LDM間のデータ転送を適切に挿入する手法についても説明する.本データローカライゼーション手法を OSCAR FORTRAN マルチグレイン並列化コンパイラ上に実装しOSCAR CMP上で評価を行った結果,SPEC 95fp のTomcatvにおいて,CSMのレイテンシを20クロックとしたときに約1.3倍,40クロックとしたときに約1.6倍の速度向上がそれぞれ得られた.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, in addition to centralized shared memory (CSM). The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Furthermore, data transfer between CSM and LDM insertion scheme using information of live variable analysis is also described. This data localization scheme is implemented on OSCAR FORTRAN multigrain parallelizing compiler and is evaluated on OSCAR CMP using Tomcatv form SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us about 1.3 times speedup using 20 clocks as the access latency of CSM, and about 1.6 times using 40 clocks as the access latency of CSM respectively against without data localization scheme.

    CiNii

  • OSCARチップマルチプロセッサ上でのマルチグレイン並列処理

    木村 啓二, 小高 剛, 小幡 元樹, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2002 ( 112 ) 29 - 34  2002年11月

     概要を見る

    本論文では,コンパイラ協調動作型チップマルチプロセッサOSCAR Chip Multiprocessor (OSCAR CMP)上でのマルチグレイン並列処理について述べる.OSCAR CMP は,チップ上トランジスタの有効利用によるスケーラブルな性能向上と,コンパイラサポートによるプログラム開発効率の向上を目的として研究・開発されているチップマルチプロセッサアーキテクチャである.本目的を達成するためOSCAR CMP は,プログラム実行文レベルの並列性を利用する近細粒度並列処理に,ループイタレーションレベルの並列性を利用する中粒度並列処理,及びループやサブルーチン間の並列性を利用する粗粒度タスク並列処理を階層的に組み合わせて利用するマルチグレイン並列処理の利用を前提に設計されており,プロセッサ内部に簡素な1 命令発行のCPU コアを複数搭載し,各CPU はプロセッサプライベートデータ用のローカルメモリ,データローカリティ最適化用の2 ポートメモリ構成の分散共有メモリ,及びデータ転送最適化用のデータ転送ユニットを持つ.本論文では,SPEC fp 2000/95 ベンチマークにマルチグレイン並列処理を適用し,OSCAR CMP 上で評価した結果を報告する.評価の結果,microSPARC 相当の単一命令発行CPUコアを4 基搭載したOSCAR CMP は逐次実行に対して,HYDRO2D で2.98 倍,TOMCATV で3.84 倍,MGRID で3.84 倍,SWIM で3.97 倍,FPPPP で2.36 倍,TURB3D で2.88 倍,SU2COR で2.64 倍,APPLU で2.29 倍,APSI で1.77 倍の速度向上を得ることができ,CPU コアの増加に応じたスケーラブルな性能向を得られることが確認できた.This paper describes multigrain parallel processing on OSCAR Chip Multiprocessor (OSCAR CMP).The aim of OSCAR CMP is to achieve both of scalable performance improvement with e ?ective use of huge number of transistors on a chip and high e ?ciency of application development with compiler supports.OSCAR CMP integrates simple single issue processors having local data memory for private data recognized by compiler,distributed shared data memory for optimal use of data locality over di ?erent loops.The compiler controllable data transfer unit for overlapping data transfer,and the multigrain parallelizing compiler,which exploits statement level near-?ne grain parallelism,loop iteration level parallelism and coarse grain task parallelism hierarchically,fully controls these hardwares.Performance of multigrain parallel processing on OSCAR CMP is evaluated using SPEC fp 2000/95 benchmark suite.When microSPARC like single issue core is used, OSCAR CMP having four CPU cores gives us 2.98 times speedup in HYDRO2D, 3.84 times in TOMCATV, 3.84 times in MGRID,3.97 times in SWIM, 2.36 times in FRRRR, 2.86 times in TURB3D, 2.64 times in SU2COR, 2.29 times in APPLU and 1.77 times in APSI.

    CiNii

  • OSCAR型シングルチップマルチプロセッサにおける動きベクトル探索処理のマルチグレイン並列処理

    小高 剛, 鈴木 貴久, 木村 啓二, 笠原博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2002 ( 112 ) 23 - 28  2002年11月

     概要を見る

    近年のJPEG,MPEGなどのマルチメディアコンテンツの増加により,マルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高性能なプロセッサの開発が望まれている.このようなプロセッサとして,複数のプロセッサコアを搭載したシングルチップマルチプロセッサが命令レベル以外の並列性も自然に引き出すことができ,集積度向上に対しスケーラブルな性能向上が得られるアーキテクチャとして注目されている.本論文では,シングルチップマルチプロセッサ上でのマルチメディアアプリケーション処理の一例としてMPEG2,H.263など動画像処理で行われる動きベクトル探索処理のアルゴリズムのOSCAR型シングルチップマルチプロセッサ上でのマルチグレイン並列処理におけるプログラムリストラクチャリング法,並列タスク生成手法を提案し,その評価を行なう.With the recent increase of multimedia contents using JPEG and MPEG, low cost, low power consumption and high performance processors for multimedia application have been expected. Particularly, single chip multiprocessor architectures having simple processor cores that will be able to attain scalability and cost effiectivenss are attracting much attention to develop such processors. Single chip multiprocessor architectures allow us to exploit coarse grain task level and loop level parallelism in addition to the instruction level parallelism, so parallel processing technology is indispensable to allow us scalable in addition to the instruction level parallelism in addition to the instruction level parallelism, so parallel processing technology is indispensavle to allow us scalable performance improvement. This paper describes a multigrain parallel processing scheme for motion vector estimation for single chip multiprocessor and its paformance is evaluated.

    CiNii

  • SMPマシン上での粗粒度タスク並列処理オーバーヘッドの解析

    和田 康孝, 中野 啓史, 木村 啓二, 小幡 元樹, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2002 ( 37 ) 13 - 18  2002年05月

     概要を見る

    マルチプロセッサシステムの実効性能を今後さらに高めていくためには,ループ並列処理に加え,ループ・サブルーチン・基本ブロック間の並列性を利用する粗粒度タスク並列処理の利用が重要である.この粗粒度タスク並列処理をより効果的に実現するためには,各種オーバーヘッドを定量的に解析する必要がある.本稿では,Sun Ultra80,IBM RS/6000 7044 Model 270,SGI Origin2000の各プラットフォーム上に用意された測定機能により,L2キャッシュメモリのミスペナルティ,バリア同期およびスレッド生成のオーバーヘッドについて解析を行い,その結果をもとにOSCAR Fortran 並列化コンパイラによる性能向上の要因について述べる.Coarse grain task parallel processing, which exploits parallelism among loops, subroutines and basic blocks, is getting more important to attain performance improvement on multiprocessor architectures. To efficiently implement the coarse grain task parallel processing, it is important to analyze various processor overhead quantitatively. This paper evaluates overheads of barrier synchronization, thread fork/join and L2 cache miss penalty are using performance measurement mechanisms to analyze the performance improvements by OSCAR Fortran compiler on Sun Ultra80, IBM RS6000 and SGI Origin2000.

    CiNii

  • OSCAR型シングルチップマルチプロセッサ上でのJPEGエンコーディングプログラムのマルチグレイン並列処理

    小高 剛, 内田 貴之, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2002 ( 9 ) 19 - 24  2002年02月

     概要を見る

    近年のJPEG MPEGなどを用いたマルチメディアコンテンツの増加に伴い,これらマルチメディアアプリケーションを効率良く処理できる低コストかつ低消費電力のプロセッサの開発が望まれている.特に,簡素なプロセッサコアを複数搭載したシングルチップマルチプロセッサアーキテクチャは最も有望なアプローチとして注目され研究・開発がなされている.本論文では,OSCAR型メモリアーキテクチャシングルチップマルチプロセッサ上でのJPEGエンコーディングプログラムのマルチグレイン並列処理手法を提案すると共に,提案手法を適用したJPEGエンコーディングプログラムのOSCAR型メモリアーキテクチャシングルチップマルチプロセッサ上で評価を行なった.その結果,シンプルなシングルイシュープロセッサを4基搭載したOSCAR型シングルチップマルチプロセッサでは,逐次実行に対して約3.59倍の性能向上が得られ,ほぼ同程度のトランジスタ数であると考えられるUltraSPARC-II相当の4イシュースーパースカラプロセッサをコアとしたアーキテクチャに対しても約2.87倍の性能向上が得られた.With the recent increase of multimedia contests using JPEG and MPEG, low cost, low power consumption and high performance processors for multimedia have been expected. Particularly, single chip multiprocessor architecture having simple processor cores is attracting much attention to develop such processors. This paper describes multigrain parallel processing scheme for a JPEG encoding program for OSCAR type single chip multiprocessor and its performance. The evaluation shows an OSCAR type single chip multiprocessor having four single-issue simple processor cores gave us 3.59 times speed-up than sequencial execution and 2.87 times speed-up than OSCAR type single chip multiprocessor that has a four-issue UltraSPARC-II type super-scaler processor core.

    CiNii

  • シングルチップマルチプロセッサ上でのマルチメディアアプリケーションの近細粒度並列処理

    小高 剛, 宮下 直久, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2001 ( 76 ) 61 - 66  2001年07月

     概要を見る

    近年のマルチメディアコンテンツの増加に伴い,JPEG,MPEGなどのメディア系アプリケーションを効率良く処理できる,低コストかつ低消費電力のプロセッサの開発が望まれている.これらの要求を満たすプロセッサとして,簡素なプロセッサコアを複数搭載したシングルチップマルチプロセッサが注目を集めている.本稿では,シングルチップマルチプロセッサのメディア系アプリケーションでの有用性を確かめるため,まず,第一段階として画像圧縮処理のJPEGエンコーディングプログラムを用い,その処理単位が最終的に$8?times8$画素のブロックになることに注目し,その$8?times8$画素ブロックの処理に近細粒度並列処理を施しOSCAR型シングルチップマルチプロセッサ上で性能評価を行った.その結果,シンプルなシングルイシュープロセッサを4基搭載したシングルチップマルチプロセッサシステムは4イシュースーパースカラプロセッサのUltraSPARC-II相当のプロセッサコアを1基搭載するシステムに対し約2.32倍の速度向上が得られた.With the recent increase of multimedia contents, such as JPEG and MPEG data, low cost and low power consumption processors that can process these multimedia contents efficiently are expected. In such microprocessors, single chip multiprocessor architecture having simple processor cores is attracting much attention. Considering the above facts, this paper evaluate a JPEG encoding program on OSCAR type single chip multiprocessor architecture using near fine grain parallel processing for $8\times8$ pixel block that is a fundamental part of JPEG algorithm. The evaluation shows an OSCAR type single chip multiprocessor having four single-issue simple processor cores gives 2.32 times speedup than four-issue UltraSPARC-II type super-scaler processor.

    CiNii

  • キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法

    中野 啓史, 石坂 一久, 小幡 元樹, 木村 啓二, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2001 ( 76 ) 67 - 72  2001年07月

     概要を見る

    近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.

    CiNii

  • 近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの構成

    木村 啓二, 内田 貴之, 加藤 孝幸, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2000 ( 74 ) 91 - 96  2000年08月

     概要を見る

    1チップ上に搭載可能なトランジスタ数が増加するにともない,これらの資源を如何に有効に活用し,どのようにスケーラブルな性能向上を達成するかが大きな課題となっている.とりわけ,チップ内で利用できる命令レベル以外の並列性をより多く抽出する技術がこれまで以上に重要となる.このように命令レベル以外の並列性も有効に活用できるアーキテクチャの一つとして1チップ上に複数のプロセッサコアを搭載したシングルチップマルチプロセッサ(SCM)が大きな注目を集めている.本論文では,マルチグレイン並列処理に適したSCMのプロセッサコアを検討するために,マルチグレイン並列処理の主要技術の一つである近細粒度並列処理を,プロセッサコアの同時命令発行数やプロセッサコア共有グローバルレジスタファイルの本数を変えたSCMアーキテクチャに適用して評価を行ったので,その結果について述べる.With continuously increase of transistors integrated onto a chip, it has been a very important how to achieve scalable performance improvement using these transistors effectively. Especially, exploiting different grains of parallelism in addition to instruction level parallelism and effective use of this parallelism in a single chip is getting more important. To this end, a single chip multiprocessor (SCM) architecture that contains multiple processor cores has been attracted much attention. To decide suitable SCM processor core architecture for multigrain parallel processing, this paper evaluates several SCM architectures which have different instruction issue widths and numbers of global shared register file for near fine grain parallel processing, which is one of the key issues in multigrain parallel processing.

    CiNii

  • マルチグレイン並列化コンパイラのメモリアクセスアナライザ

    岩井 啓輔, 小幡 元樹, 木村 啓二, 天野 英晴, 笠原 博徳

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   99 ( 252 ) 1 - 8  1999年08月

     概要を見る

    マルチプロセッサ構成の計算機において, その性能を容易に, 且つ充分に発揮するためには自動並列化コンパイラが重要になってくる. そこで, 様々なレベルの並列性を抽出することのできる自動並列処理手法としてマルチグレイン並列処理が提案されており, マルチグレイン並列化コンパイラ向けマルチプロセッサアーキテクチャがいくつか提案されている. マルチグレイン並列処理向けアーキテクチャとしては並列処理粒度に応じたメモリ構成や, ネットワークのアーキテクチャが重要となる. しかし, マルチグレイン並列処理を実際に行った場合のメモリアクセスについての詳しい部分はわがっていない. 本論文ではインストラクションレベルシミュレー夕を用いて実アプリケーションでマルチグレイン並列処理を行った場合のメモリアクセス状況を解析するツールについて述べる. またそれを用いて, マルチグレイン並列処理を行った場合の簡単なメモリアクセス特性について示す.

    CiNii

  • シングルチップマルチプロセッサ上での近細粒度並列処理の性能評価

    木村 啓二, 間中 邦之, 尾形 航, 岡本 雅巳, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   1999 ( 67 ) 19 - 24  1999年08月

     概要を見る

    半導体技術の進歩にしたがい,大量の演算器,メモリ,あるいは複数のプロセッサを1チップ上に搭載することが可能となりつつある.これらの資源を有効に利用しさらなる性能向上を図るための次世代マイクロプロセッサおよびそのソフトウェア技術(特にコンパイラ技術)に関する研究が,現在活発に行なわれている.次世代マイクロプロセッサアーキテクチャの中で,シングルチップマルチプロセッサ(C)は従来の命令レベルのみでなく,異なる粒度の並列性を階層的に組合せプログラム全体に渡り並列性を抽出するマルチグレイン並列処理を適用可能であり,高い実効性能とスケーラブルな性能向上が可能なアーキテクチャであると考えられる.本論文では,従来のマルチプロセッサでは効果的な並列処理が困難であったアプリケーションプログラムに対し,マルチグレイン並列処理の主要技術の一つである近細粒度並列処理を適用し,SCM上での性能評価を行なったので,その結果について述べる.Advances in semiconductor technology allows us to integrate a lot of integer and floating point execution units, memory or processors on a single chip. To use these resources effectively, many researches on next generation microprocessor architectures and its software, especially compilers have been performed. In these next generation microprocessor architectures, a single chip multiprocessor (SCM) using multigrain parallel processing, which hierarchically exploits different level of parallelism from the whole program, is one of the most promising architectures. This paper evaluates performance of the SCM architectures for near fine grain parallel processing, which is one of the key issues in multigrain parallel processing, using several real application programs.

    CiNii

  • 最早実行可能条件解析を用いたキャッシュ最適化手法

    稲石 大祐, 木村 啓二, 藤本 謙作, 尾形 航, 岡本 雅巳, 笠原 博徳

    全国大会講演論文集   58   177 - 178  1999年03月

    CiNii

  • OSCAR FORTRAN Compilerを用いたマルチグレイン並列性の評価

    小幡 元樹, 松井 巌徹, 松崎 秀則, 木村 啓二, 稲石大祐, 宇治川 泰史, 山本 晃正, 岡本 雅巳, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   1998 ( 70 ) 13 - 18  1998年08月

     概要を見る

    現在スーパーコンピュータは、数TFLOPSのピーク性能を持ち、今後も伸び続けると考えられるが、価格性能比、使い難さの問題から市場を拡大できないという問題を持っている。また、マイクロプロセッサにおいては、スーパースカラ、VLIW等で利用されている命令レベル並列性の限界が顕在化しており、次世代のプロセッサとして、シングルチップマルチプロセッサ(SCM)が注目されつつある。著者らは、SCM、サーバマシン、スーパーコンピュータの実効性能、すなわちコストパフォーマンス、使い易さを高めることを可能とするために、マルチグレイン自動並列化コンパイル手法を提案している。マルチグレイン並列処理とは、命令あるいはステートメントレベルの細粒度並列性、ループイタレーションレベルの中粒度並列性、サブルーチン・ループ・基本ブロックレベルの粗粒度並列性という、プログラムに内在する並列性を最大限に引き出す方式である。本論文では、Perfect Benchmarkの2次元流体解析プログラムARC2Dを例に、OSCARマルチグレインFORTRAN並列化Compilerを用いたマルチグレイン並列性利用の有効性を示す。Currently, peak performances of supercomputers attain TFLOPS order. It seems that the peak performances will continue by increase. However, supercomputers have a problem that enlargement of the world is very difficult because of relatively low cost performance and difficulty of use. In microprocessor, limitations of extraction of instruction level parallelism being used by super scalar and VLIW architecture are getting clear and single chip multiprocessor is received much attention as one of next generation processor architechture. In order to improve effective performance or cost performance, and ease of use, the authors have been proposing a Multigrain Automatic Parallelizing Compilation scheme. The multigrain parallel processing is a method which extract all parallelism from a program, such as coarse grain parallelism among subroutines, loops, and basic blocks, medium grain parallelism among loop iterations, and fine grain parallelism among instructions and statements. This paper shows effectiveness of multigrain parallel processing using OSCAR multigrain FORTRAN parallelization compiler using fluid flow problem solver ARC2D(Perfect Benchmark) as an example.

    CiNii

  • シングルチップマルチプロセッサ上でのマルチグレイン並列処理

    木村 啓二, 尾形 航, 岡本 雅己, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   1998 ( 70 ) 25 - 30  1998年08月

     概要を見る

    1チップ上に集積可能なトランジスタ数の増大に従い,次世代マイクロプロセッサでは,これらのトランジスタをいかに有効に利用し,プロセッサの実効性能を向上させるかが大きな課題になっている.しかし,現在主流のスーパースカラあるいはVLIW,それらの複合形のマイクロプロセッサでは,命令レベル並列性等の限界によりスケーラブルな実効性能の向上が困難と考えられている.これに対して,筆者等は従来のチップ内命令レベル細粒度並列処理に加え,より並列性の大きいループイタレーションレベルの中粒度並列処理(ループ並列処理),サブルーチン,ループ,基本ブロック間の粗粒度並列性を階層的に組み合わせて使用するマルチグレイン並列処理をチップ内で実現できるシングルチップマルチプロセッサ(SCM)は真の実効性能を向上を可能にすると考えている.本論文では,マルチグレイン並列処理を効果的に実現できるSCM検討の第一歩として,共有キャッシュ,グローバルレジスタ,分散共有メモリ,ローカルメモリの有効性に関する基本評価を行なった結果について述べる.With the increase of the number of transistors integrated on a chip, how to use transistors efficiently and improve effective performance of a processor is getting an important problem. However, it has been thought that superscalar and VLIW which have been popular architectures would have difficulty to obtain scalable improvement of effective performance because of limitation of instruction level parallelism. To cope with this problem, the authors have been proposing a single chip multiprocessor(SCM) approach to use multi grain parallelism inside a chip, which hierarchicaly exproits loop parallelism with large parallelism and coarse grain parallelism among subroutines, loops and basic blocks in addition to instruction level parallelism. This paper describes preliminary evaluation of effectiveness of single chip multiprocessor architecture with a shared cache, global registers, distributed shared memory and/or local memory as the first step of research on SCM architecture for supporting effective realization of multi grain parallel processing.

    CiNii

  • 最早実行可能条件解析を用いたキャッシュ利用の最適化

    稲石大祐, 木村 啓二, 藤本 謙作, 尾形 航, 岡本 雅巳, 笠原 博徳

    情報処理学会研究報告計算機アーキテクチャ(ARC)   1998 ( 70 ) 31 - 36  1998年08月

     概要を見る

    従来のコンパイラによる単一プロセッサ用キャッシュ最適化は個々のループを対象としているため、プログラム全体に比べると局所的な最適化が多く、プログラム全域を対象としたキャッシュ最適化は行われていない。そこで本稿では、最早実行可能条件解析を利用した単一プロセッサ上でのFORTRANプログラムのキャッシュ最適化手法を提案する。OSCAR FORTRANマルチグレイン自動並列化コンパイラは、FORTRANプログラムをループ・サブルーチン・基本ブロックの3種のマクロタスク(MT)に分割し、各MTに最早実行可能条件解析を行いマクロタスクグラフ(MTG)を生成する。MTGは制御依存及びデータ依存に基づくMT間の実行順序制約、及びMT間で授受されるデータに関する情報を表現する。本手法ではこのMTGを用いて、先行MTによってアクセスされたデータにアクセスする後続MTが先行MTの直後に実行されるよう大域的なコード移動を行い、キャッシュヒット率を向上させる。本手法は、OSCAR FORTRANマルチグレイン自動並列化コンパイラ中に、最適化された逐次型FORTRANを出力するプリプロセッサ機能として実現されている。CG法プログラムを用いた本キャッシュ最適化手法の性能評価結果を行ったところ167MHz UltraSPARC上で最高62%の速度向上が得られた。Cache optimizations by a compiler for a single processor machine have been mainly applied to a singlenested loop. On the contrary, this paper proposes a cache optimization scheme using earliest executable condition analysis for FORTRAN programs on a single processor system. OSCAR FORTRAN multi-grain automatic parallelizing compiler decomposes a FORTRAN program into three types of macrotasks (MT), such as loops, subroutines and basic blocks, and analyzes the earliest executable condition of each MT to extract coarse grain parallelism among MTs and generates a macrotask graph (MTG). The MTG represents data dependence and extended control dependence among MTs and an information of shared data among MTs. By using this MTG, a compiler realizes global code motion to use cache effectively. The code motion technique moves a MT, which accesses data accessed by a precedent MT on MTG, immediately after the precedent MT to increase a cache hit rate. This optimization is realized using OSCAR multi-grain compiler as a preprocessor to output an optimized sequential FORTRAN code. A performance evaluation shows about 62% speed up compared with original program on 167MHz UltraSPARC.

    CiNii

  • マルチグレイン並列化コンパイラとそのアーキテクチャ支援

    笠原 博徳, 尾形 航, 木村 啓二, 小幡 元樹, 飛田 高雄, 稲石 大祐

    電子情報通信学会技術研究報告. ICD, 集積回路   98 ( 22 ) 71 - 76  1998年04月

     概要を見る

    現在、スーパーコンピュータにおいては価格性能比及び使い方の困難さによる市場の伸び悩みの問題、マイクロプロセッサにおいてはスーパスカラ、VLIWなどで用いられる命令レベル並列性抽出の限界など問題が顕在化しつつある。本論文では、このような問題を克服し、並列処理の非専門家にも簡単に使え価格性能比の良いスーパーコンピュータあるいはシングルチップ・マルチプロセッサを構築する一つのアプローチとして、マルチグレイン並列化コンパイラとそれを支援するマルチプロセッサアーキテクチャについて述べる。

    CiNii

  • マルチグレイン並列処理用シングルチップマルチプロセッサアーキテクチャ

    木村 啓二, 尾形 航, 岡本 雅巳, 笠原 博徳

    全国大会講演論文集   56   101 - 102  1998年03月

    CiNii

  • マクロタスク最早実行可能条件解析を用いたキャッシュ最適化手法

    稲石 大祐, 木村 啓二, 尾形 航, 岡本 雅巳, 笠原 博徳

    全国大会講演論文集   56   303 - 304  1998年03月

    CiNii

  • 科学技術計算プログラムにおけるマルチグレイン並列性の評価

    小幡 元樹, 松井 巌徹, 松崎 秀則, 木村 啓二, 稲石 大祐, 宇治川 泰史, 山本 晃正, 岡本 雅巳, 笠原 博徳

    全国大会講演論文集   56   305 - 306  1998年03月

    CiNii

  • FPGAを用いたマルチプロセッサシステムテストベッドの実装

    尾形 航, 山本 泰平, 水尾 学, 木村 啓二, 笠原 博徳

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   1998 ( 18 ) 79 - 84  1998年03月

     概要を見る

    マルチプロセッサシステムのアーキテクチャ研究において対象アーキテクチャを評価するには、ソフトウェアでエミュレートを行う、或いは実際にハードウェアを製作して評価する等の手法が取られてきた。しかし前者の手法では評価に膨大な時間を要するという難点があり、一方後者の実際に製作する方法では多大な費用かががる、開発から実際に稼動して評価に入るまでに相当の期間を要する、また一度製作した機体を改造して別のアーキテクチャの評価を行う事が事実上不可能、等の問題があった。これらを解決する高速・浮動小数点演算機能を含む高機能・過大でない費用で実現可能・容易にアーキテクチャを改変可能なアーキテクチャエミュレータの製作を計画し、S?RAM型の大規模なFPGAを用いて実装した。アーキテクチャの中心となるCPUは32ビット同時処理でかつ浮動小数点演算機能を含み最高30MIPS/FLOPSのパフォーマンスを発揮してSPECやPerfectclubといった実用に即したベンチマークプログラムを走行させる能力を持つ。S?RAM型のFPGAの特性を活かし異なる複数のアーキテクチャ向けにデータ転送,同期機構,スケジューリング機構等の性能向上に有効と思われる機構を追加するなど、さまざまな試行を容易に行える。There are two major approaches to evaluate new multi processor system architecture, the evaluation with software emulator on WS high-performance PC. The other is the evaluation on hardware emulator. However, it takes very long time on the evaluation with the software emulator to evaluate new architecture using large benchmark programs. On the other hand, it is expensive to develop a machine. Also, it takes long time to develop new machine. Even if we have hardware, it is very difficult to modify it. So, evaluation of different architecture is difficult by using the same hardware. To cope with these problems, we have been planning an architecture emulator, which is high-performance with floating point arithmetic unit; not so expensive cost, reconfigurable easily. It is combination of S-RAM based large scale FPGAs (Field Programmable Gate Array). On the emulator using FPGAs, 32-bit CPU-CORE including Floating-Point Unit with 30MIPS/MFLOPS is implemented. This offers us to run large application (benchmark) programs such as SPEC or Perfect-Benchmark. With the feature of S-RAM based FPGA, we can implement different architectures or we can implement special mechanism for efficient parallel processing such as data transfer control unit, synchronization unit, and task scheduling unit and so on.

    CiNii

  • マルチグレイン並列処理用マルチプロセッサシステム

    岩井 啓輔, 藤原 崇, 森村 知弘, 天野 英晴, 木村 啓二, 尾形 航, 笠原 博徳

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   97 ( 225 ) 77 - 84  1997年08月

     概要を見る

    マルチグレイン並列処理は、プログラムのもつ並列性を可能な限り利用することのできる並列処理手法である。この手法は様々なアーキテクチャ上で実現可能であるが、その性能を最大限に引き出ためには、専用のアーキテクチャが必要になる。本稿では、マルチグレイン自動並列化コンパイラをターゲットとしたマルチプロセッサ、ASCA(Advanced Scheduling oriented Computer Architecture)を提案する。ASCAはマルチグレイン並列処理を効率良く行なうために、処理の粒度にあった通信機構、階層的な並列処理を行なえる階層構造、近細粒度並列処理を効率良く実現するカスタムプロセッサなどを備えたマルチプロセッサシステムである。

    CiNii

  • 処理とデータ転送のオーバーラッピングを考慮したダイナミックスケジューリングアルゴリズム

    木村 啓二, 橋本 茂, 古郷 誠, 尾形 航, 笠原 博徳

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   97 ( 225 ) 33 - 38  1997年08月

     概要を見る

    最近, プロセッサエレメントにCPUと並列してデータ転送を行なうことができるデータ転送ユニットを持ったマルチプロセッサシステムが開発されている. このデータ転送ユニットを, データ転送とCPU上のタスク処理とのオーバーラップのために使用することによって, データ転送時のオーバーヘッドを隠蔽することができる. しかしながら, ユーザーが処理とデータ転送のオーバーラップを考慮しながらプログラミングを行なうことは, 困難である. 本論文では, 粗粒度タスク間の並列性を利用して, CPU上でのタスクの処理とデータ転送のオーバーラップを可能とさせるための, データプレロード/ポストストアを用いたダイナミックスケジューリングアルゴリズムを提案する. シミュレーションによる予備評価の結果, 本手法によりデータプレロード/ポストストアを適用しない場合に比べて, 平均で26%の速度向上を得られることが確認できた.

    CiNii

▼全件表示

産業財産権

  • 並列化コンパイラ、並列化コンパイル装置、及び並列プログラムの生成方法

    6600888

    笠原 博徳, 木村 啓二, 梅田 弾, 見神 広紀

    特許権

  • マルチプロセッサシステム

    6335253

    笠原 博徳, 木村 啓二

    特許権

  • マルチプロセッサシステム

    笠原 博徳, 木村 啓二

    特許権

  • 並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置

    6018022

    笠原 博徳, 木村 啓二, 林 明宏, 見神 広紀, 梅田 弾, 金羽木 洋平

    特許権

  • 並列性の抽出方法及びプログラムの作成方法

    6319880

    木村 啓二, 林 明宏, 笠原 博徳, 見神 広紀, 金羽木 洋平, 梅田 弾

    特許権

  • マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法

    笠原 博徳, 木村 啓二

    特許権

  • プロセッサシステム及びアクセラレータ

    6103647

    木村 啓二, 笠原 博徳

    特許権

  • プロセッサによって実行可能なコードの生成方法、記憶領域の管理方法及びコード生成プログラム

    5283128

    笠原 博徳, 木村 啓二, 間瀬 正啓

    特許権

  • マルチプロセッサ

    笠原 博徳, 木村 啓二

    特許権

  • マルチプロセッサシステムおよびマルチプロセッサシステムの同期方法

    笠原 博徳, 木村 啓二

    特許権

  • マルチプロセッサ

    4304347

    笠原 博徳, 木村 啓二

    特許権

  • メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム

    5224498

    笠原 博徳, 木村 啓二, 中野 啓史, 仁藤 拓実, 丸山 貴紀, 三浦 剛, 田川 友博

    特許権

  • マルチプロセッサ及びマルチプロセッサシステム

    4784842

    笠原 博徳, 木村 啓二

    特許権

  • プロセッサ及びデータ転送ユニット

    4476267

    笠原 博徳, 木村 啓二

    特許権

  • ヘテロジニアスマルチプロセッサ向けグローバルコンパイラ

    4784827

    笠原 博徳, 木村 啓二, 鹿野 裕明

    特許権

  • ヘテロジニアス・マルチプロセッサシステムの制御方法及びマルチグレイン並列化コンパイラ

    4936517

    笠原 博徳, 木村 啓二, 白子 準, 和田 康孝, 伊藤 雅樹, 鹿野 裕明

    特許権

  • マルチプロセッサシステム及びマルチグレイン並列化コンパイラ

    笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

    特許権

  • マルチプロセッサシステム及びマルチグレイン並列化コンパイラ

    4082706

    笠原 博徳, 木村 啓二, 白子 準, 伊藤 雅樹, 鹿野 裕明

    特許権

  • マルチプロセッサ

    4784792

    笠原 博徳, 木村 啓二

    特許権

▼全件表示

受賞

  • 文部科学大臣表彰科学技術賞(研究部門)

    2014年04月   文部科学省  

共同研究・競争的資金等の研究課題

  • 深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

    研究期間:

    2018年06月
    -
    2020年03月
     

     概要を見る

    本研究は、安全な深層学習計算の高速化を目的として、暗号化したまま計算が可能な準同型暗号による行列計算の高速化手法を探求する。研究開始の2018年度は、公開されている準同型暗号計算ライブラリHElibの調査及び深層学習の公開モデルの調査等を行った。最終年度の2019年度では、HElibのボトルネック部分の高速化(1)、データ転送機構の開発(2)、及び行列サイズ削減と推論精度のトレードオフの調査(3)を実施した。(1)に関しては、まずHElibによる行列計算の特に時間を要する部分として、演算中に必要となる鍵変換行列の生成部と暗号文演算部を特定した。各々に対して、演算に要するビット幅削減及びSIMD化による並列演算の導入を適用した。Intel Xeonプロセッサを搭載するサーバで提案手法を評価したところ、鍵変換行列生成部で3.4倍、暗号文演算部では加算処理で5.53倍、乗算処理で3.73倍の性能向上を得た。(2)に関しては、疎行列計算に必要な間接参照アクセスを効率良く処理可能なデータ転送機構を開発した。提案データ転送機構とベクトルアクセラレータを持つマルチコアをFPGA上に実装し、まずは通常の疎行列・ベクトル積を用いて評価を行った。評価の結果、提案データ転送機構を使わずにCPU転送を行った場合と比較して17倍の速度向上を得ることができた。(3)に関しては、行列サイズ削減手法として小規模なニューラルネットワークを複数並列に用いる手法を提案・検討した。提案手法は、ニューラルネットワークを分割することで、認識精度を保ちつつ個々のニューラルネットワークの規模を縮小する。提案手法をFPGAに実装し、作成したニューラルネットワーク8つを並列に用いて推論を行った結果、1つのネットワークを用いた場合と比較して、認識精度で約8ポイント、認識速度でおよそ54パーセントの向上が確認できた

  • フラグによりCPUとアクセラレータが連携するヘテロジニアスマルチコアに関する研究

    研究期間:

    2015年04月
    -
    2018年03月
     

     概要を見る

    本研究では、CPU、アクセラレータ、及びデータ転送ユニットの柔軟な連携を可能とするヘテロジニアスマルチコアのコンパイラ及びアーキテクチャを開発した。本研究による主な成果の一つとして、アクセラレータ用LLVMバックエンドコンパイラを含むコンパイルフローを開発し、コンパイルしたプログラムを開発したFPGAテストベッドで評価したところ、1CPU実行に対して24.91倍の性能向上が得られたことが挙げられる

  • 大規模非線形時空間パターン制御の実時間最適化アルゴリズムと応用

    研究期間:

    2012年04月
    -
    2016年03月
     

     概要を見る

    大規模かつ複雑なシステムでも最適に制御できるよう,非線形最適制御問題を高速に解くアルゴリズムについて研究し,さまざまな分野への応用を検討した.たとえば,大規模システムを制御する場合の最適化計算効率化,制御の応答を見通しよく調整する方法の提案,アルゴリズムのプログラミングを自動化するツールの開発などの成果を得た.そして,熱流体における温度や流速の制御,鉄鋼プロセスにおける製品ばらつきの抑制,高度下水処理施設の水質制御,スマートグリッドにおける需要誘導,浮体式洋上風力発電施設の発電量と動揺の制御など,多岐にわたる問題でアルゴリズムの有効性を示した

  • プログラムの大域的構造を利用したメニーコア・シミュレーションの高速化に関する研究

    研究期間:

    2011年04月
    -
    2014年03月
     

     概要を見る

    本研究では、マルチコア・メニーコアのアーキテクチャシミュレーションにおいて、並列化されたアプリケーションをマルチコア上で実行するという前提の基、シミュレーションの精度を適宜切り替えながら、高速かつ高精度にシミュレーションを行う手法を提案する。本手法を4つの異なる特性を持つアプリケーションを用い、16コアのマルチコアアーキテクチャを想定して評価した結果、最大443倍の速度向上を誤差0.52%で得ることができ、平均では218倍の速度向上を2.76%の誤差で得られることが確認できた

  • ソフトウェア協調整チップマルチプロセッサにおけるデータ利用最適化に関する研究

     概要を見る

    本年度は、昨年度に引き続きソフトウェア協調動作型チップマルチプロセッサ用のデータローカリティ最適化およびデータ転送最適化に関する研究を行なった。本研究では、データを共有するタスク群に着目し、プロセッサコアローカルなキャッシュやローカルメモリのサイズを考慮してこれらのタスクを分割し各プロセッサコアに割り当て、キャッシュやローカルメモリの有効利用を図る。さらに、残存するデータ転送を、プロセッサコアに割り当てたタスクとオーバラップして行うことにより、データ転送オーバヘッドの隠蔽を図る。具体的には、MPEG2エンコーデイング処理やJPEG2000エンコーディング処理などのマルチメディアデプリケーションをターゲットとして、これらのアプリケーションに自動的にデータローカリティ最適化とデータ転送最適化手法を適用し、チップマルチプロセッサ上で効率よく動作させるためのソフトウェア・ハードウェア協調動作技術の開発とその評価を行なった。評価の結果、とりわけMPEG2エンコーディング処理では動作周波数400MHz時で逐次実行に対し8プロセッサ使用時で7.97倍、動作周波数2.8GHz時で逐次実行に対し8プロセッサ使用時で6.54倍の速度向上率を得られることが確認できた。MPEG2エンコーディングプログラムに対する本データローカリティ最適化およびデータ転送最適化は、自動並列化コンパイラによりほぼ自動的に行われる。より多くのアプリケーションに対して本手法を自動的に適用し対象アプリケーションを拡大することは今後の課題である

講演・口頭発表等

  • Prototype Implementation of Non-Volatile Memory Support for RISC-V Keystone Enclave

    信学技報, vol. 121, no. 116, CPSY2021-2 (SWoPP2021)  

    発表年月: 2021年07月

  • Sparse Neural NetworkにおけるSpMMの並列/ベクトル化による高速化

    田處 雄大, 木村 啓二, 笠原 博徳

    情報処理学会第236回システム・アーキテクチャ・第194回システムとLSIの設計技術・第56回組込みシステム合同研究発表会(ETNET2021)  

    発表年月: 2021年03月

  • 整合性ツリーおよび暗号化機構を持つ不揮発性メインメモリエミュレータの実装

    林 知輝, 大森 侑, 木村 啓二

    情報処理学会第236回システム・アーキテクチャ・第194回システムとLSIの設計技術・第56回組込みシステム合同研究発表会(ETNET2021)  

    発表年月: 2021年03月

  • OSCARコンパイラによるMATLAB/Simulinkアプリケーションの自動並列化

    古山 凌, 津村 雄太, 川角 冬馬, 仲田 優哉, 梅田 弾, 木村 啓二, 笠原 博徳

    情報処理学会第236回システム・アーキテクチャ・第194回システムとLSIの設計技術・第56回組込みシステム合同研究発表会(ETNET2021)  

    発表年月: 2021年03月

  • Linuxが動作可能なRISC-V NVMMエミュレータの実装

    大森 侑, 木村 啓二

    情報処理学会第236回システム・アーキテクチャ・第194回システムとLSIの設計技術・第56回組込みシステム合同研究発表会(ETNET2021)  

    発表年月: 2021年03月

  • OSCAR自動並列化コンパイラとNECベクトル化コンパイラの協調によるベクトル・パーソナルスパコン上での自動ベクトル並列化

    田處 雄大, 見神 広紀, 細見 岳生, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • マルチターゲット自動並列化コンパイラにおけるアクセラレータコスト推定手法の検討

    山本 一貴, 藤田 一輝, 柏俣 智哉, 高橋 健, Boma A. Adhi, 北村 俊明, 川島 慧大, 納富 昭, 森 裕司, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • OSCARコンパイラのC++プログラム対応の検討

    川角 冬馬, TilmanPriesner, 野口 真聖, 韓 吉新, 見神 広紀, 川島 慧大, 田中啓士郎, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2020-ARC-240   情報処理学会  

    発表年月: 2020年03月

  • NDCKPT:不揮発性メインメモリを用いたOSによる透過的なプロセスチェックポインティングの実現

    西田 耀, 木村 啓二

    電子通信情報学会技術報告 CPSY2019-102   電子情報通信学会  

    発表年月: 2020年03月

  • 準同型暗号による行列積の高速化の検討

    牧田 哲也, 宍戸 哲平, 和田 康孝, 木村 啓二

    電子通信情報学会技術報告 CPSY2019-96   電子情報通信学会  

    発表年月: 2020年03月

  • Cascaded DMAC Enabling Efficient Data Transfer for Indirect Memory Access Applications

    Keiji Kimura  [招待有り]

    4th International Symposium on Research and Education of Computational Science (RECS)   RECS  

    発表年月: 2019年11月

  • OSCARベクトルマルチコアプロセッサのための自動並列ベクトル化コンパイラフレームワーク

    宮本一輝, 牧田哲也, 高橋健, 柏俣智哉, 河田巧, 狩野哲史, 北村俊明, 木村啓二, 笠原博徳

    情報処理学会研究報告 2018-ARC-230   情報処理学会  

    発表年月: 2018年03月

  • 階層アジャスタブルブロックを用いた自動マルチコア・ローカルメモリ管理とその性能評価

    白川智也, 阿部佑人, 大木吉健, 吉田明正, 木村啓二, 笠原博徳

    情報処理学会研究報告 2017-ARC-220   情報処理学会  

    発表年月: 2017年11月

  • 結果に再現性のある計算機システムエミュレータ

    清水勇希, 高井峰生, 木村 啓二

    マルチメディア、分散、協調とモバイル(DICOMO2017)シンポジウム   情報処理学会  

    発表年月: 2017年07月

  • 大規模システムを想定したGem5 シミュレータの階層的インターコネクションネットワーク拡張

    小野口達也, 林綾音, 宇高勝之, 松島裕一, 木村啓二, 笠原博徳

    情報処理学会研究報告 2017-ARC-217   情報処理学会  

    発表年月: 2017年03月

  • 自動車リアルタイム制御計算の複数クラスタ構成マルチコア上での並列処理

    宮田仁, 島岡護, 見神広紀, 西博史, 鈴木均, 木村啓二, 笠原博徳

    情報処理学会研究報告 2017-ARC-217   情報処理学会  

    発表年月: 2017年03月

  • 自動並列化コンパイラのコンパイル時間短縮のための実行プロファイル・フィードバックを用いたコード生成手法

    藤野里奈, 韓吉新, 島岡護, 見神広紀, 宮島崇浩, 高村守幸, 木村啓二, 笠原博徳

    情報処理学会研究報告 2017-ARC-217   情報処理学会  

    発表年月: 2017年03月

  • OSCARベクトルマルチコアアーキテクチャのコンパイルフロー構築及び評価

    高橋 健, 狩野哲史, 宮本一輝, 河田 巧, 柏俣智哉, 牧田哲也, 北村俊明, 木村啓二, 笠原博徳

    情報処理学会第80回全国大会   情報処理学会  

    発表年月: 2017年03月

  • OSCARベクトルアクセラレータのFPGA上での性能評価

    柏俣智哉, Boma A. ADHI, 狩野哲史, 宮本一輝, 河田 巧, 高橋 健, 牧田哲也, 北村俊明, 木村啓二, 笠原博徳

    情報処理学会第80回全国大会   情報処理学会  

    発表年月: 2017年03月

  • LLVMを用いたベクトルアクセラレータ用コードのコンパイル手法

    丸岡晃, 無州祐也, 狩野哲史, 持山貴司, 北村俊明, 神谷幸男, 高村守幸, 木村啓二, 笠原博徳

    情報処理学会研究報告 2016-ARC-221   情報処理学会  

    発表年月: 2016年08月

  • OSCARコンパイラを用いた医用画像フィルタリングのマルチグレイン並列処理

    奥村万里子, 柴崎大侑, 桑島昂平, 見神広紀, 木村啓二, 門下康平, 中野恵一, 笠原博徳

    情報処理学会研究報告 2016-HPC-153   情報処理学会  

    発表年月: 2016年03月

  • OSCARコンパイラを用いた医用画像3Dノイズリダクションの自動マルチグレイン並列処理

    柴崎大侑, 桑島昂平, 奥村万里子, 見神広紀, 木村啓二, 門下康平, 中野恵一, 笠原博徳

    情報処理学会研究報告 2016-HPC-153   情報処理学会  

    発表年月: 2016年03月

  • OSCAR自動並列化コンパイラにおける解析時データ構造変換による並列性抽出手法

    影浦直人, 和気珠実, 韓吉新, 木村啓二, 笠原博徳

    情報処理学会研究報告 2016-HPC-153   情報処理学会  

    発表年月: 2016年03月

  • データ多次元整合分割によるマルチコア・ローカルメモリ管理手法

    山本康平, 白川智也, 吉田明正, 木村啓二, 笠原博徳

    情報処理学会研究報告 2016-SLDM-174   情報処理学会  

    発表年月: 2016年01月

  • 計算機システムエミュレーションにおける再現性の評価

    福意大智, 水本旭洋, 西本真介, 金田茂, 高井峰生, 木村啓二

    マルチメディア、分散、協調とモバイル(DICOMO2015)シンポジウム   情報処理学会  

    発表年月: 2015年07月

  • 動画像デコーディングのIntelおよびARMマルチコア上での並列処理の評価

    和気珠実, 飯塚修平, 見神広紀, 木村啓二, 笠原博徳

    情報処理学会研究報告 2015-EMB-36   情報処理学会  

    発表年月: 2015年03月

  • 自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

    後藤隆志, 武藤康平, 平野智大, 見神広紀, 高橋宇一郎, 井上 栄, 木村啓二, 笠原博徳

    情報処理学会研究報告 2015-SLDM-170   情報処理学会  

    発表年月: 2015年03月

  • OSCAR自動並列化コンパイラを用いたリアルタイム動画像アプリケーションのHaswellマルチコア上での低消費電力化

    飯塚 修平, 山本 英雄, 平野 智大, 岸本 耀平, 後藤 隆志, 見神 広紀, 木村 啓二, 笠原 博徳

    情報処理学会研究報告 2015-EMB-36   情報処理学会  

    発表年月: 2015年03月

  • 自動並列化コンパイラによるソフトウェアキャッシュコヒーレンシ制御手法の評価

    岸本耀平, 間瀬正啓, 木村啓二, 笠原博徳

    情報処理学会研究報告 2014-ARC-213   情報処理学会  

    発表年月: 2014年12月

  • Android Demonstration System of Automatic Parallelization and Power Optimization by OSCAR Compiler

    Bui Duc Binh, Tomohiro Hirano, Hiroki Mikami, Dominic Hillenbrand, Keiji Kimura, Hironori Kasahara

    情報処理学会研究報告 2014-ARC-211   情報処理学会  

    発表年月: 2014年07月

  • Linux ftrace を用いたマルチコアプロセッサ上での並列化プログラムのトレース手法

    福意大智, 島岡護, 見神広紀, Dominic Hillenbrand, 木村啓二, 笠原博徳

    情報処理学会研究報告 2014-ARC-211   情報処理学会  

    発表年月: 2014年07月

  • A Latency Reduction Technique for Network Intrusion Detection System on Multicores

    Keiji Kimura  [招待有り]

    14th International Forum on Embedded MPSoC and Multicore   MPSoC  

    発表年月: 2014年07月

  • 小ポイントFFTのマルチコア上での自動並列化手法

    古山祐樹, 見神広紀, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-201   情報処理学会  

    発表年月: 2014年03月

  • 不正侵入検知システムにおけるマルチコア上でのシグネチャ割当によるレイテンシ削減手法

    山田正平, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-201   情報処理学会  

    発表年月: 2014年03月

  • 統計的手法を用いた並列化コンパイラ協調マルチコアアーキテクチャシミュレータ高速化手法

    田口学豊, 木村啓二, 笠原博徳

    電子通信情報学会技術報告 ETNET2014   電子情報通信学会  

    発表年月: 2014年03月

  • プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

    後藤隆志, 武藤康平, 山本英雄, 平野智大, 見神広紀, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-207-12   情報処理学会  

    発表年月: 2013年12月

  • モデルベース設計により自動生成されたエンジン制御Cコードのマルチコア用自動並列化

    梅田弾, 金羽木洋平, 見神広紀, 谷充弘(デンソー, 森裕司(デンソー, 木村啓二, 笠原博徳

    組み込みシステムシンポジウム(ESS2013)   情報処理学会  

    発表年月: 2013年10月

  • OSCAR API標準解釈系を用いた階層グルーピング対応ハードウェアバリア同期機構の評価

    川島慧大, 金羽木洋平, 林明宏, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-206-16   情報処理学会  

    発表年月: 2013年08月

  • Androidベースマルチコア上での自動電力制御

    平野智大, 武藤康平, 後藤隆志, 見神広紀, 山本英雄, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-206-23   情報処理学会  

    発表年月: 2013年08月

  • OSCAR API v2.1 with Flexible Accelerator Control Facilities

    Keiji Kimura  [招待有り]

    13th International Forum on Embedded MPSoC and Multicore   MPSoC  

    発表年月: 2013年07月

  • マルチコア用並列化アプリケーション開発の基礎と実例

    木村啓二  [招待有り]

    ESEC 2013 専門セミナー   Reed Exhibition Japan  

    発表年月: 2013年05月

  • Enhancing the Performance of a Multiplayer Game by Using a Parallelizing Compiler

    アルドーサリー ヤーセル, 古山祐樹, ドミニク ヒレンブランド, 木村啓二, 笠原博徳, 成田誠之助

    情報処理学会研究報告 2013-OS-125   情報処理学会  

    発表年月: 2013年04月

  • マルチコア商用スマートディバイスの評価と並列化の試み

    山本英雄, 後藤隆志, 平野智大, 武藤康平, 見神広紀, Hillenbrand Dominic, 林 明宏, 木村啓二, 笠原博徳

    情報処理学会研究報告 2013-OS-124   情報処理学会  

    発表年月: 2013年02月

  • 自動車エンジン制御ソフトウェアにおけるマルチコア上での並列処理

    金羽木洋平, 梅田弾, 見神広紀, 林明宏, 沢田光男, トヨ, 木村 啓二, 笠原博徳

    情報処理学会研究報告 2013-ARC-203-2   情報処理学会  

    発表年月: 2013年01月

  • 並列化アプリケーションを対象とした統計的手法によるメニーコア アーキテクチャシミュレーションの高速化

    阿部洋一, 田口学豊, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-203-13   情報処理学会  

    発表年月: 2013年01月

  • コンパイラと協調したシミュレー ション精度切り換え可能な マルチコアアーキテクチャシミュレータ

    田口学豊, 阿部洋一, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-203-14   情報処理学会  

    発表年月: 2013年01月

  • Automatic parallelization with OSCAR API Analyzer: a cross-platform performance evaluation

    Gonzalez-Alvarez Cecilia, 金羽木洋平, 竹本昂生, 岸本耀平, 武藤康平, 見神広紀, 林明宏, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-202HPC137-10   情報処理学会  

    発表年月: 2012年12月

  • 地震動シミュレータGMSのOSCARコンパイラによる自動並列化

    島岡護, 見神広紀, 林明宏, 和田康孝, 木村啓二, 森田秀和, 内山 邦男, 笠原博徳

    情報処理学会研究報告 2012-ARC-202HPC137-11   情報処理学会  

    発表年月: 2012年12月

  • Opportunities and Challenges of Application-Power Control in the Age of Dark Silicon

    Dominic Hillenbrand, Yuuki Furuyama, Akihiro Hayashi, Hiroki Mikami, Keiji Kimura, Hironori Kasahara

    情報処理学会研究報告 2012-ARC-202 HPC137-26   情報処理学会  

    発表年月: 2012年12月

  • 組込マルチコア用OSCAR APIを用いたTILEPro64上でのマルチメディアアプリケーションの 並列処理

    岸本耀平, 見神広紀, 中野恵一, 林明宏, 木村啓二, 笠原博徳

    組み込みシステムシンポジウム(ESS2012)   情報処理学会  

    発表年月: 2012年10月

  • エンジン基本制御ソフトウェアモデルのマルチコア上での並列処理

    梅田弾, 金羽木洋平, 見神広紀, 林明宏 谷充弘, 森裕司, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-201-22   情報処理学会  

    発表年月: 2012年08月

  • 低消費電力マルチコ アRP-Xを用いた1ワットWebサービスの実現

    古山祐樹, 島岡護, 見神広紀, 林明宏, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-201-24   情報処理学会  

    発表年月: 2012年08月

  • OSCAR API for Low-Power Multicores and Manycores, and API Standard Translator

    Keiji Kimura  [招待有り]

    12th International Forum on Embedded MPSoC and Multicore   MPSoC  

    発表年月: 2012年07月

  • 並列化コンパイラを考慮したコーディング作法と並列化APIの現在

    木村啓二  [招待有り]

    ESEC 2012 専門セミナー   Reed Exhibition Japan  

    発表年月: 2012年05月

  • JISX0180:2011「組込みソフトウェア向けコーディング規約の作成方法」を用いた Parallelizable Cの定義

    木村啓二, 間瀬正啓, 笠原博徳

    情報処理学会研究報告 ETNET2012   情報処理学会  

    発表年月: 2012年03月

  • Javaの自動並列化における例外フローのイン ライニング解析とメソッドディスパッチの高速化

    田端啓一, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-199-9   情報処理学会  

    発表年月: 2012年03月

  • 並列化メディアアプリケーションを対象としたメニーコアアーキテクチャシミュレーションの 高速化の検討

    阿部洋一, 石塚亮, 大胡亮太, 田口学豊, 木村啓二, 笠原博徳

    情報処理学会研究報告 2012-ARC-199-3   情報処理学会  

    発表年月: 2012年03月

  • 重粒子線がん治療用線量計算エンジンの自動並列化

    林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

    HPCS2012 - ハイパフォーマンスコンピューティングと計算科学シンポジウム   情報処理学会  

    発表年月: 2012年01月

  • SMPサーバー上での粒子線がん治療用線量計算エンジンの自動並列化

    林明宏, 松本卓司, 見神広紀, 木村啓二, 山本啓二, 崎浩典, 高谷保行, 笠原博徳

    情報処理学会研究報告 2011-ARC189HPC132-2   情報処理学会  

    発表年月: 2011年11月

  • SPECベンチマークプログラムのCUDAによる並列化の検討

    平勇樹, 木村啓二, 笠原博徳

    情報処理学会研究報告 2011-HPC-130-16   情報処理学会  

    発表年月: 2011年07月

  • 科学技術計算プログラムの構造を利用したメニーコアアーキテクチャシミュレーション高速化手法の評価

    石塚亮, 阿部洋一, 大胡亮太, 木村啓二, 笠原博徳

    情報処理学会研究報告 2011-ARC-196-14   情報処理学会  

    発表年月: 2011年07月

  • 並列化APIとコンパイラによるマルチコア用アプリケーションの開発

    木村啓二  [招待有り]

    ESEC 2011 専門セミナー   Reed Exhibition Japan  

    発表年月: 2011年05月

  • メディアアプリケーションにおけるコンパイラによるI/Oオーバーヘッド隠蔽手法

    林明宏, 関口威, 間瀬正啓, 和田康孝, 木村啓二, 笠原博徳

    情報処理学会研究報告 2011-ARC-195-14   情報処理学会  

    発表年月: 2011年04月

  • 低消費電力マルチコアRP2上での複数メディアアプリケーション実行時の消費電力評価

    見神広紀, 北基俊平, 佐藤崇文, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

    情報処理学会研究報告 2011-ARC-194-1   情報処理学会  

    発表年月: 2011年03月

  • OSCAR API標準解釈系を用いたParallelizable Cプログラムの評価

    佐藤卓也, 見神広紀, 林明宏, 間瀬正啓, 木村啓二, 笠原博徳

    情報処理学会研究報告 2011-ARC-191-2   情報処理学会  

    発表年月: 2010年10月

  • プログラム構造に着目したメニーコアアーキテクチャシミュレータの高速化手法

    石塚亮, 大友俊也, 大胡亮太, 木村啓二, 笠原博徳

    情報処理学会研究会報告 2010-ARC-190-20(SWoPP2010)   情報処理学会  

    発表年月: 2010年08月

  • 情報家電用ヘテロジニアスマルチコアRP-Xにおけるコンパイラ低消費電力制御性能

    和田康孝, 林明宏, 渡辺岳志, 関口威, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

    情報処理学会研究会報告 2010-ARC-190-8(SWoPP2010)   情報処理学会  

    発表年月: 2010年08月

  • 情報家電用ヘテロジニアスマルチコア用自動並列化コンパイラフレームワーク

    林明宏, 和田康孝, 渡辺岳志, 関口威, 間瀬正啓, 木村啓二, 伊藤雅之, 長谷川淳, 佐藤真琴, 野尻徹, 内山邦男, 笠原博徳

    情報処理学会研究会報告 2010-ARC-190-7(SWoPP2010)   情報処理学会  

    発表年月: 2010年08月

  • 組込みマルチコア用並列化APIと並列化コンパイラの現在

    木村啓二  [招待有り]

    ESEC 2010 専門セミナー   Reed Exhibition Japan  

    発表年月: 2010年05月

  • 並列化コンパイラによるソフトウェアコヒーレンシ制御

    間瀬 正啓, 木村 啓二, 笠原 博徳

    情報処理学会研究会報告 2010-ARC-189, 2010-OS-114   情報処理学会  

    発表年月: 2010年04月

  • 自動並列化技術を用いたメディア処理オフロード

    石坂 一久, 酒井 淳嗣, 枝廣 正人, 宮本 孝道, 間瀬 正啓, 木村 啓二, 笠原 博徳

    情報処理学会研究会報告 2010-SLDM144, 2010-EMB16   情報処理学会  

    発表年月: 2010年03月

  • 組込み向けマルチコア上での複数アプリケーション動作時の自動並列化されたアプリケーションの処理性能

    宮本孝道, 間瀬正啓, 木村啓二, 石坂一久, 酒井淳嗣, 枝廣正人, 笠原博徳

    情報処理学会研究会報告 2010-ARC-188   情報処理学会  

    発表年月: 2010年03月

  • H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理

    見神広紀, 宮本孝道, 木村啓二, 笠原博徳

    情報処理学会研究会報告 2010-ARC-187   情報処理学会  

    発表年月: 2010年01月

  • 自動並列化のためのElement-Sensitiveポインタ解析

    間瀬 正啓, 村田 雄太, 木村 啓二, 笠原 博徳

    情報処理学会研究報告   情報処理学会  

    発表年月: 2009年10月

  • メニーコア・プロセッサとそれを支える要素技術

    井上 弘士, 木村 啓二, 松谷 宏紀  [招待有り]

    組込システムシンポジウム 2009   情報処理学会  

    発表年月: 2009年10月

  • マルチコアにおけるParallelizable Cプログラムの自動並列化

    間瀬正啓, 木村啓二, 笠原博徳

    情報処理学会研究報告 2009-ARC-174-15(SWoPP2009)   情報処理学会  

    発表年月: 2009年08月

  • 組込みソフトウェアの信頼性,開発効率向上のためのコーディングガイドライン

    木村啓二  [招待有り]

    平成21年度 INSTAC成果報告会  

    発表年月: 2009年07月

  • マルチコア上でのOSCAR APIを用いた並列化コンパイラによる低消費電力化手法

    中川亮, 間瀬正啓, 大國直人, 白子準, 木村啓二, 笠原博徳

    先進的計算基盤システムシンポジウム(SACSIS2009)   情報処理学会  

    発表年月: 2009年05月

  • 最新の組込みマルチコア用コンパイラ技術と並列API

    木村啓二  [招待有り]

    ESEC 2009 専門セミナー   Reed Exhibition Japan  

    発表年月: 2009年05月

  • 並列度・タスク実行時間の偏りを考慮した標準タスクグラフセットSTG Ver3を用いたスケジューリングアルゴリズムの評価

    島岡護, 今泉和浩, 鷹野芙美代, 木村啓二, 笠原博徳

    情報処理学会研究報告   情報処理学会  

    発表年月: 2009年02月

  • マルチコア上でのOSCAR API を用いた低消費電力化手法

    中川亮, 間瀬正啓, 白子準, 木村啓二, 笠原博徳

    電子通信情報学会技術報告 ICD2008-145   電子情報通信学会  

    発表年月: 2009年01月

  • マルチコアのためのコンパイラにおけるローカルメモリ管理手法

    桃園拓, 中野啓史, 間瀬正啓, 木村啓二, 笠原博徳

    電子通信情報学会技術報告 ICD2008-141   電子情報通信学会  

    発表年月: 2009年01月

  • メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価

    神山輝壮, 和田康孝, 林 明宏, 間瀬正啓, 中野啓史, 渡辺岳志, 木村啓二, 笠原博徳

    電子通信情報学会技術報告 ICD2008-140   電子情報通信学会  

    発表年月: 2009年01月

  • マルチコアのソフトウェア開発

    木村啓二  [招待有り]

    CEATEC JAPAN 2008 インダストリアルセッション(IS)   JEITA  

    発表年月: 2008年10月

  • マルチコア用コンパイル技術の現在

    木村啓二  [招待有り]

    第10回 組み込みシステム技術に関するサマーワークショップ (SWEST10)   情報処理学会  

    発表年月: 2008年09月

  • マルチコアプロセッサのソフトウェア

    木村啓二  [招待有り]

    第31回STARCアドバンスト講座 システムアーキテクチャ セミナー - SoCシステムアーキテクチャ -   STARC  

    発表年月: 2008年07月

  • 階層グルーピング対応バリア同期機構の評価

    山田海斗, 間瀬正啓, 白子準, 木村啓二, 伊藤雅之, 服部俊洋, 水野弘之, 内山邦男, 笠原博徳

    情報処理学会研究報告 2007-ARC-178-4   情報処理学会  

    発表年月: 2008年05月

  • ポインタ解析を用いた制約付きCプログラムの自動並列化

    間瀬正啓, 馬場大介, 長山晴美, 村田雄太, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-178-14   情報処理学会  

    発表年月: 2008年05月

  • 情報家電用マルチコア上におけるマルチメディア処理のコンパイラによる並列化

    宮本孝道, 浅香沙織, 見神広紀, 間瀬正啓, 木村啓二, 笠原博徳

    SACSIS2008 - 先進的計算基盤システムシンポジウム   情報処理学会  

    発表年月: 2008年05月

  • マルチコアプロセッサ上でのマルチメディア処理の並列化

    宮本孝道, 田村圭, 田野裕秋, 見神広紀, 浅香沙織, 間瀬正啓, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-175-15(デザインガイア2007)   情報処理学会  

    発表年月: 2007年11月

  • 最新の組み込みマルチコア用コンパイラ技術

    木村啓二  [招待有り]

    システムLSIワークショップ   情報処理学会  

    発表年月: 2007年11月

  • 情報家電用マルチコアSMP実行モードにおける制約付きCプログラムのマルチグレイン並列化

    間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

    組込みシステムシンポジウム (ESS2007)   情報処理学会  

    発表年月: 2007年10月

  • ヘテロジニアスマルチコア上でのコンパイラによる低消費電力制御

    林明宏, 伊能健人, 中川亮, 松本繁, 山田海斗, 押山直人, 白子準, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-174-18(SWoPP2007)   情報処理学会  

    発表年月: 2007年08月

  • ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法

    和田康孝, 林明宏, 伊能健人, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-174-17(SWoPP2007)   情報処理学会  

    発表年月: 2007年08月

  • 54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討

    鹿野裕明, 伊藤雅樹, 戸高貴司, 津野田賢伸, 兒玉征之, 小野内雅文, 内山邦男, 小高俊彦, 亀井達也, 永濱 衛, 草桶 学, 新田祐介, 和田康孝, 木村啓二, 笠原博徳

    電子通信情報学会技術報告 ICD2007-71, Vol. 107   電子情報通信学会  

    発表年月: 2007年08月

  • マルチコア用コンパイラ技術

    木村啓二  [招待有り]

    165委員会主催研究会第46回研究会 「マルチコアプロセッサSoCの現状と今後の展望」  

    発表年月: 2007年07月

  • 組込マルチコアの動向

    木村啓二  [招待有り]

    JEITA 情報端末フェスティバル 2007   JEITA  

    発表年月: 2007年06月

  • 独立に周波数制御可能な 4320MIPS、SMP/AMP対応 4プロセッサLSIの開発

    早瀬 清, 吉田 裕, 亀井達也, 芝原真一, 西井 修, 服部俊洋, 長谷川 淳, 高田雅士, 入江直彦, 内山邦男, 小高俊彦, 高田 究, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-173-06   情報処理学会  

    発表年月: 2007年05月

  • 情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理

    間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸 二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 亀井達也, 服部俊洋, 長谷川淳, 佐藤真琴, 伊藤雅樹, 内山 邦男, 小高俊彦, 笠原博徳

    情報処理学会研究報告 2007-ARC-173-05   情報処理学会  

    発表年月: 2007年05月

  • マルチコアプロセッサ活用の勘所

    木村啓二  [招待有り]

    組み込みプロセッサ&プラットホームワークショップ  

    発表年月: 2007年04月

  • マルチグレイン並列化コンパイラにおけるローカルメモリ管理手法

    三浦 剛, 田川友博, 村松裕介, 池見明紀, 中川正洋, 中野啓史, 白子 準, 木村啓二, 笠原博徳

    情報処理学会研究報告 2007-ARC-172/HPC-109-11 (HOKKE2007)   情報処理学会  

    発表年月: 2007年03月

  • マルチコア上でのマルチメディアアプリケーションの自動並列化

    宮本孝道, 浅香沙織, 鎌倉信仁, 山内宏真, 間瀬正啓, 白子準, 中野啓史, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2007-171-13   情報処理学会  

    発表年月: 2007年01月

  • OSCARコンパイラにおける制約付きCプログラムの自動並列化

    間瀬正啓, 馬場大介, 長山晴美, 田野裕秋, 益浦健, 深津幸二, 宮本孝道, 白子準, 中野啓史, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2006-170-01 (デザインガイア2006)   情報処理学会  

    発表年月: 2006年11月

  • SMPサーバ及び組み込み用マルチコア上でのOSCARマルチグレイン自動並列化コンパイラの性能

    白子準, 田川友博, 三浦剛, 宮本孝道, 中野啓史, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2006-170-02 (デザインガイア2006)   情報処理学会  

    発表年月: 2006年11月

  • ソフトウェアもおもしろいこれからのプロセッサアーキテクチャ

    木村啓二  [招待有り]

    FIT2006イベント企画「これからが面白いプロセッサアーキテクチャ」(パネル)   情報処理学会  

    発表年月: 2006年09月

  • OSCARマルチコア上でのローカルメモリ管理手法

    中野啓史, 仁藤拓実, 丸山貴紀, 中川正洋, 鈴木裕貴, 内藤陽介, 宮本孝道, 和田康孝, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2006-169-28   情報処理学会  

    発表年月: 2006年08月

  • マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法

    白子準, 吉田宗広, 押山直人, 和田康孝, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    先進的計算基盤システムシンポジウム(SACSIS2006)   情報処理学会  

    発表年月: 2006年05月

  • マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ方式

    宮本孝道, 中川正洋, 浅野尚一郎, 内藤陽介, 仁藤拓実, 中野啓史, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC-2006-167, HPC-2006-105   情報処理学会  

    発表年月: 2006年02月

  • ヘテロジニアスチップマルチプロセッサにおける粗粒度タスクスタティックスケジューリング手法

    和田康孝, 押山直人, 鈴木裕貴, 内藤陽介, 白子準, 中野啓史, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC-2006-166   情報処理学会  

    発表年月: 2006年01月

  • MP3エンコーダを用いたヘテロジニアスチップマルチプロセッサの性能評価

    鹿野裕明, 鈴木裕貴, 和田康孝, 白子準, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC-2006-166   情報処理学会  

    発表年月: 2006年01月

  • マルチコアプロセッサ上でのデータローカライゼーション

    中野啓文, 浅野尚一郎, 内藤陽介, 仁藤拓実, 田川友博, 宮本孝道, 小高剛, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2005-165-10   情報処理学会  

    発表年月: 2005年12月

  • ホモジニアスマルチコアにおけるコンパイラ制御低消費電力化手法

    白子準, 押山直人, 和田康孝, 鹿野裕明, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2005-164-10 (SWoPP205)   情報処理学会  

    発表年月: 2005年08月

  • 共有メモリ型マルチプロセッササーバ上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価

    白子準, 宮本孝道, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2005-161-5 (SHINING2005)   情報処理学会  

    発表年月: 2005年01月

  • 配列間接アクセスを用いないコード生成法を用いた電子回路シミュレーション

    黒田亮, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2005-161-1 (SHINING2005)   情報処理学会  

    発表年月: 2005年01月

  • OSCARチップマルチプロセッサ上でのMPEG2エンコードの並列処理

    小高剛, 中野啓文, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC02004-160-10   情報処理学会  

    発表年月: 2004年12月

  • OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いたデータローカライゼーション

    中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2004-159-20 (SWoPP2004)   情報処理学会  

    発表年月: 2004年08月

  • OSCARチップマルチプロセッサ上でのマルチグレイン並列性評価

    和田康孝, 白子準, 石坂一久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2004-159-11 (SWoPP2004)   情報処理学会  

    発表年月: 2004年08月

  • IBM pSeries 690上でのOSCARマルチグレイン自動並列化コンパイラの性能評価

    石坂一久, 白子準, 小幡元樹, 木村啓二, 笠原博徳

    情報処理学会第66回全国大会   情報処理学会  

    発表年月: 2004年03月

  • データローカライゼーションを伴うMPEG2エンコーディングの並列処理

    小高剛, 中野啓文, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2004-156-3   情報処理学会  

    発表年月: 2004年02月

  • SMPマシン上での粗粒度タスク並列処理におけるデータプリフェッチ手法

    宮本孝道, 山口高弘, 飛田高雄, 石坂一久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2003-155-06   情報処理学会  

    発表年月: 2003年11月

  • OSCAR CMP 上でのスタティックスケジューリングを用いたデータローカライゼーション手法

    中野啓文, 内藤陽介, 鈴木貴久, 小高剛, 石坂一久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2003-154-14 (SWoPP2003)   情報処理学会  

    発表年月: 2003年08月

  • OSCAR チップマルチプロセッサ上でのMPEG2エンコーディングの並列処理

    小高剛, 中野啓文, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2003-154-10 (SWoPP2003)   情報処理学会  

    発表年月: 2003年08月

  • チップマルチプロセッサ上での粗粒度タスク並列処理によるデータローカライゼーション

    中野啓文, 小高剛, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2003-151-3 (SHINING2003)   情報処理学会  

    発表年月: 2003年01月

  • OSCAR 型シングルチップマルチプロセッサにおける動きベクトル探索処理

    小高剛, 鈴木貴久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2002-150-6   情報処理学会  

    発表年月: 2002年11月

  • OSCAR チップマルチプロセッサ上でのマルチグレイン並列処理

    木村啓二, 小高剛, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2002-150-7   情報処理学会  

    発表年月: 2002年11月

  • SMPマシン上での粗粒度タスク並列処理オーバーへッドの解析

    和田康孝, 中野啓文, 木村啓二, 小幡元樹, 笠原博徳

    情報処理学会研究報告 ARC2002-148-3   情報処理学会  

    発表年月: 2002年05月

  • シングルチップマルチプロセッサにおける JPEGエンコーディングのマルチグレイン並列処理 (共著)

    小高剛, 内田貴之, 木村啓二, 笠原博徳

    情報処理学会並列処理シンポジウム(JSPP2002)   情報処理学会  

    発表年月: 2002年05月

  • OSCAR型シングルチップマルチプロセッサ上でのJPEGエンコーディングプログラムのマルチグレイン並列処理

    小高剛, 内田貴之, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2002-146-4   情報処理学会  

    発表年月: 2002年02月

  • シングルチップマルチプロセッサにおけるマルチグレイン並列処理

    内田貴之, 小高剛, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2002-146-3   情報処理学会  

    発表年月: 2002年02月

  • シングルチップマルチプロセッサ上でのマルチメディアアプリケーションの近細粒度並列処理

    小高剛, 宮下直久, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2001-144-11   情報処理学会  

    発表年月: 2001年11月

  • キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法

    中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

    情報処理学会研究報告 ARC2001-144-12   情報処理学会  

    発表年月: 2001年08月

  • マルチプロセッサシステム上でのキャッシュ最適化を考慮した粗粒度タスクスタティックスケジューリング手法 (共著)

    中野啓文, 石坂一久, 小幡元樹, 木村啓二, 笠原博徳

    情報処理学会第62回全国大会   情報処理学会  

    発表年月: 2001年03月

  • マルチメディアアプリケーションのシングルチップマルチプロセッサ上での近細粒度並列処理

    小高剛, 木村啓二, 宮下直久, 笠原博徳

    情報処理学会第62回全国大会   情報処理学会  

    発表年月: 2001年03月

  • 近細粒度並列処理に適したシングルチップマルチプロセッサのメモリアーキテクチャの評価

    松元信介, 木村啓二, 笠原博徳

    情報処理学会第62回全国大会   情報処理学会  

    発表年月: 2001年03月

  • マルチグレイン並列処理用シングルチップマルチプロセッサにおけるデータ転送ユニットの検討

    宮下直久, 木村啓二, 小高剛, 笠原博徳

    情報処理学会第62回全国大会   情報処理学会  

    発表年月: 2001年03月

  • 近細粒度並列処理用シングルチップマルチプロセッサにおけるプロセッサコアの構成

    木村啓二, 内田貴之, 加藤孝幸, 笠原博徳

    情報処理学会研究報告 ARC139-16(SWoPP2000)   情報処理学会  

    発表年月: 2000年08月

  • シングルチップマルチプロセッサの近細粒度並列処理に対する性能評価

    加藤考幸, 尾形航, 木村啓二, 内田貴之, 笠原博徳

    情報処理学会第60回全国大会   情報処理学会  

    発表年月: 2000年03月

  • マルチグレイン並列化コンパイラのメモリアクセスアナライザ

    岩井啓輔, 小幡元樹, 木村啓二, 天野英晴, 笠原博徳

    電子通信情報学会技術報告 CPSY99-62   電子情報通信学会  

    発表年月: 1999年08月

  • シングルチップマルチプロセッサ上での近細粒度並列処理の性能評価

    木村啓二, 間中邦之, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会研究報告 ARC134-4   情報処理学会  

    発表年月: 1999年08月

  • 最早実行可能条件解析を用いたキャッシュ最適化手法

    稲石大祐, 木村啓二, 藤本謙作, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会第58回全国大会   情報処理学会  

    発表年月: 1999年03月

  • 最早実行可能条件解析を用いたキャッシュ利用の最適化

    稲石大祐, 木村啓二, 藤本謙作, 尾形航, 笠原博徳

    情報処理学会研究報告 ARC98-130-6   情報処理学会  

    発表年月: 1998年08月

  • シングルチップマルチプロセッサ上でのマルチグレイン並列処理

    木村啓二, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会研究報告 ARC98-130-5   情報処理学会  

    発表年月: 1998年08月

  • マルチグレイン並列化コンパイラとそのアーキテクチャ支援

    笠原博徳, 尾形航, 木村啓二, 小幡元樹, 飛田高雄, 稲石大祐

    電子通信情報学会技術報告 ICD98-10 CPSY98-10 FTS98-10   電子情報通信学会  

    発表年月: 1998年04月

  • FPGAを用いたマルチプロセッサシステムテストベッドの実装

    尾形航, 山本泰平, 水尾学, 木村啓二, 笠原博徳

    情報処理学会研究報告ARC128-14 HPC70-14   情報処理学会  

    発表年月: 1998年03月

  • マルチグレイン並列処理用シングルチップマルチプロセッサアーキテクチャ

    木村啓二, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会第56回全国大会   情報処理学会  

    発表年月: 1998年03月

  • マクロタスク最早実行可能条件解析を用いたキャッシュ最適化手法

    稲石大祐, 木村啓二, 尾形航, 岡本雅巳, 笠原博徳

    情報処理学会第56回全国大会   情報処理学会  

    発表年月: 1998年03月

  • マルチグレイン並列処理用マルチプロセッサシステム

    岩井啓輔, 藤原崇, 森村知弘, 天野英晴, 木村啓二, 尾形航, 笠原博徳

    電子情報通信学会研究報告 CPSY97-46   電子情報通信学会  

    発表年月: 1997年08月

  • 処理とデータ転送のオーバーラッピングを考慮したダイナミックスケジューリングアルゴリズム

    木村啓二, 橋本茂, 古郷誠, 尾形航, 笠原博徳

    電子情報通信学会研究報告 CPSY97-40   電子情報通信学会  

    発表年月: 1997年08月

▼全件表示

特定課題研究

  • 深層学習フレームワークでの利用を目指した完全準同型暗号による行列計算に関する研究

    2020年  

     概要を見る

    2020年度は、研究のベースとなるソフトウェアとして、Microsoft ResearchのSEAを利用し、これによる行列積演算を構成する各種処理の時間を測定し、そのオーバーヘッドと並列性の調査を行った。まず、行列積計算をOpenMPで並列化し、8コア搭載のIntel Xeon W2145(3.70GHz)で実行した結果、1コア実行時に対して約6倍の性能向上を得ることが出来た。さらに、準同型暗号による行列積演算を構成する処理をSIMD演算(AVX512)により高速化することを試みた。その結果、ライブラリ内部で使用する基本データ型を64bitから32bitに縮小しかつSIMD演算幅を増やすことで、行列演算の重要処理をSIMDオリジナルの実装に対して3.48倍高速化可能となった。&nbsp;

  • フラグによりCPUとアクセラレータが連係するヘテロジニアスマルチコアに関する研究

    2014年  

     概要を見る

    本研究は、アクセラレータを持つヘテロジニアスマルチコアに対して、アクセラレータの制御やデータ転送に要するオーバーヘッドを削減する技術の開発する。具体的にはCPU、データ転送ユニット(DTU)、及びアクセラレータを同時実行させることで上記オーバーヘッドを隠蔽可能とするタスク分割及びスケジューリング手法を開発し、自動並列化コンパイラに実装する。本年度の成果としては、まず本研究が前提とするアクセラレータの基本仕様を決定した。その上で、本アクセラレータ用のコンパイラモジュールを開発し、さらにアクセラレータのアーキテクチャシミュレータを開発することにより、本研究を行う上での基本的な評価環境を整備した。

  • コンパイラ解析情報と実機実行情報を利用したマルチコアシミュレーション高速化の研究

    2009年  

     概要を見る

    計算機アーキテクチャの研究では、様々な構成のシステム評価を行うため、ソフトウェアによるアーキテクチャシミュレーションが大きな役割を果たしている。しかしながら、ソフトウェアシミュレータはプログラムの実行に実機の数千倍の時間がかかる。このような膨大な評価時間は今後のメニーコアの研究・開発の大きな妨げになる。本研究では、このような問題を克服するための、マルチコア・メニーコアのソフトウェアシミュレーション高速化手法の研究を行う。特に並列アーキテクチャ研究のためのシミュレーション高速化の研究に関しては、これまでミュレーションによる実験対象となる仮想のマルチコアやマルチプロセッサのコアを、シミュレータを実行する実際のマルチプロセッサのコアに割り当てるという方法が提案されてきたが、実機上の並列処理オーバーヘッドが大きく、実用的なシステムはこれまで実現されていない。本研究の特徴は、マルチコア・メニーコアのソフトウェアシミュレーションの高速化に、ループ構造や並列化情報などの並列化コンパイラによる解析情報と、評価対象アプリケーションの実機での実行情報を利用することである。これらの情報を利用し、詳細にシミュレーションする必要がある箇所とそうでない箇所を特定する。従来のソフトウェアシミュレーション高速化手法では利用されてこなかったこれらの付加的な情報を利用することで、精度の高い性能値を最小の実行コストで得ることができる。本年度は、本高速化手法の基本的な適用可能性を検討するための予備実験を行った。具体的には、二種類のマルチコアアーキテクチャのコア数を32コアまで変化させ、ベンチマークプログラムのメインループの回転数を変化させ本研究による性能値推定手法により本来のループ回転数における性能値を再現できるか調査した。ベンチマークプログラムとしてSPEC95ベンチマークのtomcatvとswim、および音声圧縮で標準的に使われているAACエンコーディングプログラムを用いた。評価の結果、いずれのアーキテクチャ、コア数、ベンチマークプログラムの組み合わせにおいても、わずか数回転分の性能値から本来の数百回転分の性能値を高々2%程度の誤差で予測することができた。今後は適用アプリケーションの拡大ならびにシステムの自動化を行う予定である。

  • ソフトウェア協調型チップマルチプロセッサにおけるメモリ最適化に関する研究

    2004年  

     概要を見る

    本研究ではまず、データローカリティ最適化およびデータ転送最適化の基盤技術となるマルチグレイン並列化コンパイラとチップマルチプロセッサアーキテクチャプラットフォームの選定および評価基盤の整備を行った。コンパイラとしては、経済産業省ミレニアムプロジェクトIT21 アドバンスト並列化コンパイラで開発されたOSCARマルチグレイン並列化コンパイラをコアとした。また、チップマルチプロセッサアーキテクチャとしては、簡素なプロセッサコア、ローカルデータメモリ、2ポート構成の分散共有メモリ、およびデータ転送ユニットを持つプロセッシングエレメント(PE)をPE間ネットワークで接続したOSCAR型チップマルチプロセッサとした。本研究では、OSCARマルチグレイン並列化コンパイラに対してOSCAR型チップマルチプロセッサ用のバックエンド(コード生成器)を追加開発した。データローカリティ最適化およびデータ転送最適化技術開発の第一歩として、ターゲットアプリケーションには、SPECfp95ベンチマークより科学技術計算の典型例であるTomcatvとSwimプログラムを選んだ。本研究では、これらに対してタスク(並列処理の単位)とデータをデータローカリティと並列性の両方を考慮しながらPEへスケジューリングし、さらに共有メモリとプロセッサのローカルメモリ(データローカルメモリおよび分散共有メモリ)とのやり取りをプロセッサと非同期で動作するデータ転送ユニットにより処理させることにより、データローカリティ利用とデータ転送処理の効率化を行った。8PEで評価を行った結果、データローカリティ最適化を適用していない場合に対してTomcatvで1.56倍、Swimで1.38倍の速度向上を得ることができた。

海外研究活動

  • 新しいメモリ階層を考慮したソフトウェア・ハードウェアの構成法に関する研究

    2017年08月
    -
    2018年02月

    アメリカ   North Carolina State University

 

現在担当している科目

▼全件表示

 

委員歴

  • 2022年04月
    -
    2022年10月

    The 31st International Conference on Parallel Architectures and Compilation Techniques (PACT 2022)

  • 2021年
    -
     

    The 30th International Conference on Parallel Architectures and Compilation Techniques (PACT 2021)

  • 2021年
    -
     

    The 34th International Workshop on Languages and Compilers for Parallel Computing (LCPC 2021)

  • 2021年
    -
     

    ACM Principles and Practice of Parallel Programming 2021 (PPoPP 2021), Extended Review Committee

  • 2020年
    -
     

    The 26th IEEE International Symposium on High-Performance Computer Architecture  Program Committee

  • 2018年
    -
    2020年

    IEEE International Parallel & Distributed Processing Symposium (IPDPS 2018-2020)  Program Committee

  • 2019年
    -
     

    The 37th IEEE International Conference on Computer Design (ICCD 2019)  Program track Chair (Processor Architecture)

  • 2019年
    -
     

    24th Asia and South Pacific Design Automation Conference (ASP-DAC 2019)  Program Committee (On-chip Communication and Networks-on-Chip)

  • 2018年
    -
     

    Principles and Practice of Parallel Programming 2018 (PPoPP 2018)  Publicity Chair

  • 2018年
    -
     

    IEEE COMPSAC 2018  Computer Architecture and Platforms Co-Chairs

  • 2016年
    -
     

    The 22nd IEEE International Conference on Parallel and Distributed Systems (ICPADS 2016)  Program Vice Chair (Parallel / Distributed Algorithms and Applications)

  • 2016年
    -
     

    The 45th International Conference on Parallel Processing (ICPP-2016)  Program Committee (Programming Models, Languages and Compilers)

  • 2016年
    -
     

    The 3rd International Workshop on Software and Engineering for Parallel Sysmtems (SEPS 2016)  Program Committee

  • 2015年
    -
     

    The 24th International Conference on Parallel Architectures and Compilation Techniques (PACT 2015)  Program Committee

  • 2015年
    -
     

    27th International Symposium on Computer Architecture and High Performance Computing (SBAC PAD 2015)  Program Committee (Software Track)

  • 2015年
    -
     

    15th International Symposium on High-Performance Computer Architecture (HPCA-15)  Publicity Co-Chairs

  • 2010年04月
    -
    2014年03月

    情報処理学会 計算機アーキテクチャ研究会  幹事

  • 2014年
    -
     

    The 28th IEEE International Parallel &amp; Distributed Processing Symposium (IPDPS)  Program Committee

  • 2014年
    -
     

    The 28th IEEE International Parallel &amp; Distributed Processing Symposium (IPDPS)  Program Committee

  • 2011年
    -
    2014年

    The 24--27th International Workshop on Languages and Compilers for Parallel Computing (LCPC )  Program Committee, Program Chair (2012)

  • 2010年04月
    -
    2013年03月

    情報処理学会 組込システム研究会  運営委員

  • 2013年
    -
     

    The 13th International Forum on Embedded MPSoC and Multicore (MPSoC2013)  Finace Co-Chairs

  • 2013年
    -
     

    The 27th Internationcal Conference on Supercomputing (ICS 2013)  Program Committee

  • 2009年
    -
    2013年

    IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips XII--XVII)  Program Committee

  • 2009年
    -
    2013年

    XXVII--XXXII IEEE International Conference on Computer Design (ICCD )  Program Committee (Computer System Design and Application Track)

  • 2012年
    -
     

    The 12th International Forum on Embedded MPSoC and Multicore (MPSoC2012)  Program Co-Chairs

  • 2011年
    -
     

    Advanced Parallel Processing Technology Symposium (APPT )  Program Committee

  • 2011年
    -
     

    The 17th IEEE International Conference on Parallel and Distributed Systems (ICPADS )  Program Committee (Multicore Computing and Parallel / Distributed Architecture)

  • 2008年04月
    -
    2010年03月

    情報処理学会 計算機アーキテクチャ研究会  運営委員

  • 2010年
    -
     

    22nd International Symposium on Computer Architecture and High Performance Computing (SBAC PAD )  Program Committee (System Software Track)

  • 2010年
    -
     

    IEEE International Symposium on Workload Characterization (IISWC-2010)  Program Committee

  • 2005年04月
    -
    2009年03月

    情報処理学会 学会誌  編集委員 SWG

  • 2005年04月
    -
    2009年03月

    情報処理学会 システムLSI設計技術研究会(SLDM)  運営委員

  • 2005年
    -
    2009年03月

    情報処理学会論文誌 コンピューティングシステム ACS  論文誌編集委員会

  • 2009年
    -
     

    The 38th International Conference on Parallel Processing (ICPP-2009)  Program Committee (Programming Models, Languages and Compilers)

  • 2006年
    -
    2008年

    IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX--XI)  Program Committee Vice Chair

  • 2006年
    -
    2008年

    IPSJ ComSys  Program Committee

  • 2006年
    -
    2008年

    ComSys - コンピュータシステムシンポジウム  プログラム委員

  • 2007年
    -
     

    IPSJ DA Symposium  University Chair

  • 2007年
    -
     

    情報処理学会 DAシンポジウム  大学幹事

  • 2007年
    -
     

    IPSJ SACSIS  Program Committee Vice Chair

  • 2007年
    -
     

    SACSIS 先進的計算基盤システムシンポジウム  プログラム副委員長

  • 2006年
    -
     

    IPSJ SACSIS , 2008--2013  Program Committee

  • 2006年
    -
     

    SACSIS , 2008--2013 - 先進的計算基盤システムシンポジウム  プログラム委員

  • 2003年
    -
    2006年

    並列/分散/協調処理に関するサマーワークショップ(SWoPP)  実行委員

  • 2001年04月
    -
    2005年03月

    情報処理学会 システムソフトウェアとオペレーティング・システム研究会  運営委員

  • 2001年04月
    -
    2005年03月

    情報処理学会 学会誌  編集委員 BWG, (最終年度主査)

  • 2004年
    -
     

    SACSIS 先進的計算基盤システムシンポジウム  会計委員長・プログラム委員

▼全件表示