2022/12/08 更新

写真a

キムラ シンジ
木村 晋二
Scopus 論文情報  
論文数: 0  Citation: 0  h-index: 11

Citation Countは当該年に発表した論文の被引用数

所属
理工学術院 大学院情報生産システム研究科
職名
教授

他学部・他研究科等兼任情報

  • 理工学術院   大学院基幹理工学研究科

  • 理工学術院   基幹理工学部

学内研究所・附属機関兼任歴

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴

  •  
    -
    1985年

    京都大学   工学研究科   博士課程  

  •  
    -
    1985年

    京都大学   工学研究科   博士課程  

  •  
    -
    1984年

    京都大学   工学研究科   情報工学専攻  

  •  
    -
    1984年

    京都大学   工学研究科   情報工学専攻  

  •  
    -
    1982年

    京都大学   工学部   情報工学専攻  

学位

  • 京都大学   工学博士

経歴

  • 2002年
    -
    継続中

    早稲田大学教授

  • 1993年
    -
    2002年

    奈良先端科学技術大学院大学 助教授

  • 1985年
    -
    1993年

    神戸大学工学部 助手

所属学協会

  •  
     
     

    ACM

  •  
     
     

    情報処理学会

  •  
     
     

    電子情報通信学会

  •  
     
     

    IEEE

  •  
     
     

    情報処理学会

  •  
     
     

    第14回複合情報技術の合成とシステム統合に関するワークショップ

  •  
     
     

    第15回複合情報技術の合成とシステム統合に関するワークショップ

  •  
     
     

    アジアおよび南太平洋設計自動化会議

  •  
     
     

    電子情報通信学会 VLSI 設計技術委員会

  •  
     
     

    アジアおよび南太平洋設計自動化会議

  •  
     
     

    情報処理学会

  •  
     
     

    計算機遠洋設計に関する国際会議

  •  
     
     

    アジアおよび南太平洋設計自動化会議

▼全件表示

 

研究分野

  • 電子デバイス、電子機器

  • 計算機システム

研究キーワード

  • 計算機ハードウェアの設計と検証、設計自動化、ハードウエア設計、電子デバイス・集積回路、回路設計・CAD

論文

  • Accuracy-Configurable Low-Power Approximate Floating-Point Multiplier Based on Mantissa Bit Segmentation.

    Jie Li, Yi Guo, Shinji Kimura

    2020 IEEE Region 10 Conference(TENCON)     1311 - 1316  2020年

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Approximate FPGA-Based Multipliers Using Carry-Inexact Elementary Modules.

    Yi Guo, Heming Sun, Ping Lei, Shinji Kimura

    IEICE Trans. Fundam. Electron. Commun. Comput. Sci.   103-A ( 9 ) 1054 - 1062  2020年

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Small-Area and Low-Power FPGA-Based Multipliers using Approximate Elementary Modules.

    Yi Guo, Heming Sun, Shinji Kimura

    Proc. of ASP-DAC 2020     599 - 604  2020年  [査読有り]

    DOI

    Scopus

    7
    被引用数
    (Scopus)
  • Energy-Efficient and High-Speed Approximate Signed Multipliers with Sign-Focused Compressors.

    Yi Guo, Heming Sun, Shinji Kimura

    Proc. of 2019 32nd IEEE International System-on-Chip Conference (SOCC)     330 - 335  2019年  [査読有り]

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Approximate Multiplier Using Reordered 4-2 Compressor with OR-based Error Compensation.

    Yufeng Xu, Yi Guo, Shinji Kimura

    Proc. of 2019 IEEE 13th International Conference on ASIC (ASICON)     1 - 4  2019年  [査読有り]

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Approximate DCT Design for Video Encoding Based on Novel Truncation Scheme.

    Heming Sun, Zhengxue Cheng, Amir Masoud Gharehbaghi, Shinji Kimura, Masahiro Fujita

    IEEE Trans. Circuits Syst. I Regul. Pap.   66-I ( 4 ) 1517 - 1530  2019年  [査読有り]

    DOI

    Scopus

    21
    被引用数
    (Scopus)
  • Design of Low-Cost Approximate Multipliers Based on Probability-Driven Inexact Compressors.

    Yi Guo, Heming Sun, Ping Lei, Shinji Kimura

    IEICE Trans. Fundam. Electron. Commun. Comput. Sci.   102-A ( 12 ) 1781 - 1791  2019年  [査読有り]

    DOI

    Scopus

  • Design of Power and Area Efficient Lower-Part-OR Approximate Multiplier.

    Yi Guo, Heming Sun, Shinji Kimura

    TENCON 2018 - 2018 IEEE Region 10 Conference(TENCON)     2110 - 2115  2018年  [査読有り]

    DOI

    Scopus

    9
    被引用数
    (Scopus)
  • Energy-Efficient and High Performance Approximate Multiplier Using Compressors Based on Input Reordering.

    Zhenhao Liu, Yi Guo, Xiaoting Sun, Shinji Kimura

    TENCON 2018 - 2018 IEEE Region 10 Conference(TENCON)     545 - 550  2018年  [査読有り]

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Sparseness Ratio Allocation and Neuron Re-pruning for Neural Networks Compression.

    Li Guo 0006, Dajiang Zhou, Jinjia Zhou, Shinji Kimura

    IEEE International Symposium on Circuits and Systems(ISCAS)     1 - 5  2018年  [査読有り]

    DOI

    Scopus

  • Embedded Frame Compression for Energy-Efficient Computer Vision Systems.

    Li Guo 0006, Dajiang Zhou, Jinjia Zhou, Shinji Kimura

    IEEE International Symposium on Circuits and Systems(ISCAS)     1 - 5  2018年  [査読有り]

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • A Radix-4 Partial Product Generation-Based Approximate Multiplier for High-speed and Low-power Digital Signal Processing.

    Xiaoting Sun, Yi Guo, Zhenhao Liu, Shinji Kimura

    25th IEEE International Conference on Electronics, Circuits and Systems(ICECS)     777 - 780  2018年  [査読有り]

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Sparse ternary connect: Convolutional neural networks using ternarized weights with enhanced sparsity.

    Canran Jin, Heming Sun, Shinji Kimura

    23rd Asia and South Pacific Design Automation Conference(ASP-DAC)     190 - 195  2018年  [査読有り]

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Quad-multiplier packing based on customized floating point for convolutional neural networks on FPGA.

    Zhifeng Zhang, Dajiang Zhou, Shihao Wang, Shinji Kimura

    23rd Asia and South Pacific Design Automation Conference(ASP-DAC)     184 - 189  2018年  [査読有り]

    DOI

    Scopus

    5
    被引用数
    (Scopus)
  • Low-Cost Approximate Multiplier Design using Probability-Driven Inexact Compressors.

    Yi Guo, Heming Sun, Li Guo 0006, Shinji Kimura

    2018 IEEE Asia Pacific Conference on Circuits and Systems(APCCAS)     291 - 294  2018年  [査読有り]

    DOI

    Scopus

    21
    被引用数
    (Scopus)
  • Towards Ultrasound Everywhere: A Portable 3D Digital Back-End Capable of Zone and Compound Imaging.

    Aya Ibrahim, Shuping Zhang, Federico Angiolini, Marcel Arditi, Shinji Kimura, Satoshi Goto, Jean-Philippe Thiran, Giovanni De Micheli

    IEEE Trans. Biomed. Circuits Syst.   12 ( 5 ) 968 - 981  2018年  [査読有り]

    DOI

    Scopus

    8
    被引用数
    (Scopus)
  • Lossy Compression for Embedded Computer Vision Systems.

    Li Guo 0006, Dajiang Zhou, Jinjia Zhou, Shinji Kimura, Satoshi Goto

    IEEE Access   6   39385 - 39397  2018年  [査読有り]

    DOI

    Scopus

    11
    被引用数
    (Scopus)
  • A Variable-Clock-Cycle-Path VLSI Design of Binary Arithmetic Decoder for H.265/HEVC.

    Jinjia Zhou, Dajiang Zhou, Shuping Zhang, Shinji Kimura, Satoshi Goto

    IEEE Trans. Circuits Syst. Video Technol.   28 ( 2 ) 556 - 560  2018年

     概要を見る

    The next-generation 8K ultra-high-definition video format involves an extremely high bit rate, which imposes a high throughput requirement on the entropy decoder component of a video decoder. Context adaptive binary arithmetic coding (CABAC) is the entropy coding tool in the latest video coding standards including H.265/High Efficiency Video Coding and H.264/Advanced Video Coding. Due to critical data dependencies at the algorithm level, a CABAC decoder is difficult to be accelerated by simply leveraging parallelism and pipelining. This letter presents a new very-large-scale integration arithmetic decoder, which is the most critical bottleneck in CABAC decoding. Our design features a variable-clock-cycle-path architecture that exploits the differences in critical path delay and in probability of occurrence between various types of binary symbols (bins). The proposed design also incorporates a novel data-forwarding technique (rLPS forwarding) and a fast path-selection technique (coarse bin type decision), and is enhanced with the capability of processing additional bypass bins. As a result, its maximum throughput achieves 1010 Mbins/s in 90-nm CMOS, when decoding 0.96 bin per clock cycle at a maximum clock rate of 1053 MHz, which outperforms previous works by 19.1%.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Distortion control and optimization for lossy embedded compression in video codec system

    Li Guo, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E100A ( 11 ) 2416 - 2424  2017年11月

     概要を見る

    For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in lossy EC mostly focused on algorithm optimization to reduce distortion, this work, to the best of our knowledge, is the first one that addresses the distortion control. Firstly, from both theoretical analysis and experiments for distortion optimization, a conclusion is drawn that, at the frame level, allocating memory traffic evenly is a reliable approximation to the optimal solution to minimize quality loss. Then, to reduce the complexity of decoding twice, the distortion between two sequences is estimated by a linear function of that calculated within one sequence. Finally, on the basis of even allocation, the distortion control is proposed to determine the amount of memory traffic according to a given distortion limitation. With the adaptive target setting and estimating function updating in each group of pictures (GOP), the scene change in video stream is supported without adding a detector or retraining process. From experimental results, the proposed distortion control is able to accurately fix the quality loss to the target. Compared to the baseline of negative feedback on non-referred B frames, it achieves about twice memory traffic reduction.

    DOI

    Scopus

  • Fast Algorithm and VLSI Architecture of Rate Distortion Optimization in H.265/HEVC

    Heming Sun, Dajiang Zhou, Landan Hu, Shinji Kimura, Satoshi Goto

    IEEE TRANSACTIONS ON MULTIMEDIA   19 ( 11 ) 2375 - 2390  2017年11月  [査読有り]

     概要を見る

    In H.265/high efficiency video coding (HEVC) encoding, rate distortion optimization (RDO) is an important cost function for mode decision and coding structure decision. Despite being near-optimum in terms of coding efficiency, RDO suffers from a high complexity. To address this problem, this paper presents a fast RDO algorithm and its very large scale implementation (VLSI) for both intra-and inter-frame coding. The proposed algorithm employs a quantization-free framework that significantly reduces the complexity for rate and distortion optimization. Meanwhile, it maintains a low degradation of coding efficiency by taking the syntax element organization and probability model of HEVC into consideration. The algorithm is also designed with hardware architecture in mind to support an efficient VLSI implementation. When implemented in the HEVC test model, the proposed algorithm achieves 62% RDO time reduction with 1.85% coding efficiency loss for the "all-intra" configuration. The hardware implementation achieves 1.6 x higher normalized throughput relative to previous works, and it can support a throughput of 8k@30fps (for four fine-processed modes per prediction unit) with 256 k logic gates when working at 200 MHz.

    DOI

    Scopus

    12
    被引用数
    (Scopus)
  • Time-efficient and TSV-aware 3D gated clock tree synthesis based on self-tuning spectral clustering

    Fan Yang, Minghao Lin, Heming Sun, Shinji Kimura

    Midwest Symposium on Circuits and Systems   2017-   1200 - 1203  2017年09月

     概要を見る

    3D gated clock tree synthesis (CTS) mainly consists of three steps: 1) abstract clock topology generation
    2) layer embedding for minimal TSV allocation and 3) clock tree routing with gate and buffer insertion. In this paper, a self-tuning spectral clustering based nearest-neighbor selection (SSC-NNS) algorithm with parallel structure is proposed to achieve high time efficiency in clock tree topology generation, with reduced runtime. In addition, a postorder traversal based layer embedding (PTLE) strategy is adopted for determining the embedding layer of internal nodes with minimal TSVges. Experimental results show that the proposed method achieves 32% and 82% runtime reduction on ISPD2009 and IBM benchmarks respectively compared with the state-of-the-art 3D work. Besides, the TSV count is also reduced by 46% on ISPD2009 benchmarks.

    DOI

    Scopus

  • A low-cost approximate 32-point transform architecture

    Heming Sun, Zhengxue Cheng, Amir Masoud Gharehbaghi, Shinji Kimura, Masahiro Fujita

    Proceedings - IEEE International Symposium on Circuits and Systems    2017年09月

     概要を見る

    This paper presents an area-efficient approximate method for 32-point transform which is one of the most area-consuming parts in High Efficiency Video Coding (HEVC) applications. Compared to prior literatures, this work reduces the hardware cost of transform by 1) eliminating all the arithmetic operations of 6 least significant bits (LSB), 2) presenting a low-delay method for generating carry propagation from the remaining 5 LSBs and 3) truncating the most significant bits (MSB) according to the position of component. In the implementation of a 32-point forward transform, the experimental results show that 27% area consumption can be saved and the coding efficiency loss aroused by the approximation is only 0.044% compared with the origin.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Effective write-reduction method for MLC non-volatile memory

    Masashi Tawada, Shinji Kimura, Masao Yanagisawa, Nozomu Togawa

    Proceedings - IEEE International Symposium on Circuits and Systems    2017年09月

     概要を見る

    Recently, the requirement for non-volatile memory on embedded systems has increased because they can be applied with normally-off and power gating technologies to. However, they have a lower endurance than volatile memories. When data is encoded as a write-reduction code appropriately, the endurance of non-volatile memory can be enhanced by writing the encoded data into the memory. We propose a highly effective write-reduction method for a multi-level cell (MLC) non-volatile memory focusing on the write-reduction code (WRC) as the optimal bit-write reduction method. The WRC can be applied only to single-level cell non-volatile memory. The proposed method generates a cell-write reduction code based on the WRC
    the cell has multiple bits as the holdable data. Our proposed method achieves a cell-write reduction by 31.6% compared to the conventional method.

    DOI

    Scopus

  • A 7-Die 3D Stacked 3840 × 2160@120 fps motion estimation processor

    Zhang, Shuping, Zhou, Jinjia, Zhou, Dajiang, Kimura, Shinji, Goto, Satoshi

    IEICE Transactions on Electronics   E100C ( 3 ) 223 - 231  2017年03月

     概要を見る

    © 2017 The Institute of Electronics, Information and Communication Engineers. In this paper, a hamburger architecture with a 3D stacked reconfigurable memory is proposed for a 4K motion estimation (ME) processor. By positioning the memory dies on both the top and bottom sides of the processor die, the proposed hamburger architecture can reduce the usage of the signal through-silicon via (TSV), and balance the power delivery network and the clock tree of the entire system. It results in 1/3 reduction of the usage of signal TSVs. Moreover, a stacked reconfigurable memory architecture is proposed to reduce the fabrication complexity and further reduce the number of signal TSVs by more than 1/2. The reduction of signal TSVs in the entire design is 71.24%. Finally, we address unique issues that occur in electronic design automation (EDA) tools during 3D largescale integration (LSI) designs. As a result, a 4K ME processor with 7-die stacking 3D system-on-chip design is implemented. The proposed design can support real time 3840 × 2160 @ 120 fps encoding at 130 MHz with less than 540 mW.

    DOI

    Scopus

  • Accelerating HEVC inter prediction with improved merge mode handling

    Cheng, Zhengxue, Cheng, Zhengxue, Sun, Heming, Zhou, Dajiang, Kimura, Shinji

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E100A ( 2 ) 546 - 554  2017年02月

     概要を見る

    © 2017 The Institute of Electronics, Information and Communication Engineers. High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality at the cost of high computational complexity. Merge mode is one of the most important new features introduced in HEVC's inter prediction. Merge mode and traditional inter mode consume about 90% of the total encoding time. To address this high complexity, this paper utilizes the merge mode to accelerate inter prediction by four strategies. 1) A merge candidate decision is proposed by the sum of absolute transformed difference (SATD) cost. 2) An early merge termination is presented with more than 90% accuracy. 3) Due to the compensation effect of merge candidates, symmetric motion partition (SMP) mode is disabled for non-8×8 coding units (CUs). 4) A fast coding unit filtering strategy is proposed to reduce the number of CUs which need to be fine-processed. Experimental results demonstrate that our fast strategies can achieve 35.4%-58.7% time reduction with 0.68%-1.96% BD-rate increment in RA case. Compared with similar works, the proposed strategies are not only among the best performing in average-case complexity reduction, but also notably outperforming in the worst cases.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Development of TOF-PET using Compton scattering by plastic scintillators

    Kuramoto, M, Nakamori, T, Kimura, S, Gunji, S, Takakura, M, Kataoka, J

    Nuclear Instruments and Methods in Physics Research, Section A: Accelerators, Spectrometers, Detectors and Associated Equipment   845   668 - 672  2017年02月

     概要を見る

    © 2016 Elsevier B.V. We propose a time-of-flight (TOF) technique using plastic scintillators which have fast decay time of a few ns for positron emission tomography (PET). While the photoelectric absorption probability of the plastic for 511 keV gamma rays are extremely low due to its small density and effective atomic number, the cross section of Compton scattering is comparable to that of absorption by conventional inorganic scintillators. We thus propose TOF-PET using Compton scattering with plastic scintillators (Compton-PET), and performed fundamental experiments towards exploration of the Compton-PET capability. We demonstrated that the plastic scintillators achieved the better time resolution in comparison to LYSO(Ce) and GAGG(Ce) scintillators. In addition we evaluated the depth-of-interaction resolving capability with the plastic scintillators.

    DOI

  • Distortion Control and Optimization for Lossy Embedded Compression in Video Codec System

    GUO Li, ZHOU Dajiang, KIMURA Shinji, GOTO Satoshi

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   100 ( 11 ) 2416 - 2424  2017年

     概要を見る

    <p>For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in lossy EC mostly focused on algorithm optimization to reduce distortion, this work, to the best of our knowledge, is the first one that addresses the distortion control. Firstly, from both theoretical analysis and experiments for distortion optimization, a conclusion is drawn that, at the frame level, allocating memory traffic evenly is a reliable approximation to the optimal solution to minimize quality loss. Then, to reduce the complexity of decoding twice, the distortion between two sequences is estimated by a linear function of that calculated within one sequence. Finally, on the basis of even allocation, the distortion control is proposed to determine the amount of memory traffic according to a given distortion limitation. With the adaptive target setting and estimating function updating in each group of pictures (GOP), the scene change in video stream is supported without adding a detector or retraining process. From experimental results, the proposed distortion control is able to accurately fix the quality loss to the target. Compared to the baseline of negative feedback on non-referred B frames, it achieves about twice memory traffic reduction.</p>

    CiNii

  • A 7-Die 3D Stacked 3840×2160@120 fps Motion Estimation Processor

    ZHANG Shuping, ZHOU Jinjia, ZHOU Dajiang, KIMURA Shinji, GOTO Satoshi

    IEICE Transactions on Electronics   100-C ( 3 ) 223 - 231  2017年  [査読有り]

     概要を見る

    <p>In this paper, a hamburger architecture with a 3D stacked reconfigurable memory is proposed for a 4K motion estimation (ME) processor. By positioning the memory dies on both the top and bottom sides of the processor die, the proposed hamburger architecture can reduce the usage of the signal through-silicon via (TSV), and balance the power delivery network and the clock tree of the entire system. It results in 1/3 reduction of the usage of signal TSVs. Moreover, a stacked reconfigurable memory architecture is proposed to reduce the fabrication complexity and further reduce the number of signal TSVs by more than 1/2. The reduction of signal TSVs in the entire design is 71.24%. Finally, we address unique issues that occur in electronic design automation (EDA) tools during 3D large-scale integration (LSI) designs. As a result, a 4K ME processor with 7-die stacking 3D system-on-chip design is implemented. The proposed design can support real time 3840 × 2160 @ 120 fps encoding at 130 MHz with less than 540 mW.</p>

    DOI CiNii

    Scopus

  • Accelerating HEVC Inter Prediction with Improved Merge Mode Handling.

    Zhengxue Cheng, Heming Sun, Dajiang Zhou, Shinji Kimura

    IEICE Trans. Fundam. Electron. Commun. Comput. Sci.   100-A ( 2 ) 546 - 554  2017年  [査読有り]

     概要を見る

    High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality at the cost of high computational complexity. Merge mode is one of the most important new features introduced in HEVC's inter prediction. Merge mode and traditional inter mode consume about 90% of the total encoding time. To address this high complexity, this paper utilizes the merge mode to accelerate inter prediction by four strategies. 1) A merge candidate decision is proposed by the sum of absolute transformed difference (SATD) cost. 2) An early merge termination is presented with more than 90% accuracy. 3) Due to the compensation effect of merge candidates, symmetric motion partition (SMP) mode is disabled for non-8x8 coding units (CUs). 4) A fast coding unit filtering strategy is proposed to reduce the number of CUs which need to be fine-processed. Experimental results demonstrate that our fast strategies can achieve 35.4%-58.7% time reduction with 0.68%-1.96% BD-rate increment in RA case. Compared with similar works, the proposed strategies are not only among the best performing in average-case complexity reduction, but also notably outperforming in the worst cases.

    DOI CiNii

    Scopus

    4
    被引用数
    (Scopus)
  • An 8K H.265/HEVC Video Decoder Chip With a New System Pipeline Design.

    Dajiang Zhou, Shihao Wang, Heming Sun, Jian-Bin Zhou, Jiayi Zhu, Yijin Zhao, Jinjia Zhou, Shuping Zhang, Shinji Kimura, Takeshi Yoshimura, Satoshi Goto

    J. Solid-State Circuits   52 ( 1 ) 113 - 126  2017年  [査読有り]

     概要を見る

    8K ultra-HD is being promoted as the next-generation video specification. While the High Efficiency Video Coding (HEVC) standard greatly enhances the feasibility of 8K with a doubled compression ratio, its implementation is a challenge, owing to ultrahigh-throughput requirements and increased complexity per pixel. The latter comes from the new features of HEVC. At the system level, the most challenging of them is the enlarged and highly variable-size coding/prediction/transform units, which significantly increase the requirement for on-chip memory as pipeline buffers and the difficulty in maintaining pipeline utilization. This paper presents an HEVC decoder chip featuring a system pipeline that works at a nonunified and variable granularity. The pipeline saves on-chip memory with a novel block-in-block-out queue system and a parameter delivery network, while allowing overhead-free and fully pipelined operation of the processing components. With the system pipeline design combined with various component-level optimizations, the proposed decoder in 40 nm achieves a maximum throughput of 4 Gpixels/s or 8K 120 frames/s for the low-delay-P configuration of HEVC, 7.5-55 times faster than prior works. It supports 8K 60 frames/s for the low-delay and random-access configurations. In a normalized comparison, it also shows 3.1-3.6 times better area efficiency and 31%-55% superior energy efficiency.

    DOI

    Scopus

    20
    被引用数
    (Scopus)
  • A low-power VLSI architecture for HEVC de-quantization and inverse transform

    Sun, Heming, Zhou, Dajiang, Zhang, Shuping, Kimura, Shinji

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E99A ( 12 ) 2375 - 2387  2016年12月

     概要を見る

    Copyright © 2016 The Institute of Electronics, Information and Communication Engineers.In this paper, we present a low-power system for the de- quantization and inverse transform of HEVC. Firstly, we present a low-delay circuit to process the coded results of the syntax elements, and then reduce the number of multipliers from 16 to 4 for the de-quantization process of each 4x4 block. Secondly, we give two efficient data mapping schemes for the memory between de-quantization and inverse transform, and the memory for transpose. Thirdly, the zero information is utilized through the whole system. For two memory parts, the write and read operation of zero blocks/ rows/ coefficients can all be skipped to save the power consumption. The results show that up to 86% power consumption can be saved for the memory part under the configuration of "Random-access" and common QPs. For the logical part, the proposed architecture for de-quantization can reduce 77% area consumption. Overall, our system can support real-time coding for 8K x 4K 120 fps video sequences and the normalized area consumption can be reduced by 68% compared with the latest work.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • A Low-Power VLSI Architecture for HEVC De-Quantization and Inverse Transform

    Heming Sun, Dajiang Zhou, Shuping Zhang, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E99A ( 12 ) 2375 - 2387  2016年12月  [査読有り]

     概要を見る

    In this paper, we present a low-power system for the de-quantization and inverse transform of HEVC. Firstly, we present a low-delay circuit to process the coded results of the syntax elements, and then reduce the number of multipliers from 16 to 4 for the de-quantization process of each 4x4 block. Secondly, we give two efficient data mapping schemes for the memory between de-quantization and inverse transform, and the memory for transpose. Thirdly, the zero information is utilized through the whole system. For two memory parts, the write and read operation of zero blocks/ rows/ coefficients can all be skipped to save the power consumption. The results show that up to 86% power consumption can be saved for the memory part under the configuration of Random-access and common QPs. For the logical part, the proposed architecture for de-quantization can reduce 77% area consumption. Overall, our system can support real-time coding for 8K x 4K 120fps video sequences and the normalized area consumption can be reduced by 68% compared with the latest work.

    DOI CiNii

    Scopus

    1
    被引用数
    (Scopus)
  • Merge mode based fast inter prediction for HEVC

    Zhengxue Cheng, Heming Sun, Dajiang Zhou, Shinji Kimura

    2015 Visual Communications and Image Processing, VCIP 2015    2016年04月

     概要を見る

    The latest High Efficiency Video Coding (HEVC/H.265) obtains 50% bit rate reduction than H.264/AVC standard with comparable quality, but at the cost of high computational complexity. Inter prediction accounts for large complexity and merge mode is one of the most important new features introduced in HEVC. To address this issue, this paper utilizes the merge mode to accelerate inter prediction by three fast mode decision methods. 1) A merge candidate decision is proposed to select the best merge mode by Sum of Absolute Transformed Difference (SATD) cost to reduce the merge time. 2) An early merge termination is presented still based on SATD cost with more than 90% accuracy. 3) Based on efficient merge mode, symmetric motion partition (SMP) modes can be disabled for non-8 × 8 code units (CUs). Experimental results demonstrate that our work can achieve 53.1%-54.2% time reduction on average with 1.57%-2.30% BD-rate increment. Besides, our method achieves an improvement of 18%-30% time reduction with 0.89%-2.85% BD-rate increment when combined with other existing approaches.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • A-6-3 金属原子移動型スイッチFPGAの再構成時における配線スイッチの書き換え削減(A-6.VLSI設計技術,一般セッション)

    青木 晃平, 柳澤 政生, 木村 晋二

    電子情報通信学会基礎・境界ソサイエティ/NOLTAソサイエティ大会講演論文集   2016   77 - 77  2016年03月

    CiNii

  • A 4Gpixel/s 8/10b H.265/HEVC Video Decoder Chip for 8K Ultra HD Applications

    Dajiang Zhou, Shihao Wang, Heming Sun, Jianbin Zhou, Jiayi Zhu, Yijin Zhao, Jinjia Zhou, Shuping Zhang, Shinji Kimura, Takeshi Yoshimura, Satoshi Goto

    2016 IEEE INTERNATIONAL SOLID-STATE CIRCUITS CONFERENCE (ISSCC)   59   266 - U369  2016年  [査読有り]

     概要を見る

    © 2016 IEEE.8K Ultra HD is being promoted as the next-generation digital video format. From a communication channel perspective, the latest high-efficiency video coding standard (H.265/HEVC) greatly enhances the feasibility of 8K by doubling the compression ratio. Implementation of such codecs is a challenge, owing to ultra-high throughput requirements and increased complexity per pixel. The former corresponds to up to 10b/pixel, 7680×4320pixels/frame and 120fps - 80× larger than 1080p HD. The latter comes from the new features of HEVC relative to its predecessor H.264/AVC. The most challenging of them is the enlarged and highly variable-size coding/prediction/transform units (CU/PU/TU), which significantly increase: 1) the requirement for on-chip memory as pipeline buffers, 2) the difficulty in maintianing pipeline utilization, and 3) the complexity of inverse transforms (IT). This paper presents an HEVC decoder chip supporting 8K Ultra HD, featuring a 16pixel/cycle true-variable-block-size system pipeline. The pipeline: 1) saves on-chip memory with a novel block-in-block-out (BIBO) queue system and a parameter delivery network, and 2) allows high design efficiency and utilization of processing components through local synchronization. Key optimizations at the component level are also presented.

    DOI

    Scopus

    23
    被引用数
    (Scopus)
  • FRAME-LEVEL QUALITY AND MEMORY TRAFFIC ALLOCATION FOR LOSSY EMBEDDED COMPRESSION IN VIDEO CODEC SYSTEMS

    Li Guo, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO WORKSHOPS (ICMEW)    2016年  [査読有り]

     概要を見る

    For mobile video codecs, the huge energy dissipation for external memory traffic is a critical challenge under the battery power constraint. Lossy embedded compression (EC), as a solution to this challenge, is considered in this paper. While previous studies in EC mostly focused on compression algorithms at the block level, this work, to the best of our knowledge, is the fIrst one that addresses the allocation of video quality and memory traffic at the frame level. For lossy EC, a main difficulty of its application lies in the error propagation from quality degradation of reference frames. Instinctively, it is preferred to perform more lossy EC in non-reference frames to minimize the quality loss. The analysis and experiments in this paper, however, will show lossy EC should actually be distributed to more frames. Correspondingly, for hierarchical-B GOPs, we developed an efficient allocation that outperforms the non-reference-only allocation by up to 4.5 dB in PSNR. In comparison, the proposed allocation also delivers more consistent quality between frames by having lower PSNR fluctuation.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Power-Efficient and Slew-Aware Three Dimensional Gated Clock Tree Synthesis

    Minghao Lin, Heming Sun, Shinji Kimura

    2016 IFIP/IEEE INTERNATIONAL CONFERENCE ON VERY LARGE SCALE INTEGRATION (VLSI-SOC)    2016年  [査読有り]

     概要を見る

    This paper presents a three dimensional (3D) gated clock tree synthesis (CTS) approach, which consists of two steps: 1) abstract tree topology generation; and 2) 3D gated and buffered clock routing. 3D Pair Matching (3D-PM) algorithm is proposed to generate the initial tree topology and then the proposed TSV-minimization algorithm is applied to generate TSV-aware tree topology. Based on TSV-aware tree topology, 3D gated and buffered clock tree routing is done using the proposed 3D Gated and Buffered Deferred-Merge Embedding (3D-GB-DME) algorithm. The slew constraint satisfaction is considered and the clock skew is minimized in our approach. Experimental results show that the proposed method achieves 29.11% power reduction compared with the state-of-the-art 2D work.

    DOI

    Scopus

    7
    被引用数
    (Scopus)
  • CNN-MERP: An FPGA-Based Memory-Efficient Reconfigurable Processor for Forward and Backward Propagation of Convolutional Neural Networks

    Xushen Han, Dajiang Zhou, Shihao Wang, Shinji Kimura

    PROCEEDINGS OF THE 34TH IEEE INTERNATIONAL CONFERENCE ON COMPUTER DESIGN (ICCD)     320 - 327  2016年  [査読有り]

     概要を見る

    Large-scale deep convolutional neural networks (CNNs) are widely used in machine learning applications. While CNNs involve huge complexity, VLSI (ASIC and FPGA) chips that deliver high-density integration of computational resources are regarded as a promising platform for CNN's implementation. At massive parallelism of computational units, however, the external memory bandwidth, which is constrained by the pin count of the VLSI chip, becomes the system bottleneck. Moreover, VLSI solutions are usually regarded as a lack of the flexibility to be reconfigured for the various parameters of CNNs. This paper presents CNN-MERP to address these issues. CNN-MERP incorporates an efficient memory hierarchy that significantly reduces the bandwidth requirements from multiple optimizations including on/offchip data allocation, data flow optimization and data reuse. The proposed 2-level reconfigurability is utilized to enable fast and efficient reconfiguration, which is based on the control logic and the multiboot feature of FPGA. As a result, an external memory bandwidth requirement of 1.94MB/GFlop is achieved, which is 55% lower than prior arts. Under limited DRAM bandwidth, a system throughput of 1244GFlop/s is achieved at the Vertex UltraScale platform, which is 5.48 times higher than the state-of-the-art FPGA implementations.

    DOI

    Scopus

    32
    被引用数
    (Scopus)
  • Optimization of Area and Power in Multi-Mode Power Gating Scheme for Static Memory Elements

    Xing Su, Shinji Kimura

    2016 IEEE ASIA PACIFIC CONFERENCE ON CIRCUITS AND SYSTEMS (APCCAS)     214 - 217  2016年  [査読有り]

     概要を見る

    This paper presents an optimization method of area and power for static memory elements by using multi-mode power gating (MMPG) scheme. A 2-transistor MMPG scheme replaces the usual 5-transistor one to effectively reduce on chip area overhead and leakage power, simultaneously combining trimming circuits (TC) to guarantee the safety of data retention. When applying the proposed approach into clean/dirty-cache (CD-cache), we can reduce area overhead and leakage power consumption. The simulation results show that the area overhead of SRAM with the proposed approach is reduced from 33.4% to 21.8% compared to that of SRAM with usual MMPG. On the other hand, leakage power is reduced by 12.35% compared to SRAM with usual MMPG and by 86.77% compared to SRAM without power gating scheme. Moreover, the ability of noise immunity of SRAM with proposed approach can also be improved.

    DOI

    Scopus

  • ECC-Based Bit-Write Reduction Code Generation for Non-Volatile Memory

    Masashi Tawada, Shinji Kimura, Masao Yanagisawa, Nozomu Togawa

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E98A ( 12 ) 2494 - 2504  2015年12月  [査読有り]

     概要を見る

    Non-volatile memory has many advantages such as high density and low leakage power but it consumes larger writing energy than SRAM. It is quite necessary to reduce writing energy in non-volatile memory design. In this paper, we propose write-reduction codes based on error correcting codes and reduce writing energy in non-volatile memory by decreasing the number of writing bits. When a data is written into a memory cell, we do not write it directly but encode it into a codeword. In our write-reduction codes, every data corresponds to an information vector in an error-correcting code and an information vector corresponds not to a single codeword but a set of write-reduction codewords. Given a writing data and current memory bits, we can deterministically select a particular write-reduction codeword corresponding to the data to be written, where the maximum number of flipped bits are theoretically minimized. Then the number of writing bits into memory cells will also be minimized. Experimental results demonstrate that we have achieved writing-bits reduction by an average of 51% and energy reduction by an average of 33% compared to non-encoded memory.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • An independent bandwidth reduction device for HEVC VLSI video system

    Jiayi Zhu, Li Guo, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    Proceedings - IEEE International Symposium on Circuits and Systems   2015-   609 - 612  2015年07月  [査読有り]

     概要を見る

    FRC (frame re-compression) is a kind of widely used technique in reducing the SDRAM (synchronous dynamic random access memory) bandwidth of HEVC video system. However, in previous research works, FRC imposes requirements on accessing pattern and hence its usage are only limited in HEVC video codecs. While in a typical HEVC VLSI video system, there exists many other video IPs with high bandwidth requirements. Therefore, in this article, we propose a new FRC architecture to overcome the limitation and make it applicable to all the video IPs in a HEVC VLSI video system, which raises the overall bandwidth reduction rate of the whole video system. Our proposal has two points: firstly we propose a system internal bus based FRC architecture, which is independent, transparent, and easily connected to all other video IPs. Secondly, we propose a FA (freely access) scheme to remove the requirements on access pattern in previous work. By using this proposal, the bandwidth reduction rate in our VLSI video system model is raised from 92.4% to 69.6%.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Low-Power Motion Estimation Processor with 3D Stacked Memory

    Shuping Zhang, Jinjia Zhou, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E98A ( 7 ) 1431 - 1441  2015年07月  [査読有り]

     概要を見る

    Motion estimation (ME) is a key encoding component of almost all modern video coding standards. ME contributes significantly to video coding efficiency, but, it also consumes the most power of any component in a video encoder. In this paper, an ME processor with 3D stacked memory architecture is proposed to reduce memory and core power consumption. First, a memory die is designed and stacked with ME die. By adding face-to-face (F2F) pads and through-silicon-via (TSV) definitions, 2D electronic design automation (EDA) tools can be extended to support the proposed 3D stacking architecture. Moreover, a special memory controller is applied to control data transmission and timing between the memory die and the ME processor die. Finally, a 3D physical design is completed for the entire system. This design includes TSV/F2F placement, floor plan optimization, and power network generation. Compared to 2D technology, the number of input/output (IO) pins is reduced by 77%. After optimizing the floor plan of the processor die and memory die, the routing wire lengths are reduced by 13.4% and 50%, respectively. The stacking static random access memory contributes the most power reduction in this work. The simulation results show that the design can support real-time 720p @ 60 fps encoding at 8MHz using less than 65mW in power, which is much better compared to the state-of-the-art ME processor.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • 順序回路の時間展開に基づくクロックゲーティング制御信号抽出手法

    後藤 智哉, 樋口 耕平, 柳澤 政生, 木村 晋二

    情報処理学会研究報告. SLDM, [システムLSI設計技術]   2015 ( 6 ) 1 - 6  2015年05月

     概要を見る

    近年 LSI の動的電力を削減する手法としてクロックゲ-ティングが利用されている.クロックゲーティングは商用ツールによる自動挿入が可能だが,制御信号はデザイナーが指定したそのままであり,クロックの停止条件の最適性は保証されない.また,各 1 ビットレジスタの現在の出力と新しい値が異なる場合にのみクロックを与えるという手法もあるが,1 ビット単位で XOR によるクロックゲーティング制御を行うと電力がかえって大きくなることも知られている.そこで近年,各レジスタの現在の出力と新しい値が異なるという条件を回路内部から抽出,生成しクロックゲーティング制御信号の判定に用いる手法の研究が盛んである.しかしこれまでは現在の信号のみを制御信号の候補とした手法が提案されていた.本研究では,既存手法である SAT 判定を用いたクロックゲーティング信号抽出手法を拡張し,順序回路の時間展開を行うことでより多くの制御信号候補を自動抽出する手法を提案する.これにより複数クロック過去の信号を候補として利用可能となり,順序的クロックゲーティングの自動化が実現される.提案手法を ISCAS'89 ベンチマーク回路に適用し,複数の回路で制御信号候補の増加を確認した.

    CiNii

  • A Bit-Write Reduction Method based on Error-Correcting Codes for Non-Volatile Memories

    Masashi Tawada, Shinji Kimura, Masao Yanagisawa, Nozomu Togawa

    2015 20TH ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE (ASP-DAC)     496 - 501  2015年  [査読有り]

     概要を見る

    Non-volatile memory has many advantages over SRAM. However, one of its largest problems is that it consumes a large amount of energy in writing. In this paper, we propose a bit-write reduction method based on error correcting codes for non-volatile memories. When a data is written into a memory cell, we do not write it directly but encode it into a codeword. We focus on error-correcting codes and generate new codes called write-reduction codes. In our write-reduction codes, each data corresponds to an information vector in an error-correcting code and an information vector corresponds not to a single codeword but a set of write-reduction codewords. Given a writing data and current memory bits, we can deterministically select a particular write-reduction codeword corresponding to a data to be written, where the maximum number of flipped bits are theoretically minimized. Then the number of writing bits into memory cells will also be minimized. We perform several experimental evaluations and demonstrate up to 72% energy reduction.

  • ECC-Based Bit-Write Reduction Code Generation for Non-Volatile Memory

    TAWADA Masashi, KIMURA Shinji, YANAGISAWA Masao, TOGAWA Nozomu

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   98 ( 12 ) 2494 - 2504  2015年

     概要を見る

    Non-volatile memory has many advantages such as high density and low leakage power but it consumes larger writing energy than SRAM. It is quite necessary to reduce writing energy in non-volatile memory design. In this paper, we propose write-reduction codes based on error correcting codes and reduce writing energy in non-volatile memory by decreasing the number of writing bits. When a data is written into a memory cell, we do not write it directly but encode it into a codeword. In our write-reduction codes, every data corresponds to an information vector in an error-correcting code and an information vector corresponds not to a single codeword but a set of write-reduction codewords. Given a writing data and current memory bits, we can deterministically select a particular write-reduction codeword corresponding to the data to be written, where the maximum number of flipped bits are theoretically minimized. Then the number of writing bits into memory cells will also be minimized. Experimental results demonstrate that we have achieved writing-bits reduction by an average of 51% and energy reduction by an average of 33% compared to non-encoded memory.

    CiNii

  • Low-Power Motion Estimation Processor with 3D Stacked Memory

    ZHANG Shuping, ZHOU Jinjia, ZHOU Dajiang, KIMURA Shinji, GOTO Satoshi

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   98 ( 7 ) 1431 - 1441  2015年

     概要を見る

    Motion estimation (ME) is a key encoding component of almost all modern video coding standards. ME contributes significantly to video coding efficiency, but, it also consumes the most power of any component in a video encoder. In this paper, an ME processor with 3D stacked memory architecture is proposed to reduce memory and core power consumption. First, a memory die is designed and stacked with ME die. By adding face-to-face (F2F) pads and through-silicon-via (TSV) definitions, 2D electronic design automation (EDA) tools can be extended to support the proposed 3D stacking architecture. Moreover, a special memory controller is applied to control data transmission and timing between the memory die and the ME processor die. Finally, a 3D physical design is completed for the entire system. This design includes TSV/F2F placement, floor plan optimization, and power network generation. Compared to 2D technology, the number of input/output (IO) pins is reduced by 77%. After optimizing the floor plan of the processor die and memory die, the routing wire lengths are reduced by 13.4% and 50%, respectively. The stacking static random access memory contributes the most power reduction in this work. The simulation results show that the design can support real-time 720p @ 60fps encoding at 8MHz using less than 65mW in power, which is much better compared to the state-of-the-art ME processor.

    CiNii

  • HARDWARE-ORIENTED RATE-DISTORTION OPTIMIZATION ALGORITHM FOR HEVC INTRA-FRAME ENCODER

    Landan Hu, Heming Sun, Dajiang Zhou, Shinji Kimura

    2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW)    2015年  [査読有り]

     概要を見る

    Digital video is widely used in the mobile applications, where video compression technology is necessary to store or transmit the videos. High Efficiency Video Coding (HEVC) achieves the highest compression ratio while it costs huge computational complexity, in which rate-distortion (RD) cost calculation takes the majority. This paper presents a low-complexity RD estimation method for HEVC intra prediction by the following schemes. 1) The transformed coefficients rather than quantized coefficients are used to do the RD estimation. 2) For the rate part, the position after the last non-zero quantized coefficient is considered to improve the accuracy of estimation, and a header-bit estimation method is presented to save about 82% complexity on header bits calculation. 3) For the distortion part, the scaling parameter of quantization is modified to the exponential of two so that the bit depth of multiplication can be reduced from 15 to 5 in the worst case. 4) In transform unit 4x4, we consider transform skip mode which is neglect in the prior research. Our proposal could achieve 72.22% time reduction of rate-distortion optimization (RDO) compared with original HEVC Test Model while the BD-rate is only 1.76%.

    DOI

    Scopus

    5
    被引用数
    (Scopus)
  • Fast SAO Estimation Algorithm and Its Implementation for 8 K x 4 K @ 120 FPS HEVC Encoding

    Jiayi Zhu, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E97A ( 12 ) 2488 - 2497  2014年12月  [査読有り]

     概要を見る

    High efficiency video coding (HEVC) is the new generation video compression standard. Sample adaptive offset (SAO) is a new compression tool adopted in HEVC which reduces the distortion between original samples and reconstructed samples. SAO estimation is the process of determining SAO parameters in video encoding. It is divided into two phases: statistic collection and parameters determination. There are two difficulties for VLSI implementation of SAO estimation. The first is that there are huge amount of samples to deal with in statistic collection phase. The other is that the complexity of Rate Distortion Optimization (RDO) in parameters determination phase is very high. In this article, a fast SAO estimation algorithm and its corresponding VLSI architecture are proposed. For the first difficulty, we use bitmaps to collect statistics of all the 16 samples in one 4 x 4 block simultaneously. For the second difficulty, we simplify a series of complicated procedures in HM to balance the algorithms complexity and BD-rate performance. Experimental results show that the proposed algorithm maintains the picture quality improvement. The VLSI design based on this algorithm can be implemented using 156.32 K gates, 8,832 bits single port RAM for 8 bits depth case. It can be synthesized to 400 MHz @ 65 nm technology and is capable of 8 K x 4 K @ 120 fps encoding.

    DOI

    Scopus

    5
    被引用数
    (Scopus)
  • 不揮発メモリの書き込み削減手法のための小面積なエンコーダ/デコーダ回路構成(設計手法(2),デザインガイア2014-VLSI設計の新しい大地-)

    多和田 雅師, 木村 晋二, 柳澤 政生, 戸川 望

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   114 ( 328 ) 227 - 232  2014年11月

     概要を見る

    不揮発メモリはリーク電力が非常に小さい,電源が落ちていても情報を保持できるといった性質から次世代メモリとして注目されている.一方で不揮発メモリには書き込みエネルギーが大きい,書き換え回数に上限があるという問題がある.書き込みエネルギーの削減とウェアレベリングを行う手法としてビットレベルでの書き込み削減手法が存在する.ハミング符号より生成した冗長符号を用いてメモリに保存する値を符号化して書き込む手法が提案されている.従来手法の回路構成では符号化のためのエンコーダ,デコーダの規模が大きくなる欠点がある.本稿では書き込み削減手法に適した符号構成を行うことでエンコーダ,デコーダの面積を小さくする手法を提案する.メモリに保存したいビットシーケンスをエンコードせずにエンコード後のベクトルとみなしても書き込みに必要な情報が得られる.メモリに保存されているベクトルを誤り訂正すると,デコードせずにシンドロームが元のビットシーケンスが持つ情報と一致する.その結果,小面積のエンコーダ,デコーダが構成できる.提案手法によりエンコーダとデコーダを設計した結果,従来手法と比較して面積が削減されることを確認する.

    CiNii

  • Fast SAO estimation algorithm and its VLSI architecture

    Jiayi Zhu, Dajiang Zhou, Shinji Kimura, Satoshi Goto

    2014 IEEE International Conference on Image Processing, ICIP 2014     1278 - 1282  2014年01月  [査読有り]

     概要を見る

    SAO estimation is the process of determining SAO parameters in video encoding. There are two difficulties for VLSI implementation of SAO estimation. The first is that there are huge amount of samples to deal with in statistic collection phase. The other is that the complexity of RDO in parameters determination phase is very high. In this article, a fast SAO estimation algorithm and its corresponding VLSI architecture are proposed. For the first difficulty, we use bitmaps to collect statistic of all the 16 samples in one 4×4 block simultaneously. For the second difficulty, we simplify a series of complicated procedures in HM to balance the complexity and BD-rate performance. Experimental results show that the proposed algorithm maintains the picture quality improvement. The VLSI design based on this algorithm can be implemented by 156.32K gates, 8832 bits SPRAM, 400MHz @ 65nm technology and is capable of 8Kx4K @ 120fps encoding.

    DOI

    Scopus

    11
    被引用数
    (Scopus)
  • AN AREA-EFFICIENT 4/8/16/32-POINT INVERSE DCT ARCHITECTURE FOR UHDTV HEVC DECODER

    Heming Sun, Dajiang Zhou, Jiayi Zhu, Shinji Kimura, Satoshi Goto

    2014 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING CONFERENCE     197 - 200  2014年  [査読有り]

     概要を見る

    This paper presents a new VLSI architecture for HEVC inverse discrete cosine transform (IDCT). Compared to prior arts, this work reduces hardware cost by 1) reducing computational logic of 1-D IDCTs with a reordered parallel-in serial-out (RPISO) scheme that shares the inputs of the butterfly structure, and 2) reducing the area of the transpose buffer with a cyclic memory organization that achieves 100% I/O utilization of the SRAMs. In the implementation of a unified 4/8/16/32-point IDCT, the proposed schemes demonstrate 35% and 62% reduction of logic and memory costs, respectively. The IDCT implementation can support real-time decoding of 4Kx2K 60fps video with a total hardware cost of 357,250um(2) on 2-D IDCT and 80,988um(2) on transpose memory in 90nm process.

  • Fast SAO Estimation Algorithm and Its Implementation for 8K×4K @ 120 FPS HEVC Encoding

    ZHU Jiayi, ZHOU Dajiang, KIMURA Shinji, GOTO Satoshi

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   97 ( 12 ) 2488 - 2497  2014年

     概要を見る

    High efficiency video coding (HEVC) is the new generation video compression standard. Sample adaptive offset (SAO) is a new compression tool adopted in HEVC which reduces the distortion between original samples and reconstructed samples. SAO estimation is the process of determining SAO parameters in video encoding. It is divided into two phases: statistic collection and parameters determination. There are two difficulties for VLSI implementation of SAO estimation. The first is that there are huge amount of samples to deal with in statistic collection phase. The other is that the complexity of Rate Distortion Optimization (RDO) in parameters determination phase is very high. In this article, a fast SAO estimation algorithm and its corresponding VLSI architecture are proposed. For the first difficulty, we use bitmaps to collect statistics of all the 16 samples in one 4×4 block simultaneously. For the second difficulty, we simplify a series of complicated procedures in HM to balance the algorithms complexity and BD-rate performance. Experimental results show that the proposed algorithm maintains the picture quality improvement. The VLSI design based on this algorithm can be implemented using 156.32K gates, 8,832bits single port RAM for 8bits depth case. It can be synthesized to 400MHz @ 65nm technology and is capable of 8K×4K @ 120fps encoding.

    CiNii

  • 差分を用いた不揮発メモリの書込み回数削減による低電力回路設計(性能・製造性考慮手法,FPGA応用及び一般)

    篠原 寛行, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 416 ) 167 - 172  2014年01月

     概要を見る

    LSIの低消費電力化のために,モジュール毎の細やかな電源オフは欠かせない.それと同時に,電源復帰後も動作の継続性を保つために現在の状態を保持する必要がある.そこで,電源オフでもデータの保持が可能な次世代不揮発メモリが注目されている.不揮発メモリにより,細粒度で電源をオフにすることができ,リーク電力を中心とする電力削減が望める.しかし不揮発メモリにはCMoSのメモリ素子と比べて10倍程度大きい書き込みエネルギーの問題があり,書き込みの削減が不揮発メモリを活用する上での重要な課題である.本稿では,無線センサ端末などでの消費電力の削減に向けて,差分データを用いた不揮発素子の書き込み削減による消費電力削減手法を提案する.データを二つの変数の和(元のデータと差分)で記憶し,新しい入力に変更する際に二つの変数の冗長性を用いて変化ビット数を最小化する.この手法を実現するハードウェアを設計し,気温及び湿度の測定データに対して適用して評価したところ,24%の書き込み回数削減と,約11%の消費電力削減を達成した.

    CiNii

  • Dual-Stage Pseudo Power Gating with Advanced Clustering Algorithm for Gate Level Power Optimization

    Yu Jin, Zhe Du, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E96A ( 12 ) 2568 - 2575  2013年12月  [査読有り]

     概要を見る

    Pseudo Power Gating (Pseudo PG) is one of gate level power reduction methods for combinational circuits by stopping unnecessary input changes of gates. In Pseudo PG, an extra control signal might be added to a gate and other input changes of the gate are deactivated when the control signal takes the controlling value. To improve the power reduction capability, the paper newly introduces dual-stage Pseudo PG with advanced clustering algorithm where up to two extra control signals are added to a gate if effective. The advanced clustering algorithm selects the first control signal to be compatible with the second control signal based on the propagation of controlling condition via a path, with which candidates of controllable gates excluded by the maximum depth constraint can be controlled. Experimental results show that the proposed dual-stage Pseudo PG method has obtained 23.23% average power reduction with 5.28% delay penalty with respect to the original circuits, and has obtained 10.46% more power reduction with 2.75% delay penalty compared with respect to circuits applying the original single-stage Pseudo PG.

    DOI

    Scopus

  • 書込み電力最小カット部探索とそれを用いた不揮発論理回路の低電力化(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

    糸井 優大, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 320 ) 147 - 152  2013年11月

     概要を見る

    近年,磁気トンネル結合を用いた次世代不揮発メモリ/レジスタが注目されている.これらは,電源遮断時でも記憶を保持でき,CMOS素子と集積できかつ高速動作が可能である.これらを用いることで,状態の退避をケアすることなく,細粒度なLSIの電源管理が可能となる.しかし,不揮発素子は通常メモリ素子に比べて書込み電力が10倍程度大きく,不要な書込みを制限することが必要不可欠である.我々はこれまでに,状態保存レジスタの不揮発化における書込み削減のため,元のレジスタの位置とは異なる場所に状態保存レジスタを挿入する手法を提案した.よりスイッチング確率が小さい位置に状態保存レジスタを配置することにより,元の場所に配置する場合に比べて書込み頻度を削減できる.スイッチング確率最小位置の探索には,最大フロー最小カット定理を用いたカット探索を利用する.本稿では,カットの探索時に,スイッチング確率だけでなく状態保存や復帰のために必要となる付加回路のオーバーヘッドについても考慮することでトータルの消費電力を最小化する手法について述べる.さらに,本手法をISCAS89ベンチマーク回路5個に適用し,論理合成後の電力評価を行った.その結果,元のレジスタの位置に不揮発レジスタを入れるのと比べて,2.6%-15.1%(平均8.34%)の電力削減が得られることを示した.

    CiNii

  • 不揮発メモリを対象とした書き込み削減手法のエネルギー評価(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

    多和田 雅師, 木村 晋二, 柳澤 政生, 戸川 望

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 320 ) 141 - 146  2013年11月

     概要を見る

    近年の高集積化に伴い消費電力全体に対するリーク電力の割合が高まっている.不揮発メモリはリーク電力をほとんど消費しないため次世代のメモリとして期待されている.不揮発メモリは通常のメモリより書き込み時に電力を消費する問題がある.不揮発メモリの書き込み電力を低減するためには,書き込みビット数を削減する手法が考えられる.メモリの値をある値から違う値へ書き換えるとき,実際に保存する値を符号化することで,本来書き換えるビット数よりも実際に書き込むビット数を少なくすることができる.本稿では不揮発メモリを対象とした書き込みビット数削減手法のエネルギーを評価する.

    CiNii

  • 書込み電力最小カット部探索とそれを用いた不揮発論理回路の低電力化(低消費電力技術,デザインガイア2013-VLSI設計の新しい大地-)

    糸井 優大, 木村 晋二

    電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング   113 ( 321 ) 147 - 152  2013年11月

     概要を見る

    近年,磁気トンネル結合を用いた次世代不揮発メモリ/レジスタが注目されている.これらは,電源遮断時でも記憶を保持でき,CMOS素子と集積できかつ高速動作が可能である.これらを用いることで,状態の退避をケアすることなく,細粒度なLSIの電源管理が可能となる.しかし,不揮発素子は通常メモリ素子に比べて書込み電力が10倍程度大きく,不要な書込みを制限することが必要不可欠である.我々はこれまでに,状態保存レジスタの不揮発化における書込み削減のため,元のレジスタの位置とは異なる場所に状態保存レジスタを挿入する手法を提案した.よりスイッチング確率が小さい位置に状態保存レジスタを配置することにより,元の場所に配置する場合に比べて書込み頻度を削減できる.スイッチング確率最小位置の探索には,最大フロー最小カット定理を用いたカット探索を利用する.本稿では,カットの探索時に,スイッチング確率だけでなく状態保存や復帰のために必要となる付加回路のオーバーヘッドについても考慮することでトータルの消費電力を最小化する手法について述べる.さらに,本手法をISCAS89ベンチマーク回路5個に適用し,論理合成後の電力評価を行った.その結果,元のレジスタの位置に不揮発レジスタを入れるのと比べて,2.6%-15.1%(平均8.34%)の電力削減が得られることを示した.

    CiNii

  • Energy Consumption Evaluation for Two-Level Cache with Non-Volatile Memory Targeting Mobile Processors

    Shota Matsuno, Masashi Tawada, Masao Yanagisawa, Shinji Kimura, Tadahiko Sugibayashi, Nozomu Togawa

    IEEK Transactions on Smart Processing and Computing   Vol. 2 ( No. 4 ) 226 - 239  2013年08月

  • フィルタ向け定数乗算のメモリベース実現による低電力化(システムと信号処理及び一般)

    樺沢 皓介, 杉林 直彦, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 119 ) 101 - 106  2013年07月

     概要を見る

    音声や画像のデジタル信号処理では,入力に定数を掛けて総和を取る形態のデジタルフィルタが多く用いられる.ここではそのような定数乗算に対し,メモリ量と論理のトレードオフを考慮し,高速かつ低電力なメモリベース定数乗算の実現法を提案する.メモリの読出し時の消費電力は,読み出す内容に無関係に一定であり,論理ゲートで構成した乗算回路の各ゲートの出力トグルによる電力を低減できる.入力分割を用いてbit数の少ない乗算結果のみメモリに記憶し,その結果を加算して最終結果を得ることで,直接的な1メモリ実現に比べて,メモリ量の大幅な削減を達成している.本手法に基づく8bitの定数乗算回路を ASICで実現し,電力削減効果を確認した.

    CiNii

  • 最大ハミング距離を制限した符号とこれを用いた不揮発メモリの書き込み削減手法(システムと信号処理及び一般)

    多和田 雅師, 木村 晋二, 柳澤 政生, 戸川 望

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 119 ) 95 - 100  2013年07月

     概要を見る

    近年の高集積化に伴い消費電力全体に対するリーク電力の割合が高まっている.不揮発メモリはリーク電力をほとんど消費しないため次世代のメモリとして期待されている.不揮発メモリは通常のメモリより書き込み時に電力を消費する問題がある.不揮発メモリの書き込み電力を低減するためには,書き込みビット数を削減する手法が考えられる.メモリの値をある値から違う値へ書き換えるとき,実際に保存する値を符号化することで,本来書き換えるビット数よりも実際に書き込むビット数を少なくすることができる.最大ハミング距離を制限した符号により,書き込みビット数を削減する手法を提案する.符号間の最大ハミング距離を制限する符号を生成し,一回の値の書き込みで反転するビット数を制限することで書き込みビット数を削減する.

    CiNii

  • IL1およびIL2キャッシュに不揮発メモリを利用した二階層キャッシュにおける消費エネルギーの評価(システムと信号処理及び一般)

    松野 翔太, 多和田 雅師, 柳澤 政生, 木村 晋二, 戸川 望, 杉林 直彦

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   113 ( 119 ) 89 - 94  2013年07月

     概要を見る

    オンチップ・メモリによく利用されるSRAMは,高速かつ動作電力が低いが,微細化とともに構造に起因するリーク電力が増大し,無視できなくなってきた.一方,不揮発メモリはリーク電力が小さいという特性を持つ.さらに電源をOFFにしても記憶内容が保持されるため,ノーマリオフへの活用が期待されている.しかし,書き込みエネルギーが大きいなどの欠点がある.本稿では,二階層キャッシュの一部に不揮発メモリを利用したときに,書き込みエネルギーが大きいという欠点があっても,消費エネルギーが削減できることを確認した.

    CiNii

  • Write Control Method for Nonvolatile Flip-Flops Based on State Transition Analysis

    Naoya Okada, Yuichi Nakamura, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E96A ( 6 ) 1264 - 1272  2013年06月  [査読有り]

     概要を見る

    Nonvolatile flip-flop enables leakage power reduction in logic circuits and quick return from standby mode. However, it has limited write endurance, and its power consumption for writing is larger than that of conventional D flip-flop (DFF). For this reason, it is important to reduce the number of write operations. The write operations can be reduced by stopping the clock signal to synchronous flip-flops because write operations are executed only when the clock is applied to the flip-flops. In such clock gating, a method using Exclusive OR (XOR) of the current value and the new value as the control signal is well known. The XOR based method is effective, but there are several cases where the write operations can be reduced even if the current value and the new value are different. The paper proposes a method to detect such unnecessary write operations based on state transition analysis, and proposes a write control method to save power consumption of nonvolatile flip-flops. In the method, redundant bits are detected to reduce the number of write operations. If the next state and the outputs do not depend on some current bit, the bit is redundant and not necessary to write. The method is based on Binary Decision Diagram (BDD) calculation. We construct write control circuits to stop the clock signal by converting BDDs representing a set of states where write operations are unnecessary. Proposed method can be combined with the XOR based method and reduce the total write operations. We apply combined method to some benchmark circuits and estimate the power consumption with Synopsys NanoSim. On average, 15.0% power consumption can be reduced compared with only the XOR based method.

    DOI

    Scopus

  • Write Control Method for Nonvolatile Flip-Flops Based on State Transition Analysis

    Naoya Okada, Yuichi Nakamura, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E96A ( 6 ) 1264 - 1272  2013年06月  [査読有り]

     概要を見る

    Nonvolatile flip-flop enables leakage power reduction in logic circuits and quick return from standby mode. However, it has limited write endurance, and its power consumption for writing is larger than that of conventional D flip-flop (DFF). For this reason, it is important to reduce the number of write operations. The write operations can be reduced by stopping the clock signal to synchronous flip-flops because write operations are executed only when the clock is applied to the flip-flops. In such clock gating, a method using Exclusive OR (XOR) of the current value and the new value as the control signal is well known. The XOR based method is effective, but there are several cases where the write operations can be reduced even if the current value and the new value are different. The paper proposes a method to detect such unnecessary write operations based on state transition analysis, and proposes a write control method to save power consumption of nonvolatile flip-flops. In the method, redundant bits are detected to reduce the number of write operations. If the next state and the outputs do not depend on some current bit, the bit is redundant and not necessary to write. The method is based on Binary Decision Diagram (BDD) calculation. We construct write control circuits to stop the clock signal by converting BDDs representing a set of states where write operations are unnecessary. Proposed method can be combined with the XOR based method and reduce the total write operations. We apply combined method to some benchmark circuits and estimate the power consumption with Synopsys NanoSim. On average, 15.0% power consumption can be reduced compared with only the XOR based method.

    DOI

    Scopus

  • A-3-7 差分を用いた不揮発メモリの書き込み回数削減(A-3.VLSI設計技術)

    篠原 寛行, 柳澤 政夫, 木村 晋二

    電子情報通信学会総合大会講演論文集   2013   67 - 67  2013年03月

    CiNii

  • Controlling-value-based power gating considering controllability propagation and power-off probability

    Zhe Du, Yu Jin, Shinji Kimura

    Proceedings of International Conference on ASIC    2013年  [査読有り]

     概要を見る

    Power gating technology is useful in reducing standby leakage current. Controlling value based power gating is a fine-grained power gating approach using the controlling value of logic elements. However, power saving capability suffers from the steady maximum depth constraint, which prohibits the power gating assignment when the control of a gate increases the critical path length. To increase power savings, this paper proposes a power gating control extraction method based on controllability propagation and power-off probability. Multiple power domains can be clustered by a smaller depth signal with the controllability propagation. Experimental results show that 21.4% power reduction can be obtained in average, achieving 8.5% improvement compared with previous algorithm. © 2013 IEEE.

    DOI

    Scopus

  • Energy Evaluation for Two-level On-chip Cache with Non-Volatile Memory on Mobile Processors

    Shota Matsuno, Masashi Tawada, Masao Yanagisawa, Shinji Kimura, Nozomu Togawa, Tadahiko Sugibayashi

    2013 IEEE 10TH INTERNATIONAL CONFERENCE ON ASIC (ASICON)    2013年  [査読有り]

     概要を見る

    As leakage power of traditional SRAM becomes larger, a ratio of static energy in total energy of memory architecture becomes also larger. Non-volatile memory (NVM) has many advantages over SRAM, such as high density, low leakage power, and non-volatility, but consumes too much write energy. In this paper, we evaluate energy consumption of two-level cache using NVM in part on mobile processors and confirm that it effectively reduces energy consumption.

  • An exact approach for gpc-based compressor tree synthesis

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E96-A ( 12 ) 2553 - 2560  2013年

     概要を見る

    Multi-operand adders that calculate the summation of more than two operands usually consist of compressor trees, which reduce the number of operands to two without any carry propagation, and carry-propagate adders for the two operands in the ASIC implementation. Compressor trees that consist of full adders and half adders cannot be implemented efficiently on LUT-based FPGAs, and carry-chains or dedicated structures have been utilized to produce multi-operand adders on FPGAs. Recent studies indicate that compressor trees can be implemented efficiently on LUTs using Generalized Parallel Counters (GPCs) as the building blocks of compressor trees. This paper addresses the problem of synthesizing compressor trees based on GPCs. Based on the observation that characteristics such as the area, power, and delay correlate roughly to the total number and the maximum level of GPCs, the target problem can be regarded as a minimization problem for the total number of GPCs and the maximum levels of the GPCs, for which an ILP-based approach is proposed. The key point of our formulation is not to model the problem based on the structures of compressor trees like the existing approach, but instead the compression process itself is used to reduce the number of variables and constraints in the ILP formulation. The experimental results demonstrate the advantage of our formulation in terms of the quality and runtime.Copyright © 2013 The Institute of Electronics, Information and Communication Engineers.

    DOI

    Scopus

    12
    被引用数
    (Scopus)
  • An exact approach for gpc-based compressor tree synthesis

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E96-A ( 12 ) 2553 - 2560  2013年

     概要を見る

    Multi-operand adders that calculate the summation of more than two operands usually consist of compressor trees, which reduce the number of operands to two without any carry propagation, and carry-propagate adders for the two operands in the ASIC implementation. Compressor trees that consist of full adders and half adders cannot be implemented efficiently on LUT-based FPGAs, and carry-chains or dedicated structures have been utilized to produce multi-operand adders on FPGAs. Recent studies indicate that compressor trees can be implemented efficiently on LUTs using Generalized Parallel Counters (GPCs) as the building blocks of compressor trees. This paper addresses the problem of synthesizing compressor trees based on GPCs. Based on the observation that characteristics such as the area, power, and delay correlate roughly to the total number and the maximum level of GPCs, the target problem can be regarded as a minimization problem for the total number of GPCs and the maximum levels of the GPCs, for which an ILP-based approach is proposed. The key point of our formulation is not to model the problem based on the structures of compressor trees like the existing approach, but instead the compression process itself is used to reduce the number of variables and constraints in the ILP formulation. The experimental results demonstrate the advantage of our formulation in terms of the quality and runtime.Copyright © 2013 The Institute of Electronics, Information and Communication Engineers.

    DOI

    Scopus

    12
    被引用数
    (Scopus)
  • On Gate Level Power Optimization of Combinational Circuits Using Pseudo Power Gating

    Yu Jin, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E95A ( 12 ) 2191 - 2198  2012年12月  [査読有り]

     概要を見る

    In recent years, the demand for low-power design has remained undiminished. In this paper, a pseudo power gating (SPG) structure using a normal logic cell is proposed to extend the power gating to an ultrafine grained region at the gate level. In the proposed method, the controlling value of a logic element is used to control the switching activity of modules computing other inputs of the element. For each element, there exists a submodule controlled by an input to the element. Power reduction is maximized by controlling the order of the submodule selection. A basic algorithm and a switching activity first algorithm have been developed to optimize the power. In this application, a steady maximum depth constraint is added to prevent the depth increase caused by the insertion of the control signal. In this work, various factors affecting the power consumption of library level circuits with the SPG are determined. In such factors, the occurrence of glitches increases the power consumption and a method to reduce the occurrence of glitches is proposed by considering the parity of inverters. The proposed SPG method was evaluated through the simulation of the netlist extracted from the layout using the VDEC Rohm 0.18 mu m process. Experiments on ISCAS'85 benchmarks show that the reduction in total power consumption achieved is 13% on average with a 2.5% circuit delay degradation. Finally, the effectiveness of the proposed method under different primary input statistics is considered.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • 最大フロー最小カット定理を用いた不揮発レジスタの書込み削減

    糸井 優大, 木村 晋二

    電子情報通信学会技術研究報告. ICD, 集積回路   112 ( 247 ) 101 - 106  2012年10月

    CiNii

  • Automatic Multi-Stage Clock Gating Optimization Using ILP Formulation

    Xin Man, Takashi Horiyama, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E95A ( 8 ) 1347 - 1358  2012年08月  [査読有り]

     概要を見る

    Clock gating is supported by commercial tools as a power optimization feature based on the guard signal described in HDL (structural method). However, the identification of control signals for gated registers is hard and designer-intensive work. Besides, since the clock gating cells also consume power, it is imperative to minimize the number of inserted clock gating cells and their switching activities for power optimization. In this paper, we propose an automatic multi-stage clock gating algorithm with ILP (Integer Linear Programming) formulation, including clock gating control candidate extraction, constraints construction and optimum control signal selection. By multi-stage clock gating, unnecessary clock pulses to clock gating cells can be avoided by other clock gating cells, so that the switching activity of clock gating cells can be reduced. We find that any multi-stage control signals are also single-stage control signals, and any combination of signals can be selected from single-stage candidates. The proposed method can be applied to 3 or more cascaded stages. The multi-stage clock gating optimization problem is formulated as constraints in LP format for the selection of cascaded clock-gating order of multi-stage candidate combinations, and a commercial ILP solver (IBM CPLEX) is applied to obtain the control signals for each register with minimum switching activity. Those signals are used to generate a gate level description with guarded registers from original design, and a commercial synthesis and layout tools are applied to obtain the circuit with multi-stage clock gating. For a set of benchmark circuits and a Low Density Parity Check (LDPC) Decoder (6.6k gates, 212 F.F.s), the proposed method is applied and actual power consumption is estimated using Synopsys NanoSim after layout. On average, 31% actual power reduction has been obtained compared with original designs with structural clock gating, and more than 10% improvement has been achieved for some circuits compared with single-stage optimization method. CPU time for optimum multi-stage control selection is several seconds for up to 25k variables in LP format. By applying the proposed clock gating, area can also be reduced since the multiplexors controlling register inputs are eliminated.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • On gate level power optimization of combinational circuits using pseudo power gating

    Yu Jin, Shinji Kimura

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E95-A ( 12 ) 2191 - 2198  2012年

     概要を見る

    In recent years, the demand for low-power design has remained undiminished. In this paper, a pseudo power gating (SPG) structure using a normal logic cell is proposed to extend the power gating to an ultrafine grained region at the gate level. In the proposed method, the controlling value of a logic element is used to control the switching activity of modules computing other inputs of the element. For each element, there exists a submodule controlled by an input to the element. Power reduction is maximized by controlling the order of the submodule selection. A basic algorithm and a switching activity first algorithm have been developed to optimize the power. In this application, a steady maximum depth constraint is added to prevent the depth increase caused by the insertion of the control signal. In this work, various factors affecting the power consumption of library level circuits with the SPG are determined. In such factors, the occurrence of glitches increases the power consumption and a method to reduce the occurrence of glitches is proposed by considering the parity of inverters. The proposed SPG method was evaluated through the simulation of the netlist extracted from the layout using the VDEC Rohm 0.18 μm process. Experiments on ISCAS'85 benchmarks show that the reduction in total power consumption achieved is 13% on average with a 2.5% circuit delay degradation. Finally, the effectiveness of the proposed method under different primary input statistics is considered. Copyright © 2012 The Institute of Electronics, Information and Communication Engineers.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Multi-Operand Adder Synthesis Targeting FPGAs

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E94A ( 12 ) 2579 - 2586  2011年12月  [査読有り]

     概要を見る

    Multi-operand adders, which calculates the summation of more than two operands, usually consist of compressor trees which reduce the number of operands to two without any carry propagation, and a carry-propagate adder for the two operands in ASIC implementation. The former part is usually realized using full adders or (3;2) counters like Wallace-trees in ASIC, while adder trees or dedicated hardware are used in FPGA. In this paper, an approach to realize compression trees on FPGAs is proposed. In case of FPGA with m-input LUT, any counters with up to m inputs can be realized with one LUT per an output. Our approach utilizes generalized parallel counters (GPCs) with up to m inputs and synthesizes high-performance compressor trees by setting some intermediate height limits in the compression process like Dadda's multipliers. Experimental results show that the number of GPCs are reduced by up to 22% compared to the existing heuristic. Its effectivity on reduction of delay is also shown against existing approaches on Altera's Stratix III.

    DOI

    Scopus

    11
    被引用数
    (Scopus)
  • Multi-Stage Power Gating Based on Controlling Values of Logic Gates

    Yu Jin, Shinji Kimura

    Proc. IEEE International Symposium on ASIC (ASICON)     87 - 90  2011年10月

  • Low Power LSI Design Methods Based on Gating Technology

    Shinji Kimura

    Keynote Speech of IEEE International Conference on ASIC (ASICON)    2011年10月

  • High-parallel LDPC decoder with power gating design

    Ying Cui, Xiao Peng, Yu Jin, Peilin Liu, Shinji Kimura, Satoshi Goto

    Proceedings of International Conference on ASIC     21 - 24  2011年  [査読有り]

     概要を見る

    Leakage power is growing comparable to dynamic power dissipation as a result of technology trends, and thus it has become an important issue in low-power circuit design. As a popular technique for standby power reduction, power gating is applied to high-parallel LDPC decoder for WiMAX standard. The clustered-block processing engine (CBPE) array are divided into 9 power domains, and they are switched on or off according to different code lengths of LDPC code defined in WiMAX standard. As CBPE array occupies about 70% of the decoder system, the dedicated power gating strategy is very effective in shorter code length case since more power domains can be switched off. At shortest code length, power gating design brings about 55% power reduction compared to that of longest code length. © 2011 IEEE.

    DOI

    Scopus

  • Power and delay aware synthesis of multi-operand adders targeting LUT-based FPGAs

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    Proceedings of the International Symposium on Low Power Electronics and Design     217 - 222  2011年

     概要を見る

    Recent researches have indicated that multi-operand addition on FPGAs can be efficiently realized as the architecture consisting of a compressor tree which reduces the number of operands and a carry-propagate adder like ASIC by utilizing generalized parallel counters(GPCs). This paper addresses power and delay aware synthesis of GPC-based compressor trees. Based on the observation that dynamic power would correlate to the number of GPCs and the levels of GPCs, our approach targets to minimize the maximum levels and the total number of GPCs, and an ILP-based algorithm and heuristic approaches are proposed. Several experiments targeting Altera Stratix III architecture show that the proposed approach reduced the delay by up to 20% under a slight increase in total power dissipation. © 2011 IEEE.

    DOI

    Scopus

    14
    被引用数
    (Scopus)
  • Comparison of Optimized Multi-Stage Clock Gating with Structural Gating Approach

    Xin Man, Shinji Kimura

    2011 IEEE REGION 10 CONFERENCE TENCON 2011     651 - 656  2011年  [査読有り]

     概要を見る

    Clock gating is a power efficient technique by switching off unnecessary clock signals to the registers. The condition under which the registers can be safely gated is checked using EXOR of the current and the next state values. Due to the extra power consumed by clock gating logics consisting of a latch and an AND gate, we have proposed an optimum sharing method of gating controls based on BDD (Binary Decision Diagram) with single-stage clock gating for power optimization. In this paper, we enhance the optimization method including multi-stage clock gating and compare with structural gating approach. By multi-stage clock gating, the activities of both registers and clock gating logics can be reduced. On a set of interface circuits, we have obtained power reduction by 14.1% on average compared with single-stage structural method and by 10.8% compared with multi-stage structural gating approach. Our BDD based method is also fast and scalable by candidates pruning.

  • Power Optimization of Sequential Circuits Using Switching Activity Based Clock Gating

    Xin Man, Takashi Horiyama, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E93A ( 12 ) 2472 - 2480  2010年12月  [査読有り]

     概要を見る

    Clock gating is the insertion of control signal for registers to switch off unnecessary clock signals selectively without violating the functional correctness of the original design so as to reduce the dynamic power consumption Commercial EDA tools usually have a mechanism to generate clock gating logic based on the structural method where the con trol signals specified by designers are used and the effectiveness of the clock gating depends on the specified control signals In the research we focus on the automatic clock gating logic generation and propose a method based on the candidate extraction and control signal selection We formalize the control signal selection using linear formulae and devise an optimization method based on BDD The method is effective for circuits with a lot of shared candidates by different registers The method is applied to counter circuits to check the co relation with power simulation results and a set of benchmark circuits 19 1-71 9% power reduction has been found on counter circuitsafter layout and 2 3-18 0% cost reduction on benchmark circuits

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Acceleration of a SAT Based Solver for Minimum Cost Satisfiability Problems Us ing Optimized Boolean Constraint Propagation

    Xin Zhang, Peilin Liu, Shinji Kimura

    Proc. of 16th Workshop on Synthesis And System Integration of Mixed Information Technologies     365 - 370  2010年10月

  • The Sizing of Sleep Transistors In Controlling Value Based Power Gating

    Lei Chen, Shinji Kimura

    Proc. of 16th Workshop on Synthesis And System Integration of Mixed Information Technologies     202 - 207  2010年10月

  • 自動クロックゲーティング生成における電力最適化制御信号選択手法

    満 欣, 堀山 貴史, 木村 晋二

    研究報告システムLSI設計技術(SLDM)   2010 ( 1 ) 1 - 6  2010年05月

     概要を見る

    クロックゲーティングは、レジスタへのクロック供給を制御することで電力を削減する手法で、順序回路の動的電力削減に広く用いられている。これまでハードウェア記述言語における新しい値のレジスタへの代入条件を用いる手法や、状態遷移の解析からレジスタに代入する条件を抽出する手法などが知られているが、より効果的な自動化手法が求められていた。レジスタの現在の値と新しい値の EXOR がクロック停止確率最大となる信号であることが知られているが、個別にゲーティング回路を付加することは非効率で、共有が不可欠である。そこで本稿では、論理関数処理に基づき制御信号候補から最適なゲーティング回路の最適な共有を行う手法を提案する。本手法は二分決定グラフ (Binary Decision Diagram, BDD) を用いて実現され、カウンタや ISCAS 89 ベンチマーク回路で効果を確認した。カウンタでは 37% ~ 76% の電力削減が得られ、また ISCAS ベンチマーク回路では 2% ~ 18% の電力削減が確認できた。Clock gating is an effective technique to reduce dynamic power consumption for sequential circuits. There have been proposed clock gating generation methods using the condition specified by designers or the extracted condition by the analysis of state transitions. EXOR of the current value and the new value of a register is the control signal which can minimize the probability of clock supply to the register, but it is infeasible to add one clock gating logic for each register. In our research, we propose a method for automatic clock gating generation through control signal candidates extraction and power-optimal control signal selection based on the optimum sharing. The method is implemented based on BDD (Binary Decision Diagram). The method is applied to counters and ISCAS89 benchmark circuits. There have been found 37% ~ 76% power reductions on counter circuits and 2% ~ 18% power reduction on benchmark circuits.

    CiNii

  • Multi-Operand Adder Synthesis on FPGAs Using Generalized Parallel Counters

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    2010 15TH ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE (ASP-DAC 2010)     332 - +  2010年  [査読有り]

     概要を見る

    Multi-operand adders usually consist of compression trees which reduce the number of operands per a bit to two, and a carry-propagate adder for the two operands in ASIC implementation. The former part is usually realized using full adders or (3;2) counters like Wallace-trees in ASIC, while adder trees or dedicated hardware are used in FPGA. In this paper, an approach to realize compression trees on FPGAs is proposed. In case of FPGA with m-input LUT, any counters with up to m inputs can be realized with one LUT per an output. Our approach utilizes generalized parallel counters (GPCs) with up to m inputs and synthesizes high-performance compression trees by setting some intermediate height limits in the compression process like Dadda's multipliers. Experimental results show its effectiveness against existing approaches at GPC level and on Altera's Stratix III.

  • Optimizing Controlling-Value-Based Power Gating with Gate Count and Switching Activity

    Lei Chen, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E92A ( 12 ) 3111 - 3118  2009年12月  [査読有り]

     概要を見る

    In this paper. a new heuristic algorithm is proposed to optimize the power domain clustering in controlling-value-based (CV-based) power gating technology. In this algorithm, both the switching activity of sleep signals (p) and the overall numbers of sleep gates (gate count, N) are considered, and the sum of the product of p and N is optimized. The algorithm effectively exerts the total power reduction obtained from the CV-based power gating. Even when the maximum depth is kept to be the same, the proposed algorithm can still achieve power reduction approximately 10% more than that of the prior algorithms. Furthermore, detailed comparison between the proposed heuristic algorithm and other possible heuristic algorithms are also presented. HSPICE simulation results show that over 26% of total power reduction can be obtained by using the new heuristic algorithm. In addition, the effect of dynamic power reduction through the CV-based power gating method and the delay overhead caused by the switching of sleep transistors are also shown in this paper.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Framework for Parallel Prefix Adder Synthesis Considering Switching Activities

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    IPSJ Trans. SLDM     212 - 221  2009年08月

  • Finite Input-Memory Automaton Based Checker Synthesis of SystemVerilog Assertions for FPGA Prototyping

    Chengjie Zang, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E92A ( 6 ) 1454 - 1463  2009年06月  [査読有り]

     概要を見る

    Checker synthesis for assertion based verification becomes popular because of the recent progress on the FPGA prototyping environment. In the paper, we propose a checker synthesis method based on the finite input-memory automaton suitable for embedded RAM modules in FPGA. There are more than 1 Mbit memories in medium size FPGA's and such embedded memory cells have the capability to be used as the shift registers. The main idea is to construct a checker circuit using the finite input-memory automata and implement shift register chain by logic elements or embedded RAM modules. When using RAM module, the method does not consume any logic element for storing the value. Note that the shift register chain of input memory can be shared with different assertions and we can reduce the hardware resource significantly. We have checked the effectiveness of the proposed method using several assertions.

    DOI

    Scopus

  • Automatic pipeline generation for fpga-based prototyping

    W. Xing, K. Zheng, T. Kimura, S. Kuromaru, K. Kai, S. Kimura

    Proc. 15th Workshop on Synthesis And System Integration of Mixed Information technologies     155 - 160  2009年03月

  • Assertion checker synthesis for FPGA emulation

    C. Zang, Q. Wei, S. Kimura

    Proc. 15th Workshop on Synthesis And System Integration of Mixed Information technologies     149 - 154  2009年03月

  • Fine-Grained Power Gating Based on the Controlling Value of Logic Elements

    Lei Chen, Takashi Horiyama, Yuichi Nakamura, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E91A ( 12 ) 3531 - 3538  2008年12月  [査読有り]

     概要を見る

    Leakage power consumption of logic elements has become a serious problem, especially in the sub-100-nanometer process. In this paper, a novel power gating approach by using the controlling value of logic elements is proposed, In the proposed method, sleep signals of the power-gated blocks are extracted completely front the original circuits Without any extra logic element. A basic algorithm and it probability-based heuristic algorithm have been developed to implement the basic idea. The steady maximum delay constraint has also been introduced to handle the delay issues. Experiments on the ISCAS'85 benchmarks show that averagely 15-36% of logic elements could he power gated at a time for random input patterns, and 3-31% of elements could be stopped under the steady maximum delay constraints. we also show a power optimizition method for AND/OR tree circuits, in which more than 80% of gates can be power-gated.

    DOI

  • Efficient Hybrid Grid Synthesis Method Based on Genetic Algorithm for Power/Ground Network Optimization with Dynamic Signal Consideration

    Yun Yang, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E91A ( 12 ) 3431 - 3442  2008年12月  [査読有り]

     概要を見る

    This paper proposes all efficient design algorithm for power/ground (P/G) network synthesis with dynamic signal consideration, which is mainly caused by Ldi/dt noise and Cdv/dt decoupling capacitance (DE-CAP) Current in the distribution network. To deal with the nonlinear global optimization under synthesis constraints directly, the genetic algorithm (GA) is introduced. The proposed GA-based synthesis method call avoid the linear transformation loss and the restraint condition complexity in current SLP, SQP, ICG, and random-walk methods. In the proposed Hybrid Grid Synthesis algorithm, the dynamic signal is simulated in the gene disturbance process, and Trapezoidal Modified Euler (TME) method is introduced to realize the precise dynamic time step process. We also use a hybrid-SLP method to reduce the genetic execute time and increase the network synthesis efficiency. Experimental results on given power distribution network show the reduction on layout area and execution time compared with current P/G network synthesis methods.

    DOI

  • FPGA prototyping of a simultaneous multithreading processor

    C. Zang, S. Imai, S. Kimur

    Proc. 21th Workshop on Circuits and Systems in Karuizaw     219 - 224  2008年04月

  • The Optimal Architecture Design of Two-Dimensional Matrix Multiplication

    Y. Yang, S. Kimura

    IEICE Trans. Fundamentals   E91-A ( 4 ) 1101 - 1111  2008年04月

  • Issue mechanism for embedded Simultaneous Multithreading processor

    Chengjie Zang, Shigeki Imai, Steven Frank, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E91A ( 4 ) 1092 - 1100  2008年04月  [査読有り]

     概要を見る

    Simultaneous Multithreading (SMT) technology enhances instruction throughput by issuing multiple instructions from multiple threads within one clock cycle. For in-order pipeline to each thread, SMT processors can provide large number of issued instructions close to or surpass than using out-of-order pipeline. In this work, we show an efficient issue logic for predicated instruction sequence with the parallel flag in each instruction, where the predicate register based issue control is adopted and the continuous instructions with the parallel flag of V are executed in parallel. The flag is pre-defined by a compiler. Instructions from different threads are issued based on the round-robin order. We also introduce an Instruction Queue skip mechanism for thread if the queue is empty. Using this kind of issue logic, we designed a 6 threads, 7-stage, in-order pipeline processor. Based on this processor, we compare round-robin issue policy (RR(T-1-T-n)) with other policies: thread one always has the highest priority (PR(T-1)) and thread one or thread n has the highest priority in turn (PR(T-1-T-n)). The results show that RR(T-1-T-n) policy outperforms others and PR(T-1-T-n) is almost the same to RR(T-1-T-n) from the point ofview of the issued instructions per cycle.

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Synthesis of Parallel Prefix Adders Considering Switching Activities

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    2008 IEEE INTERNATIONAL CONFERENCE ON COMPUTER DESIGN     404 - +  2008年  [査読有り]

     概要を見る

    This paper addresses parallel prefix adder synthesis which targets minimization of the total switching activities under bitwise timing constraints. This problem is treated as synthesis of prefix graphs which represent global structures of parallel prefix adders at technology-independent level. An approach for timing-driven area minimization has been proposed which first finds the exact minimum solution on a specific subset of prefix graphs by dynamic programming, then restructures the result for further reduction by removing restriction on the subset. This approach can be applied for switching cost minimization almost directly, though it is not so effective as area minimization in some cases. In this paper, a heuristic is proposed which estimates the effect of the restructuring phase and improve cost calculation fo some specific cases. Through various kinds of experiments, conditions where this approach can be executed effectively is also discussed.

  • Resynthesis Method for Circuit Acceleration on LUT-based FPGA

    Weijie Xing, Takashi Horiyama, Shunichi Kuromaru, Tomoo Kimura, Shinji Kimura

    Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologies     375 - 380  2007年10月

  • Active Mode Leakage Power Reduction Based on the Controlling Value of Logic Gates

    Lei Chen, Shinji Kimura

    Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologies     266 - 271  2007年10月

  • Power-Conscious Synthesis of Parallel Prefix Adders under Bitwise Timing Constraints

    Taeko Matsunaga, Shinji Kimura, Yusuke Matsunaga

    Proceedings of 14th Workshop on Synthesis And System Integration of Mixed Information technologies     7 - 14  2007年10月

  • Optimal planar jumping systolic array design for matrix multiplication

    Yun Yang, Shinji Kimura

    Proceedings of 20th Workshop on Circuits and Systems in Karuizawa     343 - 348  2007年04月

  • Issue Mechanism for Embedded Simultaneous Multithreading Processor

    Chengjie Zang, Shigeki Imai, Shinji Kimura

    Proceedings of 20th Workshop on Circuits and Systems in Karuizawa     325 - 330  2007年04月

  • Coverage estimation using transition perturbation for symbolic model checking in hardware verification

    Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E89A ( 12 ) 3451 - 3457  2006年12月  [査読有り]

     概要を見る

    Lack of complete formal specification is one of the major obstacles to the deployment of model checking. Coverage estimation addresses this issue by revealing the unverified part of the design according to the specified properties. In this paper we propose a new transition-based coverage metric to evaluate the completeness of properties for symbolic model checking. Our coverage metric pinpoints the transitions through which the values of signals are checked. An efficient symbolic algorithm is presented for computing the transition coverage for a subset of ACTL. Our coverage estimator has been applied to the model checking of a cache coherence protocol. We uncovered several coverage holes including one that eventually led to the discovery of a design bug.

    DOI

    Scopus

  • Bit-length optimization method for high-level synthesis based on non-linear programming technique

    Nobuhiro Doi, Takashi Horiyama, Masaki Nakanishi, Shinji Kimura

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E89A ( 12 ) 3427 - 3434  2006年12月  [査読有り]

     概要を見る

    High-level synthesis is a novel method to generate a RT-level hardware description automatically from a high-level language such as C, and is used at recent digital circuit design. Floating-point to fixed-point conversion with bit-length optimization is one of the key issues for the area and speed optimization in high-level synthesis. However, the conversion task is a rather tedious work for designers. This paper,introduces automatic bit-length optimization method on floating-point to fixed-point conversion for high-level synthesis. The method estimates computational errors statistically, and formalizes an optimization problem as a non-linear problem. The application of NLP technique improves the balancing between computational accuracy and total hardware cost. Various constraints such as unit sharing, maximum bit-length of function units can be modeled easily, too. Experimental result shows that our method is fast compared with typical one, and reduces the hardware area.

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • An Efficient Instruction Issue Mechanism for Simultaneous Multithreading Microprocessor

    Taeseok Jeong, Chengjie Zang, Shinji Kimura

    Proc. International SoC Design Conference (ISOCC2006)     533 - 536  2006年10月

  • Performance and Energy Efficient Data Cache Architecture for Embedded Simultaneous Multithreading Microprocessor

    Chengjie Zang, Shigeki Imai, Shinji Kimura

    International SoC Design Conference (ISOCC2006)     351 - 354  2006年10月

  • Performance and Energy Efficient Data Cache Architecture for Embedded Simultaneous Multithreading Microprocessor

    Chengjie Zang, Shigeki Imai, Shinji Kimura

    Proceedings of 13th Workshop on Synthesis And System Integration of Mixed Information technologies (SASIMI2006)     268 - 273  2006年04月

  • Selective low-care coding: A means for test data compression in circuits with multiple scan chains

    Youhua Shi, Nozomu Togawa, Shinji Kimura, Masao Yanagisawa, Tatsuo Ohtsuki

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E89-A ( 4 ) 996 - 1003  2006年  [査読有り]

     概要を見る

    This paper presents a test input data compression technique, Selective Low-Care Coding (SLC), which can he used to significantly reduce input test data volume as well as the external test channel requirement for multiscan-based designs. In the proposed SLC scheme, we explored the linear dependencies of the internal scan chains, and instead of encoding all the specified bits in test cubes, only a smaller amount of specified bits are selected for encoding, thus greater compression can be expected. Experiments on the larger benchmark circuits show drastic reduction in test data volume with corresponding savings on test application time can be indeed achieved even for the well-compacted test set. Copyright © 2006 The Institute of Electronics, Information and Communication Engineers.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • FCSCAN: An efficient multiscan-based test compression technique for test cost reduction

    Youhua Shi, Nozomu Togawa, Shinji Kimura, Masao Yanagisawa, Tatsuo Ohtsuki

    ASP-DAC 2006: 11TH ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE, PROCEEDINGS     653 - 658  2006年  [査読有り]

     概要を見る

    This paper proposes a new multiscan-based test input data compression technique by employing a Fan-out Compression Scan Architecture (FCSCAN) for test cost reduction. The basic idea of FCSCAN is to target the minority specified 1 or 0 bits (either 1 or 0) in scan slices for compression. Due to the low specified bit density in test cube set, FCSCAN can significantly reduce input test data volume and the number of required test channels so as to reduce test cost. The FCSCAN technique is easy to be implemented with small hardware overhead and does not need any special ATPG for test generation. In addition, based on the theoretical compression efficiency analysis, improved procedures are also proposed for the FCSCAN to achieve further compression. Experimental results on both benchmark circuits and one real industrial design indicate that drastic reduction in test cost can be indeed achieved.

  • Transition-based coverage estimation for symbolic model checking

    Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

    ASP-DAC 2006: 11TH ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE, PROCEEDINGS     1 - 6  2006年  [査読有り]

     概要を見る

    Lack of complete formal specification is one of the major obstacles for the deployment of model checking. Coverage estimation addresses this issue by revealing the unverified part of the design according to the specified properties. In this paper we propose a new transition-based coverage metric to evaluate the completeness of properties for symbolic model checking. It is more comprehensive and accurate than the existing coverage metrics for model checking. An efficient symbolic algorithm is presented for computing the transition coverage for a subset of ACTL. Our coverage estimator has been applied to the model checking of a cache coherence protocol. We uncovered several coverage holes including one that eventually led to the discovery of a design bug.

  • Functional State Coverage Estimation for CTL Model Checking

    Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

    Proceeding of the 20th International Technical Conference on Circuits/Systems, Computers and Communications(ITC-CSCC2005)     1 - 2  2005年07月

  • Low power test compression technique for designs with multiple scan chains

    Youhua Shi, Nozomu Togawa, Shinji Kimura, Masao Yanagisawa, Tatsuo Ohtsuki

    Proceedings of the Asian Test Symposium   2005   386 - 389  2005年  [査読有り]

     概要を見る

    This paper presents a new DFT technique that can significantly reduce test data volume as well as scan-in power consumption for multiscan-based designs. It can also help to reduce test time and tester channel requirements with small hardware overhead. In the proposed approach, we start with apre-computed test cube set and fill the don't-cares with proper values for joint reduction of test data volume and scan power consumption. In addition we explore the linear dependencies of the scan chains to construct a fanout structure only with inverters to achieve further compression. Experimental results for the larger ISCAS'89 benchmarks show the efficiency of the proposed technique. © 2005 IEEE.

    DOI

    Scopus

    17
    被引用数
    (Scopus)
  • Special section on VLSI design and CAD algorithms

    Shinji Kimura

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E88-A ( 12 ) 3273  2005年  [査読有り]

    DOI

    Scopus

  • Extended abstract: Transition traversal coverage estimation for symbolic model checking

    XW Xu, S Kimura, K Horikawa, T Tsuchiya

    THIRD ACM & IEEE INTERNATIONAL CONFERENCE ON FORMAL METHODS AND MODELS FOR CO-DESIGN, PROCEEDINGS     259 - 260  2005年  [査読有り]

  • Duplicated register file design for embedded simultaneous multithreading microprocessor

    C Zang, S Imai, S Kimura

    2005 6th International Conference on ASIC Proceedings, Books 1 and 2     160 - 163  2005年  [査読有り]

     概要を見る

    In modern microprocessors, the access time of register file becomes a critical part in total delay. Instruction level or thread level parallelism improves Instructions Per. Cycle (IPC) by executing multiple instructions in one cycle. Such multiple instructions need to read or write data from/to register files simultaneously. To satisfy that, register file with sufficient ports should be designed. However, the area and access time of register file with large ports will increase sharply. Duplicated Register File (DupRF) architecture can reduce access time by distributing read ports. In this paper, we propose a new kind of DupRF architecture for embedded Simultaneous Multithreading (SMT) microprocessor and estimate the effect with respect to the area and access time. Especially, we measure the product of area and access time as computation cost. For a SMT microprocessor with 6 threads, 64-bit data-width and 6 function units, a 3-duplicate register file architecture can reduce access time by 12.61% with a slight increase of computation cost by 3.35% compared with the central register file architecture.

  • Transition traversal coverage estimation for symbolic model checking

    XW Xu, S Kimura, K Horikawa, T Tsuchiya

    2005 6TH INTERNATIONAL CONFERENCE ON ASIC PROCEEDINGS, BOOKS 1 AND 2     850 - 853  2005年  [査読有り]

     概要を見る

    Model checking can exhaustively verify a set of specified properties on a given implementation. However, it is very hard to determine whether sufficient properties have been speci ed or not. In this paper, we propose a transition traversal coverage method for a subset of CTL to evaluate the completeness, of properties. With this method, we can detect the transitions which are not veri ed by any property. It is more comprehensive and accurate than state-based coverage metric. We avoid generating the perturbed implementation by directly traversing transitions based on the semantics of CTL formulas. Experimental results show that the proposed method can discover subtle coverage holes with low computation cost.

  • A selective scan chain reconfiguration through run-length coding for test data compression and scan power reduction

    Y Shi, S Kimura, M Yanagisawa, T Ohtsuki

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E87A ( 12 ) 3208 - 3215  2004年12月  [査読有り]

     概要を見る

    Test data volume and power consumption for scan-based designs are two major concerns in system-on-a-chip testing. However, test set compaction by filling the don't-cares will invariably increase the scan-in power dissipation for scan testing, then the goals of test data reduction and low-power scan testing appear to be conflicted. Therefore, in this paper we present a selective scan chain reconfiguration method for test data compression and scan-in power reduction. The proposed method analyzes the compatibility of the internal scan cells for a given test set and then divides the scan cells into compatible classes. After the scan chain reconfiguration a dictionary is built to indicate the run-length of each compatible class and only the scan-in data for each class should be transferred from the ATE to the CUT so as to reduce test data volume. Experimental results for the larger ISCAS' 89 benchmarks show that the proposed approach overcomes the limitations of traditional run-length coding techniques, and leads to highly reduced test data volume with significant power savings during scan testing in all cases.

  • A hybrid dictionary test data compression for multiscan-based designs

    Y Shi, S Kimura, M Yanagisawa, T Ohtsuki

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E87A ( 12 ) 3193 - 3199  2004年12月  [査読有り]

     概要を見る

    In this paper, we present a test data compression technique to reduce test data volume for multiscan-based designs. In our method the internal scan chains are divided into equal sized groups and two dictionaries were build to encode either an entire slice or a subset of the slice. Depending on the codeword, the decompressor may load all scan chains or may load only a group of the scan chains, which can enhance the effectiveness of dictionary-based compression. In contrast to previous dictionary coding techniques, even for the CUT with a large number of scan chains, the proposed approach can achieve satisfied reduction in test data volume with a reasonable smaller dictionary. Experimental results showed the proposed test scheme works particularly well for the large ISCAS'89 benchmarks.

  • Efficient Hardware Architecture of a New Simple Public-Key Cryptosystem for Real-Time Data Processing

    C. Jin, N. Doi, H. Tanaka, S. Imai, S. Kimura

    Proc. of Workshop on Synthesis and System Integration of Mixed Technologies (SASIMI'2004)     107 - 112  2004年10月

  • An Optimization Method in Floating-point to Fixed-point Conversion using Positive and Negative Error Analysis and Sharing of Operations

    N. Doi, T. Horiyama, M.Nakanishi, S.Kimura

    Proc. of Workshop on Synthesis and System Integration of Mixed Technologies (SASIMI'2004)     466 - 471  2004年10月

  • Reconfigurable Architecture for Bit-Level Data Processing

    S. Kimura

    Invited Talk of The 1st Silicon-Seabelt Workshop on VLSI Designs in National Taiwan University    2004年04月

  • Alternative run-length coding through scan chain reconfiguration for joint minimization of test data volume and power consumption in scan test

    Youhua Shi, Shinji Kimura, Nozomu Togawa, Masao Yanagisawa, Tatsuo Ohtsuki

    Proceedings of the Asian Test Symposium     432 - 437  2004年  [査読有り]

     概要を見る

    Test data volume and scan power are two major concerns in SoC test. In this paper we present an alternative run-length coding method through scan chain reconfiguration to reduce both test data volume and scan-in power consumption. The proposed method analyzes the compatibility of the internal scan cells for a given test set and then divides the scan cells into compatible classes. To extract the compatible scan cells we apply a heuristic algorithm by solving the graph coloring problem
    and then a simple greedy algorithm is used to configure the scan chain for the minimization of scan power. Experimental results for the larger IS-CAS'89 benchmarks show that the proposed approach leads to highly reduced test data volume with significant power savings during scan test.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Minimization of fractional wordlength on fixed-point conversion for high-level synthesis

    N Doi, T Horiyama, M Nakanishi, S Kimura

    ASP-DAC 2004: PROCEEDINGS OF THE ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE     80 - 85  2004年  [査読有り]

     概要を見る

    In the hardware synthesis from high-level language such as C, bit length of variables is one of the key issues on the area and speed optimization. Usually, designers are required to specify the word length of each variable manually, and verify the correctness by the simulation on huge data. In this paper, we propose an optimization method of fractional wold length of floating-point variables in the floating to fixed-point conversion of variables. The amount of round-off errors are formulated with parameters and propagated via data flow graphs. The non-linear programming is used to solve the fractional wordlength minimization problem. The method does not require the simulation on huge data, and is very fast compared to ones based on the simulation. We have shown the effect on several programs.

  • Reducing test data volume for multiscan-based designs through single/sequence mixed encoding

    Y Shi, S Kimura, N Togawa, M Yanagisawa, T Ohtsuki

    2004 47TH MIDWEST SYMPOSIUM ON CIRCUITS AND SYSTEMS, VOL II, CONFERENCE PROCEEDINGS     445 - 448  2004年  [査読有り]

     概要を見る

    This paper presents a new test data compression technique for multiscan-based designs through dictionary-based encoding on the single or sequences scan-inputs. In spite of its simplicity, it achieves significant reduction in test data volume. Unlike some previous approaches on test data compression, our approach eliminates the need for additional synchronization and handshaking between the CUT and the ATE, so it is especially suitable to be integrated in a low cost test scheme for SoC test In addition in contrast to previous dictionary-based coding techniques, even for the CUT with a small number of scan chains, the proposed approach can achieve satisfied reduction in test data volume. Experimental results showed the proposed test scheme works particularly well for the large ISCAS'89 benchmarks.

  • A built-in reseeding technique for LFSR-based test pattern generation

    Y Shi, Z Zhang, S Kimura, M Yanagisawa, T Ohtsuki

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E86A ( 12 ) 3056 - 3062  2003年12月  [査読有り]

     概要を見る

    Reseeding technique is proposed to improve the fault coverage in pseudo-random testing. However most of previous works on reseeding is based on storing the seeds in an external tester or in a ROM. In this paper we present a built-in reseeding technique for LFSR-based test pattern generation. The proposed structure can run both in pseudorandom mode and in reseeding mode. Besides, our method requires no storage for the seeds since in reseeding mode the seeds can be generated automatically in hardware. In this paper we also propose an efficient grouping algorithm based on simulated annealing to optimize test vector grouping. Experimental results for benchmark circuits indicate the superiority of our technique against other reseeding methods with respect to test length and area overhead. Moreover, since the theoretical properties of LFSRs are preserved, our method could be beneficially used in conjunction with any other techniques proposed so far.

  • Bit Length Optimization of Fractional Part on Floating to Fixed Point Conversion for High Level Synthesis

    N. Doi, T. Horiyama, N. Nakanishi, S. Kimura, K. Watanabe

    IEICE Trans. Fundamentals   Vol. E86-A ( No. 12 ) 3176 - 3183  2003年12月

  • Bit Length Optimization in High Level Synthesis Based on Analytical Methods (Invited Talk)

    Shinji Kimura, Nobuhiro Doi

    System on Chip Design Automation Conference 2003 at Korea    2003年11月

  • Bit Length Optimization of Fractional Parts on Floating to Fixed Point Conversion fro High-Level Synthesis

    Nobuhiro Doi, Takashi Horiyama, Masaki Nakanishi, Shinji Kimura, Katsumasa Watanabe

    Proc. of the Workshop on Synthesis and System Integration of Mixed Information technologies     129 - 136  2003年04月

  • An on-chip high speed serial communication method based on independent ring oscillators

    S Kimura, T Hayakawa, T Horiyama, M Nakanishi, K Watanabe

    2003 IEEE INTERNATIONAL SOLID-STATE CIRCUITS CONFERENCE: DIGEST OF TECHNICAL PAPERS   46 ( 22.3 ) 390 - 391  2003年  [査読有り]

  • Look up table compaction based on folding of logic functions

    S Kimura, A Ishii, T Horiyama, M Nakanishi, H Kajihara, K Watanabe

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E85A ( 12 ) 2701 - 2707  2002年12月  [査読有り]

     概要を見る

    The paper describes the folding method of logic functions to reduce the size of memories to keep the functions. The folding is based on the relation of fractions of logic functions. If the logic function includes 2 or 3 same parts, then only one part should be kept and other parts can be omitted. We show that the logic function of I-bit addition can be reduced to half size using the bit-wise NOT relation and the bit-wise OR relation. The paper also introduces 3-1 LUT's with the folding mechanism. A full adder can be implemented using only one 3-1 LUT with the folding. Multi-bit AND and OR operations can be mapped to our LUT's not using the extra cascading circuit but using the carry circuit for addition. We have also tested the mapping capability of 4 input functions to our 3-1 LUT's with folding and carry propagation mechanisms. We have shown the reduction of the area consumption when using our LUT's compared to the case using 4-1 LUT's on several benchmark circuits.

  • Folding of logic functions and its application to look up table compaction

    S Kimura, T Horiyama, M Nakanishi, H Kajihara

    IEEE/ACM INTERNATIONAL CONFERENCE ON CAD-02, DIGEST OF TECHNICAL PAPERS     694 - 697  2002年  [査読有り]

     概要を見る

    The paper describes the folding method of logic functions to reduce the size of memories for keeping the functions. The folding is based on the relation of fractions of logic functions. We show that the fractions of the full adder function have the bit-wise NOT relation and the bit-wise OR relation, and that the memory size becomes half (8-bit). We propose a new 3-1 LUT with the folding mechanisms whcih can implement a full adder with one LUT. A fast carry propagation line is introduced for a multi-bit addition. The folding and fast carry propagation mechanisms are shown to be useful to implement other multi-bit operations and general 4 input functions without extra hardware resources. The paper shows the reduction of the area consumption when using our LUTs compared to the case using 4-1 LUTs on several benchmark circuits.

  • A Real-Time User-Independent Eye Tracking LSI with Environment Adaptability

    K. Nakamura, M. Nakanishi, T. Horiyama, M. Suzuki, S. Kimura, K. Watanabe

    In Proc. of the 10th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2001)     357 - 361  2001年10月

  • A New Symbolic Image Computation Algorithm Based on BDD Constrain Operator

    S. Kimura, D. Dill, S. G. Govindaraju

    In Proc. of the 10th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2001)     167 - 171  2001年10月

  • Speech recognition chip for monosyllables

    K Nakamura, Q Zhu, S Maruoka, T Horiyama, S Kimura, K Watanabe

    PROCEEDINGS OF THE ASP-DAC 2001: ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE 2001     396 - 399  2001年  [査読有り]

     概要を見る

    In the paper, we present a real-time speech recognition chip for monosyllables such as A, B,.,., etc. The chip recognizes up to 64 monosyllables based on the Hidden Markov Model (HMM), which is a well known speaker-independent recognition method. The chip accepts a short-speech frame including 256 16-bit digitized samples corresponding to 11.6 msec period, and outputs the 6-bit symbol code of monosyllables for 16 short-frames (corresponding to 185.6 msec), A learning circuit to update HMM parameters for the recognition chip has also been designed, and the recognition chip includes an interface to the learning circuit. We have fabricated the recognition chip by VDEC Rohm 0.6 mum process on a 4.5 mm x 4.5 mm chip. We have also made a layout of the entire circuit including the learning circuit by VDEC Rohm 0.35 mum process on a 4.9 mm x 4.9 mm chip.

  • A real-time 64-monosyllable recognition LSI with learning mechanism

    K Nakamura, Q Zhu, S Maruoka, T Horiyama, S Kimura, K Watanabe

    PROCEEDINGS OF THE ASP-DAC 2001: ASIA AND SOUTH PACIFIC DESIGN AUTOMATION CONFERENCE 2001     31 - 32  2001年  [査読有り]

     概要を見る

    In the paper, a real-time 64-mono-syllable recognition LSI is presented. The LSI accepts 11.6 msec speech frame and outputs a 6-bit symbol-code for each frame by the end of the next frame with the pipelining manner. The recognition method is based on the Hidden Markov Model and is speaker-independent. An on-chip learning mechanism has also been designed, but the circuit is off-chip at present implementation because of the restriction of LSI area, The LSI is fablicated by VDEC Rohm with 0.6 mum process on a 4.5 mm x 4.5 mm chip.

  • Multi-cycle path detection based on propositional satisfiability with CNF simplification using adaptive variable insertion

    K Nakamura, S Maruoka, S Kimura, K Watanabe

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E83A ( 12 ) 2600 - 2607  2000年12月  [査読有り]

     概要を見る

    Multi-cycle paths are paths between registers where 2 or more clock cycles are allowed to propagate signals, and the detection of multi-cycle paths is important in deciding proper clock period, timing verification and logic optimization. This paper presents a satisfiability-based multi-cycle paths detection method, where the detection problems are reduced to CNF formulae and the satisfiability is checked using SAT provers. We also show heuristics on conversion from multi-level circuits into CNF formulae. We have applied our method of ISCAS'89 benchmarks and other sample circuits. Experimental results show the remarkable improvements on the size of manipulatable circuits.

  • Robust heuristics for multi-level logic simplification considering local circuit structure

    Q Zhu, Y Matsunaga, S Kimura, K Watanabe

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E83A ( 12 ) 2520 - 2527  2000年12月  [査読有り]

     概要を見る

    Combinational logic circuits are usually implemented as multi-level networks of logic nodes, Multi-level logic simplification using the don't cares on each node is widely used. Large don't cares give good simplification results, but suffer from huge memory area and computation time. Extraction of useful don't cares and reduction of the size of the don't cares are important problems on the simplification using don't cares. In the paper, we propose a new robust heuristic method for the selection of dent cares. MIF consider an adaptive subnetwork for each simplified node in the network and introduce a stepwise enhancement method of the subnetwork considering the memory area and the network structure. The don't cares extracted from the adaptive subnetworks are called the local don't cares. We have implemented our method for satisfiability don't cares and observability don't cares. We have applied the method on MCNC89 benchmarks, and compared the experimental results with those of the SIS system. The results demonstrate the superiority of our method on the quality of the results and on the size of applicable circuits.

  • Robust Heuristics for Multi-Level Logic Simplification Considering Local Circuit Structure

    Q. Zhu, Y. Matsunaga, S. Kimura, K. Watanabe

    In Proc. of the 9th Workshop on Synthesis And System Integration of Mixed Technologies (SASIMI 2000)     299 - 306  2000年04月

  • An application specific Java processor with reconfigurabilities

    Shinji Kimura, Hiroyuki Kida, Kazuyoshi Takagi, Tatsumori Abematsu, Katsumasa Watanabe

    Proceedings of the Asia and South Pacific Design Automation Conference, ASP-DAC     25 - 26  2000年

     概要を見る

    The paper presents an application specific Java processor including reconfigurabilities, which is a DLX like pipeline processor with 5 stages and executes Java byte codes directly. Reconfigurabilities are the key technologies for application specific operations. We have introduced two reconfigurabilities: (1) a mechanism to override the control signals for a specific instruction, (2) external components can be attached with the same input and output ports as the internal ALU. © 2000 IEEE.

    DOI

    Scopus

  • Multi-clock path analysis using propositional satisfiability

    Kazuhiro Nakamura, Shinji Maruoka, Shinji Kimura, Katsumasa Watanabe

    Proceedings of the Asia and South Pacific Design Automation Conference, ASP-DAC     81 - 86  2000年

     概要を見る

    We present a satisfiability based multi-clock path analysis method. The method uses propositional satisfiability (SAT) in the detection of multi-clock paths. We show a method to reduce the multi-clock path detection problems to SAT problems. We also show heuristics on the conversion from multi-level circuits into CNF formulae. We have applied our method to ISCAS89 benchmarks and other sample circuits. Experimental results show the improvement on the manipulatable size of circuits by using SAT. © 2000 IEEE.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Exact minimization of free BDDs and its application to pass-transistor logic optimization

    K Takagi, H Hatakeda, S Kimura, K Watanabe

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E82A ( 11 ) 2407 - 2413  1999年11月  [査読有り]

     概要を見る

    In several design methods for Pass-transistor Logic (PTL) circuits, Boolean functions are expressed as OBDDs in decomposed form and then the component OBDDs are directly mapped to PTL cells. The total size of OBDDs (number of nodes) corresponds to the circuit size. In this paper, we investigate a method for PTL synthesis based on exact minimization of Free BDDs (FBDDs). FBDDs are well-studied extension of OBDDs with free variable ordering on each path. We present statistics showing that more than 56% of 616126 iu:PN-equivalence classes of 5-variable Boolean functions have minimum FBDDs with less size than their OBDDs. This result can be used for PTL synthesis as libraries. We also applied the exact minimization algorithm of FBDDs to the minimization of subcircuits in the synthesis for MCNC benchmarks and found up to 5% size reduction.

  • Hardware synthesis from C programs with estimation of bit length of variables

    O Ogawa, K Takagi, Y Itoh, S Kimura, K Watanabe

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E82A ( 11 ) 2338 - 2346  1999年11月  [査読有り]

     概要を見る

    In the hardware synthesis methods with high level languages such as C language, optimization quality of the compilers has a great influence on the area and speed of the synthesized circuits. Among hardware-oriented optimization methods required in such compilers, minimization of the bit length of the data-paths is one of the most important issues. In this paper, rye propose an estimation algorithm of the necessary bit length of variables for this aim. The algorithm analyzes the control/dataflow graph translated from C programs and decides the bit length of each variable. On several experiments, the bit length of variables can be reduced by half with respect to the declared length. This method is effective not only for reducing the circuit area but also for reducing the delay of the operation units such as adders.

  • Multi-Level Logic Simplification using Statisfiability Don't Cares

    Q.Zhu, Y.Matsunaga, S.Kimura, K.Watanabe

    Proceedings of Asia Pacific Conference on cHip Design Languages     127 - 131  1999年10月

▼全件表示

書籍等出版物

  • システムLSI設計工学

    藤田昌宏, 梶原誠司, 木村晋二, 高田宏章, 浜口清治, 冨山宏之

    オーム社  2006年10月 ISBN: 4274202976

Misc

  • 量子アニーリングエミュレータのためのデータ構造

    植田 圭, 戸川 望, 木村 晋二

    DAシンポジウム2019論文集   ( 2019 ) 39 - 44  2019年08月

    CiNii

  • 多数決関数を用いた並列プレフィックス加算器の実現と最適化 (ディペンダブルコンピューティング) -- (デザインガイア2017 : VLSI設計の新しい大地)

    松本 大輝, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   117 ( 274 ) 109 - 114  2017年11月

    CiNii

  • 多数決関数を用いた並列プレフィックス加算器の実現と最適化 (VLSI設計技術) -- (デザインガイア2017 : VLSI設計の新しい大地)

    松本 大輝, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   117 ( 273 ) 109 - 114  2017年11月

    CiNii

  • High Accuracy 8×8 Approximate Multiplier based on OR Operation (VLSI設計技術)

    GUO Yi, SUN Heming, JIN Canran, KIMURA Shinji

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 478 ) 19 - 24  2017年03月

    CiNii

  • MERP-CNN : A memory-efficient reconfigurable processor for convolutional neural networks based on FPGA (VLSI設計技術)

    HAN Xushen, ZHOU Dajiang, KIMURA Shinji

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   116 ( 21 ) 47 - 52  2016年05月

    CiNii

  • 冗長符号化を用いたマルチレベルセル不揮発性メモリ書き込み量削減 (VLSI設計技術)

    多和田 雅師, 木村 晋二, 柳澤 政生

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   115 ( 398 ) 221 - 225  2016年01月

    CiNii

  • 後方順序的クロックゲーティング自動挿入のための制御信号抽出手法 (VLSI設計技術)

    後藤 智哉, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   115 ( 398 ) 97 - 102  2016年01月

    CiNii

  • 回路面積を考慮した不揮発性メモリ書き込み削減符号生成手法 (VLSI設計技術)

    多和田 雅師, 木村 晋二, 柳澤 政生

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   115 ( 338 ) 249 - 253  2015年12月

    CiNii

  • 不揮発メモリの書き込み削減手法のための小面積なエンコーダ/デコーダ回路構成

    多和田 雅師, 木村 晋二, 柳澤 政生, 戸川 望

    研究報告システムとLSIの設計技術(SLDM)   2014 ( 35 ) 1 - 6  2014年11月

     概要を見る

    不揮発メモリはリーク電力が非常に小さい電源が落ちていても情報を保持できるといった性質から次世代メモリとして注目されている.一方で不揮発メモリには書き込みエネルギーが大きい,書き換え回数に上限があるという問題がある.書き込みエネルギーの削減とウェアレベリングを行う手法としてピットレベルでの書き込み削減手法が存在する.ハミング符号より生成した冗長符号を用いてメモリに保存する値を符号化して書き込む手法が提案されている.従来手法の回路構成では符号化のためのエンコーダデコーダの規模が大きくなる欠点がある.本稿では書き込み削減手法に適した符号構成を行うことでエンコーダデコーダの面積を小さくする手法を提案する.メモリに保存したいピットシーケンスをエンコードせずにエンコード後のベクトルとみなしても書き込みに必要な情報が得られる.メモリに保存されているベクトルを誤り訂正すると,デコードせずにシンドロームが元のピットシーケンスが持つ情報と一致する.その結果,小面積のエンコーダ;デコーダが構成できる.提案手法によりエンコーダとデコーダを設計した結果,従来手法と比較して面積が削減されることを確認する.Non-volatile memory has many advantages such as low leakage power and non-volatility. However, there are problems that a non-volatile memory consumes a large amount of energy in writing and that the maximum number of bit re-writings is limited. We have proposed a Hamming-code based bit-write reduction method using data encoding/decoding but its encoder/decoder becomes too much large. In this paper, we propose small-sized encoder/decoder circuit design for the bit-write reduction codes. In this design, we simplify data encoding/decoding by using code redundancy. Experimental results show the efficiency of our encoder/decoder design.

    CiNii

  • RISCプロセッサの内部レジスタの不揮発化に向けた書き込み削減手法 (システム数理と応用)

    後藤 智哉, 柳澤 政生, 木村 晋二

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 125 ) 213 - 218  2014年07月

     概要を見る

    近年MTJ (Magnetic Tunnel Junction)に基づく次世代不揮発メモリの研究開発が進み,プロセッサ内部での使用が可能な耐用回数,速度を持つメモリ素子が登場している.これらのメモリ素子をプロセッサ全体に適用することで,電源の遮断に耐性を持つプロセッサを実現できる.しかし,不揮発メモリは書き込みに大きなエネルギーを必要とするので,書き込みの削減が重要である.本研究では, RISCプロセッサの不揮発化において,レジスタの種類に応じた書き込み削減手法を提案する.具体的には,レジスタファイルに対しては書き込み検出フラグと符号拡張判定を用いた手法を,プログラムカウンタに対しては値比較と桁上げ検出を利用した書き込み削減手法を提案する. MIPS32プロセッサのレジスタに対して提案手法を実装し,評価を行ったところ,レジスタファイルで93.1-93.8%,プログラムカウンタで54.5-56.8%の電力削減効果を確認した.

    CiNii

  • 差分を用いた不揮発メモリの書込み回数削減による低電力回路設計

    篠原 寛行, 柳澤 政生, 木村 晋二

    研究報告システムLSI設計技術(SLDM)   2014 ( 30 ) 1 - 6  2014年01月

     概要を見る

    LSI の低消費電力化のために,モジュール毎の細やかな電源オフは欠かせない.それと同時に,電源復帰後も動作の継続性を保つために現在の状態を保持する必要がある.そこで,電源オフでもデータの保持が可能な次世代不揮発メモリが注目されている.不揮発メモリにより,細粒度で電源をオフにすることができ,リーク電力を中心とする電力削減が望める.しかし不揮発メモリには CMOS のメモリ素子と比べて 10 倍程度大きい書き込みエネルギーの問題があり,書き込みの削減が不揮発メモリを活用する上での重要な課題である.本稿では,無線センサ端末などでの消費電力の削減に向けて,差分データを用いた不揮発素子の書き込み削減による消費電力削減手法を提案する.データを二つの変数の和 (元のデータと差分) で記憶し,新しい入力に変更する際に二つの変数の冗長性を用いて変化ピット数を最小化する.この手法を実現するハードウェアを設計し,気温及び湿度の測定データに対して適用して評価したところ,24%の書き込み回数削減と,約 11%の消費電力削減を達成した.In order to reduce the power consumption of LSI, unnecessary parts should be powered off with fine granularity, and current status data before power-off should be stored for the behavior after power-on. Next generation non-volatile memory is expected to be used to store data for power-off. However, the writing power of non-volatile memory is about 10 times higher than that of CMOS memory, so the reduction of writing behaviors is very important to reduce the total energy. The manuscript proposes a reduction method of writing behaviors using the difference of the original data and the new data for monitoring data sequences such as wireless sensor nodes. With the redundancy of the difference and the original data, the number of writing bits for these registers can be saved. The modiflcaiton system for the original and differential data registers has been developed and its power consumption has been evaluated. When applying to temperature monitoring, 24 % writing bits reduction and 11% power reduction can be obtained.

    CiNii

  • 不揮発メモリを対象とした書き込み削減手法のエネルギー評価

    多和田 雅師, 木村 晋二, 柳澤 政生, 戸川 望

    研究報告システムLSI設計技術(SLDM)   2013 ( 26 ) 1 - 6  2013年11月

     概要を見る

    近年の高集積化に伴い消費電力全体に対するリーク電力の割合が高まっている.不揮発メモリはリーク電力をほとんど消費しないため次世代のメモリとして期待されている.不揮発メモリは通常のメモリより書き込み時に電力を消費する問題がある.不揮発メモリの書き込み電力を低減するためには,書き込みピット数を削減する手法が考えられる.メモリの値をある値から違う値へ書き換えるとき,実際に保存する値を符号化することで,本来書き換えるビット数よりも実際に書き込むピット数を少なくすることができる.本稿では不揮発メモリを対象とした書き込みピット数削減手法のエネルギーを評価する.Non-volatile memory has many advantages over SRAM, such as high density, low leakage power, and non-volatility. However, one of its largest problems is that it consumes a large amount of energy in writing. It is quite necessary to reduce the number of writing bits and thus decrease its writing energy.We have proposed a memory writing reduction method based on error correcting codes. When a data is written into a memory, we do not write it directly but encode it into a codeword. Then the number of writing bits into memory is also limited in data writing. In this paper, we demonstrate several experimental evaluations from the viewpoints of energy reduction and discuss the effectiveness of our proposed writing-reduction codes.

    CiNii

  • 書込み電力最小カット部探索とそれを用いた不揮発論理回路の低電力化

    糸井 優大, 木村 晋二

    研究報告システムLSI設計技術(SLDM)   2013 ( 27 ) 1 - 6  2013年11月

     概要を見る

    近年,磁気トンネル結合を用いた次世代不揮発メモリルジスタが注目されている.これらは,電源遮断時でも記憶を保持でき,CMOS 素子と集積できかつ高速動作が可能である.これらを用いることで,状態の退避をケアすることなく,細粒度な LSI の電源管理が可能となる.しかし,不揮発素子は通常メモリ素子に比べて書込み電力が 10 倍程度大きく,不要な書込みを制限することが必要不可欠である.我々はこれまでに,状態保存レジスタの不揮発化における書込み削減のため,元のレジスタの位置とは異なる場所に状態保存レジスタを挿入する手法を提案したよりスイッチング確率が小さい位置に状態保存レジスタを配置することにより,元の場所に配置する場合に比べて書込み頻度を削減できる.スイッチング確率最小位置の探索には,最大フロー最小カット定理を用いたカット探索を利用する.本稿では,カットの探索時にスイッチング確率だけでなく状態保存や復帰のために必要となる付加回路のオーバーヘッドについても考慮することでトータルの消費電力を最小化する手法について述べる.さらに本手法を ISCAS89 ベンチマーク回路 5 個に適用し,論理合成後の電力評価を行った.その結果,元のレジスタの位置に不揮発レジスタを入れるのと比べて,2.6%-15.1% (平均 8.34%) の電力削減が得られることを示した。Recently, the next generation non-volatile memory/register using magnetic tunnel junction elements has been paid attention. Such devices can keep the data when power off, can be integrated in CMOS LSI and have fast access speed. By using such devices, we can apply fine and low overhead power control for CMOS LSI. The write energy of such devices, however, is larger than that of a usual D flip-flop (about 10 times). So it is very important to reduce the write operations on such devices. Therefore we have proposed a write reduction method for non-volatile registers, where a minimum cut-set that has the smallest switching activity is searched by using the min-cut max-flow theorem and non-volatile registers are inserted to the cut-set. In this study, we also consider the overhead of additional circuits for recovering and saving the state to minimize the total power of the circuit. The method has been implemented and applied to ISCAS 89 benchmarks. Compared with the case where non-volatile registers are inserted to the original position, 2.6%—15.1% power reductions (8.34% on average) have been found.

    CiNii

  • 最大フロー最小カット定理を用いた不揮発レジスタの書込み削減

    糸井 優大, 木村 晋二

    研究報告システムLSI設計技術(SLDM)   2012 ( 19 ) 1 - 6  2012年10月

     概要を見る

    近年,磁気トンネル結合を用いた次世代不揮発メモリ/レジスタが注目されている.これらは CMOS 素子と集積可能で,電源遮断時でも記憶を保持でき,電源を戻す時のオーバーヘッドが少ないので,細かい粒度で LSI の電源管理が可能となる.しかし,不揮発レジスタは通常のレジスタに比べて書込み電力が 3-10 倍程度大きく,かつ書込み回数に制限があるものもあり,不要な書込みを制限することが必要不可欠である.そこで本稿では,最大フロー最小カット定理を用いた不揮発レジスタの書込み回数削減手法を示す.本手法では,元のレジスタの位置と無関係に,回路中の信号のスイッチング確率の総和が最小となるカットセットを探索し,そこに値保持用の不揮発レジスタを挿入する.本手法を ISCAS 89 ベンチマーク回路に適用したところ,元のレジスタの場所に入れるのと比較して, 11 回路中 6 個の回路で 3% 以上の削減が認められ,毎クロック書込みの場合で 4.9%~34.6% (平均で 20.8%), 一定間隔を置いて書き込む場合で3.8%~34.8% (平均で16.6%) の削減が得られることを示した.Recently, the next generation non-volatile memory/register using magnetic tunnel junction elements has been paid attention. Such devices can integrate in CMOS LSI and can keep the data when power off with very small overhead for recovering the data when power on. By using such devices, we can apply fine and low overhead power control for CMOS LSI. The write energy of such devices, however, is a little bit large (about 3-10 times) compared with that of a usual D flip-flop, and some type of such devices have the limitation of the total number of writes. So it is very important to control the write operations on such devices. In the research, a write reduction method for non-volatile registers is proposed based on the min-cut max-flow theorem. The smallest cut-set from the point of the switching activity is searched and non-volatile registers are injected to the cut-set independent from the original register position. The method has been implemented and applied to ISC AS 89 benchmarks. 6 circuits in 11 benchmarks showed the write reduction more than 3%. 4.9%~34.6% write reductions (20.8% on average) have been found when the non-volatile registers are written at every clock, and 3.8%~34.8% write reductions (16.6% on average) have been found when the non-volatile registers are written at regular intervals.

    CiNii

  • 状態遷移の解析に基づく磁気フリップフロップ書き込み制御手法

    岡田 直也, 中村 祐一, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   112 ( 71 ) 13 - 18  2012年05月

     概要を見る

    本稿では,不揮発性磁気フリップフロップ(MFF)に対する書き込み制御手法を提案する.MFFにより,LSIの論理回路部分の待機電力をゼロにできるとともに,待機状態からの高速な復帰が可能になる.しかし,MFFには書き込み時のエネルギーが従来のDFFに比べて約10倍大きいという問題がある.このため,MFFへの不要な書き込み動作を削減することが望ましい.順序回路の状態遷移において,回路の出力と次状態がある現状態変数に依存しない場合,その状態変数に対応するフリップフロップへの書き込みは必要ない.このような書き込み動作を判定する論理演算手法を考案し,提案手法を実現する制御回路を構築した.提案手法はフリップフロップの現在の値と次の値のEXORによって書き込みを削減する従来のクロックゲーティング手法と組み合わせることが可能である.実験の結果,提案手法を従来の手法に組み合わせると,従来の手法を単独で使用する場合に比べて1.9%〜4.8%の面積オーバーヘッドで,最大15.3%の電力を削減できることが確認できた.

    CiNii

  • A-3-10 状態遷移の解析に基づく書込み制御回路の検討(A-3.VLSI設計技術,一般セッション)

    岡田 直也, 中村 祐一, 木村 晋二

    電子情報通信学会総合大会講演論文集   2012   94 - 94  2012年03月

    CiNii

  • A-3-8 メモリを用いた算術演算回路のFPGA実現とその電力評価(A-3.VLSI設計技術,一般セッション)

    余 心牧, 浜口 清治, 木村 晋二

    電子情報通信学会総合大会講演論文集   2012   92 - 92  2012年03月

    CiNii

  • 一般化並列カウンタを用いたマルチオペランド加算器合成問題のILPによる定式化

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   111 ( 40 ) 39 - 44  2011年05月

     概要を見る

    FPGA上でマルチオペランド加算を実現する場合,桁上げを伝播させずにオペランド数を圧縮する回路を一般化並列カウンタを用いてLUT上に実現する方が,キャリーチェインを用いた加算木構成よりも,高速に実現できることが最近の研究で分かってきた.本稿では,オペランド数圧縮回路を構築する過程を,用いるGPCの種類と個数を決定する過程とそれに基づいて回路を構築する過程に分割し,前半部分を整数線形計画問題として定式化し段数および要素数の最小化を行う手法を提案する.

    CiNii

  • 論理素子の制御値に基づく多段のパワーゲーティング

    金 予, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   111 ( 40 ) 33 - 38  2011年05月

     概要を見る

    本稿では、論理素子の制御値に基づく超細粒度パワーゲーティングの多段化手法を提案する。本パワーゲーティング手法は、論理素子のある入力で他の入力の計算部分のパワーオフ制御を行うもので、その入力が制御値の時に制御対象のゲートをパワーオフする。多段化では、パワーゲーティングされているブロックの中のゲート集合に対して、さらに制御値を用いたパワーゲーティングを行うことで、パワーオフの確率を向上させる。実際に本手法を実現してベンチマーク回路に適用した結果、回路の段数を一定に保つという条件下で、1段のパワーゲーティングに比較して2段化でパワーオフできるゲートの数が10%〜50%増加できた。

    CiNii

  • 次状態関数処理に基づく高速不揮発メモリに対する書き込み最適化

    岡田 直也, 中村 祐一, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   110 ( 432 ) 165 - 170  2011年02月

     概要を見る

    消費電力削減の観点から,MRAMやPCMなどの高速不揮発メモリが注目されている.しかし,高速不揮発メモリには,書き込み動作に必要なエネルギーが大きく,書き込み回数に制限があるという問題が存在する.そのため,不要な書き込み動作は可能な限り削減することが望ましい.そこで,本稿では状態遷移レベルにおける不要な書き込みを特定することにより,高速不揮発メモリへの不要な書き込みの削減を図った.状態遷移において次状態が特定のビットの値に依存しない場合,そのビットは冗長なビットとなり,書き込みの必要が無い.このような冗長なビットを各状態で判定する手法を考案し,ISCAS'89ベンチマーク回路に適用したところ,0.45%から50.78%の書き込みが不要であると確認できた.

    CiNii

  • キャリーチェインを用いたマルチオペランド加算器のFPGA向け低電力合成手法 (コンピュータシステム)

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告   110 ( 361 ) 93 - 98  2011年01月

    CiNii

  • キャリーチェインを用いたマルチオペランド加算器のFPGA向け低電力合成手法 (リコンフィギャラブルシステム)

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告   110 ( 362 ) 93 - 98  2011年01月

    CiNii

  • キャリーチェインを用いたマルチオペランド加算器のFPGA向け低電力合成手法 (VLSI設計技術)

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告   110 ( 360 ) 93 - 98  2011年01月

    CiNii

  • キャリーチェインを用いたマルチオペランド加算器のFPGA向け低電力合成手法

    松永 多苗子, 木村 晋二, 松永 裕介

    研究報告システムLSI設計技術(SLDM)   2011 ( 16 ) 1 - 6  2011年01月

     概要を見る

    FPGA 上で多入力加算を実行する場合,通常のキャリーチェインを用いた加算木構成よりも LUT 上に桁上げを伝播させない加算を実現してそれを用いる手法の方が高速な回路が得られることが最近になってわかってきた.その一方で,LUT ベースの構成は加算木構成よりも要素数が増大し,消費電力が大きくなる傾向が観測されている.本稿では,一部にキャリーチェインを用いた構成要素を使用することによって,性能の劣化を抑えながら消費電力を削減する手法を提案する.Recent researches suggest that multi-operand adders can be realized on LUTbased FPGAs efficiently. Faster circuits than adder trees can be obtained by those approaches, while the number of components would increase, which would cause the increase of power dissipation. This paper proposes an approach for power-aware synthesis of multi-operand adders at the higher speed by partially using carry-chain structures on FPGAs.

    CiNii

  • マルチステージクロックゲーティングにおけるクロック制御回路の共有について

    満 欣, 堀山 貴史, 木村 智生, 甲斐 康司, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   110 ( 316 ) 185 - 190  2010年11月

     概要を見る

    クロックゲーテイングは、順序回路の動的電力削減に有効であることが知られている。本論文では、クロックゲーテイングされたクロックを用いてさらにクロックゲーテイングを行うマルチステージのクロックゲーテイングにおいて、マルチステージのクロック制御信号を抽出し、クロック制御回路を共有する手法について述べる。クロック制御回路の共有により、レジスタおよびクロック制御回路自体のスイッチングアクティビティを削減可能である。本手法は、BDD(二分決定グラフ)を用いて実現され、カウンタ回路やベンチマーク回路に適用された。平均で23%のスイッチングアクティビティの削減が得られた。また、レイアウト後の回路データを用いた電力評価も行なった。

    CiNii

  • 未来を切り拓く最先端 VLSI テクノロジー : 1.メディア処理における超低消費電力SoC技術

    後藤 敏, 池永 剛, 吉村 猛, 木村 晋二, 戸川 望

    情報処理   51 ( 7 ) 837 - 845  2010年07月

    CiNii

  • 自動パイプライン化を用いた FPGA におけるプロトタイピングの高速化

    鄭 カイ, シンウェイジェイ, 木村 智生, 甲斐 康司, 九黒丸 俊一, 木村 晋二

    研究報告システムLSI設計技術(SLDM)   2009 ( 4 ) 1 - 6  2009年05月

     概要を見る

    本報告では、FPGA におけるプロトタイピングの新しい高速化アルゴリズムを提案する。基本的なアイディアは、FPGA マッピングの結果であるオリジナル回路を分割し、パイプラインレジスタを挿入し、スループットを向上することである。この時、FPGA のロジックエレメントの中の使われていないレジスタを利用し、パイプラインを構成するときに必要なFPGA 資源を削減することを目標とする。分割においては、カットセットベースのアルゴリズムを用いている。本手法をベンチマーク回路に適用し、クロックの 11.9%~109% の向上を確認した。In this report, we propose a new approach for the FPGA-based prototyping acceleration. In this method, a circuit mapped on FPGA is divided into two parts and converted to a pipeline circuit by inserting registers. With this, the throughput of the circuit can be improved. When inserting pipeline registers, we devise a method to use un-used registers in logic elements of FPGA for reducing the resource of the FPGA. A cut-set based algorithm is used in the partitioning. The algorithm is applied to several benchmark circuits, and 11.9% to 109% increases on clock frequency are obtained.

    CiNii

  • A New Heuristic for Autonomic Controlling Value Based Power Gating (システムLSI設計技術(SLDM) Vol.2009-SLDM-140)

    Lei Chen, Shinji Kimura

    研究報告システムLSI設計技術(SLDM)   2009 ( 5 ) 1 - 6  2009年05月

     概要を見る

    A new heuristic algorithm is proposed in this paper to optimize the sleep signal selection in controlling-value-based (CV-based) power gating technology. Different from the previously proposed algorithms, for each power block, both the probability of taking controlling vlaue (p) and the number of sleep gates (N) are considered in the new algorithm. Experiment results show that the proposed heuristic algorithm can achieve over 26% of total power reduction without sacrificing the performance, which is approximately 10% more than the power reduction obtained by the prior algorithms.A new heuristic algorithm is proposed in this paper to optimize the sleep signal selection in controlling-value-based (CV-based) power gating technology. Different from the previously proposed algorithms, for each power block, both the probability of taking controlling vlaue (p) and the number of sleep gates (N) are considered in the new algorithm. Experiment results show that the proposed heuristic algorithm can achieve over 26% of total power reduction without sacrificing the performance, which is approximately 10% more than the power reduction obtained by the prior algorithms.

    CiNii

  • FPGAを対象とした部分積加算回路の合成について

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告. IE, 画像工学   108 ( 229 ) 59 - 63  2008年09月

     概要を見る

    本稿では、FPGAを対象として、並列乗算器の部分積加算回路を、一般化したカウンタを用いて合成する手法について述べる。ライブラリセルを用いて実現する場合、カウンタの規模が大きくなると、その面積や遅延の特性も大きくなり、大規模カウンタを用いる効果は単純には判断できない。しかし、k入力のLUTから構成されるFPGAを対象とした場合、カウンタの入力がk以下であれば、同じコストで実現できるため、適切なカウンタを組み合わせて部分回路を構成することによって高速化、小面積化が期待できる。提案手法は、Dadda Treeの概念を一般化したカウンタに適用したもので、実験結果により、既存手法より10%程度面積が削減できることが確認された。

    CiNii

  • Fine-grained power gating based on the controlling value of logic gates (VLSI設計技術)

    Chen Lei, Horiyama Takashi, Nakamura Yuichi, KIMURA Shinji

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   108 ( 23 ) 19 - 24  2008年05月

     概要を見る

    Leakage power dissipation of logic gates has become an increasingly important problem. A novel fine-grained power gating approach based on the controlling value of logic gates is proposed for leakage power reduction. In the method, sleep signals of the power-gated blocks are extracted based on the probability of the controlling value of logic gates without any extra control logic. A basic algorithm and a probability-based heuristic algorithm have been developed to implement this method. The steady maximum delay constraint has also been introduced to handle the delay overhead. Experiments on the ISCAS'85 benchmarks show the effectiveness of our algorithms and the effect on the extra delay.

    CiNii

  • Checker circuit generation for System Verilog Assertions in prototyping verification (VLSI設計技術)

    Wang Mengru, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   108 ( 22 ) 7 - 12  2008年05月

     概要を見る

    Reduction of verification period is the crucial problem in the recent LSI designs, and prototyping/emulation technologies are used for the reduction. Assertion-Based Verification (ABV) has been paid attention to check design errors at run time in simulation, and it has become an important to combine ABV with the prototyping. In the manuscript, we discuss about a generation method of checker circuit for System Verilog Assertions (SVA's). SVA is one of standard method to describe assertions in ABV. In the checker circuit generation, we focus on the hardware cost reduction.

    CiNii

  • スイッチング確率を考慮した prefix graph 合成手法の改良について

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   108 ( 22 ) 31 - 36  2008年05月

     概要を見る

    Prefix graphはparallel prefix adderの概略構造を表現するもので、加算器の、テクノロジに依存しないレベルでの構造を探索するために用いることができる。Prefix graphに対しては、これまでにタイミング制約下でのノード数最小化問題を対象として、動的計画法による面積最小化、および、再構築による面積削減の2つのプロセスからなる合成手法が提案されている。また、消費電力の一つの要因であるスイッチング確率に対する適用も提案されているが、ノード数に比べて効果があがっていなかった。本稿では、スイッチング確率を考慮したprefix graph合成手法として、動的計画法プロセスにおけるコストに、再構築プロセスの效果を見積り補正を加える手法を提案する。特に入力タイミング制約や入力が1である確率がビットに一様ではない場合を例に実験結果を示し、アプローチの效果と課題を考察する。

    CiNii

  • スイッチング確率を考慮した prefix graph 合成手法の改良について

    松永 多苗子, 木村 晋二, 松永 裕介

    情報処理学会研究報告システムLSI設計技術(SLDM)   2008 ( 38 ) 31 - 36  2008年05月

     概要を見る

    Prefix graph は parallel prefix adder の概略構造を表現するもので、加算器の、テクノロジに依存しないレベルでの構造を探索するために用いることができる。Prefix graph に対しては、これまでにタイミング制約下でのノード数最小化問題を対象として、動的計画法による面積最小化、および、再構築による面積削減の2つのプロセスからなる合成手法が提案されている。また、消費電力の一つの要因であるスイッチング確率に対する適用も提案されているが、ノード数に比べて効果があがっていなかった。本稿では、スイッチング確率を考慮した prefix graph 合成手法として、動的計画法プロセスにおけるコストに、再構築プロセスの効果を見積り補正を加える手法を提案する。特に入力タイミング制約や入力が1である確率がビットごとに一様ではない場合を例に実験結果を示し、アプローチの効果と課題を考察する。A prefix graph represents a global structure of a parallel prefix adder, and can be utilized to search various adder structures at technology independent level. An approach for timing-driven area minimization has been proposed which consists of two phases, dynamic programming based area minimization and area reduction with restructuring. This approach is also applied to minimize the total switching activity which is one factor which affects power consumption, though it is not so effective as area minimization. In this paper, an approach is proposed which integrates the effect of the restructuring phase into dynamic programming phase to improve ability of switching cost minimization. Effects and issues of our method are discussed through experimental results.

    CiNii

  • Fine-grained power gating based on the controlling value of logic gates (システムLSI設計技術)

    Lei Chen, Takashi Horiyama, Yuichi Nakamura, Shinji Kimura

    情報処理学会研究報告システムLSI設計技術(SLDM)   2008 ( 38 ) 55 - 60  2008年05月

     概要を見る

    Leakage power dissipation of logic gates has become an increasingly important problem. A novel fine-grained power gating approach based on the controlling value of logic gates is proposed for leakage power reduction. In the method sleep signals of the power-gated blocks are extracted based on the probability of the controlling value of logic gates without any extra control logic. A basic algorithm and a probability-based heuristic algorithm have been developed to implement this method. The steady maximum delay constraint has also been introduced to handle the delay overhead. Experiments on the ISCAS'85 benchmarks show the effectiveness of our algorithms and the effect on the extra delay.Leakage power dissipation of logic gates has become an increasingly important problem. A novel fine-grained power gating approach based on the controlling value of logic gates is proposed for leakage power reduction. In the method, sleep signals of the power-gated blocks are extracted based on the probability of the controlling value of logic gates without any extra control logic. A basic algorithm and a probability-based heuristic algorithm have been developed to implement this method. The steady maximum delay constraint has also been introduced to handle the delay overhead. Experiments on the ISCAS'85 benchmarks show the effectiveness of our algorithms and the effect on the extra delay.

    CiNii

  • Lingのキャリー計算に基づくparallel prefix adder合成について

    松永 多苗子, 木村 晋二, 松永 裕介

    情報処理学会研究報告システムLSI設計技術(SLDM)   2007 ( 114 ) 163 - 168  2007年11月

     概要を見る

    Ling adder は隣り合う2ビットずつをまとめたキャリー計算に基づく加算器であり、このキャリー計算は prefix 計算として通常の parallel prefix adder と同様の定式化が可能である。本論文では、通常のキャリー生成、伝搬関数に基づいた parallel prefix adder 合成手法を Ling キャリーに対して適用することによって Ling adder を生成し、両者を比較することによって、方式の違いによる差異、および、それを採り入れた合成手法の評価を行う。Ling adders calculate carry propagation based on adjacent bit pairs, and can be formulated as parallel prefix adders. In this paper, our synthesis framework for usual parallel prefix adders based on carry-generate and propagate functions is extended to treat Ling' carry. Some experimental results are shown to discuss its effectiveness to integrate into our framework.

    CiNii

  • Ling のキャリー計算に基づく parallel prefix adder 合成について

    松永 多苗子, 木村 晋二, 松永 裕介

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   107 ( 336 ) 49 - 54  2007年11月

     概要を見る

    Ling adderは隣り合う2ビットずつをまとめたキャリー計算に基づく加算噐であり、このキャリー計算はprefix計算として通常のparallel prefix adderと同様の定式化が可能である。本論文では、通常のキャリー生成、伝搬関数に基づいたparallel prefix adder合成手法をLingキャリーに対して適用することによってLing adderを生成し、両者を比較することによって、方式の違いによる差異、および、それを採り入れた合成手法の評価を行う。

    CiNii

  • 回路変更を用いたプロトタイプ設計検証における高速化

    井上 敬太, ?唯頡, 木村 晋二

    情報処理学会研究報告組込みシステム(EMB)   2007 ( 27 ) 113 - 118  2007年03月

     概要を見る

    電子機器の普及に伴い,高機能化が進むSoC(System on Chip)開発において,設計期間の60%以上を占める検証期間の短縮が求められている.検証では,シミュレーションが主に用いられているので,シミュレーションの高速化が重要である.一般的には,FPGAなどのハードウェアを用いたエミュレーションによってシミュレーションの高速化を図るが,エミュレーションによる高速化だけでは十分ではない.そこで同期式マイクロパイプライン方式を提案し,高速なクロックで機能検証を行う手法を示す.同期式パイプライン法は,-次元的に処理が行われる場合には有効に適用できる.また,パイプライン各段の組合せ回路の高速化として,組合せ回路の最長経路のfalse path化による手法,とくに0信号伝播と1信号伝播を分けて伝播する手法を示す.In recent SoC (System on Chip) design, more then 60% of design period has been spent by the verification, so we need efficient verification method to reduce the verification time. In the verification, functional simulation is mainly applied, and the acceleration of the simulation by using hardware emulation with FPGA is considered effective. The emulation for large circuits, however, is rather slow, and the speed-up is expected for the reduction of the verification time. In this report, we show an accelerator method based on synchronous pipelining and false-path based combinational circuit delay reduction method. The synchronous pipelining is effective to one-dimensional processing circuits. In the false path-based methods, we focus on the 0&1 skip method where we propagate 0-signal and 1-signal separately.

    CiNii

  • Bit-Length Optimization Method for High-Level Synthesis Based on Non-linear Programming Technique

    DOI Nobuhiro, HORIYAMA Takashi, NAKANISHI Masaki, KIMURA Shinji

    IEICE transactions on fundamentals of electronics, communications and computer sciences   89 ( 12 ) 3427 - 3434  2006年12月

     概要を見る

    High-level synthesis is a novel method to generate a RT-level hardware description automatically from a high-level language such as C, and is used at recent digital circuit design. Floating-point to fixed-point conversion with bit-length optimization is one of the key issues for the area and speed optimization in high-level synthesis. However, the conversion task is a rather tedious work for designers. This paper introduces automatic bit-length optimization method on floating-point to fixed-point conversion for high-level synthesis. The method estimates computational errors statistically, and formalizes an optimization problem as a non-linear problem. The application of NLP technique improves the balancing between computational accuracy and total hardware cost. Various constraints such as unit sharing, maximum bit-length of function units can be modeled easily, too. Experimental result shows that our method is fast compared with typical one, and reduces the hardware area.

    CiNii

  • ALUアレイベースのリコンフィギュラブルプロセッサによるソフトウェア無線機

    小曽根 真, 平瀬 勝典, 飯塚 和久, 中島 洋, 平松 達夫, 木村 晋二

    電子情報通信学会技術研究報告. SR, ソフトウェア無線   106 ( 188 ) 173 - 178  2006年07月

     概要を見る

    ソフトウェア無線は,共通のハードウェア上で複数の無線機能をソフトウェアの変更により実現させるシステムであり,次世代の無線システムとして期待されている.本稿では,独自開発したALUアレイベースのリコンフィギュラブルプロセッサのアーキテクチャとコンパイラについて明らかにするとともに,本プロセッサを用いて試作したソフトウェア無線機について述べる.本プロセッサは,ALUをアレイ状に配置しており,ALU間の接続に独自の制限を加えている.本プロセッサの処理内容はC言語で記述し,本コンパイラはデータフローグラフを介した独自のコンパイル手法を用いて処理する.本ソフトウェア無線試作機では,本プロセッサ上に地上波デジタルテレビ「ワンセグ」とFMラジオの復調処理を実装し、実放送波によるこれらのリアルタイム復調とソフトウェアの変更による復調処理の切り替えが行えることを示した.今回の試作により,ソフトウェア無線における本プロセッサの有用性を実証することができた.

    CiNii

  • 動的再構成可能配線について

    木村 晋二

    情報処理学会研究報告システムLSI設計技術(SLDM)   2006 ( 41 ) 7 - 12  2006年05月

     概要を見る

    LSIシステムのバグや仕様変更への対応として、ハードウェアの再構成可能性が着目されている。中でも実行時に動的に構成を変更できる動的再構成については、いくつかハードウェアプラットフォームが提供されるなど、研究開発が活発化している。再構成可能性に関しては、基本素子の機能変更と配線の機能変更とに分けて考えることができる。本稿では、配線の動的な再構成可能性に着目し、計算結果に応じて配線を変更できるアーキテクチャを提案する。具体的には配線領域に選択機能を導入し、それを回路のマッピングに用いることで、配線領域における遅延を増加させることなく、効率的な回路のマッピングが可能となる。Recongurable architecture is one of key technologies to cope with bugs and the specication changes of system LSI. Especially, the dynamic reconguration has been paid attention. In the paper, we consider about the dynamic recongurable wiring architecture in FPGA and its application to mapping of logic circuits. By the architecture, we can map multiplexors to wiring resource in FPGA with small extra area and no extra delay.

    CiNii

  • 動的再構成可能配線について

    木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   106 ( 31 ) 7 - 12  2006年05月

     概要を見る

    LSIシステムのバグや仕様変更への対応として、ハードウェアの再構成可能性が着目されている。中でも実行時に動的に構成を変更できる動的再構成については、いくつかハードウェアプラットフォームが提供されるなど、研究開発が活発化している。再構成可能性に関しては、基本素子の機能変更と配線の機能変更とに分けて考えることができる。本稿では、配線の動的な再構成可能性に着目し、計算結果に応じて配線を変更できるアーキテクチャを提案する。具体的には配線領域に選択機能を導入し、それを回路のマッピングに用いることで、配線領域における遅延を増加させることなく、効率的な回路のマッピングが可能となる。

    CiNii

  • 浮動小数点演算と演算チェイニングを考慮した粗粒度再構成可能ハードウェア

    阿久津 日出実, 木村 晋二

    電子情報通信学会技術研究報告. ICD, 集積回路   105 ( 647 ) 43 - 48  2006年03月

     概要を見る

    近年,8bitや16bitのデータ演算を基本とする粗粒度再構成可能ハードウェアの研究開発が盛んに行われている.その理由は,粗粒度はFPGAのような細粒度に比べて構成に必要な情報量が少なく,構成時間を削減する可能性があると同時に,同じ機能を実現する時に遅延,面積,消費電力を削減できるためあるためである.これまで粗粒度再構成可能ハードウェアでは整数演算のみを考慮してきたが,連続した加減算を高速化できる加減算のチェイニングの考慮はなかった.また,ソフトウェアアルゴリズムのプロトタイピングにおける高速実行などの用途では浮動小数点演算も欠かせないが,その実現も考慮しなかった.そこで本稿では,浮動小数点演算や演算を高速に行うためのハードウェアアーキテクチャを提案し,その実現方法を示す.

    CiNii

  • 高位検証における等価論理式への変換手法について

    鄭 光〓, 木村 晋二

    電子情報通信学会技術研究報告. ICD, 集積回路   105 ( 646 ) 79 - 84  2006年03月

     概要を見る

    近年のLSIの集積規模の増大とともに,C言語などの高位レベルでのハードウェア設計手法の適用が始まりつつあり,同時に高位レベルの検証手法に対する要求が高まっている.高位レベルでは,シミュレーション自体も高速となることが知られているが,シミュレーションで完全に正当性を検証することは不可能に近いので,機能の最適化などでは等価検証が必要とされる.そこで本稿では,高位レベルの等価検証に着目し,等価論理に基づくCVC (Cooperating Validity Checker)を用いたC/Verilog記述の検証手法を提案する.具体的には,C/Verilogの記述をCVCの式に変換し,その等価性をCVCを用いて検証する手法である.生成されたCVC式の処理では,生成手法により検証時間が大きく異なるので,ここではいくつかの変換手法を提案してその影響を確認する.

    CiNii

  • Structural Coverage of Traversed Transitions for Symbolic Model Checking

    Xingwen Xu, Shinji Kimura, Kazunari Horikawa, Takehiko Tsuchiya

    情報処理学会研究報告システムLSI設計技術(SLDM)   2005 ( 121 ) 197 - 202  2005年11月

     概要を見る

    Coverage estimation for model checking has become an important issue in practical formal verification. Transition traversal coverage focuses on the transition characteristics of CTL operators and calculates which transitions are traversed during the model checking process of properties. One limitation of the method is the lack of the correspondence between the circuit structure and transitions. One transition might be covered no matter which part of the circuit is checked (or not) related to the transition. This leads to the overestimation of the coverability of properties. In this paper we enhance the transition traversal coverage by analyzing the structural coverage of each traversed transition. We consider which variables are checked explicitly or implicitly on the traversed transitions. Thus we deduce which part of the circuit is checked by properties for each traversed transition. The importance is that we can analyze Which part of the circuit has not been verified. The accuracy of the transition traversal coverage is enhanced by our technique. We show the effectiveness of the proposed method by experiments.Coverage estimation for model checking has become an important issue in practical formal verification. Transition traversal coverage focuses on the transition characteristics of CTL operators and calculates which transitions are traversed during the model checking process of properties. One limitation of the method is the lack of the correspondence between the circuit structure and transitions. One transition might be covered no matter which part of the circuit is checked (or not) related to the transition. This leads to the overestimation of the coverability of properties. In this paper, we enhance the transition traversal coverage by analyzing the structural coverage of each traversed transition. We consider which variables are checked explicitly or implicitly on the traversed transitions. Thus, we deduce which part of the circuit is checked by properties for each traversed transition. The importance is that we can analyze Which part of the circuit has not been verified. The accuracy of the transition traversal coverage is enhanced by our technique. We show the effectiveness of the proposed method by experiments.

    CiNii

  • 非線形方程式と整数解の探索に基づく高位合成向けビット長最適化

    土井 伸洋, 堀山 貴志, 中西 正樹, 木村 晋二

    情報処理学会研究報告システムLSI設計技術(SLDM)   2005 ( 27 ) 133 - 138  2005年03月

     概要を見る

    ハードウェア設計においては浮動小数点演算の固定小数点演算化が面積速度の点から重要であるが,変換においては演算誤差を考慮してビット最適化が必要であることから,人手による変換は困難であった.そこで我々はビット長最適化問題を非線形問題へ帰着させて解く自動化手法の研究を行っている.一般的な非線形計画法では探索により整数解を求める方法を示す.This paper presents bit-length optimization technique for high-level synthesis based on non-linear programming and searching integer solutions. The results of the bit-length optimization based on non-linear programming are real values, and these values are converted to integer with round-up for hardware implementation. In this paper, we show a method to search integer solutions under the constrains of the real solution. The experimental results shows the advantage of searching based method.

    CiNii

  • 非線形方程式と整数解の探索に基づく高位合成向けビット長最適化

    土井 伸洋, 堀山 貴史, 中西 正樹, 木村 晋二

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   104 ( 738 ) 43 - 48  2005年03月

     概要を見る

    ハードウェア設計においては浮動小数点演算の固定小数点演算化が面積や速度の点から重要であるが, 変換においては演算誤差を考慮したビット長最適化が必要であることから, 人手による変換は困難であった.そこで我々はビット長最適化問題を非線形問題へ帰着させて解く自動化手法の研究を行なっている.一般的な非線形計画法では解が実数となるため, ビット長最適化においては解の切上げが必要であった.そこで本稿では, 実数解の制約のもとで, 探索により整数解を求める方法を示す.

    CiNii

  • ALU間接続を制限したALUアレイによるリコンフィギュラブルプロセッサの検討

    岡田 誠, 平松 達夫, 中島 洋, 小曽根 真, 平瀬 勝典, 木村 晋二

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   104 ( 591 ) 1 - 6  2005年01月

     概要を見る

    本稿では, 小型で処理効率の良いALUアレイベースのダイナミックリコンフィギュラブルプロセッサを提案する.ALU間の接続に制限を加えることで, 接続部分の回路規模を約63%に削減できることを示すと同時に, 独自開発したデータフローのマッピング手法を用いることにより, 接続制限を行わないアーキテクチャと同程度の処理性能を達成できることを示す.本アーキテクチャの有用性を示すため, MPEG-4デコード処理を本アーキテクチャにマッピングして評価を行った.ASIC回路との比較を行った結果, 同等の性能を約2.4倍の回路規模で達成できることを示している.これはリコンフィギュラブルプロセッサの汎用性を考えると適当であると考えられる.

    CiNii

  • A Selective Scan Chain Reconfiguration through Run-Length Coding for Test Data Compression and Scan Power Reduction

    SHI Youhua, KIMURA Shinji, YANAGISAWA Masao, OHTSUKI Tatsuo

    IEICE transactions on fundamentals of electronics, communications and computer sciences   87 ( 12 ) 3208 - 3215  2004年12月

     概要を見る

    Test data volume and power consumption for scan-based designs are two major concerns in system-on-a-chip testing. However, test set compaction by filling the don't-cares will invariably increase the scan-in power dissipation for scan testing, then the goals of test data reduction and low-power scan testing appear to be conflicted. Therefore, in this paper we present a selective scan chain reconfiguration method for test data compression and scan-in power reduction. The proposed method analyzes the compatibility of the internal scan cells for a given test set and then divides the scan cells into compatible classes. After the scan chain reconfiguration a dictionary is built to indicate the run-length of each compatible class and only the scan-in data for each class should be transferred from the ATE to the CUT so as to reduce test data volume. Experimental re sults for the larger ISCAS'89 benchmarks show that the proposed approach overcomes the limitations of traditional run-length coding techniques, and leads to highly reduced test data volume with significant power savings during scan testing in all cases.

    CiNii

  • A Hybrid Dictionary Test Data Compression for Multiscan-Based Designs

    SHI Youhua, KIMURA Shinji, YANAGISAWA Masao, OHTSUKI Tatsuo

    IEICE transactions on fundamentals of electronics, communications and computer sciences   87 ( 12 ) 3193 - 3199  2004年12月

     概要を見る

    In this paper, we present a test data compression technique to reduce test data volume for multiscan-based designs. In our method the internal scan chains are divided into equal sized groups and two dictionaries were build to encode either an entire slice or a subset of the slice. Depending on the codeword, the decompressor may load all scan chains or may load only a group of the scan chains, which can enhance the effectiveness of dictionary-based compression. In contrast to previous dictionary coding techniques, even for the CUT with a large number of scan chains, the proposed approach can achieve satisfied reduction in test data volume with a reasonable smaller dictionary. Experimental results showed the proposed test scheme works particularly well for the large ISCAS'89 benchmarks.

    CiNii

  • 抽象解釈手法に基づく変数の相互関係解析とそのデータパス最適化への応用

    土井 伸洋, 堀山 貴史, 中西 正樹, 木村 晋二

    情報処理学会研究報告システムLSI設計技術(SLDM)   2004 ( 56 ) 41 - 46  2004年05月

     概要を見る

    Cプログラムからのハードウェア合成においてはビット長最適化をはじめとするさまざまなハードウェア向け最適化が必要である.このためにはプログラム中の変数がとりうる値やデータフローを推測することが必要で,静的解析手法が使われることが多いが,精度などの点で不十分な点がある.本稿ではソフトウエア検証の分野で注目されている抽象解釈(Abstract Interpretation)手法に基づくプログラムの解析と,データパス最適化への応用について述べる.Various optimization techniques such as bit-length optimization are required for hardware generation from C programs. The value range analysis and dataflow analysis are effective for such optimization and static pro gram analysis methods have been used. The static methods, however, have several problems such as the preciseness, the overestimation, etc. In this paper, we describe a program analysis method based on abstract interpretation and its application for datapath optimization.

    CiNii

  • 抽象解釈手法に基づく変数の相互関係解析とそのデータパス最適化への応用

    土井 伸洋, 堀山 貴史, 中西 正樹, 木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   104 ( 79 ) 7 - 12  2004年05月

     概要を見る

    Cプログラムからのハードウェア合成においてはビット長最適化をはじめとするさまざまなハードウェア向け最適化が必要である.このためにはプログラム中の変数がとりうる値やデータフローを推測することが必要で,静的解析手法が使われることが多いが,精度などの点で不十分な点がある.本稿ではソフトウエア検証の分野で注目されている抽象解釈(Abstract Interpretation)手法に基づくプログラムの解析と,データパス最適化への応用について述べる.

    CiNii

  • プロセッサにおける配線の再構成可能性の利用について

    原田 恭典, 木村 晋二, 柳澤 政生

    情報処理学会研究報告システムLSI設計技術(SLDM)   2004 ( 5 ) 1 - 6  2004年01月

     概要を見る

    本稿では,プロセッサにハードウェア的な再構成可能性を導入する手法を提案する.プロセッサの性能を左右する要素として,演算器の性能の他に,演算器やレジスタを接続する配線構造がある.これまでプロセッサの構成を変更する場合は,演算に着目し,ビットレベルのデータ処理に必要な再構成可能な配線機構を導入する.これは,再構成可能なハードウェアの代表であるFPGAなどで用いられているスイッチングマトリクスに対応するものである.我々はこのハードウェアをバレルシフタとの類似性からバレルイクスチェンジャと呼ぶ.バレルイクスチェンジャは,n入力n出力で,任意の入出力間の接続ができるものである.これを装備したプロセッサでは,ワードデータのビットの完全置換で,設定のための命令を考慮しても10倍以上の高速化が得られる.本稿では,設計による性能評価の他にDESなどの応用に対してバレルイクスチェンジャの有効性を示す.This paper proposes a reconfigurable interconnect unit for a general (and/or embedded)processor. The performance of a processor depends not only on the operational units but also on the interconnection between registers and operational units. When configuring a processor architecture, we usually focus on the application specific operational units, but there are not a few applications on which the effect of the interconnection is larger than that of the operational units. So we focus on the recongifigurability in the interconnect architecture and we introduce a reconfigurable interconnect unit for the bit-level data processing. The unit corresponds to a switch-matrix in FPGA and is called as a barrel-exchanger because of similarity to a barrel-shifter. An n-bit barrel-exchanger has n inputs and n outputs, and any connection between inputs and outputs can be obtained. A processor with a barrel-exchanger gains more than 10 times speed-up for the bit substitution and for DES encription. We also show the area estimation of 8, 16, 32 and 64 bit barrel exchangers.

    CiNii

  • プロセッサにおける配線の再構成可能性の利用について

    原田 恭典, 木村 晋二, 柳澤 政生

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   103 ( 578 ) 1 - 6  2004年01月

     概要を見る

    本稿では,プロセッサにハードウェア的な再構成可能性を導入する手法を提案する.プロセッサの性能を左右する要素として,演算器の性能の他に,演算器やレジスタを接続する配線構造がある.これまでプロセッサの構成を変更する場合は,演算に着目されることが多かったが,応用によっては配線の影響が大きいものも多い.そこでここでは配線の再構成可能性に着目し,ビットレベルのデータ処理に必要な再構成可能な配線機構を導入する.これは,再構成可能なハードウェアの代表であるFPGAなどで用いられているスイッチングマトリクスに対応するものである.我々はこのハードウェアをバレルシフタとの類似性からバレルイクスチェンジャと呼ぶ.バレルイクスチェンジャは,n入力n出力で,任意の入出力間の接続ができるものである.これを装備したプロセッサでは,ワードデータのビットの完全置換で,設定のための命令を考慮しても10倍以上の高速化が得られる.本稿では,設計による性能評価の他にDESなどの応用に対してバレルイクスチェンジャの有効性を示す.

    CiNii

  • A Built-in Reseeding Technique for LFSR-Based Test Pattern Generation

    SHI Youhua, ZHANG Zhe, KIMURA Shinji, YANAGISAWA Masao, OHTSUKI Tatsuo

    IEICE transactions on fundamentals of electronics, communications and computer sciences   86 ( 12 ) 3056 - 3062  2003年12月

     概要を見る

    Reseeding technique is proposed to improve the fault coverage in pseudo-random testing. However most of previous works on reseeding is based on storing the seeds in an external tester or in a ROM. In this paper we present a built-in reseeding technique for LFSR-based test pattern generation. The proposed structure can run both in pseudorandom mode and in reseeding mode. Besides, our method requires no storage for the seeds since in reseeding mode the seeds can be generated automatically in hardware. In this paper we also propose an efficient grouping algorithm based on simulated annealing to optimize test vector grouping. Experimental results for benchmark circuits indicate the superiority of our technique against other reseeding methods with respect to test length and area overhead. Moreover, since the theoretical properties of LFSRs are preserved, our method could be beneficially used in conjunction with any other techniques proposed so far.

    CiNii

  • 論理関数の畳み込み機構を導入した省面積FPGAの実現と評価

    梶原 裕嗣, 中西 正樹, 堀山 貴史, 木村 晋二, 渡邉 勝正

    情報処理学会研究報告システムLSI設計技術(SLDM)   2003 ( 7 ) 37 - 42  2003年01月

     概要を見る

    論理関数の畳み込み機構を導入した新しい省面積FPGAの機構とその実現手法を提案し,LSI実現での面積および遅延の評価を示す.配線構造としては,広く用いられているislandスタイルに基づいている.複数のベンチマーク回路での評価により,通常の4-1LUTと比較して,最大で32.4%,平均でも12%の面積削減が可能であることがわかった.The paper describes an area efficient FPGA architecture based on LUTs with logic function folding. Each LUT is a 3-1 LUT but is enhanced to implement a full adder function with only one LUT. The area of our 3-1 LUT is about 56% compared to that of a simple 4-1 LUT. In the paper, we measure not only the LUT area but also the area of routing resource. We adopt the well-known island style-architecture for the routing mechanism, and find that the total FPGA area can be saved up to 32.4% and on average 12% by the experiments on several benchmark circuits compared to FPGA architecture based on 4-1 LUTs.

    CiNii

  • 論理関数の畳み込み機構を導入した省面積FPGAの実現と評価

    梶原 裕嗣, 中西 正樹, 堀山 貴史, 木村 晋二, 渡邉 勝正

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   102 ( 608 ) 37 - 42  2003年01月

     概要を見る

    論理関数の畳み込み機構を導入した新しい省面積FPGAの構造とその実現手法を提案し,LSI実現での面積および遅延の評価を示す.配線構造としては,広く用いられているislandスタイルに基づいている.複数のベンチマーク回路での評価により,通常の4-1 LUTと比較して,最大で32.4%,平均でも12%の面積削減が可能であることがわかった.

    CiNii

  • 動的命令変更機構を持つ組み込み向け Java プロセッサの設計と評価

    鈴木 真人, 木村 晋二, 渡邉 勝正

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   101 ( 671 ) 33 - 40  2002年02月

     概要を見る

    近年,携帯情報端末にJavaの実行環境を搭載することが一般的になりつつある.Javaバイトコードを直接実行できるJavaプロセッサはソフトウェアと比較して実行速度及び省メモリ性に優れており,組み込み分野への応用が期待されている.ここでは,Javaプロセッサの実行効率を向上するための手法として,動的命令変更機構を提案し,その評価を行なう.Javaでは演算の前後にスタック操作が必要となるが,バイトコード実行中にこれらの命令列をRISC型の拡張命令に動的に変更して命令キャッシュを青き換えることで,繰り返し実行での効率を向上させる.この動的命令変更機構を付加したJavaプロセッサを設計し,その性能評価を行なう.

    CiNii

  • BDD制約演算に基づく新しい像計算法について

    木村 晋二, Dill David, Govindaraju Shankar

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   101 ( 467 ) 73 - 78  2001年11月

     概要を見る

    本稿では、二分決定グラフ(BDD)の制約演算に基づく像計算の新しい手法を示す。像計算は、現状態(集合)から次状態集合を論理関数を用いて計算するための手法で、時相論理のモデルチェックなど順序回路の検証の分野で広く用いられている。ここでは、次状態変数を含む場合の制約演算と論理積(AND演算)の関係を示し、それを状態探索の次状態集合の計算に応用する手法を示す。制約演算により、論理積よりもBDDの節点数を削減できる可能性がある。中規模のISCASベンチマークで状態探索に適用した結果、論理積に基づくこれまでの提案手法に対して良い結果が得られた。

    CiNii

  • C言語を用いた音声認識・学習LSIの設計と実現について

    中村 一博, 朱 強, 丸岡 新治, 堀山 貴史, 木村 晋二, 渡邉 勝正

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   100 ( 473 ) 125 - 130  2000年11月

     概要を見る

    近年, ユーザー親和性に優れたインタフェースとして, 音声が注目されている.そこで我々は、最大64個の単音節(あ, い, う, …, A, B, C, …)をリアルタイムに認識するLSIの設計と実現をC言語レベルから行った.このLSIは, 隠れマルコフモデルに基づく不特定話者対応の認識を行い, 単音節のコードを出力する.また, 学習機能の一部を持ち, 簡単な外部回路で学習ができる.本稿では, 音声認識・学習アルゴリズムと, C言語を用いたLSIの設計手法について述べる.我々は, ハードウェアの設計を始める前に, 動作レベルのC言語で機能検証を行い, レジスタ転送レベルのC言語でクロックを考慮した機能検証とレジスタのビット幅の決定を行ってからハードウェアに変換した.

    CiNii

  • A-3-11 冗長2進CORDIC演算器を有する16ビットパイプラインプロセッサ

    尾辻 崇, 堀山 貴史, 木村 晋二, 渡邉 勝正

    電子情報通信学会ソサイエティ大会講演論文集   2000   78 - 78  2000年09月

    CiNii

  • 剰余BDDを用いた算術演算回路の設計検証

    木村 晋二

    電子情報通信学会技術研究報告. VLD, VLSI設計技術   95 ( 171 ) 1 - 8  1995年07月

     概要を見る

    論理回路合成や論理設計検証においては、論理関数の表現として二分決定グラフ(Binary Decision Diagram, BDD)と呼ばれる非巡回の有向グラフが広く用いられている。しかし、二分決定グラフは論理関数の表現においてグラフの節点数が入力の指数オーダーとなる節点爆発を含んでおり、乗算回路のような算術演算回路の検証で節点爆発のために検証が不可能となることが知られている。本報告では、算術演算回路および算術演算回路を含む回路の剰余数表現を応用した検証手法を示し、それに用いる節点爆発を生じない剰余BDDを提案する。剰余BDDは、節点数が入力の多項式のオーダーになるという性質を持つ。本稿ではこの剰余BDDの性質および算術回路の検証への応用を示す。

    CiNii

  • 論理設計の形式的検証:3. 形式的タイミング検証について

    木村 晋二

    情報処理   35 ( 8 ) 726 - 735  1994年08月

    CiNii

  • BDDの並列処理技術

    木村 晋二

    情報処理   34 ( 5 ) 624 - 630  1993年05月

    CiNii

▼全件表示

受賞

  • 編集活動感謝状

    2012年09月  

  • 日経 BP 社, LSI IP デザインアワード, IP 賞

    2000年  

  • Asian South-Pacific Design Automation Conference, University LSI Design Contest

    2000年  

  • 日経 BP 社, LSI IP デザインアワード, IP 賞

    1999年  

  • 情報処理学会 全国大会 第45回 奨励賞

    1993年03月  

共同研究・競争的資金等の研究課題

  • 機械学習による集積回路設計データ中のハードウェアトロイ検知

    研究期間:

    2019年04月
    -
    2022年03月
     

     概要を見る

    現在,集積回路設計・製造は低コスト化のため積極的に外注が利用され,外部の悪意ある設計・製造者により悪意ある回路を故意に侵入する「ハードウェアトロイ」が現実的な脅威として指摘されている.特に集積回路設計データに挿入されたハードウェアトロイは,軽微な設計データ改変で重大な事象を引き起こす可能性がある.本研究では,こ集積回路設計データ中のハードウェアトロイの各種特徴量を積極的に学習することにより,既知・未知のハードウェアトロイを検知する技術を確立する.ハードウェアトロイの危険性がないセキュア集積回路チップの実現に寄与する

  • 再構成アクセラレータにおけるデータ形式最適化と精度保証

    研究期間:

    2018年04月
    -
    2021年03月
     

  • 大域的超低エネルギー化を実現するLSI抽象モデルと上位下位統合化LSI設計技術

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2013年
    -
    2015年
     

     概要を見る

    平成25年度には研究計画全体の基礎となる研究項目(I)~(III)を実施した.
    (I) LSI 抽象モデルの構築: 本研究で提案するLSI抽象モデルを採り入れ,実際のアプリケーションを試行設計した.試行設計の結果,動作記述で数千行を越える実大規模応用プログラムにおいて電源制御,クロック制御,周波数制御可能によりエネルギー削減の可能性を確認した.
    (II) LSI 抽象モデルの検証: (I)によって設計された回路動作を「形式検証」した.特にここでは意味結合・強/弱-物理結合によるLSI 抽象モデルが,従来のLSI設計モデルと等価であることを検証した.これに加えて検証結果を用いて等価性を担保した制御回路分割を検討し(III)にてアルゴリズム化を検討した.
    (III) 低エネルギー統合化LSI 自動設計技術の構築・検証(フェーズ1-電源制御): (I)および(II)により,提案するLSI抽象モデルの妥当性が検証された後,これをベースに統合化LSI自動設計フローを構築・検証した.仮想物理設計にて,実物理制約を緩和し上位工程の面から見た理想的な物理設計をし,これと実物理設計との「距離」を小さくすることを基本とするものを考えた.距離として各機能モジュールの位置の差の総和あるいは差の二乗和としている.『意味結合』として電源『意味結合』モジュールを対象に,パワーゲーティング,複数電源電圧制御および基板電圧制御を想定,低エネルギー指向統合化LSI 自動設計技術を構築・検証した.さらにこれを計算機上に実装,複数の応用プログラムに適用することで評価した.

  • 超微細加工技術にも適応する抽象LSIモデルの構築と高位・物理 統合化LSI合成技術

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2010年
    -
    2012年
     

     概要を見る

    本研究では,第一に超微細加工プロセスによって製造されるLSI にも適応すべく,レジスタ-制御回路-機能モジュール間に結び付きの概念を導入し,LSI 内部の構成要素を物理的な結合と論理的な結合で抽象化した抽象LSI モデルを構築した.構築した抽象LSI モデルを導入することで,きわめて見通し良く高位設計と物理設計とをインターフェースすることが可能となる.次にこの抽象LSI モデルの上で,高位合成と物理合成とを統合化する新たなLSI 自動合成技術を構築しアルゴリズム化した.シミュレーション実験ならびに一部チップ試作により提案構築した技術の優位性を確認した.

  • 高性能プロセッサの設計技術に関する研究

    研究期間:

    2002年
    -
     
     

  • フレキシブルIPの形式的検証技術の研究

    研究期間:

    2002年
    -
     
     

  • IPベースシステムLSI設計技術の研究

    研究期間:

    2001年
    -
     
     

  • コンテンフに適応する発展的ソフトウェアの構成法

     概要を見る

    本研究では,「ソフトウェアの設計・開発時には適用範囲を設定できない処理対象をもつソフトウェア」の発展的な構成法を研究している.平成9年度では,ソフトウェアを発展的に構成するための方法や事例を調査し,具体的に,ソフトウェアの機能(仕様)を拡張させながら,プログラムを構成する過程を追跡した.その結果のひとつとして,「細胞に基づくプログラミング」(Poc:Programming on cells)の方針を打ち出し,そのためのエディタの構成を進めた.また,ハードウェア/ソフトウェア協調設計の観点から,メタレベルの機能等をハードウェアにより支援することの検討を進めた.細胞に基づくプログラミングでは、データ細胞、開始細胞、名前細胞、および、パターン細胞の4種を導入した。また、それぞれの細胞が活動する前条件と,活動の結果の後条件を明示して、プログラムの動きを判り易くする方針を提案した。さらに、細胞によるプログラミングを支援する環境を整えるために、Pocエディタの構成を計画して、その一部の実装を進めた。Pocの実際的な適用計画として、手指動作記述文から3次元グラフィックス表示へ変換するプログラムの開発を進めた。その結果,あらかじめ準備した記述文に対応する基本的な構文形式と,語句の辞書および表示パラメータの推定規則を用意して,中間表現への変換プログラムが作成できた.一方、発展するソフトウェアの実行環境を、ハードウェアの面から支援するために、すでに開発している「FPGAにより可変論理回路部を備えた汎用コプロセッサ」の有用性の考察を進めた.今後は、これらの内容を充実させながら,「発展するソフトウェア」を,変化するハードウェア/ソフトウェアの両面から研究を進めて行く

  • 超大規模LSI設計・実装技術の研究

     概要を見る

    本研究では、10年後の1億ゲートLSIの設計と実装問題を解決するために、SiS(システム・イン・シリコン)アーキテクチャの設計から、回路・デバイス、物理設計、実装までの方法論を確立し、SiS上でシステムの統合化を図り、従来のSoC(システム・オン・チップ)やSiP(システム・イン・パッケージ)で実現されている方法に比べて、LSI開発期間を1/5に、製造コストを1/10に、消費電力を1/10に削減できる基盤技術を開発した。具体的には(1)大規模システム設計方法の研究、(2)大規模LSI自動設計技術の研究開発、(3)大規模回路の性能と機能を保証する高位レベル検証技術を取り組み、超大規模回路を低消費電力化と大容量通信で実現し、設計コストと製造コストを飛躍的に削減する方法を開発した

  • マイクロプロセッサ制御精密交流サーボ系の計算機援用設計(CAD)手法に関する研究

     概要を見る

    産業・工業のあらゆる可動部分に用いられる電動機、とりわけ、牢な構造を持ち保守・点検が容易な誘導電機はパワーエレクトロニクスに基づく駆動回路技術の発達、ベクトル制御方式のごとき新しい制御方式の出現ならびにマイクロプロセッサ利用環境向上による新制御方式実現可能性の増大といった状況下にある。制御システムの高性能化、高信頼度化に伴い設計過程の複雑化と共に設計工程の短縮,設計経験の蓄積が必要とされるに至り計算機援用設計が重要不可欠となっている。本研究では精密交流サーボ系を対象とした計算機援用設計について以下の研究を行った。1.精密交流サーボ系の設計理論に関する研究計算機援用設計に基づく交流精密制御実現のための制御対象モデル、制御方式モデル、制御法則の確立を行った。非線形フィードバックを施すこと(非線形従属電源の付加)により外部特性を線形にし、しかる後に最適制御則を与える方法ならびに制御系の頑健性や大域性に重要な感度解析手法、安定度解析手法をも与えた。2.計算機援用設計(CAD)手法に関する研究誘導電動機,駆動回路,制御系に対し個別にあるいは複合的に電気回路モデル,ブロック線図モデル,ユーザ定義関数モデルが自由に使用できる様な支援道具を設計・試作した。また、人間・機械インターフェイスを高めるためグラフィックスによる入出力機能や検証機能についても研究を行った。3.精密交流サーボ計算機援用設計とその検証試作の計算機援用設計支援道具を用いてベクトル制御方式に基づく誘導電動機位置制御系を設計し、試作実験装置による検証を行い、有効性が確認された

  • 集合の演算とそのロバスト制御系のCADへの応用に関する研究

     概要を見る

    ロバスト制御は、制御系の不確かさなどを許容する制御として注目を集め盛んに研究されているが、それらの不確かさの表現法および評価方法自体については、あまり研究されていない。本研究では、与えられたデ-タが、ある1点として与えられるのではなく、その点を含むある集合を指していると考える立場から研究を行った。不確かさ表す集合のクラスとしては、凸多角形からなる集合を用いた。1.ロバスト制御系の安定解折に関する研究。(1)フィ-ドバック制御系の安定性は、還送差行列の行列式を解折することによって行える。本研究では、集合の演算と写像定理に基づく方法を融合した方法を開発した。これにより、計算時間の短縮と集合の演算の不確かさの拡大を防ぐという2つの目的を達成することができた。(2)対象とする制御系の状態方程式が与えられている場合には、周知のようにリアプノフの方法を用いて安定解折を行うことができる。本研究では、凸多面体を求めるアルゴリズムを利用してリアプノフ関数を計算機によって自動的に構成するという問題についても検討した。2.ロバスト制御系の設計法の開発。集合の演算と写像定理に基づく方法を融合した方法を用いて逐次帰還差法を実行する方法を開発した。この方法は、(1)各ル-プの制御器を独立に設計できること(2)保全性を保証する制御器を設計できることなどの特長を有している。3.CADシステムの開発。上に述べたロバスト逐次帰還差法に基づくCADシステムの開発を行った。また、多変数系のゲイン余有の算出を行うためのプログラムのインプリメンテ-ションも行った。これを用いることによりロバスト性の程度などもより細かく検討できる

  • 複数個のプロセッサを用いたディジタル制御器の構成と同期制御に関する研究

     概要を見る

    1.マルチプロセッサ制御器のモデルと同期制御法の研究各プロセッサが命令レベルで信号の衝突を発生させずしかも遊びが生じないようにタイミングを定める必要がある。制御器のモデルを、制御系のレギュレータ設計から得られる状態フードバック型モデルおよびディジタル論理回路設計から得られるプログラム型モデルの両者について同期制御法の検証能力の観点から検討を行なった。その結果、ディジタル側から見て離散時間系としての表現(representation)が適当であり、状態フィードバック型ディジタル制御器モデルとしてはゲイン行列を採用し、プログラム型ディジタル制御器としては離散時間伝達行列を用いるのが適当であることが明らかになった。2.最短スループット構成法および同期制御法の研究一入力一出力制御器の場合について、状態フィードバック型ディジタル制御器ならびにプログラム型ディジタル制御器の両者に対してメモリ共有型、共通バス結合型の構成を提案し最短スループットを実現する各プロセッサ内での演算分担ならびに同期制御法を提案しその性能を明らかにした。これらの結果はさらに多入力多出力制御器の場合へと拡張された。3.制御プログラムの生成法の検討状態フィードバック型ならびにプログラム型の場合に制御器特性やプロセッサの構成および同期制御手順が与えられたときに、これらよりプロセッサの命令語で書かれたプログラムリストを自動生成させるための理論的検討を行ない、支援道具の開発をおこなった。4.制御プログラムの手間計算機支援道具の開発制御プログラムのスループットを系統的に評価するために手間解析に関する理論的検討を行ない、支援道具の開発へと導いた。5.ディジタル信号プロセッサによる検証支援道具を用いてディジタル信号プロセッサの実装レベルでの総合的検証を行った

  • 順序機械の設計検証のための暗黙状態数え上げの並列化に関する研究

     概要を見る

    本研究では、論理関数の効率的な表現方法である二分決定グラフを用いた、順序回路の到達可能状態の数え挙げ手法の並列化を行った。本手法は暗黙状態数え挙げ(Implicit State Enumeration)と呼ばれ、順序回路の検証やテスト生成に使用されている。暗黙状態数え挙げは、基本的に初期状態から到達できる状態集合を網羅する手法である。順序回路において現状態と入力から次状態を決める関数は、状態を二進符合化することにより論理関数として表される。また、これまでに到達した状態集合なども、集合に属する時に1となる論理関数である特性関数で表される。本研究ではこれらの論理関数を並列二分決定グラフ処理手法で扱うことの研究を行なった。これらの論理関数の処理は、基本的には論理演算の複数個の列となるので、ここでは一般化した問題として、与えられた論理演算の列をいかに高速に処理するかの研究を行なった。並列処理手法としては、Shannon展開法を用いたもの、出力毎に処理する手法を用いたもの、Shannonの展開法を一般化したものの三つについて研究を行ない、多くの主記憶容量を要する論理関数に対してはShannonの展開法が優れていることと、一般的なベンチマークの回路に対しては出力毎の分割法が有効であるという結果を得た。Shannon展開の一般化については現在も研究を継続している。富士通研究所のAP1000を使用した実験では、乗算器の処理を512プロセサを用いて130倍程度の高速化を達成した他、一般的なベンチマーク回路に対しても64プロセサで、良い場合に27倍程度、平均で13倍程度の高速化を達成した。今後は暗黙状態数え挙げ処理特有の性質をより深く研究し、それを用いた並列化について考察する必要がある

  • 超並列アルゴリズム設計のためのデータ構造と計算モデルに関する研究

     概要を見る

    逐次処理のアルゴリズム設計においては,データ構造の工夫が効率的なアルゴリズム設計に大きく影響することが良く知られているが,数万から数百万個のプロセッサ上で動作する超並列アルゴリズムの設計においても,データ構造の重要性は当然認識されるべきものである.本研究では,超並列処理のアルゴリズム設計に対する計算モデルを確立し,その上でのデータ構造の設計原理を明確化することを目指している.特に,プロッセサ間の通信量の制約を考慮して,通信量を限定した処理に適した「局所計算可能なデータ構造」の確立を目指す.本年度の研究としては,1)多重階層メッシュネットワーク上でのデータ構造の研究:本重点領域研究で提案されているRDTネットワークの能力とその上でのアルゴリズム開発の基礎理論を構築するために,RDTネットワークを包含する概念として多重階層メッシュネットワークを定義し,ネットワーク構造とデータ構造や通信によるオーバーヘッドの関係を調べた.この結果,RDTネットワークを含む多重階層メッシュネットワークの数万台規模の並列計算機における有効性を確認した.2)局所計算可能な符号化に関する研究:昨年度に引き続き,複数の単項演算が定義された有限集合に対し,すべての単項演算を局所計算可能とするための符号化の条件について研究を行い,いくつかの理論的成果を得た.3)二分決定グラフの並列処理アルゴリズムに関する研究:組み合わせ問題の分野で重要なデータ構造である二分決定グラフに対する並列アルゴリズムを研究し,実際に並列計算機上に実現してその能力を調べた.本プログラムは設計検証などの実用分野にも応用している.以上のように,本年度の研究では,多重階層メッシュネットワークや局所計算可能性に関する理論的な研究と並行して,二分決定グラフの並列処理アルゴリズムの考案とそのプログラム化を行った

  • パイプライン処理の形式的並列設計検証手法に関する研究

     概要を見る

    本研究では、パイプライン処理方式の形式的な並列設計検証手法の研究を行なった。とくに、パイプラインプロセッサの制御方式の検証に着目し、二分決定グラフを用いた暗黙状態数え上げに基づき、命令をパイプライン処理するときのパイプラインの乱れであるハザードが生じるかどうかを判定する手法を示した。通常ハザードの検出はシミュレーションで行われているが、本手法はこのシミュレーションを記号的にすべての場合について網羅的に行う手法である。具体的には、連続する二つの命令を記号的に与えて記号実行を行う。着目している二つの命令以外はNOP命令にする。またそれと同時に二命令の間にNOP命令を適当な数だけはさんだ命令列を記号実行し、最初の命令列と比較を行なうことで、ハザードを生じるかどうかおよび、ハザードを消すためにどのような機構を備えているかを検出する。記号実行の部分は順序回路の暗黙状態数え上げ手法を用いている。実行はプログラムカウンタの値を除いて、すべてのレジスタの値が定常状態になるまで行なう。記号実行の結果は論理関数として表される。検証は、各命令列について定常状態になるまでのクロック数および定常状態の各レジスタの値が等しいかどうかを比較することで行なう。記号実行対象の回路の演算回路部分の簡単化のために剰余BDDと呼ばれる新しい二分決定グラフを提案した。また、並列化に関しては、暗黙状態数え上げの並列化手法を示した。本並列化手法は、二分決定グラフのグラフ自体をデータフローグラフと見て並列性を抽出するという新しい手法である。これにより、10CPUで4倍程度の高速化を達成した。今後は、本検証手法をスーパースカラプロセッサの検証に適用することや、二分決定グラフのグラフ構造を用いた並列化手法と通常の二分決定グラフの演算の並列化手法と組み合わせることなどが必要である

  • 論理回路の縮約モデルの自動抽出とそれを用いた大規模論理回路の設計検証に関する研究

     概要を見る

    本研究では、論理回路の縮約モデルの抽出と、それを用いた大規模論理回路の検証に関する研究を行った。まず、縮約モデルを用いた検証手法に関する調査研究を行なった。つぎに現在多くの論理設計検証手法で用いられている二分決定グラフ(Binary Decision Diagram、BDD)について研究を行なった。特に回路の内部の適当な論理ゲートの出力を変数として扱ってBDDを小さくするとともに、相異なる内部変数を持つ二つの回路の等価性判定を行なう手法の研究を行なった。等価性判定では、一方の回路の内部変数を他方の回路の内部変数へ多項式時間で変換する手法を新たに開発して用いた。第二に、乗算など算術演算回路で二分決定グラフの節点爆発を抑制する手法を提案した。これは数の剰余数表現に基づく手法で、算術演算回路の入力が二進数に対応づけられているという性質を用い、二分決定グラフの節点数を入力変数の数の多項式で限定する。限定された結果のBDDを剰余BDD(Residue BDD)と呼ぶ。検証では、回路を複数の法について個別に検証する。剰余数表現で知られているように、もとの関数の剰余の組で、もとの関数を完全に表せるので、検証においても各剰余毎の検証で良い。研究ではまず剰余BDDを組み合わせ回路の検証に適用し、ある程度の効果を確認した。また、乗算器など算術演算回路を含む順序回路の検証への適用についても研究を行なった。第三に、プロセッサの検証などで重要な、回路の構造に基づく縮約手法の研究を行ない、論理回路をグラフと見て、構造が等しい部分を縮約するという手法の研究を行なった。さらに、時相論理に基づく仕様記述法について研究を行ない、仕様記述から仕様記述に関係のない回路部分を縮約する手法の研究を行なった

  • 内部構造が可変な汎用コプロセッサシステムおよびその最適化コンパイラに関する研究

     概要を見る

    本研究では、任意の回路を再構成して実現でき、計算機の主プロセッサと協調動作できる汎用コプロセッサ(General Purpose Coprocessor,GPCP)のアーキテクチャ、ハードウェアモジュールの自動生成手法、主プロセサとの協調動作手法の研究を行い、以下のような成果が得られた。1.FPGAを用いた再構成可能なハードウェア、キャッシュメモリ、バスインタフェースから構成される汎用コプロセッサのアーキテクチャの提案を行った。また、実際にSunワークステーション用のプロトタイプの設計と実現を行った。プロトタイプでは、5万ゲート相当の可変回路部、1MBのキャッシュ、書き込みキューを持つインタフェースを実現した。2.協調動作手法に関しては、バスアクセスをベースに用いて主プロセッサとコプロセッサとがデータ通信を行う手法を提案し、実際にSunのワークステーション上に実現してアクセス時間の評価やキャッシュの有効性を評価を行った。3.協調設計手法に関しては、Cのプログラムをハードウェア化する手法、およびFPGA向け最適化手法の研究を行った。ついで、Cのプログラムの各関数毎でハードウェア実現した場合の実行時間とハードウェア量を評価する手法を提案し、関数の実現方法(ハードウェア実現かソフトウェア実現か)の決定手法の研究を行った。ハードウェアモジュールの最適化については、変数のビット幅を自動的に縮める手法、ビットレベル演算機能のまとめあげに基づく実行クロック数の最小化法、待ち状態を用いた演算のタイミング保証法の研究を行った。また、待ち状態で保護された経路を除いて最長タイミング経路を検出する手法の研究を行った。4.実際の応用に関しては、いくつかの応用プログラムに関して実際に協調設計・動作を行い、構文解析など同じ入力について複数の比較を行う場合や、グラフィックスの応用のようにビットレベルの演算を含む場合において、汎用コプロセッサを用いた高速化の有効性を確認した

  • 論理回路の合成手法および最適化手法の高速化に関する研究

     概要を見る

    本研究では、大規模論理回路の高速合成技術に関する研究を行なった。論理合成における最適化問題の多くはNP完全問題で効率の良いアルゴリズムの生成が困難であることが多い。そこで、不必要な論理合成最適化機能を用いないようにすることで、論理合成時間を短くする手法の研究を行なった。まず、データパス部のビット幅に着目し、それを必要最小限にすることで論理の最適化に必要な時間を減少させる手法についての研究を行なった。具体的には、VHDLあるいはC言語などで記述された回路の機能を解析し、機能記述で用いられる変数の最小値と最大値を求め、その差の対数をとることで必要最小限のビット幅の変数とする手法を提案した。さらにそれに付随する演算器のビット幅を減らして全体のハードウェア量を減らし、その合成にかかる時間を減少させる手法を提案した。フラグ変数やループの制御変数などでビット幅の減少効果が認められ、2割程度のハードウェア量の減少が認められた。また、定数との比較などでは、ゲートレベルで定数判定を行なう回路を自動生成し、論理合成系の最適化機能を用いないようにした。本手法は、通常の論理合成系のフロントエンドとして動作し、論理最適化機能の適用を減少させる効果を持つ。また、これらの手法で生成された論理回路のタイミング解析を高いレベルで行なう手法に関する研究を行なった。さらに、論理合成最適化手法の一つであるトランスダクション法の並列化に関する研究を行ない、並列に回路変換および最適化を行なう手法を提案した。この並列化手法は、共有主記憶方の並列計算機上で有効に動作し、4プロセッサで2倍程度の高速化を達成した。最後に、論理合成アルゴリズムと論理素子の割り当て手法の統合について、基本演算器を中心にFPGA実現のための論理素子割り当てをVHDLレベルで行なう手法を開発し、論理合成系の処理時間を短縮した。現在これらの手法の実装および改良を行なっている

  • コンテンツに適応する発展的ソフトウェアの構成法

     概要を見る

    本研究では,「ソフトウェアの設計・開発時には適用範囲を設定できない処理対象をもつソフトウェア」の発展的な構成法を,その実現方式を含めて研究している.平成9年度では,ソフトウェアの機能(仕様)を拡張させながら プログラムを、溝成する過程を追跡して,その結果,「細胞に基づくプログラミング(Poc)」の方針を打ち出した.細胞によるプログラミングでは,プログラムを.細胞の集まりで構成する.その特徴は,その前条件が満たされた時点で,自ら起動する能動細胞を導入していることである.平成10年度では,実際にPocエディタを作成した.これは,単なるエディタ機能に加えて,細胞のグループを集めて1つのCプログラムに結合する機能も持っている.それを用いていくつかのプログラムを記述し問題点の検討と評価を行なった.その経験から,「能動形計算モデル」を提案した.能動形計算モデルは,前条件により能動的に起動する関数と,その起動を制御する部分とから構成されており,完全自律型関数と他から起動される受動型関数の中間的な性質をもつモデルである.Pocの効率的な実現機構については,動的結合機構や,再構成可能なハードウェア部分をもつコンピュータの構成を検討した.ソフトウエアが発展的に拡張していくためには,新しい概念の導入とそれを表す新しい言語に加えて,それらの実現を支援するコンピュータアーキテクチャの機構が有効になると考えて,ハードウェア/ソフトウェア協訓設計に関連する研究を進めた.また,Pocの能動細胞の特長だけを抽出して,能動形計算モデルを導入し、C言語に,ある条件によって自ら起動する能動関数の定義を追加した.それに基づいた,新しいアルゴリズムを考えるとともに,並列計算機によって複数の能動関数が並列に動作する状況を調べた.今後は,能動形プログラムの言語プロセッサを開発して、手指動作の記述の解析,英文契約書の草案作成の支援などの実際の問題で,プログラムを発展的に溝成する方法を求めていく.これらは,いずれも,プログラムの仕様の拡張を余儀なくされる問題である.また,能動形プログラムの実行に適した新しいコンピュータアーキテクチャの検討を進める.このように,「発展するソフトウェア」を,変化するハードウェア/ソフトウェアの両面から研究を進めて行く

  • 環境適応型のハードウェアとソフトウェアの構成手法に関する研究

     概要を見る

    本研究は,環境に適応したハードウェアとソフトウェアの構成手法をテーマとしている.すなわち,対象とする情報システムの設計と構成をハードウェアとソフトウェアの両面から捉えて,環境に適応して自律的に構成を変化できるシステムの構築法を研究の目的としている.3年間を通じて,次のような側面から,具体的な提案と設計,および,実装を行なった.(1)環境に適応可能なシステムの構成法について,アクティブソフトウェアの記述と構成,対話型プログラミング環境でのオブジェクトの自発的機能やその拡張性について提案を行ない,具体例の実装を進め,構成法の有効性を示した.(2)環境に適応可能なハードウェアの実現手法として,再構成可能な機構を持つLSIの構成例として,動的に命令列を変更できるJavaプロセッサの構成法の研究,および,視線推定のLSIと不特定対象者の対顔判定LSIの設計を行った.これらは,ハードウェア向きアルゴリズムを確立して,実時間処理による適応可能性を示した.(3)ハードウェアの合成と検証については,二分決定グラフ(BDD)の制約演算に基づく新しい像計算法について研究を進め,アルゴリズムの高速性と大規模な回路への適応可能性を示した.(4)外界の情報を取捨選択し、環境適応に必要な知識を獲得する問題について、順序付き二分決定グラフ(OBDD)を利用する手法を提案し、従来手法で用いられる特徴モデルや論理式とOBDDとを相互に変換するアルゴリズムを設計した。(5)量子計算は,その特徴である量子並列性により,環境の動的特性を一度に把握して,処理できる.新しい量子計算モデルとして,非決定性量子有限オートマトンを取り上げて,その計算能力を,従来の計算モデルの能力と比較する研究等を行なった.3年間の研究の結果,新しい情報システムの設計と開発にあたり,ハードウェアとソフトウェアを統合して,環境の変化に適応する能力をもつシステムの構成機構を明らかにした.これらの研究成果の詳細は,研究報告書としてまとめている

  • プログラムを仕様とするハードウェアの設計検証手法

     概要を見る

    近年の集積回路技術の進歩は、高速で大規模な論理回路の実現を可能にした。それに伴い、設計レベルの抽象化が進み、C/C++あるいはJavaなどのプログラミング言語を用いた高いレベルの機能記述から最適な回路を合成する手法の研究が盛んに行われている。大規模集積回路では、製造に大きな費用と日数を必要とするので、設計のレベルで回路機能の正しさを検証することがこれまで以上に重要である。本研究では、このプログラミング言語を仕様とし、最適化前後あるいは合成前後で、形式的に機能の正しさを検証する手法の研究を行った。また、機能ばかりでなく、製造検証容易性を考慮した設計手法などについても研究を行った。まず変数の代入関係に着目して等価性を判定する論理に関する手法に着目し、それに関連する研究のサーベイと等価性判定システムのサーベイを行った。その後、現状の判定システムを演算回路の検証に適用し、適用限界を明確にした。また、並列化やパイプライン化などの前後で等価性を証明する手法の研究を行った。等価性判定のアルゴリズムに関しては、その基本演算である論理演算を効率よくプロトタイピングできる再構成可能デバイスの研究を行った。プログラムの仕様に関しては、ハードウェア化の時点で種々の最適化が行われることを考慮し、とくにデータパスのビット幅の最適化に着目して最適化手法とその前後での等価性保証の研究を行った。データパスのビット幅については、整数演算を含むデータパスだけでなく、浮動小数点演算を含むものについても研究を行い、プログラムに対して演算結果の誤差を解析する手法を提案した。また、製造検証容易性については、高位の機能モジュール単位で印加されるパターンの数を最適化する手法の研究を行い、パターン数削減の付加回路構成法を提案した

  • 類似度を考慮した等価論理を用いたハードウェアの高位設計検証手法の研究

     概要を見る

    ハードウェアの高位レベルの等価検証手法の確立を目的とし、類似度を考慮した等価論理に基づく等価検証システムの研究を行った。等価論理は、変数の等価性のみに着目した論理体系で、他の論理との組合せで高い検証機能を持つことが知られている。まず、Verilog記述から等価論理の式を生成するシステムと、C言語記述から等価論理の式を生成するシステム、およびこれらの変換された等価論理式を時間展開するシステムのプロトタイプの構築を行った。生成された時間展開後の等価論理式に対し、公開されている等価論理判定システムであるCVCLやYICESを適用し、本手法の正当性と有効性の確認を行った。また現状の等価論理判定手法が時間展開に対して指数的な計算量を必要とすることが実験的に確認できたため、等価論理式をSATの問題に帰着して解く手法について研究を行い、変数間の等価性の推移的閉方を効率化する手法の検討を行った。類似度については、等価論理式の枠内での導入を行い、絶対値の差に基づく手法、現在の変数値との差に基づく手法の検討を行った。またハードウェア設計における浮動小数点数の固定小数点数への変換時の誤差と類似度の関係についても研究を行い、固定小数点数のビット数の最適化手法を提案した。さらに具体的なハードウェアへの適用として、マルチスレッディングプロセッサの等価性検証、加算のプレフィックスグラフの最適化と等価性検証、プロトタイピングを用いた等価検証の高速化とプロトタイピング検証におけるアサーション検証手法の高速化について研究を行った

▼全件表示

学内研究費(特定課題)

  • 単一命令計算機を用いたディジタルデータの意味保存手法の研究

    2016年  

     概要を見る

    ディジタルデータは0と1の並びであり、それだけでは意味を持たず、その意味解釈方法を同時に記憶する必要がある。これまで、文字データについては、1文字のデータのビット数とビットパターンに対応するフォントの最小データとそれへの変換方法を添付し、読めるデータに変換する手法を提案してきた。今回、画像圧縮されたデータの意味保存を見えるデータに戻すことと定義し、プログラムの意味記述の研究に取り組み、単一命令計算機の subleq の命令解釈機構の記述と subleq のアセンブラでプログラムの保存を行う手法と、その場合の記述量の最適化について研究を行った。subleq は命令が一種類しかなく、意味記述が簡単で、解釈機構の模擬や再構築が容易である。

  • 次世代不揮発素子の活用に向けたハードウェア設計技術

    2013年  

     概要を見る

     近年の携帯端末および無線センサなどのアンビエントデバイスの発達・普及に伴い、これらの稼働時間を延ばすため、アイドル状態での電源停止制御が重要になってきた。この時、電源復帰後の動作のために内部状態を保存することが必要で、電源停止でも記憶が保持できる次世代不揮発素子が注目されている。 MTJ (Magnetic Tunnel Junction) に基づく次世代不揮発素子は、アクセスは通常の CMOS SRAM と同等の速度で、集積度は DRAM と同様に高い。しかし、値の書込みにおいては、MTJ 内部の磁場の向きを制御するため、通常の SRAM と比較して10倍程度の書込みエネルギーを必要とし、その削減が急務である。 そこで本研究では、書込みエネルギーの削減を含む次世代不揮発素子の活用のための設計技術の研究を行った。メモリをROMとして書き換えずに計算結果の記憶に用いる手法の他、書込みそのものを減らす手法を研究した。MTJの書換えは同じ値を書込む場合でも違う値の書換えと同様大きなエネルギーを必要とするので、今記憶している値と書込みたい値が同じ場合に、書込みを停止することが基本となる。ここでは、それと組み合わせてさらに書込み回数を削減する手法を示した。 まず、順序回路の状態遷移解析に基づき、書換える必要のないレジスタの探索手法を提案し、書換えを停止する条件から停止制御回路の自動生成を行い、電力削減を確認した。 第二に、値の変化にあたって、変更するビット数を削減する手法の研究を行った。新しい値を元の値と新しい値との差分で表すことで、書き換えるビット数を削減する手法や、最大変更ビット数を制限した符号の研究などを行った。 第三に入力をアドレス、計算結果をメモリの内容としたメモリベース演算の研究を行った。基本的には入力数に対して指数的な容量を必要とするので、乗算等に対して必要に応じて演算器と組み合わせてメモリ量を削減する手法を検討した。 最後に、論理素子の制御値の伝播を考慮した細粒度の実行時パワーゲーティングの研究を行った。論理素子の制御値は一つの入力だけで出力を決定できる値である。ある入力が制御値をとると、他の入力の値は不要となり、それを計算する部分の電源を停止できる。この制御値の直列接続での伝播を用いてより多くの素子の電力停止を行う手法を示した。

  • システムオンシリコンにおけるランタイム解析・最適化に関する研究

    2012年  

     概要を見る

    システムオンシリコンにおけるランタイム解析・最適化に関する研究というテーマで、細粒度の動的なクロックゲーティングとパワーゲーティング、Single Event Upset (SEU) エラーに対するFPGA上での回路の動的書き換えを用いた対処手法、メモリベース演算、キャッシュ構成の最適化の研究を行った。細粒度の動的なクロックゲーティングとパワーゲーティングについては、回路内部の信号を用いて動的にクロックや電源の ON/OFF を制御することで、ランタイムに電力を制御する手法の検討を行った。マルチステージクロックゲーティングや、疑似パワーゲーティング法で電力を10%~20%程度削減できることが分かった。FPGA上での回路の動的書き換えについては、SEU エラーにより FPGA の構成ビットが変化し、回路の機能が正しくなくなる現象に対し、3重系よりも安全な4重系の構造を提案するとともに、エラー発生時にエラーを同定してエラーモジュールの動的再書込みによる機能の復帰を行う手法の提案を行った。実際に提案手法を Xilinx FPGA の動的部分書換え機能を用いて実現し、安全性と面積オーバーヘッドの評価を行った。メモリベース演算については、メモリ部の書換え可能性がランタイムの最適化に有効であるという判断から、基礎的な算術演算および CORDIC 法による三角関数や乗算・除算の実現手法の研究を行った。これは、演算器の入力をアドレスとして、計算結果をメモリに入れることで算術演算を実現するものである。なお、アドレスに対してメモリのサイズが指数的であるので、入力をいくつかに分割してメモリで実現し、メモリ出力を演算器に入れるなどの手法が必要であった。また、ハードウェア内部の演算器の結果をキャッシュ的にメモリに入れることで再計算を行わずにメモリアクセスで済ませる手法の検討を行った。これらのメモリを用いた演算手法は、論理ゲートの出力の変化による動的電力を削減する効果があり、実行時の電力最適化に有効であることがわかった。さらに、次世代不揮発メモリを用いたキャッシュメモリの電力の最適化についても検討を行い、L1 キャッシュの一部とL2 キャッシュを不揮発化することで、リーク電力の大きな削減が得られることがわかった。

  • システムオンシリコンのためのランタイム解析・最適化手法の研究

    2011年   戸川望

     概要を見る

    システムオンシリコンのためのランタイム解析・最適化の研究として、アサーションチェッカを用いたランタイムエラー検出法と得られたエラーの暗号化と安全な記憶方式や耐タンパ性に関する基礎的な研究を行った。まずアサーションチェッカーについては、入力記憶オートマトンを用いる手法に基づき、入力記憶部を共有することでFPGA実現によりハードウェア資源が削減できることを示した。つぎに、ランタイム解析で必要なアサーション集合に関する十分性について、回路の一部を変更したミュータントベースのアサーションの十分性判定に基づく手法の調査と検討を行った。ミュータントベース手法では、加えた変更がアサーションにより検出できるかでアサーションの十分性を判断するが、どのような変更を加えるかはランタイム解析の種類に大きく依存する。とくに遅延エラーについては、記述手法を含めて議論する必要があることがわかった。エラー情報の圧縮については、圧縮能力に優れたLFSRベース手法を検討した。ランタイム最適化については、FPGA の動的再構成の機構を用いる手法の検討を行った。とくに、内臓プロセッサの命令実行中に、その命令に対応する演算器を動的に構築し、ループに対応する命令列を検出して、データを動的に構築した演算系に通す手法の検討およびプロトタイプの構築を行った。これはハードウェアの高位合成をアセンブラレベルから動的に行う手法であるが、ループの検出部およびデータを新たに構築した演算系に流す手法、およびFPGA の動的再構成を高速に行う手法を検討する必要がある。また、演算系の最適化も今後の課題であり、メモリを用いた算術演算の効率化および低電力化や複数の加算を連続して行うマルチオペランド加算の最適化などの最適化の研究を行った。エラー情報の暗号化および情報漏洩の耐タンパ性についても検討を行い、スキャンパスがある場合の耐タンパ性について議論を行った。

  • 論理制御値を用いたVLSIの電力・遅延最適化

    2009年  

     概要を見る

    論理制御値を用いたVLSIの電力・遅延の最適化というテーマで、VLSI ゲートレベル回路の最適化の研究を行った。まず遅延の最適化に関しては、パイプライン回路の自動生成の研究を行い、FPGA 向けのパイプライン合成手法の提案を行い、加算回路や乗算回路で2段のパイプラインで1.8倍のクロック周波数を得られるという結果を得た。アルゴリズムおよび実験結果は、情報処理学会SLDM研究会およびASP_DACの Student Forum で口頭発表を行った。つぎに、電力の最適化に関しては、論理素子の制御値でパワーを停止する細粒度のパワーゲーティング手法を提案し、制御信号の制御値確率とそれで停止できるゲート数の積を評価し、評価値の大きい順にパワーゲーティングを挿入するアルゴリズムで、平均15%程度の電力削減効果を得た。研究成果は電子情報通信学会の英文論文誌に掲載された。さらに、順序回路のレジスタのクロックを停止して動的電力を削減するクロックゲーティング手法の最適共有の研究を行い、カウンタや ISCAS 89 ベンチマーク回路に適用して効果を確認した。研究成果は、2010年5月の情報処理学会SLDM研究会で口頭発表の予定である。

  • VLSIの論理素子の制御値に基づく電力・遅延最適化

    2008年  

     概要を見る

    VLSIの性能向上および電力消費を削減する目的に対し、論理素子の制御値を用いる手法を提案し、基礎的な実験を行った。まず性能向上に対しては、AND ゲートの制御値が0であることを用いて、論理回路の最長経路を通る0への変化をANDゲートで先に通すこととし、そのための制御条件を生成する方法を導いた。また1への変化に対しては OR ゲートで先に通すこととした。0への変化と1への変化を分けてスキップ(バイパス)するので 01-skip 手法と呼んでいる。本手法を簡単な回路に適用し、期待通りの高速化が得られることを確認した。ツール化と種々の回路への適用が今後の課題である。また制御回路の共有による付加回路の削減も今後の課題である。一方、電力消費の削減に関しては、AND ゲートの制御値が 0 であることを用い、一方が 0 であるときに他方の入力の値が不定でも出力に影響を与えないという性質を利用し、他方の入力を計算するブロックの電力を停止する手法を提案し、簡単な回路で効果を確認した。本手法は、プロセスの微細化に伴い大幅な増加が見られるリーク電力の削減に有効であると同時に、動的な電力の削減にも有効であることが確認されている。ツール化および種々の回路への適用および実LSI試作を用いた評価が今後の課題である。

  • プログラムを仕様とするハードウェアの設計検証手法

    2002年  

     概要を見る

    ハードウェアの設計の高位化に対応し、プログラムを仕様として用い、ハードウェアの設計を形式的に検証する手法に関する研究を行った。まず、現状の検証手法の調査を論文誌および国際会議、研究会などに対して行った。その結果として、二分決定グラフを用いた厳密な順序回路の検証手法、SAT に基づく近似的な検証手法、無評価関数に基づく等価性判定論理の 3 つが基本的な手法であることと、これらを組み合わせたハードウェアの検証手法の研究が盛んに行われていることがわかった。ただ、プログラムを仕様とするものについては、プログラムの直接実行による、シミュレーションの高速化の側面が主に強調され、形式的な手法の研究開発が不十分であることも明らかとなった。 そこで、これらのハードウェアの手法の中で、大規模な回路に適用可能と考えられる無評価関数に基づく等価性判定論理を適用した手法の開発を目指し、そのための基礎的な研究を行った。無評価関数に基づく等価性判定論理では、記号的な式の等価性を判断することができるので、プログラムの代入をそのまま等価性判定の式に変換することで、二つのプログラムの等価性を式の等価性として判定することができる。具体的には、C 言語のプログラムを対象として、それを等価性判定論理の式へ変換する規則を求めるとともに、多バイトの演算問題に適用し、手法の有効性と適用限界を求めた。実際のプロセッサなどで用いられている、桁上げ選択加算を含むような演算では、64 ビット程度の加算の等価性の検証が時間的に不可能となることがわかり、等価性判定論理自体の性質を含めて、今後のさらなる研究が必要である。

▼全件表示

 

現在担当している科目

▼全件表示