2022/01/20 更新

写真a

オガワ テツジ
小川 哲司
所属
理工学術院 基幹理工学部
職名
教授
プロフィール

2000年早稲田大学理工学部電気電子情報工学科卒業.2002年同大学大学院修士課程修了.2005年同大学大学院博士後期課程終了.博士(工学).2004--2007年早稲田大学理工学術院助手.2007年早稲田大学IT研究機構講師.2007--2012年早稲田大学高等研究所助教.2012-2019年早稲田大学理工学術院准教授.現在,早稲田大学理工学術院教授.その間,2012年,2013年米国ジョンズホプキンス大学訪問研究者,2014年,2015年チェコ共和国ブルノ工科大学訪問研究者.2012--2015年エジプト・日本科学技術大学(E-JUST)特任准教授.2016年より産業技術総合研究所人工知能研究センター客員研究員.2020年よりNHK放送技術研究所客員研究員.音声・音響情報処理,画像・映像情報処理,パターン認識に関する研究に従事.IEEE,電子情報通信学会,情報処理学会,日本音響学会,人工知能学会,日本機械学会,日本風力エネルギー学会,日本畜産学会,日本水産学会,水産海洋学会各会員.

兼担

  • 理工学術院   大学院基幹理工学研究科

学内研究所等

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

  • 2020年
    -
    2022年

    リサーチイノベ オープンイノベーション推進セクション   兼任センター員

学歴

  • 2002年04月
    -
    2005年03月

    早稲田大学大学院   理工学研究科   電気工学専攻  

  • 2000年04月
    -
    2002年03月

    早稲田大学大学院   理工学研究科   電気工学専攻  

  • 1996年04月
    -
    2000年03月

    早稲田大学   理工学部   電気電子情報工学科  

学位

  • 早稲田大学   博士(工学)

経歴

  • 2020年04月
    -
    継続中

    NHK放送技術研究所   客員研究員

  • 2019年04月
    -
    継続中

    早稲田大学   理工学術院   教授

  • 2016年06月
    -
    継続中

    産業技術総合研究所   人工知能研究センター   客員研究員

  • 2012年04月
    -
    2019年03月

    早稲田大学   理工学術院   准教授

  • 2015年05月
    -
    2015年08月

    ブルノ工科大学   訪問研究者

  • 2012年04月
    -
    2015年03月

    エジプト・日本科学技術大学   特任准教授

  • 2014年06月
    -
    2014年07月

    ブルノ工科大学   訪問研究者

  • 2013年06月
    -
    2013年08月

    ジョンズホプキンス大学   訪問研究者

  • 2012年06月
    -
    2012年09月

    ジョンズホプキンス大学   訪問研究者

  • 2007年11月
    -
    2012年03月

    早稲田大学高等研究所 助教

  • 2007年04月
    -
    2007年10月

    早稲田大学IT 研究機構 客員講師

  • 2004年04月
    -
    2007年03月

    早稲田大学理工学部 助手

▼全件表示

所属学協会

  • 2021年10月
    -
    継続中

    水産海洋学会

  • 2019年05月
    -
    継続中

    人工知能学会

  • 2018年07月
    -
    継続中

    日本水産学会

  • 2018年06月
    -
    継続中

    日本風力エネルギー学会

  • 2018年01月
    -
    継続中

    日本畜産学会

  • 2017年08月
    -
    継続中

    日本機械学会

  • 2008年03月
    -
    継続中

    情報処理学会

  • 2000年01月
    -
    継続中

    日本音響学会

  •  
     
     

    電子情報通信学会

  •  
     
     

    International Speech Communication Association (ISCA)

  •  
     
     

    The Institute of Electrical and Electronics Engineers, Inc. (IEEE)

▼全件表示

 

研究分野

  • 知覚情報処理

  • ヒューマンインタフェース、インタラクション

  • 知能情報学

  • 水圏生産科学

  • 動物生産科学

研究キーワード

  • 音声言語情報処理

  • 音響信号処理

  • 画像情報処理

  • 映像情報処理

  • パターン認識

  • 機械学習

  • データ駆動科学

  • 異常検知

  • スマートメンテナンス

  • 精密畜産

  • 精密水産

▼全件表示

論文

  • Sequential fish catch counter using vision-based fish detection and tracking

    Riko Tanaka, Teppei Nakano, Tetsuji Ogawa

    Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022)    2022年02月  [査読有り]

    担当区分:最終著者, 責任著者

  • Inlier modeling-based good fishing ground detection for efficient bullet tuna trolling using meteorological and oceanographic Information

    Yuka Horiuchi, Teppei Nakano, Yasumasa Miyazawa, Tetsuji Ogawa

    Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022)    2022年02月  [査読有り]

    担当区分:最終著者, 責任著者

  • Multi-source domain generalization using domain attributes for recurrent neural network language models

    Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Hiroto Ashikawa, Tetsunori Kobayashi, Tetsuji Ogawa

    IEICE Trans. Inf. & Syst.   E105-D ( 1 )  2022年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • An investigation of enhancing CTC model for triggered attention-based streaming ASR

    Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)    2021年12月  [査読有り]

    担当区分:責任著者

  • Comparative study on DNN-based minimum variance beamforming robust to small movements of sound sources

    Kohei Saijo, Kazuhiro Katagiri, Masaru Fujieda, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)    2021年12月  [査読有り]

    担当区分:最終著者, 責任著者

  • 風車異常検知の効率的運用に向けた正常状態の特徴表現学習

    長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

    日本風力エネルギー学会論文集   45 ( 3 ) 60 - 68  2021年11月  [査読有り]

    担当区分:最終著者, 責任著者

  • SIA-GAN: Scrambling Inversion Attack Using Generative Adversarial Network

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    IEEE Access   9   129385 - 129393  2021年09月  [査読有り]

    担当区分:最終著者

    DOI

  • VocalTurk: Exploring Feasibility of Crowdsourced Speaker Identification

    Susumu Saito, Yuta Ide, Teppei Nakano, Tetsuji Ogawa

    Interspeech 2021     1723 - 1727  2021年08月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Interspeech 2021     3051 - 3055  2021年08月  [査読有り]

    DOI

  • Improved Mask-CTC for Non-Autoregressive End-to-End ASR

    Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

    ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)     8363 - 8367  2021年06月  [査読有り]

    DOI

  • Scrambling Parameter Generation to Improve Perceptual Information Hiding

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    Electronic Imaging   2021 ( 11 ) 155 - 1  2021年01月  [査読有り]

    担当区分:最終著者

     概要を見る

    <italic>The present study proposes the method to improve the perceptual information hiding in image scramble approaches. Image scramble approaches have been used to overcome the privacy issues on the cloud-based machine learning approach. The performance of image scramble approaches are
    depending on the scramble parameters; because it decides the performance of perceptual information hiding. However, in existing image scramble approaches, the performance by scrambling parameters has not been quantitatively evaluated. This may be led to show private information in public.
    To overcome this issue, a suitable metric is investigated to hide PIH, and then scrambling parameter generation is proposed to combine image scramble approaches. Experimental comparisons using several image quality assessment metrics show that Learned Perceptual Image Patch Similarity (LPIPS)
    is suitable for PIH. Also, the proposed scrambling parameter generation is experimentally confirmed effective to hide PIH while keeping the classification performance.</italic>

    DOI

  • Investigation on network architecture for single-channel end-to-end denoising

    Takuya Hasumi, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 2020 European Signal Processing Conference (EUSIPCO2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Noise-robust attention learning for end-to-end speech recognition

    Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 2020 European Signal Processing Conference (EUSIPCO2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Toward building a data-driven system for detecting mounting actions of black beef cattle

    Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hiromi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Crowdsourced verification for operating calving surveillance systems at an early stage

    Yusuke Okimoto, Soshi Kawata, Susumu Saito, Nakano Teppei, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Feature Representation Learning for Calving Detection of Cows Using Video Frames

    Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Analysis of multimodal features for speaking proficiency scoring in an interview dialogue

    Mao Saeki, Yoichi Matsuyama, Satoshi Kobashikawa, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 8th IEEE Spoken Language Technology Workshop (SLT2021)    2021年01月  [査読有り]

  • Efficient human-in-the-loop object detection using bi-directional deep SORT and annotation-free segment identification

    Koki Madono, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2020 (APSIPA2020)    2020年12月  [査読有り]

    担当区分:最終著者, 責任著者

  • Exploiting narrative context and a priori knowledge of categories in textual emotion classification

    Hikari Tanabe, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

    The 28th International Conference on Computational Linguistics (COLING2020)    2020年12月  [査読有り]

  • Crowd-sourced development of image dataset for detecting mounting actions of black beef cattle

    Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hitomi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     341 - 351  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Attention network learning for robust detection of allantochorion and fetal membrane of Japanese black beef cattle

    Soshi Kawata, Teppei Nakano, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     333 - 340  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Data-driven feature extraction for calving sign detection in Japanese black beef cattle using video frames

    Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     323 - 332  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Exploring Effectiveness of Inter-Microtask Qualification Tests in Crowdsourcing

    Masaya Morinaga, Susumu Saito, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 8th AAAI Conference on Human Computation and Crowdsourcing (HCOMP2020), Works-In-Progress and Demonstration Papers    2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict

    Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)     3655 - 3659  2020年10月  [査読有り]

  • Mentoring-reverse mentoring for unsupervised multi-channel speech source separation

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)     86 - 90  2020年10月  [査読有り]

  • CHARM-Deep: Continuous Human Activity Recognition Model Based on Deep Neural Network using IMU Sensors of Smartwatch

    Sara Ashry, Tetsuji Ogawa, Walid Gomaa

    IEEE Sensors Journal   20 ( 15 ) 8757 - 8770  2020年08月  [査読有り]

  • Deep speech extraction with time-varying spatial filtering guided by desired direction attractor

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)     671 - 675  2020年05月  [査読有り]

  • Frame-level phoneme-invariant speaker embedding for text-independent speaker recognition on extremely short utterances

    Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Marc Delcroix, Tetsuji Ogawa

    Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)     6799 - 6803  2020年05月  [査読有り]

    担当区分:最終著者

  • Block-wise scrambled image recognition using adaptation network

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    AAAI-20 Workshop on Artificial Intelligence of Things    2020年02月  [査読有り]

    担当区分:最終著者

  • SemSeq: A regime for training widely-applicable word-sequence encoders

    Hiroaki Tsuyuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

    Proc. 16th International Conference of the Pacific Association for Computational Linguistics (PACLING2019)    2019年10月  [査読有り]

  • Vibration-Based Fault Detection for Flywheel Condition Monitoring

    Takanori Hasegawa, Mao Saeki, Tetsuji Ogawa, Teppei Nakano

    Procedia Structural Integrity   17   487 - 494  2019年09月  [査読有り]

    担当区分:責任著者

    DOI

  • Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages

    Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. INTERSPEECH2019     266 - 270  2019年09月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Multi-channel speech enhancement using time-domain convolutional denoising autoencoder

    Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. INTERSPEECH2019     86 - 90  2019年09月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Calving prediction from video: Exploiting behavioural information relevant to calving signs in Japanese black beef cows

    Kazuma Sugawara, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. ECPLF2019     663 - 669  2019年08月  [査読有り]

    担当区分:最終著者, 責任著者

  • Two-stage calving prediction system: Exploiting state-based information relevant to calving signs in Japanese black beef cows

    Ryosuke Hyodo, Saki Yasuda, Yusuke Okimoto, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. ECPLF2019     670 - 676  2019年08月  [査読有り]

    担当区分:最終著者, 責任著者

  • Data assimilation versus machine learning: Comparative study of fish catch forecasting

    Yuka Horiuchi, Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. OCEANS2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Psychological measure on fish catches and its application to optimization criterion for machine learning based predictors

    Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. OCEANS2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Visual explanation of neural network based rotation machinery anomaly detection system

    Mao Saeki, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

    Proc. ICPHM2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Postfiltering using an adversarial denoising autoencoder with noise-aware training

    Naohiro Tawara, Hikari Tanabe, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

    Proc. ICASSP2019     3282 - 3286  2019年05月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Adversarial autoencoder for reducing nonlinear distortion

    Naohiro Tawara, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

    Proc. APSIPA2018    2018年11月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Sequential fish catch forecasting using Bayesian state space models

    Yuya Kokaki, Naohiro Tawara, Tetsunori Kobayashi, Kazuo Hashimoto, Tetsuji Ogawa

    Proc. ICPR2018     776 - 781  2018年08月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Acoustic feature representation based on timbre for fault detection of rotary machines

    Kesaaki Menemura, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. SDPC2018    2018年08月  [査読有り]

    DOI

  • Tandem connectionist anomaly detection: Use of faulty vibration signals in feature representation learning

    Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

    Proc. ICPHM2018     1 - 7  2018年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Speaker invariant feature extraction for zero-resource languages with adversarial training

    Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)     2381 - 2385  2018年04月  [査読有り]  [国際誌]

    担当区分:最終著者, 責任著者

    DOI

  • Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations

    Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi

    Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)     6084 - 6088  2018年04月  [査読有り]  [国際誌]

    DOI

  • Exploiting end of sentences and speaker alternations in recurrent neural network-based language modeling for multiparty conversations

    Hiroto Ashikawa, Naohiro Tawara, Asunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA2017)    2017年12月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Adaptive training of vibration-based anomaly detector for wind turbine condition monitoring

    Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Annual Conference on PHM Society     177 - 184  2017年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Real-Time Large-Scale Map Matching Using Mobile Phone Data

    Essam Algizawy, Tetsuji Ogawa, Ahmed El-Mahdy

    ACM Transactions on Knowledge Discovery from Data   11 ( 4 ) 1 - 38  2017年08月  [査読有り]  [国際誌]

     概要を見る

    With the wide spread use of mobile phones, cellular mobile big data is becoming an important resource that provides a wealth of information with almost no cost. However, the data generally suffers from relatively high spatial granularity, limiting the scope of its application. In this article, we consider, for the first time, the utility of actual mobile big data for map matching allowing for “microscopic” level traffic analysis. The state-of-the-art in map matching generally targets GPS data, which provides far denser sampling and higher location resolution than the mobile data. Our approach extends the typical Hidden-Markov model used in map matching to accommodate for highly sparse location trajectories, exploit the large mobile data volume to learn the model parameters, and exploit the sparsity of the data to provide for real-time Viterbi processing. We study an actual, anonymised mobile trajectories data set of the city of Dakar, Senegal, spanning a year, and generate a corresponding road-level traffic density, at an hourly granularity, for each mobile trajectory. We observed a relatively high correlation between the generated traffic intensities and corresponding values obtained by the gravity and equilibrium models typically used in mobility analysis, indicating the utility of the approach as an alternative means for traffic analysis.

    DOI

  • Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation

    Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   25 ( 3 ) 637 - 650  2017年03月  [査読有り]  [国際誌]

    DOI

  • A new efficient measure for accuracy prediction and its application to multistream-based unsupervised adaptation

    Tetsuji Ogawa, Sri Harish Mallidi, Emmanuel Dupoux, Jordan Cohen, Naomi H. Feldman, Hynek Hermansky

    Proc. 23rd International Conference on Pattern Recognition (ICPR2016)     2222 - 2227  2016年12月  [査読有り]  [国際誌]

    担当区分:筆頭著者, 責任著者

    DOI

  • Nested Gibbs sampling for mixture-of-mixture model and its application to speaker clustering

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

    APSIPA Trans. Signal & Infor. Process.   ( 5 )  2016年08月  [査読有り]

    DOI

  • Video semantic indexing using object detection-derived features

    Kotaro Kikuchi, Kazuya Ueki, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. 24th European Signal Processing Conference (EUSIPCO2016)     1288 - 1292  2016年08月  [査読有り]

    DOI

  • Separation matrix optimization using associative memory model for blind source separation

    Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri

    2015 23rd European Signal Processing Conference, EUSIPCO 2015     1098 - 1102  2015年12月  [査読有り]

     概要を見る

    A source signal is estimated using an associative memory model (AMM) and used for separation matrix optimization in linear blind source separation (BSS) to yield high quality and less distorted speech. Linear-filtering-based BSS, such as independent vector analysis (IVA), has been shown to be effective in sound source separation while avoiding non-linear signal distortion. This technique, however, requires several assumptions of sound sources being independent and generated from non-Gaussian distribution. We propose a method for estimating a linear separation matrix without any assumptions about the sources by repeating the following two steps: estimating non-distorted reference signals by using an AMM and optimizing the separation matrix to minimize an error between the estimated signal and reference signal. Experimental comparisons carried out in simultaneous speech separation suggest that the proposed method can reduce the residual distortion caused by IVA.

    DOI

  • Uncertainty estimation of DNN classifiers

    Sri Harish Mallidi, Tetsuji Ogawa, Hynek Hermansky

    2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)    2015年12月  [査読有り]

    DOI

  • A sampling-based speaker clustering using utterance-oriented Dirichlet process mixture model and its evaluation on large-scale data

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    APSIPA Transactions on Signal and Information Processing   4 ( 4 )  2015年10月  [査読有り]

     概要を見る

    An infinite mixture model is applied to model-based speaker clustering with sampling-based optimization to make it possible to estimate the number of speakers. For this purpose, a framework of non-parametric Bayesian modeling is implemented with the Markov chain Monte Carlo and incorporated in the utterance-oriented speaker model. The proposed model is called the utterance-oriented Dirichlet process mixture model (UO-DPMM). The present paper demonstrates that UO-DPMM is successfully applied on large-scale data and outperforms the conventional hierarchical agglomerative clustering, especially for large amounts of utterances.

    DOI

  • Autoencoder based multi-stream combination for noise robust speech recognition

    Sri Harish Mallidi, Tetsuji Ogawa, Karel Vesely, Phani S. Nidadavolu, Hynek Hermansky

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015)     3551 - 3555  2015年09月  [査読有り]

     概要を見る

    Performances of automatic speech recognition (ASR) systems degrade rapidly when there is a mismatch between train and test acoustic conditions. Performance can be improved using a multi-stream framework, which involves combining posterior probabilities from several classifiers (often deep neural networks (DNNs)) trained on different features/streams. Knowledge about the confidence of each of these classifiers on a noisy test utterance can help in devising better techniques for posterior combination than simple sum and product rules [1]. In this work, we propose to use autoencoders which are multi layer feed forward neural networks, for estimating this confidence measure. During the training phase, for each stream, an autocoder is trained on TANDEM features extracted from the corresponding DNN. On employing the autoencoder during the testing phase, we show that the reconstruction error of the autoencoder is correlated to the robustness of the corresponding stream. These error estimates are then used as confidence measures to combine the posterior probabilities generated from each of the streams. Experiments on Aurora4 and BABEL databases indicate significant improvements, especially in the scenario of mismatch between train and test acoustic conditions.

  • Bilinear map of filter-bank outputs for DNN-based speech recognition

    Tetsuji Ogawa, Kenshiro Ueda, Kouichi Katsurada, Tetsunori Kobayashi, Tsuneo Nitta

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015)     16 - 20  2015年09月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    Filter-bank outputs are extended into tensors to yield precise acoustic features for speech recognition using deep neural networks (DNNs). The filter-bank outputs with temporal contexts form a time-frequency pattern of speech and have been shown to be effective as a feature parameter for DNN-based acoustic models. We attempt to project the filter-bank outputs onto a tensor product space using decorrelation followed by a bilinear map to improve acoustic separability in feature extraction. This extension makes extracting a more precise structure of the time-frequency pattern possible because the bilinear map yields higher-order correlations of features. Experimental comparisons carried out in phoneme recognition demonstrate that the tensor feature provides comparable results to the filter-bank feature, and the fusion of the two features yields an improvement over each feature.

  • Feature extraction for rotary-machine acoustic diagnostics focused on period

    Kesaaki Minemura, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. INTERNOISE2015    2015年08月  [査読有り]

  • TOWARDS MACHINES THAT KNOW WHEN THEY DO NOT KNOW: SUMMARY OF WORK DONE AT 2014 FREDERICK JELINEK MEMORIAL WORKSHOP

    Hynek Hermansky, Lukas Burget, Jordan Cohen, Emmanuel Dupoux, Naomi Feldman, John Godfrey, Sanjeev Khudanpur, Matthew Maciejewski, Sri Harish Mallidi, Anjali Menon, Tetsuji Ogawa, Vijayaditya Peddinti, Richard Rose, Richard Stern, Matthew Wiesner, Karel Vesely

    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)     5009 - 5013  2015年  [査読有り]

     概要を見る

    A group of junior and senior researchers gathered as a part of the 2014 Frederick Jelinek Memorial Workshop in Prague to address the problem of predicting the accuracy of a nonlinear Deep Neural Network probability estimator for unknown data in a different application domain from the domain in which the estimator was trained. The paper describes the problem and summarizes approaches that were taken by the group.

    DOI

  • A COMPARATIVE STUDY OF SPECTRAL CLUSTERING FOR I-VECTOR-BASED SPEAKER CLUSTERING UNDER NOISY CONDITIONS

    Naohiro Tawara, Tetsuji Ogawa, Tetsunori Kobayashi

    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)     2041 - 2045  2015年  [査読有り]

     概要を見る

    The present paper dealt with speaker clustering for speech corrupted by noise. In general, the performance of speaker clustering significantly depends on how well the similarities between speech utterances can be measured. The recently proposed i-vector-based cosine similarity has yielded the state-of-the-art performance in speaker clustering systems. However, this similarity often fails to capture the speaker similarity under noisy conditions. Therefore, we attempted to examine the efficiency of spectral clustering on i-vector-based similarity for speech corrupted by noise because spectral clustering can yield robustness against noise by non-linear projection. Experimental comparisons demonstrated that spectral clustering yielded significant improvement from conventional methods, such as agglomerative clustering and k -means clustering, under non-stationary noise conditions.

    DOI

  • Effect of frequency weighting on MLP-based speaker canonicalization

    Yuichi Kubota, Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Tsuneo Nitta

    Proc. INTERSPEECH2014     2987 - 2991  2014年09月  [査読有り]

  • Vision based SLAM for humanoid robots: A survey

    Walaa Gouda, Walid Gomaa, Tetsuji Ogawa

    Proceedings of the 2013 2nd International Japan-Egypt Conference on Electronics, Communications and Computers, JEC-ECC 2013     170 - 175  2013年12月  [査読有り]

    担当区分:最終著者

     概要を見る

    This paper is a survey work for designing a Vision based Simultaneous Localization and Mapping (VSLAM) humanoid robot to generate a map of an unknown environment. A lot of factors have to be considered while designing a VSLAM robot. Vision Sensors are very attractive for application in SLAM because of their rich sensory output and cost effectiveness. Different issues are involved in the problem of vision based SLAM and many different approaches exist in order to solve these issues. Similarly the type of environment determines the suitable feature extraction method. The main objective of this survey is to conduct a comparative study among the current vision sensing methods in terms of imaging systems used for performing VSLAM, feature extraction algorithms used in some recently published papers, and initialization of landmarks, and to figure out the best for our work. © 2013 IEEE.

    DOI

  • Integration of MKL-based and i-vector-based speaker verification by short

    Hideitsu Hino, Tetsuji Ogawa

    2013 SECOND IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR 2013)     562 - 566  2013年11月  [査読有り]

    担当区分:最終著者, 責任著者

     概要を見る

    We developed a speaker verification system that is efficient for short utterances. The i-vector-based speaker representation has helped realize highly accurate speaker verification systems; however, it might be not robust against short utterances because the reliability of statistics required for extracting i-vectors is low. On the other hand, multiple kernel learning based on conditional entropy minimization has also achieved high accuracy in speaker verification that is robust against intra-speaker variability. To improve the robustness of speaker verification systems against short utterances, we attempted to integrate the above-mentioned complementary systems. Our experimental results showed that the proposed system integration achieved high-accuracy speaker verification systems, irrespective of the utterance lengths, even for very short utterances (e.g., less than two seconds).

    DOI

  • Blocked Gibbs sampling based multi-scale mixture model for speaker clustering on noisy data

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    IEEE International Workshop on Machine Learning for Signal Processing, MLSP    2013年09月  [査読有り]

     概要を見る

    A novel sampling method is proposed for estimating a continuous multi-scale mixture model. The multi-scale mixture models we assume have a hierarchical structure in which each component of the mixture is represented by a Gaussian mixture model (GMM). In speaker modeling from speech, this GMM represents intra-speaker dynamics derived from the difference in the attributes such as phoneme contexts and the existence of non-stationary noise and the mixture of GMMs (MoGMMs) represents inter-speaker dynamics derived from the difference in speakers. Gibbs sampling is a powerful technique to estimate such hierarchically structured models but can easily induce the local optima problem depending on its use especially when the elemental GMMs are complex in structure. To solve this problem, a highly accurate and robust sampling method based on the blocked Gibbs sampling and iterative conditional modes (ICM) is proposed and effectively applied for reducing a singularity solution given in the model with complex multi-modal distributions. In speaker clustering experiments under non-stationary noise, the proposed sampling-based model estimation improved the clustering performance by 17% on average compared to the conventional sampling-based methods. © 2013 IEEE.

    DOI

  • Stream Selection and Integration in Multistream ASR Using GMM-Based Performance Monitoring

    Tetsuji Ogawa, Feipeng Li, Hynek Hermansky

    14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013)     3331 - 3335  2013年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    A moderately deep and rather wide artificial neural net is applied in phoneme recognition of noisy speech. The net is formed by first estimating posterior probabilities of phonemes in 21 band-limited streams covering the whole speech spectrum. These 21 band-limited streams are subdivided into three seven band-limited stream subsets, by differently sub-sampling the original 21 band-limited streams. In the second processing stage, all non-empty combinations of seven band-limited streams from each subset are formed as inputs to 127 artificial neural nets that are again trained to yield phoneme posteriors. In this way, 127 x 3 = 381 processing streams are formed. A novel technique for finding the best combination of the resulting 381 parallel processing streams, which uses the likelihood of a single-state Gaussian mixture model of the final classifier output is applied to selecting the most efficient streams. The technique is efficient in phoneme recognition of speech that is corrupted by realistic additive noise.

  • An Improved Entropy-Based Multiple Kernel Learning

    Hideitsu Hino, Tetsuji Ogawa

    2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012)     1189 - 1192  2012年11月  [査読有り]

    担当区分:最終著者

     概要を見る

    Kernel methods have been successfully used in many practical machine learning problems. However, the problem of choosing a suitable kernel is left to practitioners. One method to select the optimal kernel is to learn a linear combination of element kernels. A framework of multiple kernel learning based on conditional entropy minimization criterion (MCEM) has been proposed and it has been shown to work well for, e.g., speaker recognition tasks. In this paper, a computationally efficient implementation for MCEM, which utilizes sequential quadratic programming, is formulated. Through a comparative experiment to conventional MCEM algorithm on a speaker verification task, the proposed method is shown to offer comparable verification accuracy with considerable improvement in computational speed.

  • Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012)     2163 - 2166  2012年09月  [査読有り]

     概要を見る

    We have proposed a novel speaker clustering method based on a hierarchically structured utterance-oriented Dirichlet process mixture model. In the proposed method, the number of speakers can be determined from the given data using a nonparametric Bayesian manner and intra-speaker variability is successfully handled by multi-scale mixture modeling. Experimental result showed that the proposed method is computationally-efficient and effective in speaker clustering. The proposed method significantly improve the accuracy of speaker clustering systems as compared with the conventional method, particularly for the case in which the number of utterances varied from speaker to speaker.

  • FULLY BAYESIAN INFERENCE OF MULTI-MIXTURE GAUSSIAN MODEL AND ITS EVALUATION USING SPEAKER CLUSTERING

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

    2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)     5253 - 5256  2012年03月  [査読有り]

     概要を見る

    This study aims to verify effective optimization methods for estimating parametric, fully Bayesian models in speech processing. For that purpose, we investigate the impact of the difference in optimization methods for the multi-scale Gaussian mixture model, which is suitable for speaker clustering, on the clustering accuracy. The Markov chain Monte Carlo (MCMC)-based method was compared with the variational Bayesian method in the speaker clustering experiment; with a small amount of data, the MCMC-based method was more effective; with large scale data (more than one million samples), the difference between these methods in terms of the clustering accuracy decreased and the MCMC-based method was computationally efficient.

    DOI

  • CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments

    Takahiro Fukumori, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Norihide Kitaoka, Takeshi Yamada, Kazumasa Yamamoto, Satoru Tsuge, Masakiyo Fujimoto, Tetsuya Takiguchi, Chiyomi Miyajima, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Acoustical Science and Technology   32 ( 5 ) 201 - 210  2011年09月  [査読有り]

     概要を見る

    We have been distributing a new collection of databases and evaluation tools called CENSREC-4, which is a framework for evaluating distant-talking speech in reverberant environments. The data contained in CENSREC-4 are connected digit utterances as in CENSREC-1. Two subsets are included in the data: "basic data sets" and "extra data sets." The basic data sets are used for evaluating the room impulse response-convolved speech data to simulate the various reverberations. The extra data sets consist of simulated data and corresponding real recorded data. Evaluation tools are presently only provided for the basic data sets and will be delivered to the extra data sets in the future. The task of CENSREC-4 with a basic data set appears simple
    however, the results of experiments prove that CENSREC-4 provides a challenging reverberation speech-recognition task, in the sense that a traditional technique to improve recognition and a widely used criterion to represent the difficulty of recognition deliver poor performance. Within this context, this common framework can be an important step toward the future evolution of reverberant speech-recognition methodologies. © 2011 The Acoustical Society of Japan.

    DOI

  • Development and evaluation of Japanese Lombard speech corpus

    Tetsuji Ogawa, Takanobu Nishiura, Takeshi Yamada, Norihide Kitaoka, Tetsunori Kobayashi

    Proc. Internoise2011    2011年09月  [査読有り]  [招待有り]

    担当区分:筆頭著者, 責任著者

  • Class-Distance-Based Discriminant Analysis and Its Application to Supervised Automatic Age Estimation

    Tetsuji Ogawa, Kazuya Ueki, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E94D ( 8 ) 1683 - 1689  2011年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    We propose a novel method of supervised feature projection called class-distance-based discriminant analysis (CDDA), which is suitable for automatic age estimation (AAE) from facial images. Most methods of supervised feature projection, e.g., Fisher discriminant analysis (FDA) and local Fisher discriminant analysis (LFDA), focus on determining whether two samples belong to the same class (i.e., the same age in AAE) or not. Even if an estimated age is not consistent with the correct age in AAE systems, i.e., the AAE system induces error, smaller errors are better. To treat such characteristics in AAE, CDDA determines between-class separability according to the class distance (i.e., difference in ages); two samples with similar ages are imposed to be close and those with spaced ages are imposed to be far apart. Furthermore, we propose an extension of CDDA called local CDDA (LCDDA), which aims at handling multimodality in samples. Experimental results revealed that CDDA and LCDDA could extract more discriminative features than FDA and LFDA.

    DOI

  • Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization

    Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, Tetsunori Kobayashi

    Proc. Interspeech2011     2741 - 2744  2011年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

  • Speaker Clustering Based on Utterance-oriented Dirichlet Process Mixture Model

    Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011)     2905 - 2908  2011年08月  [査読有り]

     概要を見る

    This paper provides the analytical solution and algorithm of UO-DPMM based on a non-parametric Bayesian manner, and thus realizes fully Bayesian speaker clustering. We carried out preliminary speaker clustering experiments by using a TIMIT database to compare the proposed method with the conventional Bayesian Information Criterion (BIC) based method, which is an approximate Bayesian approach. The results showed that the proposed method outperformed the conventional one in terms of both computational cost and robustness to changes in tuning parameters.

  • Spatial filter calibration based on minimization of modified LSD

    Nobuaki Tanaka, Tetsuji Ogawa, Tetsunori Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011)     1761 - 1764  2011年08月  [査読有り]

     概要を見る

    A new sound source separation method has been developed that is robust against individual variability in microphones and acoustic lines. A specific area that has a target sound source was enhanced by using a spatial filter developed by time-frequency masking. However, there is a strong likelihood that the spatial filters will be distorted due to the impact of individual variability in microphone characteristics and acoustic lines. To solve this problem, calibration of these spatial filters' shapes was attempted using a modified log-spectral distance (MLSD) minimization criterion, which uses utterances made by each individual (i.e., a sound source) at the desired positions. The effectiveness of this spatial filter calibration was experimentally verified in speech recognition experiments; MLSD-based calibration had fewer word errors than the cases without calibration and calibration using other criteria.

  • Speaker recognition using multiple kernel learning based on conditional entropy minimization

    Tetsuji Ogawa, Hideitsu Hino, Nima Reyhani, Noboru Murata, Tetsunori Kobayashi

    2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)     2204 - 2207  2011年05月  [査読有り]

    担当区分:筆頭著者, 責任著者

    DOI

  • CENSREC-1-AV: An audio-visual corpus for noisy bimodal speech recognition

    Satoshi Tamura, Chiyomi Miyajima, Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Tetsuya Takiguchi, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Proc. AVSP2010    2010年09月  [査読有り]

  • DEVELOPMENT OF ZONAL BEAMFORMER AND ITS APPLICATION TO ROBOT AUDITION

    Nobuaki Tanaka, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    18TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO-2010)     1529 - 1533  2010年08月  [査読有り]

     概要を見る

    We have proposed a zonal beamformer (ZBF), which enhances the sound source located in a zonal space, and applied the ZBF to noise reduction systems for robot audition. A conversational partner of a robot does not always remain stationary with respect to the robot. In order to cope with such a situation, we have proposed a fan-like beamformer (FBF), which enhances the sound source located in a fan-like space in front of the robot under the assumption that the partner is in front of the robot. However, the FBF may degrade the noise reduction performance when directional noise sources are located behind the target source because the FBF widens the space as the distance from the robot increases. The ZBF can better improve the performance of eliminating the directional noise coming from behind the target source than the FBF because the ZBF has a considerably sharper directivity than the FBF.

  • Speech Enhancement Using a Square Microphone Array in the Presence of Directional and Diffuse Noise

    Tetsuji Ogawa, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E93A ( 5 ) 926 - 935  2010年05月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    We propose a new speech enhancement method suitable for mobile devices used in the presence of various types of noise. In order to achieve high-performance speech recognition and auditory perception in mobile devices, various types of noise have to be removed under the constraints of a space-saving microphone arrangement and few computational resources. The proposed method can reduce both the directional noise and the diffuse noise under the abovementioned constraints for mobile devices by employing a square microphone array and conducting low-computational-cost processing that consists of multiple null beamforming, minimum power channel selection, and Wiener filtering. The effectiveness of the proposed method is experimentally verified in terms of speech recognition accuracy and speech quality when both the directional noise and the diffuse noise are observed simultaneously; this method reduces the number of word errors and improves the log-spectral distances as compared to conventional methods.

    DOI

  • Influence of Lombard Effect: Accuracy Analysis of Simulation-Based Assessments of Noisy Speech Recognition Systems for Various Recognition Conditions

    Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E92D ( 11 ) 2244 - 2252  2009年11月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    The accuracy of simulation-based assessments of speech recognition systems under noisy conditions is investigated with a focus on the influence of the Lombard effect on the speech recognition performances. This investigation was carried out under various recognition conditions of different sound pressure levels of ambient noise, for different recognition tasks, such as continuous speech recognition and spoken word recognition, and using different recognition systems, i.e., systems with and without adaptation of the acoustic models to ambient noise. Experimental results showed that accurate simulation was not always achieved when dry sources with neutral talking style were used, but it could be achieved if the dry sources that include the influence of the Lombard effect were used; the simulation in the latter case is accurate, irrespective of the recognition conditions.

    DOI

  • Robot auditory system using head-mounted square microphone array

    Kosuke Hosoya, Tetsuji Ogawa, Tetsunori Kobayashi

    2009 IEEE-RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS     2736 - 2741  2009年10月  [査読有り]

     概要を見る

    A new noise reduction method suitable for autonomous mobile robots was proposed and applied to preprocessing of a hands-free spoken dialogue system. When a robot talks with a conversational partner in real environments, not only speech utterances by the partner but also various types of noise, such as directional noise, diffuse noise, and noise from the robot, are observed at microphones. We attempted to remove these types of noise simultaneously with small and light-weighted devices and low-computational-cost algorithms. We assumed that the conversational partner of the robot was in front of the robot. In this case, the aim of the proposed method is extracting speech signals coming from the frontal direction of the robot. The proposed noise reduction system was evaluated h the presence of various types of noise: the number of word errors was reduced by 69 % as compared to the conventional methods. The proposed robot auditory system can also cope with the case in which a conversational partner (i.e., a sound source) moves from the front of the robot: the sound source was localized by face detection and tracking using facial images obtained from a camera mounted on an eye of the robot. As a result, various types of noise could be reduced in real time, irrespective of the sound source positions, by combining speech information with image information.

    DOI

  • CENSREC-1-C: An evaluation framework for voice activity detection under noisy environments

    Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Acoustical Science and Technology   30 ( 5 ) 363 - 371  2009年08月  [査読有り]

     概要を見る

    Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environments. We have developed an evaluation framework for VAD under noisy environments, named CENSREC-1-C. We designed this framework for simple isolated utterance detection and hence, this framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We define two evaluation measures, one for frame-level detection performance and the other for utterance-level detection performance. We also provide the evaluation results of a power-based VAD method as a reference. ©2009 The Acoustical Society of Japan.

    DOI

  • Direction-of-arrival estimation under noisy condition using four-line omni-directional microphones mounted on a robot head

    Tetsuji Ogawa, Kosuke Hosoya, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. EUSIPCO2009    2009年08月  [査読有り]

  • CENSREC-4: Development of Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments

    Masato Nakayama, Takanobu Nishiura, Yuki Denda, Norihide Kitaoka, Kazumasa Yamamoto, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5     968 - 971  2008年09月  [査読有り]

  • Class Distance Weighted Locality Preserving Projection for Automatic Age Estimation

    Kazuya Ueki, Masakazu Miya, Tetsuji Ogawa, Tetsunori Kobayashi

    2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems (BTAS2008)    2008年09月  [査読有り]

    DOI

  • Ears of the Robot: Noise Reduction Using Four-Line Ultra-Micro Omni-Directional Microphones Mounted on A Robot Head

    Tetsuji Ogawa, Hirofumi Takeuchi, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. EUSIPCO2008    2008年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

  • Ears of the robot: Direction of arrival estimation based on pattern recognition using robot-mounted microphones

    Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E91D ( 5 ) 1522 - 1530  2008年05月  [査読有り]

     概要を見る

    We propose a new type of direction-of-arrival estimation method for robot audition that is free from strict head related transfer function estimation. The proposed method is based on statistical pattern recognition that employs a ratio of power spectrum amplitudes occurring for a microphone pair as a feature vector. It does not require any phase information explicitly, which is frequently used in conventional techniques, because the phase information is unreliable for the case in which strong reflections and diffractions occur around the microphones. The feature vectors we adopted can treat these influences naturally. The effectiveness of the proposed method was shown from direction-of-arrival estimation tests for 19 kinds of directions: 92.4% of errors were reduced compared with the conventional phase-based method.

    DOI

  • Speech enhancement using square microphone array for mobile devices

    Shintaro Takada, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12     313 - 316  2008年04月  [査読有り]

     概要を見る

    In this paper, we propose a new type of speech enhancement method that is suitable for mobile devices used in noisy environments. For the sake of achieving high-performance speech recognition and auditory perception in the mobile devices, disturbance noises have to be removed under the requirements of a space-saving microphone arrangement and a low computational cost. The proposed method can reduce both the directional and the diffuse noises under the requirements for the mobile devices by applying the square microphone array and the low-cost processing that consists of multiple null beam-forming, their minimum power channel selection and Wiener filtering. The effectiveness of the proposed method is clarified for speech recognition accuracies and speech qualities under the condition in which both the directional and the diffuse noises exist simultaneously: it reduced 40% of recognition errors and improved PESQ-based MOS value by 0.75 point.

    DOI

  • Sound source separation using null-beamforming and spectral subtraction for mobile devices

    Shintaro Takada, Satoshi Kanba, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2007)     133 - 136  2007年10月  [査読有り]

     概要を見る

    This paper presents a new type of speech segregation method for mobile devices in noisy sound situation, where two or more speakers are talking simultaneously. The proposed method consists of multiple null-beamformers, their minimum power channel selection and spectral subtraction. The proposed method is performed with space-saving and coplanar microphone arrangements and low-cost calculations, which are the very important requirements for the mobile application. Effectiveness of the proposed method is clarified in the segregation and the recognition experiments of two simultaneous continuous speeches: the method improved the PESQ-based MOS value by about one point and reduced 70% of word recognition errors compared with non-processing.

    DOI

  • Ears of the robot: Three simultaneous speech segregation and recognition using robot-mounted microphones

    Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE Transactions on Information and Systems   E90-D ( 9 ) 1465 - 1468  2007年09月  [査読有り]

    担当区分:責任著者

     概要を見る

    A new type of sound source segregation method using robot-mounted microphones, which are free from strict head related transfer function (HRTF) estimation, has been proposed and successfully applied to three simultaneous speech recognition systems. The proposed segregation method is executed with sound intensity differences that are due to the particular arrangement of the four directivity microphones and the existence of a robot head acting as a sound barrier. The proposed method consists of three-layered signal processing: two-line SAFIA (binary masking based on the narrow band sound intensity comparison), two-line spectral subtraction and their integration. We performed 20 K vocabulary continuous speech recognition test in the presence of three speakers' simultaneous talk, and achieved more than 70% word error reduction compared with the case without any segregation processing. Copyright © 2007 The Institute of Electronics, Information and Communication Engineers.

    DOI

  • Adequacy Analysis of Simulation-Based Assessment of Speech Recognition System

    Tetsuji Ogawa, Satoshi Kanba, Tetsunori Kobayashi

    2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP '07   ( 4 ) 1153 - 1157  2007年04月  [査読有り]

    担当区分:筆頭著者

    DOI

  • Manifold HLDA and Its Application to Robust Speech Recognition

    Toshiaki Kubo, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 9th International Conference on Spoken Language Processing (INTERSPEECH2006 - ICSLP)     1551 - 1554  2006年09月  [査読有り]

    担当区分:責任著者

    DOI

  • Source Separation Using Multiple Directivity Patterns Produced by ICA-based BSS

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 14th European Signal Processing Conference (EUSIPCO2006)    2006年09月  [査読有り]

  • A Method for Solving the Permutation Problem of Frequency-Domain BSS Using Reference Signal

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 14th European Signal Processing Conference (EUSIPCO2006)    2006年09月  [査読有り]

  • 対話ロボットの動作に頑健な頭部ジェスチャ認識

    中島慶, 江尻康, 藤江真也, 小川哲司, 松坂要佐, 小林哲則

    電子情報通信学会論文誌   J89-D ( 7 ) 1514 - 1522  2006年09月  [査読有り]

    CiNii

  • Genetic algorithm based optimization of Partly-Hidden Markov Model structure using discriminative criterion

    Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E89D ( 3 ) 939 - 945  2006年03月  [査読有り]

    担当区分:筆頭著者

     概要を見る

    A discriminative modeling is applied to optimize the structure of it Partly-Hidden Markov Model (PHMM). PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can represent observation dependent behaviors in both observations and state transitions. In the formulation of the previous PHMM we used a common structure for all models. However, it is expected that the optimal structure which gives the best performance differs front category to category. In this paper, we designed a new structure optimization method in which the dependence of the states and the observations of PHMM are optimally defined according to each model using the weighted likelihood-ratio maximization (WLRM) criterion. The WLRM criterion gives high discriminability between the correct category and the incorrect categories. Therefore it gives model structures with good discriminative performance. We define the model structure combination which satisfy the WLRM criterion for any possible structure combinations as the optimal structures. A genetic algorithm is also applied to the adequate approximation of a full search. With results of continuous lecture talk speech recognition, the effectiveness of the proposed structure optimization is shown: it reduced the word errors compared to HMM and PHMM with a common structure for all models.

    DOI

  • A Method for Solving the Permutation Problem of Frequency-domain Blind Source Separation using Reference Signal

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Biennial on DSP for in-Vehicle and Mobile Systems    2005年09月  [査読有り]

  • Optimizing the Structure of Partly-Hidden Markov Models Using Weighted Likelihood-Ratio Maximization Criterion

    Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. Interspeech2005     3353 - 3356  2005年09月  [査読有り]

    担当区分:筆頭著者

  • Extension of Hidden Markov Models for multiple candidates and its application to gesture recognition

    Yosuke Sato, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E88D ( 6 ) 1239 - 1247  2005年06月  [査読有り]

     概要を見る

    We propose a modified Hidden Markov Model (HMM) with a view to improve gesture recognition using a moving camera. The conventional HMM is formulated so as to deal with only one feature candidate per frame. However. for a mobile robot, the background and the lighting conditions are always changing, and the feature extraction problem becomes difficult. It is almost impossible to extract a reliable feature vector under such conditions. In this paper, we define a new gesture recognition framework in which multiple candidates of feature vectors are generated with confidence measures and the HMM is extended to deal with these multiple feature vectors. Experimental results comparing the proposed system with feature vectors based on DCT and the method of selecting only one candidate feature point verifies the effectiveness of the proposed technique.

    DOI

  • Recognition of three simultaneous utterance of speech by four-line directivity microphone mounted on head of robot

    Naoya Mochiki, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. ICSLP2004   2   821 - 824  2004年10月  [査読有り]

  • 部分隠れマルコフモデルにおける状態・出力依存関係の拡張 と連続音声認識への適用

    小川哲司, 小林哲則

    電子情報通信学会論文誌   J87-DII ( 6 ) 1216 - 1223  2004年06月  [査読有り]

    担当区分:筆頭著者

    CiNii

  • Speech Recognition of Double Talk using SAFIA-based Audio Segregation

    Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. EUROSPEECH2003     1285 - 1288  2003年09月  [査読有り]

  • Hybrid modeling of PHMM and HMM for speech recognition

    Tetsuji Ogawa, Tetsunori Kobayashi

    2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS   1   140 - 143  2003年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    A hybrid acoustic model of Partly Hidden Markov Model (PHMM) and HMM is proposed,
    PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can realize the observation dependent behaviors in both observations and state transitions. It achieved good performance but some errors with different trend from HMM still remained.
    In this paper, we designed a new acoustic model on the basis of PHMM, in which the observation and state transition probabilities are defined by the geometric means of PHMM-based ones and HMM-based ones. In this framework, if a word hypothesis is given a low score by either PHMM or HMM, it almost loses possibilities to be a probable candidate. Since many errors are due to the high-scores of incorrect categories, rather than the low-score of the correct category, this property contributed to reduce errors. Moreover, the proposed model is more stable than PHMM because the higher order statistics of PHMM, which is generally accurate but sometimes less reliable, is smoothed by the lower order statistics of HMM, which is not so accurate but robust.
    Experimental results showed the effectiveness of proposed model: it reduced the word errors by 25% compared with HMM.

    DOI

  • Generalization of State-Observation-Dependency in Partly Hidden Markov Models

    Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. ICSLP2002     2673 - 2676  2002年09月  [査読有り]

    担当区分:筆頭著者

▼全件表示

書籍等出版物

  • 人工知能学大辞典(話者認識・話者照合)

    人工知能学( 担当: 分担執筆)

    共立出版  2017年07月 ISBN: 9784320124202

  • 音響キーワードブック(話者ダイアライゼーション)

    日本音響学( 担当: 分担執筆)

    コロナ社  2016年03月 ISBN: 9784339008807

    ASIN

Misc

  • テキストのみを用いたIntermediate-CTCコンフォーマーモデルのドメイン適応

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識

    樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

    日本音響学会研究発表会講演論文集    2022年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた合成音声評価におけるワーカからの回答の分析

    八重樫萌絵, 斎藤奨, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的学習と Unmix-Remix 無矛盾学習による教師なし音源分離

    西城耕平, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ペアデータを必要としない敵対的学習に基づく音声処理歪み補正

    荻野里久, 藤枝大, 片桐一浩, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 言い淀みとポーズ位置検出に基づく第二言語発話の流暢性自動採点

    松浦瑠希, 鈴木駿吾, 佐伯真於, 小川哲司, 松山洋一

    日本音響学会研究発表会講演論文集    2022年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた話者照合結果の検証における誤り削減傾向に関する調査

    井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • End-to-end音声認識モデルにおけるテキストデータ学習手法の検討

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    2021年度映像情報メディア学会冬季大会    2021年12月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    情報処理学会研究報告 (SLP)    2021年12月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた結果の検証による話者照合性能の改善

    井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

    情報処理学会研究報告 (SLP)    2021年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • CTCと異なる粒度のサブワード単位に基づいた階層的条件付きEnd-to-End音声認識

    樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

    情報処理学会研究報告 (SLP)     1 - 6  2021年12月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • マルソウダ曳縄漁のための気象・海況情報を用いた良漁場予測

    堀内優佳, 中野鐵兵, 宮澤泰正, 小川哲司

    水産海洋学会2021年度研究発表大会要旨    2021年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 船上映像を用いた漁獲尾数計測器

    田中理子, 中野鐵兵, 小川哲司

    水産海洋学会2021年度研究発表大会要旨    2021年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 農家の皆さんにとって使い勝手が良く,信頼してもらえるAI技術の作り方-農家の意思決定支援のための家畜の映像監視システム開発を例に―

    小川哲司

    肉牛ジャーナル   34 ( 10 ) 59 - 63  2021年10月

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(商業誌、新聞、ウェブメディア)  

  • Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習

    趙懐博, 樋口陽祐, 小林哲則, 小川哲司

    情報処理学会研究報告 (SLP)     1 - 6  2021年10月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • DNNを用いた最小分散ビームフォーマの音源の動き対する頑健性:音源追跡とエリア収音に基づくアプローチの比較

    西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

    日本音響学会研究発表会講演論文集     321 - 322  2021年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • VocalTurk:クラウドソーシングを用いた話者照合の性能調査

    斎藤奨, 井手悠太, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集     1003 - 1006  2021年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 予測の不一致に基づく深層学習モデルの不確実性推定とクラウドソーシングを用いた映像監視への応用

    松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

    第24回画像の認識・理解シンポジウム (MIRU2021)     1 - 4  2021年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 意思決定支援のための解釈可能な映像監視システムの開発フローと繁殖牛の分娩予兆検知への応用

    兵頭亮介, 斎藤奨, 中野鐵兵, 小川哲司

    第24回画像の認識・理解シンポジウム (MIRU2021)     1 - 4  2021年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 黒毛和牛種の映像監視における解釈可能な分娩予兆通知システム

    兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 春日良一, 小川哲司

    日本畜産学会 第128回大会要旨    2021年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 空間フィルタ出力を補助情報として用いた音源の移動に頑健なニューラル音声強調

    西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

    日本音響学会研究発表会講演論文集     427 - 428  2021年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ペアデータを必要としない敵対的学習に基づく多チャンネル音源分離

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会研究発表会講演論文集     409 - 410  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • コモンセンス知識を利用した物語中の登場人物の感情推定

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    言語処理学会第27回年次大会     538 - 542  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 単語の重要度に応じてパラメタ数可変な単語分散表現の学習

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第27回年次大会     12 - 16  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

    樋口陽祐, 稲熊寛文, 渡部晋治, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)    2020年12月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 分布類似度に基づく健全性指標と風車異常検知システムの早期運用における効果

    長谷川隆徳, 緒方淳, 飯田誠, 小川哲司

    第42回風力エネルギー利用シンポジウム予稿集    2020年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Mentoring-Reverse Mentoring: 多チャンネル音源分離における教師なし学習のための知識伝搬フレームワーク

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 秋季 ) 127 - 130  2020年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識

    樋口陽祐, 渡部晋治, Chen Nanxin, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 秋季 ) 747 - 748  2020年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 書き起こしのための遠方発話音声認識技術の検討

    佐藤裕明, 萩原愛子, 伊藤均, 三島剛, 河合吉彦, 小森智康, 佐藤庄衛, 小川哲司

    日本音響学会講演論文集   2020 ( 秋季 ) 841 - 842  2020年09月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 感情に関するマルチラベルアノテーションにおける正解基準の設定

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングにおける効率的な回答収集のための動的なマイクロタスク追加発注

    森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 肉牛の発情検知のための乗駕行動画像データセット構築におけるクラウドソーシングの活用

    川野百合子, 斎藤奨, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ドローン空撮画像を用いた潮目の検知に関する検討

    幸加木裕也, 小林哲則, 小川哲司

    日本水産学会春季大会要旨    2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • End-to-end雑音除去のためのネットワーク構造の検討

    蓮実拓也, 小林哲則, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 335 - 336  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 感情推定における感情カテゴリに関する先験的知識の利用

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    言語処理学会第26回年次大会発表論文集   P6-23  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 局所的依存構造をSelf-Attentionにより考慮する翻訳文生成

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第26回年次大会発表論文集   P1-7  2020年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 所望音源の方向アトラクターに基づく時変の空間フィルタを用いたDNN音声抽出

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 春季 ) 305 - 308  2020年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 短発話を対象としたテキスト独立型話者認識のためのフレームレベル音素非依存特徴抽出

    俵直弘, 小川厚徳, 岩田具治, デラクロアマーク, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 997 - 998  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Attentionに関する損失を利用したノイズに頑健なEnd-to-End音声認識

    樋口陽祐, 俵直弘, 小川厚徳, 岩田具治, 小林 哲則, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 935 - 936  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングにおける動的な回答収集による低コストな多数決手法

    森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

    情報処理学会研究報告 (HCI)   2019-HCI-186 ( 36 ) 1 - 6  2020年01月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • マルチチャネル音声強調のための時間領域畳み込みデノイジングオートエンコーダ

    俵直弘, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(SP)    2019年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~

    長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

    第41回風力エネルギー利用シンポジウム    2019年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報を用いた繁殖牛分娩検知システムの構築と運用法に関する研究・開発(自然に挑む画像センシング技術~農林水産業の現場でいかに役立つか?~)

    小川哲司, 斎藤奨, 中野鐵兵

    OplusE   41 ( 6 ) 858 - 862  2019年11月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

  • 画像情報による黒毛和牛種の乗駕行動の検知に関する検討

    川野百合子, 河田宗士, 沖本祐典, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

    日本畜産学会 第126回大会要旨     IV-19-03  2019年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 双方向時系列情報を利用した検出結果と正解情報付与による効率的なアノテーション手法

    真殿航輝, 中野鐵兵, 小林哲則, 小川哲司

    第22回画像の認識・理解シンポジウム   PS2-5   1 - 4  2019年08月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 学習可能な暗号化画像への敵対的学習に基づく攻撃

    真殿航輝, 田中正行, 大西正輝, 小川哲司

    第22回画像の認識・理解シンポジウム   PS1-41   1 - 4  2019年08月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価

    樋口陽祐, 俵直弘, 小林哲則, 小川哲司

    情報処理学会研究報告 (SLP)   2019-SLP-128 ( 6 ) 1 - 6  2019年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 画像から得られる牛の身体情報に基づく分娩予兆検知

    兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤通報の抑制

    沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • ベイズ状態空間モデルを用いた定置網漁のための日単位漁獲量予測

    幸加木裕也, 堀内優佳, 俵直弘, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 回転機器状態監視のための振動異常検知システムにおける特徴表現学習

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 動画像から得られる牛の身体情報に基づく分娩予兆検知システム

    兵頭亮介, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 1 - 6  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた肉牛分娩開始検知システムの早期運用

    沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 7 - 12  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 網内の魚の振る舞いを表現した状態空間モデルによる定置網漁のための日単位漁獲量予測

    幸加木裕也, 俵直弘, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 13 - 18  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 早稲田大学知覚情報システム・メディアインテリジェンス研究室紹介

    長谷川隆徳, 黒澤郁音, 斎藤奨, 松山洋一, 林良彦, 小林哲則, 小川哲司

    日本風力エネルギー学会誌   43 ( 1 ) 154 - 157  2019年05月

    担当区分:最終著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    CiNii

  • クエリ文によるゼロショット映像検索 – TRECVID 2018 AVSタスクの成果報告 –

    植木一也, 中込優, 平川幸司, 菊池康太郎, 林良彦, 小川哲司, 小林哲則

    動的画像処理実用化ワークショップ2019 (DIA2019)    2019年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 漁獲量における心理尺度と漁獲量予測器の最適化への利用

    幸加木裕也, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

    日本水産学会春季大会要旨     140  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 画像情報による黒毛和牛種の状態識別に基づいた分娩予兆検知システム

    兵頭亮介, 安田早希, 斎藤奨, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第125回大会要旨     XIII-29-10  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報による肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤検出抑制

    沖本祐典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第125回大会要旨     XIII-29-09  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 音韻・話者特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて

    俵直弘, 小林哲則, 小川哲司

    日本音響学会講演論文集   2019 ( 春季 ) 1003 - 1004  2019年03月

  • ドメイン属性情報を用いたRNN言語モデルのドメイン汎化

    芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2019 ( 春季 ) 927 - 930  2019年03月

  • ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出

    樋口陽祐, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2019 ( 春季 ) 923 - 924  2019年03月

  • noise-aware学習を用いた敵対的デノイジングオートエンコーダによるポストフィルタリング

    俵直弘, 田辺ひかり, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    日本音響学会講演論文集   2019 ( 春季 ) 159 - 162  2019年03月

  • 隣接単語系列の予測による文の分散表現構成法

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第25回年次大会発表論文集     1479 - 1482  2019年03月

  • 敵対的デノイジングオートエンコーダを用いた拡散性雑音除去

    田辺ひかり, 俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    電子情報通信学会技術研究報告(SP)   118 ( 497 ) 155 - 160  2019年03月

    CiNii

  • 畳み込みニューラルネットワークに基づく風車異常検知システムにおける判断根拠の可視化に関する検討

    佐伯真於, 緒方淳, 村川正宏, 小川哲司

    第40回風力エネルギー利用シンポジウム予稿集    2018年12月

  • 正常稼働状態の表現学習に基づく風車異常検知

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第40回風力エネルギー利用シンポジウム予稿集    2018年12月

  • RNN言語モデルのためのドメイン属性情報を用いたゼロショット学習

    芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    情報処理学会研究報告    2018年12月

  • 映像からの牛の分娩予兆行動検知に関する検討

    菅原一真, 中野鐵兵, 赤羽誠, 小林晢則, 小川哲司

    電子情報通信学会技術研究報告 (PRMU)   118 ( 362 ) 79 - 84  2018年12月

  • 画像からの牛の状態識別に基づく分娩予兆検知

    兵頭亮介, 安田早希, 斎藤奨, 沖本裕典, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告 (PRMU)   118 ( 362 ) 57 - 60  2018年12月

  • Waseda_Meisei at TRECVID 2018: Fully-automatic ad-hoc video search

    Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2018 Workshop    2018年11月

    研究発表ペーパー・要旨(国際会議)  

  • Waseda Meisei at TRECVID2018: Ad-hoc video search

    Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2018 Workshop    2018年11月

    研究発表ペーパー・要旨(国際会議)  

  • 定置網漁の日単位漁獲量予測モデリングにおける学習データ量と予測性能の関係の調査

    堀内優佳, 幸加木裕也, 小林哲則, 小川哲司

    日本水産学会秋季大会要旨    2018年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的デノイジングオートエンコーダによる非線形ひずみ除去フィルタリング

    俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    日本音響学会講演論文集   2018 ( 秋季 ) 159 - 162  2018年09月

  • 非線形ひずみ除去のための敵対的 denoising autoencoder

    俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    情報処理学会研究報告   2018-SLP-123 ( 1 ) 1 - 7  2018年07月

  • 牛の分娩予兆として映像から観測可能な状態の検知

    沖本祐典, 菅原一真, 齊藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2018  2018年06月

    DOI CiNii

  • AIで風車の異常を見つける:データ駆動型アプローチによる異常検知の最新動向

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    日本風力エネルギー学会誌   42 ( 1 ) 72 - 76  2018年05月  [招待有り]

    担当区分:最終著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI

  • 定置網漁における漁獲過程モデルを用いたシロサケの日単位漁獲量予測

    幸加木裕也, 俵直弘, 小林哲則, 橋本和夫, 小川哲司

    日本水産学会春季大会要旨    2018年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報を用いた分娩時の牛の状態推定

    沖本祐典, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第124回大会要旨    2018年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的マルチタスク学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価

    土屋平, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 9 - 12  2018年03月

  • 話者正規化における言語非依存性とゼロリソース音声認識における効果

    島田拓也, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 109 - 112  2018年03月

  • 敵対的学習に基づく話者特徴抽出

    俵直弘, 土屋平, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 141 - 144  2018年03月

  • 異種データ活用のための変換複合行列分解

    土屋平, 岩田具治, 小川哲司

    電子情報通信学会技術研究報告 (IBISML)   117 ( 475 ) 41 - 48  2018年03月

    CiNii

  • 正常・損傷の表現学習に基づく風力発電システム異常検知技術の高度化

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第39回風力エネルギー利用シンポジウム     371 - 374  2017年12月

  • Waseda Meisei at TRECVID2017: Ad-hoc video search

    Kazuya Ueki, Koji Hirakawa, Kotara Kikuchi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2017 Workshop    2017年11月

    研究発表ペーパー・要旨(国際会議)  

  • 正常・損傷の表現学習に基づく機械振動異常検知

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第16回評価・診断に関するシンポジウム講演論文集     5 - 10  2017年11月

    DOI

  • 複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性

    芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司

    日本音響学会講演論文集   2017 ( 秋季 ) 23 - 26  2017年09月

  • ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル

    森岡幹, 俵直弘, 小川哲司, 小川厚徳, 岩田具治, 小林哲則

    日本音響学会講演論文集   2017 ( 秋季 ) 27 - 30  2017年09月

  • 会話参加状態を考慮した振る舞いをするロボットのシステムアーキテクチャ

    菅原一真, 浅野秀平, 赤川優斗, 藤江真也, 小川哲司, 小林哲則

    人工知能学会全国大会論文集   JSAI2017  2017年06月

    DOI CiNii

  • 複数人対話のためのRNN言語モデルにおける発話終端と話者情報の利用法

    芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   116 ( 477 ) 287 - 290  2017年03月

    CiNii

  • 国際会議INTERSPEECH2016参加報告

    浅見太一, 小川厚徳, 小川哲司, 大谷大和, 倉田岳人, 齋藤大輔, 塩田さやか, 篠原雄介, 鈴木雅之, 高道慎之介, 南條浩輝, 橋本佳, 樋口卓哉, 増村亮, 吉野幸一郎, 渡部晋治

    情報処理学会研究報告 (SLP)   vol.2016-SLP-115 ( 7 ) 1 - 7  2017年02月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 少量データに頑健なニューラルネットワーク言語モデル

    森岡幹, 岩田具治, 小川厚徳, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2016 ( 秋季 ) 89 - 92  2016年09月

  • 複数人対話のための話者情報を用いたRNN言語モデル

    芦川博人, 森岡幹, 小川厚徳, 岩田具治, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2016 ( 秋季 ) 85 - 88  2016年09月

  • 深層学習を用いた出現音素の偏りに頑健な話者照合手法

    佐藤洋輔, 小川哲司, 堀内靖雄, 黒岩眞吾

    電子情報通信学会総合大会講演論文集    2016年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 連想記憶に基づく線形分離行列推定を用いたタンデム接続型音源分離

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    日本音響学会講演論文集   2016 ( 春季 ) 21 - 24  2016年03月

  • 高次相関を考慮した音響特徴量のDNNに基づく音声認識での利用

    小川哲司, 小林哲則, 新田恒雄

    日本音響学会講演論文集   2016 ( 春季 ) 161 - 162  2016年03月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ニューラルネットワークに基づく識別器の不確かさの推定とマルチストリーム音声認識への適用

    小川哲司, Mallidi Harish, Vesely Karel, Hermansky Hynek

    日本音響学会講演論文集   2016 ( 春季 ) 67 - 70  2016年03月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 国際会議INTERSPEECH2015参加報告

    浅見太一, 大谷大和, 小川哲司, 木下慶介, 倉田岳人, 齋藤大輔, 塩田さやか, 太刀岡勇気, 中村静, 増村亮, 渡部晋治

    情報処理学会研究報告   2016-SLP-110 ( 4 ) 1 - 5  2016年02月

  • スペクトラルクラスタリングに基づく話者クラスタリングのための因子分析法の効果の検証

    俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2015 ( 秋季 ) 173 - 174  2015年09月

  • 連想記憶に基づくブラインド音源分離のエコーキャンセリングへの応用

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    日本音響学会講演論文集   2015 ( 秋季 ) 593 - 596  2015年09月

  • 複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル

    森岡幹, 俵直弘, 小川哲司, 岩田具治, 小川厚徳, 堀貴明, 小林哲則

    日本音響学会講演論文集   2015 ( 秋季 ) 17 - 20  2015年09月

  • 国際会議ICASSP2015参加報告

    岡本拓磨, 小川哲司, 落合翼, 柏木陽佑, 亀岡弘和, 木下慶介, 郡山知樹, 齋藤大輔, 篠崎隆宏, 高木信二, 滝口哲也, 太刀岡勇気, 俵直弘, 橋本佳, 藤本雅清, 松田繁樹, 三村正人, 吉岡拓也, 渡部晋治

    情報処理学会研究報告   2015-SLP-107 ( 3 ) 1 - 7  2015年07月

  • テンソル積による基底変換に基づく音声認識に関する研究

    上田賢次郎, 小川哲司, 小林哲則, 桂田浩一, 新田恒雄

    日本音響学会講演論文集   2015 ( 春季 ) 7 - 10  2015年03月

  • 国際会議INTERSPEECH2014,SLT2014参加報告

    浅見太一, 岩野公司, 小川哲司, 駒谷和範, 齋藤大輔, 篠田浩一, 太刀岡勇気, 東中竜一郎, 福田隆, 増村亮, 渡部晋治

    情報処理学会研究報告   2015-SLP-105 ( 7 ) 1 - 6  2015年02月

  • i-vectorを用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング

    俵直弘, 小川哲司, 小林哲則

    情報処理学会研究報告   2015-SLP-105 ( 11 ) 1 - 6  2015年02月

    CiNii

  • 連想記憶と線形分離フィルタを用いたブラインド音源分離

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    情報処理学会研究報告   2015-SLP-105 ( 4 ) 1 - 6  2015年02月

    CiNii

  • スペクトラルクラスタリングに基づく話者クラスタリング

    俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2014 ( 秋季 ) 95 - 98  2014年09月

  • MLPを用いた話者正準化に基づく音声認識の検討

    久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

    情報処理学会研究報告   2014-SLP-102 ( 8 ) 1 - 6  2014年07月

    CiNii

  • i-vectorを用いた話者認識

    小川 哲司, 塩田 さやか

    日本音響学会誌   70 ( 6 ) 332 - 339  2014年06月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI CiNii J-GLOBAL

  • 標準話者母音スペクトルへの変換に基づく話者正準化

    久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

    日本音響学会講演論文集   2014 ( 春季 ) 77 - 78  2014年03月

  • 因子分析モデルに基づく話者照合の環境変動に対する頑健性の調査

    福地佑介, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2013 ( 秋季 ) 75 - 78  2013年09月

  • 話者認識で用いる機械学習

    小川 哲司, 松井 知子

    日本音響学会誌   69 ( 7 ) 349 - 356  2013年07月

    CiNii

  • 効率的なサンプリング手法を用いた話者モデリング

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    情報処理学会研究報告   2013-SLP-97 ( 2 ) 1 - 8  2013年07月

    CiNii

  • 話者認識で用いる機械学習

    小川哲司, 松井知子

    日本音響学会誌   69 ( 7 ) 349 - 356  2013年07月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI

  • 指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討

    大町基, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2013 ( 春季 ) 937 - 940  2013年03月

  • 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識

    小川哲司, Li Feipeng, Hermansky Hynek

    日本音響学会講演論文集   2013 ( 春季 ) 167 - 170  2013年03月

  • 話者認識技術の現状と課題

    網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, 王龍標

    電子情報通信学会技術研究報告 (SP)   112 ( 450 ) 63 - 70  2013年02月  [招待有り]

    CiNii

  • クラウド時代の新しい音声研究パラダイム

    秋葉友良, 岩野公司, 緒方淳, 小川哲司, 小野順貴, 篠崎隆宏, 篠田浩一, 南條浩輝, 西崎博光, 西田昌史, 西村竜一, 原直, 堀貴明

    情報処理学会研究報告   2012-SLP-92 ( 4 ) 1 - 7  2012年07月

    CiNii

  • i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用

    福地佑介, 俵直弘, 小川哲司, 小林哲則

    情報処理学会研究報告   2012-SLP-92 ( 8 ) 1 - 6  2012年07月

    CiNii

  • 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    日本音響学会講演論文集   2012 ( 春季 ) 207 - 210  2012年03月

  • 話者照合における因子分析に基づく特徴抽出に関する評価

    小川哲司, 小林哲則

    日本音響学会講演論文集   2012 ( 春季 ) 197 - 198  2012年03月

  • 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    電子情報通信学会技術研究報告(IBISML)   111 ( 480 ) 21 - 28  2012年03月

    CiNii

  • 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価

    俵直弘, 渡部晋治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 175 - 178  2011年09月

  • Modified LSD 最小化に基づく空間フィルタキャリブレーション

    田中信秋, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 33 - 36  2011年09月

  • クラス内変動に頑健なカーネルマシンと話者照合への適用

    小川哲司, 日野英逸, 村田昇, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 183 - 186  2011年09月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合

    小川哲司, 日野英逸, 村田昇, 小林哲則

    情報処理学会研究報告   2011-SLP-87 ( 3 ) 1 - 6  2011年07月

    CiNii

  • 発話を単位としたディリクレ過程混合モデルに基づく話者クラスタリング

    俵直弘, 渡部晋治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 春季 ) 41 - 44  2011年03月

  • マルチカーネル学習を用いた話者認識における最適化の検討

    小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

    情報処理学会研究報告   2010-SLP-84 ( 27 ) 1 - 6  2010年12月

    CiNii

  • 正方形マイクロホンアレイによる音源分離技術

    矢頭隆, 森戸誠, 山田圭, 小川哲司

    情報処理   51 ( 11 ) 1410 - 1416  2010年11月

    担当区分:最終著者

    記事・総説・解説・論説等(学術雑誌)  

    CiNii

  • シャッタが切り取る世界(ちょっとしたエッセイ)

    小川哲司

    日本音響学会誌   66 ( 10 ) 528  2010年10月

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI CiNii

  • 情報論的な最適化に基づくマルチカーネル学習を用いた話者認識

    小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

    日本音響学会講演論文集   2010 ( 秋季 ) 81 - 84  2010年09月

  • 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

    田村, 哲嗣, 宮島, 千代美, 北岡, 教英, 武田, 一哉, 山田, 武志, 滝口, 哲也, 柘植, 覚, 山本, 一公, 西浦, 敬信, 中山, 雅人, 傳田, 遊亀, 藤本, 雅清, 松田, 繁樹, 小川, 哲司, 黒岩, 眞吾, 中村, 哲

    情報処理学会研究報告. SLP, 音声言語情報処理   2010 ( 7 ) 1 - 6  2010年07月

     概要を見る

    本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った.

  • 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

    田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

    情報処理学会研究報告   2010-SLP-82 ( 7 ) 1 - 6  2010年07月

    CiNii

  • CENSREC-1-AV: マルチモーダル音声認識コーパスの構築

    田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

    日本音響学会講演論文集   2010 ( 春季 ) 219 - 220  2010年03月

  • 会話ロボットとその聴覚機能

    藤江真也, 小川哲司, 小林哲則

    日本ロボット学会誌   28 ( 1 ) 23 - 26  2010年01月

    記事・総説・解説・論説等(学術雑誌)  

    CiNii

  • ロボット頭頂部に設置した小型正方形マイクロホンアレイによる音源定位

    細谷耕佑, 小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 775 - 778  2009年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 音声認識利用者の発声方法誘導を行うエキスパートシステムの実装と評価

    網田康裕, 中野鐵兵, 小川哲司, 菊池英明, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 229 - 230  2009年09月

  • ゾーン強調型ビームフォーマの構築

    田中信秋, 細谷耕佑, 小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 153 - 154  2009年09月

  • ロンバード発声音声コーパスの設計と評価

    小川哲司, 川野弘, 西浦敬信, 山田武志, 北岡教英, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 141 - 144  2009年09月

  • 連続円動作の認識に基づくメニュー項目の選択法

    橋口拓弥, 藤江真也, 小川哲司, 中野鐵兵, 小林哲則

    画像の理解・認識シンポジウム(MIRU2009)予稿集   IS3-70   1846 - 1850  2009年07月

  • 騒音下音声認識システム評価におけるロンバード効果の影響の検証−ロンバード発声適応モデルを用いた評価−

    小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 春季 ) 175 - 176  2009年03月

  • ロボットのためのハンズフリー音声認識システム

    細谷耕介, 小川哲司, 藤江真也, 渡辺大地, 市川悠飛, 谷山輝, 小林哲則

    情報処理学会研究報告   2008-SLP-74   7 - 12  2008年12月

    CiNii

  • 雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境(3)

    北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

    情報処理学会研究報告   2008-SLP-73   41 - 46  2008年10月

    CiNii

  • HMMの尤度パターンを利用したリスコアリングにおける次元圧縮法の検討

    小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   108 ( 142 ) 73 - 78  2008年07月

    CiNii

  • HMM における尤度パターンの非対称性を利用した音声認識

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2008 ( 春季 ) 209 - 212  2008年03月

  • ロボット頭部に設置した4系統小型無指向性マイクロホンによるハンズフリー音声認識

    竹内寛史, 高田晋太郎, 小川哲司, 赤桐健三, 小林哲則, 森戸誠

    日本音響学会講演論文集   2008 ( 春季 ) 155 - 158  2008年03月

  • 残響下音声認識評価基盤(CENSREC-4)の構築

    西浦敬信, 中山雅人, 傳田遊亀, 北岡教英, 山本一公, 山田武志, 藤本雅清, 柘植覚, 宮島千代美, 滝口哲也, 田村哲嗣, 小川哲司, 松田繁樹, 黒岩眞吾, 武田一哉, 中村哲

    日本音響学会講演論文集   2008 ( 春季 ) 175 - 178  2008年03月

  • 雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境(2)

    北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

    情報処理学会研究報告   2007-SLP-69   1 - 6  2007年12月

    CiNii

  • 指向性雑音と拡散性雑音の混在する環境を対象とした携帯端末向け音声強調の検討

    高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 743 - 746  2007年09月

  • テンプレート群からの確率的距離を用いた階層的音声認識の検討

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 147 - 150  2007年09月

  • シミュレーションに基づく騒音下音声認識システム評価におけるロンバード効果の影響の検証−複数の認識タスク,騒音レベルに対する評価−

    小川哲司, 倉持公壮, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 195 - 198  2007年09月

  • マクロな時間構造を持つテンプレート群からの確率的距離を用いた階層型音声認識

    加藤健一, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   107 ( 116 ) 79 - 84  2007年06月

    CiNii

  • 重み付きHLDA を用いた相補的識別器の構成

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2007 ( 春季 ) 39 - 40  2007年03月

  • 空間フィルタとポストフィルタを用いた背景雑音抑圧

    高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2007 ( 春季 ) 575 - 576  2007年03月

  • プロキシエージェントアーキテクチャによる音声認識アプリケーション用ユーザモニタリング機能の効率化

    中野鐵兵, 梅本暁, 藤江真也, 小川哲司, 小林哲則

    情報処理学会研究報告 (SLP)   2006-SLP-65   23 - 28  2007年02月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合

    加藤健一, 小川哲司, 小林哲則

    情報処理学会研究報告   2006 ( 136 (SLP-64) ) 203 - 208  2006年12月

    CiNii

  • 少数のマイクロホンを用いた携帯端末向け音源分離

    高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 493 - 494  2006年09月

  • 時間連続性を利用した音源分離処理の高精度化

    勘場智之, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 491 - 492  2006年09月

  • シミュレーションに基づく騒音環境下音声認識におけるロンバード効果の 影響

    小川哲司, 勘場智之, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 101 - 102  2006年09月

  • シミュレーションに基づく音声認識システム評価の妥当性の検証

    小川哲司, 勘場智之, 小林哲則

    電子情報通信学会技術研究報告 (SP)   106 ( 123 ) 1 - 6  2006年06月

    CiNii

  • 減算型アレイ処理とスペクトラルサブトラクションを用いた音源分離技術とその携帯電話への応用

    高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

    電子情報通信学会技術研究報告 (SP)   106 ( 123 ) 7 - 12  2006年06月

    CiNii

  • ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0522   89 - 94  2005年10月

  • BSSとスペクトラルサブトラクションの多段処理による音源分離

    伊佐崇, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 秋季 ) 705 - 706  2005年09月

  • ロボット頭部に設置した4系統指向性マイクロホンによる音源定位におけるHLDA利用の効果

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 秋季 ) 717 - 718  2005年09月

  • An extension of the state-observation dependency in Partly Hidden Markov Models and its application to continuous speech recognition

    Tetsuji Ogawa, Tetsunori Kobayashi

    Systems and Computers in Japan   36 ( 8 ) 31 - 39  2005年07月

     概要を見る

    We extend the state-observation dependencies in a Partly Hidden Markov Model (PHMM) and apply this model to continuous speech recognition. In a PHMM the observations and state transitions are dependent on a series of hidden and observable states. In the standard formulation of a PHMM, the observations and state transitions are conditioned on the same hidden state and observable state variables. Here we also condition the observations and state transitions on the same hidden states but condition the observations and state transitions on different observation states, respectively. This simple improvement to the model gives it significant flexibility allowing it to model stochastic processes more precisely. In addition, by integrating the PHMM containing this extended state-observation dependency with a standard HMM we can construct a stochastic model that we call a Smoothed Partly Hidden Markov Model (SPHMM). Results of continuous speech recognition on a newspaper read-speech have shown reductions of 10 and 24% in the error rate using the PHMM and SPHMM, respectively, compared to a standard HMM thereby displaying the effectiveness of the proposed models. © 2005 Wiley Periodicals, Inc.

    DOI

  • 識別的基準と遺伝的アルゴリズムに基づく隠れ部分マルコフモデルの構造の最適化

    小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 132 ) 37 - 42  2005年06月

    CiNii

  • 参照信号によるパーミュテーション問題解決とSMDPの統合による周波数領域BSSの性能向上

    伊佐崇, 関矢俊之, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 133 ) 31 - 36  2005年06月

    CiNii

  • マイク間のスペクトル強度比を利用した音源定位におけるHLDA利用の効果

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 133 ) 37 - 42  2005年06月

    CiNii

  • ロボット頭部に設置した4系統指向性マイクロホンによる音源定位

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 春季 ) 609 - 610  2005年03月

  • 重み付き尤度比最大基準に基づく部分隠れマルコフモデルの構造の最適化

    小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 春季 ) 131 - 132  2005年03月

  • ロボット頭部に設置した4系統指向性マイクロフォンによる音源定位および混合音声認識

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0420-4   21 - 27  2004年12月

  • 複数の指向特性を利用した音源分離における音源定位との統合

    関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 秋季 ) 617 - 618  2004年10月

  • 雑音環境下における階層的音源分離の評価

    関矢俊之, 澤田知寛, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 春季 ) 99 - 100  2004年03月

  • ロボット頭部に設置した4系統指向性マイクロホンによる混合音声認識

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 春季 ) 95 - 96  2004年03月

  • 階層的音源分離に基づく混合音声の認識

    澤田知寛, 関矢俊之, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0318-5   27 - 32  2003年11月

  • マイクロフォンアレーを用いた混合音声認識

    関矢俊之, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   103 ( 93 ) 13 - 18  2003年05月

    CiNii

  • SAFIAによる同時発話音声の認識

    関矢俊之, 芹沢新, 小川哲司, 小林哲則

    日本音響学会講演論文集   2003 ( 春季 ) 19 - 20  2003年03月

  • 部分隠れマルコフモデルの拡張と連続音声認識による評価

    小川哲司, 小林哲則

    日本音響学会講演論文集   2002 ( 秋季 ) 51 - 52  2002年09月

  • 部分隠れマルコフモデルによる連続音声認識

    小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   102 ( 159 ) 25 - 30  2002年06月

    CiNii

  • 複数の話者依存モデルを用いた話者空間表現に基づく話者適応

    牛久祐輔, 小川哲司, 小林哲則

    日本音響学会講演論文集   2001 ( 秋季 ) 129 - 130  2001年10月

  • 音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化

    小川哲司, 小林哲則

    日本音響学会講演論文集   2000 ( 秋季 ) 19 - 20  2000年09月

  • 部分隠れマルコフモデルにおける状態・出力依存関係の一般化

    小川哲司, 古山純子, 小林哲則

    日本音響学会講演論文集   2000 ( 春季 ) 155 - 156  2000年03月

▼全件表示

産業財産権

  • 学習装置、音声認識装置、学習方法、および、学習プログラム

    小川 哲司, 小林 哲則, 樋口 陽祐

    特許権

  • 照合装置、照合方法、および、照合プログラム

    小川 哲司

    特許権

  • 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置

    小川 哲司, 俵 直弘

    特許権

  • 予兆検知システムおよびプログラム

    小川 哲司, 小林 哲則, 沖本 祐典

    特許権

  • 制御状態監視システムおよびプログラム

    小川 哲司, 小林 哲則

    特許権

  • 予測装置、予測方法および予測プログラム

    小林 哲則, 小川 哲司, 森岡 幹

    特許権

  • 音源分離装置、方法及びプログラム

    4986248

    小林 哲則, 赤桐 健三, 小川 哲司

    特許権

  • 音源分離装置、プログラム及び方法

    5105336

    小林 哲則, 赤桐 健三, 小川 哲司

    特許権

  • 音源分離装置、方法及びプログラム

    5170465

    赤桐 健三, 小川 哲司, 小林 哲則

    特許権

  • エコーキャンセラ及びエコーキャンセル方法

    小林 哲則, 赤桐 健三, 藤江 真也, 小川 哲司

    特許権

  • 認識器構築システム、認識器構築方法、組立サービス提供システム、およびプログラム

    小林 哲則, 中野 鐵兵, 藤江 真也, 小川 哲司

    特許権

▼全件表示

受賞

  • 第251回 情報処理学会自然言語処理研究会 優秀発表賞

    2021年12月  

    受賞者: 佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

  • 早稲田大学ティーチングアワード総長賞

    2018年02月   早稲田大学  

  • APSIPA ASC2017 Poster Book Prizes

    2017年12月   APSIPA ASC2017  

  • 情報処理学会 山下記念研究賞

    2012年03月   情報処理学会  

  • 日本音響学会粟屋潔学術奨励賞

    2011年03月   日本音響学会  

  • BTAS2008 Best Paper Award

    2008年10月   BTAS2008  

▼全件表示

共同研究・競争的資金等の研究課題

  • 動画に対する深い意味的注釈の付与

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2017年04月
    -
    2021年03月
     

  • 動画に対する深い意味的注釈の付与

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2017年04月
    -
    2021年03月
     

  • 局所的海洋データを活用した漁業の効率化の研究開発

    総務省  戦略的情報通信研究開発推進制度(SCOPE)・地域ICT振興型研究開発

    研究期間:

    2017年04月
    -
    2020年03月
     

  • 人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

    研究期間:

    2016年04月
    -
    2019年03月
     

     概要を見る

    話者性と音韻性は分離可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.その成果として,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した.発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの重要性を明らかにした.さらに,分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために,識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした.本研究成果は,発話内容の違いの影響による話者照合性能劣化に対する本質的な解法を与えるもので,音声によるバイオメトリクス認証などアプリケーションとしての期待は高いものの依然として実用のレベルに達していない,数秒程度の短い発話に対する話者照合の性能を抜本的に改善することを可能とする.また,本研究を通じて,これまでほとんど議論されてこなかった「真の話者性」を工学的に明らかにするための新たな研究領域の開拓が期待できる.これは話者認識研究における本質的な問いであり,当該研究分野において日本のプレゼンスを示す好機ともなる

  • 人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(挑戦的萌芽研究)

    研究期間:

    2016年04月
    -
    2019年03月
     

  • システム協調型適応学習に基づくパターン認識システムの全体最適化に関する研究

    研究期間:

    2013年04月
    -
    2016年03月
     

     概要を見る

    複数のパターン認識システムを協調的に最適化しながら,システム全体を効率的かつ自動で成長させる方式について検討を行った.特に,システムの使用者や使用環境の違いにより生じるデータの変動に対してシステムを適応的に改善するための要素技術として,データの性質の違いに頑健なクラスタリング技術および,複数システムを協調的に用いて認識を行うマルチストリームパターン認識フレームワークの開発を行った

  • クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

    研究期間:

    2011年04月
    -
    2013年03月
     

     概要を見る

    音声データの構造化・検索支援のための基幹技術として, 音声データを発話者や雑音といった音環境ごとにクラスタリングする技術の開発と, 音声認識システムを教師なしの枠組みで適応的に最適化するための要素技術の開発を行った

  • リズムある会話を可能とするコミュニケーションロボットに関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2008年
    -
    2010年
     

     概要を見る

    言語・パラ言語の生成・理解処理を高度化することで,複数の人間と自然なリズムで会話できるコミュニケーションロボットを実現した.また,このロボットを用いて,人同士の会話を活性化することを試みた.この目的のため,ロボットへの性格付与とパラ言語表現機能を考慮したロボットハードウェア,会話状況に沿うロボットの振る舞い,魅力ある会話の進行方式などを設計した.また,ロボットの聴覚機能および発話方式の高度化についても検討した.

  • 言語・パラ言語の生成・理解能力を有する会話システムに関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2003年
    -
    2006年
     

     概要を見る

    自然な音声対話コミュニケーションを成立させるための要件を探るための道具として,言語情報の理解・表出機能に加え,パラ言語情報の理解・表出機能を持つ音声対話システムのプロトタイプを作成した.
    近年の音声認識・合成の著しい研究成果にも係らず,一般の利用者に広く受け入れられる可能性を感じさせるような,自然性の高い音声対話システムは見られない.この一つの要因が,対話にとって重要な役割を果たすパラ言語情報(顔表情や声表情に含まれる,発話者の内的・心的状態を伝える情報)の軽視にある.しかし,言語・パラ言語をバランスよく扱う対話システムを作る際必要なパラ言語に関する定量的知見はほとんどない。本研究では,パラ言語の役割を定量的に明らかにするための道具として各種の要素技術を開発し,音声対話システムとして組み上げた.
    具体的には次に挙げるものを実現した.1)ロボット頭部に設置した4系統の指向性を用いてロボットに適した形で音源定位・音源分離を行う方式を提案した,2)パラ言語の表現を可能とする合成音声方式について検討し,波形合成方式を対象として合成品質を向上させる手法を提案するとともに,高品位な声質の変換方式を提案した.3)音声に含まれるパラ言語情報として,発話態度と相槌/聞き返しを取り上げ,発話に含まれる韻律情報を基にこれらを認識する手法を提案した.4)頭部ジェスチャ・表情等の視覚的情報に含まれるパラ言語情報の認識手法を提案した.5)音声対話システムのプラットフォームとして人間型ロボットROBISUKEの設計,構築を行った.6)各モジュールの理解・生成機能を有機的に統合する情報共有の枠組としてMONEAを提案し,通信ミドルウェアの実装を行った.
    今後,これらの成果を利用し,自然な音声対話に必要とされる要件を明らかにするための定量的な実験を行う予定である.

  • 状態と出力に相互依存関係を有する確率モデルの構造最適化と頑健性強化に関する研究

     概要を見る

    本年度は,以下の2点について検討を行った.(1)部分隠れマルコフモデル(PHMM)のモデル構造最適選択PHMMのモデル構造を音韻毎に最適化する枠組みとして,昨年度は,評価基準として重み付き尤度比最大化基準を,最適化アルゴリズムとして遺伝的アルゴリズムを導入し,講演音声認識において従来法の誤りを削減した.本年度は,下記A)〜C)について詳細な検討を行った.A)評価関数:重み付き尤度比基準,最尤基準,ベイズ基準など複数の評価基準を導入し認識性能を評価したところ,識別的な基準である尤度比基準が最良の性能を与えることがわかった.B)最適化アルゴリズム:遺伝的アルゴリズムとタブサーチを用いたときの性能を評価したところ,タブサーチは局所解に陥りやすく,遺伝的アルゴリズムの方が高速に最適解に到達することがわかった.C)識別クラスの共有:探索の効率化のため音韻のクラスタリングを行ったが,最適化の段階でクラスを共有してしまうと,共有しない場合と同程度の性能を得られないことがわかった.(2)環境の変動に頑健な特徴量の検討PHMMのように高精度な確率モデルは,HMMなどの単純なモデルと比較して発話者や環境の変動の影響を受け易い.したがって,音響特徴量から発話者の情報や環境の情報を取り除き,識別に必要な情報である音韻情報のみを抽出する手法(識別情報抽出)について検討を行った.識別情報抽出として,HLDAやそれを拡張したManifold HLDA(MHLDA)を提案し,単語音声認識により評価を行ったところ,HLDAとMHLDAにより抽出されたパラメータを統合することで,環境の変動に対して頑健な性能を与えることがわかった.この知見を発展させ,HLDAにブースティングを導入した確率モデルの統合手法についても検討を行い,最尤識別に比べ頑健性の高い認識が可能になるという予備的な知見も得た

  • 実世界劣化音声コーパスに基づく音声強調法の研究

     概要を見る

    実世界で雑音などにより劣化した音声の認識を目指し以下のことを行った。(1)劣化音声コーパスを整備し、CENSRECという名称で一般に利用可能とした、(2)劣化音声の認識率への影響度を測る指標を検討し、加法性・乗法性雑音に対して高精度に認識性能を予測できた、(3)劣化音声の劣化要因とその認識手法を体系化した、(4)劣化音声の認識手法を研究した

  • 相補的な識別器の生成とその統合に基づくパターン認識に関する研究

     概要を見る

    本研究では,パターン認識の性能を向上させるために,複数の識別器を統合する方式について検討を行った.識別器の生成においては,提案法は識別器の誤り傾向が異なることを理論的に保証し(相補性を有する),少量の識別器で高い性能を与える(効率性を有する)という特徴を有する.また,生成した複数の識別器の統合においては,提案法は識別器各々が潜在的に有する特性の影響を受けにくい(頑健性を有する)という特徴を有する.本提案方式を音声認識に適用し,有効性を確認した

  • モデル構造の逐次最適化機能を有するオンライン適応型パターン認識に関する研究

     概要を見る

    パターン認識システムの精度とシステムを使用する環境の変動に対する頑健性を効率的に向上させるために,データの性質に応じて,認識システムに用いる確率モデルの構造と分布パラメータを適応的に最適化する方式を開発した.さらにこの枠組みを,音声情報を用いた話者認識や画像情報を用いた顔認識システムに適用することを試みた

▼全件表示

講演・口頭発表等

  • 予測クラスの相違に基づく深層ニューラルネットワークの不確実性推定

    松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

    第24回情報論的学習理論ワークショップ(IBIS2021)  

    発表年月: 2021年11月

  • 映像監視に基づく繁殖牛の分娩予兆検知~ユーザが納得して意思決定できるような映像監視システムをどう構築し運用するか?~

    小川哲司

    第2回AI・人工知能EXPO秋・アカデミックフォーラム  

    発表年月: 2021年10月

  • 船上映像からの魚体の検出・追跡に基づく漁獲尾数計測

    田中理子, 中野鐵兵, 漁崎盛也, 小川哲司

    マリンITワークショップ2021  

    発表年月: 2021年09月

  • 意思決定支援のための説明可能な状態監視システムの構築・運用法(家畜の映像監視を例に)

    小川哲司, 兵頭亮介, 斎藤奨, 中野鐵兵  [招待有り]

    電子情報通信学会総合大会,企画セッション:AIは本当にPoCを超えられるのか?-実用化を阻む大きな壁-  

    発表年月: 2021年03月

  • メジカ漁師の意思決定に対する直接的支援のための漁場予測に関する検討~高知マリンイノベーションの取り組みとして~

    小川哲司, 堀内優佳, 田中理子, 宮澤泰正, 漁崎盛也

    マリンITワークショップ2021みえ  

    発表年月: 2021年03月

  • 風車異常検知システムの早期運用に関する事例紹介~メンテナンスに係る意思決定のために人工知能技術をどう構築・運用すべきか?~

    小川哲司, 長谷川隆徳, 緒方淳  [招待有り]

    トライボロジー技術へのAIの活用を考える研究会  

    発表年月: 2021年03月

  • ビッグデータを利用できないとき,人工知能技術をどう開発し運用するか?~第一次産業支援に関する事例紹介~

    小川哲司  [招待有り]

    早稲田大学実体情報学博士プログラム 2020年度第4回コロキューム  

    発表年月: 2020年12月

  • ユーザの意思決定過程に関するドメイン知識を組み込んだ解釈可能な映像監視モデリング

    兵頭亮介, 中野鐵兵, 小川哲司

    第23回情報論的学習理論ワークショップ (IBIS2020)   (茨城県・つくば市) 

    発表年月: 2020年11月

  • ビッグデータを利用できないとき,AI技術をどう開発するか?~水産業支援と畜産業支援の事例紹介~

    小川哲司, 斎藤奨, 中野鐵兵  [招待有り]

    電子情報通信学会総合大会,企画セッション:あなたは本当にAIを理解していますか? - 基本原理から使い方,応用まで -  

    発表年月: 2020年03月

    開催年月:
    2020年03月
     
     
  • 人工知能技術の現状と課題~メンテナンスや一次産業支援に適用する際に注意すべきこと~

    小川哲司  [招待有り]

    IoTビジネス推進コンソーシアム沖縄第7回セミナー   (沖縄県・那覇市) 

    発表年月: 2019年10月

  • センサデータの欠損が漁獲量予測性能に与える影響

    小川哲司, 堀内優佳, 小林哲則, 福嶋正義, 井戸上彰

    マリンITワークショップ2019   (北海道・函館市) 

    発表年月: 2019年08月

  • 漁獲量心理尺度と機械学習による漁獲量予測モデルの最適化への利用

    小川哲司, 幸加木裕也, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰

    マリンITワークショップ2019いしがき   (沖縄県・石垣市) 

    発表年月: 2019年03月

  • 最近の人工知能技術事情と鹿児島県における産学連携導入事例

    小川哲司  [招待有り]

    鹿児島ITビジネス研究会   (鹿児島県・鹿児島市) 

    発表年月: 2019年03月

  • 状態空間モデルを用いた定置網漁のための日単位漁獲量予測

    小川哲司

    マリンITワークショップ   (北海道・函館市) 

    発表年月: 2018年08月

  • 情報工学から考えるIoTと畜産の未来

    小川哲司  [招待有り]

    日本繁殖生物学会若手サマーセミナー合宿   (茨城県・笠間市) 

    発表年月: 2018年08月

  • Toward proactive forecasting for smart maintenance of infrastructure equipment and support for primary industry

    Tetsuji Ogawa  [招待有り]

    7th Research Seminar in E-JUST   (Alexandria)  Egypt-Japan University of Science and Technology (E-JUST)  

    発表年月: 2018年03月

  • 人工知能研究の進展と課題

    小川哲司  [招待有り]

    鹿児島ITビジネス研究会   (鹿児島県・鹿児島市) 

    発表年月: 2017年09月

  • High resolution traffic maps generation using cellular big data

    Ahmed El-Mahdy, Essam Algizawy, Tetsuji Ogawa, Hisham Shishiny, Mohamed Badder, Keiji Kimura

    NetMob2015   (Boston) 

    発表年月: 2015年04月

  • 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較

    俵直弘, 小川哲司, 渡部晋治, 小林哲則

    第14回情報論的学習理論ワークショップ(IBIS2011)   (奈良県・奈良市) 

    発表年月: 2011年11月

  • クラス間距離に基づく判別分析と年齢推定システムへの適用

    小川哲司, 小林哲則

    第13回情報論的学習理論ワークショップ(IBIS2010)   (東京都・目黒区) 

    発表年月: 2010年11月

  • Sound source separation system and acoustic signal acquisition device

    Tetsuji Ogawa

    Leading Edge Japan 2009   (New York) 

    発表年月: 2009年03月

  • Multi-layer audio segregation and its application to double talk recognition

    Toshiyuki Sekiya, Tomohiro Sawada, Tetsuji Ogawa, Tetsunori Kobayashi

    SWIM, Lectures by Masters in Speech Processing   (Honolulu) 

    発表年月: 2004年01月

▼全件表示

特定課題研究

  • クラウドソーシングを活用した持続可能な状態監視システムの構築・運用法に関する研究

    2020年  

     概要を見る

    人の意思決定支援を目的とした映像監視システムは,1)少量データで構築可能,2)持続的に運用可能,3)予測結果の根拠を説明可能,であることが求められる.本研究では,ユーザ(専門家)の意思決定プロセスに係る知識をニューラルネットワークに組み込むことで,これらの要件を満たすシステムを構築・運用するためのフレームワークを確立することを試みた.提案フレームワークに基づき映像監視による繁殖牛の分娩予兆検知システムを構築し,少量データ・環境変動に対して頑健な予兆検知性能と畜産業従事者に対する予測根拠の解釈可能性の両面においてend-to-endアプローチで構築したシステムに対する有効性を明らかにした.

  • ドローンによる空撮に基づく潮目の検知に関する研究

    2020年  

     概要を見る

    ドローンによって撮影された海面映像から自動的に潮目を検知する技術の開発を試みた.ドローンによる潮目の検知が可能になれば,良漁場に関する情報を比較的低コストで漁業事業者に提供できるため,操業効率化への貢献が期待される.潮目検知モデルを構築するために,ドローン空撮による潮目画像データセット(画像総数158,739枚)を構築し,潮目の有無に関する識別実験を行った.潮目の検知モデルにPyramid pooling moduleを備えた畳み込みニューラルネットワークを用いたところ,適合率0.90,再現率0.81,F値0.85という性能で潮目が検知できることがわかった.

  • 映像情報を用いた繁殖牛の発情予兆検知に関する研究

    2019年  

     概要を見る

    インターネットを通して不特定多数の人に仕事を依頼するクラウドソーシングを用いて,映像から繁殖牛の発情予兆を検知するための技術開発を行った.特に,本研究では,牛の発情予兆として乗駕行動に着目し,その評価基盤を構築した.まず,物体検出アルゴリズムとクラウドソーシングを用いて,牛の検出漏れを抑えながら乗駕行動の有無を信頼性高くアノテーションする方式を開発した.14頭の肉牛がいるフリーストール内で収録した乗駕行動29回分の映像データに対して提案したアノテーションを実施し,合計5020枚の画像からなるデータセットを構築した.さらに,構築したデータセットを用いて交差検証による実験を行ったところ,画像単位では陽性判定率0.80,感度0.76で乗駕行動の検知が可能であることがわかった.

  • 映像監視システムの持続可能な運用法に関する研究

    2019年  

     概要を見る

    ビッグデータの蓄積を待たずに映像監視システムを早期運用しながら,日々蓄えられるデータを効率的に利用してシステムを成長させる枠組みの確立を試みた.特に,本研究では,パターン認識に基づく映像監視の結果をクラウドソーシングを活用して修正することで,システムの早期運用段階においても高い検知性能を保持する枠組みの開発と検証を行った.映像情報を用いた繁殖牛の分娩検知システムの開発を通じて,提案した映像監視システムの早期運用法に関する評価を行ったところ,パターン認識(分娩検知)とクラウドソーシングを併用することにより,分娩の見逃しを低く抑えながら誤検出を抑制でき,映像監視システムの早期運用が可能であることを明らかにした.

  • エリア収音と敵対的生成ネットワークを用いた多様な雑音に頑健な音声強調

    2018年   俵 直弘

     概要を見る

    エリア収音により生じた非線形歪を敵対的デノイジングオートエンコーダ (ADAE) により補正するポストフィルタ法を提案した.エリア収音は時間周波数マスキングに基づき目的音と妨害音を高精度に分離可能な技術であるが,非線形信号処理特有の不快な歪が発生するという問題がある.そこで,単チャネル音源強調において有効なADAEを用いて非線形歪を低減することを試みたところ,音質改善に有効であることが示された.また,分離処理前の観測信号や雑音情報をADAEの補助入力として用いるnoise-aware学習の枠組みを導入することで,強調信号の更なる品質改善が得られた.

  • エリア収音と深層学習を用いた高速・高精度・低歪の雑音除去フィルタ構成法

    2017年  

     概要を見る

    拡散性雑音が重畳された音声に対して低歪で高精度な雑音抑圧を実現する方式について検討を行った.そのために,申請者が研究を続けてきた音源分離技術であるエリア収音により目的音と拡散性雑音を分離した後,目的音に残留した雑音成分を抑圧するフィルタの推定法を提案した.具体的には,エリア収音により分離した目的音と雑音のパワースペクトルから深層ニューラルネットワークによって線形フィルタの係数(厳密にはpriori SNR)を推定した.拡散性雑音下での雑音抑圧性能を雑音抑圧率および対数スペクトル距離により評価したところ,提案手法は双方の尺度で従来のマルチチャネルウィナーフィルタの性能を改善した.

  • メタ認知機能を有するパターン認識システムの構成法に関する研究

    2016年  

     概要を見る

     人が持つメタ認知機能(知っているか否かを知る,どの程度知っているかを知る機能)を模倣することで,データの収集だけに頼らずに未知の入力に対して頑健に高い性能を与えるパターン認識方式の確立を目指す.本課題では,雑音下音声認識での評価を通じ,「メタ認知機能を有するパターン認識」の基本となる認識性能予測技術およびマルチストリーム型パターン認識アルゴリズムに焦点を当てて検討を行った. 異なる現象を扱うパターン認識システムをDNNにより多数構築しておき,そのうち最適なシステムをDNNの出力(事後確率)の時間変化量および自己符号化器の復元誤差に基づき選択して用いることで,環境変動に頑健な認識を実現した.

  • 部分隠れマルコフモデルによる自然発話音声認識

    2004年  

     概要を見る

     本研究では、音声認識に用いる確率モデルとして一般的に用いられている隠れマルコフモデル(Hidden Markov Model; HMM)に代わる表現能力の高い確率モデルとして、部分隠れマルコフモデル(Partly-Hidden Markov Model; PHMM)を提案している。このPHMMは、状態と出力双方が過去の出力に依存する枠組みであるが、その構造は全てのモデルカテゴリで共通なものを用いてきた。そこで本年度は,重みつき尤度比最大基準に基づき、PHMM における状態と出力間の依存構造をモデルカテゴリ毎に最適に選択することを試みた。 尤度比最大化に基づくモデル構造選択の枠組みでは、正解カテゴリと不正解カテゴリが与える対数尤度の差を直接計算したものを目的関数として導入し、その値を最大にするようなモデル構造を選択する。ここで、尤度比を改善しても認識結果が変わりにくい、尤度比の値が大きな値を持つデータより、それが0に近い値を持つデータを対象として尤度比を改善することが重要であるため、尤度比の値が小さいときはその値をそのまま用い、尤度比の値が大きいときはある閾値で打ち切るように重み付けを行った。この重み付けされた尤度比を重みつき尤度比と呼び、ここでは重みつき尤度比を最大化するようにモデル構造の選択を行った。また本手法では、各々のカテゴリに帰属するデータに対して重みつき尤度比を最大化するのではなく、全てのカテゴリに対して取り得るモデル構造の組み合わせを考え、生成される膨大な数のモデル構造の組み合わせに対して重みつき尤度比を最大化する。そして、最大の重みつき尤度比を与える構造の組み合わせを、最適な構造と考える。しかし、このような膨大なパターンに対する全探索は現実的ではなく、遺伝的アルゴリズムを適用し、全探索おける近似解を与えることを試みた。 学会講演音声を対象とする連続音声認識実験により提案するモデル構造選択手法の有効性を評価したところ、モデル構造を行わないPHMMの誤りを削減することが示された。

▼全件表示

 

現在担当している科目

▼全件表示

担当経験のある科目(授業)

  • 最適化と認識・学習

    早稲田大学  

    2021年09月
    -
    継続中
     

  • 回路理論B

    早稲田大学  

    2020年09月
    -
    継続中
     

  • 機械学習

    早稲田大学/enPiT-Pro スマートエスイー  

    2019年04月
    -
    継続中
     

  • Introduction to Computers and Networks

    早稲田大学  

    2019年04月
    -
    継続中
     

  • 情報通信基礎

    早稲田大学  

    2017年04月
    -
    継続中
     

  • 情報通信実験C/音情報処理

    早稲田大学  

    2016年09月
    -
    継続中
     

  • 知覚情報システム

    早稲田大学大学院  

    2016年09月
    -
    継続中
     

  • Logic Circuits

    早稲田大学  

    2016年09月
    -
    継続中
     

  • パターン認識と機械学習

    早稲田大学大学院  

    2016年04月
    -
    継続中
     

  • 工学系のモデリングA

    早稲田大学  

    2016年04月
    -
    継続中
     

  • 論理回路

    早稲田大学  

    2016年04月
    -
    継続中
     

  • アルゴリズムとデータ構造A

    早稲田大学  

    2019年04月
    -
    2019年09月
     

  • Circuit Theory A

    早稲田大学  

    2016年09月
    -
    2019年03月
     

  • Machine Learning

    エジプト・日本科学技術大学  

    2012年09月
    -
    2015年02月
     

  • 知覚情報システム

    早稲田大学  

    2008年04月
    -
    2011年09月
     

  • 音情報処理

    早稲田大学 オープン教育センター  

    2008年09月
    -
    2011年03月
     

  • インタラクティブシステム

    早稲田大学 オープン教育センター  

    2008年04月
    -
    2010年09月
     

  • 音インタフェース

    早稲田大学 オープン教育センター  

    2007年09月
    -
    2008年03月
     

▼全件表示

 

委員歴

  • 2021年06月
    -
    継続中

    日本音響学会  日本音響学会誌編集委員

  • 2019年
    -
    継続中

    高知県マリンイノベーション運営協議会  委員

  • 2017年09月
    -
    継続中

    電子情報通信学会  常任査読委員

  • 2020年11月
    -
    2021年06月

    音学シンポジウム2021 実行委員

  • 2019年05月
    -
    2021年04月

    電子情報通信学会 音声研究会  幹事

  • 2019年11月
    -
    2020年06月

    音学シンポジウム2020 実行委員

  • 2020年
     
     

    Speaker Odyssey 2020  Local Organizing Committee

  • 2017年05月
    -
    2019年04月

    電子情報通信学会 音声研究会  専門委員

  • 2017年
     
     

    第7回バイオメトリクスと認識・認証シンポジウム  プログラム委員

  • 2010年
    -
    2011年

    電子情報通信学会  情報・システムソサイエティ誌 編集委員

  • 2008年
    -
    2011年

    情報処理学会 音声言語情報処理研究会  運営委員

  • 2010年
     
     

    高度言語情報融合フォーラム(ALAGIN)  若手研究者フォーラム実行委員

  • 2009年
    -
    2010年

    第9回情報科学技術フォーラム(FIT)  プログラム委員

▼全件表示