2022/12/02 更新

写真a

オガワ テツジ
小川 哲司
Scopus 論文情報  
論文数: 0  Citation: 0  h-index: 10

Citation Countは当該年に発表した論文の被引用数

News & Topics
所属
理工学術院 基幹理工学部
職名
教授
プロフィール

2000年早稲田大学理工学部電気電子情報工学科卒業.2002年同大学大学院修士課程修了.2005年同大学大学院博士後期課程終了.博士(工学).2004--2007年早稲田大学理工学術院助手.2007年早稲田大学IT研究機構講師.2007--2012年早稲田大学高等研究所助教.2012-2019年早稲田大学理工学術院准教授.現在,早稲田大学理工学術院教授.その間,2012年,2013年米国ジョンズホプキンス大学訪問研究者,2014年,2015年チェコ共和国ブルノ工科大学訪問研究者.2012--2015年エジプト・日本科学技術大学(E-JUST)特任准教授.2016年より産業技術総合研究所人工知能研究センター客員研究員.2020年よりNHK放送技術研究所客員研究員.音声・音響情報処理,画像・映像情報処理,パターン認識に関する研究に従事.IEEE,電子情報通信学会,情報処理学会,日本音響学会,人工知能学会,日本機械学会,日本風力エネルギー学会,日本畜産学会,日本水産学会,水産海洋学会各会員.

他学部・他研究科等兼任情報

  • 理工学術院   大学院基幹理工学研究科

学内研究所・附属機関兼任歴

  • 2020年
    -
    2022年

    リサーチイノベ オープンイノベーション推進セクション   兼任センター員

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴

  • 2002年04月
    -
    2005年03月

    早稲田大学大学院   理工学研究科   電気工学専攻  

  • 2000年04月
    -
    2002年03月

    早稲田大学大学院   理工学研究科   電気工学専攻  

  • 1996年04月
    -
    2000年03月

    早稲田大学   理工学部   電気電子情報工学科  

学位

  • 早稲田大学   博士(工学)

経歴

  • 2020年04月
    -
    継続中

    NHK放送技術研究所   客員研究員

  • 2019年04月
    -
    継続中

    早稲田大学   理工学術院   教授

  • 2016年06月
    -
    継続中

    産業技術総合研究所   人工知能研究センター   客員研究員

  • 2012年04月
    -
    2019年03月

    早稲田大学   理工学術院   准教授

  • 2015年05月
    -
    2015年08月

    ブルノ工科大学   訪問研究者

  • 2012年04月
    -
    2015年03月

    エジプト・日本科学技術大学   特任准教授

  • 2014年06月
    -
    2014年07月

    ブルノ工科大学   訪問研究者

  • 2013年06月
    -
    2013年08月

    ジョンズホプキンス大学   訪問研究者

  • 2012年06月
    -
    2012年09月

    ジョンズホプキンス大学   訪問研究者

  • 2007年11月
    -
    2012年03月

    早稲田大学高等研究所 助教

  • 2007年04月
    -
    2007年10月

    早稲田大学IT 研究機構 客員講師

  • 2004年04月
    -
    2007年03月

    早稲田大学理工学部 助手

▼全件表示

所属学協会

  • 2021年10月
    -
    継続中

    水産海洋学会

  • 2019年05月
    -
    継続中

    人工知能学会

  • 2018年07月
    -
    継続中

    日本水産学会

  • 2018年06月
    -
    継続中

    日本風力エネルギー学会

  • 2018年01月
    -
    継続中

    日本畜産学会

  • 2017年08月
    -
    継続中

    日本機械学会

  • 2008年03月
    -
    継続中

    情報処理学会

  • 2000年01月
    -
    継続中

    日本音響学会

  •  
     
     

    電子情報通信学会

  •  
     
     

    International Speech Communication Association (ISCA)

  •  
     
     

    The Institute of Electrical and Electronics Engineers, Inc. (IEEE)

▼全件表示

 

研究分野

  • 知覚情報処理

  • 動物生産科学

  • 知能情報学

  • 水圏生産科学

  • ヒューマンインタフェース、インタラクション

研究キーワード

  • 音声言語情報処理

  • 音響信号処理

  • 画像情報処理

  • 映像情報処理

  • パターン認識

  • 機械学習

  • データ駆動科学

  • 異常検知

  • スマートメンテナンス

  • 精密畜産

  • 精密水産

▼全件表示

論文

  • Text-only domain adaptation based on intermediate CTC

    Hiroaki Sato, Tomoyasu Komori, Takeshi Mishima, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Tetsuji Ogawa

    Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022)    2022年09月  [査読有り]

    担当区分:最終著者

  • Confusion detection for adaptive conversational strategies of an oral proficiency assessment interview agent

    Mao Saeki, Kotoka Miyagi, Shinya Fujie, Shungo Suzuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoichi Matsuyama

    Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022)    2022年09月  [査読有り]

  • Can humans correct errors from system? Investigating error tendencies in speaker identification using crowdsourcing

    Yuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa

    Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022)    2022年09月  [査読有り]

    担当区分:最終著者, 責任著者

  • Unsupervised training of sequential neural beamformer using coarsely-separated and non-separated signals

    Kohei Saijo, Tetsuji Ogawa

    Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022)    2022年09月  [査読有り]

    担当区分:最終著者, 責任著者

  • Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword Units

    Yosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022)     7797 - 7801  2022年05月  [査読有り]

    DOI

  • Remix-Cycle-Consistent Learning on Adversarially Learned Separator for Accurate and Stable Unsupervised Speech Separation

    Kohei Saijo, Tetsuji Ogawa

    Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022)     4373 - 4377  2022年05月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • 風車運用高度化技術研究開発

    飯田誠, 古澤陽子, 山本和男, 緒方淳, 小川哲司

    日本風力エネルギー学会誌・特集「風力発電分野の国家プロジェクト」   45 ( 4 ) 582 - 586  2022年02月  [招待有り]

  • Sequential fish catch counter using vision-based fish detection and tracking

    Riko Tanaka, Teppei Nakano, Tetsuji Ogawa

    Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022)    2022年02月  [査読有り]

    担当区分:最終著者, 責任著者

  • Inlier modeling-based good fishing ground detection for efficient bullet tuna trolling using meteorological and oceanographic Information

    Yuka Horiuchi, Teppei Nakano, Yasumasa Miyazawa, Tetsuji Ogawa

    Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022)    2022年02月  [査読有り]

    担当区分:最終著者, 責任著者

  • Multi-source domain generalization using domain attributes for recurrent neural network language models

    Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Hiroto Ashikawa, Tetsunori Kobayashi, Tetsuji Ogawa

    IEICE Trans. Inf. & Syst.   E105-D ( 1 )  2022年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • An investigation of enhancing CTC model for triggered attention-based streaming ASR

    Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)    2021年12月  [査読有り]

    担当区分:責任著者

  • Comparative study on DNN-based minimum variance beamforming robust to small movements of sound sources

    Kohei Saijo, Kazuhiro Katagiri, Masaru Fujieda, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021)    2021年12月  [査読有り]

    担当区分:最終著者, 責任著者

  • 風車異常検知の効率的運用に向けた正常状態の特徴表現学習

    長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

    日本風力エネルギー学会論文集   45 ( 3 ) 60 - 68  2021年11月  [査読有り]

    担当区分:最終著者, 責任著者

  • SIA-GAN: Scrambling Inversion Attack Using Generative Adversarial Network

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    IEEE Access   9   129385 - 129393  2021年09月  [査読有り]

    担当区分:最終著者

    DOI

  • VocalTurk: Exploring Feasibility of Crowdsourced Speaker Identification

    Susumu Saito, Yuta Ide, Teppei Nakano, Tetsuji Ogawa

    Interspeech 2021     1723 - 1727  2021年08月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

  • Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Interspeech 2021     3051 - 3055  2021年08月  [査読有り]

    DOI

  • Improved Mask-CTC for Non-Autoregressive End-to-End ASR

    Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

    ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)     8363 - 8367  2021年06月  [査読有り]

    DOI

  • Scrambling Parameter Generation to Improve Perceptual Information Hiding

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    Electronic Imaging   2021 ( 11 ) 155 - 1  2021年01月  [査読有り]

    担当区分:最終著者

     概要を見る

    <italic>The present study proposes the method to improve the perceptual information hiding in image scramble approaches. Image scramble approaches have been used to overcome the privacy issues on the cloud-based machine learning approach. The performance of image scramble approaches are
    depending on the scramble parameters; because it decides the performance of perceptual information hiding. However, in existing image scramble approaches, the performance by scrambling parameters has not been quantitatively evaluated. This may be led to show private information in public.
    To overcome this issue, a suitable metric is investigated to hide PIH, and then scrambling parameter generation is proposed to combine image scramble approaches. Experimental comparisons using several image quality assessment metrics show that Learned Perceptual Image Patch Similarity (LPIPS)
    is suitable for PIH. Also, the proposed scrambling parameter generation is experimentally confirmed effective to hide PIH while keeping the classification performance.</italic>

    DOI

  • Investigation on network architecture for single-channel end-to-end denoising

    Takuya Hasumi, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 2020 European Signal Processing Conference (EUSIPCO2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Noise-robust attention learning for end-to-end speech recognition

    Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 2020 European Signal Processing Conference (EUSIPCO2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Toward building a data-driven system for detecting mounting actions of black beef cattle

    Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hiromi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Crowdsourced verification for operating calving surveillance systems at an early stage

    Yusuke Okimoto, Soshi Kawata, Susumu Saito, Nakano Teppei, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Feature Representation Learning for Calving Detection of Cows Using Video Frames

    Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

    Proc. 25th International Conference on Pattern Recognition (ICPR2020)    2021年01月  [査読有り]

    担当区分:最終著者, 責任著者

  • Analysis of multimodal features for speaking proficiency scoring in an interview dialogue

    Mao Saeki, Yoichi Matsuyama, Satoshi Kobashikawa, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 8th IEEE Spoken Language Technology Workshop (SLT2021)    2021年01月  [査読有り]

  • Efficient human-in-the-loop object detection using bi-directional deep SORT and annotation-free segment identification

    Koki Madono, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2020 (APSIPA2020)    2020年12月  [査読有り]

    担当区分:最終著者, 責任著者

  • Exploiting narrative context and a priori knowledge of categories in textual emotion classification

    Hikari Tanabe, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

    The 28th International Conference on Computational Linguistics (COLING2020)    2020年12月  [査読有り]

  • Crowd-sourced development of image dataset for detecting mounting actions of black beef cattle

    Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hitomi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     341 - 351  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Attention network learning for robust detection of allantochorion and fetal membrane of Japanese black beef cattle

    Soshi Kawata, Teppei Nakano, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     333 - 340  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Data-driven feature extraction for calving sign detection in Japanese black beef cattle using video frames

    Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

    The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020)     323 - 332  2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Exploring Effectiveness of Inter-Microtask Qualification Tests in Crowdsourcing

    Masaya Morinaga, Susumu Saito, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. The 8th AAAI Conference on Human Computation and Crowdsourcing (HCOMP2020), Works-In-Progress and Demonstration Papers    2020年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict

    Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)     3655 - 3659  2020年10月  [査読有り]

  • Mentoring-reverse mentoring for unsupervised multi-channel speech source separation

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020)     86 - 90  2020年10月  [査読有り]

  • CHARM-Deep: Continuous Human Activity Recognition Model Based on Deep Neural Network using IMU Sensors of Smartwatch

    Sara Ashry, Tetsuji Ogawa, Walid Gomaa

    IEEE Sensors Journal   20 ( 15 ) 8757 - 8770  2020年08月  [査読有り]

  • Deep speech extraction with time-varying spatial filtering guided by desired direction attractor

    Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)     671 - 675  2020年05月  [査読有り]

  • Frame-level phoneme-invariant speaker embedding for text-independent speaker recognition on extremely short utterances

    Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Marc Delcroix, Tetsuji Ogawa

    Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)     6799 - 6803  2020年05月  [査読有り]

    担当区分:最終著者

  • Block-wise scrambled image recognition using adaptation network

    Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

    AAAI-20 Workshop on Artificial Intelligence of Things    2020年02月  [査読有り]

    担当区分:最終著者

  • SemSeq: A regime for training widely-applicable word-sequence encoders

    Hiroaki Tsuyuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

    Proc. 16th International Conference of the Pacific Association for Computational Linguistics (PACLING2019)    2019年10月  [査読有り]

  • Vibration-Based Fault Detection for Flywheel Condition Monitoring

    Takanori Hasegawa, Mao Saeki, Tetsuji Ogawa, Teppei Nakano

    Procedia Structural Integrity   17   487 - 494  2019年09月  [査読有り]

    担当区分:責任著者

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages

    Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. INTERSPEECH2019     266 - 270  2019年09月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Multi-channel speech enhancement using time-domain convolutional denoising autoencoder

    Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. INTERSPEECH2019     86 - 90  2019年09月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    21
    被引用数
    (Scopus)
  • Calving prediction from video: Exploiting behavioural information relevant to calving signs in Japanese black beef cows

    Kazuma Sugawara, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. ECPLF2019     663 - 669  2019年08月  [査読有り]

    担当区分:最終著者, 責任著者

  • Two-stage calving prediction system: Exploiting state-based information relevant to calving signs in Japanese black beef cows

    Ryosuke Hyodo, Saki Yasuda, Yusuke Okimoto, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. ECPLF2019     670 - 676  2019年08月  [査読有り]

    担当区分:最終著者, 責任著者

  • Data assimilation versus machine learning: Comparative study of fish catch forecasting

    Yuka Horiuchi, Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. OCEANS2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

  • Psychological measure on fish catches and its application to optimization criterion for machine learning based predictors

    Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. OCEANS2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Visual explanation of neural network based rotation machinery anomaly detection system

    Mao Saeki, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

    Proc. ICPHM2019    2019年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    7
    被引用数
    (Scopus)
  • Postfiltering using an adversarial denoising autoencoder with noise-aware training

    Naohiro Tawara, Hikari Tanabe, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

    Proc. ICASSP2019     3282 - 3286  2019年05月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

  • Adversarial autoencoder for reducing nonlinear distortion

    Naohiro Tawara, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

    Proc. APSIPA2018    2018年11月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Sequential fish catch forecasting using Bayesian state space models

    Yuya Kokaki, Naohiro Tawara, Tetsunori Kobayashi, Kazuo Hashimoto, Tetsuji Ogawa

    Proc. ICPR2018     776 - 781  2018年08月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Acoustic feature representation based on timbre for fault detection of rotary machines

    Kesaaki Menemura, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. SDPC2018    2018年08月  [査読有り]

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Tandem connectionist anomaly detection: Use of faulty vibration signals in feature representation learning

    Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

    Proc. ICPHM2018     1 - 7  2018年06月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    7
    被引用数
    (Scopus)
  • Speaker invariant feature extraction for zero-resource languages with adversarial training

    Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)     2381 - 2385  2018年04月  [査読有り]  [国際誌]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    21
    被引用数
    (Scopus)
  • Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations

    Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi

    Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018)     6084 - 6088  2018年04月  [査読有り]  [国際誌]

    DOI

    Scopus

    21
    被引用数
    (Scopus)
  • Exploiting end of sentences and speaker alternations in recurrent neural network-based language modeling for multiparty conversations

    Hiroto Ashikawa, Naohiro Tawara, Asunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA2017)    2017年12月  [査読有り]

    担当区分:最終著者, 責任著者

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Adaptive training of vibration-based anomaly detector for wind turbine condition monitoring

    Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsunori Kobayashi, Tetsuji Ogawa

    Proc. Annual Conference on PHM Society     177 - 184  2017年10月  [査読有り]

    担当区分:最終著者, 責任著者

  • Real-Time Large-Scale Map Matching Using Mobile Phone Data

    Essam Algizawy, Tetsuji Ogawa, Ahmed El-Mahdy

    ACM Transactions on Knowledge Discovery from Data   11 ( 4 ) 1 - 38  2017年08月  [査読有り]  [国際誌]

     概要を見る

    With the wide spread use of mobile phones, cellular mobile big data is becoming an important resource that provides a wealth of information with almost no cost. However, the data generally suffers from relatively high spatial granularity, limiting the scope of its application. In this article, we consider, for the first time, the utility of actual mobile big data for map matching allowing for “microscopic” level traffic analysis. The state-of-the-art in map matching generally targets GPS data, which provides far denser sampling and higher location resolution than the mobile data. Our approach extends the typical Hidden-Markov model used in map matching to accommodate for highly sparse location trajectories, exploit the large mobile data volume to learn the model parameters, and exploit the sparsity of the data to provide for real-time Viterbi processing. We study an actual, anonymised mobile trajectories data set of the city of Dakar, Senegal, spanning a year, and generate a corresponding road-level traffic density, at an hourly granularity, for each mobile trajectory. We observed a relatively high correlation between the generated traffic intensities and corresponding values obtained by the gravity and equilibrium models typically used in mobility analysis, indicating the utility of the approach as an alternative means for traffic analysis.

    DOI

    Scopus

    23
    被引用数
    (Scopus)
  • Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation

    Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi

    IEEE/ACM Transactions on Audio, Speech, and Language Processing   25 ( 3 ) 637 - 650  2017年03月  [査読有り]  [国際誌]

    DOI

  • A new efficient measure for accuracy prediction and its application to multistream-based unsupervised adaptation

    Tetsuji Ogawa, Sri Harish Mallidi, Emmanuel Dupoux, Jordan Cohen, Naomi H. Feldman, Hynek Hermansky

    Proc. 23rd International Conference on Pattern Recognition (ICPR2016)     2222 - 2227  2016年12月  [査読有り]  [国際誌]

    担当区分:筆頭著者, 責任著者

    DOI

  • Nested Gibbs sampling for mixture-of-mixture model and its application to speaker clustering

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

    APSIPA Trans. Signal & Infor. Process.   ( 5 )  2016年08月  [査読有り]

    DOI

  • Video semantic indexing using object detection-derived features

    Kotaro Kikuchi, Kazuya Ueki, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. 24th European Signal Processing Conference (EUSIPCO2016)     1288 - 1292  2016年08月  [査読有り]

    DOI

  • Separation matrix optimization using associative memory model for blind source separation

    Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri

    2015 23rd European Signal Processing Conference, EUSIPCO 2015     1098 - 1102  2015年12月  [査読有り]

     概要を見る

    A source signal is estimated using an associative memory model (AMM) and used for separation matrix optimization in linear blind source separation (BSS) to yield high quality and less distorted speech. Linear-filtering-based BSS, such as independent vector analysis (IVA), has been shown to be effective in sound source separation while avoiding non-linear signal distortion. This technique, however, requires several assumptions of sound sources being independent and generated from non-Gaussian distribution. We propose a method for estimating a linear separation matrix without any assumptions about the sources by repeating the following two steps: estimating non-distorted reference signals by using an AMM and optimizing the separation matrix to minimize an error between the estimated signal and reference signal. Experimental comparisons carried out in simultaneous speech separation suggest that the proposed method can reduce the residual distortion caused by IVA.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Uncertainty estimation of DNN classifiers

    Sri Harish Mallidi, Tetsuji Ogawa, Hynek Hermansky

    2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)    2015年12月  [査読有り]

    DOI

  • A sampling-based speaker clustering using utterance-oriented Dirichlet process mixture model and its evaluation on large-scale data

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    APSIPA Transactions on Signal and Information Processing   4 ( 4 )  2015年10月  [査読有り]

     概要を見る

    An infinite mixture model is applied to model-based speaker clustering with sampling-based optimization to make it possible to estimate the number of speakers. For this purpose, a framework of non-parametric Bayesian modeling is implemented with the Markov chain Monte Carlo and incorporated in the utterance-oriented speaker model. The proposed model is called the utterance-oriented Dirichlet process mixture model (UO-DPMM). The present paper demonstrates that UO-DPMM is successfully applied on large-scale data and outperforms the conventional hierarchical agglomerative clustering, especially for large amounts of utterances.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Autoencoder based multi-stream combination for noise robust speech recognition

    Sri Harish Mallidi, Tetsuji Ogawa, Karel Vesely, Phani S. Nidadavolu, Hynek Hermansky

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015)     3551 - 3555  2015年09月  [査読有り]

     概要を見る

    Performances of automatic speech recognition (ASR) systems degrade rapidly when there is a mismatch between train and test acoustic conditions. Performance can be improved using a multi-stream framework, which involves combining posterior probabilities from several classifiers (often deep neural networks (DNNs)) trained on different features/streams. Knowledge about the confidence of each of these classifiers on a noisy test utterance can help in devising better techniques for posterior combination than simple sum and product rules [1]. In this work, we propose to use autoencoders which are multi layer feed forward neural networks, for estimating this confidence measure. During the training phase, for each stream, an autocoder is trained on TANDEM features extracted from the corresponding DNN. On employing the autoencoder during the testing phase, we show that the reconstruction error of the autoencoder is correlated to the robustness of the corresponding stream. These error estimates are then used as confidence measures to combine the posterior probabilities generated from each of the streams. Experiments on Aurora4 and BABEL databases indicate significant improvements, especially in the scenario of mismatch between train and test acoustic conditions.

  • Bilinear map of filter-bank outputs for DNN-based speech recognition

    Tetsuji Ogawa, Kenshiro Ueda, Kouichi Katsurada, Tetsunori Kobayashi, Tsuneo Nitta

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015)     16 - 20  2015年09月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    Filter-bank outputs are extended into tensors to yield precise acoustic features for speech recognition using deep neural networks (DNNs). The filter-bank outputs with temporal contexts form a time-frequency pattern of speech and have been shown to be effective as a feature parameter for DNN-based acoustic models. We attempt to project the filter-bank outputs onto a tensor product space using decorrelation followed by a bilinear map to improve acoustic separability in feature extraction. This extension makes extracting a more precise structure of the time-frequency pattern possible because the bilinear map yields higher-order correlations of features. Experimental comparisons carried out in phoneme recognition demonstrate that the tensor feature provides comparable results to the filter-bank feature, and the fusion of the two features yields an improvement over each feature.

  • Feature extraction for rotary-machine acoustic diagnostics focused on period

    Kesaaki Minemura, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. INTERNOISE2015    2015年08月  [査読有り]

  • TOWARDS MACHINES THAT KNOW WHEN THEY DO NOT KNOW: SUMMARY OF WORK DONE AT 2014 FREDERICK JELINEK MEMORIAL WORKSHOP

    Hynek Hermansky, Lukas Burget, Jordan Cohen, Emmanuel Dupoux, Naomi Feldman, John Godfrey, Sanjeev Khudanpur, Matthew Maciejewski, Sri Harish Mallidi, Anjali Menon, Tetsuji Ogawa, Vijayaditya Peddinti, Richard Rose, Richard Stern, Matthew Wiesner, Karel Vesely

    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)     5009 - 5013  2015年  [査読有り]

     概要を見る

    A group of junior and senior researchers gathered as a part of the 2014 Frederick Jelinek Memorial Workshop in Prague to address the problem of predicting the accuracy of a nonlinear Deep Neural Network probability estimator for unknown data in a different application domain from the domain in which the estimator was trained. The paper describes the problem and summarizes approaches that were taken by the group.

    DOI

    Scopus

    7
    被引用数
    (Scopus)
  • A COMPARATIVE STUDY OF SPECTRAL CLUSTERING FOR I-VECTOR-BASED SPEAKER CLUSTERING UNDER NOISY CONDITIONS

    Naohiro Tawara, Tetsuji Ogawa, Tetsunori Kobayashi

    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)     2041 - 2045  2015年  [査読有り]

     概要を見る

    The present paper dealt with speaker clustering for speech corrupted by noise. In general, the performance of speaker clustering significantly depends on how well the similarities between speech utterances can be measured. The recently proposed i-vector-based cosine similarity has yielded the state-of-the-art performance in speaker clustering systems. However, this similarity often fails to capture the speaker similarity under noisy conditions. Therefore, we attempted to examine the efficiency of spectral clustering on i-vector-based similarity for speech corrupted by noise because spectral clustering can yield robustness against noise by non-linear projection. Experimental comparisons demonstrated that spectral clustering yielded significant improvement from conventional methods, such as agglomerative clustering and k -means clustering, under non-stationary noise conditions.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Effect of frequency weighting on MLP-based speaker canonicalization

    Yuichi Kubota, Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Tsuneo Nitta

    Proc. INTERSPEECH2014     2987 - 2991  2014年09月  [査読有り]

  • Vision based SLAM for humanoid robots: A survey

    Walaa Gouda, Walid Gomaa, Tetsuji Ogawa

    Proceedings of the 2013 2nd International Japan-Egypt Conference on Electronics, Communications and Computers, JEC-ECC 2013     170 - 175  2013年12月  [査読有り]

    担当区分:最終著者

     概要を見る

    This paper is a survey work for designing a Vision based Simultaneous Localization and Mapping (VSLAM) humanoid robot to generate a map of an unknown environment. A lot of factors have to be considered while designing a VSLAM robot. Vision Sensors are very attractive for application in SLAM because of their rich sensory output and cost effectiveness. Different issues are involved in the problem of vision based SLAM and many different approaches exist in order to solve these issues. Similarly the type of environment determines the suitable feature extraction method. The main objective of this survey is to conduct a comparative study among the current vision sensing methods in terms of imaging systems used for performing VSLAM, feature extraction algorithms used in some recently published papers, and initialization of landmarks, and to figure out the best for our work. © 2013 IEEE.

    DOI

    Scopus

    10
    被引用数
    (Scopus)
  • Integration of MKL-based and i-vector-based speaker verification by short

    Hideitsu Hino, Tetsuji Ogawa

    2013 SECOND IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR 2013)     562 - 566  2013年11月  [査読有り]

    担当区分:最終著者, 責任著者

     概要を見る

    We developed a speaker verification system that is efficient for short utterances. The i-vector-based speaker representation has helped realize highly accurate speaker verification systems; however, it might be not robust against short utterances because the reliability of statistics required for extracting i-vectors is low. On the other hand, multiple kernel learning based on conditional entropy minimization has also achieved high accuracy in speaker verification that is robust against intra-speaker variability. To improve the robustness of speaker verification systems against short utterances, we attempted to integrate the above-mentioned complementary systems. Our experimental results showed that the proposed system integration achieved high-accuracy speaker verification systems, irrespective of the utterance lengths, even for very short utterances (e.g., less than two seconds).

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Blocked Gibbs sampling based multi-scale mixture model for speaker clustering on noisy data

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    IEEE International Workshop on Machine Learning for Signal Processing, MLSP    2013年09月  [査読有り]

     概要を見る

    A novel sampling method is proposed for estimating a continuous multi-scale mixture model. The multi-scale mixture models we assume have a hierarchical structure in which each component of the mixture is represented by a Gaussian mixture model (GMM). In speaker modeling from speech, this GMM represents intra-speaker dynamics derived from the difference in the attributes such as phoneme contexts and the existence of non-stationary noise and the mixture of GMMs (MoGMMs) represents inter-speaker dynamics derived from the difference in speakers. Gibbs sampling is a powerful technique to estimate such hierarchically structured models but can easily induce the local optima problem depending on its use especially when the elemental GMMs are complex in structure. To solve this problem, a highly accurate and robust sampling method based on the blocked Gibbs sampling and iterative conditional modes (ICM) is proposed and effectively applied for reducing a singularity solution given in the model with complex multi-modal distributions. In speaker clustering experiments under non-stationary noise, the proposed sampling-based model estimation improved the clustering performance by 17% on average compared to the conventional sampling-based methods. © 2013 IEEE.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Stream Selection and Integration in Multistream ASR Using GMM-Based Performance Monitoring

    Tetsuji Ogawa, Feipeng Li, Hynek Hermansky

    14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013)     3331 - 3335  2013年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    A moderately deep and rather wide artificial neural net is applied in phoneme recognition of noisy speech. The net is formed by first estimating posterior probabilities of phonemes in 21 band-limited streams covering the whole speech spectrum. These 21 band-limited streams are subdivided into three seven band-limited stream subsets, by differently sub-sampling the original 21 band-limited streams. In the second processing stage, all non-empty combinations of seven band-limited streams from each subset are formed as inputs to 127 artificial neural nets that are again trained to yield phoneme posteriors. In this way, 127 x 3 = 381 processing streams are formed. A novel technique for finding the best combination of the resulting 381 parallel processing streams, which uses the likelihood of a single-state Gaussian mixture model of the final classifier output is applied to selecting the most efficient streams. The technique is efficient in phoneme recognition of speech that is corrupted by realistic additive noise.

  • An Improved Entropy-Based Multiple Kernel Learning

    Hideitsu Hino, Tetsuji Ogawa

    2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012)     1189 - 1192  2012年11月  [査読有り]

    担当区分:最終著者

     概要を見る

    Kernel methods have been successfully used in many practical machine learning problems. However, the problem of choosing a suitable kernel is left to practitioners. One method to select the optimal kernel is to learn a linear combination of element kernels. A framework of multiple kernel learning based on conditional entropy minimization criterion (MCEM) has been proposed and it has been shown to work well for, e.g., speaker recognition tasks. In this paper, a computationally efficient implementation for MCEM, which utilizes sequential quadratic programming, is formulated. Through a comparative experiment to conventional MCEM algorithm on a speaker verification task, the proposed method is shown to offer comparable verification accuracy with considerable improvement in computational speed.

  • Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012)     2163 - 2166  2012年09月  [査読有り]

     概要を見る

    We have proposed a novel speaker clustering method based on a hierarchically structured utterance-oriented Dirichlet process mixture model. In the proposed method, the number of speakers can be determined from the given data using a nonparametric Bayesian manner and intra-speaker variability is successfully handled by multi-scale mixture modeling. Experimental result showed that the proposed method is computationally-efficient and effective in speaker clustering. The proposed method significantly improve the accuracy of speaker clustering systems as compared with the conventional method, particularly for the case in which the number of utterances varied from speaker to speaker.

  • FULLY BAYESIAN INFERENCE OF MULTI-MIXTURE GAUSSIAN MODEL AND ITS EVALUATION USING SPEAKER CLUSTERING

    Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

    2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)     5253 - 5256  2012年03月  [査読有り]

     概要を見る

    This study aims to verify effective optimization methods for estimating parametric, fully Bayesian models in speech processing. For that purpose, we investigate the impact of the difference in optimization methods for the multi-scale Gaussian mixture model, which is suitable for speaker clustering, on the clustering accuracy. The Markov chain Monte Carlo (MCMC)-based method was compared with the variational Bayesian method in the speaker clustering experiment; with a small amount of data, the MCMC-based method was more effective; with large scale data (more than one million samples), the difference between these methods in terms of the clustering accuracy decreased and the MCMC-based method was computationally efficient.

    DOI

    Scopus

    6
    被引用数
    (Scopus)
  • CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments

    Takahiro Fukumori, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Norihide Kitaoka, Takeshi Yamada, Kazumasa Yamamoto, Satoru Tsuge, Masakiyo Fujimoto, Tetsuya Takiguchi, Chiyomi Miyajima, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Acoustical Science and Technology   32 ( 5 ) 201 - 210  2011年09月  [査読有り]

     概要を見る

    We have been distributing a new collection of databases and evaluation tools called CENSREC-4, which is a framework for evaluating distant-talking speech in reverberant environments. The data contained in CENSREC-4 are connected digit utterances as in CENSREC-1. Two subsets are included in the data: "basic data sets" and "extra data sets." The basic data sets are used for evaluating the room impulse response-convolved speech data to simulate the various reverberations. The extra data sets consist of simulated data and corresponding real recorded data. Evaluation tools are presently only provided for the basic data sets and will be delivered to the extra data sets in the future. The task of CENSREC-4 with a basic data set appears simple
    however, the results of experiments prove that CENSREC-4 provides a challenging reverberation speech-recognition task, in the sense that a traditional technique to improve recognition and a widely used criterion to represent the difficulty of recognition deliver poor performance. Within this context, this common framework can be an important step toward the future evolution of reverberant speech-recognition methodologies. © 2011 The Acoustical Society of Japan.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • Development and evaluation of Japanese Lombard speech corpus

    Tetsuji Ogawa, Takanobu Nishiura, Takeshi Yamada, Norihide Kitaoka, Tetsunori Kobayashi

    Proc. Internoise2011    2011年09月  [査読有り]  [招待有り]

    担当区分:筆頭著者, 責任著者

  • Class-Distance-Based Discriminant Analysis and Its Application to Supervised Automatic Age Estimation

    Tetsuji Ogawa, Kazuya Ueki, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E94D ( 8 ) 1683 - 1689  2011年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    We propose a novel method of supervised feature projection called class-distance-based discriminant analysis (CDDA), which is suitable for automatic age estimation (AAE) from facial images. Most methods of supervised feature projection, e.g., Fisher discriminant analysis (FDA) and local Fisher discriminant analysis (LFDA), focus on determining whether two samples belong to the same class (i.e., the same age in AAE) or not. Even if an estimated age is not consistent with the correct age in AAE systems, i.e., the AAE system induces error, smaller errors are better. To treat such characteristics in AAE, CDDA determines between-class separability according to the class distance (i.e., difference in ages); two samples with similar ages are imposed to be close and those with spaced ages are imposed to be far apart. Furthermore, we propose an extension of CDDA called local CDDA (LCDDA), which aims at handling multimodality in samples. Experimental results revealed that CDDA and LCDDA could extract more discriminative features than FDA and LFDA.

    DOI

    Scopus

  • Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization

    Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, Tetsunori Kobayashi

    Proc. Interspeech2011     2741 - 2744  2011年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

  • Speaker Clustering Based on Utterance-oriented Dirichlet Process Mixture Model

    Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011)     2905 - 2908  2011年08月  [査読有り]

     概要を見る

    This paper provides the analytical solution and algorithm of UO-DPMM based on a non-parametric Bayesian manner, and thus realizes fully Bayesian speaker clustering. We carried out preliminary speaker clustering experiments by using a TIMIT database to compare the proposed method with the conventional Bayesian Information Criterion (BIC) based method, which is an approximate Bayesian approach. The results showed that the proposed method outperformed the conventional one in terms of both computational cost and robustness to changes in tuning parameters.

  • Spatial filter calibration based on minimization of modified LSD

    Nobuaki Tanaka, Tetsuji Ogawa, Tetsunori Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011)     1761 - 1764  2011年08月  [査読有り]

     概要を見る

    A new sound source separation method has been developed that is robust against individual variability in microphones and acoustic lines. A specific area that has a target sound source was enhanced by using a spatial filter developed by time-frequency masking. However, there is a strong likelihood that the spatial filters will be distorted due to the impact of individual variability in microphone characteristics and acoustic lines. To solve this problem, calibration of these spatial filters' shapes was attempted using a modified log-spectral distance (MLSD) minimization criterion, which uses utterances made by each individual (i.e., a sound source) at the desired positions. The effectiveness of this spatial filter calibration was experimentally verified in speech recognition experiments; MLSD-based calibration had fewer word errors than the cases without calibration and calibration using other criteria.

  • Speaker recognition using multiple kernel learning based on conditional entropy minimization

    Tetsuji Ogawa, Hideitsu Hino, Nima Reyhani, Noboru Murata, Tetsunori Kobayashi

    2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)     2204 - 2207  2011年05月  [査読有り]

    担当区分:筆頭著者, 責任著者

    DOI

  • CENSREC-1-AV: An audio-visual corpus for noisy bimodal speech recognition

    Satoshi Tamura, Chiyomi Miyajima, Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Tetsuya Takiguchi, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Proc. AVSP2010    2010年09月  [査読有り]

  • DEVELOPMENT OF ZONAL BEAMFORMER AND ITS APPLICATION TO ROBOT AUDITION

    Nobuaki Tanaka, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    18TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO-2010)     1529 - 1533  2010年08月  [査読有り]

     概要を見る

    We have proposed a zonal beamformer (ZBF), which enhances the sound source located in a zonal space, and applied the ZBF to noise reduction systems for robot audition. A conversational partner of a robot does not always remain stationary with respect to the robot. In order to cope with such a situation, we have proposed a fan-like beamformer (FBF), which enhances the sound source located in a fan-like space in front of the robot under the assumption that the partner is in front of the robot. However, the FBF may degrade the noise reduction performance when directional noise sources are located behind the target source because the FBF widens the space as the distance from the robot increases. The ZBF can better improve the performance of eliminating the directional noise coming from behind the target source than the FBF because the ZBF has a considerably sharper directivity than the FBF.

  • Speech Enhancement Using a Square Microphone Array in the Presence of Directional and Diffuse Noise

    Tetsuji Ogawa, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E93A ( 5 ) 926 - 935  2010年05月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    We propose a new speech enhancement method suitable for mobile devices used in the presence of various types of noise. In order to achieve high-performance speech recognition and auditory perception in mobile devices, various types of noise have to be removed under the constraints of a space-saving microphone arrangement and few computational resources. The proposed method can reduce both the directional noise and the diffuse noise under the abovementioned constraints for mobile devices by employing a square microphone array and conducting low-computational-cost processing that consists of multiple null beamforming, minimum power channel selection, and Wiener filtering. The effectiveness of the proposed method is experimentally verified in terms of speech recognition accuracy and speech quality when both the directional noise and the diffuse noise are observed simultaneously; this method reduces the number of word errors and improves the log-spectral distances as compared to conventional methods.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Influence of Lombard Effect: Accuracy Analysis of Simulation-Based Assessments of Noisy Speech Recognition Systems for Various Recognition Conditions

    Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E92D ( 11 ) 2244 - 2252  2009年11月  [査読有り]

    担当区分:筆頭著者, 責任著者

     概要を見る

    The accuracy of simulation-based assessments of speech recognition systems under noisy conditions is investigated with a focus on the influence of the Lombard effect on the speech recognition performances. This investigation was carried out under various recognition conditions of different sound pressure levels of ambient noise, for different recognition tasks, such as continuous speech recognition and spoken word recognition, and using different recognition systems, i.e., systems with and without adaptation of the acoustic models to ambient noise. Experimental results showed that accurate simulation was not always achieved when dry sources with neutral talking style were used, but it could be achieved if the dry sources that include the influence of the Lombard effect were used; the simulation in the latter case is accurate, irrespective of the recognition conditions.

    DOI

    Scopus

    4
    被引用数
    (Scopus)
  • Robot auditory system using head-mounted square microphone array

    Kosuke Hosoya, Tetsuji Ogawa, Tetsunori Kobayashi

    2009 IEEE-RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS     2736 - 2741  2009年10月  [査読有り]

     概要を見る

    A new noise reduction method suitable for autonomous mobile robots was proposed and applied to preprocessing of a hands-free spoken dialogue system. When a robot talks with a conversational partner in real environments, not only speech utterances by the partner but also various types of noise, such as directional noise, diffuse noise, and noise from the robot, are observed at microphones. We attempted to remove these types of noise simultaneously with small and light-weighted devices and low-computational-cost algorithms. We assumed that the conversational partner of the robot was in front of the robot. In this case, the aim of the proposed method is extracting speech signals coming from the frontal direction of the robot. The proposed noise reduction system was evaluated h the presence of various types of noise: the number of word errors was reduced by 69 % as compared to the conventional methods. The proposed robot auditory system can also cope with the case in which a conversational partner (i.e., a sound source) moves from the front of the robot: the sound source was localized by face detection and tracking using facial images obtained from a camera mounted on an eye of the robot. As a result, various types of noise could be reduced in real time, irrespective of the sound source positions, by combining speech information with image information.

    DOI

    Scopus

    6
    被引用数
    (Scopus)
  • CENSREC-1-C: An evaluation framework for voice activity detection under noisy environments

    Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    Acoustical Science and Technology   30 ( 5 ) 363 - 371  2009年08月  [査読有り]

     概要を見る

    Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environments. We have developed an evaluation framework for VAD under noisy environments, named CENSREC-1-C. We designed this framework for simple isolated utterance detection and hence, this framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We define two evaluation measures, one for frame-level detection performance and the other for utterance-level detection performance. We also provide the evaluation results of a power-based VAD method as a reference. ©2009 The Acoustical Society of Japan.

    DOI

    Scopus

    27
    被引用数
    (Scopus)
  • Direction-of-arrival estimation under noisy condition using four-line omni-directional microphones mounted on a robot head

    Tetsuji Ogawa, Kosuke Hosoya, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. EUSIPCO2009    2009年08月  [査読有り]

  • CENSREC-4: Development of Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments

    Masato Nakayama, Takanobu Nishiura, Yuki Denda, Norihide Kitaoka, Kazumasa Yamamoto, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5     968 - 971  2008年09月  [査読有り]

  • Class Distance Weighted Locality Preserving Projection for Automatic Age Estimation

    Kazuya Ueki, Masakazu Miya, Tetsuji Ogawa, Tetsunori Kobayashi

    2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems (BTAS2008)    2008年09月  [査読有り]

    DOI

  • Ears of the Robot: Noise Reduction Using Four-Line Ultra-Micro Omni-Directional Microphones Mounted on A Robot Head

    Tetsuji Ogawa, Hirofumi Takeuchi, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. EUSIPCO2008    2008年08月  [査読有り]

    担当区分:筆頭著者, 責任著者

  • Ears of the robot: Direction of arrival estimation based on pattern recognition using robot-mounted microphones

    Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E91D ( 5 ) 1522 - 1530  2008年05月  [査読有り]

     概要を見る

    We propose a new type of direction-of-arrival estimation method for robot audition that is free from strict head related transfer function estimation. The proposed method is based on statistical pattern recognition that employs a ratio of power spectrum amplitudes occurring for a microphone pair as a feature vector. It does not require any phase information explicitly, which is frequently used in conventional techniques, because the phase information is unreliable for the case in which strong reflections and diffractions occur around the microphones. The feature vectors we adopted can treat these influences naturally. The effectiveness of the proposed method was shown from direction-of-arrival estimation tests for 19 kinds of directions: 92.4% of errors were reduced compared with the conventional phase-based method.

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Speech enhancement using square microphone array for mobile devices

    Shintaro Takada, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12     313 - 316  2008年04月  [査読有り]

     概要を見る

    In this paper, we propose a new type of speech enhancement method that is suitable for mobile devices used in noisy environments. For the sake of achieving high-performance speech recognition and auditory perception in the mobile devices, disturbance noises have to be removed under the requirements of a space-saving microphone arrangement and a low computational cost. The proposed method can reduce both the directional and the diffuse noises under the requirements for the mobile devices by applying the square microphone array and the low-cost processing that consists of multiple null beam-forming, their minimum power channel selection and Wiener filtering. The effectiveness of the proposed method is clarified for speech recognition accuracies and speech qualities under the condition in which both the directional and the diffuse noises exist simultaneously: it reduced 40% of recognition errors and improved PESQ-based MOS value by 0.75 point.

    DOI

    Scopus

    5
    被引用数
    (Scopus)
  • Sound source separation using null-beamforming and spectral subtraction for mobile devices

    Shintaro Takada, Satoshi Kanba, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

    Proc. 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2007)     133 - 136  2007年10月  [査読有り]

     概要を見る

    This paper presents a new type of speech segregation method for mobile devices in noisy sound situation, where two or more speakers are talking simultaneously. The proposed method consists of multiple null-beamformers, their minimum power channel selection and spectral subtraction. The proposed method is performed with space-saving and coplanar microphone arrangements and low-cost calculations, which are the very important requirements for the mobile application. Effectiveness of the proposed method is clarified in the segregation and the recognition experiments of two simultaneous continuous speeches: the method improved the PESQ-based MOS value by about one point and reduced 70% of word recognition errors compared with non-processing.

    DOI

    Scopus

    9
    被引用数
    (Scopus)
  • Ears of the robot: Three simultaneous speech segregation and recognition using robot-mounted microphones

    Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE Transactions on Information and Systems   E90-D ( 9 ) 1465 - 1468  2007年09月  [査読有り]

    担当区分:責任著者

     概要を見る

    A new type of sound source segregation method using robot-mounted microphones, which are free from strict head related transfer function (HRTF) estimation, has been proposed and successfully applied to three simultaneous speech recognition systems. The proposed segregation method is executed with sound intensity differences that are due to the particular arrangement of the four directivity microphones and the existence of a robot head acting as a sound barrier. The proposed method consists of three-layered signal processing: two-line SAFIA (binary masking based on the narrow band sound intensity comparison), two-line spectral subtraction and their integration. We performed 20 K vocabulary continuous speech recognition test in the presence of three speakers' simultaneous talk, and achieved more than 70% word error reduction compared with the case without any segregation processing. Copyright © 2007 The Institute of Electronics, Information and Communication Engineers.

    DOI

    Scopus

    3
    被引用数
    (Scopus)
  • Adequacy Analysis of Simulation-Based Assessment of Speech Recognition System

    Tetsuji Ogawa, Satoshi Kanba, Tetsunori Kobayashi

    2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP '07   ( 4 ) 1153 - 1157  2007年04月  [査読有り]

    担当区分:筆頭著者

    DOI

  • Manifold HLDA and Its Application to Robust Speech Recognition

    Toshiaki Kubo, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 9th International Conference on Spoken Language Processing (INTERSPEECH2006 - ICSLP)     1551 - 1554  2006年09月  [査読有り]

    担当区分:責任著者

    DOI

  • Source Separation Using Multiple Directivity Patterns Produced by ICA-based BSS

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 14th European Signal Processing Conference (EUSIPCO2006)    2006年09月  [査読有り]

  • A Method for Solving the Permutation Problem of Frequency-Domain BSS Using Reference Signal

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. The 14th European Signal Processing Conference (EUSIPCO2006)    2006年09月  [査読有り]

  • 対話ロボットの動作に頑健な頭部ジェスチャ認識

    中島慶, 江尻康, 藤江真也, 小川哲司, 松坂要佐, 小林哲則

    電子情報通信学会論文誌   J89-D ( 7 ) 1514 - 1522  2006年09月  [査読有り]

     概要を見る

    ロボットが人と対話をする上で,対話相手の頭部ジェスチャを認識することは,自然な対話を実現するために重要である.しかし,ロボット頭部に設置したカメラからの入力画像をジェスチャの認識に用いる場合,ロボット自身も頭部ジェスチャを行うことが求められるため画像は乱れ,認識は困難となる.本論文では,HMMによるジェスチャ認識を対象として,揺れの多い画像への対処法について検討した.具体的には,HMMの出力確率をロボットの動作ごとに用意した上で,これをロボット動作に応じて切り換えて使用することを試みた.評価実験の結果,ロボット動作に応じたモデルの切換を行うことで,これをしない場合に比べ79%のエラーを削減でき,提案法の有効性が確かめられた.

    CiNii

  • Genetic algorithm based optimization of Partly-Hidden Markov Model structure using discriminative criterion

    Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E89D ( 3 ) 939 - 945  2006年03月  [査読有り]

    担当区分:筆頭著者

     概要を見る

    A discriminative modeling is applied to optimize the structure of it Partly-Hidden Markov Model (PHMM). PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can represent observation dependent behaviors in both observations and state transitions. In the formulation of the previous PHMM we used a common structure for all models. However, it is expected that the optimal structure which gives the best performance differs front category to category. In this paper, we designed a new structure optimization method in which the dependence of the states and the observations of PHMM are optimally defined according to each model using the weighted likelihood-ratio maximization (WLRM) criterion. The WLRM criterion gives high discriminability between the correct category and the incorrect categories. Therefore it gives model structures with good discriminative performance. We define the model structure combination which satisfy the WLRM criterion for any possible structure combinations as the optimal structures. A genetic algorithm is also applied to the adequate approximation of a full search. With results of continuous lecture talk speech recognition, the effectiveness of the proposed structure optimization is shown: it reduced the word errors compared to HMM and PHMM with a common structure for all models.

    DOI

    Scopus

    2
    被引用数
    (Scopus)
  • A Method for Solving the Permutation Problem of Frequency-domain Blind Source Separation using Reference Signal

    Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Biennial on DSP for in-Vehicle and Mobile Systems    2005年09月  [査読有り]

  • Optimizing the Structure of Partly-Hidden Markov Models Using Weighted Likelihood-Ratio Maximization Criterion

    Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. Interspeech2005     3353 - 3356  2005年09月  [査読有り]

    担当区分:筆頭著者

  • Extension of Hidden Markov Models for multiple candidates and its application to gesture recognition

    Yosuke Sato, Tetsuji Ogawa, Tetsunori Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS   E88D ( 6 ) 1239 - 1247  2005年06月  [査読有り]

     概要を見る

    We propose a modified Hidden Markov Model (HMM) with a view to improve gesture recognition using a moving camera. The conventional HMM is formulated so as to deal with only one feature candidate per frame. However. for a mobile robot, the background and the lighting conditions are always changing, and the feature extraction problem becomes difficult. It is almost impossible to extract a reliable feature vector under such conditions. In this paper, we define a new gesture recognition framework in which multiple candidates of feature vectors are generated with confidence measures and the HMM is extended to deal with these multiple feature vectors. Experimental results comparing the proposed system with feature vectors based on DCT and the method of selecting only one candidate feature point verifies the effectiveness of the proposed technique.

    DOI

    Scopus

    1
    被引用数
    (Scopus)
  • Recognition of three simultaneous utterance of speech by four-line directivity microphone mounted on head of robot

    Naoya Mochiki, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. ICSLP2004   2   821 - 824  2004年10月  [査読有り]

  • 部分隠れマルコフモデルにおける状態・出力依存関係の拡張 と連続音声認識への適用

    小川哲司, 小林哲則

    電子情報通信学会論文誌   J87-DII ( 6 ) 1216 - 1223  2004年06月  [査読有り]

    担当区分:筆頭著者

     概要を見る

    部分隠れマルコフモデル(Partly-Hidden Markov Model; PHMM)における状態と出力の相互依存関係を拡張し,連続音声認識に適用した.PHMMは,隠れ状態と観測可能な状態という二つの状態系列に依存して出力確率,状態遷移確率が決まる枠組みであり,従来のPHMMにおいては,隠れ状態と観測可能な状態は各々,出力確率を条件づけるものに対しても,状態遷移確率を条件づけるものに対しても,同じものを用いていた.ここでは,隠れ状態に関しては,出力確率,状態遷移確率の双方を条件づけるものとして同じものを用い,観測可能な状態に関しては,出力確率を条件づけるものと,状態遷移確率を条件づけるものとで,別のものを用いることを考える.このような簡単な改良により大きな自由度が与えられ,より精度の高い確率過程のモデルを実現できる.また,このように状態と出力の相互依存関係を拡張したPHMMとHMMを統合した確率モデルである平滑化部分隠れマルコフモデル(Smoothed PHMM; SPHMM)を構築し,検討を行った.新聞読上げ音声を対象とした連続音声認識実験の結果,PHMM,SPHMMはHMMに比べて,各々10%,24%の誤りを削減し,提案モデルの有効性が示された.

    CiNii

  • Speech Recognition of Double Talk using SAFIA-based Audio Segregation

    Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. EUROSPEECH2003     1285 - 1288  2003年09月  [査読有り]

  • Hybrid modeling of PHMM and HMM for speech recognition

    Tetsuji Ogawa, Tetsunori Kobayashi

    2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS   1   140 - 143  2003年  [査読有り]

    担当区分:筆頭著者

     概要を見る

    A hybrid acoustic model of Partly Hidden Markov Model (PHMM) and HMM is proposed,
    PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can realize the observation dependent behaviors in both observations and state transitions. It achieved good performance but some errors with different trend from HMM still remained.
    In this paper, we designed a new acoustic model on the basis of PHMM, in which the observation and state transition probabilities are defined by the geometric means of PHMM-based ones and HMM-based ones. In this framework, if a word hypothesis is given a low score by either PHMM or HMM, it almost loses possibilities to be a probable candidate. Since many errors are due to the high-scores of incorrect categories, rather than the low-score of the correct category, this property contributed to reduce errors. Moreover, the proposed model is more stable than PHMM because the higher order statistics of PHMM, which is generally accurate but sometimes less reliable, is smoothed by the lower order statistics of HMM, which is not so accurate but robust.
    Experimental results showed the effectiveness of proposed model: it reduced the word errors by 25% compared with HMM.

    DOI

  • Generalization of State-Observation-Dependency in Partly Hidden Markov Models

    Tetsuji Ogawa, Tetsunori Kobayashi

    Proc. ICSLP2002     2673 - 2676  2002年09月  [査読有り]

    担当区分:筆頭著者

▼全件表示

書籍等出版物

  • 人工知能学大辞典(話者認識・話者照合)

    人工知能学( 担当: 分担執筆)

    共立出版  2017年07月 ISBN: 9784320124202

  • 音響キーワードブック(話者ダイアライゼーション)

    日本音響学( 担当: 分担執筆)

    コロナ社  2016年03月 ISBN: 9784339008807

    ASIN

Misc

  • テキストのみを用いたIntermediate-CTCコンフォーマーモデルのドメイン適応

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識

    樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

    日本音響学会研究発表会講演論文集    2022年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた合成音声評価におけるワーカからの回答の分析

    八重樫萌絵, 斎藤奨, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的学習と Unmix-Remix 無矛盾学習による教師なし音源分離

    西城耕平, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ペアデータを必要としない敵対的学習に基づく音声処理歪み補正

    荻野里久, 藤枝大, 片桐一浩, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 言い淀みとポーズ位置検出に基づく第二言語発話の流暢性自動採点

    松浦瑠希, 鈴木駿吾, 佐伯真於, 小川哲司, 松山洋一

    日本音響学会研究発表会講演論文集    2022年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた話者照合結果の検証における誤り削減傾向に関する調査

    井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集    2022年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • End-to-end音声認識モデルにおけるテキストデータ学習手法の検討

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    2021年度映像情報メディア学会冬季大会    2021年12月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討

    佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

    情報処理学会研究報告 (SLP)    2021年12月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた結果の検証による話者照合性能の改善

    井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

    情報処理学会研究報告 (SLP)    2021年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • CTCと異なる粒度のサブワード単位に基づいた階層的条件付きEnd-to-End音声認識

    樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

    情報処理学会研究報告 (SLP)     1 - 6  2021年12月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • マルソウダ曳縄漁のための気象・海況情報を用いた良漁場予測

    堀内優佳, 中野鐵兵, 宮澤泰正, 小川哲司

    水産海洋学会2021年度研究発表大会要旨    2021年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 船上映像を用いた漁獲尾数計測器

    田中理子, 中野鐵兵, 小川哲司

    水産海洋学会2021年度研究発表大会要旨    2021年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 農家の皆さんにとって使い勝手が良く,信頼してもらえるAI技術の作り方-農家の意思決定支援のための家畜の映像監視システム開発を例に―

    小川哲司

    肉牛ジャーナル   34 ( 10 ) 59 - 63  2021年10月

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(商業誌、新聞、ウェブメディア)  

  • Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習

    趙懐博, 樋口陽祐, 小林哲則, 小川哲司

    情報処理学会研究報告 (SLP)     1 - 6  2021年10月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • DNNを用いた最小分散ビームフォーマの音源の動き対する頑健性:音源追跡とエリア収音に基づくアプローチの比較

    西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

    日本音響学会研究発表会講演論文集     321 - 322  2021年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • VocalTurk:クラウドソーシングを用いた話者照合の性能調査

    斎藤奨, 井手悠太, 中野鐵兵, 小川哲司

    日本音響学会研究発表会講演論文集     1003 - 1006  2021年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 予測の不一致に基づく深層学習モデルの不確実性推定とクラウドソーシングを用いた映像監視への応用

    松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

    第24回画像の認識・理解シンポジウム (MIRU2021)     1 - 4  2021年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 意思決定支援のための解釈可能な映像監視システムの開発フローと繁殖牛の分娩予兆検知への応用

    兵頭亮介, 斎藤奨, 中野鐵兵, 小川哲司

    第24回画像の認識・理解シンポジウム (MIRU2021)     1 - 4  2021年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 黒毛和牛種の映像監視における解釈可能な分娩予兆通知システム

    兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 春日良一, 小川哲司

    日本畜産学会 第128回大会要旨    2021年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 空間フィルタ出力を補助情報として用いた音源の移動に頑健なニューラル音声強調

    西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

    日本音響学会研究発表会講演論文集     427 - 428  2021年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ペアデータを必要としない敵対的学習に基づく多チャンネル音源分離

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会研究発表会講演論文集     409 - 410  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • コモンセンス知識を利用した物語中の登場人物の感情推定

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    言語処理学会第27回年次大会     538 - 542  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 単語の重要度に応じてパラメタ数可変な単語分散表現の学習

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第27回年次大会     12 - 16  2021年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

    樋口陽祐, 稲熊寛文, 渡部晋治, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)    2020年12月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 分布類似度に基づく健全性指標と風車異常検知システムの早期運用における効果

    長谷川隆徳, 緒方淳, 飯田誠, 小川哲司

    第42回風力エネルギー利用シンポジウム予稿集    2020年11月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Mentoring-Reverse Mentoring: 多チャンネル音源分離における教師なし学習のための知識伝搬フレームワーク

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 秋季 ) 127 - 130  2020年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識

    樋口陽祐, 渡部晋治, Chen Nanxin, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 秋季 ) 747 - 748  2020年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 書き起こしのための遠方発話音声認識技術の検討

    佐藤裕明, 萩原愛子, 伊藤均, 三島剛, 河合吉彦, 小森智康, 佐藤庄衛, 小川哲司

    日本音響学会講演論文集   2020 ( 秋季 ) 841 - 842  2020年09月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 感情に関するマルチラベルアノテーションにおける正解基準の設定

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングにおける効率的な回答収集のための動的なマイクロタスク追加発注

    森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 肉牛の発情検知のための乗駕行動画像データセット構築におけるクラウドソーシングの活用

    川野百合子, 斎藤奨, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

    人工知能学会全国大会論文集   JSAI2020   1 - 4  2020年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ドローン空撮画像を用いた潮目の検知に関する検討

    幸加木裕也, 小林哲則, 小川哲司

    日本水産学会春季大会要旨    2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • End-to-end雑音除去のためのネットワーク構造の検討

    蓮実拓也, 小林哲則, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 335 - 336  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 感情推定における感情カテゴリに関する先験的知識の利用

    田辺ひかり, 小川哲司, 小林哲則, 林良彦

    言語処理学会第26回年次大会発表論文集   P6-23  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 局所的依存構造をSelf-Attentionにより考慮する翻訳文生成

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第26回年次大会発表論文集   P1-7  2020年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 所望音源の方向アトラクターに基づく時変の空間フィルタを用いたDNN音声抽出

    中込優, 戸上真人, 小川哲司, 小林哲則

    日本音響学会講演論文集   2020 ( 春季 ) 305 - 308  2020年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 短発話を対象としたテキスト独立型話者認識のためのフレームレベル音素非依存特徴抽出

    俵直弘, 小川厚徳, 岩田具治, デラクロアマーク, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 997 - 998  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • Attentionに関する損失を利用したノイズに頑健なEnd-to-End音声認識

    樋口陽祐, 俵直弘, 小川厚徳, 岩田具治, 小林 哲則, 小川哲司

    日本音響学会講演論文集   2020 ( 春季 ) 935 - 936  2020年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングにおける動的な回答収集による低コストな多数決手法

    森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

    情報処理学会研究報告 (HCI)   2019-HCI-186 ( 36 ) 1 - 6  2020年01月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • マルチチャネル音声強調のための時間領域畳み込みデノイジングオートエンコーダ

    俵直弘, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(SP)    2019年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • あらゆる風車に適用可能な状態監視技術を目指して~風車主要機器におけるデータ駆動型異常検知とその評価~

    長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

    第41回風力エネルギー利用シンポジウム    2019年12月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報を用いた繁殖牛分娩検知システムの構築と運用法に関する研究・開発(自然に挑む画像センシング技術~農林水産業の現場でいかに役立つか?~)

    小川哲司, 斎藤奨, 中野鐵兵

    OplusE   41 ( 6 ) 858 - 862  2019年11月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

  • 画像情報による黒毛和牛種の乗駕行動の検知に関する検討

    川野百合子, 河田宗士, 沖本祐典, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

    日本畜産学会 第126回大会要旨     IV-19-03  2019年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 双方向時系列情報を利用した検出結果と正解情報付与による効率的なアノテーション手法

    真殿航輝, 中野鐵兵, 小林哲則, 小川哲司

    第22回画像の認識・理解シンポジウム   PS2-5   1 - 4  2019年08月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 学習可能な暗号化画像への敵対的学習に基づく攻撃

    真殿航輝, 田中正行, 大西正輝, 小川哲司

    第22回画像の認識・理解シンポジウム   PS1-41   1 - 4  2019年08月

    担当区分:最終著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価

    樋口陽祐, 俵直弘, 小林哲則, 小川哲司

    情報処理学会研究報告 (SLP)   2019-SLP-128 ( 6 ) 1 - 6  2019年07月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 画像から得られる牛の身体情報に基づく分娩予兆検知

    兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤通報の抑制

    沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • ベイズ状態空間モデルを用いた定置網漁のための日単位漁獲量予測

    幸加木裕也, 堀内優佳, 俵直弘, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 回転機器状態監視のための振動異常検知システムにおける特徴表現学習

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    人工知能学会全国大会論文集   JSAI2019  2019年06月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

    DOI

  • 動画像から得られる牛の身体情報に基づく分娩予兆検知システム

    兵頭亮介, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 1 - 6  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • クラウドソーシングを用いた肉牛分娩開始検知システムの早期運用

    沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 7 - 12  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 網内の魚の振る舞いを表現した状態空間モデルによる定置網漁のための日単位漁獲量予測

    幸加木裕也, 俵直弘, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰, 小川哲司

    電子情報通信学会技術研究報告(PRMU)   119 ( 64 ) 13 - 18  2019年05月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 早稲田大学知覚情報システム・メディアインテリジェンス研究室紹介

    長谷川隆徳, 黒澤郁音, 斎藤奨, 松山洋一, 林良彦, 小林哲則, 小川哲司

    日本風力エネルギー学会誌   43 ( 1 ) 154 - 157  2019年05月

    担当区分:最終著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    CiNii

  • クエリ文によるゼロショット映像検索 – TRECVID 2018 AVSタスクの成果報告 –

    植木一也, 中込優, 平川幸司, 菊池康太郎, 林良彦, 小川哲司, 小林哲則

    動的画像処理実用化ワークショップ2019 (DIA2019)    2019年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 漁獲量における心理尺度と漁獲量予測器の最適化への利用

    幸加木裕也, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

    日本水産学会春季大会要旨     140  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 画像情報による黒毛和牛種の状態識別に基づいた分娩予兆検知システム

    兵頭亮介, 安田早希, 斎藤奨, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第125回大会要旨     XIII-29-10  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報による肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤検出抑制

    沖本祐典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第125回大会要旨     XIII-29-09  2019年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 音韻・話者特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて

    俵直弘, 小林哲則, 小川哲司

    日本音響学会講演論文集   2019 ( 春季 ) 1003 - 1004  2019年03月

  • ドメイン属性情報を用いたRNN言語モデルのドメイン汎化

    芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2019 ( 春季 ) 927 - 930  2019年03月

  • ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出

    樋口陽祐, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2019 ( 春季 ) 923 - 924  2019年03月

  • noise-aware学習を用いた敵対的デノイジングオートエンコーダによるポストフィルタリング

    俵直弘, 田辺ひかり, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    日本音響学会講演論文集   2019 ( 春季 ) 159 - 162  2019年03月

  • 隣接単語系列の予測による文の分散表現構成法

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会第25回年次大会発表論文集     1479 - 1482  2019年03月

  • 敵対的デノイジングオートエンコーダを用いた拡散性雑音除去

    田辺ひかり, 俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    電子情報通信学会技術研究報告(SP)   118 ( 497 ) 155 - 160  2019年03月

    CiNii

  • 隣接単語系列の予測による汎用的な文の分散表現の構成

    露木浩章, 小川哲司, 小林哲則, 林良彦

    言語処理学会年次大会発表論文集(Web)   25th  2019年

    J-GLOBAL

  • 畳み込みニューラルネットワークに基づく風車異常検知システムにおける判断根拠の可視化に関する検討

    佐伯真於, 緒方淳, 村川正宏, 小川哲司

    第40回風力エネルギー利用シンポジウム予稿集    2018年12月

  • 正常稼働状態の表現学習に基づく風車異常検知

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第40回風力エネルギー利用シンポジウム予稿集    2018年12月

  • RNN言語モデルのためのドメイン属性情報を用いたゼロショット学習

    芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    情報処理学会研究報告    2018年12月

  • 映像からの牛の分娩予兆行動検知に関する検討

    菅原一真, 中野鐵兵, 赤羽誠, 小林晢則, 小川哲司

    電子情報通信学会技術研究報告 (PRMU)   118 ( 362 ) 79 - 84  2018年12月

  • 画像からの牛の状態識別に基づく分娩予兆検知

    兵頭亮介, 安田早希, 斎藤奨, 沖本裕典, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    電子情報通信学会技術研究報告 (PRMU)   118 ( 362 ) 57 - 60  2018年12月

  • Waseda_Meisei at TRECVID 2018: Fully-automatic ad-hoc video search

    Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2018 Workshop    2018年11月

    研究発表ペーパー・要旨(国際会議)  

  • Waseda Meisei at TRECVID2018: Ad-hoc video search

    Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2018 Workshop    2018年11月

    研究発表ペーパー・要旨(国際会議)  

  • 定置網漁の日単位漁獲量予測モデリングにおける学習データ量と予測性能の関係の調査

    堀内優佳, 幸加木裕也, 小林哲則, 小川哲司

    日本水産学会秋季大会要旨    2018年09月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的デノイジングオートエンコーダによる非線形ひずみ除去フィルタリング

    俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    日本音響学会講演論文集   2018 ( 秋季 ) 159 - 162  2018年09月

  • 非線形ひずみ除去のための敵対的 denoising autoencoder

    俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

    情報処理学会研究報告   2018-SLP-123 ( 1 ) 1 - 7  2018年07月

  • 牛の分娩予兆として映像から観測可能な状態の検知

    沖本祐典, 菅原一真, 齊藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    人工知能学会全国大会論文集   JSAI2018  2018年06月

    DOI CiNii

  • AIで風車の異常を見つける:データ駆動型アプローチによる異常検知の最新動向

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    日本風力エネルギー学会誌   42 ( 1 ) 72 - 76  2018年05月  [招待有り]

    担当区分:最終著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI

  • 定置網漁における漁獲過程モデルを用いたシロサケの日単位漁獲量予測

    幸加木裕也, 俵直弘, 小林哲則, 橋本和夫, 小川哲司

    日本水産学会春季大会要旨    2018年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 映像情報を用いた分娩時の牛の状態推定

    沖本祐典, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

    日本畜産学会 第124回大会要旨    2018年03月

    担当区分:最終著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 敵対的マルチタスク学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価

    土屋平, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 9 - 12  2018年03月

  • 話者正規化における言語非依存性とゼロリソース音声認識における効果

    島田拓也, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 109 - 112  2018年03月

  • 敵対的学習に基づく話者特徴抽出

    俵直弘, 土屋平, 小川哲司, 小林哲則

    日本音響学会講演論文集   2018 ( 春季 ) 141 - 144  2018年03月

  • 異種データ活用のための変換複合行列分解

    土屋平, 岩田具治, 小川哲司

    電子情報通信学会技術研究報告 (IBISML)   117 ( 475 ) 41 - 48  2018年03月

    CiNii

  • 正常・損傷の表現学習に基づく風力発電システム異常検知技術の高度化

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第39回風力エネルギー利用シンポジウム     371 - 374  2017年12月

  • Waseda Meisei at TRECVID2017: Ad-hoc video search

    Kazuya Ueki, Koji Hirakawa, Kotara Kikuchi, Tetsuji Ogawa, Tetsunori Kobayashi

    Notebook paper of the TRECVID 2017 Workshop    2017年11月

    研究発表ペーパー・要旨(国際会議)  

  • 正常・損傷の表現学習に基づく機械振動異常検知

    長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

    第16回評価・診断に関するシンポジウム講演論文集     5 - 10  2017年11月

    DOI

  • 複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性

    芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司

    日本音響学会講演論文集   2017 ( 秋季 ) 23 - 26  2017年09月

  • ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル

    森岡幹, 俵直弘, 小川哲司, 小川厚徳, 岩田具治, 小林哲則

    日本音響学会講演論文集   2017 ( 秋季 ) 27 - 30  2017年09月

  • 会話参加状態を考慮した振る舞いをするロボットのシステムアーキテクチャ

    菅原一真, 浅野秀平, 赤川優斗, 藤江真也, 小川哲司, 小林哲則

    人工知能学会全国大会論文集   JSAI2017  2017年06月

    DOI CiNii

  • 複数人対話のためのRNN言語モデルにおける発話終端と話者情報の利用法

    芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   116 ( 477 ) 287 - 290  2017年03月

    CiNii

  • 国際会議INTERSPEECH2016参加報告

    浅見太一, 小川厚徳, 小川哲司, 大谷大和, 倉田岳人, 齋藤大輔, 塩田さやか, 篠原雄介, 鈴木雅之, 高道慎之介, 南條浩輝, 橋本佳, 樋口卓哉, 増村亮, 吉野幸一郎, 渡部晋治

    情報処理学会研究報告 (SLP)   vol.2016-SLP-115 ( 7 ) 1 - 7  2017年02月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 少量データに頑健なニューラルネットワーク言語モデル

    森岡幹, 岩田具治, 小川厚徳, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2016 ( 秋季 ) 89 - 92  2016年09月

  • 複数人対話のための話者情報を用いたRNN言語モデル

    芦川博人, 森岡幹, 小川厚徳, 岩田具治, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2016 ( 秋季 ) 85 - 88  2016年09月

  • 深層学習を用いた出現音素の偏りに頑健な話者照合手法

    佐藤洋輔, 小川哲司, 堀内靖雄, 黒岩眞吾

    電子情報通信学会総合大会講演論文集    2016年03月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 連想記憶に基づく線形分離行列推定を用いたタンデム接続型音源分離

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    日本音響学会講演論文集   2016 ( 春季 ) 21 - 24  2016年03月

  • 高次相関を考慮した音響特徴量のDNNに基づく音声認識での利用

    小川哲司, 小林哲則, 新田恒雄

    日本音響学会講演論文集   2016 ( 春季 ) 161 - 162  2016年03月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • ニューラルネットワークに基づく識別器の不確かさの推定とマルチストリーム音声認識への適用

    小川哲司, Mallidi Harish, Vesely Karel, Hermansky Hynek

    日本音響学会講演論文集   2016 ( 春季 ) 67 - 70  2016年03月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 国際会議INTERSPEECH2015参加報告

    浅見太一, 大谷大和, 小川哲司, 木下慶介, 倉田岳人, 齋藤大輔, 塩田さやか, 太刀岡勇気, 中村静, 増村亮, 渡部晋治

    情報処理学会研究報告   2016-SLP-110 ( 4 ) 1 - 5  2016年02月

  • スペクトラルクラスタリングに基づく話者クラスタリングのための因子分析法の効果の検証

    俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2015 ( 秋季 ) 173 - 174  2015年09月

  • 連想記憶に基づくブラインド音源分離のエコーキャンセリングへの応用

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    日本音響学会講演論文集   2015 ( 秋季 ) 593 - 596  2015年09月

  • 複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル

    森岡幹, 俵直弘, 小川哲司, 岩田具治, 小川厚徳, 堀貴明, 小林哲則

    日本音響学会講演論文集   2015 ( 秋季 ) 17 - 20  2015年09月

  • 国際会議ICASSP2015参加報告

    岡本拓磨, 小川哲司, 落合翼, 柏木陽佑, 亀岡弘和, 木下慶介, 郡山知樹, 齋藤大輔, 篠崎隆宏, 高木信二, 滝口哲也, 太刀岡勇気, 俵直弘, 橋本佳, 藤本雅清, 松田繁樹, 三村正人, 吉岡拓也, 渡部晋治

    情報処理学会研究報告   2015-SLP-107 ( 3 ) 1 - 7  2015年07月

  • テンソル積による基底変換に基づく音声認識に関する研究

    上田賢次郎, 小川哲司, 小林哲則, 桂田浩一, 新田恒雄

    日本音響学会講演論文集   2015 ( 春季 ) 7 - 10  2015年03月

  • 国際会議INTERSPEECH2014,SLT2014参加報告

    浅見太一, 岩野公司, 小川哲司, 駒谷和範, 齋藤大輔, 篠田浩一, 太刀岡勇気, 東中竜一郎, 福田隆, 増村亮, 渡部晋治

    情報処理学会研究報告   2015-SLP-105 ( 7 ) 1 - 6  2015年02月

     概要を見る

    2014 年 9 月 14 日から 18 日にかけシンガポールで開催された ISCA 主催の INTERSPEECH2014,及び,同年 12 月 14 日から 18 日にかけて米国レイク・タホで開催された IEEE 主催の SLT2014 に参加した.ともに,音声言語処理分野で一流の国際会議である.ここでは,海外からの発表を中心に,これらの会議における最新の技術動向,注目すべき発表について報告する.

    CiNii

  • i-vectorを用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング

    俵直弘, 小川哲司, 小林哲則

    情報処理学会研究報告   2015-SLP-105 ( 11 ) 1 - 6  2015年02月

     概要を見る

    i-vector による話者表現とスペクトラルクラスタリングを組み合わせることで,雑音に頑健な話者クラスタリングを実現する.まず,雑音を含む音声に対して話者クラスタリングを行う場合,高精度な話者特徴量として知られる i-vector を用いて発話間類似度を計算しても,話者の類似度を適切に推定できないことを実験的に明らかにする.また,この問題に対してスペクトラルクラスタリングを適用することの妥当性をグラフラプラシアンの固有ベクトルを分析することで確認する.最後に,スペクトラルクラスタリングの雑音に対する頑健性を実験的に確認するために,日本語話し言葉コーパスに様々な種類の雑音を重畳して得た音声を用いて話者クラスタリング実験を行い,クリーンな音声と同程度の精度で雑音を含む音声のクラスタリングが可能であることを明らかにする.

    CiNii

  • 連想記憶と線形分離フィルタを用いたブラインド音源分離

    大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

    情報処理学会研究報告   2015-SLP-105 ( 4 ) 1 - 6  2015年02月

     概要を見る

    連想記憶と線形分離フィルタを組み合わせることにより,歪が少ない高精度なブラインド音源分離方式を提案する.独立成分分析 (ICA) や独立ベクトル分析 (IVA) のような線形フィルタに基づく音源分離は,歪が少ないという特徴を持つ.しかしながら,ICA,IVA は,音源の独立性や非ガウス性を仮定するため,これが成立しないとき分離性能が劣化する.提案法は,線形分離フィルタの出力に最も近い無歪の音声を連想記憶を用いて求める処理と,連想記憶の出力に分離フィルタの出力が近づくよう分離フィルタの係数を補正する処理とを繰り返すことで分離音声を求める.これにより音源の独立性を仮定すること無く,歪の少ない分離音声を得ることができる.2 話者同時発話音声に対する音源分離実験の結果,提案法は IVA より分離精度を向上できることを確認した.

    CiNii

  • スペクトラルクラスタリングに基づく話者クラスタリング

    俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2014 ( 秋季 ) 95 - 98  2014年09月

  • MLPを用いた話者正準化に基づく音声認識の検討

    久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

    情報処理学会研究報告   2014-SLP-102 ( 8 ) 1 - 6  2014年07月

     概要を見る

    不特定話者音声認識システムの性能向上を目的として,低演算かつ高精度な話者正準化手法を提案する.話者正準化の代表的な手法として,声道長正規化 (Vocal Tract Length Normalization; VTLN) が広く用いられているが,計算量および表現能力の 2 つの観点で改善の余地がある.まず最適なワーピングパラメータを推定する際に,用意したパラメータ数だけ同時に音声認識を行う必要があるため,計算量が多くなる.また,VTLN は一つの発話内において同じパラメータで線形変換を実現している.しかし,最適な写像関数は音素ごとに異なると言われており,表現能力に改善の余地がある.そこで,本報告では多層パーセプトロン (Multi Layer Perceptoron; MLP) を用いた話者正準化手法を提案する.MLP は,任意話者の母音スペクトルを標準話者の母音スペクトルへ写像する関数を学習する.提案法は,(1) 認識時にパラメータを推定する必要がない (2)MLP により発話内で音素ごとに非線形な写像関数を実現させることができるという点で VTLN よりも優れる.しかしながら,スペクトルの低域および高域において歪が生じ,認識性能が低下する.この問題を解決するために,MLP による写像後のスペクトルと入力スペクトルの周波数重み付けを行う.不特定話者連続数字認識実験による評価では,提案法が VTLN と比較し 1.6% 性能を改善することを示す.Accurate and efficient speaker canonicalization is proposed to improve the performance of speaker-independent ASR systems. Vocal tract length normalization (VTLN) is often applied to speaker canonicalization in ASR; however, it requires parallel decoding of speech when estimating the optimal warping parameter. In addition, VTLN provides the same linear spectral transformation in an utterance, although optimal mapping functions differ among phonemes. In this study, we propose a novel speaker canonicalization using multilayer perceptron (MLP) that is trained with a data set of vowels to map an input spectrum to the output spectrum of a standard speaker or a canonical speaker. The proposed speaker canonicalization operates according to the integration of MLP-based mapping and identity mapping that depends on frequency bands and achieves accurate recognition without any tuning of mapping function during run-time. Results of experiments conducted with a continuous digit recognition task showed that the proposed method reduces the intra-class variability in both of the vowel and consonant parts and outperforms VTLN.

    CiNii

  • i-vectorを用いた話者認識

    小川 哲司, 塩田 さやか

    日本音響学会誌   70 ( 6 ) 332 - 339  2014年06月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI CiNii J-GLOBAL

  • 標準話者母音スペクトルへの変換に基づく話者正準化

    久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

    日本音響学会講演論文集   2014 ( 春季 ) 77 - 78  2014年03月

  • 因子分析モデルに基づく話者照合の環境変動に対する頑健性の調査

    福地佑介, 俵直弘, 小川哲司, 小林哲則

    日本音響学会講演論文集   2013 ( 秋季 ) 75 - 78  2013年09月

  • 話者認識で用いる機械学習

    小川 哲司, 松井 知子

    日本音響学会誌   69 ( 7 ) 349 - 356  2013年07月

    CiNii

  • 効率的なサンプリング手法を用いた話者モデリング

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    情報処理学会研究報告   2013-SLP-97 ( 2 ) 1 - 8  2013年07月

     概要を見る

    多重スケール混合分布 (Multi-scale mixture model) を推定するための効率的なサンプリング手法を提案する.多重スケール混合分布は,混合分布を要素分布として持つ混合モデルで,本稿では,要素分布として混合ガウス分布 (Gaussian mixture model: GMM) を導入したモデルを扱う.複数の話者が発話した音声データの集合に対して本モデルを適用した場合,発話のような数十フレーム程度の比較的短いスケールで観測される話者内変動は,各要素 GMM により表現される.一方で,異なる話者の発話間に含まれ,比較的長いスケールで観測される話者間変動は,多重スケール混合分布全体により表現される.このような階層構造を持つ複雑な分布のモデル構造推定問題では,マルコフ連鎖モンテカルロ (Markov chain Monte Carlo: MCMC) 法のような確率論的アプローチに基づくモデル推定の枠組みが有効である.しかし,ギブスサンプリングのような単純な MCMC 法をそのまま適用した場合,本来は階層構造を持つべき長時間スケールの構造と短時間スケールの構造が,どちらも対等にサンプリングされるため,繰り返しを含むモデル推定の過程で,容易に局所解に陥ってしまう.そこで,本研究では,blocked ギブスサンプリングに類する手法を導入することで,モデルの階層構造を考慮できるサンプリング手法を提案する.このとき,Iterative conditional modes (ICM) アルゴリズムを導入し,一部のサンプリングプロセスを決定論的な枠組みに置き換えることにより,全ての分布がひとつの分布に縮退してしまう病的な解が選ばれる現象を回避できることを示す.非定常なノイズを重畳した評価セットに対する話者クラスタリング実験により,提案するサンプリング法に基づく構造推定手法が,従来のサンプリング手法や変分ベイズ法に基づく構造推定手法よりも,高い精度でクラスタリング出来ることを示した.

    CiNii

  • 話者認識で用いる機械学習

    小川哲司, 松井知子

    日本音響学会誌   69 ( 7 ) 349 - 356  2013年07月  [招待有り]

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI

  • 指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討

    大町基, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2013 ( 春季 ) 937 - 940  2013年03月

  • 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識

    小川哲司, Li Feipeng, Hermansky Hynek

    日本音響学会講演論文集   2013 ( 春季 ) 167 - 170  2013年03月

  • 話者認識技術の現状と課題

    網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, 王龍標

    電子情報通信学会技術研究報告 (SP)   112 ( 450 ) 63 - 70  2013年02月  [招待有り]

     概要を見る

    話者認識は、音声からその発話者を認識する技術であり、30年以上の歴史がある。近年のセキュリティ意識の高まりとともに、その重要性が改めて認識され、その研究も盛り上がりを見せている。本稿では、パネルディスカッションに臨むに際し、話者認識技術の現状と今後の課題について概観する。特に、国際的な研究動向、機械学習を用いるアプローチ、環境の違いに対する頑健性、法科学分野における応用について、その最新の動向と今後の予想される展開について述べる。(篠田)

    CiNii

  • クラウド時代の新しい音声研究パラダイム

    秋葉友良, 岩野公司, 緒方淳, 小川哲司, 小野順貴, 篠崎隆宏, 篠田浩一, 南條浩輝, 西崎博光, 西田昌史, 西村竜一, 原直, 堀貴明

    情報処理学会研究報告   2012-SLP-92 ( 4 ) 1 - 7  2012年07月

     概要を見る

    個人が複数の携帯情報端末を所有し,そこで得られたあらゆる音声データをクラウドに蓄積することが容易になりつつある.このように音声情報処理の周辺環境・技術が激変していく中で,音声情報処理技術のより一層の高度化が求められている.その期待に応えるためには,クラウド処理を前提とした音声研究プラットフォームの構築と,それを基盤とした新しい音声研究のパラダイムが必要である.本稿では,現在までに培われてきた音声情報処理技術を概観した上で,新しい研究パラダイムの方向性とそこで生じる新たな課題について議論する.Recently most individuals have come to use mobile information devices, and daily upload the information obtained by such devices to Internet Cloud. Accordingly the applications of speech information processing have been changing drastically. We need to create a new paradigm for the research and development of speech information processing to adapt to this change. In this paper, we summarize the state-of-the-art speech technologies, propose how to create a research platform for this new paradigm, and discuss the problems we should solve to realize it.

    CiNii

  • i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用

    福地佑介, 俵直弘, 小川哲司, 小林哲則

    情報処理学会研究報告   2012-SLP-92 ( 8 ) 1 - 6  2012年07月

     概要を見る

    高精度な話者表現とクラスタリングアルゴリズムを統合した新たな話者クラスタリング手法を提案する.従来用いられる話者クラスタリング手法では,データ量が多くなると正確なクラスタリングが困難になるという問題があった.そのような条件下において正確な話者クラスタリングを実現するためには,音響変動に対して頑健なモデルにより話者を表現し,このモデルを用いて各発話を効率的にクラスタリングする手法が必要となる.そこで提案手法では,話者照合の分野で高い精度を達成しているi-vectorを話者の表現として用い,クラスタリング手法として非負値行列分解に基づいた効率的なクラスタリング手法を導入した.本手法の有効性を示すために,CSJデータを用いた話者クラスタリング実験を行い,従来手法と比較して,提案手法が発話データ量の変化に対し頑健に話者クラスタリングが行えることを確認した.We have developed a novel speaker clustering method by integrating highly accurate speaker representation and a clustering algorithm. The conventional method caused significant degradation in clustering accuracy when the number of utterances increased. High-accuracy speaker representation and high-performance clustering method are required to realize robust speaker clustering system against such a condition. For this purpose, we used i-vectors for the speaker representation, which contributes to the realization of high-accuracy speaker verification systems, and efficient non-negative matrix factorization for the clustering algorithm. Experimental results show that the proposed method outperforms the conventional methods, irrespective of the amount of data.

    CiNii

  • 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    日本音響学会講演論文集   2012 ( 春季 ) 207 - 210  2012年03月

  • 話者照合における因子分析に基づく特徴抽出に関する評価

    小川哲司, 小林哲則

    日本音響学会講演論文集   2012 ( 春季 ) 197 - 198  2012年03月

  • 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング

    俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

    電子情報通信学会技術研究報告(IBISML)   111 ( 480 ) 21 - 28  2012年03月

     概要を見る

    階層的構造を持つフルベイズ発話生成モデルを定式化し,このモデルの構造を推定することで,複数人により発話された音声データに対して,話者クラスタリングと話者数の推定を同時に行う手法を提案する.提案手法では,話者の分布として混合ガウス分布を導入し,これら話者分布を混合要素として持つ階層的な混合モデルとして発話生成モデルを定式化する.このとき,このモデルの厳密な推定は困難であるが,サンプリングに基づいた手法を導入することで近似的に推定できることを示す.提案モデルを用いることにより,従来手法では良好な性能が得られなかった話者ごとに発話数が大きく異なるデータに対して,頑健なクラスタリングが行えることを示す.

    CiNii

  • 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価

    俵直弘, 渡部晋治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 175 - 178  2011年09月

  • Modified LSD 最小化に基づく空間フィルタキャリブレーション

    田中信秋, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 33 - 36  2011年09月

  • クラス内変動に頑健なカーネルマシンと話者照合への適用

    小川哲司, 日野英逸, 村田昇, 小林哲則

    日本音響学会講演論文集   2011 ( 秋季 ) 183 - 186  2011年09月

    担当区分:筆頭著者, 責任著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合

    小川哲司, 日野英逸, 村田昇, 小林哲則

    情報処理学会研究報告   2011-SLP-87 ( 3 ) 1 - 6  2011年07月

     概要を見る

    話者内変動に頑健な話者照合システムについて検討を行った.発話スタイルや発話時期の違いなどの影響で,同一話者の音声であっても音響的な変動が生じる.このような音響変動は,一般的に話者照合システムの性能を劣化させることが知られている.この問題を解決するため,条件付きエントロピー最小化という,同一クラスのデータを密集させ,かつ異なるクラスのデータを互いに遠ざける性質を持つ最適化基準を用いてマルチカーネル学習を行い,話者照合システムを構築することを試みた.話者照合実験の結果,提案システムは,従来のマージン最大化に基づき構築したシステムと比較して,発話スタイル変動に起因する話者クラス内での音響特徴変動に対して頑健な性能を与えた.We developed a new speaker verification system that is robust to intra-speaker variation. There is a strong likelihood that intra-speaker variations will occur due to changes in speaking styles, the periods when an individual speaks, and so on. It is well known that such variation generally degrades the performance of speaker verification systems. To solve this problem, we applied multiple kernel learning based on conditional entropy minimization, which impose the data to be compactly aggregated for each class and ensure that the different classes were far apart from each other, to speaker verification. Experimental results showed that the proposed speaker verification system achieved a robust performance to intra-speaker variation derived from changes in the speaking styles compared to the conventional maximum margin-based system.

    CiNii

  • 発話を単位としたディリクレ過程混合モデルに基づく話者クラスタリング

    俵直弘, 渡部晋治, 小川哲司, 小林哲則

    日本音響学会講演論文集   2011 ( 春季 ) 41 - 44  2011年03月

  • マルチカーネル学習を用いた話者認識における最適化の検討 (音声)

    小川 哲司, 日野 英逸, Reyhani Nima

    電子情報通信学会技術研究報告   110 ( 357 ) 153 - 158  2010年12月

    CiNii

  • マルチカーネル学習を用いた話者認識における最適化の検討

    小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

    情報処理学会研究報告   2010-SLP-84 ( 27 ) 1 - 6  2010年12月

    CiNii

  • 正方形マイクロホンアレイによる音源分離技術

    矢頭隆, 森戸誠, 山田圭, 小川哲司

    情報処理   51 ( 11 ) 1410 - 1416  2010年11月

    担当区分:最終著者

    記事・総説・解説・論説等(学術雑誌)  

    CiNii

  • シャッタが切り取る世界(ちょっとしたエッセイ)

    小川哲司

    日本音響学会誌   66 ( 10 ) 528 - 528  2010年10月

    担当区分:筆頭著者, 責任著者

    記事・総説・解説・論説等(学術雑誌)  

    DOI CiNii

  • 情報論的な最適化に基づくマルチカーネル学習を用いた話者認識

    小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

    日本音響学会講演論文集   2010 ( 秋季 ) 81 - 84  2010年09月

  • 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

    田村, 哲嗣, 宮島, 千代美, 北岡, 教英, 武田, 一哉, 山田, 武志, 滝口, 哲也, 柘植, 覚, 山本, 一公, 西浦, 敬信, 中山, 雅人, 傳田, 遊亀, 藤本, 雅清, 松田, 繁樹, 小川, 哲司, 黒岩, 眞吾, 中村, 哲

    情報処理学会研究報告. SLP, 音声言語情報処理   2010 ( 7 ) 1 - 6  2010年07月

     概要を見る

    本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った.

    CiNii

  • 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

    田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

    情報処理学会研究報告   2010-SLP-82 ( 7 ) 1 - 6  2010年07月

    CiNii

  • CENSREC-1-AV: マルチモーダル音声認識コーパスの構築

    田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

    日本音響学会講演論文集   2010 ( 春季 ) 219 - 220  2010年03月

  • 会話ロボットとその聴覚機能

    藤江真也, 小川哲司, 小林哲則

    日本ロボット学会誌   28 ( 1 ) 23 - 26  2010年01月

    記事・総説・解説・論説等(学術雑誌)  

    DOI CiNii

  • ロボット頭頂部に設置した小型正方形マイクロホンアレイによる音源定位

    細谷耕佑, 小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 775 - 778  2009年09月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 音声認識利用者の発声方法誘導を行うエキスパートシステムの実装と評価

    網田康裕, 中野鐵兵, 小川哲司, 菊池英明, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 229 - 230  2009年09月

  • ゾーン強調型ビームフォーマの構築

    田中信秋, 細谷耕佑, 小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 153 - 154  2009年09月

  • ロンバード発声音声コーパスの設計と評価

    小川哲司, 川野弘, 西浦敬信, 山田武志, 北岡教英, 小林哲則

    日本音響学会講演論文集   2009 ( 秋季 ) 141 - 144  2009年09月

  • 連続円動作の認識に基づくメニュー項目の選択法

    橋口拓弥, 藤江真也, 小川哲司, 中野鐵兵, 小林哲則

    画像の理解・認識シンポジウム(MIRU2009)予稿集   IS3-70   1846 - 1850  2009年07月

  • 騒音下音声認識システム評価におけるロンバード効果の影響の検証−ロンバード発声適応モデルを用いた評価−

    小川哲司, 小林哲則

    日本音響学会講演論文集   2009 ( 春季 ) 175 - 176  2009年03月

  • ロボットのためのハンズフリー音声認識システム

    細谷耕介, 小川哲司, 藤江真也, 渡辺大地, 市川悠飛, 谷山輝, 小林哲則

    情報処理学会研究報告   2008-SLP-74 ( 123 ) 7 - 12  2008年12月

     概要を見る

    自律移動型ロボットに適した音源分離方式を開発し,対話ロボットにおけるハンズフリー音声認識システムの前処理として適用した.提案する音源分離方式は,対話相手の発話音声に加えてマイクロホンに混入する指向性雑音,拡散性雑音,ロボット動作音,ロボットの自発話といった多様な雑音を同時に除去可能な枠組である.本研究では,この枠組を,ロボット頭部に設置した超小型無指向性マイクロホンを用い,低計算コストのアルゴリズムで実現する.ロボットとの対話において,対話相手はロボットの正面にいることが多いため,提案手法はロボットの正面方向からの音声のみを抽出する枠組となっている.このような,ロボットとの対話という場面において妥当な制約を設けることで,低計算コストの雑音抑圧処理を実現することが可能となる.また,対話相手がロボットの正面方向から移動した場合にも対処するため,ロボットの目に設置したカメラから得られる画像`情報を用いて,対話相手の顔を検出,追跡する枠組を構築し,音源定位として利用する.このように,画像情報を併用できるというロボットの利点を活かすことで,多様な雑音を実時間で高精度に抑圧することが可能となること,および得られた雑音抑圧後の音声を認識に用いることで,実環境においてハンズフリー音声対話システムが良好に動作することを確認した.A new type of noise reduction method suitable for autonomous mobile robots is proposed and applied to pre-processing of a hands-free spoken dialogue system. The proposed method can reduce various kinds of noise such as directional noise, diffuse noise, moving noise of the robot, and speech utterance from the robot, which are mixed with the target speech for the case in which people talk with the robot, by using small and light-weighted devices and low-computational-cost algorithms. Here, we assume that the people talking with the robot is in the front of the robot, and thus the proposed method aims at extracting speech signals coming from the frontal direction of the robot. In addition, for the case in which the people moves from the front of the robot, the sound source can be localized by face detection and tracking using facial images obtained from a camera mounted on eyes of the robot. By taking advantage of the robot, which can combine speech information with image information, real-time reduction of the various noise can be achieved, and thus the hands-free spoken dialogue system can work well in real environments.

    CiNii

  • 雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境(3)

    北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

    情報処理学会研究報告   2008-SLP-73 ( 102 ) 41 - 46  2008年10月

     概要を見る

    我々雑音下音声認識評価ワーキンググループは,2001 年 10 月から情報処理学会音声言語情報処理研究会の下に組織され,数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤 CENSREC シリーズの開発・配布を行ってきた.本稿ではその CENSREC シリーズを概観し,また主な音声認識研究の発表の場である日本音響学会全国大会および IEEE ICASSP の発表件数調査を踏まえて,その位置づけを確認する.最後に,今後の展望について述べる.We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.

    CiNii

  • HMMの尤度パターンを利用したリスコアリングにおける次元圧縮法の検討

    小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   108 ( 142 ) 73 - 78  2008年07月

     概要を見る

    HMMの尤度パターンを特徴量として用いたリスコアリングにおける,特徴ベクトルの次元圧縮手法について検討を行う.単語のように長い時間構造を持つ確率モデルが,同様に長い時間構造を持つ単語発話に対して与える尤度は,音韻的に類似する単語クラスに属するデータに対しても識別的なパターンを示す.この性質は,単語モデルを用いて計算される単語発話の尤度パターンを特徴量として用いたリスコアリングにおいて,誤り易い単語同士の識別性能の向上に寄与する.しかし,この枠組は,単語モデルが与える尤度のパターンを特徴ベクトルとして用いていることから,特徴ベクトルの次元数が語彙数と一致する.そのため,特に大語彙を扱う音声認識タスクにおいては,特徴ベクトルの次元数が膨大になるという問題がある.そこで本稿では,認識語彙のうち識別に寄与する単語クラスのみを選択し,得られたクラスに対する尤度のみを用いて特徴ベクトルを構成することで,尤度特徴ベクトルの次元数を削減することを試みる.このように次元圧縮を行った尤度特徴空間上における静的なパターン認識を,単語音声認識システムのリスコアリングに適用したところ,学習データが比較的少量の場合において,次元圧縮を行わないシステムの認識性能を劣化させることなく,かつ従来のHMMを上回る性能を与えることがわかった.

    CiNii

  • HMM における尤度パターンの非対称性を利用した音声認識

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2008 ( 春季 ) 209 - 212  2008年03月

  • ロボット頭部に設置した4系統小型無指向性マイクロホンによるハンズフリー音声認識

    竹内寛史, 高田晋太郎, 小川哲司, 赤桐健三, 小林哲則, 森戸誠

    日本音響学会講演論文集   2008 ( 春季 ) 155 - 158  2008年03月

  • 残響下音声認識評価基盤(CENSREC-4)の構築

    西浦敬信, 中山雅人, 傳田遊亀, 北岡教英, 山本一公, 山田武志, 藤本雅清, 柘植覚, 宮島千代美, 滝口哲也, 田村哲嗣, 小川哲司, 松田繁樹, 黒岩眞吾, 武田一哉, 中村哲

    日本音響学会講演論文集   2008 ( 春季 ) 175 - 178  2008年03月

  • 雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境(2)

    北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

    情報処理学会研究報告   2007-SLP-69   1 - 6  2007年12月

    CiNii

  • 指向性雑音と拡散性雑音の混在する環境を対象とした携帯端末向け音声強調の検討

    高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 743 - 746  2007年09月

  • テンプレート群からの確率的距離を用いた階層的音声認識の検討

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 147 - 150  2007年09月

  • シミュレーションに基づく騒音下音声認識システム評価におけるロンバード効果の影響の検証−複数の認識タスク,騒音レベルに対する評価−

    小川哲司, 倉持公壮, 小林哲則

    日本音響学会講演論文集   2007 ( 秋季 ) 195 - 198  2007年09月

  • マクロな時間構造を持つテンプレート群からの確率的距離を用いた階層型音声認識

    加藤健一, 小川哲司, 小林哲則

    電子情報通信学会技術研究報告 (SP)   107 ( 116 ) 79 - 84  2007年06月

     概要を見る

    前段においてマクロな時間構造を含むテンプレート群からの確率的距離を求め,これを特徴ベクトルとして静的な識別を後段で行う,階層的な単語音声認識手法を提案する.ほとんどの音声認識システムでは,スペクトルに基づく特徴量の時系列を用いて,カテゴリごとに統計モデルを生成し,最も高い尤度を与えたものを入力データのカテゴリと推定する.ここで,出力される各カテゴリに対する尤度は,学習データの種類や量,確率モデルの構造によって特徴づけられる.そのため,識別器は固有の誤り傾向を持つ.識別対象である単語カテゴリの確率モデルをテンプレートと呼ぶと,テンプレート群に対する確率的距離(尤度)は,単語カテゴリごとに安定したパターンを示す.本稿では,このような単語テンプレートからの確率的距離を特徴量として用いて階層的に単語音声認識を行うことで,最尤識別の枠組での誤りを削減できることを示す.孤立単語音声認識実験により提案手法の有効性を評価したところ,従来のMFCCを特徴量としたHMMに基づく方法に比べ,誤りを79%削減した.

    CiNii

  • 重み付きHLDA を用いた相補的識別器の構成

    加藤健一, 小川哲司, 小林哲則

    日本音響学会講演論文集   2007 ( 春季 ) 39 - 40  2007年03月

  • 空間フィルタとポストフィルタを用いた背景雑音抑圧

    高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2007 ( 春季 ) 575 - 576  2007年03月

  • プロキシエージェントアーキテクチャによる音声認識アプリケーション用ユーザモニタリング機能の効率化

    中野鐵兵, 梅本暁, 藤江真也, 小川哲司, 小林哲則

    情報処理学会研究報告 (SLP)   2006-SLP-65   23 - 28  2007年02月

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合

    加藤 健一, 小川 哲司, 小林 哲則

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   106 ( 442 ) 25 - 30  2006年12月

    CiNii

  • 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合

    加藤健一, 小川哲司, 小林哲則

    情報処理学会研究報告   2006 ( 136 (SLP-64) ) 203 - 208  2006年12月

     概要を見る

    本稿では、特徴変換にブースティングの枠組を適用した識別器統合手法を提案する。一般的に、複数の識別器を統合するとき、識別性能は向上することが期待できる。しかし、識別器の統合にあたって、二つの重要な課題がある。一点目は、統合する識別器各々の誤り傾向が異なっていなければ(相補性がなければ)、わずかな性能の改善しか得られない点、二点目は、相補的な識別器が生成されたとしても、各々の識別器が与える情報の統合手法が適切でない場合、やはりわずかな性能の向上しか得られないという点である。そこで本稿では、上述した二点を考慮した上で、相補的な識別器の生成手法と、その統合手法について検討を行う。相補的な識別器を生成するにあたっては、Heteroscedastic linear discriminant analysis (HLDA) に基づく特徴変換の過程でブースティングの枠組を適用した。また、統合においては、各々の識別器から出力される尤度の情報を特徴ベクトルとし、このベクトルが張る空間上で Support vector machine (SVM) に基づくパターン認識を行った。提案手法により識別器を統合することで、孤立単語音声認識実験において、統合前と比較し74%の誤りが削減されることがわかった。A framework of system combination using boosting in a feature transformation is proposed. In general, the combination of multiple classifiers improves the classification performance of each classifier. However, there are two important issues in such a system combination. First, the classification performance is not necessarily improved if the classifiers are not complementary. Second, an inappropriate combination makes the performance worse even if the complementary classifiers can be obtained. In this paper, we attempt to solve how to generate and how to combine the complementary classifiers. Aiming at generating the complementary classifiers, the boosting was applied in HLDA based feature transformation. At the combination stage, a pattern recognition using support vector machine was performed, in which a pair of the likelihoods emitted by the classifiers of the first stage was used as a feature parameter. Experimental results showed the effectiveness of proposed method: it reduced the errors by 74% compared to the case without any system combination.

    CiNii

  • 少数のマイクロホンを用いた携帯端末向け音源分離

    高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 493 - 494  2006年09月

  • 時間連続性を利用した音源分離処理の高精度化

    勘場智之, 小川哲司, 赤桐健三, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 491 - 492  2006年09月

  • シミュレーションに基づく騒音環境下音声認識におけるロンバード効果の 影響

    小川哲司, 勘場智之, 小林哲則

    日本音響学会講演論文集   2006 ( 秋季 ) 101 - 102  2006年09月

  • シミュレーションに基づく音声認識システム評価の妥当性の検証

    小川哲司, 勘場智之, 小林哲則

    電子情報通信学会技術研究報告 (SP)   106 ( 123 ) 1 - 6  2006年06月

     概要を見る

    本稿では,雑音環境下音声認識におけるシミュレーションに基づく評価の妥当性について検討を行う.様々な環境下で音声認識を利用したアプリケーションを動作させることを考えるとき,全ての環境下でテストデータを収集し認識器の性能を評価することは,膨大な作業が必要となり現実的ではない.この様な評価を効率よく行うためには,比較的少量のテストデータを収集し,これに評価環境での伝達特性を畳み込むなどして評価環境でのテストデータを生成し,対象となる環境下での評価実験をシミュレートすることが有望視されている.しかしながら,そのようなシミュレーションが実際の環境下での実験を正確に模擬したことになっているかどうかは,必ずしも明確ではない.本稿では,特に雑音下においてはロンバード効果と呼ばれる現象のため声が変形することを考慮した上で,シミュレーションを良好に行うための条件を明らかにする.

    CiNii

  • 減算型アレイ処理とスペクトラルサブトラクションを用いた音源分離技術とその携帯電話への応用

    高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

    電子情報通信学会技術研究報告 (SP)   106 ( 123 ) 7 - 12  2006年06月

     概要を見る

    3チャンネルの無指向性マイクロホンによる減算型アレイ処理とスペクトラルサブトラクションを組み合わせた音源分離技術を提案し,騒音や雑音環境化での使用を前提とした携帯電話やPDA等の小型端末に適用することを試みる.携帯電話等への応用を考えた場合,少数のマイクロホンとコンパクトなマイク配置,低い計算コストが求められるが,その上で広範囲から到来する妨害音を除去する必要がある。本稿では,実際に携帯電話にマイクロホンを設置し,2話者同時発話に対する音源分離および,その分離音声に対する音声認識を行った.提案する音源分離手法により,PESQに基づくMOS値による評価では約1ポイントの向上が見られ,音声認識による評価では約80%の単語正解精度が得られた.

    CiNii

  • ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0522   89 - 94  2005年10月

    CiNii

  • BSSとスペクトラルサブトラクションの多段処理による音源分離

    伊佐崇, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 秋季 ) 705 - 706  2005年09月

  • ロボット頭部に設置した4系統指向性マイクロホンによる音源定位におけるHLDA利用の効果

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 秋季 ) 717 - 718  2005年09月

  • An extension of the state-observation dependency in Partly Hidden Markov Models and its application to continuous speech recognition

    Tetsuji Ogawa, Tetsunori Kobayashi

    Systems and Computers in Japan   36 ( 8 ) 31 - 39  2005年07月

     概要を見る

    We extend the state-observation dependencies in a Partly Hidden Markov Model (PHMM) and apply this model to continuous speech recognition. In a PHMM the observations and state transitions are dependent on a series of hidden and observable states. In the standard formulation of a PHMM, the observations and state transitions are conditioned on the same hidden state and observable state variables. Here we also condition the observations and state transitions on the same hidden states but condition the observations and state transitions on different observation states, respectively. This simple improvement to the model gives it significant flexibility allowing it to model stochastic processes more precisely. In addition, by integrating the PHMM containing this extended state-observation dependency with a standard HMM we can construct a stochastic model that we call a Smoothed Partly Hidden Markov Model (SPHMM). Results of continuous speech recognition on a newspaper read-speech have shown reductions of 10 and 24% in the error rate using the PHMM and SPHMM, respectively, compared to a standard HMM thereby displaying the effectiveness of the proposed models. © 2005 Wiley Periodicals, Inc.

    DOI

  • 識別的基準と遺伝的アルゴリズムに基づく隠れ部分マルコフモデルの構造の最適化

    小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 132 ) 37 - 42  2005年06月

     概要を見る

    複雑な特徴量の時間変化を音響モデルによって扱うことを目的として, 部分隠れマルコフモデル(PHMM)を提案し, 新聞読み上げ音声を対象とした連続音声認識においてその有効性を確認してきた.PHMMは出力確率と遷移確率双方に前出力依存性を有した確率モデルであるが, これまでの枠組みでは, その構造は全てのカテゴリで共通なものを用いてきた.そこで本稿では, 重みつき尤度比最大基準に基づき, PHMMにおける状態と出力間の依存構造を, カテゴリ毎に最適に選択することを試みる.重みつき尤度比最大化基準は識別的な評価尺度であるため, この基準によって推定されたモデル構造は, 結果として正解カテゴリと不正解カテゴリに対して高い識別能力を有する.ここでは, 全てのカテゴリに対して取り得るモデル構造の組み合わせの中から, 最大の重みつき尤度比を与える構造の組み合わせを最適なモデル構造と定義し, 探索の最適な近似として遺伝的アルゴリズムを適用することを試みる.また, 学会講演音声を対象とした連続音声認識実験によって, 提案するモデル構造選択手法の有効性を評価したところ, HMMや, 構造を全てのカテゴリで共通としたPHMMの誤りを削減した.

    CiNii

  • 参照信号によるパーミュテーション問題解決とSMDPの統合による周波数領域BSSの性能向上

    伊佐崇, 関矢俊之, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 133 ) 31 - 36  2005年06月

     概要を見る

    本論文では周波数領域BSS固有の問題であるパーミュテーション問題を解決する手法を提案する.さらに, 周波数領域BSSとSMDP (Segregation using Multiple Directivity Patterns)を統合して音源分離を行う手法を提案する.パーミュテーション問題は, 各周波数において分離信号と参照信号とのスペクトルエンベロープの相関を計算することによって解決する.参照信号はBSSとは別の処理によって, 目的信号に対応するような分離信号として作られ, 分離が十分に行われている必要はない.パーミュテーション問題を参照信号によって解決し, 得られる複数の指向特性から, 音源スペクトルの振幅に関する連立方程式を立てる.その解として音源スペクトルを推定し, 推定された妨害音源スペクトルをSpectral Subtractionにより除去して音源分離を行う.音源数既知の条件下で連続音声認識実験を行った結果, 周波数領域BSSのみの手法と比較して30%のエラー削減率が得られた.

    CiNii

  • マイク間のスペクトル強度比を利用した音源定位におけるHLDA利用の効果

    久保俊明, 持木南生也, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   105 ( 133 ) 37 - 42  2005年06月

     概要を見る

    Heteroscedastic LDA (HLDA)を利用することで, 異なる環境に対してロバストな音源定位手法を提案する.我々はこれまでにマイクロホン間のスペクトル強度比を特徴量とした統計的パターン認識の手法を用いることで, 厳密な頭部伝達関数を必要としない音源定位手法を提案してきた.このような方法においては, 学習環境と実際の動作環境との差異が問題となる.この差を補正するために, 動作環境で得られた数方位からの少量のデータを用いて, MLLRによりモデルの適応を行うことにより, 誤りを削減することが可能である.しかしロボットが移動することで環境が随時変動し, その度に適応を行なうことは困難である.そこでHLDAを利用して特徴量から残響などの環境情報を削除し, 識別に寄与する情報のみを抽出することで, 環境が異なる場合にもロバストな認識を試みる.音源定位実験により本手法の有効性を実現した.

    CiNii

  • ロボット頭部に設置した4系統指向性マイクロホンによる音源定位

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 春季 ) 609 - 610  2005年03月

  • 重み付き尤度比最大基準に基づく部分隠れマルコフモデルの構造の最適化

    小川哲司, 小林哲則

    日本音響学会講演論文集   2005 ( 春季 ) 131 - 132  2005年03月

  • ロボット頭部に設置した4系統指向性マイクロフォンによる音源定位および混合音声認識

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0420-4   21 - 27  2004年12月

  • 複数の指向特性を利用した音源分離における音源定位との統合

    関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 秋季 ) 617 - 618  2004年10月

  • 雑音環境下における階層的音源分離の評価

    関矢俊之, 澤田知寛, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 春季 ) 99 - 100  2004年03月

  • ロボット頭部に設置した4系統指向性マイクロホンによる混合音声認識

    持木南生也, 関矢俊之, 小川哲司, 小林哲則

    日本音響学会講演論文集   2004 ( 春季 ) 95 - 96  2004年03月

  • 階層的音源分離に基づく混合音声の認識

    澤田知寛, 関矢俊之, 小川哲司, 小林哲則

    人工知能学会研究会資料   SIG-Challenge-0318-5   27 - 32  2003年11月

  • マイクロフォンアレーを用いた混合音声認識

    関矢俊之, 小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   103 ( 93 ) 13 - 18  2003年05月

     概要を見る

    複数話者の同時発話音声の認識は,実環境下で音声認識を行う際に解決しなければならない重要な課題である.本稿では,複数の指向特性を持つマイクロフォンアレーの出力比較に基づいて,所望音声の帯域選択を行い音源を分離する手法を提案するとともに,これを用いて2話者の同時発話音声の認識を試みる.本方式では,高精度な周波数解析が必要となる.ここでは,一般化調和解析(GHA)の適用によりこの問題の解決を試みる.また本方式においては,分離時に独特のスペクトル変形が生じる.ここでは,MLLRによる音響モデルの適応と音響モデルの再学習によりスペクトル変形を吸収し,認識性能の向上を試みる.その結果,SNR 0 dBの条件下で単語正解精度にして最高76.2%を達成することができた.これは,アレー処理のみの場合に比べて45%,アレー処理と帯域選択を併用した場合に比べて30%のエラー削減率である.

    CiNii

  • SAFIAによる同時発話音声の認識

    関矢俊之, 芹沢新, 小川哲司, 小林哲則

    日本音響学会講演論文集   2003 ( 春季 ) 19 - 20  2003年03月

  • 部分隠れマルコフモデルの拡張と連続音声認識による評価

    小川哲司, 小林哲則

    日本音響学会講演論文集   2002 ( 秋季 ) 51 - 52  2002年09月

  • 部分隠れマルコフモデルによる連続音声認識

    小川哲司, 小林哲則

    電子情報信学会技術研究報告 (SP)   102 ( 159 ) 25 - 30  2002年06月

     概要を見る

    部分隠れマルコフモデル(Partly-Hidden Markov Model;PHMM)における状態と出力の依存関係を一般化し,連続音声認識に適用した.従来のPHMMにおいては,出力確率と状態遷移確率を決定するための隠れ状態と観測可能な状態の組は共通なものを用いていた.ここでは,出力確率と状態遷移確率を決定するにあたり,隠れ状態に関しては共通のものを使い,観測可能な状態に関しては,出力の決定と,状態遷移の決定に異なるものを利用することを考える.このような簡単な改良により大きな自由度が与えられ,より精度の高い確率過程のモデルを実現できる。連続音声認識実験の結果,PHMMはトライフォンHMMに比べ19%の誤認識率を改善できることが示された。

    CiNii

  • 複数の話者依存モデルを用いた話者空間表現に基づく話者適応

    牛久祐輔, 小川哲司, 小林哲則

    日本音響学会講演論文集   2001 ( 秋季 ) 129 - 130  2001年10月

  • 音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化

    小川哲司, 小林哲則

    日本音響学会講演論文集   2000 ( 秋季 ) 19 - 20  2000年09月

  • 部分隠れマルコフモデルにおける状態・出力依存関係の一般化

    小川哲司, 古山純子, 小林哲則

    日本音響学会講演論文集   2000 ( 春季 ) 155 - 156  2000年03月

▼全件表示

産業財産権

  • 学習装置、音声認識装置、学習方法、および、学習プログラム

    小川 哲司, 小林 哲則, 樋口 陽祐

    特許権

  • 照合装置、照合方法、および、照合プログラム

    小川 哲司

    特許権

  • 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置

    小川 哲司, 俵 直弘

    特許権

  • 予兆検知システムおよびプログラム

    小川 哲司, 小林 哲則, 沖本 祐典

    特許権

  • 制御状態監視システムおよびプログラム

    小川 哲司, 小林 哲則

    特許権

  • 予測装置、予測方法および予測プログラム

    小林 哲則, 小川 哲司, 森岡 幹

    特許権

  • 音源分離装置、方法及びプログラム

    4986248

    小林 哲則, 赤桐 健三, 小川 哲司

    特許権

  • 音源分離装置、プログラム及び方法

    5105336

    小林 哲則, 赤桐 健三, 小川 哲司

    特許権

  • 音源分離装置、方法及びプログラム

    5170465

    赤桐 健三, 小川 哲司, 小林 哲則

    特許権

  • エコーキャンセラ及びエコーキャンセル方法

    小林 哲則, 赤桐 健三, 藤江 真也, 小川 哲司

    特許権

  • 認識器構築システム、認識器構築方法、組立サービス提供システム、およびプログラム

    小林 哲則, 中野 鐵兵, 藤江 真也, 小川 哲司

    特許権

▼全件表示

受賞

  • 第251回 情報処理学会自然言語処理研究会 優秀発表賞

    2021年12月  

    受賞者: 佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

  • 早稲田大学ティーチングアワード総長賞

    2018年02月   早稲田大学  

  • APSIPA ASC2017 Poster Book Prizes

    2017年12月   APSIPA ASC2017  

  • 情報処理学会 山下記念研究賞

    2012年03月   情報処理学会  

  • 日本音響学会粟屋潔学術奨励賞

    2011年03月   日本音響学会  

  • BTAS2008 Best Paper Award

    2008年10月   BTAS2008  

▼全件表示

共同研究・競争的資金等の研究課題

  • 動画に対する深い意味的注釈の付与

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2017年04月
    -
    2021年03月
     

  • 動画に対する深い意味的注釈の付与

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2017年04月
    -
    2021年03月
     

  • 局所的海洋データを活用した漁業の効率化の研究開発

    総務省  戦略的情報通信研究開発推進制度(SCOPE)・地域ICT振興型研究開発

    研究期間:

    2017年04月
    -
    2020年03月
     

  • 人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

    研究期間:

    2016年04月
    -
    2019年03月
     

     概要を見る

    話者性と音韻性は分離可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.その成果として,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した.発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの重要性を明らかにした.さらに,分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために,識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした.本研究成果は,発話内容の違いの影響による話者照合性能劣化に対する本質的な解法を与えるもので,音声によるバイオメトリクス認証などアプリケーションとしての期待は高いものの依然として実用のレベルに達していない,数秒程度の短い発話に対する話者照合の性能を抜本的に改善することを可能とする.また,本研究を通じて,これまでほとんど議論されてこなかった「真の話者性」を工学的に明らかにするための新たな研究領域の開拓が期待できる.これは話者認識研究における本質的な問いであり,当該研究分野において日本のプレゼンスを示す好機ともなる

  • 人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(挑戦的萌芽研究)

    研究期間:

    2016年04月
    -
    2019年03月
     

  • システム協調型適応学習に基づくパターン認識システムの全体最適化に関する研究

    研究期間:

    2013年04月
    -
    2016年03月
     

     概要を見る

    複数のパターン認識システムを協調的に最適化しながら,システム全体を効率的かつ自動で成長させる方式について検討を行った.特に,システムの使用者や使用環境の違いにより生じるデータの変動に対してシステムを適応的に改善するための要素技術として,データの性質の違いに頑健なクラスタリング技術および,複数システムを協調的に用いて認識を行うマルチストリームパターン認識フレームワークの開発を行った

  • クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

    研究期間:

    2011年04月
    -
    2013年03月
     

     概要を見る

    音声データの構造化・検索支援のための基幹技術として, 音声データを発話者や雑音といった音環境ごとにクラスタリングする技術の開発と, 音声認識システムを教師なしの枠組みで適応的に最適化するための要素技術の開発を行った

  • リズムある会話を可能とするコミュニケーションロボットに関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2008年
    -
    2010年
     

     概要を見る

    言語・パラ言語の生成・理解処理を高度化することで,複数の人間と自然なリズムで会話できるコミュニケーションロボットを実現した.また,このロボットを用いて,人同士の会話を活性化することを試みた.この目的のため,ロボットへの性格付与とパラ言語表現機能を考慮したロボットハードウェア,会話状況に沿うロボットの振る舞い,魅力ある会話の進行方式などを設計した.また,ロボットの聴覚機能および発話方式の高度化についても検討した.

  • 言語・パラ言語の生成・理解能力を有する会話システムに関する研究

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(B))

    研究期間:

    2003年
    -
    2006年
     

     概要を見る

    自然な音声対話コミュニケーションを成立させるための要件を探るための道具として,言語情報の理解・表出機能に加え,パラ言語情報の理解・表出機能を持つ音声対話システムのプロトタイプを作成した.
    近年の音声認識・合成の著しい研究成果にも係らず,一般の利用者に広く受け入れられる可能性を感じさせるような,自然性の高い音声対話システムは見られない.この一つの要因が,対話にとって重要な役割を果たすパラ言語情報(顔表情や声表情に含まれる,発話者の内的・心的状態を伝える情報)の軽視にある.しかし,言語・パラ言語をバランスよく扱う対話システムを作る際必要なパラ言語に関する定量的知見はほとんどない。本研究では,パラ言語の役割を定量的に明らかにするための道具として各種の要素技術を開発し,音声対話システムとして組み上げた.
    具体的には次に挙げるものを実現した.1)ロボット頭部に設置した4系統の指向性を用いてロボットに適した形で音源定位・音源分離を行う方式を提案した,2)パラ言語の表現を可能とする合成音声方式について検討し,波形合成方式を対象として合成品質を向上させる手法を提案するとともに,高品位な声質の変換方式を提案した.3)音声に含まれるパラ言語情報として,発話態度と相槌/聞き返しを取り上げ,発話に含まれる韻律情報を基にこれらを認識する手法を提案した.4)頭部ジェスチャ・表情等の視覚的情報に含まれるパラ言語情報の認識手法を提案した.5)音声対話システムのプラットフォームとして人間型ロボットROBISUKEの設計,構築を行った.6)各モジュールの理解・生成機能を有機的に統合する情報共有の枠組としてMONEAを提案し,通信ミドルウェアの実装を行った.
    今後,これらの成果を利用し,自然な音声対話に必要とされる要件を明らかにするための定量的な実験を行う予定である.

  • 状態と出力に相互依存関係を有する確率モデルの構造最適化と頑健性強化に関する研究

     概要を見る

    本年度は,以下の2点について検討を行った.(1)部分隠れマルコフモデル(PHMM)のモデル構造最適選択PHMMのモデル構造を音韻毎に最適化する枠組みとして,昨年度は,評価基準として重み付き尤度比最大化基準を,最適化アルゴリズムとして遺伝的アルゴリズムを導入し,講演音声認識において従来法の誤りを削減した.本年度は,下記A)〜C)について詳細な検討を行った.A)評価関数:重み付き尤度比基準,最尤基準,ベイズ基準など複数の評価基準を導入し認識性能を評価したところ,識別的な基準である尤度比基準が最良の性能を与えることがわかった.B)最適化アルゴリズム:遺伝的アルゴリズムとタブサーチを用いたときの性能を評価したところ,タブサーチは局所解に陥りやすく,遺伝的アルゴリズムの方が高速に最適解に到達することがわかった.C)識別クラスの共有:探索の効率化のため音韻のクラスタリングを行ったが,最適化の段階でクラスを共有してしまうと,共有しない場合と同程度の性能を得られないことがわかった.(2)環境の変動に頑健な特徴量の検討PHMMのように高精度な確率モデルは,HMMなどの単純なモデルと比較して発話者や環境の変動の影響を受け易い.したがって,音響特徴量から発話者の情報や環境の情報を取り除き,識別に必要な情報である音韻情報のみを抽出する手法(識別情報抽出)について検討を行った.識別情報抽出として,HLDAやそれを拡張したManifold HLDA(MHLDA)を提案し,単語音声認識により評価を行ったところ,HLDAとMHLDAにより抽出されたパラメータを統合することで,環境の変動に対して頑健な性能を与えることがわかった.この知見を発展させ,HLDAにブースティングを導入した確率モデルの統合手法についても検討を行い,最尤識別に比べ頑健性の高い認識が可能になるという予備的な知見も得た

  • 実世界劣化音声コーパスに基づく音声強調法の研究

     概要を見る

    実世界で雑音などにより劣化した音声の認識を目指し以下のことを行った。(1)劣化音声コーパスを整備し、CENSRECという名称で一般に利用可能とした、(2)劣化音声の認識率への影響度を測る指標を検討し、加法性・乗法性雑音に対して高精度に認識性能を予測できた、(3)劣化音声の劣化要因とその認識手法を体系化した、(4)劣化音声の認識手法を研究した

  • 相補的な識別器の生成とその統合に基づくパターン認識に関する研究

     概要を見る

    本研究では,パターン認識の性能を向上させるために,複数の識別器を統合する方式について検討を行った.識別器の生成においては,提案法は識別器の誤り傾向が異なることを理論的に保証し(相補性を有する),少量の識別器で高い性能を与える(効率性を有する)という特徴を有する.また,生成した複数の識別器の統合においては,提案法は識別器各々が潜在的に有する特性の影響を受けにくい(頑健性を有する)という特徴を有する.本提案方式を音声認識に適用し,有効性を確認した

  • モデル構造の逐次最適化機能を有するオンライン適応型パターン認識に関する研究

     概要を見る

    パターン認識システムの精度とシステムを使用する環境の変動に対する頑健性を効率的に向上させるために,データの性質に応じて,認識システムに用いる確率モデルの構造と分布パラメータを適応的に最適化する方式を開発した.さらにこの枠組みを,音声情報を用いた話者認識や画像情報を用いた顔認識システムに適用することを試みた

▼全件表示

講演・口頭発表等

  • 予測クラスの相違に基づく深層ニューラルネットワークの不確実性推定

    松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

    第24回情報論的学習理論ワークショップ(IBIS2021)  

    発表年月: 2021年11月

  • 映像監視に基づく繁殖牛の分娩予兆検知~ユーザが納得して意思決定できるような映像監視システムをどう構築し運用するか?~

    小川哲司

    第2回AI・人工知能EXPO秋・アカデミックフォーラム  

    発表年月: 2021年10月

  • 船上映像からの魚体の検出・追跡に基づく漁獲尾数計測

    田中理子, 中野鐵兵, 漁崎盛也, 小川哲司

    マリンITワークショップ2021  

    発表年月: 2021年09月

  • 意思決定支援のための説明可能な状態監視システムの構築・運用法(家畜の映像監視を例に)

    小川哲司, 兵頭亮介, 斎藤奨, 中野鐵兵  [招待有り]

    電子情報通信学会総合大会,企画セッション:AIは本当にPoCを超えられるのか?-実用化を阻む大きな壁-  

    発表年月: 2021年03月

  • メジカ漁師の意思決定に対する直接的支援のための漁場予測に関する検討~高知マリンイノベーションの取り組みとして~

    小川哲司, 堀内優佳, 田中理子, 宮澤泰正, 漁崎盛也

    マリンITワークショップ2021みえ  

    発表年月: 2021年03月

  • 風車異常検知システムの早期運用に関する事例紹介~メンテナンスに係る意思決定のために人工知能技術をどう構築・運用すべきか?~

    小川哲司, 長谷川隆徳, 緒方淳  [招待有り]

    トライボロジー技術へのAIの活用を考える研究会  

    発表年月: 2021年03月

  • ビッグデータを利用できないとき,人工知能技術をどう開発し運用するか?~第一次産業支援に関する事例紹介~

    小川哲司  [招待有り]

    早稲田大学実体情報学博士プログラム 2020年度第4回コロキューム  

    発表年月: 2020年12月

  • ユーザの意思決定過程に関するドメイン知識を組み込んだ解釈可能な映像監視モデリング

    兵頭亮介, 中野鐵兵, 小川哲司

    第23回情報論的学習理論ワークショップ (IBIS2020)   (茨城県・つくば市) 

    発表年月: 2020年11月

  • ビッグデータを利用できないとき,AI技術をどう開発するか?~水産業支援と畜産業支援の事例紹介~

    小川哲司, 斎藤奨, 中野鐵兵  [招待有り]

    電子情報通信学会総合大会,企画セッション:あなたは本当にAIを理解していますか? - 基本原理から使い方,応用まで -  

    発表年月: 2020年03月

    開催年月:
    2020年03月
     
     
  • 人工知能技術の現状と課題~メンテナンスや一次産業支援に適用する際に注意すべきこと~

    小川哲司  [招待有り]

    IoTビジネス推進コンソーシアム沖縄第7回セミナー   (沖縄県・那覇市) 

    発表年月: 2019年10月

  • センサデータの欠損が漁獲量予測性能に与える影響

    小川哲司, 堀内優佳, 小林哲則, 福嶋正義, 井戸上彰

    マリンITワークショップ2019   (北海道・函館市) 

    発表年月: 2019年08月

  • 漁獲量心理尺度と機械学習による漁獲量予測モデルの最適化への利用

    小川哲司, 幸加木裕也, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰

    マリンITワークショップ2019いしがき   (沖縄県・石垣市) 

    発表年月: 2019年03月

  • 最近の人工知能技術事情と鹿児島県における産学連携導入事例

    小川哲司  [招待有り]

    鹿児島ITビジネス研究会   (鹿児島県・鹿児島市) 

    発表年月: 2019年03月

  • 状態空間モデルを用いた定置網漁のための日単位漁獲量予測

    小川哲司

    マリンITワークショップ   (北海道・函館市) 

    発表年月: 2018年08月

  • 情報工学から考えるIoTと畜産の未来

    小川哲司  [招待有り]

    日本繁殖生物学会若手サマーセミナー合宿   (茨城県・笠間市) 

    発表年月: 2018年08月

  • Toward proactive forecasting for smart maintenance of infrastructure equipment and support for primary industry

    Tetsuji Ogawa  [招待有り]

    7th Research Seminar in E-JUST   (Alexandria)  Egypt-Japan University of Science and Technology (E-JUST)  

    発表年月: 2018年03月

  • 人工知能研究の進展と課題

    小川哲司  [招待有り]

    鹿児島ITビジネス研究会   (鹿児島県・鹿児島市) 

    発表年月: 2017年09月

  • High resolution traffic maps generation using cellular big data

    Ahmed El-Mahdy, Essam Algizawy, Tetsuji Ogawa, Hisham Shishiny, Mohamed Badder, Keiji Kimura

    NetMob2015   (Boston) 

    発表年月: 2015年04月

  • 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較

    俵直弘, 小川哲司, 渡部晋治, 小林哲則

    第14回情報論的学習理論ワークショップ(IBIS2011)   (奈良県・奈良市) 

    発表年月: 2011年11月

  • クラス間距離に基づく判別分析と年齢推定システムへの適用

    小川哲司, 小林哲則

    第13回情報論的学習理論ワークショップ(IBIS2010)   (東京都・目黒区) 

    発表年月: 2010年11月

  • Sound source separation system and acoustic signal acquisition device

    Tetsuji Ogawa

    Leading Edge Japan 2009   (New York) 

    発表年月: 2009年03月

  • Multi-layer audio segregation and its application to double talk recognition

    Toshiyuki Sekiya, Tomohiro Sawada, Tetsuji Ogawa, Tetsunori Kobayashi

    SWIM, Lectures by Masters in Speech Processing   (Honolulu) 

    発表年月: 2004年01月

▼全件表示

学内研究費(特定課題)

  • 意思決定⽀援のための説明可能な状態監視システムの構築・運⽤法に関する研究

    2021年  

     概要を見る

    状態監視システムを運用する過程で蓄えられるデータをクラウドソーシングにより検証することで効率的かつ持続的にシステムを成長させる枠組みを,畜産業従事者の意思決定支援において重要な課題である,家畜の分娩予兆を映像情報から検知するシステムの開発を通じて確立することを試みた.具体的には,1)正例の見逃しを含むラベルノイズに頑健な映像監視モデルのマルチタスク学習法,2)深層ニューラルネットワークによる予測の不確実性推定のための,相補性を考慮したアンサンブル学習法と,複数モデルの予測の不一致に基づくデータ選択法,3)ストリーミング映像の監視システムを実時間動作可能にする実装法を明らかにした.

  • クラウドソーシングと物体追跡を用いた効率的な映像アノテーションに関する研究

    2021年  

     概要を見る

    映像中の複数の移動物体に対するアノテーションを効率的に行うため,物体検出器の反復的自己学習により得られる疑似矩形ラベルを活用したインタラクティブなアノテーション方式を提案した.提案方式では,矩形ラベル生成において検出対象の見逃しを低く抑えながら,反復的自己学習により対象の外観の変化に頑健な物体検出器を構築した.また,インタラクティブな追跡により低品質の追跡結果を補正することでアノテーション精度を改善するとともに,対象物体に矩形を描画する既存ツールのアノテーションコストを削減することに成功した.実際,標準的なベンチマークや家畜の映像監視データを用いた検証を通じ,提案方式の高い実用性を確認した.

  • クラウドソーシングを活用した持続可能な状態監視システムの構築・運用法に関する研究

    2020年  

     概要を見る

    人の意思決定支援を目的とした映像監視システムは,1)少量データで構築可能,2)持続的に運用可能,3)予測結果の根拠を説明可能,であることが求められる.本研究では,ユーザ(専門家)の意思決定プロセスに係る知識をニューラルネットワークに組み込むことで,これらの要件を満たすシステムを構築・運用するためのフレームワークを確立することを試みた.提案フレームワークに基づき映像監視による繁殖牛の分娩予兆検知システムを構築し,少量データ・環境変動に対して頑健な予兆検知性能と畜産業従事者に対する予測根拠の解釈可能性の両面においてend-to-endアプローチで構築したシステムに対する有効性を明らかにした.

  • ドローンによる空撮に基づく潮目の検知に関する研究

    2020年  

     概要を見る

    ドローンによって撮影された海面映像から自動的に潮目を検知する技術の開発を試みた.ドローンによる潮目の検知が可能になれば,良漁場に関する情報を比較的低コストで漁業事業者に提供できるため,操業効率化への貢献が期待される.潮目検知モデルを構築するために,ドローン空撮による潮目画像データセット(画像総数158,739枚)を構築し,潮目の有無に関する識別実験を行った.潮目の検知モデルにPyramid pooling moduleを備えた畳み込みニューラルネットワークを用いたところ,適合率0.90,再現率0.81,F値0.85という性能で潮目が検知できることがわかった.

  • 映像情報を用いた繁殖牛の発情予兆検知に関する研究

    2019年  

     概要を見る

    インターネットを通して不特定多数の人に仕事を依頼するクラウドソーシングを用いて,映像から繁殖牛の発情予兆を検知するための技術開発を行った.特に,本研究では,牛の発情予兆として乗駕行動に着目し,その評価基盤を構築した.まず,物体検出アルゴリズムとクラウドソーシングを用いて,牛の検出漏れを抑えながら乗駕行動の有無を信頼性高くアノテーションする方式を開発した.14頭の肉牛がいるフリーストール内で収録した乗駕行動29回分の映像データに対して提案したアノテーションを実施し,合計5020枚の画像からなるデータセットを構築した.さらに,構築したデータセットを用いて交差検証による実験を行ったところ,画像単位では陽性判定率0.80,感度0.76で乗駕行動の検知が可能であることがわかった.

  • 映像監視システムの持続可能な運用法に関する研究

    2019年  

     概要を見る

    ビッグデータの蓄積を待たずに映像監視システムを早期運用しながら,日々蓄えられるデータを効率的に利用してシステムを成長させる枠組みの確立を試みた.特に,本研究では,パターン認識に基づく映像監視の結果をクラウドソーシングを活用して修正することで,システムの早期運用段階においても高い検知性能を保持する枠組みの開発と検証を行った.映像情報を用いた繁殖牛の分娩検知システムの開発を通じて,提案した映像監視システムの早期運用法に関する評価を行ったところ,パターン認識(分娩検知)とクラウドソーシングを併用することにより,分娩の見逃しを低く抑えながら誤検出を抑制でき,映像監視システムの早期運用が可能であることを明らかにした.

  • エリア収音と敵対的生成ネットワークを用いた多様な雑音に頑健な音声強調

    2018年   俵 直弘

     概要を見る

    エリア収音により生じた非線形歪を敵対的デノイジングオートエンコーダ (ADAE) により補正するポストフィルタ法を提案した.エリア収音は時間周波数マスキングに基づき目的音と妨害音を高精度に分離可能な技術であるが,非線形信号処理特有の不快な歪が発生するという問題がある.そこで,単チャネル音源強調において有効なADAEを用いて非線形歪を低減することを試みたところ,音質改善に有効であることが示された.また,分離処理前の観測信号や雑音情報をADAEの補助入力として用いるnoise-aware学習の枠組みを導入することで,強調信号の更なる品質改善が得られた.

  • エリア収音と深層学習を用いた高速・高精度・低歪の雑音除去フィルタ構成法

    2017年  

     概要を見る

    拡散性雑音が重畳された音声に対して低歪で高精度な雑音抑圧を実現する方式について検討を行った.そのために,申請者が研究を続けてきた音源分離技術であるエリア収音により目的音と拡散性雑音を分離した後,目的音に残留した雑音成分を抑圧するフィルタの推定法を提案した.具体的には,エリア収音により分離した目的音と雑音のパワースペクトルから深層ニューラルネットワークによって線形フィルタの係数(厳密にはpriori SNR)を推定した.拡散性雑音下での雑音抑圧性能を雑音抑圧率および対数スペクトル距離により評価したところ,提案手法は双方の尺度で従来のマルチチャネルウィナーフィルタの性能を改善した.

  • メタ認知機能を有するパターン認識システムの構成法に関する研究

    2016年  

     概要を見る

     人が持つメタ認知機能(知っているか否かを知る,どの程度知っているかを知る機能)を模倣することで,データの収集だけに頼らずに未知の入力に対して頑健に高い性能を与えるパターン認識方式の確立を目指す.本課題では,雑音下音声認識での評価を通じ,「メタ認知機能を有するパターン認識」の基本となる認識性能予測技術およびマルチストリーム型パターン認識アルゴリズムに焦点を当てて検討を行った. 異なる現象を扱うパターン認識システムをDNNにより多数構築しておき,そのうち最適なシステムをDNNの出力(事後確率)の時間変化量および自己符号化器の復元誤差に基づき選択して用いることで,環境変動に頑健な認識を実現した.

  • 部分隠れマルコフモデルによる自然発話音声認識

    2004年  

     概要を見る

     本研究では、音声認識に用いる確率モデルとして一般的に用いられている隠れマルコフモデル(Hidden Markov Model; HMM)に代わる表現能力の高い確率モデルとして、部分隠れマルコフモデル(Partly-Hidden Markov Model; PHMM)を提案している。このPHMMは、状態と出力双方が過去の出力に依存する枠組みであるが、その構造は全てのモデルカテゴリで共通なものを用いてきた。そこで本年度は,重みつき尤度比最大基準に基づき、PHMM における状態と出力間の依存構造をモデルカテゴリ毎に最適に選択することを試みた。 尤度比最大化に基づくモデル構造選択の枠組みでは、正解カテゴリと不正解カテゴリが与える対数尤度の差を直接計算したものを目的関数として導入し、その値を最大にするようなモデル構造を選択する。ここで、尤度比を改善しても認識結果が変わりにくい、尤度比の値が大きな値を持つデータより、それが0に近い値を持つデータを対象として尤度比を改善することが重要であるため、尤度比の値が小さいときはその値をそのまま用い、尤度比の値が大きいときはある閾値で打ち切るように重み付けを行った。この重み付けされた尤度比を重みつき尤度比と呼び、ここでは重みつき尤度比を最大化するようにモデル構造の選択を行った。また本手法では、各々のカテゴリに帰属するデータに対して重みつき尤度比を最大化するのではなく、全てのカテゴリに対して取り得るモデル構造の組み合わせを考え、生成される膨大な数のモデル構造の組み合わせに対して重みつき尤度比を最大化する。そして、最大の重みつき尤度比を与える構造の組み合わせを、最適な構造と考える。しかし、このような膨大なパターンに対する全探索は現実的ではなく、遺伝的アルゴリズムを適用し、全探索おける近似解を与えることを試みた。 学会講演音声を対象とする連続音声認識実験により提案するモデル構造選択手法の有効性を評価したところ、モデル構造を行わないPHMMの誤りを削減することが示された。

▼全件表示

 

現在担当している科目

▼全件表示

担当経験のある科目(授業)

  • 最適化と認識・学習

    早稲田大学  

    2021年09月
    -
    継続中
     

  • 回路理論B

    早稲田大学  

    2020年09月
    -
    継続中
     

  • 機械学習

    早稲田大学/enPiT-Pro スマートエスイー  

    2019年04月
    -
    継続中
     

  • Introduction to Computers and Networks

    早稲田大学  

    2019年04月
    -
    継続中
     

  • 情報通信基礎

    早稲田大学  

    2017年04月
    -
    継続中
     

  • 情報通信実験C/音情報処理

    早稲田大学  

    2016年09月
    -
    継続中
     

  • 知覚情報システム

    早稲田大学大学院  

    2016年09月
    -
    継続中
     

  • Logic Circuits

    早稲田大学  

    2016年09月
    -
    継続中
     

  • パターン認識と機械学習

    早稲田大学大学院  

    2016年04月
    -
    継続中
     

  • 工学系のモデリングA

    早稲田大学  

    2016年04月
    -
    継続中
     

  • 論理回路

    早稲田大学  

    2016年04月
    -
    継続中
     

  • アルゴリズムとデータ構造A

    早稲田大学  

    2019年04月
    -
    2019年09月
     

  • Circuit Theory A

    早稲田大学  

    2016年09月
    -
    2019年03月
     

  • Machine Learning

    エジプト・日本科学技術大学  

    2012年09月
    -
    2015年02月
     

  • 知覚情報システム

    早稲田大学  

    2008年04月
    -
    2011年09月
     

  • 音情報処理

    早稲田大学 オープン教育センター  

    2008年09月
    -
    2011年03月
     

  • インタラクティブシステム

    早稲田大学 オープン教育センター  

    2008年04月
    -
    2010年09月
     

  • 音インタフェース

    早稲田大学 オープン教育センター  

    2007年09月
    -
    2008年03月
     

▼全件表示

 

委員歴

  • 2021年06月
    -
    継続中

    日本音響学会  日本音響学会誌編集委員

  • 2019年
    -
    継続中

    高知県マリンイノベーション運営協議会  委員

  • 2017年09月
    -
    継続中

    電子情報通信学会  常任査読委員

  • 2020年11月
    -
    2021年06月

    音学シンポジウム2021 実行委員

  • 2019年05月
    -
    2021年04月

    電子情報通信学会 音声研究会  幹事

  • 2019年11月
    -
    2020年06月

    音学シンポジウム2020 実行委員

  • 2020年
     
     

    Speaker Odyssey 2020  Local Organizing Committee

  • 2017年05月
    -
    2019年04月

    電子情報通信学会 音声研究会  専門委員

  • 2017年
     
     

    第7回バイオメトリクスと認識・認証シンポジウム  プログラム委員

  • 2010年
    -
    2011年

    電子情報通信学会  情報・システムソサイエティ誌 編集委員

  • 2008年
    -
    2011年

    情報処理学会 音声言語情報処理研究会  運営委員

  • 2010年
     
     

    高度言語情報融合フォーラム(ALAGIN)  若手研究者フォーラム実行委員

  • 2009年
    -
    2010年

    第9回情報科学技術フォーラム(FIT)  プログラム委員

▼全件表示