研究者詳細 - 小川　哲司

写真a

オガワ　テツジ

小川　哲司

Scopus 論文情報

論文数: 152 Citation: 1045 h-index: 17

Click to view the Scopus page. The data was downloaded from Scopus API in July 11, 2026, via http://api.elsevier.com and http://www.scopus.com .

Google Scholar 情報（Citations per year）

Citation: 1726 h-index: 21 i10-index: 38

Click to view the Google Scholar page.

Scopus 情報

News & Topics

2021.12.23

英会話能力判定systemを開発

所属

理工学術院基幹理工学部

職名

教授

学位

博士（工学） ( 早稲田大学 )

ホームページ

https://sites.google.com/site/ogatetsu/

プロフィール

2000年早稲田大学理工学部電気電子情報工学科卒業．2002年同大学大学院修士課程修了．2005年同大学大学院博士後期課程終了．博士（工学）．2004--2007年早稲田大学理工学術院助手．2007年早稲田大学IT研究機構講師．2007--2012年早稲田大学高等研究所助教．2012-2019年早稲田大学理工学術院准教授．現在，早稲田大学理工学術院教授．その間，2012年，2013年米国ジョンズホプキンス大学訪問研究者，2014年，2015年チェコ共和国ブルノ工科大学訪問研究者．2012--2015年エジプト・日本科学技術大学（E-JUST）特任准教授．2016年より産業技術総合研究所人工知能研究センター客員研究員．2020年よりNHK放送技術研究所客員研究員．音声・音響情報処理，画像・映像情報処理，パターン認識に関する研究に従事．IEEE，電子情報通信学会，情報処理学会，日本音響学会，人工知能学会，日本機械学会，日本風力エネルギー学会，日本畜産学会，日本水産学会，水産海洋学会各会員．

経歴

2025年04月

-

継続中

東京大学先端科学技術研究センター洋上風力開発推進施設（AIHOW）客員上級研究員
2019年04月

-

継続中

早稲田大学理工学術院教授
2016年06月

-

継続中

産業技術総合研究所人工知能研究センター客員研究員
2020年04月

-

2025年03月

NHK放送技術研究所客員研究員
2012年04月

-

2019年03月

早稲田大学理工学術院准教授
2015年05月

-

2015年08月

ブルノ工科大学訪問研究者
2012年04月

-

2015年03月

エジプト・日本科学技術大学特任准教授
2014年06月

-

2014年07月

ブルノ工科大学訪問研究者
2013年06月

-

2013年08月

ジョンズホプキンス大学訪問研究者
2012年06月

-

2012年09月

ジョンズホプキンス大学訪問研究者
2007年11月

-

2012年03月

早稲田大学高等研究所助教
2007年04月

-

2007年10月

早稲田大学IT 研究機構客員講師
2004年04月

-

2007年03月

早稲田大学理工学部助手

▼全件表示

学歴

2002年04月

-

2005年03月

早稲田大学大学院理工学研究科電気工学専攻
2000年04月

-

2002年03月

早稲田大学大学院理工学研究科電気工学専攻
1996年04月

-

2000年03月

早稲田大学理工学部電気電子情報工学科

委員歴

2023年04月

-

継続中

日本音響学会評議員
2019年

-

継続中

高知県マリンイノベーション運営協議会委員
2017年09月

-

継続中

電子情報通信学会常任査読委員
2014年04月

-

継続中

日本音響学会査読委員
2021年06月

-

2025年05月

日本音響学会会誌編集委員
2020年11月

-

2021年06月

音学シンポジウム2021 実行委員
2019年05月

-

2021年04月

電子情報通信学会音声研究会幹事
2019年11月

-

2020年06月

音学シンポジウム2020 実行委員
2020年

　

　

Speaker Odyssey 2020 Local Organizing Committee
2017年05月

-

2019年04月

電子情報通信学会音声研究会専門委員
2017年

　

　

第7回バイオメトリクスと認識・認証シンポジウムプログラム委員
2010年

-

2011年

電子情報通信学会情報・システムソサイエティ誌編集委員
2008年

-

2011年

情報処理学会音声言語情報処理研究会運営委員
2010年

　

　

高度言語情報融合フォーラム（ALAGIN）若手研究者フォーラム実行委員
2009年

-

2010年

第9回情報科学技術フォーラム(FIT) プログラム委員

▼全件表示

所属学協会

2021年10月

-

継続中

水産海洋学会
2019年05月

-

継続中

人工知能学会
2018年07月

-

継続中

日本水産学会
2018年06月

-

継続中

日本風力エネルギー学会
2018年01月

-

継続中

日本畜産学会
2017年08月

-

継続中

日本機械学会
2008年03月

-

継続中

情報処理学会
2000年01月

-

継続中

日本音響学会
　

　

　

電子情報通信学会
　

　

　

International Speech Communication Association (ISCA)
　

　

　

The Institute of Electrical and Electronics Engineers, Inc. (IEEE)

▼全件表示

研究分野

知覚情報処理 / ヒューマンインタフェース、インタラクション / 知能情報学 / 医用システム医療情報システム / 医療福祉工学看護理工学 / 水圏生産科学 / 動物生産科学

研究キーワード

音声言語情報処理
音響信号処理
画像情報処理
映像情報処理
パターン認識
機械学習
データ駆動科学
異常検知
スマートメンテナンス
精密畜産
精密水産
看護情報

▼全件表示

受賞

第251回情報処理学会自然言語処理研究会優秀発表賞

2021年12月

受賞者：佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司
早稲田大学ティーチングアワード総長賞

2018年02月早稲田大学
APSIPA ASC2017 Poster Book Prizes

2017年12月 APSIPA ASC2017
情報処理学会山下記念研究賞

2012年03月情報処理学会
日本音響学会粟屋潔学術奨励賞

2011年03月日本音響学会
BTAS2008 Best Paper Award

2008年10月 BTAS2008

▼全件表示

論文

Analysis of the correlation between theory of mind and dialogue ability to identify essential ToM for dialogue systems

Haruhisa Iseno, Atsumoto Ohashi, Tetsuji Ogawa, Shinnosuke Takamichi, Ryuichiro Higashinaka

Proc. The 39th Pacific Asia Conference on Language, Information and Computation (PACLIC 39) 2025年12月 [査読有り]
Image Recognition Framework via Adaptive Class Descriptions with Vision-Language Models

Haruki Konii, Teppei Nakano, Mari Wakabayashi, Tomomi Sato, Tetsuji Ogawa

Proc. The 8th Asian Conference on Pattern Recognition (ACPR 2025) 397 - 411 2025年11月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus
Towards Farmers’ Decision Support: Explainable-by-Design Modeling for Calving Sign Detection in Cattle

Michihiro Nakata, Teppei Nakano, Susumu Saito, Tetsuji Ogawa

Proc. The 8th Asian Conference on Pattern Recognition (ACPR 2025) 427 - 441 2025年11月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus
Lyric-aware karaoke background video selection using large language models and moment retrieval

Tomoki Ariga, Jun Taniguchi, Yosuke Higuchi, Sayaka Toma, Kunihiro Abe, Rie Shigyo, Tetsuji Ogawa

Proc. The 17th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA2025) 1492 - 1497 2025年10月 [査読有り]

担当区分：最終著者, 責任著者
Strong eye closure detection in children with profound intellectual and multiple disabilities using robust temporal difference features

Kaito Kosaki, Teppei Nakano, Mari Wakabayashi, Tomomi Sato, Tetsuji Ogawa

Proc. The 17th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA2025) 2477 - 2482 2025年10月 [査読有り]

担当区分：最終著者, 責任著者
Video-Based Vibration Analysis for Predictive Maintenance: A Motion Magnification and Random Forest Approach

Walid Gomaa, Abdelrahman Ammar, Ismael Abbo, Mohamed Nassef, Tetsuji Ogawa, Mohab Hossam

Proceedings of the 22nd International Conference on Informatics in Control, Automation and Robotics 445 - 452 2025年10月 [査読有り]

DOI

Scopus

1

被引用数

(Scopus)
Stabilizing and Enhancing Remixing-based Unsupervised Sound Source Separation

Kohei Saijo, Tetsuji Ogawa

APSIPA Transactions on Signal and Information Processing 14 ( 1 ) 2025年10月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus
Necessity of voice sample selection in qualification tests for crowdsourced subjective audio quality evaluation

Takuma Yabe, Moe Yaegashi, Teppei Nakano, Tetsuji Ogawa

Proc. the 33rd European Signal Processing Conference (EUSIPCO2025) 261 - 265 2025年09月 [査読有り]

担当区分：最終著者, 責任著者
A comparative study on positional encoding for time-frequency domain dual-path transformer-based source separation models

Kohei Saijo, Tetsuji Ogawa

Proc. the 33rd European Signal Processing Conference (EUSIPCO2025) 446 - 450 2025年09月 [査読有り]

担当区分：最終著者, 責任著者
Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition

Asahi Sakuma, Hiroaki Sato, Ryuga Sugano, Tadashi Kumano, Yoshihiko Kawai, Tetsuji Ogawa

Proc. The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH2025) 5503 - 5507 2025年08月 [査読有り]

担当区分：最終著者

DOI
End-to-End Speech Translation Guided by Robust Translation Capability of Large Language Model

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH2025) 21 - 25 2025年08月 [査読有り]

DOI
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model for Guiding End-to-End Speech Recognition

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2025) 1 - 5 2025年04月 [査読有り]

DOI
What to refer and how? - Exploring handling of auxiliary information in target speaker extraction

Tomohiro Hayashi, Riku Ogino, Kohei Saijo, Tetsuji Ogawa

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2024 (APSIPA2024) 2024年12月 [査読有り]

担当区分：最終著者, 責任著者
Differences between singer and speaker verification: Training singer feature representation extractor utilizing singing voice characteristics

Sayaka Toma, Tomoki Ariga, Yosuke Higuchi, Ichiju Hayasaka, Rie Shigyo, Tetsuji Ogawa

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2024 (APSIPA2024) 2024年12月 [査読有り]

担当区分：最終著者, 責任著者
WindVibraTransformer: A foundational model for precise and robust wind turbine condition monitoring via viration signals,

Takuya Wakayama, Taiki Inoue, Jun Ogata, Makoto Iida, Tetsuji Ogawa

Proc. 23rd International Conference on Machine Learning and Applications (ICMLA2024) 2024年12月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

1

被引用数

(Scopus)
Leveraging data from vast unexplored seas: positive unlabeled learning for refining prediction area in good fishing ground prediction

Haruki Konii, Teppei Nakano, Yasumasa Miyazawa, Tetsuji Ogawa

Proc. 27th International Conference on Pattern Recognition (ICPR2024) 2024年12月 [査読有り]

担当区分：最終著者, 責任著者
Exploring impact of prioritizing intra-singer acoustic variations on singer embedding extractor construction for singer verification

Sayaka Toma, Tomoki Ariga, Yosuke Higuchi, Ichiju Hayasaka, Rie Shigyo, Tetsuji Ogawa

Proc. The 27th Conference of the Oriental COCOSDA (O-COCOSDA2024) 2024年10月 [査読有り]

担当区分：最終著者, 責任著者
Construction of individual tracking dataset for developing foundational models in calving sign monitoring for beef cattle

Michihiro Nakata, Sawa Ohyoshi, Teppei Nakano, Tetsuji Ogawa

Proc. The 11th European Conference on Precision Livestock Farming (ECPLF2024) 1625 - 1632 2024年09月 [査読有り]

担当区分：最終著者, 責任著者
Hierarchical Multi-Task Learning with CTC and Recursive Operation

Nahomi Kusunoki, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH2024) 2855 - 2859 2024年09月 [査読有り]

DOI
Exploring robust and explainable design for facial expression-based emotional state estimation in children with profound intellectual multiple disabilities

Kota Mochida, Teppei Nakano, Shinya Fujie, Mari Wakabayashi, Tomomi Sato, Tetsuji Ogawa

Proc. the 32nd European Signal Processing Conference (EUSIPCO2024) 481 - 485 2024年08月 [査読有り]

担当区分：最終著者, 責任著者
Normal with occasional anomalies: Feature extraction for detecting non-stationary abnormal events in wind turbines,

Takuya Wakayama, Taiki Inoue, Jun Ogata, Makoto Iida, Tetsuji Ogawa

Proc. the 32nd European Signal Processing Conference (EUSIPCO2024) 2012 - 2016 2024年08月 [査読有り]

担当区分：最終著者, 責任著者
Parody detection using source-target attention with teacher-forced lyrics

Tomoki Ariga, Yosuke Higuchi, Kazutoshi Hayasaka, Naoki Okamoto, Tetsuji Ogawa

2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2024) 2024年04月 [査読有り]

担当区分：最終著者, 責任著者
Self-Conditioning via Intermediate Predictions for End-to-End Neural Speaker Diarization

Yusuke Fujita, Tetsuji Ogawa, Tetsunori Kobayashi

IEEE Access 11 140069 - 140076 2023年12月 [査読有り]

DOI
A single speech enhancement model unifying dereverberation, denoising, speaker counting, separation, and extraction

Kohei Saijo, Wangyou Zhang, Zhong-Qiu Wang, Shinji Watanabe, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU2023) 2023年12月 [査読有り]

担当区分：最終著者
Learning discriminative feature representation via metric learning for early operation of wind turbine anomaly detection systems

Taiki Inoue, Jun Ogata, Makoto Iida, Tetsuji Ogawa

Proc. 22nd International Conference on Machine Learning and Applications (ICMLA2023) 2023年12月 [査読有り]

担当区分：最終著者, 責任著者
Masry: A text-to-speech system for the Egyptian Arabic

Ahmed Hammad Azab, Ahmed Bayoumi Zaki, Tetsuji Ogawa, Walid Gomaa

Proc. 20th International Conference on Informatics in Control, Automation, and Robotics (ICINCO2023) 2023年11月 [査読有り]
Lightweight Multiscale Attention-Aware Method for Semantic Segmentation of Urban Structural Buildings in Drone Aerial Imagery

Jacob Herman, Rami Zewail, Tetsuji Ogawa, Samir El Sagheer

2023 International Mobile, Intelligent, and Ubiquitous Computing Conference (MIUCC) 2023年09月 [査読有り]

DOI
Mask-CTC-based encoder pre-training for streaming end-to-end speech recognition

Huaibo Zhao, Yosuke Higuchi, Yusuke Kida, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. the 31st European Signal Processing Conference (EUSIPCO2023) 56 - 60 2023年09月 [査読有り]
Voice or Content? --- Exploring impact of speech content on age estimation from voice

Yuta Ide, Naohiro Tawara, Susumu Saito, Teppei Nakano, Tetsuji Ogawa

Proc. the 31st European Signal Processing Conference (EUSIPCO2023) 221 - 225 2023年09月 [査読有り]

担当区分：最終著者, 責任著者
Spotting parodies: Detecting alignment collapse between lyrics and singing voice

Tomoki Ariga, Yosuke Higuchi, Mitsunori Kanno, Rie Shigyo, Takato Mizuguchi, Naoki Okamoto, Tetsuji Ogawa

Proc. the 31st European Signal Processing Conference (EUSIPCO2023) 286 - 290 2023年09月 [査読有り]

担当区分：最終著者, 責任著者
Remixing-based unsupervised source separation from scratch

Kohei Saijo, Tetsuji Ogawa

Proc. The 24th Annual Conference of the International Speech Communication Association (INTERSPEECH2023) 1678 - 1682 2023年08月 [査読有り]

担当区分：最終著者, 責任著者
Thermal Gait Dataset for Deep Learning-Oriented Gait Recognition

Fatma Youssef, Ahmed El-Mahdy, Tetsuji Ogawa, Walid Gomaa

2023 International Joint Conference on Neural Networks (IJCNN) 2023年06月 [査読有り]

DOI
Narrow Down Forecast Range: Using Knowledge of Past Operations and Attribute-Dependent Thresholding in Good Fishing Ground Prediction

Haruki Konii, Teppei Nakano, Yasumasa Miyazawa, Tetsuji Ogawa

OCEANS 2023 - Limerick 2023年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Neural Diarization with Non-Autoregressive Intermediate Attractors

Yusuke Fujita, Tatsuya Komatsu, Robin Scheibler, Yusuke Kida, Tetsuji Ogawa

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023年06月 [査読有り]

担当区分：最終著者

DOI
Self-Remixing: Unsupervised Speech Separation VIA Separation and Remixing

Kohei Saijo, Tetsuji Ogawa

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Conversation-Oriented ASR with Multi-Look-Ahead CBS Architecture

Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023年06月 [査読有り]

DOI
BECTRA: Transducer-Based End-To-End ASR with Bert-Enhanced Encoder

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023年06月 [査読有り]

DOI
Intermpl: Momentum Pseudo-Labeling With Intermediate CTC Loss

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2023年06月 [査読有り]

DOI
A Lightweight Transfer Learning-Based Model for Building Classification in Aerial Imagery

Jacob Herman, Rami Zewail, Tetsuji Ogawa, Samir ElSagheer

2023 15th International Conference on Computer Research and Development (ICCRD) 181 - 186 2023年01月 [査読有り]

DOI
PostMe: Unsupervised Dynamic Microtask Posting For Efficient and Reliable Crowdsourcing

Ryo Yanagisawa, Susumu Saito, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

2022 IEEE International Conference on Big Data (Big Data) 4039 - 4044 2022年12月 [査読有り]

担当区分：最終著者, 責任著者

DOI
BERT Meets CTC: New Formulation of End-to-End Speech Recognition with Pre-trained Masked Language Model,

Yosuke Higuchi, Brian Yan, Siddhant Arora, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe

Proc. The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP2022) 2022年12月 [査読有り]
Refinement of Utterance Fluency Feature Extraction and Automated Scoring of L2 Oral Fluency with Dialogic Features

Ryuki Matsuura, Shungo Suzuki, Mao Saeki, Tetsuji Ogawa, Yoichi Matsuyama

2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 1309 - 1317 2022年11月 [査読有り]

DOI
Do You Know How Humans Sound? Exploring a Qualification Test Design for Crowdsourced Evaluation of Voice Synthesis Quality

Moe Yaegashi, Susumu Saito, Teppei Nakano, Tetsuji Ogawa

2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 980 - 985 2022年11月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Design of Discriminators in GAN-Based Unsupervised Learning of Neural Post-Processors for Suppressing Localized Spectral Distortion

Riku Ogino, Kohei Saijo, Tetsuji Ogawa

2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 969 - 975 2022年11月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Text-only domain adaptation based on intermediate CTC

Hiroaki Sato, Tomoyasu Komori, Takeshi Mishima, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Tetsuji Ogawa

Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022) 2022年09月 [査読有り]

担当区分：最終著者
Confusion detection for adaptive conversational strategies of an oral proficiency assessment interview agent

Mao Saeki, Kotoka Miyagi, Shinya Fujie, Shungo Suzuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoichi Matsuyama

Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022) 2022年09月 [査読有り]
Can humans correct errors from system? Investigating error tendencies in speaker identification using crowdsourcing

Yuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa

Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022) 2022年09月 [査読有り]

担当区分：最終著者, 責任著者
Unsupervised training of sequential neural beamformer using coarsely-separated and non-separated signals

Kohei Saijo, Tetsuji Ogawa

Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022) 2022年09月 [査読有り]

担当区分：最終著者, 責任著者
Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword Units

Yosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022) 7797 - 7801 2022年05月 [査読有り]

DOI
Remix-Cycle-Consistent Learning on Adversarially Learned Separator for Accurate and Stable Unsupervised Speech Separation

Kohei Saijo, Tetsuji Ogawa

Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022) 4373 - 4377 2022年05月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Sequential fish catch counter using vision-based fish detection and tracking

Riko Tanaka, Teppei Nakano, Tetsuji Ogawa

Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022) 2022年02月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

9

被引用数

(Scopus)
Inlier modeling-based good fishing ground detection for efficient bullet tuna trolling using meteorological and oceanographic Information

Yuka Horiuchi, Teppei Nakano, Yasumasa Miyazawa, Tetsuji Ogawa

Proc. MTS/IEEE OCEANS 2022 Chennai Conference and Exhibit (OCEANS2022) 2022年02月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

2

被引用数

(Scopus)
Multi-Source Domain Generalization Using Domain Attributes for Recurrent Neural Network Language Models

Naohiro TAWARA, Atsunori OGAWA, Tomoharu IWATA, Hiroto ASHIKAWA, Tetsunori KOBAYASHI, Tetsuji OGAWA

IEICE Transactions on Information and Systems E105.D ( 1 ) 150 - 160 2022年01月 [査読有り]

担当区分：最終著者, 責任著者

DOI
An investigation of enhancing CTC model for triggered attention-based streaming ASR

Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021) 2021年12月 [査読有り]

担当区分：責任著者
Comparative study on DNN-based minimum variance beamforming robust to small movements of sound sources

Kohei Saijo, Kazuhiro Katagiri, Masaru Fujieda, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021) 2021年12月 [査読有り]

担当区分：最終著者, 責任著者
風車異常検知の効率的運用に向けた正常状態の特徴表現学習

長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

日本風力エネルギー学会論文集 45 ( 3 ) 60 - 68 2021年11月 [査読有り]

担当区分：最終著者, 責任著者
SIA-GAN: Scrambling Inversion Attack Using Generative Adversarial Network

Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

IEEE Access 9 129385 - 129393 2021年09月 [査読有り]

担当区分：最終著者

DOI
VocalTurk: Exploring Feasibility of Crowdsourced Speaker Identification

Susumu Saito, Yuta Ide, Teppei Nakano, Tetsuji Ogawa

Proc. The 22th Annual Conference of the International Speech Communication Association (INTERSPEECH2021) 1723 - 1727 2021年08月 [査読有り]

担当区分：最終著者, 責任著者

DOI
Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation

Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 22th Annual Conference of the International Speech Communication Association (INTERSPEECH2021) 3051 - 3055 2021年08月 [査読有り]

DOI
Improved Mask-CTC for Non-Autoregressive End-to-End ASR

Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 8363 - 8367 2021年06月 [査読有り]

DOI
Scrambling Parameter Generation to Improve Perceptual Information Hiding

Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

Electronic Imaging 2021 ( 11 ) 155 - 1 2021年01月 [査読有り]

担当区分：最終著者

　概要を見る

<italic>The present study proposes the method to improve the perceptual information hiding in image scramble approaches. Image scramble approaches have been used to overcome the privacy issues on the cloud-based machine learning approach. The performance of image scramble approaches are
depending on the scramble parameters; because it decides the performance of perceptual information hiding. However, in existing image scramble approaches, the performance by scrambling parameters has not been quantitatively evaluated. This may be led to show private information in public.
To overcome this issue, a suitable metric is investigated to hide PIH, and then scrambling parameter generation is proposed to combine image scramble approaches. Experimental comparisons using several image quality assessment metrics show that Learned Perceptual Image Patch Similarity (LPIPS)
is suitable for PIH. Also, the proposed scrambling parameter generation is experimentally confirmed effective to hide PIH while keeping the classification performance.</italic>

DOI
Investigation on network architecture for single-channel end-to-end denoising

Takuya Hasumi, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. The 2020 European Signal Processing Conference (EUSIPCO2020) 2021年01月 [査読有り]

担当区分：最終著者, 責任著者
Noise-robust attention learning for end-to-end speech recognition

Yosuke Higuchi, Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. The 2020 European Signal Processing Conference (EUSIPCO2020) 2021年01月 [査読有り]

担当区分：最終著者, 責任著者
Toward building a data-driven system for detecting mounting actions of black beef cattle

Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hiromi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

Proc. 25th International Conference on Pattern Recognition (ICPR2020) 2021年01月 [査読有り]

担当区分：最終著者, 責任著者
Crowdsourced verification for operating calving surveillance systems at an early stage

Yusuke Okimoto, Soshi Kawata, Susumu Saito, Nakano Teppei, Tetsuji Ogawa

Proc. 25th International Conference on Pattern Recognition (ICPR2020) 2021年01月 [査読有り]

担当区分：最終著者, 責任著者
Feature Representation Learning for Calving Detection of Cows Using Video Frames

Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

Proc. 25th International Conference on Pattern Recognition (ICPR2020) 2021年01月 [査読有り]

担当区分：最終著者, 責任著者
Analysis of multimodal features for speaking proficiency scoring in an interview dialogue

Mao Saeki, Yoichi Matsuyama, Satoshi Kobashikawa, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 8th IEEE Spoken Language Technology Workshop (SLT2021) 2021年01月 [査読有り]
Efficient human-in-the-loop object detection using bi-directional deep SORT and annotation-free segment identification

Koki Madono, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2020 (APSIPA2020) 2020年12月 [査読有り]

担当区分：最終著者, 責任著者
Exploiting narrative context and a priori knowledge of categories in textual emotion classification

Hikari Tanabe, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

The 28th International Conference on Computational Linguistics (COLING2020) 5535 - 5540 2020年12月 [査読有り]
Crowd-sourced development of image dataset for detecting mounting actions of black beef cattle

Yuriko Kawano, Susumu Saito, Teppei Nakano, Ikumi Kondo, Ryota Yamazaki, Hitomi Kusaka, Minoru Sakaguchi, Tetsuji Ogawa

The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020) 341 - 351 2020年10月 [査読有り]

担当区分：最終著者, 責任著者
Attention network learning for robust detection of allantochorion and fetal membrane of Japanese black beef cattle

Soshi Kawata, Teppei Nakano, Tetsuji Ogawa

The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020) 333 - 340 2020年10月 [査読有り]

担当区分：最終著者, 責任著者
Data-driven feature extraction for calving sign detection in Japanese black beef cattle using video frames

Ryosuke Hyodo, Teppei Nakano, Tetsuji Ogawa

The 2nd Asian Conference on Precision Livestock Farming (ACPLF2020) 323 - 332 2020年10月 [査読有り]

担当区分：最終著者, 責任著者
Exploring Effectiveness of Inter-Microtask Qualification Tests in Crowdsourcing

Masaya Morinaga, Susumu Saito, Teppei Nakano, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. The 8th AAAI Conference on Human Computation and Crowdsourcing (HCOMP2020), Works-In-Progress and Demonstration Papers 2020年10月 [査読有り]

担当区分：最終著者, 責任著者
Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict

Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020) 3655 - 3659 2020年10月 [査読有り]
Mentoring-reverse mentoring for unsupervised multi-channel speech source separation

Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020) 86 - 90 2020年10月 [査読有り]
CHARM-Deep: Continuous Human Activity Recognition Model Based on Deep Neural Network Using IMU Sensors of Smartwatch

Sara Ashry, Tetsuji Ogawa, Walid Gomaa

IEEE Sensors Journal 20 ( 15 ) 8757 - 8770 2020年08月 [査読有り]

DOI
SemSeq: A Regime for Training Widely-Applicable Word-Sequence Encoders

Hiroaki Tsuyuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoshihiko Hayashi

Communications in Computer and Information Science 43 - 55 2020年07月 [査読有り]

DOI

Scopus
Deep speech extraction with time-varying spatial filtering guided by desired direction attractor

Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020) 671 - 675 2020年05月 [査読有り]
Frame-level phoneme-invariant speaker embedding for text-independent speaker recognition on extremely short utterances

Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Marc Delcroix, Tetsuji Ogawa

Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020) 6799 - 6803 2020年05月 [査読有り]

担当区分：最終著者
Block-wise scrambled image recognition using adaptation network

Koki Madono, Masayuki Tanaka, Masaki Onishi, Tetsuji Ogawa

AAAI-20 Workshop on Artificial Intelligence of Things 2020年02月 [査読有り]

担当区分：最終著者
Vibration-Based Fault Detection for Flywheel Condition Monitoring

Takanori Hasegawa, Mao Saeki, Tetsuji Ogawa, Teppei Nakano

Procedia Structural Integrity 17 487 - 494 2019年09月 [査読有り]

担当区分：責任著者

DOI

Scopus

12

被引用数

(Scopus)
Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages

Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. INTERSPEECH2019 266 - 270 2019年09月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

4

被引用数

(Scopus)
Multi-channel speech enhancement using time-domain convolutional denoising autoencoder

Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. INTERSPEECH2019 86 - 90 2019年09月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

39

被引用数

(Scopus)
Calving prediction from video: Exploiting behavioural information relevant to calving signs in Japanese black beef cows

Kazuma Sugawara, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. ECPLF2019 663 - 669 2019年08月 [査読有り]

担当区分：最終著者, 責任著者
Two-stage calving prediction system: Exploiting state-based information relevant to calving signs in Japanese black beef cows

Ryosuke Hyodo, Saki Yasuda, Yusuke Okimoto, Susumu Saito, Teppei Nakano, Makoto Akanabe, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. ECPLF2019 670 - 676 2019年08月 [査読有り]

担当区分：最終著者, 責任著者
Data assimilation versus machine learning: Comparative study of fish catch forecasting

Yuka Horiuchi, Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. OCEANS2019 2019年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

1

被引用数

(Scopus)
Psychological measure on fish catches and its application to optimization criterion for machine learning based predictors

Yuya Kokaki, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. OCEANS2019 2019年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

3

被引用数

(Scopus)
Visual explanation of neural network based rotation machinery anomaly detection system

Mao Saeki, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

Proc. ICPHM2019 2019年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

20

被引用数

(Scopus)
Postfiltering using an adversarial denoising autoencoder with noise-aware training

Naohiro Tawara, Hikari Tanabe, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

Proc. ICASSP2019 3282 - 3286 2019年05月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

2

被引用数

(Scopus)
Adversarial autoencoder for reducing nonlinear distortion

Naohiro Tawara, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa

Proc. APSIPA2018 2018年11月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

5

被引用数

(Scopus)
Sequential fish catch forecasting using Bayesian state space models

Yuya Kokaki, Naohiro Tawara, Tetsunori Kobayashi, Kazuo Hashimoto, Tetsuji Ogawa

Proc. ICPR2018 776 - 781 2018年08月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

6

被引用数

(Scopus)
Acoustic feature representation based on timbre for fault detection of rotary machines

Kesaaki Menemura, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. SDPC2018 2018年08月 [査読有り]

DOI

Scopus

3

被引用数

(Scopus)
Tandem connectionist anomaly detection: Use of faulty vibration signals in feature representation learning

Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsuji Ogawa

Proc. ICPHM2018 1 - 7 2018年06月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

12

被引用数

(Scopus)
Speaker invariant feature extraction for zero-resource languages with adversarial training

Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018) 2381 - 2385 2018年04月 [査読有り] [国際誌]

担当区分：最終著者, 責任著者

DOI

Scopus

25

被引用数

(Scopus)
Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations

Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi

Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018) 6084 - 6088 2018年04月 [査読有り] [国際誌]

DOI

Scopus

25

被引用数

(Scopus)
Exploiting end of sentences and speaker alternations in recurrent neural network-based language modeling for multiparty conversations

Hiroto Ashikawa, Naohiro Tawara, Asunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA2017) 2017年12月 [査読有り]

担当区分：最終著者, 責任著者

DOI

Scopus

1

被引用数

(Scopus)
Adaptive training of vibration-based anomaly detector for wind turbine condition monitoring

Takanori Hasegawa, Jun Ogata, Masahiro Murakawa, Tetsunori Kobayashi, Tetsuji Ogawa

Proc. Annual Conference on PHM Society 177 - 184 2017年10月 [査読有り]

担当区分：最終著者, 責任著者
Real-Time Large-Scale Map Matching Using Mobile Phone Data

Essam Algizawy, Tetsuji Ogawa, Ahmed El-Mahdy

ACM Transactions on Knowledge Discovery from Data 11 ( 4 ) 1 - 38 2017年08月 [査読有り] [国際誌]

　概要を見る

With the wide spread use of mobile phones, cellular mobile big data is becoming an important resource that provides a wealth of information with almost no cost. However, the data generally suffers from relatively high spatial granularity, limiting the scope of its application. In this article, we consider, for the first time, the utility of actual mobile big data for map matching allowing for “microscopic” level traffic analysis. The state-of-the-art in map matching generally targets GPS data, which provides far denser sampling and higher location resolution than the mobile data. Our approach extends the typical Hidden-Markov model used in map matching to accommodate for highly sparse location trajectories, exploit the large mobile data volume to learn the model parameters, and exploit the sparsity of the data to provide for real-time Viterbi processing. We study an actual, anonymised mobile trajectories data set of the city of Dakar, Senegal, spanning a year, and generate a corresponding road-level traffic density, at an hourly granularity, for each mobile trajectory. We observed a relatively high correlation between the generated traffic intensities and corresponding values obtained by the gravity and equilibrium models typically used in mobility analysis, indicating the utility of the approach as an alternative means for traffic analysis.

DOI

Scopus

34

被引用数

(Scopus)
Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation

Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi

IEEE/ACM Transactions on Audio, Speech, and Language Processing 25 ( 3 ) 637 - 650 2017年03月 [査読有り] [国際誌]

DOI
A new efficient measure for accuracy prediction and its application to multistream-based unsupervised adaptation

Tetsuji Ogawa, Sri Harish Mallidi, Emmanuel Dupoux, Jordan Cohen, Naomi H. Feldman, Hynek Hermansky

Proc. 23rd International Conference on Pattern Recognition (ICPR2016) 2222 - 2227 2016年12月 [査読有り] [国際誌]

担当区分：筆頭著者, 責任著者

DOI
Nested Gibbs sampling for mixture-of-mixture model and its application to speaker clustering

Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

APSIPA Trans. Signal & Infor. Process. ( 5 ) 2016年08月 [査読有り]

DOI
Video semantic indexing using object detection-derived features

Kotaro Kikuchi, Kazuya Ueki, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. 24th European Signal Processing Conference (EUSIPCO2016) 1288 - 1292 2016年08月 [査読有り]

DOI
Separation matrix optimization using associative memory model for blind source separation

Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri

2015 23rd European Signal Processing Conference, EUSIPCO 2015 1098 - 1102 2015年12月 [査読有り]

　概要を見る

A source signal is estimated using an associative memory model (AMM) and used for separation matrix optimization in linear blind source separation (BSS) to yield high quality and less distorted speech. Linear-filtering-based BSS, such as independent vector analysis (IVA), has been shown to be effective in sound source separation while avoiding non-linear signal distortion. This technique, however, requires several assumptions of sound sources being independent and generated from non-Gaussian distribution. We propose a method for estimating a linear separation matrix without any assumptions about the sources by repeating the following two steps: estimating non-distorted reference signals by using an AMM and optimizing the separation matrix to minimize an error between the estimated signal and reference signal. Experimental comparisons carried out in simultaneous speech separation suggest that the proposed method can reduce the residual distortion caused by IVA.

DOI

Scopus

2

被引用数

(Scopus)
Uncertainty estimation of DNN classifiers

Sri Harish Mallidi, Tetsuji Ogawa, Hynek Hermansky

2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 2015年12月 [査読有り]

DOI
A sampling-based speaker clustering using utterance-oriented Dirichlet process mixture model and its evaluation on large-scale data

Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

APSIPA Transactions on Signal and Information Processing 4 ( 4 ) 2015年10月 [査読有り]

　概要を見る

An infinite mixture model is applied to model-based speaker clustering with sampling-based optimization to make it possible to estimate the number of speakers. For this purpose, a framework of non-parametric Bayesian modeling is implemented with the Markov chain Monte Carlo and incorporated in the utterance-oriented speaker model. The proposed model is called the utterance-oriented Dirichlet process mixture model (UO-DPMM). The present paper demonstrates that UO-DPMM is successfully applied on large-scale data and outperforms the conventional hierarchical agglomerative clustering, especially for large amounts of utterances.

DOI

Scopus

2

被引用数

(Scopus)
Autoencoder based multi-stream combination for noise robust speech recognition

Sri Harish Mallidi, Tetsuji Ogawa, Karel Vesely, Phani S. Nidadavolu, Hynek Hermansky

16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015) 3551 - 3555 2015年09月 [査読有り]

　概要を見る

Performances of automatic speech recognition (ASR) systems degrade rapidly when there is a mismatch between train and test acoustic conditions. Performance can be improved using a multi-stream framework, which involves combining posterior probabilities from several classifiers (often deep neural networks (DNNs)) trained on different features/streams. Knowledge about the confidence of each of these classifiers on a noisy test utterance can help in devising better techniques for posterior combination than simple sum and product rules [1]. In this work, we propose to use autoencoders which are multi layer feed forward neural networks, for estimating this confidence measure. During the training phase, for each stream, an autocoder is trained on TANDEM features extracted from the corresponding DNN. On employing the autoencoder during the testing phase, we show that the reconstruction error of the autoencoder is correlated to the robustness of the corresponding stream. These error estimates are then used as confidence measures to combine the posterior probabilities generated from each of the streams. Experiments on Aurora4 and BABEL databases indicate significant improvements, especially in the scenario of mismatch between train and test acoustic conditions.
Bilinear map of filter-bank outputs for DNN-based speech recognition

Tetsuji Ogawa, Kenshiro Ueda, Kouichi Katsurada, Tetsunori Kobayashi, Tsuneo Nitta

16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015) 16 - 20 2015年09月 [査読有り]

担当区分：筆頭著者, 責任著者

　概要を見る

Filter-bank outputs are extended into tensors to yield precise acoustic features for speech recognition using deep neural networks (DNNs). The filter-bank outputs with temporal contexts form a time-frequency pattern of speech and have been shown to be effective as a feature parameter for DNN-based acoustic models. We attempt to project the filter-bank outputs onto a tensor product space using decorrelation followed by a bilinear map to improve acoustic separability in feature extraction. This extension makes extracting a more precise structure of the time-frequency pattern possible because the bilinear map yields higher-order correlations of features. Experimental comparisons carried out in phoneme recognition demonstrate that the tensor feature provides comparable results to the filter-bank feature, and the fusion of the two features yields an improvement over each feature.
Feature extraction for rotary-machine acoustic diagnostics focused on period

Kesaaki Minemura, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. INTERNOISE2015 2015年08月 [査読有り]
TOWARDS MACHINES THAT KNOW WHEN THEY DO NOT KNOW: SUMMARY OF WORK DONE AT 2014 FREDERICK JELINEK MEMORIAL WORKSHOP

Hynek Hermansky, Lukas Burget, Jordan Cohen, Emmanuel Dupoux, Naomi Feldman, John Godfrey, Sanjeev Khudanpur, Matthew Maciejewski, Sri Harish Mallidi, Anjali Menon, Tetsuji Ogawa, Vijayaditya Peddinti, Richard Rose, Richard Stern, Matthew Wiesner, Karel Vesely

2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 5009 - 5013 2015年 [査読有り]

　概要を見る

A group of junior and senior researchers gathered as a part of the 2014 Frederick Jelinek Memorial Workshop in Prague to address the problem of predicting the accuracy of a nonlinear Deep Neural Network probability estimator for unknown data in a different application domain from the domain in which the estimator was trained. The paper describes the problem and summarizes approaches that were taken by the group.

DOI

Scopus

7

被引用数

(Scopus)
A COMPARATIVE STUDY OF SPECTRAL CLUSTERING FOR I-VECTOR-BASED SPEAKER CLUSTERING UNDER NOISY CONDITIONS

Naohiro Tawara, Tetsuji Ogawa, Tetsunori Kobayashi

2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 2041 - 2045 2015年 [査読有り]

　概要を見る

The present paper dealt with speaker clustering for speech corrupted by noise. In general, the performance of speaker clustering significantly depends on how well the similarities between speech utterances can be measured. The recently proposed i-vector-based cosine similarity has yielded the state-of-the-art performance in speaker clustering systems. However, this similarity often fails to capture the speaker similarity under noisy conditions. Therefore, we attempted to examine the efficiency of spectral clustering on i-vector-based similarity for speech corrupted by noise because spectral clustering can yield robustness against noise by non-linear projection. Experimental comparisons demonstrated that spectral clustering yielded significant improvement from conventional methods, such as agglomerative clustering and k -means clustering, under non-stationary noise conditions.

DOI

Scopus

4

被引用数

(Scopus)
Effect of frequency weighting on MLP-based speaker canonicalization

Yuichi Kubota, Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, Tsuneo Nitta

Proc. INTERSPEECH2014 2987 - 2991 2014年09月 [査読有り]
Vision based SLAM for humanoid robots: A survey

Walaa Gouda, Walid Gomaa, Tetsuji Ogawa

Proceedings of the 2013 2nd International Japan-Egypt Conference on Electronics, Communications and Computers, JEC-ECC 2013 170 - 175 2013年12月 [査読有り]

担当区分：最終著者

　概要を見る

This paper is a survey work for designing a Vision based Simultaneous Localization and Mapping (VSLAM) humanoid robot to generate a map of an unknown environment. A lot of factors have to be considered while designing a VSLAM robot. Vision Sensors are very attractive for application in SLAM because of their rich sensory output and cost effectiveness. Different issues are involved in the problem of vision based SLAM and many different approaches exist in order to solve these issues. Similarly the type of environment determines the suitable feature extraction method. The main objective of this survey is to conduct a comparative study among the current vision sensing methods in terms of imaging systems used for performing VSLAM, feature extraction algorithms used in some recently published papers, and initialization of landmarks, and to figure out the best for our work. © 2013 IEEE.

DOI

Scopus

13

被引用数

(Scopus)
Integration of MKL-based and i-vector-based speaker verification by short

Hideitsu Hino, Tetsuji Ogawa

2013 SECOND IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR 2013) 562 - 566 2013年11月 [査読有り]

担当区分：最終著者, 責任著者

　概要を見る

We developed a speaker verification system that is efficient for short utterances. The i-vector-based speaker representation has helped realize highly accurate speaker verification systems; however, it might be not robust against short utterances because the reliability of statistics required for extracting i-vectors is low. On the other hand, multiple kernel learning based on conditional entropy minimization has also achieved high accuracy in speaker verification that is robust against intra-speaker variability. To improve the robustness of speaker verification systems against short utterances, we attempted to integrate the above-mentioned complementary systems. Our experimental results showed that the proposed system integration achieved high-accuracy speaker verification systems, irrespective of the utterance lengths, even for very short utterances (e.g., less than two seconds).

DOI

Scopus

1

被引用数

(Scopus)
Blocked Gibbs sampling based multi-scale mixture model for speaker clustering on noisy data

Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

IEEE International Workshop on Machine Learning for Signal Processing, MLSP 2013年09月 [査読有り]

　概要を見る

A novel sampling method is proposed for estimating a continuous multi-scale mixture model. The multi-scale mixture models we assume have a hierarchical structure in which each component of the mixture is represented by a Gaussian mixture model (GMM). In speaker modeling from speech, this GMM represents intra-speaker dynamics derived from the difference in the attributes such as phoneme contexts and the existence of non-stationary noise and the mixture of GMMs (MoGMMs) represents inter-speaker dynamics derived from the difference in speakers. Gibbs sampling is a powerful technique to estimate such hierarchically structured models but can easily induce the local optima problem depending on its use especially when the elemental GMMs are complex in structure. To solve this problem, a highly accurate and robust sampling method based on the blocked Gibbs sampling and iterative conditional modes (ICM) is proposed and effectively applied for reducing a singularity solution given in the model with complex multi-modal distributions. In speaker clustering experiments under non-stationary noise, the proposed sampling-based model estimation improved the clustering performance by 17% on average compared to the conventional sampling-based methods. © 2013 IEEE.

DOI

Scopus

1

被引用数

(Scopus)
Stream Selection and Integration in Multistream ASR Using GMM-Based Performance Monitoring

Tetsuji Ogawa, Feipeng Li, Hynek Hermansky

14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013) 3331 - 3335 2013年08月 [査読有り]

担当区分：筆頭著者, 責任著者

　概要を見る

A moderately deep and rather wide artificial neural net is applied in phoneme recognition of noisy speech. The net is formed by first estimating posterior probabilities of phonemes in 21 band-limited streams covering the whole speech spectrum. These 21 band-limited streams are subdivided into three seven band-limited stream subsets, by differently sub-sampling the original 21 band-limited streams. In the second processing stage, all non-empty combinations of seven band-limited streams from each subset are formed as inputs to 127 artificial neural nets that are again trained to yield phoneme posteriors. In this way, 127 x 3 = 381 processing streams are formed. A novel technique for finding the best combination of the resulting 381 parallel processing streams, which uses the likelihood of a single-state Gaussian mixture model of the final classifier output is applied to selecting the most efficient streams. The technique is efficient in phoneme recognition of speech that is corrupted by realistic additive noise.
An Improved Entropy-Based Multiple Kernel Learning

Hideitsu Hino, Tetsuji Ogawa

2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012) 1189 - 1192 2012年11月 [査読有り]

担当区分：最終著者

　概要を見る

Kernel methods have been successfully used in many practical machine learning problems. However, the problem of choosing a suitable kernel is left to practitioners. One method to select the optimal kernel is to learn a linear combination of element kernels. A framework of multiple kernel learning based on conditional entropy minimization criterion (MCEM) has been proposed and it has been shown to work well for, e.g., speaker recognition tasks. In this paper, a computationally efficient implementation for MCEM, which utilizes sequential quadratic programming, is formulated. Through a comparative experiment to conventional MCEM algorithm on a speaker verification task, the proposed method is shown to offer comparable verification accuracy with considerable improvement in computational speed.
Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model

Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi

13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012) 2163 - 2166 2012年09月 [査読有り]

　概要を見る

We have proposed a novel speaker clustering method based on a hierarchically structured utterance-oriented Dirichlet process mixture model. In the proposed method, the number of speakers can be determined from the given data using a nonparametric Bayesian manner and intra-speaker variability is successfully handled by multi-scale mixture modeling. Experimental result showed that the proposed method is computationally-efficient and effective in speaker clustering. The proposed method significantly improve the accuracy of speaker clustering systems as compared with the conventional method, particularly for the case in which the number of utterances varied from speaker to speaker.
FULLY BAYESIAN INFERENCE OF MULTI-MIXTURE GAUSSIAN MODEL AND ITS EVALUATION USING SPEAKER CLUSTERING

Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi

2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 5253 - 5256 2012年03月 [査読有り]

　概要を見る

This study aims to verify effective optimization methods for estimating parametric, fully Bayesian models in speech processing. For that purpose, we investigate the impact of the difference in optimization methods for the multi-scale Gaussian mixture model, which is suitable for speaker clustering, on the clustering accuracy. The Markov chain Monte Carlo (MCMC)-based method was compared with the variational Bayesian method in the speaker clustering experiment; with a small amount of data, the MCMC-based method was more effective; with large scale data (more than one million samples), the difference between these methods in terms of the clustering accuracy decreased and the MCMC-based method was computationally efficient.

DOI

Scopus

6

被引用数

(Scopus)
CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments

Takahiro Fukumori, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Norihide Kitaoka, Takeshi Yamada, Kazumasa Yamamoto, Satoru Tsuge, Masakiyo Fujimoto, Tetsuya Takiguchi, Chiyomi Miyajima, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

Acoustical Science and Technology 32 ( 5 ) 201 - 210 2011年09月 [査読有り]

　概要を見る

We have been distributing a new collection of databases and evaluation tools called CENSREC-4, which is a framework for evaluating distant-talking speech in reverberant environments. The data contained in CENSREC-4 are connected digit utterances as in CENSREC-1. Two subsets are included in the data: "basic data sets" and "extra data sets." The basic data sets are used for evaluating the room impulse response-convolved speech data to simulate the various reverberations. The extra data sets consist of simulated data and corresponding real recorded data. Evaluation tools are presently only provided for the basic data sets and will be delivered to the extra data sets in the future. The task of CENSREC-4 with a basic data set appears simple
however, the results of experiments prove that CENSREC-4 provides a challenging reverberation speech-recognition task, in the sense that a traditional technique to improve recognition and a widely used criterion to represent the difficulty of recognition deliver poor performance. Within this context, this common framework can be an important step toward the future evolution of reverberant speech-recognition methodologies. © 2011 The Acoustical Society of Japan.

DOI

Scopus

2

被引用数

(Scopus)
Development and evaluation of Japanese Lombard speech corpus

Tetsuji Ogawa, Takanobu Nishiura, Takeshi Yamada, Norihide Kitaoka, Tetsunori Kobayashi

Proc. Internoise2011 2011年09月 [査読有り] [招待有り]

担当区分：筆頭著者, 責任著者
Class-Distance-Based Discriminant Analysis and Its Application to Supervised Automatic Age Estimation

Tetsuji Ogawa, Kazuya Ueki, Tetsunori Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E94D ( 8 ) 1683 - 1689 2011年08月 [査読有り]

担当区分：筆頭著者, 責任著者

　概要を見る

We propose a novel method of supervised feature projection called class-distance-based discriminant analysis (CDDA), which is suitable for automatic age estimation (AAE) from facial images. Most methods of supervised feature projection, e.g., Fisher discriminant analysis (FDA) and local Fisher discriminant analysis (LFDA), focus on determining whether two samples belong to the same class (i.e., the same age in AAE) or not. Even if an estimated age is not consistent with the correct age in AAE systems, i.e., the AAE system induces error, smaller errors are better. To treat such characteristics in AAE, CDDA determines between-class separability according to the class distance (i.e., difference in ages); two samples with similar ages are imposed to be close and those with spaced ages are imposed to be far apart. Furthermore, we propose an extension of CDDA called local CDDA (LCDDA), which aims at handling multimodality in samples. Experimental results revealed that CDDA and LCDDA could extract more discriminative features than FDA and LFDA.

DOI

Scopus
Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization

Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, Tetsunori Kobayashi

Proc. Interspeech2011 2741 - 2744 2011年08月 [査読有り]

担当区分：筆頭著者, 責任著者
Speaker Clustering Based on Utterance-oriented Dirichlet Process Mixture Model

Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011) 2905 - 2908 2011年08月 [査読有り]

　概要を見る

This paper provides the analytical solution and algorithm of UO-DPMM based on a non-parametric Bayesian manner, and thus realizes fully Bayesian speaker clustering. We carried out preliminary speaker clustering experiments by using a TIMIT database to compare the proposed method with the conventional Bayesian Information Criterion (BIC) based method, which is an approximate Bayesian approach. The results showed that the proposed method outperformed the conventional one in terms of both computational cost and robustness to changes in tuning parameters.
Spatial filter calibration based on minimization of modified LSD

Nobuaki Tanaka, Tetsuji Ogawa, Tetsunori Kobayashi

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011) 1761 - 1764 2011年08月 [査読有り]

　概要を見る

A new sound source separation method has been developed that is robust against individual variability in microphones and acoustic lines. A specific area that has a target sound source was enhanced by using a spatial filter developed by time-frequency masking. However, there is a strong likelihood that the spatial filters will be distorted due to the impact of individual variability in microphone characteristics and acoustic lines. To solve this problem, calibration of these spatial filters' shapes was attempted using a modified log-spectral distance (MLSD) minimization criterion, which uses utterances made by each individual (i.e., a sound source) at the desired positions. The effectiveness of this spatial filter calibration was experimentally verified in speech recognition experiments; MLSD-based calibration had fewer word errors than the cases without calibration and calibration using other criteria.
Speaker recognition using multiple kernel learning based on conditional entropy minimization

Tetsuji Ogawa, Hideitsu Hino, Nima Reyhani, Noboru Murata, Tetsunori Kobayashi

2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2204 - 2207 2011年05月 [査読有り]

担当区分：筆頭著者, 責任著者

DOI
CENSREC-1-AV: An audio-visual corpus for noisy bimodal speech recognition

Satoshi Tamura, Chiyomi Miyajima, Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Tetsuya Takiguchi, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

Proc. AVSP2010 2010年09月 [査読有り]
DEVELOPMENT OF ZONAL BEAMFORMER AND ITS APPLICATION TO ROBOT AUDITION

Nobuaki Tanaka, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

18TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO-2010) 1529 - 1533 2010年08月 [査読有り]

　概要を見る

We have proposed a zonal beamformer (ZBF), which enhances the sound source located in a zonal space, and applied the ZBF to noise reduction systems for robot audition. A conversational partner of a robot does not always remain stationary with respect to the robot. In order to cope with such a situation, we have proposed a fan-like beamformer (FBF), which enhances the sound source located in a fan-like space in front of the robot under the assumption that the partner is in front of the robot. However, the FBF may degrade the noise reduction performance when directional noise sources are located behind the target source because the FBF widens the space as the distance from the robot increases. The ZBF can better improve the performance of eliminating the directional noise coming from behind the target source than the FBF because the ZBF has a considerably sharper directivity than the FBF.
Speech Enhancement Using a Square Microphone Array in the Presence of Directional and Diffuse Noise

Tetsuji Ogawa, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E93A ( 5 ) 926 - 935 2010年05月 [査読有り]

担当区分：筆頭著者, 責任著者

　概要を見る

We propose a new speech enhancement method suitable for mobile devices used in the presence of various types of noise. In order to achieve high-performance speech recognition and auditory perception in mobile devices, various types of noise have to be removed under the constraints of a space-saving microphone arrangement and few computational resources. The proposed method can reduce both the directional noise and the diffuse noise under the abovementioned constraints for mobile devices by employing a square microphone array and conducting low-computational-cost processing that consists of multiple null beamforming, minimum power channel selection, and Wiener filtering. The effectiveness of the proposed method is experimentally verified in terms of speech recognition accuracy and speech quality when both the directional noise and the diffuse noise are observed simultaneously; this method reduces the number of word errors and improves the log-spectral distances as compared to conventional methods.

DOI

Scopus

4

被引用数

(Scopus)
Development of zonal beam former and its application to robot audition

Nobuaki Tanaka, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

European Signal Processing Conference 1529 - 1533 2010年

　概要を見る

We have proposed a zonal beamformer (ZBF), which enhances the sound source located in a zonal space, and applied the ZBF to noise reduction systems for robot audition. A conversational partner of a robot does not always remain stationary with respect to the robot. In order to cope with such a situation, we have proposed a fan-like beamformer (FBF), which enhances the sound source located in a fan-like space in front of the robot under the assumption that the partner is in front of the robot. However, the FBF may degrade the noise reduction performance when directional noise sources are located behind the target source because the FBF widens the space as the distance from the robot increases. The ZBF can better improve the performance of eliminating the directional noise coming from behind the target source than the FBF because the ZBF has a considerably sharper directivity than the FBF. © EURASIP, 2010.
Influence of Lombard Effect: Accuracy Analysis of Simulation-Based Assessments of Noisy Speech Recognition Systems for Various Recognition Conditions

Tetsuji Ogawa, Tetsunori Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E92D ( 11 ) 2244 - 2252 2009年11月 [査読有り]

担当区分：筆頭著者, 責任著者

　概要を見る

The accuracy of simulation-based assessments of speech recognition systems under noisy conditions is investigated with a focus on the influence of the Lombard effect on the speech recognition performances. This investigation was carried out under various recognition conditions of different sound pressure levels of ambient noise, for different recognition tasks, such as continuous speech recognition and spoken word recognition, and using different recognition systems, i.e., systems with and without adaptation of the acoustic models to ambient noise. Experimental results showed that accurate simulation was not always achieved when dry sources with neutral talking style were used, but it could be achieved if the dry sources that include the influence of the Lombard effect were used; the simulation in the latter case is accurate, irrespective of the recognition conditions.

DOI

Scopus

4

被引用数

(Scopus)
Robot auditory system using head-mounted square microphone array

Kosuke Hosoya, Tetsuji Ogawa, Tetsunori Kobayashi

2009 IEEE-RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS 2736 - 2741 2009年10月 [査読有り]

　概要を見る

A new noise reduction method suitable for autonomous mobile robots was proposed and applied to preprocessing of a hands-free spoken dialogue system. When a robot talks with a conversational partner in real environments, not only speech utterances by the partner but also various types of noise, such as directional noise, diffuse noise, and noise from the robot, are observed at microphones. We attempted to remove these types of noise simultaneously with small and light-weighted devices and low-computational-cost algorithms. We assumed that the conversational partner of the robot was in front of the robot. In this case, the aim of the proposed method is extracting speech signals coming from the frontal direction of the robot. The proposed noise reduction system was evaluated h the presence of various types of noise: the number of word errors was reduced by 69 % as compared to the conventional methods. The proposed robot auditory system can also cope with the case in which a conversational partner (i.e., a sound source) moves from the front of the robot: the sound source was localized by face detection and tracking using facial images obtained from a camera mounted on an eye of the robot. As a result, various types of noise could be reduced in real time, irrespective of the sound source positions, by combining speech information with image information.

DOI

Scopus

6

被引用数

(Scopus)
CENSREC-1-C: An evaluation framework for voice activity detection under noisy environments

Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

Acoustical Science and Technology 30 ( 5 ) 363 - 371 2009年08月 [査読有り]

　概要を見る

Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environments. We have developed an evaluation framework for VAD under noisy environments, named CENSREC-1-C. We designed this framework for simple isolated utterance detection and hence, this framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We define two evaluation measures, one for frame-level detection performance and the other for utterance-level detection performance. We also provide the evaluation results of a power-based VAD method as a reference. ©2009 The Acoustical Society of Japan.

DOI

Scopus

27

被引用数

(Scopus)
Direction-of-arrival estimation under noisy condition using four-line omni-directional microphones mounted on a robot head

Tetsuji Ogawa, Kosuke Hosoya, Kenzo Akagiri, Tetsunori Kobayashi

Proc. EUSIPCO2009 2009年08月 [査読有り]
CENSREC-4: Development of Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments

Masato Nakayama, Takanobu Nishiura, Yuki Denda, Norihide Kitaoka, Kazumasa Yamamoto, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura

INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 968 - 971 2008年09月 [査読有り]
Class Distance Weighted Locality Preserving Projection for Automatic Age Estimation

Kazuya Ueki, Masakazu Miya, Tetsuji Ogawa, Tetsunori Kobayashi

2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems (BTAS2008) 2008年09月 [査読有り]

DOI
Ears of the Robot: Noise Reduction Using Four-Line Ultra-Micro Omni-Directional Microphones Mounted on A Robot Head

Tetsuji Ogawa, Hirofumi Takeuchi, Shintaro Takada, Kenzo Akagiri, Tetsunori Kobayashi

Proc. EUSIPCO2008 2008年08月 [査読有り]

担当区分：筆頭著者, 責任著者
Ears of the robot: Direction of arrival estimation based on pattern recognition using robot-mounted microphones

Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E91D ( 5 ) 1522 - 1530 2008年05月 [査読有り]

　概要を見る

We propose a new type of direction-of-arrival estimation method for robot audition that is free from strict head related transfer function estimation. The proposed method is based on statistical pattern recognition that employs a ratio of power spectrum amplitudes occurring for a microphone pair as a feature vector. It does not require any phase information explicitly, which is frequently used in conventional techniques, because the phase information is unreliable for the case in which strong reflections and diffractions occur around the microphones. The feature vectors we adopted can treat these influences naturally. The effectiveness of the proposed method was shown from direction-of-arrival estimation tests for 19 kinds of directions: 92.4% of errors were reduced compared with the conventional phase-based method.

DOI

Scopus

3

被引用数

(Scopus)
Speech enhancement using square microphone array for mobile devices

Shintaro Takada, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12 313 - 316 2008年04月 [査読有り]

　概要を見る

In this paper, we propose a new type of speech enhancement method that is suitable for mobile devices used in noisy environments. For the sake of achieving high-performance speech recognition and auditory perception in the mobile devices, disturbance noises have to be removed under the requirements of a space-saving microphone arrangement and a low computational cost. The proposed method can reduce both the directional and the diffuse noises under the requirements for the mobile devices by applying the square microphone array and the low-cost processing that consists of multiple null beam-forming, their minimum power channel selection and Wiener filtering. The effectiveness of the proposed method is clarified for speech recognition accuracies and speech qualities under the condition in which both the directional and the diffuse noises exist simultaneously: it reduced 40% of recognition errors and improved PESQ-based MOS value by 0.75 point.

DOI

Scopus

6

被引用数

(Scopus)
Sound source separation using null-beamforming and spectral subtraction for mobile devices

Shintaro Takada, Satoshi Kanba, Tetsuji Ogawa, Kenzo Akagiri, Tetsunori Kobayashi

Proc. 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2007) 133 - 136 2007年10月 [査読有り]

　概要を見る

This paper presents a new type of speech segregation method for mobile devices in noisy sound situation, where two or more speakers are talking simultaneously. The proposed method consists of multiple null-beamformers, their minimum power channel selection and spectral subtraction. The proposed method is performed with space-saving and coplanar microphone arrangements and low-cost calculations, which are the very important requirements for the mobile application. Effectiveness of the proposed method is clarified in the segregation and the recognition experiments of two simultaneous continuous speeches: the method improved the PESQ-based MOS value by about one point and reduced 70% of word recognition errors compared with non-processing.

DOI

Scopus

9

被引用数

(Scopus)
Ears of the robot: Three simultaneous speech segregation and recognition using robot-mounted microphones

Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi

IEICE Transactions on Information and Systems E90-D ( 9 ) 1465 - 1468 2007年09月 [査読有り]

担当区分：責任著者

　概要を見る

A new type of sound source segregation method using robot-mounted microphones, which are free from strict head related transfer function (HRTF) estimation, has been proposed and successfully applied to three simultaneous speech recognition systems. The proposed segregation method is executed with sound intensity differences that are due to the particular arrangement of the four directivity microphones and the existence of a robot head acting as a sound barrier. The proposed method consists of three-layered signal processing: two-line SAFIA (binary masking based on the narrow band sound intensity comparison), two-line spectral subtraction and their integration. We performed 20 K vocabulary continuous speech recognition test in the presence of three speakers' simultaneous talk, and achieved more than 70% word error reduction compared with the case without any segregation processing. Copyright © 2007 The Institute of Electronics, Information and Communication Engineers.

DOI

Scopus

3

被引用数

(Scopus)
Adequacy Analysis of Simulation-Based Assessment of Speech Recognition System

Tetsuji Ogawa, Satoshi Kanba, Tetsunori Kobayashi

2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP '07 ( 4 ) 1153 - 1157 2007年04月 [査読有り]

担当区分：筆頭著者

DOI
Manifold HLDA and Its Application to Robust Speech Recognition

Toshiaki Kubo, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 9th International Conference on Spoken Language Processing (INTERSPEECH2006 - ICSLP) 1551 - 1554 2006年09月 [査読有り]

担当区分：責任著者

DOI
Source Separation Using Multiple Directivity Patterns Produced by ICA-based BSS

Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 14th European Signal Processing Conference (EUSIPCO2006) 2006年09月 [査読有り]
A Method for Solving the Permutation Problem of Frequency-Domain BSS Using Reference Signal

Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. The 14th European Signal Processing Conference (EUSIPCO2006) 2006年09月 [査読有り]
対話ロボットの動作に頑健な頭部ジェスチャ認識

中島慶, 江尻康, 藤江真也, 小川哲司, 松坂要佐, 小林哲則

電子情報通信学会論文誌 J89-D ( 7 ) 1514 - 1522 2006年09月 [査読有り]

　概要を見る

ロボットが人と対話をする上で,対話相手の頭部ジェスチャを認識することは,自然な対話を実現するために重要である.しかし,ロボット頭部に設置したカメラからの入力画像をジェスチャの認識に用いる場合,ロボット自身も頭部ジェスチャを行うことが求められるため画像は乱れ,認識は困難となる.本論文では,HMMによるジェスチャ認識を対象として,揺れの多い画像への対処法について検討した.具体的には,HMMの出力確率をロボットの動作ごとに用意した上で,これをロボット動作に応じて切り換えて使用することを試みた.評価実験の結果,ロボット動作に応じたモデルの切換を行うことで,これをしない場合に比べ79%のエラーを削減でき,提案法の有効性が確かめられた.

CiNii
Genetic algorithm based optimization of Partly-Hidden Markov Model structure using discriminative criterion

Tetsuji Ogawa, Tetsunori Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E89D ( 3 ) 939 - 945 2006年03月 [査読有り]

担当区分：筆頭著者

　概要を見る

A discriminative modeling is applied to optimize the structure of it Partly-Hidden Markov Model (PHMM). PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can represent observation dependent behaviors in both observations and state transitions. In the formulation of the previous PHMM we used a common structure for all models. However, it is expected that the optimal structure which gives the best performance differs front category to category. In this paper, we designed a new structure optimization method in which the dependence of the states and the observations of PHMM are optimally defined according to each model using the weighted likelihood-ratio maximization (WLRM) criterion. The WLRM criterion gives high discriminability between the correct category and the incorrect categories. Therefore it gives model structures with good discriminative performance. We define the model structure combination which satisfy the WLRM criterion for any possible structure combinations as the optimal structures. A genetic algorithm is also applied to the adequate approximation of a full search. With results of continuous lecture talk speech recognition, the effectiveness of the proposed structure optimization is shown: it reduced the word errors compared to HMM and PHMM with a common structure for all models.

DOI

Scopus

2

被引用数

(Scopus)
A Method for Solving the Permutation Problem of Frequency-domain Blind Source Separation using Reference Signal

Takashi Isa, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

Biennial on DSP for in-Vehicle and Mobile Systems 2005年09月 [査読有り]
Optimizing the Structure of Partly-Hidden Markov Models Using Weighted Likelihood-Ratio Maximization Criterion

Tetsuji Ogawa, Tetsunori Kobayashi

Proc. Interspeech2005 3353 - 3356 2005年09月 [査読有り]

担当区分：筆頭著者
Extension of Hidden Markov Models for multiple candidates and its application to gesture recognition

Yosuke Sato, Tetsuji Ogawa, Tetsunori Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E88D ( 6 ) 1239 - 1247 2005年06月 [査読有り]

　概要を見る

We propose a modified Hidden Markov Model (HMM) with a view to improve gesture recognition using a moving camera. The conventional HMM is formulated so as to deal with only one feature candidate per frame. However. for a mobile robot, the background and the lighting conditions are always changing, and the feature extraction problem becomes difficult. It is almost impossible to extract a reliable feature vector under such conditions. In this paper, we define a new gesture recognition framework in which multiple candidates of feature vectors are generated with confidence measures and the HMM is extended to deal with these multiple feature vectors. Experimental results comparing the proposed system with feature vectors based on DCT and the method of selecting only one candidate feature point verifies the effectiveness of the proposed technique.

DOI

Scopus

1

被引用数

(Scopus)
Recognition of three simultaneous utterance of speech by four-line directivity microphone mounted on head of robot

Naoya Mochiki, Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. ICSLP2004 2 821 - 824 2004年10月 [査読有り]
部分隠れマルコフモデルにおける状態・出力依存関係の拡張と連続音声認識への適用

小川哲司, 小林哲則

電子情報通信学会論文誌 J87-DII ( 6 ) 1216 - 1223 2004年06月 [査読有り]

担当区分：筆頭著者

　概要を見る

部分隠れマルコフモデル(Partly-Hidden Markov Model; PHMM)における状態と出力の相互依存関係を拡張し,連続音声認識に適用した.PHMMは,隠れ状態と観測可能な状態という二つの状態系列に依存して出力確率,状態遷移確率が決まる枠組みであり,従来のPHMMにおいては,隠れ状態と観測可能な状態は各々,出力確率を条件づけるものに対しても,状態遷移確率を条件づけるものに対しても,同じものを用いていた.ここでは,隠れ状態に関しては,出力確率,状態遷移確率の双方を条件づけるものとして同じものを用い,観測可能な状態に関しては,出力確率を条件づけるものと,状態遷移確率を条件づけるものとで,別のものを用いることを考える.このような簡単な改良により大きな自由度が与えられ,より精度の高い確率過程のモデルを実現できる.また,このように状態と出力の相互依存関係を拡張したPHMMとHMMを統合した確率モデルである平滑化部分隠れマルコフモデル(Smoothed PHMM; SPHMM)を構築し,検討を行った.新聞読上げ音声を対象とした連続音声認識実験の結果,PHMM,SPHMMはHMMに比べて,各々10%,24%の誤りを削減し,提案モデルの有効性が示された.

CiNii
Speech Recognition of Double Talk using SAFIA-based Audio Segregation

Toshiyuki Sekiya, Tetsuji Ogawa, Tetsunori Kobayashi

Proc. EUROSPEECH2003 1285 - 1288 2003年09月 [査読有り]
Hybrid modeling of PHMM and HMM for speech recognition

Tetsuji Ogawa, Tetsunori Kobayashi

2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS 1 140 - 143 2003年 [査読有り]

担当区分：筆頭著者

　概要を見る

A hybrid acoustic model of Partly Hidden Markov Model (PHMM) and HMM is proposed,
PHMM was proposed in our previous work to deal with the complicated temporal changes of acoustic features. It can realize the observation dependent behaviors in both observations and state transitions. It achieved good performance but some errors with different trend from HMM still remained.
In this paper, we designed a new acoustic model on the basis of PHMM, in which the observation and state transition probabilities are defined by the geometric means of PHMM-based ones and HMM-based ones. In this framework, if a word hypothesis is given a low score by either PHMM or HMM, it almost loses possibilities to be a probable candidate. Since many errors are due to the high-scores of incorrect categories, rather than the low-score of the correct category, this property contributed to reduce errors. Moreover, the proposed model is more stable than PHMM because the higher order statistics of PHMM, which is generally accurate but sometimes less reliable, is smoothed by the lower order statistics of HMM, which is not so accurate but robust.
Experimental results showed the effectiveness of proposed model: it reduced the word errors by 25% compared with HMM.

DOI
Generalization of State-Observation-Dependency in Partly Hidden Markov Models

Tetsuji Ogawa, Tetsunori Kobayashi

Proc. ICSLP2002 2673 - 2676 2002年09月 [査読有り]

担当区分：筆頭著者

▼全件表示

書籍等出版物

Smart fisheries

WADA Masaaki( 担当：分担執筆, 担当範囲: Catch Prediction Model)

Midori Shobo 2023年03月 ISBN: 9784895318853
音声（下）

岩野, 公司, 河原, 達也, 篠田, 浩一, 伊藤, 彰則, 増村, 亮, 小川, 哲司, 駒谷, 和範( 担当：分担執筆, 担当範囲: 話者認識)

コロナ社 2023年01月 ISBN: 9784339013672
スマート水産業入門

和田, 雅昭( 担当：分担執筆, 担当範囲: 定置網漁の日次漁獲量予測～定置網漁に関する知識を組み込んだビッグデータを必要としない漁獲量予測モデリング～)

緑書房 2022年03月 ISBN: 9784895317818
人工知能学大事典

人工知能学会( 担当：分担執筆, 担当範囲: 話者認識・話者照合)

共立出版 2017年07月 ISBN: 9784320997974
音響キーワードブック

日本音響学会( 担当：分担執筆, 担当範囲: 話者ダイアライゼーション)

コロナ社 2016年03月 ISBN: 9784339008807

ASIN

講演・口頭発表等

風車の予知保全に向けた故障予兆検知技術

小川哲司 [招待有り]

産業技術総合研究所第87回人工知能セミナー「AI技術と風力発電」

発表年月： 2025年08月
気象・海況情報を用いた良漁場予測における予測範囲の絞り込みに関する取り組み

兒新治紀, 中野鐵兵, 宮澤泰正, 小川哲司

マリンITワークショップ2023

発表年月： 2023年08月
畜産農家が納得して意思決定するための繁殖牛の映像監視モデリング

小川哲司, 斎藤奨, 中野鐵兵 [招待有り]

第10回計測自動制御学会制御部門マルチシンポジウム，企画セッション：農・林・畜・水産業への計測制御技術応用

発表年月： 2023年03月
Video monitoring for detecting calving signs of breeding cows - How to construct and operate AI systems that enable users to make decisions with conviction?

Tetsuji Ogawa

CSE Research Seminar in E-JUST, E-JUST, Alexandria, Egypt

発表年月： 2022年12月
Tutti: データアノテーション用システム開発・運用基盤

斎藤奨, 中野鐵兵, 小川哲司

第25回情報論的学習理論ワークショップ (IBIS2022)

発表年月： 2022年11月
予測クラスの相違に基づく深層ニューラルネットワークの不確実性推定

松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

第24回情報論的学習理論ワークショップ（IBIS2021）

発表年月： 2021年11月
映像監視に基づく繁殖牛の分娩予兆検知～ユーザが納得して意思決定できるような映像監視システムをどう構築し運用するか？～

小川哲司

第2回AI・人工知能EXPO秋・アカデミックフォーラム

発表年月： 2021年10月
船上映像からの魚体の検出・追跡に基づく漁獲尾数計測

田中理子, 中野鐵兵, 漁崎盛也, 小川哲司

マリンITワークショップ2021

発表年月： 2021年09月
意思決定支援のための説明可能な状態監視システムの構築・運用法（家畜の映像監視を例に）

小川哲司, 兵頭亮介, 斎藤奨, 中野鐵兵 [招待有り]

電子情報通信学会総合大会，企画セッション：AIは本当にPoCを超えられるのか？-実用化を阻む大きな壁-

発表年月： 2021年03月
メジカ漁師の意思決定に対する直接的支援のための漁場予測に関する検討～高知マリンイノベーションの取り組みとして～

小川哲司, 堀内優佳, 田中理子, 宮澤泰正, 漁崎盛也

マリンITワークショップ2021みえ

発表年月： 2021年03月
風車異常検知システムの早期運用に関する事例紹介～メンテナンスに係る意思決定のために人工知能技術をどう構築・運用すべきか？～

小川哲司, 長谷川隆徳, 緒方淳 [招待有り]

トライボロジー技術へのAIの活用を考える研究会

発表年月： 2021年03月
ビッグデータを利用できないとき，人工知能技術をどう開発し運用するか？～第一次産業支援に関する事例紹介～

小川哲司 [招待有り]

早稲田大学実体情報学博士プログラム 2020年度第4回コロキューム

発表年月： 2020年12月
ユーザの意思決定過程に関するドメイン知識を組み込んだ解釈可能な映像監視モデリング

兵頭亮介, 中野鐵兵, 小川哲司

第23回情報論的学習理論ワークショップ (IBIS2020) (茨城県・つくば市)

発表年月： 2020年11月
ビッグデータを利用できないとき，AI技術をどう開発するか？～水産業支援と畜産業支援の事例紹介～

小川哲司, 斎藤奨, 中野鐵兵 [招待有り]

電子情報通信学会総合大会，企画セッション：あなたは本当にAIを理解していますか？ - 基本原理から使い方，応用まで -

発表年月： 2020年03月

開催年月：
2020年03月

　

　
人工知能技術の現状と課題～メンテナンスや一次産業支援に適用する際に注意すべきこと～

小川哲司 [招待有り]

IoTビジネス推進コンソーシアム沖縄第7回セミナー (沖縄県・那覇市)

発表年月： 2019年10月
センサデータの欠損が漁獲量予測性能に与える影響

小川哲司, 堀内優佳, 小林哲則, 福嶋正義, 井戸上彰

マリンITワークショップ2019 (北海道・函館市)

発表年月： 2019年08月
漁獲量心理尺度と機械学習による漁獲量予測モデルの最適化への利用

小川哲司, 幸加木裕也, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰

マリンITワークショップ2019いしがき (沖縄県・石垣市)

発表年月： 2019年03月
最近の人工知能技術事情と鹿児島県における産学連携導入事例

小川哲司 [招待有り]

鹿児島ITビジネス研究会 (鹿児島県・鹿児島市)

発表年月： 2019年03月
状態空間モデルを用いた定置網漁のための日単位漁獲量予測

小川哲司

マリンITワークショップ (北海道・函館市)

発表年月： 2018年08月
情報工学から考えるIoTと畜産の未来

小川哲司 [招待有り]

日本繁殖生物学会若手サマーセミナー合宿 (茨城県・笠間市)

発表年月： 2018年08月
Toward proactive forecasting for smart maintenance of infrastructure equipment and support for primary industry

Tetsuji Ogawa [招待有り]

7th Research Seminar in E-JUST (Alexandria) Egypt-Japan University of Science and Technology (E-JUST)

発表年月： 2018年03月
人工知能研究の進展と課題

小川哲司 [招待有り]

鹿児島ITビジネス研究会 (鹿児島県・鹿児島市)

発表年月： 2017年09月
High resolution traffic maps generation using cellular big data

Ahmed El-Mahdy, Essam Algizawy, Tetsuji Ogawa, Hisham Shishiny, Mohamed Badder, Keiji Kimura

NetMob2015 (Boston)

発表年月： 2015年04月
階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較

俵直弘, 小川哲司, 渡部晋治, 小林哲則

第14回情報論的学習理論ワークショップ（IBIS2011） (奈良県・奈良市)

発表年月： 2011年11月
クラス間距離に基づく判別分析と年齢推定システムへの適用

小川哲司, 小林哲則

第13回情報論的学習理論ワークショップ（IBIS2010） (東京都・目黒区)

発表年月： 2010年11月
Sound source separation system and acoustic signal acquisition device

Tetsuji Ogawa

Leading Edge Japan 2009 (New York)

発表年月： 2009年03月
Multi-layer audio segregation and its application to double talk recognition

Toshiyuki Sekiya, Tomohiro Sawada, Tetsuji Ogawa, Tetsunori Kobayashi

SWIM, Lectures by Masters in Speech Processing (Honolulu)

発表年月： 2004年01月

▼全件表示

共同研究・競争的資金等の研究課題

意思決定支援のための持続可能な状態監視システムの構築・運用法に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2022年04月

-

2025年03月

小川哲司, 日野英逸, 坂口実

　概要を見る

【研究の具体的な内容】
本研究では，映像による繁殖牛の分娩監視を題材として，（WP-1）意思決定支援のための説明可能な状態監視モデリング，（WP-2）パターン認識システムの構築・運用において人を介在可能にする技術の開発，（WP-3）人の介在を活かした状態監視システムの早期運用と持続的な改善，について検討を行う．
2023年度は，主に（WP-2）について検討を行った．具体的には，アノテーション結果の信頼性が担保されないクラウドソーシングを高品質・低コスト化するために，アノテーション結果の信頼性が担保されるまで動的に発注を行う技術（動的タスク発注）の開発・評価を行った．提案方式では，回答がワーカ間で割れるサンプル，低能力のワーカが回答したサンプル，高難度のサンプルに対して追加発注し，回答状況に応じて追加発注の優先度が変化するようモデル化されている．さらに，追加発注後にサンプルの難易度，ワーカの能力，ラベル等（環境）を再推定し，その結果に基づき選択サンプルに対する回答の平均情報量（報酬）を再計算する最適化アルゴリズムを導入した．牛の分娩監視映像を用いたアノテーション実験を通じ，提案の動的タスク発注により，高い精度を維持したままコストを著しく低減できることを実証した．
また，状態監視システムの早期運用（WP-3a）のために，牛の分娩監視の拠り所を正確に捉える汎用モデルを構築した．併せて，汎用モデル構築のための大規模映像データセットの構築を行い，また，そのためのシンプルかつ信頼性の高い牛追跡技術を開発した．
【研究の意義・重要性】
精密畜産業のように，人工知能技術の研究・開発のために利用可能な大規模データが存在しない分野においては，動的タスク発注のようなアノテーションを効率化する技術や，汎用の事前学習済みモデルおよびその構築方法に関する知見は，研究・開発を加速するために貢献すると期待される．
意思決定支援のための持続可能な状態監視システムの構築・運用法に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2022年04月

-

2025年03月

小川哲司, 日野英逸, 坂口実
重症心身障害児の育ちを支える「コミュニケーション支援 AI」の開発および持続的な運用法の確立

木原記念横浜生命科学振興財団 2023 年度 LIP.横浜トライアル助成金

研究期間:

2023年06月

-

2024年03月

佐藤朝美, 小川哲司
漁業従事者と人工知能技術の協調による持続可能な漁場状態監視に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2022年06月

-

2024年03月

小川哲司
動画に対する深い意味的注釈の付与

日本学術振興会科学研究費助成事業

研究期間:

2017年04月

-

2021年03月

林良彦, 加藤恒昭, 小川哲司, 植木一也

　概要を見る

動画コンテンツにおいて描写されている人間の動作・行為に対して，その意味を考慮した適切な注釈付けを行うことができれば，高度な動画検索システムを実現したり，動画から有用な知識情報を計算機が利用可能な形で抽出することが可能となる．本研究では，そのための基盤技術として，フレーム画像の内容を離散的構造として抽出するためのシーングラフ生成法，および，自然言語表現として得るための動作キャプション生成法の研究を進め，比較手法を上回る精度を達成した．また，関連する画像・言語解析技術の基礎研究を推進し，その成果を論文として発表した．
局所的海洋データを活用した漁業の効率化の研究開発

総務省戦略的情報通信研究開発推進制度（SCOPE）

研究期間:

2017年04月

-

2020年03月

内海康雄, 北島宏之, 若生一広, 菅原利弥, 宇都宮栄二, 井戸上彰, 阿部博則, 福嶋正義, 小川哲司, 小林哲則, 中野鐵兵, 橋本和夫
人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2016年04月

-

2019年03月

小川哲司, 俵直弘

　概要を見る

話者性と音韻性は分離可能であると仮定し，音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた．その成果として，音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した．発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し，特に識別の直前にプーリングを行うことの重要性を明らかにした．さらに，分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために，識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした．
システム協調型適応学習に基づくパターン認識システムの全体最適化に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2013年04月

-

2016年03月

小川哲司

　概要を見る

複数のパターン認識システムを協調的に最適化しながら，システム全体を効率的かつ自動で成長させる方式について検討を行った．特に，システムの使用者や使用環境の違いにより生じるデータの変動に対してシステムを適応的に改善するための要素技術として，データの性質の違いに頑健なクラスタリング技術および，複数システムを協調的に用いて認識を行うマルチストリームパターン認識フレームワークの開発を行った．
クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

日本学術振興会科学研究費助成事業

研究期間:

2011年

-

2012年

小川哲司

　概要を見る

音声データの構造化・検索支援のための基幹技術として, 音声データを発話者や雑音といった音環境ごとにクラスタリングする技術の開発と, 音声認識システムを教師なしの枠組みで適応的に最適化するための要素技術の開発を行った.
モデル構造の逐次最適化機能を有するオンライン適応型パターン認識に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2009年

-

2010年

小川哲司

　概要を見る

パターン認識システムの精度とシステムを使用する環境の変動に対する頑健性を効率的に向上させるために,データの性質に応じて,認識システムに用いる確率モデルの構造と分布パラメータを適応的に最適化する方式を開発した.さらにこの枠組みを,音声情報を用いた話者認識や画像情報を用いた顔認識システムに適用することを試みた.
リズムある会話を可能とするコミュニケーションロボットに関する研究

日本学術振興会科学研究費助成事業

研究期間:

2008年

-

2010年

小林哲則, 藤江真也, 小川哲司, 高西敦夫, 松山洋一, 岩田和彦

　概要を見る

言語・パラ言語の生成・理解処理を高度化することで,複数の人間と自然なリズムで会話できるコミュニケーションロボットを実現した.また,このロボットを用いて,人同士の会話を活性化することを試みた.この目的のため,ロボットへの性格付与とパラ言語表現機能を考慮したロボットハードウェア,会話状況に沿うロボットの振る舞い,魅力ある会話の進行方式などを設計した.また,ロボットの聴覚機能および発話方式の高度化についても検討した.
実世界劣化音声コーパスに基づく音声強調法の研究

日本学術振興会科学研究費助成事業

研究期間:

2007年

-

2009年

武田一哉, 北岡教英, 山田武志, 西浦敬信, 宮島千代美, 田村哲嗣, 中村哲, 黒岩眞吾, 柘植覚, 滝口哲也, 山本一公, 小川哲司, 中山雅人, 滝口哲也, 山本一公

　概要を見る

実世界で雑音などにより劣化した音声の認識を目指し以下のことを行った。(1)劣化音声コーパスを整備し、CENSRECという名称で一般に利用可能とした、(2)劣化音声の認識率への影響度を測る指標を検討し、加法性・乗法性雑音に対して高精度に認識性能を予測できた、(3)劣化音声の劣化要因とその認識手法を体系化した、(4)劣化音声の認識手法を研究した。
相補的な識別器の生成とその統合に基づくパターン認識に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2007年

-

2008年

小川哲司

　概要を見る

本研究では,パターン認識の性能を向上させるために,複数の識別器を統合する方式について検討を行った.識別器の生成においては,提案法は識別器の誤り傾向が異なることを理論的に保証し(相補性を有する),少量の識別器で高い性能を与える(効率性を有する)という特徴を有する.また,生成した複数の識別器の統合においては,提案法は識別器各々が潜在的に有する特性の影響を受けにくい(頑健性を有する)という特徴を有する.本提案方式を音声認識に適用し,有効性を確認した.
状態と出力に相互依存関係を有する確率モデルの構造最適化と頑健性強化に関する研究

日本学術振興会科学研究費助成事業

研究期間:

2005年

-

2006年

小川哲司

　概要を見る

本年度は,以下の2点について検討を行った.
(1)部分隠れマルコフモデル(PHMM)のモデル構造最適選択
PHMMのモデル構造を音韻毎に最適化する枠組みとして,昨年度は,評価基準として重み付き尤度比最大化基準を,最適化アルゴリズムとして遺伝的アルゴリズムを導入し,講演音声認識において従来法の誤りを削減した.本年度は,下記A)〜C)について詳細な検討を行った.
A)評価関数:重み付き尤度比基準,最尤基準,ベイズ基準など複数の評価基準を導入し認識性能を評価したところ,識別的な基準である尤度比基準が最良の性能を与えることがわかった.
B)最適化アルゴリズム:遺伝的アルゴリズムとタブサーチを用いたときの性能を評価したところ,タブサーチは局所解に陥りやすく,遺伝的アルゴリズムの方が高速に最適解に到達することがわかった.
C)識別クラスの共有:探索の効率化のため音韻のクラスタリングを行ったが,最適化の段階でクラスを共有してしまうと,共有しない場合と同程度の性能を得られないことがわかった.
(2)環境の変動に頑健な特徴量の検討
PHMMのように高精度な確率モデルは,HMMなどの単純なモデルと比較して発話者や環境の変動の影響を受け易い.したがって,音響特徴量から発話者の情報や環境の情報を取り除き,識別に必要な情報である音韻情報のみを抽出する手法(識別情報抽出)について検討を行った.識別情報抽出として,HLDAやそれを拡張したManifold HLDA(MHLDA)を提案し,単語音声認識により評価を行ったところ,HLDAとMHLDAにより抽出されたパラメータを統合することで,環境の変動に対して頑健な性能を与えることがわかった.
この知見を発展させ,HLDAにブースティングを導入した確率モデルの統合手法についても検討を行い,最尤識別に比べ頑健性の高い認識が可能になるという予備的な知見も得た.
言語・パラ言語の生成・理解能力を有する会話システムに関する研究

日本学術振興会科学研究費助成事業

研究期間:

2003年

-

2006年

小林哲則, 藤江真也, 小川哲司, 松坂要佐

　概要を見る

自然な音声対話コミュニケーションを成立させるための要件を探るための道具として,言語情報の理解・表出機能に加え,パラ言語情報の理解・表出機能を持つ音声対話システムのプロトタイプを作成した.
近年の音声認識・合成の著しい研究成果にも係らず,一般の利用者に広く受け入れられる可能性を感じさせるような,自然性の高い音声対話システムは見られない.この一つの要因が,対話にとって重要な役割を果たすパラ言語情報(顔表情や声表情に含まれる,発話者の内的・心的状態を伝える情報)の軽視にある.しかし,言語・パラ言語をバランスよく扱う対話システムを作る際必要なパラ言語に関する定量的知見はほとんどない。本研究では,パラ言語の役割を定量的に明らかにするための道具として各種の要素技術を開発し,音声対話システムとして組み上げた.
具体的には次に挙げるものを実現した.1)ロボット頭部に設置した4系統の指向性を用いてロボットに適した形で音源定位・音源分離を行う方式を提案した,2)パラ言語の表現を可能とする合成音声方式について検討し,波形合成方式を対象として合成品質を向上させる手法を提案するとともに,高品位な声質の変換方式を提案した.3)音声に含まれるパラ言語情報として,発話態度と相槌/聞き返しを取り上げ,発話に含まれる韻律情報を基にこれらを認識する手法を提案した.4)頭部ジェスチャ・表情等の視覚的情報に含まれるパラ言語情報の認識手法を提案した.5)音声対話システムのプラットフォームとして人間型ロボットROBISUKEの設計,構築を行った.6)各モジュールの理解・生成機能を有機的に統合する情報共有の枠組としてMONEAを提案し,通信ミドルウェアの実装を行った.
今後,これらの成果を利用し,自然な音声対話に必要とされる要件を明らかにするための定量的な実験を行う予定である.

▼全件表示

Misc

階層的Deep Biasingを用いた低頻度語に頑健な音声認識

楠奈穂美, 樋口陽祐, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 2025年12月

研究発表ペーパー・要旨（全国大会，その他学術会議）
Common Crawl を用いた大規模音声音響データセットの構築

淺井航平, 杉浦一瑳, 中田亘, 栗田修平, 高道慎之介, 小川哲司, 東中竜一郎

日本音響学会秋季研究発表会講演論文集 2025年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
大規模言語モデルによる歌詞解釈記述とモーメント検索を用いたカラオケ背景映像の選択

有賀智輝, 谷口純, 当間佐耶佳, 阿部国大, 執行里恵, 小川哲司

第28回画像の認識・理解シンポジウム (MIRU2025) IS-3-203 2025年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
視覚言語モデルを用いた適応的なクラス記述に基づく画像認識フレームワーク

兒新治紀, 中野鐵兵, 佐藤朝美, 小川哲司

28回画像の認識・理解シンポジウム (MIRU2025) IS-1-146 2025年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
養育者に無理なく頼るモデル構築：重症児感情状態推定のための人間参加型学習および視覚言語モデルの活用

望田康太, 中野鐵兵, 若林麻里, 佐藤朝美, 小川哲司

2025年度人工知能学会全国大会（JSAI2025） 4LS-OS-38-03 2025年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
振動信号による風車状態監視のための精密かつ少量データに頑健なモデリング

若山拓矢, 井上太揮, 深山覚, 飯田誠, 小川哲司

2025年度人工知能学会全国大会（JSAI2025） 4R3-GS-10-03 2025年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
映像からの繁殖牛発情行動検知における物体検出モデル利用に関する検討

小林恵輔, 中野鐵兵, 春日良一, 日下裕美, 坂口実, 小川哲司

2025年度人工知能学会全国大会（JSAI2025） 3win5-82 2025年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
映像を用いた繁殖牛分娩監視のための基盤モデルの開発と運用

中田道寛, 川島由理, 中野鐵兵, 春日良一, 小川哲司

2025年度人工知能学会全国大会（JSAI2025） 2O1-GS-10-01 2025年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
良漁場予測範囲絞り込みのためのPU学習を用いた未探索海域データの活用

兒新治紀, 中野鐵兵, 宮澤泰正, 小川哲司

2025年度人工知能学会全国大会（JSAI2025） 1Q4-GS-10-03 2025年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
歌唱音声の特性を考慮した歌唱者照合のための頑健な特徴抽出器の構築

当間佐耶佳, 有賀智輝, 樋口陽祐, 早坂一寿, 執行里恵, 小川哲司

日本音響学会研究発表会講演論文集 ( 1-2-17 ) 935 - 938 2025年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
発音プロンプトと辞書を活用したEnd-to-End音声認識のキーワード認識精度改善手法

菅野竜雅, 佐藤裕明, 佐久間旭, 熊野正, 河合吉彦, 小川哲司

日本音響学会研究発表会講演論文集 ( 1-2-14 ) 927 - 930 2025年03月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
階層的マルチタスク学習とContextual Biasingを用いたEnd-to-End音声認識

楠奈穂美, 樋口陽祐, 小川哲司, 小林哲則

日本音響学会研究発表会講演論文集 ( 1-2-10 ) 913 - 916 2025年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
音声・音響・音楽を扱うオープン基盤モデルの構築に向けたデータセット策定

高道慎之介, 和田仰, 小川諒, 山岡洸瑛, 中田亘, 淺井航平, 関健太郎, 岡本悠希, 齋藤佑樹, 小川哲司, 猿渡洋, 中村友彦, 深山覚

言語処理学会第31回年次大会発表論文集 2692 - 2696 2025年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
Evidential deep learningを用いた不確実性に基づくストリーミング音声認識

佐藤裕明, 佐久間旭, 菅野竜雅, 熊野正, 河合吉彦, 小川哲司

電子情報通信学会研究報告(SP) 124 ( 391 ) 1 - 6 2025年03月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
音質主観評価における評価者選抜のための音声サンプル選定の重要性

矢部拓真, 八重樫萌絵, 中野鐵兵, 小川哲司

電子情報通信学会研究報告(SP) 124 ( 391 ) 329 - 334 2025年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
発話被りを含む会話音声認識のための多話者CTC損失関数の検討

佐久間旭, 佐藤裕明, 菅野竜雅, 熊野正, 河合吉彦, 小川哲司

電子情報通信学会技術研究報告 (SP) 124 ( 303 ) 6 - 11 2024年12月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

樋口陽祐, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 2024-SLP-154 ( 27 ) 1 - 8 2024年12月

研究発表ペーパー・要旨（全国大会，その他学術会議）
再帰的フィードバックを用いた階層的 End-to-End 音声認識

楠奈穂美, 樋口陽祐, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 2024-SLP-154 ( 1 ) 1 - 7 2024年12月

研究発表ペーパー・要旨（全国大会，その他学術会議）
WindVibraTransformer：振動信号による精密かつ頑健な風車状態監視のための基盤モデル

若山拓矢, 井上太揮, 緒方淳, 飯田誠, 小川哲司

第46回風力エネルギー利用シンポジウム A1-05 2024年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
RangeBoundTrack: 黒毛和種雌牛分娩監視映像データセット構築のための牛追跡

中田道寛, 大吉佐和, 中野鐵兵, 春日良一, 小川哲司

日本畜産学会第132回大会 2024年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
低頻度語のためのプロンプトを活用した音声認識

菅野竜雅, 佐藤裕明, 佐久間旭, 熊野正, 河合吉彦, 小川哲司

日本音響学会研究発表会講演論文集 2024年09月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
状態変化の頻度情報の抽出と家畜の映像監視のための特徴表現としての利用

中田道寛, 中野鐵兵, 小川哲司

第27回画像の認識・理解シンポジウム (MIRU2024) IS-3-142 1 - 4 2024年08月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
重症児感情状態推定モデル構築のためのフィードバックサイクルの検討：人の「見守り」による効率的なモデル構築

望田康太, 中野鐵兵, 若林麻里, 佐藤朝美, 小川哲司

第27回画像の認識・理解シンポジウム (MIRU2024) IS-1-165 1 - 4 2024年08月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
歌唱者埋め込み表現抽出器の構築において歌唱者内の音響変動を重要視することの効果の検証

当間佐耶佳, 有賀智輝, 樋口陽祐, 早坂一寿, 執行里恵, 小川哲司

情報処理学会研究報告 2024-SLP-152 ( 60 ) 331 - 336 2024年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
発音出力を利用したchain of thought 音声認識

菅野竜雅, 佐藤裕明, 熊野正, 河合吉彦, 小川哲司

日本音響学会研究発表会講演論文集 2024年03月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
再帰的フィードバックを用いた階層的マルチタスク学習によるEnd-to-End音声認識

楠奈穂美, 樋口陽祐, 小川哲司, 小林哲則

日本音響学会研究発表会講演論文集 2024年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
M-measureを用いた特徴抽出に基づく回転速度に頑健な風車異常検知

若山拓矢, 井上太揮, 緒方淳, 飯田誠, 小川哲司

第45回風力エネルギー利用シンポジウム 2023年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
風車異常検知システム早期運用のための距離学習を用いた識別的な特徴表現の学習

井上太揮, 緒方淳, 飯田誠, 小川哲司

第45回風力エネルギー利用シンポジウム 2023年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Streaming transducerにおけるテキストのみを用いた学習方法に関する検討

佐藤裕明, 菅野竜雅, 佐久間旭, 河合吉彦, 熊野正, 山田一郎, 小川哲司

日本音響学会研究発表会講演論文集 2023年09月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
深層話者埋め込みを用いた歌唱者の照合に関する検討

当間佐耶佳, 有賀智輝, 樋口陽祐, 早坂一寿, 岡本直紀, 小川哲司

日本音響学会研究発表会講演論文集 2023年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Teacher-Forcingにより歌詞を与えた際のAttentionの崩れに着目した替え歌検知

有賀智輝, 樋口陽祐, 早坂一寿, 岡本直紀, 小林哲則, 小川哲司

日本音響学会研究発表会講演論文集 2023年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
An investigation on constructing multi-look-ahead contextual block streaming transducer

Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Tetsunori Kobayashi

日本音響学会研究発表会講演論文集 2023年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
音源の分離と再混合による事前学習を必要としないモノラル教師なし音源分離

西城耕平, 小川哲司

日本音響学会研究発表会講演論文集 2023年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
事前学習済みマスク言語モデルを用いたEnd-to-end音声認識

樋口陽祐, 小川哲司, 小林哲則, 渡部晋治

日本音響学会研究発表会講演論文集 2023年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
字幕制作効率化のための音声認識エラー検出手法

菅野竜雅, 佐藤裕明, 佐久間旭, 熊野正, 河合吉彦, 山田一郎, 小川哲司

映像メディア学会2023年年次大会 2023年08月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
アクションユニットを用いた重症心身障害児の感情状態推定

望田康太, 岸凌祐, 大矢耀介, 中野鐵兵, 藤江真也, 佐藤朝美, 小川哲司

第24回日本医療情報学会看護学術大会 2023年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
重症心身障害児を対象とした顔表情に基づく感情状態推定のための事前学習モデルに関する検討

望田康太, 中野鐵兵, 藤江真也, 若林麻里, 佐藤朝美, 小川哲司

第26回画像の認識・理解シンポジウム (MIRU2023) IS1-104 1 - 4 2023年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
映像監視に基づく意思決定支援のための事前学習モデルの構築法と繁殖牛の分娩検知への応用

中田道寛, 斎藤奨, 中野鐵兵, 小川哲司

第26回画像の認識・理解シンポジウム (MIRU2023) IS1-101 1 - 4 2023年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
歌詞と歌唱音声のアライメント崩れに基づく替え歌検知

有賀智輝, 樋口陽祐, 菅野光則, 執行里恵, 水口天都, 岡本直紀, 小川哲司

電子情報通信学科技術研究報告(SP) 123 ( 88 ) 48 - 53 2023年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Self-Remixing: 音源の分離と再混合による教師なし音源分離

西城耕平, 小川哲司

日本音響学会研究発表会講演論文集 191 - 194 2023年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
中間層予測を用いたEnd-to-Endダイアライゼーション

藤田雄介, 小松達也, 木田祐介, 小川哲司

日本音響学会研究発表会講演論文集 665 - 666 2023年03月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
気象・海況情報を用いた良漁場予測における予測範囲の絞り込み

兒新治紀, 中野鐵兵, 宮澤泰正, 小川哲司

日本水産学会春季大会 2023年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Multiple latency CBS streaming ASR for conversational systems

Zhao Huaibo, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi

情報処理学会研究報告 (SLP) 2022-SLP-146 ( 9 ) 1 - 6 2023年02月

研究発表ペーパー・要旨（全国大会，その他学術会議）
畜産農家の意思決定支援AI導入に向けた取組み

小川哲司, 斎藤奨, 中野鐵兵

ITUジャーナル 52 ( 10 ) 10 - 13 2022年10月 [招待有り]

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）
映像監視に基づく繁殖牛の分娩予兆検知～ユーザが納得して意思決定できるような映像監視システムをどう構築し運用するか？

小川哲司

計測と制御・特集「農・林・畜・水産業に挑む画像センシング技術」 61 ( 10 ) 746 - 749 2022年10月 [招待有り]

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）
CycleGANを用いた教師無し音声処理歪み補正

荻野里久, 西城耕平, 小川哲司

日本音響学会研究発表会講演論文集 371 - 374 2022年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ブラインド音源分離を教師としたTeacher-Student学習とUnmix-Remix無矛盾学習によるSequential Neural Beamformerの教師なし学習

西城耕平, 小川哲司

日本音響学会研究発表会講演論文集 359 - 362 2022年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングにおける動的タスク発注モデルの教師無し学習

柳澤遼, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

電子情報通信学会技術研究報告 (AI) 122 ( 96 ) 72 - 76 2022年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
対話特徴を用いた第二言語発話の流暢性自動採点

松浦瑠希, 鈴木駿吾, 佐伯真於, 藤江真也, 小川哲司, 松山洋一

情報処理学会研究報告 (SLP) 2022-SLP-142 ( 47 ) 1 - 6 2022年06月

研究発表ペーパー・要旨（全国大会，その他学術会議）
Transducer型ストリーミング音声認識におけるMask-CTCを用いた事前学習

趙懐博, 樋口陽祐, 木田祐介, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 2022-SLP-142 ( 61 ) 1 - 6 2022年06月

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングを用いた合成音声の音質主観評価のためのワーカ選抜基準

八重樫萌絵, 斎藤奨, 中野鐵兵, 小川哲司

電子情報通信学会技術研究報告 (SP) 122 ( 81 ) 104 - 109 2022年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
局所的な真偽判定を用いた敵対的学習に基づく教師なし音声処理歪み補正

荻野里久, 西城耕平, 藤枝大, 小川哲司

研究報告 (SP) 122 ( 81 ) 49 - 54 2022年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ブラインド音源分離の分離音と観測信号を教師信号として用いたSequential Neural Beamformerの教師なし学習

西城耕平, 小川哲司

電子情報通信学会技術研究報告 (SP) 122 ( 81 ) 110 - 115 2022年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
テキストのみを用いたIntermediate-CTCコンフォーマーモデルのドメイン適応

佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

日本音響学会研究発表会講演論文集 2022年03月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識

樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

日本音響学会研究発表会講演論文集 2022年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングを用いた合成音声評価におけるワーカからの回答の分析

八重樫萌絵, 斎藤奨, 中野鐵兵, 小川哲司

日本音響学会研究発表会講演論文集 2022年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
敵対的学習と Unmix-Remix 無矛盾学習による教師なし音源分離

西城耕平, 小川哲司

日本音響学会研究発表会講演論文集 2022年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ペアデータを必要としない敵対的学習に基づく音声処理歪み補正

荻野里久, 藤枝大, 片桐一浩, 小川哲司

日本音響学会研究発表会講演論文集 2022年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
言い淀みとポーズ位置検出に基づく第二言語発話の流暢性自動採点

松浦瑠希, 鈴木駿吾, 佐伯真於, 小川哲司, 松山洋一

日本音響学会研究発表会講演論文集 2022年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングを用いた話者照合結果の検証における誤り削減傾向に関する調査

井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

日本音響学会研究発表会講演論文集 2022年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
風車運用高度化技術研究開発

飯田誠, 古澤陽子, 山本和男, 緒方淳, 小川哲司

日本風力エネルギー学会誌・特集「風力発電分野の国家プロジェクト」 45 ( 4 ) 582 - 586 2022年02月 [招待有り]

担当区分：最終著者

記事・総説・解説・論説等（学術雑誌）
End-to-end音声認識モデルにおけるテキストデータ学習手法の検討

佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

2021年度映像情報メディア学会冬季大会 2021年12月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討

佐藤裕明, 小森智康, 三島剛, 河合吉彦, 望月貴裕, 佐藤庄衛, 小川哲司

情報処理学会研究報告 (SLP) 2021年12月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングを用いた結果の検証による話者照合性能の改善

井手悠太, 斎藤奨, 中野鐵兵, 小川哲司

情報処理学会研究報告 (SLP) 2021年12月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
CTCと異なる粒度のサブワード単位に基づいた階層的条件付きEnd-to-End音声認識

樋口陽祐, 軽部敬太, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 1 - 6 2021年12月

研究発表ペーパー・要旨（全国大会，その他学術会議）
マルソウダ曳縄漁のための気象・海況情報を用いた良漁場予測

堀内優佳, 中野鐵兵, 宮澤泰正, 小川哲司

水産海洋学会2021年度研究発表大会要旨 2021年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
船上映像を用いた漁獲尾数計測器

田中理子, 中野鐵兵, 小川哲司

水産海洋学会2021年度研究発表大会要旨 2021年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
農家の皆さんにとって使い勝手が良く，信頼してもらえるAI技術の作り方－農家の意思決定支援のための家畜の映像監視システム開発を例に―

小川哲司

肉牛ジャーナル 34 ( 10 ) 59 - 63 2021年10月

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（商業誌、新聞、ウェブメディア）
Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習

趙懐博, 樋口陽祐, 小林哲則, 小川哲司

情報処理学会研究報告 (SLP) 1 - 6 2021年10月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
DNNを用いた最小分散ビームフォーマの音源の動き対する頑健性：音源追跡とエリア収音に基づくアプローチの比較

西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

日本音響学会研究発表会講演論文集 321 - 322 2021年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
VocalTurk：クラウドソーシングを用いた話者照合の性能調査

斎藤奨, 井手悠太, 中野鐵兵, 小川哲司

日本音響学会研究発表会講演論文集 1003 - 1006 2021年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
予測の不一致に基づく深層学習モデルの不確実性推定とクラウドソーシングを用いた映像監視への応用

松永直輝, 斎藤奨, 中野鐵兵, 小川哲司

第24回画像の認識・理解シンポジウム (MIRU2021) 1 - 4 2021年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
意思決定支援のための解釈可能な映像監視システムの開発フローと繁殖牛の分娩予兆検知への応用

兵頭亮介, 斎藤奨, 中野鐵兵, 小川哲司

第24回画像の認識・理解シンポジウム (MIRU2021) 1 - 4 2021年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
黒毛和牛種の映像監視における解釈可能な分娩予兆通知システム

兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 春日良一, 小川哲司

日本畜産学会第128回大会要旨 2021年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
空間フィルタ出力を補助情報として用いた音源の移動に頑健なニューラル音声強調

西城耕平, 藤枝大, 片桐一浩, 小林哲則, 小川哲司

日本音響学会研究発表会講演論文集 427 - 428 2021年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ペアデータを必要としない敵対的学習に基づく多チャンネル音源分離

中込優, 戸上真人, 小川哲司, 小林哲則

日本音響学会研究発表会講演論文集 409 - 410 2021年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
コモンセンス知識を利用した物語中の登場人物の感情推定

田辺ひかり, 小川哲司, 小林哲則, 林良彦

言語処理学会第27回年次大会 27th 538 - 542 2021年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL
単語の重要度に応じてパラメタ数可変な単語分散表現の学習

露木浩章, 小川哲司, 小林哲則, 林良彦

言語処理学会第27回年次大会 27th 12 - 16 2021年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）

J-GLOBAL
CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

樋口陽祐, 稲熊寛文, 渡部晋治, 小川哲司, 小林哲則

電子情報通信学会技術研究報告 (SP) 2020年12月

研究発表ペーパー・要旨（全国大会，その他学術会議）
分布類似度に基づく健全性指標と風車異常検知システムの早期運用における効果

長谷川隆徳, 緒方淳, 飯田誠, 小川哲司

第42回風力エネルギー利用シンポジウム予稿集 2020年11月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Mentoring-Reverse Mentoring: 多チャンネル音源分離における教師なし学習のための知識伝搬フレームワーク

中込優, 戸上真人, 小川哲司, 小林哲則

日本音響学会講演論文集 2020 ( 秋季 ) 127 - 130 2020年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識

樋口陽祐, 渡部晋治, Chen Nanxin, 小川哲司, 小林哲則

日本音響学会講演論文集 2020 ( 秋季 ) 747 - 748 2020年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
書き起こしのための遠方発話音声認識技術の検討

佐藤裕明, 萩原愛子, 伊藤均, 三島剛, 河合吉彦, 小森智康, 佐藤庄衛, 小川哲司

日本音響学会講演論文集 2020 ( 秋季 ) 841 - 842 2020年09月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
感情に関するマルチラベルアノテーションにおける正解基準の設定

田辺ひかり, 小川哲司, 小林哲則, 林良彦

人工知能学会全国大会論文集 JSAI2020 1 - 4 2020年06月

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングにおける効率的な回答収集のための動的なマイクロタスク追加発注

森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

人工知能学会全国大会論文集 JSAI2020 1 - 4 2020年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
肉牛の発情検知のための乗駕行動画像データセット構築におけるクラウドソーシングの活用

川野百合子, 斎藤奨, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

人工知能学会全国大会論文集 JSAI2020 1 - 4 2020年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ドローン空撮画像を用いた潮目の検知に関する検討

幸加木裕也, 小林哲則, 小川哲司

日本水産学会春季大会要旨 2020年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
End-to-end雑音除去のためのネットワーク構造の検討

蓮実拓也, 小林哲則, 小川哲司

日本音響学会講演論文集 2020 ( 春季 ) 335 - 336 2020年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
感情推定における感情カテゴリに関する先験的知識の利用

田辺ひかり, 小川哲司, 小林哲則, 林良彦

言語処理学会第26回年次大会発表論文集 P6-23 2020年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
局所的依存構造をSelf-Attentionにより考慮する翻訳文生成

露木浩章, 小川哲司, 小林哲則, 林良彦

言語処理学会第26回年次大会発表論文集 P1-7 2020年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
所望音源の方向アトラクターに基づく時変の空間フィルタを用いたDNN音声抽出

中込優, 戸上真人, 小川哲司, 小林哲則

日本音響学会講演論文集 2020 ( 春季 ) 305 - 308 2020年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
短発話を対象としたテキスト独立型話者認識のためのフレームレベル音素非依存特徴抽出

俵直弘, 小川厚徳, 岩田具治, デラクロアマーク, 小川哲司

日本音響学会講演論文集 2020 ( 春季 ) 997 - 998 2020年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
Attentionに関する損失を利用したノイズに頑健なEnd-to-End音声認識

樋口陽祐, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司

日本音響学会講演論文集 2020 ( 春季 ) 935 - 936 2020年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングにおける動的な回答収集による低コストな多数決手法

森永聖也, 斎藤奨, 中野鐵兵, 小林哲則, 小川哲司

情報処理学会研究報告 (HCI) 2019-HCI-186 ( 36 ) 1 - 6 2020年01月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
マルチチャネル音声強調のための時間領域畳み込みデノイジングオートエンコーダ

俵直弘, 小林哲則, 小川哲司

電子情報通信学会技術研究報告（SP） 2019年12月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
あらゆる風車に適用可能な状態監視技術を目指して～風車主要機器におけるデータ駆動型異常検知とその評価～

長谷川隆徳, 緒方淳, 村川正宏, 飯田誠, 小川哲司

第41回風力エネルギー利用シンポジウム 2019年12月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
映像情報を用いた繁殖牛分娩検知システムの構築と運用法に関する研究・開発（自然に挑む画像センシング技術～農林水産業の現場でいかに役立つか？～）

小川哲司, 斎藤奨, 中野鐵兵

OplusE 41 ( 6 ) 858 - 862 2019年11月 [招待有り]

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）
画像情報による黒毛和牛種の乗駕行動の検知に関する検討

川野百合子, 河田宗士, 沖本祐典, 中野鐵兵, 赤羽誠, 近藤育海, 山崎凌汰, 日下裕美, 坂口実, 小川哲司

日本畜産学会第126回大会要旨 IV-19-03 2019年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
双方向時系列情報を利用した検出結果と正解情報付与による効率的なアノテーション手法

真殿航輝, 中野鐵兵, 小林哲則, 小川哲司

第22回画像の認識・理解シンポジウム PS2-5 1 - 4 2019年08月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
学習可能な暗号化画像への敵対的学習に基づく攻撃

真殿航輝, 田中正行, 大西正輝, 小川哲司

第22回画像の認識・理解シンポジウム PS1-41 1 - 4 2019年08月

担当区分：最終著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価

樋口陽祐, 俵直弘, 小林哲則, 小川哲司

情報処理学会研究報告 (SLP) 2019-SLP-128 ( 6 ) 1 - 6 2019年07月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
画像から得られる牛の身体情報に基づく分娩予兆検知

兵頭亮介, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

人工知能学会全国大会論文集 JSAI2019 2019年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤通報の抑制

沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

人工知能学会全国大会論文集 JSAI2019 2019年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
ベイズ状態空間モデルを用いた定置網漁のための日単位漁獲量予測

幸加木裕也, 堀内優佳, 俵直弘, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

人工知能学会全国大会論文集 JSAI2019 2019年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
回転機器状態監視のための振動異常検知システムにおける特徴表現学習

長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

人工知能学会全国大会論文集 JSAI2019 2019年06月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）

DOI
動画像から得られる牛の身体情報に基づく分娩予兆検知システム

兵頭亮介, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

電子情報通信学会技術研究報告（PRMU） 119 ( 64 ) 1 - 6 2019年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
クラウドソーシングを用いた肉牛分娩開始検知システムの早期運用

沖本裕典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

電子情報通信学会技術研究報告（PRMU） 119 ( 64 ) 7 - 12 2019年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
網内の魚の振る舞いを表現した状態空間モデルによる定置網漁のための日単位漁獲量予測

幸加木裕也, 俵直弘, 橋本和夫, 小林哲則, 福嶋正義, 井戸上彰, 小川哲司

電子情報通信学会技術研究報告（PRMU） 119 ( 64 ) 13 - 18 2019年05月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
早稲田大学知覚情報システム・メディアインテリジェンス研究室紹介

長谷川隆徳, 黒澤郁音, 斎藤奨, 松山洋一, 林良彦, 小林哲則, 小川哲司

日本風力エネルギー学会誌 43 ( 1 ) 154 - 157 2019年05月

担当区分：最終著者, 責任著者

記事・総説・解説・論説等（学術雑誌）

CiNii
クエリ文によるゼロショット映像検索 – TRECVID 2018 AVSタスクの成果報告 –

植木一也, 中込優, 平川幸司, 菊池康太郎, 林良彦, 小川哲司, 小林哲則

動的画像処理実用化ワークショップ2019 (DIA2019) 2019年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
漁獲量における心理尺度と漁獲量予測器の最適化への利用

幸加木裕也, 福嶋正義, 井戸上彰, 橋本和夫, 小林哲則, 小川哲司

日本水産学会春季大会要旨 140 2019年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
画像情報による黒毛和牛種の状態識別に基づいた分娩予兆検知システム

兵頭亮介, 安田早希, 斎藤奨, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

日本畜産学会第125回大会要旨 XIII-29-10 2019年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
映像情報による肉牛の分娩検知システムにおけるクラウドソーシングを用いた誤検出抑制

沖本祐典, 斎藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

日本畜産学会第125回大会要旨 XIII-29-09 2019年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
音韻・話者特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて

俵直弘, 小林哲則, 小川哲司

日本音響学会講演論文集 2019 ( 春季 ) 1003 - 1004 2019年03月
ドメイン属性情報を用いたRNN言語モデルのドメイン汎化

芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

日本音響学会講演論文集 2019 ( 春季 ) 927 - 930 2019年03月
ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出

樋口陽祐, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2019 ( 春季 ) 923 - 924 2019年03月
noise-aware学習を用いた敵対的デノイジングオートエンコーダによるポストフィルタリング

俵直弘, 田辺ひかり, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

日本音響学会講演論文集 2019 ( 春季 ) 159 - 162 2019年03月
隣接単語系列の予測による文の分散表現構成法

露木浩章, 小川哲司, 小林哲則, 林良彦

言語処理学会第25回年次大会発表論文集 1479 - 1482 2019年03月
敵対的デノイジングオートエンコーダを用いた拡散性雑音除去

田辺ひかり, 俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

電子情報通信学会技術研究報告（SP） 118 ( 497 ) 155 - 160 2019年03月

CiNii
隣接単語系列の予測による汎用的な文の分散表現の構成

露木浩章, 小川哲司, 小林哲則, 林良彦

言語処理学会年次大会発表論文集(Web) 25th 2019年

J-GLOBAL
畳み込みニューラルネットワークに基づく風車異常検知システムにおける判断根拠の可視化に関する検討

佐伯真於, 緒方淳, 村川正宏, 小川哲司

第40回風力エネルギー利用シンポジウム予稿集 2018年12月
正常稼働状態の表現学習に基づく風車異常検知

長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

第40回風力エネルギー利用シンポジウム予稿集 2018年12月
RNN言語モデルのためのドメイン属性情報を用いたゼロショット学習

芦川博人, 森岡幹, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

情報処理学会研究報告 2018年12月
映像からの牛の分娩予兆行動検知に関する検討

菅原一真, 中野鐵兵, 赤羽誠, 小林晢則, 小川哲司

電子情報通信学会技術研究報告 (PRMU) 118 ( 362 ) 79 - 84 2018年12月
画像からの牛の状態識別に基づく分娩予兆検知

兵頭亮介, 安田早希, 斎藤奨, 沖本裕典, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

電子情報通信学会技術研究報告 (PRMU) 118 ( 362 ) 57 - 60 2018年12月
Waseda_Meisei at TRECVID 2018: Fully-automatic ad-hoc video search

Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

Notebook paper of the TRECVID 2018 Workshop 2018年11月

研究発表ペーパー・要旨（国際会議）
Waseda Meisei at TRECVID2018: Ad-hoc video search

Kazuya Ueki, Yu Nakagome, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi

Notebook paper of the TRECVID 2018 Workshop 2018年11月

研究発表ペーパー・要旨（国際会議）
定置網漁の日単位漁獲量予測モデリングにおける学習データ量と予測性能の関係の調査

堀内優佳, 幸加木裕也, 小林哲則, 小川哲司

日本水産学会秋季大会要旨 2018年09月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
敵対的デノイジングオートエンコーダによる非線形ひずみ除去フィルタリング

俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

日本音響学会講演論文集 2018 ( 秋季 ) 159 - 162 2018年09月
非線形ひずみ除去のための敵対的 denoising autoencoder

俵直弘, 小林哲則, 藤枝大, 片桐一浩, 矢頭隆, 小川哲司

情報処理学会研究報告 2018-SLP-123 ( 1 ) 1 - 7 2018年07月
牛の分娩予兆として映像から観測可能な状態の検知

沖本祐典, 菅原一真, 齊藤奨, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

人工知能学会全国大会論文集 JSAI2018 2018年06月

DOI CiNii
AIで風車の異常を見つける：データ駆動型アプローチによる異常検知の最新動向

長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

日本風力エネルギー学会誌 42 ( 1 ) 72 - 76 2018年05月 [招待有り]

担当区分：最終著者, 責任著者

記事・総説・解説・論説等（学術雑誌）

DOI
定置網漁における漁獲過程モデルを用いたシロサケの日単位漁獲量予測

幸加木裕也, 俵直弘, 小林哲則, 橋本和夫, 小川哲司

日本水産学会春季大会要旨 2018年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
映像情報を用いた分娩時の牛の状態推定

沖本祐典, 菅原一真, 中野鐵兵, 赤羽誠, 小林哲則, 小川哲司

日本畜産学会第124回大会要旨 2018年03月

担当区分：最終著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
敵対的マルチタスク学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価

土屋平, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2018 ( 春季 ) 9 - 12 2018年03月
話者正規化における言語非依存性とゼロリソース音声認識における効果

島田拓也, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2018 ( 春季 ) 109 - 112 2018年03月
敵対的学習に基づく話者特徴抽出

俵直弘, 土屋平, 小川哲司, 小林哲則

日本音響学会講演論文集 2018 ( 春季 ) 141 - 144 2018年03月
異種データ活用のための変換複合行列分解

土屋平, 岩田具治, 小川哲司

電子情報通信学会技術研究報告 (IBISML) 117 ( 475 ) 41 - 48 2018年03月

CiNii
正常・損傷の表現学習に基づく風力発電システム異常検知技術の高度化

長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

第39回風力エネルギー利用シンポジウム 371 - 374 2017年12月
Waseda Meisei at TRECVID2017: Ad-hoc video search

Kazuya Ueki, Koji Hirakawa, Kotara Kikuchi, Tetsuji Ogawa, Tetsunori Kobayashi

Notebook paper of the TRECVID 2017 Workshop 2017年11月

研究発表ペーパー・要旨（国際会議）
正常・損傷の表現学習に基づく機械振動異常検知

長谷川隆徳, 緒方淳, 村川正宏, 小川哲司

第16回評価・診断に関するシンポジウム講演論文集 5 - 10 2017年11月

DOI
複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性

芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小林哲則, 小川哲司

日本音響学会講演論文集 2017 ( 秋季 ) 23 - 26 2017年09月
ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル

森岡幹, 俵直弘, 小川哲司, 小川厚徳, 岩田具治, 小林哲則

日本音響学会講演論文集 2017 ( 秋季 ) 27 - 30 2017年09月
会話参加状態を考慮した振る舞いをするロボットのシステムアーキテクチャ

菅原一真, 浅野秀平, 赤川優斗, 藤江真也, 小川哲司, 小林哲則

人工知能学会全国大会論文集 JSAI2017 2017年06月

DOI CiNii
複数人対話のためのRNN言語モデルにおける発話終端と話者情報の利用法

芦川博人, 俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則

電子情報通信学会技術研究報告 (SP) 116 ( 477 ) 287 - 290 2017年03月

CiNii
国際会議INTERSPEECH2016参加報告

浅見太一, 小川厚徳, 小川哲司, 大谷大和, 倉田岳人, 齋藤大輔, 塩田さやか, 篠原雄介, 鈴木雅之, 高道慎之介, 南條浩輝, 橋本佳, 樋口卓哉, 増村亮, 吉野幸一郎, 渡部晋治

情報処理学会研究報告 (SLP) vol.2016-SLP-115 ( 7 ) 1 - 7 2017年02月

研究発表ペーパー・要旨（全国大会，その他学術会議）
少量データに頑健なニューラルネットワーク言語モデル

森岡幹, 岩田具治, 小川厚徳, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2016 ( 秋季 ) 89 - 92 2016年09月
複数人対話のための話者情報を用いたRNN言語モデル

芦川博人, 森岡幹, 小川厚徳, 岩田具治, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2016 ( 秋季 ) 85 - 88 2016年09月
深層学習を用いた出現音素の偏りに頑健な話者照合手法

佐藤洋輔, 小川哲司, 堀内靖雄, 黒岩眞吾

電子情報通信学会総合大会講演論文集 2016年03月

研究発表ペーパー・要旨（全国大会，その他学術会議）
連想記憶に基づく線形分離行列推定を用いたタンデム接続型音源分離

大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

日本音響学会講演論文集 2016 ( 春季 ) 21 - 24 2016年03月
高次相関を考慮した音響特徴量のDNNに基づく音声認識での利用

小川哲司, 小林哲則, 新田恒雄

日本音響学会講演論文集 2016 ( 春季 ) 161 - 162 2016年03月

担当区分：筆頭著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
ニューラルネットワークに基づく識別器の不確かさの推定とマルチストリーム音声認識への適用

小川哲司, Mallidi Harish, Vesely Karel, Hermansky Hynek

日本音響学会講演論文集 2016 ( 春季 ) 67 - 70 2016年03月

担当区分：筆頭著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
国際会議INTERSPEECH2015参加報告

浅見太一, 大谷大和, 小川哲司, 木下慶介, 倉田岳人, 齋藤大輔, 塩田さやか, 太刀岡勇気, 中村静, 増村亮, 渡部晋治

情報処理学会研究報告 2016-SLP-110 ( 4 ) 1 - 5 2016年02月
スペクトラルクラスタリングに基づく話者クラスタリングのための因子分析法の効果の検証

俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2015 ( 秋季 ) 173 - 174 2015年09月
連想記憶に基づくブラインド音源分離のエコーキャンセリングへの応用

大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

日本音響学会講演論文集 2015 ( 秋季 ) 593 - 596 2015年09月
複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル

森岡幹, 俵直弘, 小川哲司, 岩田具治, 小川厚徳, 堀貴明, 小林哲則

日本音響学会講演論文集 2015 ( 秋季 ) 17 - 20 2015年09月
国際会議ICASSP2015参加報告

岡本拓磨, 小川哲司, 落合翼, 柏木陽佑, 亀岡弘和, 木下慶介, 郡山知樹, 齋藤大輔, 篠崎隆宏, 高木信二, 滝口哲也, 太刀岡勇気, 俵直弘, 橋本佳, 藤本雅清, 松田繁樹, 三村正人, 吉岡拓也, 渡部晋治

情報処理学会研究報告 2015-SLP-107 ( 3 ) 1 - 7 2015年07月
テンソル積による基底変換に基づく音声認識に関する研究

上田賢次郎, 小川哲司, 小林哲則, 桂田浩一, 新田恒雄

日本音響学会講演論文集 2015 ( 春季 ) 7 - 10 2015年03月
国際会議INTERSPEECH2014，SLT2014参加報告

浅見太一, 岩野公司, 小川哲司, 駒谷和範, 齋藤大輔, 篠田浩一, 太刀岡勇気, 東中竜一郎, 福田隆, 増村亮, 渡部晋治

情報処理学会研究報告 2015-SLP-105 ( 7 ) 1 - 6 2015年02月

　概要を見る

2014 年 9 月 14 日から 18 日にかけシンガポールで開催された ISCA 主催の INTERSPEECH2014，及び，同年 12 月 14 日から 18 日にかけて米国レイク・タホで開催された IEEE 主催の SLT2014 に参加した．ともに，音声言語処理分野で一流の国際会議である．ここでは，海外からの発表を中心に，これらの会議における最新の技術動向，注目すべき発表について報告する．

CiNii
i-vectorを用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング

俵直弘, 小川哲司, 小林哲則

情報処理学会研究報告 2015-SLP-105 ( 11 ) 1 - 6 2015年02月

　概要を見る

i-vector による話者表現とスペクトラルクラスタリングを組み合わせることで，雑音に頑健な話者クラスタリングを実現する．まず，雑音を含む音声に対して話者クラスタリングを行う場合，高精度な話者特徴量として知られる i-vector を用いて発話間類似度を計算しても，話者の類似度を適切に推定できないことを実験的に明らかにする．また，この問題に対してスペクトラルクラスタリングを適用することの妥当性をグラフラプラシアンの固有ベクトルを分析することで確認する．最後に，スペクトラルクラスタリングの雑音に対する頑健性を実験的に確認するために，日本語話し言葉コーパスに様々な種類の雑音を重畳して得た音声を用いて話者クラスタリング実験を行い，クリーンな音声と同程度の精度で雑音を含む音声のクラスタリングが可能であることを明らかにする．

CiNii
連想記憶と線形分離フィルタを用いたブラインド音源分離

大町基, 小川哲司, 小林哲則, 藤枝大, 片桐一浩

情報処理学会研究報告 2015-SLP-105 ( 4 ) 1 - 6 2015年02月

　概要を見る

連想記憶と線形分離フィルタを組み合わせることにより，歪が少ない高精度なブラインド音源分離方式を提案する．独立成分分析（ICA）や独立ベクトル分析（IVA）のような線形フィルタに基づく音源分離は，歪が少ないという特徴を持つ．しかしながら，ICA，IVA は，音源の独立性や非ガウス性を仮定するため，これが成立しないとき分離性能が劣化する．提案法は，線形分離フィルタの出力に最も近い無歪の音声を連想記憶を用いて求める処理と，連想記憶の出力に分離フィルタの出力が近づくよう分離フィルタの係数を補正する処理とを繰り返すことで分離音声を求める．これにより音源の独立性を仮定すること無く，歪の少ない分離音声を得ることができる．2 話者同時発話音声に対する音源分離実験の結果，提案法は IVA より分離精度を向上できることを確認した．

CiNii
スペクトラルクラスタリングに基づく話者クラスタリング

俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2014 ( 秋季 ) 95 - 98 2014年09月
MLPを用いた話者正準化に基づく音声認識の検討

久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

情報処理学会研究報告 2014-SLP-102 ( 8 ) 1 - 6 2014年07月

　概要を見る

不特定話者音声認識システムの性能向上を目的として，低演算かつ高精度な話者正準化手法を提案する．話者正準化の代表的な手法として，声道長正規化（Vocal Tract Length Normalization; VTLN）が広く用いられているが，計算量および表現能力の 2 つの観点で改善の余地がある．まず最適なワーピングパラメータを推定する際に，用意したパラメータ数だけ同時に音声認識を行う必要があるため，計算量が多くなる．また，VTLN は一つの発話内において同じパラメータで線形変換を実現している．しかし，最適な写像関数は音素ごとに異なると言われており，表現能力に改善の余地がある．そこで，本報告では多層パーセプトロン（Multi Layer Perceptoron; MLP）を用いた話者正準化手法を提案する．MLP は，任意話者の母音スペクトルを標準話者の母音スペクトルへ写像する関数を学習する．提案法は，（1）認識時にパラメータを推定する必要がない（2）MLP により発話内で音素ごとに非線形な写像関数を実現させることができるという点で VTLN よりも優れる．しかしながら，スペクトルの低域および高域において歪が生じ，認識性能が低下する．この問題を解決するために，MLP による写像後のスペクトルと入力スペクトルの周波数重み付けを行う．不特定話者連続数字認識実験による評価では，提案法が VTLN と比較し 1.6% 性能を改善することを示す．Accurate and efficient speaker canonicalization is proposed to improve the performance of speaker-independent ASR systems. Vocal tract length normalization (VTLN) is often applied to speaker canonicalization in ASR; however, it requires parallel decoding of speech when estimating the optimal warping parameter. In addition, VTLN provides the same linear spectral transformation in an utterance, although optimal mapping functions differ among phonemes. In this study, we propose a novel speaker canonicalization using multilayer perceptron (MLP) that is trained with a data set of vowels to map an input spectrum to the output spectrum of a standard speaker or a canonical speaker. The proposed speaker canonicalization operates according to the integration of MLP-based mapping and identity mapping that depends on frequency bands and achieves accurate recognition without any tuning of mapping function during run-time. Results of experiments conducted with a continuous digit recognition task showed that the proposed method reduces the intra-class variability in both of the vowel and consonant parts and outperforms VTLN.

CiNii
i-vectorを用いた話者認識

小川哲司, 塩田さやか

日本音響学会誌 70 ( 6 ) 332 - 339 2014年06月 [招待有り]

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）

DOI CiNii J-GLOBAL
標準話者母音スペクトルへの変換に基づく話者正準化

久保田雄一, 大町基, 小川哲司, 小林哲則, 新田恒雄

日本音響学会講演論文集 2014 ( 春季 ) 77 - 78 2014年03月
因子分析モデルに基づく話者照合の環境変動に対する頑健性の調査

福地佑介, 俵直弘, 小川哲司, 小林哲則

日本音響学会講演論文集 2013 ( 秋季 ) 75 - 78 2013年09月
話者認識で用いる機械学習

小川哲司, 松井知子

日本音響学会誌 69 ( 7 ) 349 - 356 2013年07月

CiNii
効率的なサンプリング手法を用いた話者モデリング

俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

情報処理学会研究報告 2013-SLP-97 ( 2 ) 1 - 8 2013年07月

　概要を見る

多重スケール混合分布（Multi-scale mixture model）を推定するための効率的なサンプリング手法を提案する．多重スケール混合分布は，混合分布を要素分布として持つ混合モデルで，本稿では，要素分布として混合ガウス分布（Gaussian mixture model: GMM）を導入したモデルを扱う．複数の話者が発話した音声データの集合に対して本モデルを適用した場合，発話のような数十フレーム程度の比較的短いスケールで観測される話者内変動は，各要素 GMM により表現される．一方で，異なる話者の発話間に含まれ，比較的長いスケールで観測される話者間変動は，多重スケール混合分布全体により表現される．このような階層構造を持つ複雑な分布のモデル構造推定問題では，マルコフ連鎖モンテカルロ（Markov chain Monte Carlo: MCMC）法のような確率論的アプローチに基づくモデル推定の枠組みが有効である．しかし，ギブスサンプリングのような単純な MCMC 法をそのまま適用した場合，本来は階層構造を持つべき長時間スケールの構造と短時間スケールの構造が，どちらも対等にサンプリングされるため，繰り返しを含むモデル推定の過程で，容易に局所解に陥ってしまう．そこで，本研究では，blocked ギブスサンプリングに類する手法を導入することで，モデルの階層構造を考慮できるサンプリング手法を提案する．このとき，Iterative conditional modes (ICM) アルゴリズムを導入し，一部のサンプリングプロセスを決定論的な枠組みに置き換えることにより，全ての分布がひとつの分布に縮退してしまう病的な解が選ばれる現象を回避できることを示す．非定常なノイズを重畳した評価セットに対する話者クラスタリング実験により，提案するサンプリング法に基づく構造推定手法が，従来のサンプリング手法や変分ベイズ法に基づく構造推定手法よりも，高い精度でクラスタリング出来ることを示した．

CiNii
話者認識で用いる機械学習

小川哲司, 松井知子

日本音響学会誌 69 ( 7 ) 349 - 356 2013年07月 [招待有り]

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）

DOI
指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討

大町基, 小川哲司, 赤桐健三, 小林哲則

日本音響学会講演論文集 2013 ( 春季 ) 937 - 940 2013年03月
性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識

小川哲司, Li Feipeng, Hermansky Hynek

日本音響学会講演論文集 2013 ( 春季 ) 167 - 170 2013年03月
話者認識技術の現状と課題

網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, 王龍標

電子情報通信学会技術研究報告 (SP) 112 ( 450 ) 63 - 70 2013年02月 [招待有り]

　概要を見る

話者認識は、音声からその発話者を認識する技術であり、30年以上の歴史がある。近年のセキュリティ意識の高まりとともに、その重要性が改めて認識され、その研究も盛り上がりを見せている。本稿では、パネルディスカッションに臨むに際し、話者認識技術の現状と今後の課題について概観する。特に、国際的な研究動向、機械学習を用いるアプローチ、環境の違いに対する頑健性、法科学分野における応用について、その最新の動向と今後の予想される展開について述べる。(篠田)

CiNii
クラウド時代の新しい音声研究パラダイム

秋葉友良, 岩野公司, 緒方淳, 小川哲司, 小野順貴, 篠崎隆宏, 篠田浩一, 南條浩輝, 西崎博光, 西田昌史, 西村竜一, 原直, 堀貴明

情報処理学会研究報告 2012-SLP-92 ( 4 ) 1 - 7 2012年07月

　概要を見る

個人が複数の携帯情報端末を所有し，そこで得られたあらゆる音声データをクラウドに蓄積することが容易になりつつある．このように音声情報処理の周辺環境・技術が激変していく中で，音声情報処理技術のより一層の高度化が求められている．その期待に応えるためには，クラウド処理を前提とした音声研究プラットフォームの構築と，それを基盤とした新しい音声研究のパラダイムが必要である．本稿では，現在までに培われてきた音声情報処理技術を概観した上で，新しい研究パラダイムの方向性とそこで生じる新たな課題について議論する．Recently most individuals have come to use mobile information devices, and daily upload the information obtained by such devices to Internet Cloud. Accordingly the applications of speech information processing have been changing drastically. We need to create a new paradigm for the research and development of speech information processing to adapt to this change. In this paper, we summarize the state-of-the-art speech technologies, propose how to create a research platform for this new paradigm, and discuss the problems we should solve to realize it.

CiNii
i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用

福地佑介, 俵直弘, 小川哲司, 小林哲則

情報処理学会研究報告 2012-SLP-92 ( 8 ) 1 - 6 2012年07月

　概要を見る

高精度な話者表現とクラスタリングアルゴリズムを統合した新たな話者クラスタリング手法を提案する．従来用いられる話者クラスタリング手法では，データ量が多くなると正確なクラスタリングが困難になるという問題があった．そのような条件下において正確な話者クラスタリングを実現するためには，音響変動に対して頑健なモデルにより話者を表現し，このモデルを用いて各発話を効率的にクラスタリングする手法が必要となる．そこで提案手法では，話者照合の分野で高い精度を達成しているi-vectorを話者の表現として用い，クラスタリング手法として非負値行列分解に基づいた効率的なクラスタリング手法を導入した．本手法の有効性を示すために，CSJデータを用いた話者クラスタリング実験を行い，従来手法と比較して，提案手法が発話データ量の変化に対し頑健に話者クラスタリングが行えることを確認した．We have developed a novel speaker clustering method by integrating highly accurate speaker representation and a clustering algorithm. The conventional method caused significant degradation in clustering accuracy when the number of utterances increased. High-accuracy speaker representation and high-performance clustering method are required to realize robust speaker clustering system against such a condition. For this purpose, we used i-vectors for the speaker representation, which contributes to the realization of high-accuracy speaker verification systems, and efficient non-negative matrix factorization for the clustering algorithm. Experimental results show that the proposed method outperforms the conventional methods, irrespective of the amount of data.

CiNii
発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価

俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

日本音響学会講演論文集 2012 ( 春季 ) 207 - 210 2012年03月
話者照合における因子分析に基づく特徴抽出に関する評価

小川哲司, 小林哲則

日本音響学会講演論文集 2012 ( 春季 ) 197 - 198 2012年03月
階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング

俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則

電子情報通信学会技術研究報告(IBISML) 111 ( 480 ) 21 - 28 2012年03月

　概要を見る

階層的構造を持つフルベイズ発話生成モデルを定式化し,このモデルの構造を推定することで,複数人により発話された音声データに対して,話者クラスタリングと話者数の推定を同時に行う手法を提案する.提案手法では,話者の分布として混合ガウス分布を導入し,これら話者分布を混合要素として持つ階層的な混合モデルとして発話生成モデルを定式化する.このとき,このモデルの厳密な推定は困難であるが,サンプリングに基づいた手法を導入することで近似的に推定できることを示す.提案モデルを用いることにより,従来手法では良好な性能が得られなかった話者ごとに発話数が大きく異なるデータに対して,頑健なクラスタリングが行えることを示す.

CiNii
多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価

俵直弘, 渡部晋治, 小川哲司, 小林哲則

日本音響学会講演論文集 2011 ( 秋季 ) 175 - 178 2011年09月
Modified LSD 最小化に基づく空間フィルタキャリブレーション

田中信秋, 小川哲司, 小林哲則

日本音響学会講演論文集 2011 ( 秋季 ) 33 - 36 2011年09月
クラス内変動に頑健なカーネルマシンと話者照合への適用

小川哲司, 日野英逸, 村田昇, 小林哲則

日本音響学会講演論文集 2011 ( 秋季 ) 183 - 186 2011年09月

担当区分：筆頭著者, 責任著者

研究発表ペーパー・要旨（全国大会，その他学術会議）
条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合

小川哲司, 日野英逸, 村田昇, 小林哲則

情報処理学会研究報告 2011-SLP-87 ( 3 ) 1 - 6 2011年07月

　概要を見る

話者内変動に頑健な話者照合システムについて検討を行った．発話スタイルや発話時期の違いなどの影響で，同一話者の音声であっても音響的な変動が生じる．このような音響変動は，一般的に話者照合システムの性能を劣化させることが知られている．この問題を解決するため，条件付きエントロピー最小化という，同一クラスのデータを密集させ，かつ異なるクラスのデータを互いに遠ざける性質を持つ最適化基準を用いてマルチカーネル学習を行い，話者照合システムを構築することを試みた．話者照合実験の結果，提案システムは，従来のマージン最大化に基づき構築したシステムと比較して，発話スタイル変動に起因する話者クラス内での音響特徴変動に対して頑健な性能を与えた．We developed a new speaker verification system that is robust to intra-speaker variation. There is a strong likelihood that intra-speaker variations will occur due to changes in speaking styles, the periods when an individual speaks, and so on. It is well known that such variation generally degrades the performance of speaker verification systems. To solve this problem, we applied multiple kernel learning based on conditional entropy minimization, which impose the data to be compactly aggregated for each class and ensure that the different classes were far apart from each other, to speaker verification. Experimental results showed that the proposed speaker verification system achieved a robust performance to intra-speaker variation derived from changes in the speaking styles compared to the conventional maximum margin-based system.

CiNii
発話を単位としたディリクレ過程混合モデルに基づく話者クラスタリング

俵直弘, 渡部晋治, 小川哲司, 小林哲則

日本音響学会講演論文集 2011 ( 春季 ) 41 - 44 2011年03月
マルチカーネル学習を用いた話者認識における最適化の検討 (音声)

小川哲司, 日野英逸, Reyhani Nima

電子情報通信学会技術研究報告 110 ( 357 ) 153 - 158 2010年12月

CiNii
マルチカーネル学習を用いた話者認識における最適化の検討

小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

情報処理学会研究報告 2010-SLP-84 ( 27 ) 1 - 6 2010年12月

CiNii
正方形マイクロホンアレイによる音源分離技術

矢頭隆, 森戸誠, 山田圭, 小川哲司

情報処理 51 ( 11 ) 1410 - 1416 2010年11月

担当区分：最終著者

記事・総説・解説・論説等（学術雑誌）

CiNii
シャッタが切り取る世界（ちょっとしたエッセイ）

小川哲司

日本音響学会誌 66 ( 10 ) 528 - 528 2010年10月

担当区分：筆頭著者, 責任著者

記事・総説・解説・論説等（学術雑誌）

DOI CiNii
情報論的な最適化に基づくマルチカーネル学習を用いた話者認識

小川哲司, 日野英逸, Nima Reyhani, 村田昇, 小林哲則

日本音響学会講演論文集 2010 ( 秋季 ) 81 - 84 2010年09月
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

田村, 哲嗣, 宮島, 千代美, 北岡, 教英, 武田, 一哉, 山田, 武志, 滝口, 哲也, 柘植, 覚, 山本, 一公, 西浦, 敬信, 中山, 雅人, 傳田, 遊亀, 藤本, 雅清, 松田, 繁樹, 小川, 哲司, 黒岩, 眞吾, 中村, 哲

情報処理学会研究報告. SLP, 音声言語情報処理 2010 ( 7 ) 1 - 6 2010年07月

　概要を見る

本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った.

CiNii
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築

田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

情報処理学会研究報告 2010-SLP-82 ( 7 ) 1 - 6 2010年07月

CiNii
CENSREC-1-AV: マルチモーダル音声認識コーパスの構築

田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲

日本音響学会講演論文集 2010 ( 春季 ) 219 - 220 2010年03月
会話ロボットとその聴覚機能

藤江真也, 小川哲司, 小林哲則

日本ロボット学会誌 28 ( 1 ) 23 - 26 2010年01月

記事・総説・解説・論説等（学術雑誌）

DOI CiNii
ロボット頭頂部に設置した小型正方形マイクロホンアレイによる音源定位

細谷耕佑, 小川哲司, 小林哲則

日本音響学会講演論文集 2009 ( 秋季 ) 775 - 778 2009年09月

研究発表ペーパー・要旨（全国大会，その他学術会議）
音声認識利用者の発声方法誘導を行うエキスパートシステムの実装と評価

網田康裕, 中野鐵兵, 小川哲司, 菊池英明, 小林哲則

日本音響学会講演論文集 2009 ( 秋季 ) 229 - 230 2009年09月
ゾーン強調型ビームフォーマの構築

田中信秋, 細谷耕佑, 小川哲司, 小林哲則

日本音響学会講演論文集 2009 ( 秋季 ) 153 - 154 2009年09月
ロンバード発声音声コーパスの設計と評価

小川哲司, 川野弘, 西浦敬信, 山田武志, 北岡教英, 小林哲則

日本音響学会講演論文集 2009 ( 秋季 ) 141 - 144 2009年09月
連続円動作の認識に基づくメニュー項目の選択法

橋口拓弥, 藤江真也, 小川哲司, 中野鐵兵, 小林哲則

画像の理解・認識シンポジウム(MIRU2009)予稿集 IS3-70 1846 - 1850 2009年07月
騒音下音声認識システム評価におけるロンバード効果の影響の検証−ロンバード発声適応モデルを用いた評価−

小川哲司, 小林哲則

日本音響学会講演論文集 2009 ( 春季 ) 175 - 176 2009年03月
ロボットのためのハンズフリー音声認識システム

細谷耕介, 小川哲司, 藤江真也, 渡辺大地, 市川悠飛, 谷山輝, 小林哲則

情報処理学会研究報告 2008-SLP-74 ( 123 ) 7 - 12 2008年12月

　概要を見る

自律移動型ロボットに適した音源分離方式を開発し，対話ロボットにおけるハンズフリー音声認識システムの前処理として適用した．提案する音源分離方式は，対話相手の発話音声に加えてマイクロホンに混入する指向性雑音，拡散性雑音，ロボット動作音，ロボットの自発話といった多様な雑音を同時に除去可能な枠組である．本研究では，この枠組を，ロボット頭部に設置した超小型無指向性マイクロホンを用い，低計算コストのアルゴリズムで実現する．ロボットとの対話において，対話相手はロボットの正面にいることが多いため，提案手法はロボットの正面方向からの音声のみを抽出する枠組となっている．このような，ロボットとの対話という場面において妥当な制約を設けることで，低計算コストの雑音抑圧処理を実現することが可能となる．また，対話相手がロボットの正面方向から移動した場合にも対処するため，ロボットの目に設置したカメラから得られる画像`情報を用いて，対話相手の顔を検出，追跡する枠組を構築し，音源定位として利用する．このように，画像情報を併用できるというロボットの利点を活かすことで，多様な雑音を実時間で高精度に抑圧することが可能となること，および得られた雑音抑圧後の音声を認識に用いることで，実環境においてハンズフリー音声対話システムが良好に動作することを確認した．A new type of noise reduction method suitable for autonomous mobile robots is proposed and applied to pre-processing of a hands-free spoken dialogue system. The proposed method can reduce various kinds of noise such as directional noise, diffuse noise, moving noise of the robot, and speech utterance from the robot, which are mixed with the target speech for the case in which people talk with the robot, by using small and light-weighted devices and low-computational-cost algorithms. Here, we assume that the people talking with the robot is in the front of the robot, and thus the proposed method aims at extracting speech signals coming from the frontal direction of the robot. In addition, for the case in which the people moves from the front of the robot, the sound source can be localized by face detection and tracking using facial images obtained from a camera mounted on eyes of the robot. By taking advantage of the robot, which can combine speech information with image information, real-time reduction of the various noise can be achieved, and thus the hands-free spoken dialogue system can work well in real environments.

CiNii
雑音下音声認識評価ワーキンググループ活動報告：認識に影響する要因の個別評価環境(3)

北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

情報処理学会研究報告 2008-SLP-73 ( 102 ) 41 - 46 2008年10月

　概要を見る

我々雑音下音声認識評価ワーキンググループは，2001 年 10 月から情報処理学会音声言語情報処理研究会の下に組織され，数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤 CENSREC シリーズの開発・配布を行ってきた．本稿ではその CENSREC シリーズを概観し，また主な音声認識研究の発表の場である日本音響学会全国大会および IEEE ICASSP の発表件数調査を踏まえて，その位置づけを確認する．最後に，今後の展望について述べる．We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.

CiNii
HMMの尤度パターンを利用したリスコアリングにおける次元圧縮法の検討

小川哲司, 小林哲則

電子情報通信学会技術研究報告 (SP) 108 ( 142 ) 73 - 78 2008年07月

　概要を見る

HMMの尤度パターンを特徴量として用いたリスコアリングにおける,特徴ベクトルの次元圧縮手法について検討を行う.単語のように長い時間構造を持つ確率モデルが,同様に長い時間構造を持つ単語発話に対して与える尤度は,音韻的に類似する単語クラスに属するデータに対しても識別的なパターンを示す.この性質は,単語モデルを用いて計算される単語発話の尤度パターンを特徴量として用いたリスコアリングにおいて,誤り易い単語同士の識別性能の向上に寄与する.しかし,この枠組は,単語モデルが与える尤度のパターンを特徴ベクトルとして用いていることから,特徴ベクトルの次元数が語彙数と一致する.そのため,特に大語彙を扱う音声認識タスクにおいては,特徴ベクトルの次元数が膨大になるという問題がある.そこで本稿では,認識語彙のうち識別に寄与する単語クラスのみを選択し,得られたクラスに対する尤度のみを用いて特徴ベクトルを構成することで,尤度特徴ベクトルの次元数を削減することを試みる.このように次元圧縮を行った尤度特徴空間上における静的なパターン認識を,単語音声認識システムのリスコアリングに適用したところ,学習データが比較的少量の場合において,次元圧縮を行わないシステムの認識性能を劣化させることなく,かつ従来のHMMを上回る性能を与えることがわかった.

CiNii
HMM における尤度パターンの非対称性を利用した音声認識

加藤健一, 小川哲司, 小林哲則

日本音響学会講演論文集 2008 ( 春季 ) 209 - 212 2008年03月
ロボット頭部に設置した4系統小型無指向性マイクロホンによるハンズフリー音声認識

竹内寛史, 高田晋太郎, 小川哲司, 赤桐健三, 小林哲則, 森戸誠

日本音響学会講演論文集 2008 ( 春季 ) 155 - 158 2008年03月
残響下音声認識評価基盤（CENSREC-4）の構築

西浦敬信, 中山雅人, 傳田遊亀, 北岡教英, 山本一公, 山田武志, 藤本雅清, 柘植覚, 宮島千代美, 滝口哲也, 田村哲嗣, 小川哲司, 松田繁樹, 黒岩眞吾, 武田一哉, 中村哲

日本音響学会講演論文集 2008 ( 春季 ) 175 - 178 2008年03月
雑音下音声認識評価ワーキンググループ活動報告：認識に影響する要因の個別評価環境(2)

北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲

情報処理学会研究報告 2007-SLP-69 1 - 6 2007年12月

CiNii
指向性雑音と拡散性雑音の混在する環境を対象とした携帯端末向け音声強調の検討

高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

日本音響学会講演論文集 2007 ( 秋季 ) 743 - 746 2007年09月
テンプレート群からの確率的距離を用いた階層的音声認識の検討

加藤健一, 小川哲司, 小林哲則

日本音響学会講演論文集 2007 ( 秋季 ) 147 - 150 2007年09月
シミュレーションに基づく騒音下音声認識システム評価におけるロンバード効果の影響の検証−複数の認識タスク，騒音レベルに対する評価−

小川哲司, 倉持公壮, 小林哲則

日本音響学会講演論文集 2007 ( 秋季 ) 195 - 198 2007年09月
マクロな時間構造を持つテンプレート群からの確率的距離を用いた階層型音声認識

加藤健一, 小川哲司, 小林哲則

電子情報通信学会技術研究報告 (SP) 107 ( 116 ) 79 - 84 2007年06月

　概要を見る

前段においてマクロな時間構造を含むテンプレート群からの確率的距離を求め,これを特徴ベクトルとして静的な識別を後段で行う,階層的な単語音声認識手法を提案する.ほとんどの音声認識システムでは,スペクトルに基づく特徴量の時系列を用いて,カテゴリごとに統計モデルを生成し,最も高い尤度を与えたものを入力データのカテゴリと推定する.ここで,出力される各カテゴリに対する尤度は,学習データの種類や量,確率モデルの構造によって特徴づけられる.そのため,識別器は固有の誤り傾向を持つ.識別対象である単語カテゴリの確率モデルをテンプレートと呼ぶと,テンプレート群に対する確率的距離(尤度)は,単語カテゴリごとに安定したパターンを示す.本稿では,このような単語テンプレートからの確率的距離を特徴量として用いて階層的に単語音声認識を行うことで,最尤識別の枠組での誤りを削減できることを示す.孤立単語音声認識実験により提案手法の有効性を評価したところ,従来のMFCCを特徴量としたHMMに基づく方法に比べ,誤りを79%削減した.

CiNii
重み付きHLDA を用いた相補的識別器の構成

加藤健一, 小川哲司, 小林哲則

日本音響学会講演論文集 2007 ( 春季 ) 39 - 40 2007年03月
空間フィルタとポストフィルタを用いた背景雑音抑圧

高田晋太郎, 小川哲司, 赤桐健三, 小林哲則

日本音響学会講演論文集 2007 ( 春季 ) 575 - 576 2007年03月
プロキシエージェントアーキテクチャによる音声認識アプリケーション用ユーザモニタリング機能の効率化

中野鐵兵, 梅本暁, 藤江真也, 小川哲司, 小林哲則

情報処理学会研究報告 (SLP) 2006-SLP-65 23 - 28 2007年02月

研究発表ペーパー・要旨（全国大会，その他学術会議）
特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合

加藤健一, 小川哲司, 小林哲則

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 106 ( 442 ) 25 - 30 2006年12月

CiNii
特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合

加藤健一, 小川哲司, 小林哲則

情報処理学会研究報告 2006 ( 136 (SLP-64) ) 203 - 208 2006年12月

　概要を見る

本稿では、特徴変換にブースティングの枠組を適用した識別器統合手法を提案する。一般的に、複数の識別器を統合するとき、識別性能は向上することが期待できる。しかし、識別器の統合にあたって、二つの重要な課題がある。一点目は、統合する識別器各々の誤り傾向が異なっていなければ（相補性がなければ）、わずかな性能の改善しか得られない点、二点目は、相補的な識別器が生成されたとしても、各々の識別器が与える情報の統合手法が適切でない場合、やはりわずかな性能の向上しか得られないという点である。そこで本稿では、上述した二点を考慮した上で、相補的な識別器の生成手法と、その統合手法について検討を行う。相補的な識別器を生成するにあたっては、Heteroscedastic linear discriminant analysis (HLDA) に基づく特徴変換の過程でブースティングの枠組を適用した。また、統合においては、各々の識別器から出力される尤度の情報を特徴ベクトルとし、このベクトルが張る空間上で Support vector machine (SVM) に基づくパターン認識を行った。提案手法により識別器を統合することで、孤立単語音声認識実験において、統合前と比較し74％の誤りが削減されることがわかった。A framework of system combination using boosting in a feature transformation is proposed. In general, the combination of multiple classifiers improves the classification performance of each classifier. However, there are two important issues in such a system combination. First, the classification performance is not necessarily improved if the classifiers are not complementary. Second, an inappropriate combination makes the performance worse even if the complementary classifiers can be obtained. In this paper, we attempt to solve how to generate and how to combine the complementary classifiers. Aiming at generating the complementary classifiers, the boosting was applied in HLDA based feature transformation. At the combination stage, a pattern recognition using support vector machine was performed, in which a pair of the likelihoods emitted by the classifiers of the first stage was used as a feature parameter. Experimental results showed the effectiveness of proposed method: it reduced the errors by 74% compared to the case without any system combination.

CiNii
少数のマイクロホンを用いた携帯端末向け音源分離

高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

日本音響学会講演論文集 2006 ( 秋季 ) 493 - 494 2006年09月
時間連続性を利用した音源分離処理の高精度化

勘場智之, 小川哲司, 赤桐健三, 小林哲則

日本音響学会講演論文集 2006 ( 秋季 ) 491 - 492 2006年09月
シミュレーションに基づく騒音環境下音声認識におけるロンバード効果の影響

小川哲司, 勘場智之, 小林哲則

日本音響学会講演論文集 2006 ( 秋季 ) 101 - 102 2006年09月
シミュレーションに基づく音声認識システム評価の妥当性の検証

小川哲司, 勘場智之, 小林哲則

電子情報通信学会技術研究報告 (SP) 106 ( 123 ) 1 - 6 2006年06月

　概要を見る

本稿では,雑音環境下音声認識におけるシミュレーションに基づく評価の妥当性について検討を行う.様々な環境下で音声認識を利用したアプリケーションを動作させることを考えるとき,全ての環境下でテストデータを収集し認識器の性能を評価することは,膨大な作業が必要となり現実的ではない.この様な評価を効率よく行うためには,比較的少量のテストデータを収集し,これに評価環境での伝達特性を畳み込むなどして評価環境でのテストデータを生成し,対象となる環境下での評価実験をシミュレートすることが有望視されている.しかしながら,そのようなシミュレーションが実際の環境下での実験を正確に模擬したことになっているかどうかは,必ずしも明確ではない.本稿では,特に雑音下においてはロンバード効果と呼ばれる現象のため声が変形することを考慮した上で,シミュレーションを良好に行うための条件を明らかにする.

CiNii
減算型アレイ処理とスペクトラルサブトラクションを用いた音源分離技術とその携帯電話への応用

高田晋太郎, 勘場智之, 小川哲司, 赤桐健三, 小林哲則

電子情報通信学会技術研究報告 (SP) 106 ( 123 ) 7 - 12 2006年06月

　概要を見る

3チャンネルの無指向性マイクロホンによる減算型アレイ処理とスペクトラルサブトラクションを組み合わせた音源分離技術を提案し,騒音や雑音環境化での使用を前提とした携帯電話やPDA等の小型端末に適用することを試みる.携帯電話等への応用を考えた場合,少数のマイクロホンとコンパクトなマイク配置,低い計算コストが求められるが,その上で広範囲から到来する妨害音を除去する必要がある。本稿では,実際に携帯電話にマイクロホンを設置し,2話者同時発話に対する音源分離および,その分離音声に対する音声認識を行った.提案する音源分離手法により,PESQに基づくMOS値による評価では約1ポイントの向上が見られ,音声認識による評価では約80%の単語正解精度が得られた.

CiNii
ロボット頭部に設置したマイクロホンによる環境変動に頑健な音源定位

久保俊明, 持木南生也, 小川哲司, 小林哲則

人工知能学会研究会資料 SIG-Challenge-0522 89 - 94 2005年10月

CiNii
BSSとスペクトラルサブトラクションの多段処理による音源分離

伊佐崇, 関矢俊之, 小川哲司, 小林哲則

日本音響学会講演論文集 2005 ( 秋季 ) 705 - 706 2005年09月
ロボット頭部に設置した4系統指向性マイクロホンによる音源定位におけるHLDA利用の効果

久保俊明, 持木南生也, 小川哲司, 小林哲則

日本音響学会講演論文集 2005 ( 秋季 ) 717 - 718 2005年09月
An extension of the state-observation dependency in Partly Hidden Markov Models and its application to continuous speech recognition

Tetsuji Ogawa, Tetsunori Kobayashi

Systems and Computers in Japan 36 ( 8 ) 31 - 39 2005年07月

　概要を見る

We extend the state-observation dependencies in a Partly Hidden Markov Model (PHMM) and apply this model to continuous speech recognition. In a PHMM the observations and state transitions are dependent on a series of hidden and observable states. In the standard formulation of a PHMM, the observations and state transitions are conditioned on the same hidden state and observable state variables. Here we also condition the observations and state transitions on the same hidden states but condition the observations and state transitions on different observation states, respectively. This simple improvement to the model gives it significant flexibility allowing it to model stochastic processes more precisely. In addition, by integrating the PHMM containing this extended state-observation dependency with a standard HMM we can construct a stochastic model that we call a Smoothed Partly Hidden Markov Model (SPHMM). Results of continuous speech recognition on a newspaper read-speech have shown reductions of 10 and 24% in the error rate using the PHMM and SPHMM, respectively, compared to a standard HMM thereby displaying the effectiveness of the proposed models. © 2005 Wiley Periodicals, Inc.

DOI
識別的基準と遺伝的アルゴリズムに基づく隠れ部分マルコフモデルの構造の最適化

小川哲司, 小林哲則

電子情報信学会技術研究報告 (SP) 105 ( 132 ) 37 - 42 2005年06月

　概要を見る

複雑な特徴量の時間変化を音響モデルによって扱うことを目的として, 部分隠れマルコフモデル(PHMM)を提案し, 新聞読み上げ音声を対象とした連続音声認識においてその有効性を確認してきた.PHMMは出力確率と遷移確率双方に前出力依存性を有した確率モデルであるが, これまでの枠組みでは, その構造は全てのカテゴリで共通なものを用いてきた.そこで本稿では, 重みつき尤度比最大基準に基づき, PHMMにおける状態と出力間の依存構造を, カテゴリ毎に最適に選択することを試みる.重みつき尤度比最大化基準は識別的な評価尺度であるため, この基準によって推定されたモデル構造は, 結果として正解カテゴリと不正解カテゴリに対して高い識別能力を有する.ここでは, 全てのカテゴリに対して取り得るモデル構造の組み合わせの中から, 最大の重みつき尤度比を与える構造の組み合わせを最適なモデル構造と定義し, 探索の最適な近似として遺伝的アルゴリズムを適用することを試みる.また, 学会講演音声を対象とした連続音声認識実験によって, 提案するモデル構造選択手法の有効性を評価したところ, HMMや, 構造を全てのカテゴリで共通としたPHMMの誤りを削減した.

CiNii
参照信号によるパーミュテーション問題解決とSMDPの統合による周波数領域BSSの性能向上

伊佐崇, 関矢俊之, 小川哲司, 小林哲則

電子情報信学会技術研究報告 (SP) 105 ( 133 ) 31 - 36 2005年06月

　概要を見る

本論文では周波数領域BSS固有の問題であるパーミュテーション問題を解決する手法を提案する.さらに, 周波数領域BSSとSMDP (Segregation using Multiple Directivity Patterns)を統合して音源分離を行う手法を提案する.パーミュテーション問題は, 各周波数において分離信号と参照信号とのスペクトルエンベロープの相関を計算することによって解決する.参照信号はBSSとは別の処理によって, 目的信号に対応するような分離信号として作られ, 分離が十分に行われている必要はない.パーミュテーション問題を参照信号によって解決し, 得られる複数の指向特性から, 音源スペクトルの振幅に関する連立方程式を立てる.その解として音源スペクトルを推定し, 推定された妨害音源スペクトルをSpectral Subtractionにより除去して音源分離を行う.音源数既知の条件下で連続音声認識実験を行った結果, 周波数領域BSSのみの手法と比較して30%のエラー削減率が得られた.

CiNii
マイク間のスペクトル強度比を利用した音源定位におけるHLDA利用の効果

久保俊明, 持木南生也, 小川哲司, 小林哲則

電子情報信学会技術研究報告 (SP) 105 ( 133 ) 37 - 42 2005年06月

　概要を見る

Heteroscedastic LDA (HLDA)を利用することで, 異なる環境に対してロバストな音源定位手法を提案する.我々はこれまでにマイクロホン間のスペクトル強度比を特徴量とした統計的パターン認識の手法を用いることで, 厳密な頭部伝達関数を必要としない音源定位手法を提案してきた.このような方法においては, 学習環境と実際の動作環境との差異が問題となる.この差を補正するために, 動作環境で得られた数方位からの少量のデータを用いて, MLLRによりモデルの適応を行うことにより, 誤りを削減することが可能である.しかしロボットが移動することで環境が随時変動し, その度に適応を行なうことは困難である.そこでHLDAを利用して特徴量から残響などの環境情報を削除し, 識別に寄与する情報のみを抽出することで, 環境が異なる場合にもロバストな認識を試みる.音源定位実験により本手法の有効性を実現した.

CiNii
ロボット頭部に設置した４系統指向性マイクロホンによる音源定位

持木南生也, 関矢俊之, 小川哲司, 小林哲則

日本音響学会講演論文集 2005 ( 春季 ) 609 - 610 2005年03月
重み付き尤度比最大基準に基づく部分隠れマルコフモデルの構造の最適化

小川哲司, 小林哲則

日本音響学会講演論文集 2005 ( 春季 ) 131 - 132 2005年03月
ロボット頭部に設置した4系統指向性マイクロフォンによる音源定位および混合音声認識

持木南生也, 関矢俊之, 小川哲司, 小林哲則

人工知能学会研究会資料 SIG-Challenge-0420-4 21 - 27 2004年12月
複数の指向特性を利用した音源分離における音源定位との統合

関矢俊之, 小川哲司, 小林哲則

日本音響学会講演論文集 2004 ( 秋季 ) 617 - 618 2004年10月
雑音環境下における階層的音源分離の評価

関矢俊之, 澤田知寛, 小川哲司, 小林哲則

日本音響学会講演論文集 2004 ( 春季 ) 99 - 100 2004年03月
ロボット頭部に設置した4系統指向性マイクロホンによる混合音声認識

持木南生也, 関矢俊之, 小川哲司, 小林哲則

日本音響学会講演論文集 2004 ( 春季 ) 95 - 96 2004年03月
階層的音源分離に基づく混合音声の認識

澤田知寛, 関矢俊之, 小川哲司, 小林哲則

人工知能学会研究会資料 SIG-Challenge-0318-5 27 - 32 2003年11月
マイクロフォンアレーを用いた混合音声認識

関矢俊之, 小川哲司, 小林哲則

電子情報信学会技術研究報告 (SP) 103 ( 93 ) 13 - 18 2003年05月

　概要を見る

複数話者の同時発話音声の認識は,実環境下で音声認識を行う際に解決しなければならない重要な課題である.本稿では,複数の指向特性を持つマイクロフォンアレーの出力比較に基づいて,所望音声の帯域選択を行い音源を分離する手法を提案するとともに,これを用いて2話者の同時発話音声の認識を試みる.本方式では,高精度な周波数解析が必要となる.ここでは,一般化調和解析(GHA)の適用によりこの問題の解決を試みる.また本方式においては,分離時に独特のスペクトル変形が生じる.ここでは,MLLRによる音響モデルの適応と音響モデルの再学習によりスペクトル変形を吸収し,認識性能の向上を試みる.その結果,SNR 0 dBの条件下で単語正解精度にして最高76.2%を達成することができた.これは,アレー処理のみの場合に比べて45%,アレー処理と帯域選択を併用した場合に比べて30%のエラー削減率である.

CiNii
SAFIAによる同時発話音声の認識

関矢俊之, 芹沢新, 小川哲司, 小林哲則

日本音響学会講演論文集 2003 ( 春季 ) 19 - 20 2003年03月
部分隠れマルコフモデルの拡張と連続音声認識による評価

小川哲司, 小林哲則

日本音響学会講演論文集 2002 ( 秋季 ) 51 - 52 2002年09月
部分隠れマルコフモデルによる連続音声認識

小川哲司, 小林哲則

電子情報信学会技術研究報告 (SP) 102 ( 159 ) 25 - 30 2002年06月

　概要を見る

部分隠れマルコフモデル(Partly-Hidden Markov Model;PHMM)における状態と出力の依存関係を一般化し,連続音声認識に適用した.従来のPHMMにおいては,出力確率と状態遷移確率を決定するための隠れ状態と観測可能な状態の組は共通なものを用いていた.ここでは,出力確率と状態遷移確率を決定するにあたり,隠れ状態に関しては共通のものを使い,観測可能な状態に関しては,出力の決定と,状態遷移の決定に異なるものを利用することを考える.このような簡単な改良により大きな自由度が与えられ,より精度の高い確率過程のモデルを実現できる。連続音声認識実験の結果,PHMMはトライフォンHMMに比べ19%の誤認識率を改善できることが示された。

CiNii
複数の話者依存モデルを用いた話者空間表現に基づく話者適応

牛久祐輔, 小川哲司, 小林哲則

日本音響学会講演論文集 2001 ( 秋季 ) 129 - 130 2001年10月
音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化

小川哲司, 小林哲則

日本音響学会講演論文集 2000 ( 秋季 ) 19 - 20 2000年09月
部分隠れマルコフモデルにおける状態・出力依存関係の一般化

小川哲司, 古山純子, 小林哲則

日本音響学会講演論文集 2000 ( 春季 ) 155 - 156 2000年03月

▼全件表示

産業財産権

予兆検知システムおよびプログラム

特許7313610

中野鐵兵, 小川哲司, 小林哲則, 沖本祐典

特許権
収音装置、収音プログラム、及び収音方法

藤枝大, 原宗大, 片桐一浩, 西城耕平, 小林哲則, 小川哲司

特許権
収音装置、収音プログラム、及び収音方法

藤枝大, 片桐一浩, 西城耕平, 小川哲司

特許権
音声認識モデル学習装置、音声認識装置、およびプログラム

佐藤裕明, 所澤愛子, 伊藤均, 三島剛, 河合吉彦, 小森智康, 小川哲司, 佐藤庄衛

特許権
学習装置、音声認識装置、学習方法、および、学習プログラム

俵直弘, 小川厚徳, 岩田具治, 小川哲司, 小林哲則, 樋口陽祐

特許権
照合装置、照合方法、および、照合プログラム

俵直弘, 小川厚徳, 岩田具治, デルクロアマーク, 小川哲司

特許権
制御状態監視システムおよびプログラム

中野鐵兵, 小川哲司, 小林哲則

特許権
信号処理装置、信号処理プログラム、信号処理方法、及び収音装置

片桐一浩, 藤枝大, 小川哲司, 俵直弘

特許権
予兆検知システムおよびプログラム

中野鐵兵, 小川哲司, 小林哲則, 沖本祐典

特許権
モニタリング対象機器の異常発生予兆検知方法及びシステム

長谷川隆徳, 緒方淳, 小川哲司, 村川正宏

特許権
予測装置、予測方法および予測プログラム

岩田具治, 小川厚徳, 小林哲則, 小川哲司, 森岡幹

特許権
状態監視システム

中野鐵兵, 小林哲則, 斎藤奨, 小川哲司

特許権
単語予測装置、プログラム

岩田具治, 小川厚徳, 小林哲則, 小川哲司, 森岡幹, 川崎真未

特許権
音源分離システム、方法及びプログラム

矢頭隆, 片桐一浩, 藤枝大, 小林哲則, 大町基, 小川哲司

特許権
音源分離装置、方法及びプログラム

森戸誠, 矢頭隆, 山田圭, 小林哲則, 赤桐健三, 小川哲司

特許権
音源分離装置、プログラム及び方法

森戸誠, 矢頭隆, 山田圭, 小林哲則, 赤桐健三, 小川哲司

特許権
音源分離装置、方法及びプログラム

森戸誠, 矢頭隆, 山田圭, 小林哲則, 赤桐健三, 小川哲司

特許権
エコーキャンセラ及びエコーキャンセル方法

小林哲則, 赤桐健三, 藤江真也, 小川哲司

特許権
認識器構築システム、認識器構築方法、組立サービス提供システム、およびプログラム

小林哲則, 中野鐵兵, 藤江真也, 小川哲司

特許権

▼全件表示

現在担当している科目

情報通信基礎　【前年度成績S評価者用】

基幹理工学部

2026年春学期
情報通信基礎

基幹理工学部

2026年春学期
卒業論文Ａ　18前再　【前年度成績S評価者用】

基幹理工学部

2026年春学期
情報理工学実験Ａ

基幹理工学部

2026年秋学期
情報理工学実験Ｂ

基幹理工学部

2026年春学期
情報理工学実験Ａ　【前年度成績S評価者用】

基幹理工学部

2026年秋学期
論理回路

基幹理工学部

2026年春学期
論理回路　　【前年度成績S評価者用】

基幹理工学部

2026年春学期
卒業論文Ａ

基幹理工学部

2026年春学期
パターン認識と機械学習

基幹理工学部

2026年秋学期
卒業論文Ｂ

基幹理工学部

2026年秋学期
卒業論文Ａ　（集中）

基幹理工学部

2026年集中（春・秋学期）
卒業論文Ａ（秋学期）

基幹理工学部

2026年秋学期
プロジェクト研究Ｂ

基幹理工学部

2026年秋学期
プロジェクト研究Ａ

基幹理工学部

2026年春学期
卒業論文Ｂ（春学期）

基幹理工学部

2026年春学期
情報理工学実験Ｂ【前年度成績S評価者用】

基幹理工学部

2026年春学期
卒業論文Ａ（秋学期）　18前再

基幹理工学部

2026年秋学期
卒業論文Ｂ　18前再　【前年度成績S評価者用】

基幹理工学部

2026年秋学期
卒業論文Ｂ（春学期）　18前再

基幹理工学部

2026年春学期
卒業論文Ａ　18前再

基幹理工学部

2026年春学期
卒業論文Ｂ　18前再

基幹理工学部

2026年秋学期
卒業論文Ａ　18前再

基幹理工学部

2026年春学期
卒業論文Ｂ

基幹理工学部

2026年秋学期
卒業論文Ａ　（集中）

基幹理工学部

2026年集中（春・秋学期）
卒業論文Ａ（秋学期）

基幹理工学部

2026年秋学期
卒業論文Ａ

基幹理工学部

2026年春学期
情報通信実験Ａ　【前年度成績S評価者用】

基幹理工学部

2026年秋学期
情報通信実験Ａ

基幹理工学部

2026年秋学期
回路理論Ｂ　18前再　【前年度成績S評価者用】

基幹理工学部

2026年秋学期
回路理論Ｂ　18前再

基幹理工学部

2026年秋学期
論理回路　【前年度成績S評価者用】

基幹理工学部

2026年春学期
論理回路

基幹理工学部

2026年春学期
プロジェクト研究Ｂ

基幹理工学部

2026年秋学期
パターン認識と機械学習

基幹理工学部

2026年秋学期
卒業論文Ｂ（春学期）

基幹理工学部

2026年春学期
情報通信実験Ｂ

基幹理工学部

2026年春学期
プロジェクト研究Ａ

基幹理工学部

2026年春学期
卒業論文Ｂ（春学期）　18前再

基幹理工学部

2026年春学期
卒業論文Ｂ　18前再

基幹理工学部

2026年秋学期
卒業論文Ｂ　18前再　【前年度成績S評価者用】

基幹理工学部

2026年秋学期
情報通信実験Ｂ【前年度成績S評価者用】

基幹理工学部

2026年春学期
卒業論文Ａ　18前再　【前年度成績S評価者用】

基幹理工学部

2026年春学期
卒業論文Ａ（秋学期）　18前再

基幹理工学部

2026年秋学期
Graduation Thesis B (Spring) [S Grade]

基幹理工学部

2026年春学期
Graduation Thesis A　(Fall)[S Grade]【For students enrolled before 2022】

基幹理工学部

2026年秋学期
Graduation Thesis B (Fall)

基幹理工学部

2026年秋学期
Graduation Thesis A　(Spring)【For students enrolled before 2022】

基幹理工学部

2026年春学期
Computer Science and Communications Engineering Laboratory A [S Grade]

基幹理工学部

2026年秋学期
Computer Science and Communications Engineering Laboratory A

基幹理工学部

2026年秋学期
Project Research Fall

基幹理工学部

2026年秋学期
Introduction to Computers and Networks

基幹理工学部

2026年春学期
Computer Science and Communications Engineering Laboratory B

基幹理工学部

2026年春学期
Graduation Thesis B (Spring)

基幹理工学部

2026年春学期
Graduation Thesis A (Fall) [S Grade]

基幹理工学部

2026年秋学期
Graduation Thesis A (Fall)

基幹理工学部

2026年秋学期
Graduation Thesis A (Spring) [S Grade]

基幹理工学部

2026年春学期
Graduation Thesis A (Spring)

基幹理工学部

2026年春学期
Graduation Thesis A　(Fall)【For students enrolled before 2022】

基幹理工学部

2026年秋学期
Graduation Thesis A　(Spring)[S Grade]【For students enrolled before 2022】

基幹理工学部

2026年春学期
Graduation Thesis B (Fall) [S Grade]

基幹理工学部

2026年秋学期
Project Research Spring

基幹理工学部

2026年春学期
Logic Circuits [S Grade]

基幹理工学部

2026年秋学期
Logic Circuits

基幹理工学部

2026年秋学期
Master's Thesis (Department of Computer Science and Communications Engineering)

大学院基幹理工学研究科

2026年通年
修士論文（情報・通信）

大学院基幹理工学研究科

2026年通年
情報理工・情報通信特別実験A

大学院基幹理工学研究科

2026年春学期
情報理工・情報通信特別実験B

大学院基幹理工学研究科

2026年秋学期
知覚情報システム

大学院基幹理工学研究科

2026年秋学期
メディアインテリジェンス研究

大学院基幹理工学研究科

2026年通年
知覚情報システム

大学院基幹理工学研究科

2026年秋学期
Special Laboratory B in Computer Science and Communications Engineering

大学院基幹理工学研究科

2026年秋学期
Special Laboratory A in Computer Science and Communications Engineering

大学院基幹理工学研究科

2026年春学期
Perceptual Computing

大学院基幹理工学研究科

2026年秋学期
Seminar on Media Intelligence D

大学院基幹理工学研究科

2026年秋学期
Seminar on Media Intelligence C

大学院基幹理工学研究科

2026年春学期
Seminar on Media Intelligence B

大学院基幹理工学研究科

2026年秋学期
Seminar on Media Intelligence A

大学院基幹理工学研究科

2026年春学期
Research on Media Intelligence

大学院基幹理工学研究科

2026年通年
メディアインテリジェンス演習D

大学院基幹理工学研究科

2026年秋学期
メディアインテリジェンス演習C

大学院基幹理工学研究科

2026年春学期
メディアインテリジェンス演習B

大学院基幹理工学研究科

2026年秋学期
メディアインテリジェンス演習A

大学院基幹理工学研究科

2026年春学期
Pattern Recognition

大学院基幹理工学研究科

2026年春学期
パターン認識特論

大学院基幹理工学研究科

2026年春学期
情報理工・情報通信特別演習Ｂ

大学院基幹理工学研究科

2026年秋学期
情報理工・情報通信特別演習Ａ

大学院基幹理工学研究科

2026年春学期
メディアインテリジェンス研究

大学院基幹理工学研究科

2026年通年

▼全件表示

担当経験のある科目(授業)

情報理工・情報通信ラボ／音情報処理

早稲田大学
2023年04月

-

継続中
パターン認識特論

早稲田大学大学院
2023年04月

-

継続中
パターン認識と機械学習

早稲田大学
2023年04月

-

継続中
回路理論B

早稲田大学
2020年09月

-

継続中
機械学習

早稲田大学／enPiT-Pro スマートエスイー
2019年04月

-

継続中
Introduction to Computers and Networks

早稲田大学・英語学位プログラム
2019年04月

-

継続中
情報通信基礎

早稲田大学
2017年04月

-

継続中
知覚情報システム

早稲田大学大学院
2016年09月

-

継続中
Logic Circuits

早稲田大学・英語学位プログラム
2016年09月

-

継続中
論理回路

早稲田大学
2016年04月

-

継続中
最適化と認識・学習

早稲田大学
2021年09月

-

2023年03月
情報通信実験C／音情報処理

早稲田大学
2016年09月

-

2023年03月
パターン認識と機械学習

早稲田大学大学院
2016年04月

-

2023年03月
工学系のモデリングA

早稲田大学
2016年04月

-

2023年03月
アルゴリズムとデータ構造A

早稲田大学
2019年04月

-

2019年09月
Circuit Theory A

早稲田大学・国際コース
2016年09月

-

2019年03月
Machine Learning

エジプト・日本科学技術大学
2012年09月

-

2015年02月
知覚情報システム

早稲田大学
2008年04月

-

2011年09月
音情報処理

早稲田大学オープン教育センター
2008年09月

-

2011年03月
インタラクティブシステム

早稲田大学オープン教育センター
2008年04月

-

2010年09月
音インタフェース

早稲田大学オープン教育センター
2007年09月

-

2008年03月

▼全件表示

他学部・他研究科等兼任情報

理工学術院大学院基幹理工学研究科

学内研究所・附属機関兼任歴

2026年

-

2030年

知覚情報システム研究所プロジェクト研究所所長
2024年

-

2026年

リサーチイノベ　オープンイノベーション推進セクション兼任センター員
2024年

-

2026年

理工学術院総合研究所兼任研究員
2024年

-

2026年

ミッションオリエンテッド研究教育センター兼任センター員

特定課題制度（学内資金）

高品質音声対話データ収集のための音声収録・雑音抑圧方式の体系的検討

2025年

　概要を見る

　本研究では、意味のある自然な応答が可能な高性能音声対話モデルの構築に向けて、雑音の少ない自然対話音声を取得する方法について検討した。音声対話モデルの深層学習には、人同士の自然な対話コーパスが不可欠であり、その収集においては、残響、他話者音声、背景雑音の影響を抑え、かつ目的話者の音声を歪ませることなく取得することが重要である。しかし、対話参加者がそれぞれ近接マイクを装着して対面対話を収録する場合であっても、本人音声を明瞭に取得できる一方で、他話者の発話や周囲雑音の混入は避けられない。　そこで本研究では、このような雑音を含む対話音源から目的話者音声を抽出するため、信号処理ベースおよび深層学習ベースの音源分離手法を比較・検討した。具体的には、信号処理ベースの手法として独立ベクトル解析（IVA）を用い、深層学習ベースの手法としてMossFormer2のような学習済みモデルを用いたモノラル音源分離手法を適用した。さらに、音源分離後に深層学習ベースの背景雑音除去処理（FRCRNやMossFormerGAN）を組み合わせ、よりクリーンな音源を得るために有効な構成を調査した。　実験の結果、肩掛けマイクロホンで収録した音声に対しては、学習済みモデルと入力音声とのドメインギャップは分離性能に大きな影響を与えず、深層学習ベースのモノラル音源分離手法が最も有効であることを確認した。一方、IVAは分離音声に大きな歪みを生じさせにくいという利点を有するものの、背景雑音が残留しやすい傾向が見られた。ただし、後処理として背景雑音除去を適用することで、一定の音声品質向上が得られることも明らかとなった。以上より、本研究は、高品質な対話コーパス収集基盤の構築に資する知見を示した。
ユーザの意図を直接かつ直感的な形で反映可能な状態監視システムの構築法に関する研究

2025年

　概要を見る

　本研究では、重症心身障害児（以下、重症児）の顔画像から得られる情報に基づく感情状態推定を対象として、視覚言語モデル（VLM）を活用した個別適応型の画像認識フレームワークを提案した。重症児が表出する感情状態やその表出方法には大きな個人差があり、さらに発達や医学的要因により経時的にも変化する。このため、大規模データに基づいて構築された汎用的な感情状態推定モデルをそのまま活用することは現実的ではない。一方、従来の個別適応型パターン認識手法には、養育者や専門家による高コストなアノテーション、モデリングにおける人工知能（AI）技術者への依存、ならびに判断過程の不透明性といった課題があった。　これに対し本研究では、モデルの再学習を行うことなく、VLMが生成する言語記述を介してパターン認識を実現するとともに、対象者ごとの個別最適化を行う手法を開発した。例えば、快状態の検知においては、入力画像が快状態を表す言語記述とどの程度整合するかをVLMに照合させることで推定を行う。具体的には、まず少数の顔画像から、顔面筋の動きのパターンであるアクションユニット（AU）の強度と自由記述を組み合わせた特徴記述を生成し、推論誤差に基づいて反復的に修正する「VLM記述修正法」を提案した。これにより、専門家の知識や勾配計算を伴う再学習を必要とせずに個別適応を実現するとともに、自然言語記述を通じた高い説明可能性を確保した。さらに、初期記述への依存を軽減するため、複数の特徴記述を生成・統合する「VLM複数記述統合法」を提案し、認識の頑健性を向上させた。　評価実験の結果、提案法は重症児の快・不快推定において有効性を示し、専門家の知識を要する既存手法を上回る性能を達成した。本研究は、少数の画像と自然言語のみを用いて個別最適化を可能にする新たなパターン認識の枠組みを示した点に意義があり、説明可能性が重視される実社会の多様な画像認識課題への展開が期待される。
視覚言語モデルを用いた重症児感情推定モデルの構築法に関する研究

2024年

　概要を見る

重症心身障害児（重症児）の感情状態推定モデルを効率的に構築する手法を検討した．重症児が表出する感情状態やその表現手段は児ごとに大きく異なるため，モデル構築には養育者による個別のアノテーションが不可欠であり，その負担の大きさが課題となっている．この問題に対し，養育者の関与を限定しつつ個別性の高いモデルを構築するための枠組みとして「Parents-in-the-Loop Learning（PITL）」を提案した．PITLは，１）養育者が持つ知識の提供に基づき初期モデルを構築する「教育段階」，および２）初期モデルの推定結果に対し養育者が検証・修正を行うことでモデル性能を向上させる「矯正段階」から成る．本枠組みにより，養育者の関与を限定した中で，効率的かつ高精度に児専用の感情状態推定モデルを構築することを目指した．しかし，PITLの教育段階では使用するサイン検出器の選定などにAI技術者の介入を要する．重症児の感情状態やその表出方法は児ごとに異なるだけでなく，成長に伴い変化・増加する可能性があるため，都度AI技術者に依存せず，養育者自身の意図に沿って柔軟にモデルを構築できることが望ましい．そこで本研究では，AI技術者の関与をさらに削減する手段として，視覚言語モデル（VLM）の活用を提案し，VLMを用いた初期モデル構築の可能性を検討した．これにより，養育者が直感的なプロンプト入力を通じて，モデル構築プロセスを主体的に進められることを目指した．顔表情サインを用いる重症児一名を対象とした実験の結果，PITLにより構築されたモデルが，人手による精密だが労力を要するアノテーションに基づくモデルと同等の性能を示し，その有効性が確認された．さらに，VLMを用いた初期モデル構築については，複数の正解例をプロンプトとして与えることで，重症児感情状態推定モデルの構築に活用可能であることが示唆された．
持続可能な看護支援のための重度障がい児感情推定システムの構築に関する研究

2023年

　概要を見る

医療が必要な重症心身障がい児（以下，重症児）とのコミュニケーションを支援する人工知能（AI）技術として，映像から重症児の感情状態や意図を推定する方式について検討を行った．重症児は感情の表出方法に強い個人性があること，および感情状態・意図推定の目的が医療・看護に関する意思決定支援であることから，持続可能な重症児看護のための感情状態推定を，少量の学習データでも頑健に感情状態推定モデルを構築可能（要件Ⅰ），感情状態が検知された際の根拠を説明可能（要件Ⅱ）な形で実現することを試みた．具体的には，感情状態の拠り所（サイン）もしくはその構成要素を識別するような大規模事前学習モデルの利用によって，上述の二つの要件を満たすような感情状態推定の枠組みを提案した．提案方式では，顔表情から感情状態が読み取れる児を想定し，顔面筋の動作単位であるアクションユニット（AU）をサインの構成要素として検出するとともに，検出における中間情報を感情状態推定の特徴量として利用した．顔面筋の動きは実際に養育者が意思決定過程で拠り所とする情報であり，感情状態の特徴表現及び予測根拠の直感的な説明材料として利用可能である．また，顔面筋の動きは人に依らない情報であるため，健常者の大規模データを事前学習モデルの構築に利用出来る．これにより高精度な特徴が抽出され，感情状態推定器の学習が重症児の少量データで可能になると期待される．重症児 1 名の映像データを題材とした快・不快状態の推定実験を通して，提案手法と汎用的な事前学習モデルを用いる手法を比較し，推定性能と予測根拠の説明性の観点から，提案手法が有効であるという結論を得た．本研究で得られた知見は，重症児のコミュニケーション支援AIの開発のみならず，個人依存性が高い属性の予測およびそのためのモデリング一般に貢献することが期待される．
クラウドソーシングにおける品質保証：効率的な回答収集のための動的なタスク発注

2022年

　概要を見る

クラウドソーシング（インターネットを通じた作業の依頼）の活用により機械学習に必要な大規模データを比較的容易に収集可能となっているが，悪意のあるワーカ等に起因したデータ品質の劣化が問題となる．同一タスクに複数発注を行い回答の多数決を行うことでデータの品質を向上できる一方，発注数の増加に伴うコストの増加も無視できない．それに対し，タスクの難易度に応じて発注数を適応的に決定することで，経済性と信頼性を併せ持つデータ品質保証技術の開発を試みた．家畜の監視画像に対するアノテーションにおいて，発注数の最小値と最大値，ワーカの最低合意率といったパラメータを正解ラベルなしで学習できることを明らかにした．
クラウドソーシングと物体追跡を用いた効率的な映像アノテーションに関する研究

2021年

　概要を見る

映像中の複数の移動物体に対するアノテーションを効率的に行うため，物体検出器の反復的自己学習により得られる疑似矩形ラベルを活用したインタラクティブなアノテーション方式を提案した．提案方式では，矩形ラベル生成において検出対象の見逃しを低く抑えながら，反復的自己学習により対象の外観の変化に頑健な物体検出器を構築した．また，インタラクティブな追跡により低品質の追跡結果を補正することでアノテーション精度を改善するとともに，対象物体に矩形を描画する既存ツールのアノテーションコストを削減することに成功した．実際，標準的なベンチマークや家畜の映像監視データを用いた検証を通じ，提案方式の高い実用性を確認した．
意思決定⽀援のための説明可能な状態監視システムの構築・運⽤法に関する研究

2021年

　概要を見る

状態監視システムを運用する過程で蓄えられるデータをクラウドソーシングにより検証することで効率的かつ持続的にシステムを成長させる枠組みを，畜産業従事者の意思決定支援において重要な課題である，家畜の分娩予兆を映像情報から検知するシステムの開発を通じて確立することを試みた．具体的には，１）正例の見逃しを含むラベルノイズに頑健な映像監視モデルのマルチタスク学習法，２）深層ニューラルネットワークによる予測の不確実性推定のための，相補性を考慮したアンサンブル学習法と，複数モデルの予測の不一致に基づくデータ選択法，３）ストリーミング映像の監視システムを実時間動作可能にする実装法を明らかにした．
クラウドソーシングを活用した持続可能な状態監視システムの構築・運用法に関する研究

2020年

　概要を見る

人の意思決定支援を目的とした映像監視システムは，1）少量データで構築可能，2）持続的に運用可能，3）予測結果の根拠を説明可能，であることが求められる．本研究では，ユーザ（専門家）の意思決定プロセスに係る知識をニューラルネットワークに組み込むことで，これらの要件を満たすシステムを構築・運用するためのフレームワークを確立することを試みた．提案フレームワークに基づき映像監視による繁殖牛の分娩予兆検知システムを構築し，少量データ・環境変動に対して頑健な予兆検知性能と畜産業従事者に対する予測根拠の解釈可能性の両面においてend-to-endアプローチで構築したシステムに対する有効性を明らかにした．
ドローンによる空撮に基づく潮目の検知に関する研究

2020年

　概要を見る

ドローンによって撮影された海面映像から自動的に潮目を検知する技術の開発を試みた．ドローンによる潮目の検知が可能になれば，良漁場に関する情報を比較的低コストで漁業事業者に提供できるため，操業効率化への貢献が期待される．潮目検知モデルを構築するために，ドローン空撮による潮目画像データセット（画像総数158,739枚）を構築し，潮目の有無に関する識別実験を行った．潮目の検知モデルにPyramid pooling moduleを備えた畳み込みニューラルネットワークを用いたところ，適合率0.90，再現率0.81，Ｆ値0.85という性能で潮目が検知できることがわかった．
映像情報を用いた繁殖牛の発情予兆検知に関する研究

2019年

　概要を見る

インターネットを通して不特定多数の人に仕事を依頼するクラウドソーシングを用いて，映像から繁殖牛の発情予兆を検知するための技術開発を行った．特に，本研究では，牛の発情予兆として乗駕行動に着目し，その評価基盤を構築した．まず，物体検出アルゴリズムとクラウドソーシングを用いて，牛の検出漏れを抑えながら乗駕行動の有無を信頼性高くアノテーションする方式を開発した．14頭の肉牛がいるフリーストール内で収録した乗駕行動29回分の映像データに対して提案したアノテーションを実施し，合計5020枚の画像からなるデータセットを構築した．さらに，構築したデータセットを用いて交差検証による実験を行ったところ，画像単位では陽性判定率0.80，感度0.76で乗駕行動の検知が可能であることがわかった．
映像監視システムの持続可能な運用法に関する研究

2019年

　概要を見る

ビッグデータの蓄積を待たずに映像監視システムを早期運用しながら，日々蓄えられるデータを効率的に利用してシステムを成長させる枠組みの確立を試みた．特に，本研究では，パターン認識に基づく映像監視の結果をクラウドソーシングを活用して修正することで，システムの早期運用段階においても高い検知性能を保持する枠組みの開発と検証を行った．映像情報を用いた繁殖牛の分娩検知システムの開発を通じて，提案した映像監視システムの早期運用法に関する評価を行ったところ，パターン認識（分娩検知）とクラウドソーシングを併用することにより，分娩の見逃しを低く抑えながら誤検出を抑制でき，映像監視システムの早期運用が可能であることを明らかにした．
エリア収音と敵対的生成ネットワークを用いた多様な雑音に頑健な音声強調

2018年俵直弘

　概要を見る

エリア収音により生じた非線形歪を敵対的デノイジングオートエンコーダ (ADAE) により補正するポストフィルタ法を提案した．エリア収音は時間周波数マスキングに基づき目的音と妨害音を高精度に分離可能な技術であるが，非線形信号処理特有の不快な歪が発生するという問題がある．そこで，単チャネル音源強調において有効なADAEを用いて非線形歪を低減することを試みたところ，音質改善に有効であることが示された．また，分離処理前の観測信号や雑音情報をADAEの補助入力として用いるnoise-aware学習の枠組みを導入することで，強調信号の更なる品質改善が得られた．
エリア収音と深層学習を用いた高速・高精度・低歪の雑音除去フィルタ構成法

2017年

　概要を見る

拡散性雑音が重畳された音声に対して低歪で高精度な雑音抑圧を実現する方式について検討を行った．そのために，申請者が研究を続けてきた音源分離技術であるエリア収音により目的音と拡散性雑音を分離した後，目的音に残留した雑音成分を抑圧するフィルタの推定法を提案した．具体的には，エリア収音により分離した目的音と雑音のパワースペクトルから深層ニューラルネットワークによって線形フィルタの係数（厳密にはpriori SNR）を推定した．拡散性雑音下での雑音抑圧性能を雑音抑圧率および対数スペクトル距離により評価したところ，提案手法は双方の尺度で従来のマルチチャネルウィナーフィルタの性能を改善した．
メタ認知機能を有するパターン認識システムの構成法に関する研究

2016年

　概要を見る

　人が持つメタ認知機能（知っているか否かを知る，どの程度知っているかを知る機能）を模倣することで，データの収集だけに頼らずに未知の入力に対して頑健に高い性能を与えるパターン認識方式の確立を目指す．本課題では，雑音下音声認識での評価を通じ，「メタ認知機能を有するパターン認識」の基本となる認識性能予測技術およびマルチストリーム型パターン認識アルゴリズムに焦点を当てて検討を行った．　異なる現象を扱うパターン認識システムをＤＮＮにより多数構築しておき，そのうち最適なシステムをＤＮＮの出力（事後確率）の時間変化量および自己符号化器の復元誤差に基づき選択して用いることで，環境変動に頑健な認識を実現した．
部分隠れマルコフモデルによる自然発話音声認識

2004年

　概要を見る

　本研究では、音声認識に用いる確率モデルとして一般的に用いられている隠れマルコフモデル(Hidden Markov Model; HMM)に代わる表現能力の高い確率モデルとして、部分隠れマルコフモデル（Partly-Hidden Markov Model; PHMM）を提案している。このPHMMは、状態と出力双方が過去の出力に依存する枠組みであるが、その構造は全てのモデルカテゴリで共通なものを用いてきた。そこで本年度は，重みつき尤度比最大基準に基づき、PHMM における状態と出力間の依存構造をモデルカテゴリ毎に最適に選択することを試みた。　尤度比最大化に基づくモデル構造選択の枠組みでは、正解カテゴリと不正解カテゴリが与える対数尤度の差を直接計算したものを目的関数として導入し、その値を最大にするようなモデル構造を選択する。ここで、尤度比を改善しても認識結果が変わりにくい、尤度比の値が大きな値を持つデータより、それが0に近い値を持つデータを対象として尤度比を改善することが重要であるため、尤度比の値が小さいときはその値をそのまま用い、尤度比の値が大きいときはある閾値で打ち切るように重み付けを行った。この重み付けされた尤度比を重みつき尤度比と呼び、ここでは重みつき尤度比を最大化するようにモデル構造の選択を行った。また本手法では、各々のカテゴリに帰属するデータに対して重みつき尤度比を最大化するのではなく、全てのカテゴリに対して取り得るモデル構造の組み合わせを考え、生成される膨大な数のモデル構造の組み合わせに対して重みつき尤度比を最大化する。そして、最大の重みつき尤度比を与える構造の組み合わせを、最適な構造と考える。しかし、このような膨大なパターンに対する全探索は現実的ではなく、遺伝的アルゴリズムを適用し、全探索おける近似解を与えることを試みた。　学会講演音声を対象とする連続音声認識実験により提案するモデル構造選択手法の有効性を評価したところ、モデル構造を行わないPHMMの誤りを削減することが示された。

▼全件表示