KOBAYASHI, Tetsunori

写真a

Affiliation

Faculty of Science and Engineering, School of Fundamental Science and Engineering

Job title

Professor

Homepage URL

http://www.pcl.cs.waseda.ac.jp/index.html

Profile

音声・画像処理などを用いたコンピュータ・ヒューマン・インタラクション,知能ロボット,音声の生成・知覚,インタフェースの開発パラダイムなどの研究に興味を持つ。

Concurrent Post 【 display / non-display

  • Faculty of Science and Engineering   Graduate School of Fundamental Science and Engineering

  • Affiliated organization   Global Education Center

Research Institute 【 display / non-display

  • 2020
    -
    2022

    理工学術院総合研究所   兼任研究員

Education 【 display / non-display

  • 1985.03
    -
     

    Waseda University   Graduate School of Science and Engineering  

Degree 【 display / non-display

  • 工学博士

Research Experience 【 display / non-display

  • 1997.04
    -
    Now

    Waseda University   School of Science and Engineering

  • 2004.04
    -
    2009.03

    NHK Science & Technology Research Laboratories

  • 2000.04
    -
    2002.03

    Advanced Telecommunications Research Institute International

  • 1991.04
    -
    1997.03

    Waseda University   School of Science and Engineering

  • 1994.07
    -
    1995.08

    MIT   LCS   客員研究員

display all >>

Professional Memberships 【 display / non-display

  •  
     
     

    INFORMATION PROCESSING SOCIETY OF JAPAN

  •  
     
     

    ACM

  •  
     
     

    IEEE

  •  
     
     

    言語資源協会

  •  
     
     

    THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE

display all >>

 

Research Areas 【 display / non-display

  • Intelligent robotics

  • Perceptual information processing

Research Interests 【 display / non-display

  • ヒューマンインタフェース設計

  • パターン認識

  • 画像情報処理

  • 音声情報処理

  • 会話ロボット

Papers 【 display / non-display

  • 人間形会話ロボット -パラ言語の生成・理解機能を持つマルチモーダルインタフェース-

    小林哲則, 藤江真也, 松坂要佐, 白井克彦

    日本音響学会誌   61 ( 2 ) 85 - 90  2005.02  [Invited]

    DOI

  • Conversation Robot Participating in Group Conversation

    Yosuke MATSUSAKA, Tsuyoshi TOJO, Tetsunori KOBAYASHI

    Trans. IEICE   E86-D ( 1 ) 26 - 36  2003.01  [Invited]

  • Evaluation of Spectral Distance Measure for the Estimation of Articulatory Motion by the Model Matching Method

    Tetsunori Kobayashi, Jun Yazawa, Katsuhiko Shirai

      J68-A ( 2 ) 210 - 217  1985.10  [Refereed]

  • Phrase speech recognition for large vocabulary

    Tetsunori Kobayashi, Yasuhiro Komori, Katsuhiko Shirai

      J68-D ( 6 ) 1304 - 1311  1985.06  [Refereed]

  • Recognition of Vowels in Continuous Speech Based on the Articulatory Control Model

    Tetsunori Kobayashi, Katsuhiko Shirai

      J67-A ( 10 ) 935 - 942  1984.10  [Refereed]

display all >>

Awards 【 display / non-display

  • American Publishers Awards for Professional and Scholarly Excellence

    2008  

  • 論文賞

    2001   電子情報通信学会  

Specific Research 【 display / non-display

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2020  

     View Summary

     提案する音声会話の4階層プロトコルのうち,ターンテイク層の機能の精緻化について検討した。 ターンテイク層では,リズムの良い会話の実現のために,文脈に応じてシステムが番をとるべきかとらざるべきか,とるとするならばどの程度の時間をおいてとるべきかを決定する。昨年度,この解決のために,TGN(Timing Generating Networks)とよぶ,イベントの出力タイミングを制御可能なニューラルネットワークを提案したが,本年度はこれに発話義務推定とのマルチタスクで学習する仕組みと,言語情報利用の仕組みとを組み込んで精緻化した。この拡張によって,発話タイミングを0.5秒以内で推定できる精度を7.5%向上させることができた。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2019  

     View Summary

     提案する音声会話の4階層プロトコルのうち,ターンテイク層の機能の実現法を検討した。 ターンテイク層では,リズムの良い会話の実現のために,文脈に応じてシステムが番をとるべきかとらざるべきか,とるとするならばどの程度の時間をおいてとるべきかを決定する。この問題の解決のために,ETCNN(Event-Timing Controllable Neural Network)とよぶ,イベントの出力タイミングを制御可能なニューラルネットワークを提案した。ETCNNは,出力タイミングが,ユーザ発話の韻律,ユーザなどに従って制御できるEnd-to-Endの枠組みである。この手法の適用によって,発話タイミングの推定誤差を従来手法に比べ平均約20%減じるとともに,格段に推定の外れ値を減ずることに成功した。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2018  

     View Summary

     我々が提案する音声会話の4階層プロトコルのうち,参与構造形成層,メッセージ送信層の機能実現法を検討した。 参与構造形成層では,参与構造形成のためのシステムの行動を,センサー情報からEnd-to-Endで決める手法を検討した。発話や視線の認識を副タスクとするマルチタスクNeural Networksを導入することで,従来のルールに基づく方法に比べ,精度を30ポイント以上向上できた。 メッセージ送信層では,段落内における各文の重要度をBERTに基づく解析結果を用いて求め,これに応じて文間の「間」を静的に制御するする手法を提案した。一対比較によるプリファレンス評価において,本手法導入後のシステムは,導入以前に対し,77%という極めて高い値を達成した。

  • 音声会話:情報遭遇を含む多様な情報行動による情報アクセスに関する研究

    2017   小川哲司, 林良彦

     View Summary

     従来,音声会話は,質問応答を対象として実現されてきた。しかし,快適な情報アクセスには,これに加えシステム側から主体的に情報提供する機能が必要とされ,さらにこれらのモードがリズム良く遷移できること求められる。ここでは,これら複雑な情報行動に即応性高く対応できる音声会話システムを実現する立場から,「シナリオ主導型会話システム」を提案した。伝えようとする文書の解析に基づいて,文書のあらすじを伝えるシナリオの主計画と,想定される質問に答える副計画とが事前に準備され,これらに沿って会話が進められる。実験の結果,従来型の会話システムに比べ,ユーザに必要な情報だけ効率的に伝達できるシステムが実現できた。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2017  

     View Summary

    会話プロトコルを,通信系になぞらえて,a)物理層,b)参与構造形成層,c)メッセージ送信層,d)ターンテイク層に整理した。a)は通信系の物理層に相当し,人を模した表現手段としての身体を持つことで,人同士と同じ方法でのデータ授受を可能にする。b)はデータリンク/ネットワーク層相当に相当し,身体表現によって,会話への参加状態と,その変更手続きを与える。c)はトランスポート層に相当し,相槌等によってデータ授受の成否を伝える。d)はセッション層に相当し,セッション開始・終了を定義する。これら円滑な会話に必要となる振る舞いを,機能・役割レベルと,具体的身体動作レベルに分けて記述し,ハードウェアに依存部を下位に隠蔽した。

display all >>

 

Syllabus 【 display / non-display

display all >>