2022/08/17 更新

写真a

コバヤシ テツノリ
小林 哲則
所属
理工学術院 基幹理工学部
職名
教授
プロフィール
音声・画像処理などを用いたコンピュータ・ヒューマン・インタラクション,知能ロボット,音声の生成・知覚,インタフェースの開発パラダイムなどの研究に興味を持つ。

兼担

  • 理工学術院   大学院基幹理工学研究科

  • 附属機関・学校   グローバルエデュケーションセンター

学内研究所等

  • 2021年
    -
    2022年

    データ科学センター   兼任センター員

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴

  • 1985年03月
    -
     

    早稲田大学大学院   理工学研究科博士課程 修了  

学位

  • 工学博士

経歴

  • 1997年04月
    -
    継続中

    早稲田大学   理工学部電気工学科   教授

  • 2004年04月
    -
    2009年03月

    NHK放送技術研究所   客員研究員

  • 2000年04月
    -
    2002年03月

    ATR音声言語通信研究所   客員研究員

  • 1991年04月
    -
    1997年03月

    早稲田大学   理工学部電気工学科   助教授

  • 1994年07月
    -
    1995年08月

    MIT   LCS   客員研究員

  • 1987年04月
    -
    1991年03月

    法政大学   工学部電気工学科   助教授

  • 1985年04月
    -
    1987年03月

    法政大学   工学部電気工学科   講師

▼全件表示

所属学協会

  •  
     
     

    情報処理学会

  •  
     
     

    ACM

  •  
     
     

    IEEE

  •  
     
     

    言語資源協会

  •  
     
     

    人工知能学会

  •  
     
     

    日本音響学会

  •  
     
     

    日本ロボット学会

  •  
     
     

    言語処理学会

  •  
     
     

    電子情報通信学会

▼全件表示

 

研究分野

  • 知能ロボティクス

  • 知覚情報処理

研究キーワード

  • ヒューマンインタフェース設計

  • パターン認識

  • 画像情報処理

  • 音声情報処理

  • 会話ロボット

論文

  • 人間形会話ロボット -パラ言語の生成・理解機能を持つマルチモーダルインタフェース-

    小林哲則, 藤江真也, 松坂要佐, 白井克彦

    日本音響学会誌   61 ( 2 ) 85 - 90  2005年02月  [招待有り]

    DOI CiNii

  • Conversation Robot Participating in Group Conversation

    Yosuke MATSUSAKA, Tsuyoshi TOJO, Tetsunori KOBAYASHI

    Trans. IEICE   E86-D ( 1 ) 26 - 36  2003年01月  [招待有り]

  • モデル・マッチング法による調音状態推定のためのスペクトル距離尺度の検討

    小林哲則, 矢沢淳, 白井克彦

    電子通信学会論文誌A   J68-A ( 2 ) 210 - 217  1985年10月  [査読有り]

  • 大語彙を対象とした文節音声の認識

    小林哲則, 小森康弘, 白井克彦

    電子通信学会論文誌D   J68-D ( 6 ) 1304 - 1311  1985年06月  [査読有り]

  • 調音制御モデルに基づく連続音声中の母音認識

    小林哲則, 白井克彦

    電子通信学会論文誌A   J67-A ( 10 ) 935 - 942  1984年10月  [査読有り]

  • 不特定話者の連続音声認識に対する調音パラメタの有効性

    白井克彦, 松浦博, 小林哲則

    電子通信学会論文誌A   J65-A ( 7 ) 671 - 678  1982年07月  [査読有り]

▼全件表示

受賞

  • American Publishers Awards for Professional and Scholarly Excellence

    2008年  

  • 論文賞

    2001年   電子情報通信学会  

特定課題研究

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2020年  

     概要を見る

     提案する音声会話の4階層プロトコルのうち,ターンテイク層の機能の精緻化について検討した。 ターンテイク層では,リズムの良い会話の実現のために,文脈に応じてシステムが番をとるべきかとらざるべきか,とるとするならばどの程度の時間をおいてとるべきかを決定する。昨年度,この解決のために,TGN(Timing Generating Networks)とよぶ,イベントの出力タイミングを制御可能なニューラルネットワークを提案したが,本年度はこれに発話義務推定とのマルチタスクで学習する仕組みと,言語情報利用の仕組みとを組み込んで精緻化した。この拡張によって,発話タイミングを0.5秒以内で推定できる精度を7.5%向上させることができた。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2019年  

     概要を見る

     提案する音声会話の4階層プロトコルのうち,ターンテイク層の機能の実現法を検討した。 ターンテイク層では,リズムの良い会話の実現のために,文脈に応じてシステムが番をとるべきかとらざるべきか,とるとするならばどの程度の時間をおいてとるべきかを決定する。この問題の解決のために,ETCNN(Event-Timing Controllable Neural Network)とよぶ,イベントの出力タイミングを制御可能なニューラルネットワークを提案した。ETCNNは,出力タイミングが,ユーザ発話の韻律,ユーザなどに従って制御できるEnd-to-Endの枠組みである。この手法の適用によって,発話タイミングの推定誤差を従来手法に比べ平均約20%減じるとともに,格段に推定の外れ値を減ずることに成功した。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2018年  

     概要を見る

     我々が提案する音声会話の4階層プロトコルのうち,参与構造形成層,メッセージ送信層の機能実現法を検討した。 参与構造形成層では,参与構造形成のためのシステムの行動を,センサー情報からEnd-to-Endで決める手法を検討した。発話や視線の認識を副タスクとするマルチタスクNeural Networksを導入することで,従来のルールに基づく方法に比べ,精度を30ポイント以上向上できた。 メッセージ送信層では,段落内における各文の重要度をBERTに基づく解析結果を用いて求め,これに応じて文間の「間」を静的に制御するする手法を提案した。一対比較によるプリファレンス評価において,本手法導入後のシステムは,導入以前に対し,77%という極めて高い値を達成した。

  • 会話システムのプロトコルとアーキテクチャに関する研究

    2017年  

     概要を見る

    会話プロトコルを,通信系になぞらえて,a)物理層,b)参与構造形成層,c)メッセージ送信層,d)ターンテイク層に整理した。a)は通信系の物理層に相当し,人を模した表現手段としての身体を持つことで,人同士と同じ方法でのデータ授受を可能にする。b)はデータリンク/ネットワーク層相当に相当し,身体表現によって,会話への参加状態と,その変更手続きを与える。c)はトランスポート層に相当し,相槌等によってデータ授受の成否を伝える。d)はセッション層に相当し,セッション開始・終了を定義する。これら円滑な会話に必要となる振る舞いを,機能・役割レベルと,具体的身体動作レベルに分けて記述し,ハードウェアに依存部を下位に隠蔽した。

  • 音声会話:情報遭遇を含む多様な情報行動による情報アクセスに関する研究

    2017年   小川哲司, 林良彦

     概要を見る

     従来,音声会話は,質問応答を対象として実現されてきた。しかし,快適な情報アクセスには,これに加えシステム側から主体的に情報提供する機能が必要とされ,さらにこれらのモードがリズム良く遷移できること求められる。ここでは,これら複雑な情報行動に即応性高く対応できる音声会話システムを実現する立場から,「シナリオ主導型会話システム」を提案した。伝えようとする文書の解析に基づいて,文書のあらすじを伝えるシナリオの主計画と,想定される質問に答える副計画とが事前に準備され,これらに沿って会話が進められる。実験の結果,従来型の会話システムに比べ,ユーザに必要な情報だけ効率的に伝達できるシステムが実現できた。

  • 会話:意図性の異なる多様な情報行動による情報享受の実現

    2016年   林良彦, 藤江真也

     概要を見る

     能動的(検索的)情報行動と受動的(遭遇的)情報行動の双方を交えたリズム良い情報授受によって,ニュース内容を伝える会話システムを実現した。即応性を重要するため,予想されるユーザの応答に応じた分岐を含む会話進行のシナリオを準備し,これを切り替えながら会話を進める方法をとった。シナリオは,ニュースの根幹を伝える主計画と,ユーザの反応に応じて補足情報を提示する副計画からなる。前者は,話題性を考慮して重要語を定め,これを含むようニュースを要約して定めた。後者は,各呼気段落内の重要自立語に対し質問タイプを網羅して回答を用意して定めた。以上によって,所期の目的を達成する会話システムを実現できた。

  • 深層学習に基づく雑音抑圧処理歪の補正と雑音下音声認識への適用に関する研究

    2016年   小川哲司

     概要を見る

     本研究では,申請者が研究を続けてきた高速・高精度な音源分離手法であるエリア収音技術と深層学習を利用した低歪の雑音抑圧技術を融合することで,拡散性雑音抑圧フィルタを完成度の高い形で実現する方式の検討を行った. 提案方式では,エリア収音により目的音と雑音を分離した後,目的音に残留した雑音成分を抑圧するフィルタを構築する.そのために,エリア収音により得られた目的音が支配的な信号と拡散性雑音が支配的な信号のパワースペクトルを入力とする深層ニューラルネットワークによって帯域ごとのSNRを推定した. 提案方式は,従来のマルチチャネルウィナーフィルタと比較して,処理歪を抑えながら高い雑音抑圧性能を達成した.

  • 参加者間の共鳴状態を誘導する音声会話システム

    2014年   林良彦, 小川哲司, 松山洋一, 藤江真也, 中野鐵兵

     概要を見る

     新たな会話制御技術と情報提供技術により,会話を共鳴状態(参加者が響きあうよう呼応して会話する状態)に導く音声会話システムを実現した。 会話制御に関しては,全会話参加者が等しい発話機会を持つための調整機能を提案した。会話では特定の人が頻繁に発話を繰り返し,一部は会話に入れないことがある。ここでは,会話に割り込んで主導権をとった後,発話機会の少ない人に話題をふる機能を実装しこの問題を解決した。 情報提供に関しては,レビュー記事にある投稿者の主観的発話を,システムの主観の如く発話する機能を実装した。会話相手を楽しませる効果を持つ発話の選択手法と,選ばれる複数の文の主観が一貫性を持つため枠組みを提案した。

  • グループ会話環境下における場の活性化要素としての会話ロボットに関する研究

    2012年   松山洋一, 岩田和彦

     概要を見る

     少人数での会議や談笑に見られる会話参加者間で動的な発話やりとりを特徴とする「グループ会話(多人数会話)」を対象として,これに参与して,場を活性化する機械システムを実現するための枠組みについて検討した。 具体的には,1)会話に入れない人に参加を促す際のプロトコル2)興味を引く発話の自動生成3)会話システム用顔画像処理技術の高度化4)会話システム用音声合成技術の高度化の4つのサブテーマをとりあげた。各テーマの成果は以下の通りである。 「1)会話に入れない人に参加を促す際のプロトコル」は,発話する機会も,話しかけられる機会も少ない会話参加者を見つけて,その人に話しかけ,会話に入ってもらうためには,どのような仕組みが必要かについて検討したものである。このとき,システムは,対象となる人を探す機能,話しかける適切な内容を決める機能,話しかけても全体の調和を乱さないタイミングを決める機能,などが必要となる。ここでは,①参加者の発話状態,視線などからそれぞれの参与役割を推定し,発話者にも主たる聞き手にもなっていない割合が高い人を話しかけるべき対象者とする,②CRFを用いて話題を適切に追うことで発話するべき内容を定める,③現話題の下での会話に参加して「調和的会話参加者」になってから対象者に話かける,などの仕組みを実装することで,所望の機能を実現した。 「2)興味を引く発話の自動生成」は,会話参加者からの質問にたいする回答内容を自動的に用意する方法について検討したものである。興味を引く発話を行うために,回答内容には,システムの主体的感想,評価的内容を含めることとした。この目的のため,システムは,レビューサイトをクロールし,関連する話題について評価を述べた部分を抜き出し,口語調に表現を変えた上で,内容のふさわしさを評価ランキングし,上位の文を回答文とする方式を考案した。ここで,ランキングには低頻度形容詞を多用している文を評価尺度とした。これによって,情報の多い意外性のある文を選ぶ仕組みが実現し,効果的な回答文を生成することに成功した。 「3)会話システム用顔画像処理技術の高度化」は,会話システムに必要となる顔検出を安定に行う技術について検討したものである。AAMを改良することで,顔と顔部品の検出精度を飛躍的に改善することができた。 「4)会話システム用音声合成技術の高度化」は,会話調の音声合成方式について検討したものである。文脈に応じて,適切な声質・抑揚で発話できる合成器を,心理空間上での文脈のクラスタリング,語末表現のクラスタリング等を精緻に行うことで実現した。

  • 音声会話システムの総合的研究

    2011年   藤江 真也, 小川 哲司, 松山 洋一, 岩田 和彦

     概要を見る

    ロボットを用いた会話コミュニケーションの実現に向けて,以下のテーマの研究を行った。(1)音声会話プロトコルの解明 音声会話プロトコルのモデル化を,会話の観察に基づて行った。特に多人数で会話を行うとき,会話相手の選択,発話の番の制御などが,どのような身体表現を伴って行われるかを整理した。(2) 魅力ある会話の実現 会話が魅力的であるために,ロボットの発話はどうあるべきかについて整理した。特に相手が話しやすくすることに配慮しながら,まず,単に聞かれたことに答えるだけでなく,質問に答えながら関連した新たな話題を含めるしくみを用意した。これによって利用者は発話をつなぎやすくった。(3)要素技術の開発 3-1)視覚情報処理: 会話参加者の姿勢は,その会話参加者の会話への参加の意思等を特定するのに重要である。また,視線が直接の通信相手を表すこと,表情が情報伝達の成功/不成功や,相手の興味の有無を表現することなどは,既に良く知られている。この「姿勢と表情」の自動認識システムを開発した。姿勢認識・表情推定に必要となる画像特徴点の抽出問題に対し,ロボットに装着したカメラだけでなく,部屋の天井に設置したカメラでも情報を収集した上でそれらを統合利用するシステムを実現した。 3-2)聴覚情報処理: 多人数の音声会話をハンズフリーで行うとき生じる様々な問題を解決した。主に目的話者の背後から到来する指向性雑音の除去と,残響の問題を,提案する6マイクの帯状ビームフォーマ[4]で処理した。また,会話では,一息で多くの文を話したり,ひとつの文をとぎれとぎれに話したりするが,この発話単位と意味の纏まりの異なりが,会話音声認識の問題を難しくしている。ここでは,話し方(間のおき方)の違いは,一種のプロトコルにかかわる情報を発話に含めた結果と解釈し,それが引き起こす特有の韻律現象を,デコードに積極利用する方法を検討した。(4)統合システム 以上(1)-(4)を統合し,複数人を対象に,ゲームをしながら会話を楽しむことができるシステムを実現した。通所介護施設の高齢者との会話実験を行い,好評をいただいた。 

  • 会話ロボットの利用に基づくパラ言語理解・生成機構の定量的モデル化に関する研究

    2007年   藤江 真也

     概要を見る

     これまでに開発したパラ言語情報の理解・表出機能を持つ音声会話ロボットを用いて,自然な音声会話コミュニケーションを成立させるために必要となるパラ言語情報の役割を定量的に明らかにすること試みた。 我々人間は,会話的コミュニケーションにおいて,音声で言語情報を伝える傍らにおいて,会話参与の状態(情報を受け付ける状態にあるのかどうか,正常に情報を受け付けたかどうか,受けた情報をどのように評価しているのか等)を表情によって伝達しており,これが基礎となって円滑な情報交換が成立している。これらの情報は,パラ言語と呼ばれる情報の一部であるが,これらパラ言語の重要性を定性的に指摘する研究は存在するものの,これをどの程度厳格にモデル化すれば自然なコミュニケーションは成立するのかについて定量的に検討する試みはなされていない。 そこで本研究では,特にターンテーキングの円滑化に係るロボットの表情表出動作として,視線表現を選定し,その定量的モデル化を試みた。一般に,ターンを渡すためには発話終了に合わせて聴取者に視線を向け,ターンを保持するためには視線をずらすとされている。表現のバリエーション(視線の外し方,合わせ方)およびその頻度,時間構造をパラメタとするモデルを作成し,種々のパラメタ設定でパラ言語情報を生成する会話ロボットと被験者の会話実験を行い,その自然性を評価した。この結果,自然な視線表現を実現するパラメータの関係式と,連続動作させるときのパラメタセットの組み合わせに関する知見が得られ,これに従って視線を動作させるとき,会話が自然に進行することを確認した。

  • 状況把握と身体表現機能を有する複数話者との会話ロボット-人間と空間を共有する情報端末の実現に向けて

    2000年   菊池 英明, 高西 淳夫

     概要を見る

     複数話者と会話するロボットの実現に向けて、1)複数話者の音声の分離・認識、2)複数話者間におけるコミュニケーションチャネルの認識、3)身体による意志表現、4)情報統合技術、の4点について検討を行った。 1)に関しては、通常音声認識に用いられる、音響モデルと、言語モデルに加え、発話のターンテーキングに関する発話間言語モデル、および話者の交代を統計的に表わす話者モデルをさらに加えた4つの確率モデルを用いて、最も尤もらしい話者の交代と発話内容を推定するアルゴリズムを確立した。 2)に関しては、音源の定位と発話者の顔方向の組合せによって、誰が誰に向かって話しているのかを認識することを可能とした。音源定位に関しては、MUSICスペクトルの相関を用いた方法を提案し、定位精度を飛躍的に改善した。顔方向に関しては、ICAを基礎とした特徴抽出手法を提案し、高精度の顔方向の認識を実現した。 3)に関しては、ロボットハードウェアとして、従来からあった目、手などに加え、眉、口、手などを付加することで、表現能力を拡充した。また、それらの単純化された身体を用いて、効果的に内部状態を表現するための動作と、その提示戦略を確立した。 4)に関しては、黒板システムにサブスクライブ/パブリッシュ機能を付加した情報伝達機構を考え、これをロボットを構成する多種多様なプロセッサ構成の中で、透過な形で実装した。 以上の成果を用いて、外部状況を視覚的あるいは聴覚的に把握し、ときにジェスチャ等の非言語的手段による意思表示をしながら、複数の相手を対象にして会話できるロボットを実現した。

  • 確率過程の精密なモデル化とその音声認識・ジェスチャ認識への応用に関する研究

    1998年   橋本 周司, 笠原 博徳

     概要を見る

    本研究では、時系列パターンマッチングのための確率過程のモデルを精密化するとともに、それを用いて音声認識、ジェスチャー認識の性能を向上させることを試みた。音声やジェスチャーの認識に代表される時系列のパターン認識においては、確率過程のモデルが重要な役割を果たす。従来この確率モデルとしては、隠れマルコフモデル(HMM)が用いられてきた。しかしながら、HMMは区分定常の確率過程しか扱うことができず、結果として種々の不都合を生じていた。この問題を解決するために、2重のマルコフモデルから発して、時間の古い状態を観測不能な隠れ状態に、時間の新しい方の状態を可観測状態においた、新たな確率モデル、部分隠れマルコフモデル(PHMM)を提案した。HMMでは、出力、次状態ともに前状態にのみ依存して決まるのに対し、PHMMでは、出力、状態ともに、状態と前出力に依存して決まる枠組となっている。この構造のため、モデルの複雑化を抑えた上で、HMMに比べ過渡部の表現能力の高い確率過程のモデルが実現できた。 PHMMのパラメータ推定法としては、EMアルゴリズムを用いた定式化を行ない、厳密なパラメータ推定法を確立した。シミュレーション実験を通じてPHMMとHMMの特性を比較したところ、HMMでは出力確率が主に状態推移のタイミングを決め、状態遷移確率はほとんど無意味であるのに対し、PHMMでは遷移確率が状態推移のタイミングを決めていることが分かった。遷移部の動特性の違いを区別する上でも、PHMMはHMMより有効であることが分かった。 PHMMを用いて、ジェスチャ認識実験と音声認識実験を行なったところ、ジェスチャ認識、音声認識ともにHMMより高い性能が得られ、PHMMの時系列パターン認識への有効性が確認された。

▼全件表示

 

現在担当している科目

▼全件表示