2022/01/28 更新

写真a

キクチ ヒデアキ
菊池 英明
所属
人間科学学術院 人間科学部
職名
教授

兼担

  • 人間科学学術院   大学院人間科学研究科

  • 理工学術院   大学院基幹理工学研究科

  • 附属機関・学校   グローバルエデュケーションセンター

学内研究所等

  • 2021年
    -
    2022年

    大学総合研究センター   兼任センター員

  • 2021年
    -
    2022年

    データ科学センター   兼任センター員

学位

  • 早稲田大学   博士(情報科学)

所属学協会

  •  
     
     

    ヒューマンインタフェース学会

  •  
     
     

    情報処理学会

  •  
     
     

    電子情報通信学会

  •  
     
     

    人工知能学会

  •  
     
     

    日本音響学会

 

研究分野

  • 知能情報学

研究キーワード

  • 音声科学、音声対話、ヒューマンエージェントインタラクション

論文

  • Vowels in infant-directed speech: More breathy and more variable, but not clearer

    Kouki Miyazawa, Takahito Shinya, Andrew Martin, Hideaki Kikuchi, Reiko Mazuka

    COGNITION   166   84 - 93  2017年09月  [査読有り]

     概要を見る

    Infant-directed speech (IDS) is known to differ from adult-directed speech (ADS) in a number of ways, and it has often been argued that some of these IDS properties facilitate infants' acquisition of language. An influential study in support of this view is Kuhl et al. (1997), which found that vowels in IDS are produced with expanded first and second formants (F1/F2) on average, indicating that the vowels are acoustically further apart in IDS than in ADS. These results have been interpreted to mean that the way vowels are produced in IDS makes infants' task of learning vowel categories easier. The present paper revisits this interpretation by means of a thorough analysis of IDS vowels using a large-scale corpus of Japanese natural utterances. We will show that the expansion of F1/F2 values does occur in spontaneous IDS even when the vowels' prosodic position, lexical pitch accent, and lexical bias are accounted for. When IDS vowels are compared to carefully read speech (CS) by the same mothers, however, larger variability among IDS vowel tokens means that the acoustic distances among vowels are farther apart only in CS, but not in IDS when compared to ADS. Finally, we will show that IDS vowels are significantly more breathy than ADS or CS vowels. Taken together, our results demonstrate that even though expansion of formant values occurs in spontaneous IDS, this expansion cannot be interpreted as an indication that the acoustic distances among vowels are farther apart, as is the case in CS. Instead, we found that IDS vowels are characterized by breathy voice, which has been associated with the communication of emotional affect. (C) 2017 Elsevier B.V. All rights reserved.

    DOI

  • Assigning a Personality to a Spoken Dialogue Agent by Behavior Reporting

    Yoshito Ogawa, Hideaki Kikuchi

    NEW GENERATION COMPUTING   35 ( 2 ) 181 - 209  2017年04月  [査読有り]

     概要を見る

    A method to assign a personality to a spoken dialogue agent is proposed and evaluated. The proposed method assigns a personality using agent reporting about behavior independent of interaction with a user. The proposed method attempts to assigning complex personalities. For this purpose, we have defined a behavior report dialogue and designed a personality assigning method using behavior reporting. The proposed method consists of three steps: collecting stereotypes between a personality and behavior through a questionnaire, designing the behavior report dialogue from the collected stereotypes, and agent reports about behavior at the start of interactions with a user. Experimental results show that the proposed method can assign a personality by repeating the behavior report dialogue, (the assigned personality is equivalent to the personality determined by the collected stereotypes) and that reporting behavior influences the assigned personality. In addition, we verified that the proposed method can assign "kind", "judicious" and the five basic personalities defined in the Tokyo University Egogram Second Edition.

    DOI

  • 母語対話の話者交替タイミング

    市川 熹, 大橋 浩輝, 仲 真紀子, 菊池 英明, 堀内 靖雄, 黒岩 眞吾

    科学・技術研究   5 ( 1 ) 113 - 122  2016年

     概要を見る

    母語話者の話者交替時の重複タイミング現象である話者移行適格場(TRP)に注目し、日本語と英語について、それぞれの母語話者とその言語を十分に習得している非母語話者の実時間対話を分析した。両言語ともに、対話者が母語話者の組み合わせ以外ではTRPの制約が成立していなかった。このことは、非母語話者が発信している言語情報は話者交替の予告情報にはならず、言語情報の裏に必然的に存在するプロソディにあることを示唆している。また日本語母語話者の5歳児と6歳児と成人の対話を分析し、さらに先行研究結果を参考にしたところ、日本語母語のTRPの制約は5歳児ころまでに獲得されることが推察された。母語話者の話者交替タイミング制御のモデルを提案した。

    DOI CiNii

  • Humor utterance generation for non-task-oriented dialogue systems

    Shohei Fujikura, Yoshito Ogawa, Hideaki Kikuchi

    HAI 2015 - Proceedings of the 3rd International Conference on Human-Agent Interaction     171 - 173  2015年10月

     概要を見る

    We propose a humor utterance generation method that is compatible with dialogue systems, to increase "desire of continuing dialogue". A dialogue system retrieves leading-item: noun pairs from Twitter as knowledge and attempts to select the most humorous reply using word similarity, which reveals that incongruity can be explained by the incongruity-resolution model. We consider the differences among individuals, and confirm the validity of the proposed method. Ex-perimental results indicate that high-incongruity replies are significantly effective against low-incongruity replies with a limited condition.

    DOI

  • Constructing the corpus of infant-directed speech and infant-like robot-directed speech

    Ryuji Nakamura, Kouki Miyazawa, Hisashi Ishihara, Ken'ya Nishikawa, Hideaki Kikuchi, Minoru Asada, Reiko Mazuka

    HAI 2015 - Proceedings of the 3rd International Conference on Human-Agent Interaction     167 - 169  2015年10月

     概要を見る

    The characteristics of the spoken language used to address infants have been eagerly studied as a part of the language acquisition research. Because of the uncontrollability factor with regard to the infants, the features and roles of infantdirected speech were tried to be revealed by the comparison of speech directed toward infants and that toward other listeners. However, they share few characteristics with infants, while infants have many characteristics which may derive the features of IDS. In this study, to solve this problem, we will introduce a new approach that replaces the infant with an infant-like robot which is designed to control its motions and to imitate its appearance very similar to a real infant. We have now recorded both infant-and infantlike robot-directed speech and are constructing both corpora. Analysis of these corpora is expected to contribute to the studies of infant-directed speech. In this paper, we discuss the contents of this approach and the outline of the corpora.

    DOI

  • 音声言語コーパスにおける speaking style の自動推定―転記テキストに着目して―

    沈 睿, 菊池 英明

    自然言語処理   21 ( 3 ) 445 - 464  2014年

     概要を見る

    近年,計算機技術の進歩に伴って大規模言語データの蓄積と処理が容易となり,音声言語コーパスの構築と実用化の研究が盛んに行われている.我々は,speaking style に関心を持つ利用者に音声言語コーパスを探しやすくさせるために,音声言語コーパスの speaking style の自動推定を目指している.本研究では,1993 年に Eskenazi が提唱した speaking style の 3 尺度を導入し,従来の文体・ジャンルの判別や著者推定などの自然言語処理の分野で用いられた言語の形態論的特徴を手がかりとし,音声に付随する書き起こしテキスト(本論文では転記テキストと呼ぶ)に着目した speaking style 推定モデルの構築を試みた.具体的な手続きとしては,はじめに様々な音声言語コーパスから音声に付随する転記テキストを無作為に抽出する.次にこれらの転記テキストを刺激として用い,3 尺度の speaking style の評定実験を行う.そして,評定結果を目的変数,転記テキストの品詞・語種率と形態素パタンを説明変数とし,重回帰分析により 3 尺度それぞれの回帰モデルを求める.交差検定を行った結果,本研究の提案手法によって 3 尺度の内 2 尺度の speaking style 評定値を高い精度で推定できることを確認した.

    CiNii

  • 知識獲得モデルとしての自己組織化マップ:-連続音声からの教師なし音素体系の学習-

    宮澤 幸希, 白勢 彩子, 馬塚 れい子, 菊池 英明

    知能と情報   26 ( 1 ) 510 - 520  2014年

     概要を見る

    人の知識獲得のプロセスを計算論的に検証する目的で,大脳皮質感覚野の情報処理を模擬した自己組織化マップが用いられる.本論文の目的は,自己組織化マップを用いて,人の乳児が母国語の音素体系を獲得する過程を計算論的に解析することである.先行研究では自然な入力信号の分布特性(音素の出現頻度やフレーム数)が十分に考慮されていなかった.本研究では,自然な連続音声を入力としてシミュレーション実験を行なった.実験の結果,100秒程度の日本語の連続音声から,5 %(/u/)~92%(/s/)の精度で音素体系が獲得可能であることが示された.

    CiNii

  • 演技指示の工夫が与える音声表現への影響 : 表現豊かな演技音声表現の獲得を目指して

    宮島 崇浩, 菊池 英明, 白井 克彦, 大川 茂樹

    音声研究   17 ( 3 ) 10 - 23  2013年12月

     概要を見る

    This paper explains the procedure to enhance the expressiveness in acted speech. We designed our own "format of acting script" referring to the theory of drama and created 280 acting scripts. We presented these acting scripts as acting directions to three actresses and collected 840 speech data. For comparison, using typical emotional words as acting directions, we also collected 160 speech data from each actress. Then, we compared tendencies of various features of each data type and each speaker and found that our acting scripts are effective on the enhancement of expressiveness in acted speech psychologically/acoustically.

    CiNii

  • 非タスク指向対話システムにおけるマイクロブログを用いたユーモア発話の自動生成(マイクロブログ,第5回集合知シンポジウム)

    藤倉 将平, 小川 義人, 菊池 英明

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   113 ( 338 ) 29 - 32  2013年11月

     概要を見る

    本研究では非タスク対話システムにTwitterを用いてユーモア発話を自動生成させることを目指している.これまでに対話継続欲求の高いシステムのデザイン手法の確立を目的とし,「次回も対話を行いたい」と感じる要因を分析した.その中でユーモアを扱うことは対話継続欲求について有効であることが示された.本論文ではTwitterからアイテム述語ペア,修飾-名詞ペアを抽出し,それを対話システムの知識とすることで,システムがリアリティの高い応答を行いユーモアを生成する手法を提案した.また評価実験において提案手法を用いる対話システムがユーモアを生成できることを確認した.

    CiNii

  • 音声対話システムに対するインタラクション継続欲求(オーガナイズドセッション:対話システムの評価【評価・分析】,音声・言語・対話,一般)

    菊池 英明, 宮澤 幸希, 小川 義人, 藤倉 将平

    電子情報通信学会技術研究報告. SP, 音声   113 ( 220 ) 21 - 26  2013年09月

     概要を見る

    音声対話システムの実用化が進む中で、日常で用いられるシステムやエンターテイメント性を要求されるシステムにおいては,ユーザが長期間利用し続けられる,対話継続欲求の高いデザインが求められると考え、3つの雑談対話システム構築を通じて対話継続欲求の向上を目指してきた。ユーモア発話の生成や、システム発話の発話速度の制御、そしてユーザ発話からのパーソナリティ推定に応じた発話生成がいずれも対話継続欲求の向上に効果的であることを確認した。従来、タスク指向の対話システムにおいてはタスク達成時間など効率が重視されることが多かったが、非タスク指向の対話システムではこのようなインタラクション継続欲求を高めるデザイン方法の確立が重要と考える。

    CiNii

  • E-037 音声から疲労程度を推定するスマートフォン用アプリケーションの開発(E分野:自然言語・音声・音楽)

    青木 由希, 宮島 崇浩, 菊池 英明, 塩見 格一

    情報科学技術フォーラム講演論文集   12 ( 2 ) 269 - 270  2013年08月

    CiNii

  • J-054 ロボット発話の話速・無音区間長の制御によるパーソナリティ認知と対話継続欲求の向上(J分野:ヒューマンコミュニケーション&インタラクション,一般論文)

    竹矢 有輝, 小川 義人, 菊池 英明

    情報科学技術フォーラム講演論文集   12 ( 3 ) 507 - 508  2013年08月

    CiNii

  • 音声対話における親密度と話し方の関係(力触覚の計算,手,一般)

    中里 収, 大城 裕志, 菊池 英明

    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理   112 ( 483 ) 109 - 114  2013年03月

     概要を見る

    本研究では,人の話し方は親密度によってどのように変化するのかを調べた.評価に使用するデータとして,大学生の初対面の時の対話データ(低親密度)と知り合って6ヶ月後の対話データ(高親密度)の2種類の対話データを準備した.その後,3ペアの話者に対して評価実験を行い,被験者が話し方の印象を評価し,4つの因子「快活さ」「好ましさ」「話し上手」「速さ感」を抽出した.初対面の時の話し方の印象と,知り合って半年経過した時の話し方の印象を比較した結果,低親密度のデータでは話し相手にかかわらず因子ごとの得点は同じ傾向になり,親密度が高くなると話し相手によって得点が変化した.特に,親密度が高くなると「話し上手」因子の得点が高くなる傾向が見られた.

    CiNii

  • エージェントによるユーザ特性の把握が愛着感に与える影響(オーガナイズドセッション(一般講演),音声アプリケーション,一般)

    小川 義人, 原田 花歩, 菊池 英明

    電子情報通信学会技術研究報告. SP, 音声   112 ( 450 ) 35 - 40  2013年02月

     概要を見る

    本研究では、エージェントによるユーザ特性の把握がエージェントへの愛着感および対話継続欲求に与える影響を考察する。近年、音声対話システムをユーザに長く使い続けてもらうための戦略が活発に研究されている。我々は、音声の韻律情報からユーザの活性度を推定し、推定結果に基づく発話へのユーザ応答より実際の活性度を取得、韻律と実際の活性度を次回以降の推定に用いる学習データとして蓄積し、徐々に推定精度を向上させていく音声対話システムを提案する。被験者実験の結果より、提案手法を用いることであらかじめ作成した判別基準のみを用いる手法よりも安定して状態判別精度が向上すること、状態判別精度が高いほどユーザはシステムが自分の特性を把握していると感じ、よりシステムに愛着を抱く傾向があることが明らかになった。

    CiNii

  • ポピュラー音楽のための歌唱音声評価尺度の構築 : アマチュア歌唱における検討(オーガナイズドセッション「多様な音声・歌声の合成に向けて」,音声・言語・対話,一般)

    金礪 愛, 菊池 英明

    電子情報通信学会技術研究報告. SP, 音声   112 ( 422 ) 49 - 54  2013年01月

     概要を見る

    歌声に関する研究の発展に伴い、多様な歌声の印象を適切に評価できる尺度の需要は益々高まると考えられるため、本研究では「ポピュラー音楽における歌唱音声評価尺度」の構築を行った。今回は、アマチュア歌唱音声に対する有効性を検討し、3因子×4語、計12語からなる歌唱音声評価尺度を構築し、信頼性を確認した。また、歌唱音声評価に関わる因子として、話声とは異なる、歌唱音声独特の因子が観察された。

    CiNii

  • 自動車運転環境下におけるユーザーの受諾行動を促すシステム提案の検討

    宮澤 幸希, 影谷 卓也, 沈 睿, 菊池 英明, 小川 義人, 端 千尋, 太田 克己, 保泉 秀明, 三田村 健

    人工知能学会論文誌   25 ( 6 ) 723 - 732  2010年

     概要を見る

    In this study, we aim at clarification of the factor that promotes an user's acceptance of suggestion from an interactive agent in driving environment. Our aim is to figure out how human beings accept the encouragement from interaction objects, and also which kinds of dialogues or action controls are necessary for the design of car navigation system which makes suggestion and requests to drivers. Firstly, we had an experiment for collecting dialogue between humans in driving simulation environment, then we analyzed the drivers' acceptance and evaluation for the navigators. As the results, we found that the presence and reliability of the navigator highly relate to the acceptance of suggestion from the navigator. When navigators were next to drivers, the rate of drivers' suggestion acceptance rose. However, the stress of drivers increased. In addition, based on the linguistic and acoustic analysis of the navigators' utterances, we found out some points of designing system utterance of suggestion to promote user's acceptance. We found that expressing the grounds of suggestions, showing the exact numbers, and the wide pitch ranges, all highly relate to the acceptance of suggestions.

    CiNii

  • 韻律情報を用いた発話態度認識とその対話システムへの応用

    八木大三, 藤江真也, 菊池英明, 小林哲則

    日本音響学会2005年春季研究発表会講演論文集     65 - 66  2005年03月

  • 肯定的/否定的発話態度の認識とその音声対話システムへの応用

    藤江真也, 江尻康, 菊池英明, 小林哲則

    電子情報通信学会論文誌   J88-D-II ( 2 ) 489 - 498  2005年03月

  • 早稲田大学eスクールの実践:大学教育におけるeラーニングの展望

    向後千春, 松居辰則, 西村昭治, 浅田匡, 菊池英明, 金群, 野嶋栄一郎

    第11回日本教育メディ ア学会年次大会発表論文集     45 - 48  2004年10月

  • 韻律情報を利用した文章入力システムのための韻律制御モデル

    大久保崇, 菊池英明, 白井克彦

    日本音響学会2004年秋季研究発表会講演論文集     133 - 134  2004年09月

  • 音声対話における発話の感情判別

    小林季実子, 菊池英明, 白井克彦

    日本音響学会2004年秋季研究発表会講演論文集     281 - 282  2004年09月

  • 日本語話し言葉コーパス

    国立国語研究所    2004年03月

  • 韻律情報を用いた肯定的/否定的態度の認識

    八木大三, 藤江真也, 菊池英明, 小林哲則

    日本音響学会2004年春季研究発表会講演論文集     141 - 142  2004年03月

  • アイヌ語音声データベース

    早稲田大学語学教育研究所    2004年03月

  • Spoken Dialogue System Using Prosody As Para-Linguistic Information

    FUJIE Shinya, YAGI Daizo, MATSUSAKA Yosuke, KIKUCHI Hideaki, KOBAYASHI Tetsunori

    proc. of SP2004(International Conference Speech Prosody,2004)     387 - 390  2004年03月

  • Corpus of Spontaneous Japanese: Design, Annotation and XML Representation

    Kikuo Maekawa, Hideaki Kikuchi, Wataru Tsukahara

    International Symposium on Large-scale Knowledge Resources (LKR2004)     19 - 24  2004年03月

  • 日本語話し言葉コーパスの音声ラベリング

    菊池英明, 前川喜久雄, 五十嵐陽介, 米山聖子, 藤本雅子

    音声研究   7 ( 3 ) 16 - 26  2003年12月

  • 音声対話における韻律を用いた話題境界検出

    大久保崇, 菊池英明, 白井克彦

    電子情報通信学会技術報告   103 ( 519 ) 235 - 240  2003年12月

  • パラ言語の理解能力を有する対話ロボット

    藤江真也, 江尻康, 菊池英明, 小林哲則

    情報処理学会音声言語情報処理研究会   2003-SLP-48   13 - 20  2003年10月

  • パラ言語情報を用いた音声対話システム

    藤江真也, 八木大三, 菊池英明, 小林哲則

    日本音響学会2003年秋季研究発表会講演論文集     39 - 40  2003年09月

  • Use of a large-scale spontaneous speech corpus in the study of linguistic variation

    MAEKAWA Kikuo, KOISO Hanae, KIKUCHI Hideaki, YONEYAMA Kiyoko

    proc. of 15th Int'l Congress of Phonetic Sciences     643 - 644  2003年08月

  • Evaluation of the effectiveness of "X-JToBI": A new prosodic labeling scheme for spontaneous Japanese speech

    KIKUCHI Hideaki, MAEKAWA Kikuo

    proc. of 15th Int'l Congress of Phonetic Sciences     579 - 582  2003年08月

  • 自発音声コーパスにおけるF0下降開始位置の分析

    籠宮隆之, 五十嵐陽介, 菊池英明, 米山聖子, 前川喜久雄

    日本音響学会2003年春季研究発表会講演論文集     317 - 318  2003年03月

  • 『日本語話し言葉コーパス』(CSJ)のXML検索環境

    塚原渉, 菊池英明, 前川喜久雄

    第3回話し言葉の科学と工学ワークショップ講演予稿集     15 - 20  2003年02月

  • XMLを利用した『日本語話し言葉コーパス』(CSJ)の整合性検証

    菊池英明, 塚原渉, 前川喜久雄

    第3回話し言葉の科学と工学ワークショップ講演予稿集     21 - 26  2003年02月

  • Performance of segmental and prosodic labeling of spontaneous speech

    Kikuchi, H, K. Maekawa

    proc. of the ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition (SSPR2003)     191 - 194  2003年02月

  • Recognition of para-linguistic information and its application to spoken dialogue system

    S Fujie, Y Ejiri, Y Matsusaka, H Kikuchi, T Kobayashi

    ASRU'03: 2003 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING ASRU '03     231 - 236  2003年  [査読有り]

     概要を見る

    The human-human interactions in a spoken dialogue seem to use not only linguistic information in the utterances but also some sorts of additional information supporting linguistic information. We call these sorts of additional information "para-linguistic information". In this paper, we present a recognition method of attitudes by prosodic information, and a recognition method of head gestures. In the former method, in order to recognize two attitudes, such as "positive" and "negative", F0 pattern and phoneme alignment are introduced as features. In the latter method, in order to recognize three gestures, such as "nod", "tilt" and "shake", left-to-right HMM is introduced as the probabilistic model as well as optical flow is introduced as features. Experiment results show that these methods are sufficient to recognize user's attitude as para-linguistic information. Finally, we show a proto-type spoken dialogue system using para-linguistic information and how these sorts of information contribute the efficient conversation.

  • 日本語自発音声韻律ラベリングスキームX-JToBIの能力検証

    菊池英明, 前川喜久雄

    人工知能学会言語・音声理解と対話処理研究会   SIG-SLUD-A202-06   33 - 37  2002年11月

  • X-JToBI: An extended J_ToBI for spontaneous speech

    Maekawa, K, H. Kikuchi, Y. Igarashi, J. Venditti

    proc. 7th International Congress on Spoken Language Processing (ICSLP2002)     1545 - 1548  2002年10月

  • 自発音声韻律ラベリングスキームX-JToBIによるラベリング精度の検証

    菊池英明, 前川喜久雄

    日本音響学会2002年春季研究発表会講演論文集     259 - 260  2002年09月

  • 音声対話における心的状態変化の予測をともなうメタ発話生成機構

    菊池英明, 白井克彦

    情報処理学会論文誌   Vol.43, No.7   2130 - 2137  2002年07月

  • 大規模自発音声コーパス『日本語話し言葉コーパス』の仕様と作成

    籠宮隆之, 小磯花絵, 小椋秀樹, 山口昌也, 菊池英明, 間淵洋子, 土屋菜穂子, 斎藤美紀, 西川賢哉, 前川喜久雄

    国語学会2002年度春季大会要旨集     225 - 232  2002年05月

  • 日本語自発音声の韻律ラベリング体系: X-JToBI

    前川喜久雄, 菊池英明, 五十嵐陽介

    日本音響学会2002年春季研究発表会講演論文集     313 - 314  2002年03月

  • 自発音声に対する音素自動ラベリング精度の検証

    菊池英明, 前川喜久雄

    日本音響学会2001年春季研究発表会講演論文集     97 - 98  2002年03月

  • 日本語自発音声の韻律ラベリングスキーム: X-JToBI

    菊池英明, 前川喜久雄, 五十嵐陽介

    第2回話し言葉の科学と工学ワークショップ講演予稿集     19 - 26  2002年02月

  • 自発音声に対する音素自動ラベリング精度の検証

    菊池英明, 前川喜久雄

    第2回話し言葉の科学と工学ワークショップ講演予稿集     53 - 58  2002年02月

  • X-JToBI: 自発音声の韻律ラベリングスキーム

    前川喜久雄, 菊池英明, 五十嵐陽介

    情報処理学会音声言語情報処理研究会   SLP-39-23   135 - 140  2001年12月

  • 自発音声コーパスにおける印象評定とその要因

    籠宮隆之, 槙洋一, 菊池英明, 前川喜久雄

    日本音響学会2001年秋季研究発表会講演論文集     381 - 382  2001年09月

  • 多次元心的状態を扱う音声対話システムの構築

    鈴木堅悟, 青山一美, 菊池英明, 白井克彦

    情報処理学会音声言語情報処理研究会   2001-SLP037   13 - 18  2001年06月

  • 「日本語話し言葉コーパス」における書き起こしの方法とその基準について

    小磯花絵, 土屋菜緒子, 間淵洋子, 斉藤美紀, 籠宮隆之, 菊池英明, 前川喜久雄

    日本語科学   Vol.9   43 - 58  2001年04月

  • 自発音声に対するJ_ToBIラベリングの問題点検討

    菊池英明, 籠宮隆之, 前川喜久雄, 竹内京子

    日本音響学会2001年春季研究発表会講演論文集     383 - 384  2001年03月

  • 日本語音声への韻律ラベリング

    菊池英明

    人工知能学会研究会資料   SIG-SLUD-A003-4   21 - 24  2001年02月

  • 音声対話に基づく知的情報検索システム

    菊池英明, 阿部賢司, 桐山伸也, 大野澄雄, 河原達也, 板橋秀一, 広瀬啓吉, 中川聖一, 堂下修二, 白井克彦, 藤崎博也

    情報処理学会音声言語情報処理研究会   2001-SLP-35   85 - 90  2001年02月

  • 『日本語話し言葉コーパス』の構築における計算機利用

    前川喜久雄, 菊池英明, 籠宮隆之, 山口昌也, 小磯花絵, 小椋秀

    日本語学, 明治書院     61 - 79  2001年

  • 『日本語話し言葉コーパス』の書き起こし基準について

    小磯花絵, 土屋菜穂子, 間淵洋子, 斉藤美紀, 籠宮隆之, 菊池英明, 前川喜久雄

    電子情報通信学会技術報告   NLC2000-56, SP2000-104   55 - 60  2000年12月

  • モノローグを対象とした自発音声コーパス:その設計について

    第14回日本音声学会全国大会予稿集    2000年10月

  • Overview of an Intelligent System for Information Retrieval Based on Human-Machine Dialogue through Spoken Language

    proc. of Int'l. Conference on Spoken Language Processing    2000年10月

  • Modeling of Spoken Dialogue Control for Improvement of Dialogue Efficiency

    proc. of IEEE Int'l. Conference on Systems, Man and Cybernetics    2000年10月  [査読有り]

  • Improvement of Dialogue Efficiency by Dialogue Control Model According to Performance of Processes

    proc. of Int'l. Conference on Spoken Language Processing    2000年10月

  • Designing a Domain Independent Platform of Spoken Dialogue System

    proc. of Int'l. Conference on Spoken Language Processing    2000年10月

  • Controlling Non-verbal Information in Speaker-change for Spoken Dialogue

    proc. of IEEE Int'l. Conference on Systems, Man and Cybernetics    2000年10月  [査読有り]

  • 大規模話し言葉コーパスにおける発話スタイルの諸相---書き起こしテキストの分析から---

    日本音響学会2000年秋季研究発表会講演論文集    2000年09月

  • 日本語話し言葉コーパスの設計

    音声研究   4月2日  2000年08月

  • 音声対話システム汎用プラットフォームにおける行動管理部の構築

    人工知能学会全国大会(第14回)   6月8日  2000年06月

  • 対話効率の向上を目的とした音声対話制御のモデル化

    ヒューマンインタフェース学会誌   Vol.2, No.2  2000年05月

  • 音声対話システム汎用プラットフォームの検討

    情報処理学会音声言語情報処理研究会   2000-SLP-30  2000年02月

  • 課題遂行対話における対話潤滑語の認定

    人工知能学会誌   Vol.14, No.5  1999年09月

  • Improving Recognition Correct Rate of Important Words in Large Vocabulary Speech Recognition

    proc. of Eurospeech    1999年09月

  • A Post-Processing of Speech for Hearing Impaired Integrate into Standard Digital Audio Decorders

    proc. of Eurospeech    1999年09月

  • Controlling Dialogue Strategy According to Performance of Processes

    proc. of ESCA Workshop Interactive Dialogue in Multi-modal Systems    1999年05月

  • 音声対話システムにおける処理性能と対話戦略の関係についての一考察

    日本音響学会講演論文集   pp.109-110  1999年03月

  • 人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御

    情報処理学会論文誌   Vol.40, No.2  1999年02月

  • システムの処理性能を考慮した対話制御方法の検討

    人工知能学会 言語・音声理解と対話処理研究会予稿集   pp.1-6  1999年02月

  • Use of Nonverbal Information in Communication between Human and Robot

    Proc. Of International Conference on Spoken Language Processing (ICSLP)   pp.2351 - 2354  1998年12月

  • 非言語的現象の分析と対話処理 −電子メール討論

    日本音響学会誌   54, No.11  1998年11月

  • Controlling Gaze of Humanoid in Communication with Human

    Proc. Of International Conference on Intelligent Robots and Systems (IROS)   1, pp.255-260  1998年10月  [査読有り]

  • 人間型対話インタフェースにおけるまばたき制御の検討

    人工知能学会全国大会論文集   15-14, pp.242-245  1998年06月

  • 時間的制約を考慮した対話制御方法の実現方法

    人工知能学会全国大会論文集   37-07, pp.677-678  1998年06月

  • 人間とロボットのコミュニケーションにおける非言語情報の利用

    情報処理学会音声言語情報処理研究会資料   21-7, pp.69-74  1998年05月

  • 情報のら旋成長を支援するコミュニケーション形電子図書館

    電子情報通信学会論文誌   Vol.J81-D-II, No.5  1998年05月

  • Multimodal Communication Between Human and Robot

    Proc. Of International Wireless and Telecommunications Symposium (IWTS)   pp.322-325  1998年05月

  • 時間的制約を考慮した対話制御方法の検討

    日本音響学会講演論文集   3-6-16, pp.113-114  1998年03月

  • 自由会話における時間的制約の影響の分析

    電子情報通信学会技術研究報告   SP97-55, pp.31-36  1997年10月

  • 音声を利用したマルチモーダルインタフェース

    電子情報通信学会誌   80;10, pp.1031-1035  1997年10月

  • 複数ユーザとロボットの対話における非言語情報の役割

    日本音響学会講演論文集   3-1-13, pp.111-112  1997年09月

  • The Role of Non-Verbal Information in Spoken Dialogue between a Man and a Robot

    International Conference on Speech Processing (ICSP) '97 Proceedings   2, pp.539-544  1997年08月

  • ロボットとの対話における非言語情報の役割

    人工知能学会全国大会論文集   21-06, pp.433-436  1997年06月

  • 音響学会員のためのインターネット概説

    日本音響学会誌   52巻8号  1996年08月

  • User Interface for a Digital Library to Support Construction of a "Virtual Personal Library"

    proc. of ICMCS(International Conference on Multimedia Conputing and Systems)    1996年06月  [査読有り]

  • 情報処理学会第53回全国大会大会優秀賞

       1996年03月

  • ハイパーメディア共有アーキテクチャにおけるバージョン管理方式

    情報処理学会全国大会講演論文集    1996年03月

  • ハイパーメディア共有アーキテクチャ

    情報処理学会全国大会講演論文集    1996年03月

  • Extensions of World-wide Aiming at the construction of a "Virtual Personal Library"

    proc. of Seventh ACM Conf. on Hypertext    1996年03月

  • Multimodal Interface Using Speech and Pointing Gestures, and Its Applications for Interior Design and PC Window Manipulation

    proc. of IWHIT95 (International Workshop on Human Interface Technology 95)    1995年10月

  • 音声とペンを入力手段とするマルチモーダルインタフェースの構築

    情報処理学会音声言語情報処理研究会   SLP-7-18  1995年07月

  • Agent-typed Multimodal Interface Using Speech, Pointing Gestures, and CG

    proc. of HCI(Human Conputer Interaction) International '95    1995年07月  [査読有り]

  • 仮想個人図書館の構築を支援するユーザインタフェースの開発

    電子情報通信学会春季大会講演論文集    1995年03月

  • 音声・ポインティング・CGによるエージェント型ユーザインタフェースの試作と評価

    第10回ヒューマンインタフェースシンポジウム論文集    1994年10月

  • マルチモーダルウインドウシステムの構築

    第10回ヒューマンインタフェースシンポジウム論文集    1994年10月

  • 音声・ポインティング・CGによるエージェント型ユーザインタフェースシステム

    電子情報通信学会秋季大会講演論文集    1994年09月

  • 音声対話インタフェースにおける発話権管理による割り込みへの対処

    電子情報通信学会論文誌   Vol.J77-D-II, No.8  1994年08月

  • 音声対話システムにおける発話権の制御

    電子情報通信学会春季大会講演論文集   Vol.D-108  1993年03月

  • Three Different LR Parsing Algorithm for Phoneme-Context-Dependent HMM-Based Continuous Speech Recognition

    IEICE Trans. Inf. & Sys.   Vol.E76-D, No.1  1993年01月

  • ナビゲーションシステムにおける音声対話インタフェースの構成

    人工知能学会言語・音声理解と対話処理研究会   SIG-SLUD-9203-3  1992年10月

▼全件表示

書籍等出版物

  • "感情の音声表出", 石井克典監修「IoHを指向する感情・思考センシング技術」

    菊池英明

    CMC出版  2019年 ISBN: 9784781314303

  • "音声対話システム", 白井克彦編著「音声言語処理の潮流」

    菊池英明

    コロナ社  2010年

  • “Outline of J_ToBI”, in "COMPUTER PROCESSING OF ASIAN SPOKEN LANGUAGES"

    KIKUCHI Hideaki

    Americas Group Publications,U.S.  2010年 ISBN: 0935047727

  • "音声コミュニケーションの分析単位 -ToBI-", 坊農真弓, 高梨克也編,「多人数インタラクションの分析手法」

    菊池英明

    オーム社  2009年

  • "韻律を利用した対話状態の推定", 広瀬啓吉 編「韻律と音声言語情報処理」

    菊池英明, 白井克彦

    丸善  2006年 ISBN: 4621076744

  • "Voicing in Japanese," Van de Weijer, Nanjo, Nishihara (Eds.)

    MAEKAWA Kikuo, KIKUCHI Hideaki

    Mouton de Gruyter, Berlin and New York  2006年

  • "Spoken Language Systems", S. Nakagawa et al. (Eds.)

    HATAOKA Nobuo, ANDO Haru, KIKUCHI Hideaki

    Ohmsha/IOS Press  2005年 ISBN: 427490637x

▼全件表示

産業財産権

  • 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体

    白井 克彦, 菊池 英明, 新関 一馬

    特許権

  • 音声認識装置及び音声認識用プログラム

    白井 克彦, 菊池 英明, 大久保 崇

    特許権

  • 連続音声認識装置および方法

    白井 克彦, 城崎 康夫, 菊池 英明

    特許権

受賞

  • 情報処理学会第53回全国大会大会優秀賞

    1996年03月  

共同研究・競争的資金等の研究課題

  • リアルタイムMRI動画による日本語調音運動データベースの構築と公開

    研究期間:

    2020年04月
    -
    2024年03月
     

     概要を見る

    本研究は医療用MRI装置でリアルタイム撮像された大量の日本語調音運動データをその検索環境とともに一般公開することによって、日本語調音音声学の未解明問題について広くオープンな議論を行うための研究インフラを提供しようとするものである。リアルタイムMRI動画には声道の全体形状が高解像度で記録されている。わけても従来可視化がほぼ不可能であった軟口蓋から咽頭を経て喉頭に到る声道後部が鮮明に観察できる点は、音声研究史上画期的であり、音声学者・音声生成研究者の永年の夢を実現したデータである。外国人に対する日本語音声教育教材としても高い価値が認められる

  • 認知症高齢者に有効なソーシャルワーク面談のプロトコル開発

    研究期間:

    2019年04月
    -
    2022年03月
     

     概要を見る

    認知症高齢者にたいしては回想的話題がコミュニケーションを促進することが明らかだが、その際には、面談技術が問題となる。ソーシャルワーク面談は、人を支援する技術だが、その構成要素である技術や効果は測定されず、可視化されていない。本研究では、認知症高齢者に有効なソーシャルワーク面談の要素技術を抽出し、言語工学を応用した評価方法を用いて認知症高齢者との面談技術についての基本型の開発を行う。【意義と目的】 介護職員の介護負担となる認知症の行動・心理症状を予防・緩和する方法の一つは、「認知症高齢者のコミュニケーションの促進」である。コミュニケーションによって、認知症を患う高齢者が脳への良い刺激を受けることは脳科学研究によって実証されている。特に、回想的話題が認知症高齢者のコミュニケーションを促進することが明らかだが、その際には、面談技術が問題となる。ソーシャルワーク面談は、MCOモデルにより人を支援する技術だが、その構成要素である技術や効果は測定されず、可視化されていない。本研究では、認知症高齢者に有効なソーシャルワーク面談の要素技術を抽出し、その要素技術と回想的会話を連携させたプロトコルを作成することを目的とする。言語工学の成果である①発話単位認定②形態素解析③係り受け解析により、認知症高齢者の会話を評価し、動機・能力・機会のアセスメント状況、回想的話題、非言語コミュニケーションの測定を行い、認知症高齢者に有効なソーシャルワーク面談のプロトコルの作成を試みた。【方法】認知症高齢者との面談に10年以上の経験のあるソーシャルワーカー2名を招き、認知症を患ってはいるが自立生活が可能なケアハウス入居者3名との面談を実施した。各30分程度の面談(6パターン)を録画および音声収録を行い、データ化を実施した。収集したデータは文字化および画像解析が進行中である。PerlmanのMCO(本人の動機・能力・機会をアセスメントする)モデルを援用し面談行動コード化システムを構築することを試みた。非言語的コミュニケーション分析については、音声科学において定評のあるソフトを使用し、声の高さや会話のスピードを分析するとともに、行動解析を行った。高齢者に聞きやすい音声、傾聴態度、語りを促す身体的動き質問方法などを分析中である。2020年2月末に研究協力者のソーシャルワーカー10名に連絡をして、ソーシャルワーク面談をビデオ収録する準備ができたところで、実施する直前に新型コロナウイルスの蔓延により高齢者施設(ケアハウス)への立ち入り禁止措置が行われるようになった。そのため予定されていた実験場所の確保と研究参加を承諾してくれた高齢者に面会することが、不可能となり、6事例のみのデータ収集となった。新型コロナウイルス渦の鎮静以降、以下のとおり対処したい。①【実験参加者の確保】実験場を変更してデータを収集する。社会福祉協議会、社会福祉法人、NPO法人に依頼し、熟練した福祉援助相談員(ソーシャルワーカー)を20名確保する。また、老人福祉施設等に依頼し模擬面談対象者を募集する。②【模擬面談の分析】新しいデータの収集と名別に、申請者らが過去に収集した書き起こしテキストデータ(認知症高齢者10名と配偶者10名600時間分)の言語学的分析を行い、回想的会話が認知症高齢者のコミュニケーション促進に及ぼす影響の程度、および、その内容の分析を行う

  • バーチャルリアリティ環境におけるオラリティの運用の検討

    研究期間:

    2017年07月
    -
    2020年03月
     

     概要を見る

    本年度は昨年度に引き続き、バーチャルリアリティ空間におけるオラリティを構成する要因(エージェントの視覚的特徴、コミュニケーションのインタラクティブ性、垂直方向の距離知覚、空間の非現実性)を心理学実験により検討した。研究1では、バーチャルリアリティ空間で対面したエージェントに対する適切なパーソナルスペースの推定に関する実証実験のデータ収集を行った。昨年度収集したデータと合わせて、対面するエージェントの視覚的な特徴(性別、人間またはロボット、身長差)がパーソナルスペースに影響することを確認した。研究2では、一次救命処置訓練をテーマにバーチャルリアリティ環境でのインタラクティブ性が訓練受講者の心理に及ぼす影響を検討した。実験では、エージェントが倒れてしまった場面で周囲の人物への声がけを行いながらAEDを用いる手続きを体験しながら学習した。受講者の声がけの音響特徴に合わせて、周囲のエージェントの振る舞いが変更するようにプログラムされており、受講者は自らの声がけによるインタラクティブな状況変化を体験した。その結果、同様の学習をビデオ視聴に行う場合と比べて、一次救命処置に対するより高い自己効力感と訓練方法に対する高い興味が示された。研究3では昨年度まで実施していたバーチャルリアリティ空間内の距離近く推定に関する実験を一部拡張し、垂直方向の距離推定を行った。その結果、奥行き方向と垂直方向では距離推定のバイアスが異なることが示された。研究4ではバーチャルリアリティ空間の非現実性が体験者の心理に及ぼす影響を検討した。3つの環境(草原、海、宿泊施設)を模したバーチャルリアリティ空間にお風呂を設置し、現実空間でお風呂に入っている参加者に提示した。その結果、非現実的なバーチャルリアリティ空間のお風呂と現実のお風呂のギャップにより参加者のリラックス度合いに変化が生まれることがわかった。本年度は、前年度までに行った対面コミュニケーションや空間知覚に関して、バーチャルリアリティ空間内の注意位置を計測しながら実験的検討を行う予定であった。注視点計測機能のあるヘッドマウントディスプレイを用いた検討を実施したが、注視点の推定精度が当初の予想よりも低いため検証実験の準備に想定以上の時間を要した。さらにコロナウイルス感染拡大の影響で被験者を伴う予備実験の実施を断念せざるを得なかった。これにより当初予定していた検証実験が未実施となった。実施が延期された視点計測を伴うバーチャルリアリティ環境におけるオラリティを構成する要因の検討を実施予定である。実験データをまとめるとともに、最終年度として、4年間で得られた知見を統合して、バーチャルリアリティ環境におけるオラリティに関わる要因の特徴を考察する

  • リアルタイムMRIおよびWAVEデータによる調音音声学の精緻化

    研究期間:

    2017年04月
    -
    2020年03月
     

     概要を見る

    3年の研究期間を通して、ほぼ当初計画どおりに研究を推進することができた。現在までに収集したリアルタイムMRI動画による日本語の調音運動データは東京方言が16名分(うち男性10名)、近畿方言が5名分(うち男性3名)である。収録内容は時期により少しずつ異なるが、最終状態で、単独モーラ142項目、特殊モーラを含む単語151項目、2モーラの組み合わせ676項目等であり、1名あたり約1時間の発話を収録した。これらのMRI動画データは、同時に収録した音声データと合成してAVIおよびMP4形式動画ファイルに編集して共同研究者の利用に供した。日本語以外にはモンゴル語バーリン方言のデータを3名分(すべて女性)収録した。発話内容は、モンゴル語の特徴である母音調和の分析に特化してあり、1名あたり約600語分の調音運動データを収集した。リアルタイムMRI動画の収集作業と並行して、調音器官(舌、上下唇、下顎、口蓋、咽頭壁など)の輪郭を自動抽出するための技術開発も実施した。現在、話者を特定した場合は、少量の学習データを用いた機械学習によって、人手作業と遜色のない精度での輪郭自動抽出が可能になっている。収集したデータに対する予備的分析の結果は、日本語の語末撥音の調音位置が従来の定説とは異なることを報告した論文、モンゴル語母音調和においては、舌根と咽頭壁の距離が重要な特徴となることを定量的に確認した論文、日本語ワ行子音の調音は主に両唇の接近によって実現されており、軟口蓋の関与がほとんど認められないことを確認した論文、さらに国際音声学協会のハンドブックに記載されている日本語ラ行子音の記述には誤りが多く、実態に即していないことを報告した論文などを執筆し公開した。令和元年度が最終年度であるため、記入しない。令和元年度が最終年度であるため、記入しない

  • コーパス言語学的手法に基づく会話音声の韻律特徴の体系化

    研究期間:

    2016年04月
    -
    2020年03月
     

     概要を見る

    本研究課題の目的は、コーパス言語学的手法に基づき、独話や朗読音声との比較を通し、会話音声の韻律体系を実証的に検証・確立することである。この目的に向け、最終年度にあたる今年度は、次のことを実施した。①これまで、独話用に開発した韻律ラベリング基準X-JToBIを日常会話用に拡張することを検討してきたが、今年度はそれを作業マニュアルとしてまとめ上げ、今後、ラベリング結果とともに公開できるよう準備した。②代表者が構築を主導する『日本語日常会話コーパス』のうち16時間の会話を対象に、2次チェックまで含めて韻律ラベリングを実施した。③16時間のラベリング結果に基づき、『日本語話し言葉コーパス』の独話(講演)との比較を通して、日常会話の韻律の特性について分析を行い、以下のことを明らかにした:ア)上昇成分を伴うBPM(上昇調・上昇下降調など)が学会講演で多く雑談では少ない傾向が見られる、イ)BPMの内訳を見ると、学会講演ではアクセント句末での上昇調が多いのに対し、雑談では上昇下降調が多い、ウ)線形判別分析を用いてこれらの句末音調・BI値の特徴からレジスター(雑談・学会講演・模擬講演)を推定するモデルを構築し、各変数がレジスターの判別にどのように寄与するかを検討した結果、正解率は82.1%と、高い確率で3つのレジスターが句末音調・BI値の特徴から判別できることなどが分かった。以上の結果から、学会講演ではイントネーション句内において上昇調で卓立させたアクセント句が複数継起する発話スタイルをとることが多いのに対し、日常会話では上昇下降調などを伴うアクセント句は複数継起することは少なく単独でイントネーション句を構成する、つまり韻律的には細ぎれの発話スタイルが多いと考えることができる。令和元年度が最終年度であるため、記入しない。令和元年度が最終年度であるため、記入しない

  • 音声対話システムに対するインタラクション欲求向上のためのユーザ印象空間の推定

    研究期間:

    2014年04月
    -
    2017年03月
     

     概要を見る

    本研究の目的は、音声対話システムの発話の音声言語的特徴制御によるユーザのインタラクション欲求向上について検証することである。エージェントに対する印象の強さはユーザごとに個人差がある可能性がある。模擬的な共同タスク環境を設計したうえで被験者実験を行い、個人の特性とエージェントに対する印象の関係を明らかにした。さらに、具体的な音声言語的特徴制御の例としてユーモアを扱い、ユーモア発話生成がユーザのインタラクション欲求向上に与える影響を、対話システム開発を通じて検証した。ユーモアを含まない発話文を選択する手法よりも提案したユーモア発話生成手法の方がユーザの対話継続欲求を向上できることが示された

  • インタラクティブ性の有無を考慮した話し言葉・書き言葉間の変換のための基礎的研究

    研究期間:

    2013年04月
    -
    2016年03月
     

     概要を見る

    本研究は、画像についての説明を、話し言葉か書き言葉か、対話か独話かの、合計4通りの条件(モード)について、データの収録方法の開発、データの収集と整備、ならびに4種類のモード間の自動変換アルゴリズムを将来開発するための基礎として、各モード間の差異についての知見の発見と集約を行なうものである。得られたデータから、文章のスタイルを表す多くのパラメータの、話し言葉と書き言葉における差が、独話より対話の方が少ないことから、即時的な文の生成や、発話に対する受け手の理解状況への注意などの対話の持つ特性が、話し言葉と書き言葉それぞれの特徴を減少させることが示唆された

  • 音声対話システムに対するインタラクション欲求向上のためのユーザ印象空間の推定

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(C))

    研究期間:

    2014年
    -
    2016年
     

  • 音声対話システムに対するインタラクション欲求向上のためのユーザ印象空間の推定

    科学研究費助成事業(早稲田大学)  科学研究費助成事業(基盤研究(C))

    研究期間:

    2014年
    -
    2016年
     

     概要を見る

    本研究の目的は、音声対話システムの発話の音声言語的特徴制御によるユーザのインタラクション欲求向上について検証することである。エージェントに対する印象の強さはユーザごとに個人差がある可能性がある。模擬的な共同タスク環境を設計したうえで被験者実験を行い、個人の特性とエージェントに対する印象の関係を明らかにした。さらに、具体的な音声言語的特徴制御の例としてユーモアを扱い、ユーモア発話生成がユーザのインタラクション欲求向上に与える影響を、対話システム開発を通じて検証した。ユーモアを含まない発話文を選択する手法よりも提案したユーモア発話生成手法の方がユーザの対話継続欲求を向上できることが示された

  • アイヌ語諸方言の資料整備と音声音韻・文法・語彙の方言差の分析

    研究期間:

    2012年04月
    -
    2015年03月
     

     概要を見る

    アイヌ語の人称表示の方言差を観察し、方言間の距離が近いことでこれまで知られてきた沙流方言と千歳方言の動詞の人称表示体系に、重要な差異のあることを確認し、この事実が示唆するアイヌ語の人称表示の一般的な傾向および歴史的背景を考察した。アイヌ語の叙事詩のなかに現れる親族語彙について、沙流方言のテキストと静内方言のテキストのなかでの用法の違いを調査した。アイヌ語音声データベースのシステムを試験的に構築した。アイヌ語音声データベースに入力するレコードの整備を進めた。アイヌ語のテキストをデータベース化する際に、動詞内部をできる限り形態素ごとに区切り、そこにタグをつけていく作業を試み、その結果を評価した

  • 円滑な母語対話を可能としている物理的要因の非母語話者対話との対比による探索

    研究期間:

    2012年04月
    -
    2015年03月
     

     概要を見る

    母語対話の話者交替時には、話者移行適格場TRPに制約された重複発話が多数観測される。これは、母語対話の心的負担を軽減させるメカニズムによるものと思われる。日本人母語話者ではプロソディに話者交替の予告情報が存在していた。成人の日英両母語話者と非母語話者の話者交替タイミングには差異が見いだされ、予告情報は言語情報ではなく、主に物理量のプロソディにあることが示唆された。日本語母語5歳児と成人母語話者の対話では個人差が若干存在するが、6歳児では成人母語話者との差異がなかった。母語プロソディ獲得臨界期の生後18ヶ月までに予告機能基盤の獲得が進み、6歳頃までに母語の話者交替の機能が獲得されると思われる

  • 韻律制御に主体をおいた対話システム

     概要を見る

    今年度の成果は以下の通りである。a)対話のリズムと韻律制御前年度までの成果に基づいて、対話における話題境界の判別を題材に、韻律情報におけるアクセント句単位でのパラメータを用いて統計的なモデルを学習し、オープンデータに対しても人間と同程度の判別精度が得られることを確認した。(白井・菊池)自然な対話システムを構築する上で重要なシステム側の相槌生成と話者交替のタイミングの決定を、韻律情報と表層的言語情報を用いて行う方法を開発した。この決定法を、実際に天気予報を題材にした雑談対話システムに実装し、被験者がシステムと対話することにより主観的な評価を行い、有用性を確認した。(中川)b)対話音声理解応用対話音声における繰り返しの訂正発話に関する特徴の統計的な分析結果を踏まえ、フレーズ単位の韻律的特徴の併用と訂正発話検出への適用を評価した。また、これらと併せた頑健な対話音声理解のため、フィラーの韻律的な特徴分析・モデル化の検討を行った。(甲斐)c)対話音声合成応用語彙の韻律的有標性について程度の副詞を用い、生成・聴覚の両面から分析を行い、自然な会話音声生成のための韻律的強勢制御を実現した。また、統計的計算モデルによる話速制御モデルを作成し、会話音声にみられる局所話速の分析を進め、自由な話速の制御を可能とした。さらに、韻律制御パラメータが合成音声の自然性品質に及ぼす影響を調べた。(匂坂)d)対話システム上記の成果をまとめ,対話システムを実装した。特に,顔表情の認識・生成システム,声表情の認識・生成システムなどを前年度までに開発した対話プラットホーム上に統合し,パラ言語情報の授受を可能とするリズムある対話システムを構築した。(小林

  • 自発音声データに対する多元的アノテーション情報のXML化に関する研究

     概要を見る

    自然言語は「談話>文句>語>音節>モーラ>音素」の様な階層構造をなしているというのが現代言語学の基本的な仮定である。この仮定は書き言葉にはよくあてはまる。しかし、自発音声(自然な話し言葉)においては、様々な理由によって、明瞭な階層構造を認定しがたいケースが頻出する。本研究の目的は、この破綻にどのような類型が存在するかを『日本語話し言葉コーパス』に記録された膨大なデータを用いて検討し、そのような破綻を含む言語データをXML文書化する方法を考案することである。初年度には『日本語話し言葉コーパス』の転記テキストにおいて階層構造の破綻がどのように生じているかの類型化作業をおこない、一部試験的にXML文書化を実施した。本最終年度は、昨年度の成果を継承して、XML文書の仕様を確定し、『日本語話し言葉コーパス』に含まれる752万語分の転記テキスト(音声データ661時間分に該当)と形態素解析結果をXML文書化した。そのうち約50万語(44時間相当)に関しては、上記に加えて分節音とイントネーションの両面にわたる音声ラベルもXML文書中にとりこんだ。このようにして作成されたXML文書は、複雑な構造(最大で10階層、17要素、208属性)を有しているので、その検索は容易でない。そこで『日本語話し言葉コーパス』用のXML文書検索ツールを開発した。このツールは、GUIを介して検索式(XPathないしX-Query)を生成する機能とともに、検索結果をXSLでフォーマットしてユーザーが望む形式で出力する機能を有している。本ツールはJAVAで開発されているので、主要なOS上で利用できる。本研究の成果である『日本語話し言葉コーパス』のXML文書と検索ツールは『日本語話し言葉コーパス』公開版の一部として2004年6月上旬に一般公開する予定である

  • ブロードバンドを利用した新しい高等教育の有機的モデルとプロトタイプの開発

     概要を見る

    フルオンデマンドによるeラーニングのコースを実質的に成果のあるものにするためには、教員、コーチ、サポートスタッフの3種類の人的資源がそれぞれに割り当てられた仕事をこなすこと、そしてラーニング・マネジメント・システム(LMS)を含むeラーニングシステムが学習者の学習を促進するような機能をもつことが必要である。教員の仕事は大きく分けて、コースの設計、実施、評価と改善の3つに分類できる。eラーニングになってとりわけ重要なことは、コースの設計と詳細化における仕事に重心が移ることである。eラーニングにおける教員の仕事はコースの設計と詳細化という部分に重心が移った。それによってコースの実施段階では教員を補佐し、実質的に授業運営の大きな部分を担う人材が必須のものとなった。それがコーチである。コーチの仕事は、大きく分けて、学習活動の促進、雰囲気と規範作り、議論プロセスの主導の3つである。LMSについては、有償・無償のものを含めてさまざまな種類のものが利用できる。最低限、ビデオ配信、BBS、レポート・テストのやりとりができるシステムであればeラーニングを実施することができる。しかし、eラーニング授業をもっと着実なものにするためには、それぞれの機能についていっそうの工夫が必要である。将来的な学習環境について述べる。現在の環境は、学習者がLMSにログインして、そこで学習のリソースを見て、自分の手元でノートを取るというような形になっている。しかし、将来的には、Webブラウザを開けば、すぐにそこが自分の学習用のワークスペースになっているようなイメージにしたい

  • 身体、アーティファクトを用いた効果的コミュニケーション過程の分析とFDへの応用

     概要を見る

    本研究では、まずHough & Duncan の開発したObservational System for Instructional Analysis(OSIA)を用いて、大学の講義、小学校英語授業を録画したものを記述し、マトリックス、タイムラインに転記した。同時に、教室内発語をすべて書き起こし、さらに教員の表清分析を行ない解析した結果、以下の諸点が明らかになった。1)大学の授業のインターアクションのレベルは講義型の場合、単調な教師の説明が圧倒的に多く、小学校の授業は、教師、児童間のインターアクションのレベルは、英語授業の場合、とりわけ高く、児童の反応が多いことが、記述データの分布図(マトリックス)から再確認された。2)小学校授業でのALTは、教育経験の有無により、発語、発問と児童の解答のタイミングに違いがあり、経験の浅いALTは、絵を見せていきなり反復練習に入るのに対し、小学校での教育経験のあるALTは、提示->児童の発語という児童からの主体的な発語を中心に授業を行っており、それが、授業の活性化につながっていることが確認された。3)小学校授業において、教員の表情の緩急が授業の活性化につながっており、児童の参加態度の積極性、動機づけにも影響を与えていることが、データ、授業観察、ビデオ録画からも読み取れた。4)長い英語のフレーズよりも、短い発問、説明がより児童の学習態度には効果的である。5)褒める、ポジティブなフィードバックが英語授業のような言語教育場面においては、特に効果的である。6)アーティファクトの使用は、タイミングが合う限りにおいては、授業のテンポアップにつながる

  • 話し言葉コーパスに基づく言語変異現象の定量的分析

     概要を見る

    当初の計画に従って、研究期間の前半ではデータの整備をおこなった。具体的には以下のデータを新規に生成した。また既存のデータのエラー修正も実施した。1.『日本語話し言葉コーパス』コア部分(約44万語)について、韻律情報その他をアクセント句単位に再編成した韻律研究用XMLデータを設計し、作成した(担当:菊池)。2.『日本語話し言葉コーパス』の異なり語(約4万語)に対して、和語、漢語、外来語等の語種情報を付与した(小椋)。3.『日本語話し言葉コーパス』からガ行鼻濁音を含みうる語を文脈とともに切り出した鼻濁音研究用データベースを作成した(前川・日比谷)。4.『日本語話し言葉コーパス』全体(約752万語)を対照として、語形の変異現象を包括的に記録した語形変異研究用RDBを整備した(前川)。これらのデータを利用して、『日本語話し言葉コーパス』に記録された各種の言語変異現象の研究を実施した。具体的には以下の現象を分析した。1.母音の無声化(前川・菊池)2.母音の非語彙的延長(伝)3.助詞の撥音化(小磯)4.ガ行鼻濁音(日比谷)5.語形変異(前川)6.アクセント句末イントネーションのうち上昇調の変異(前川・菊池)7.文末の文体的特徴(小椋)研究成果は国際学会を含む各種学会で報告した他、3年分の成果をまとめた報告書(252頁)を刊行し

  • 対話状況に応じた自発的コミュニケーション機構の研究

     概要を見る

    本研究では,現実の多様な対話状況に対応するために,能動的にインタラクションを行うコミュニケーション機構の検討を行った.従来の対話システム研究は,情報端末のインタフェースとして特定のタスクを効率よくこなすことを目的としていたが,対話を自発的に開始・継続する対話システムへと発展させるためにこのシステム機構の研究を行う.そのために,動画像・音声による人物認識と対話内容認識を目指す(i)対話状況把握の研究,対話システムがどのように対話を開始し,継続,終了すべきかをモデリングする(ii)自発的コミュニケーション制御モデルの研究,そして,どのようにシステムの意図を表出するかという(iii)音声生成と動作表現の技術の大きく3種類の技術の検討を行った.(i)として,ステレオカメラによる人物姿勢推定の研究を行った.従来用いられなかった奥行き情報,人物の形状とテクスチャ情報などを同時に用いることにより,高精度な人物姿勢推定を実現した.また,対話時に話者の意図を推定する技術の研究を行った.文末特徴や単語N-gramを用いることにより,従来法より精度の高い意図推定が可能となった.(ii)として,ロボットが人に話しかける際の話しかけ判断モデル,継続モデル,終了モデルを検討した.音声・画像情報から,システムが対話相手の心的状況を推定し,対話の開始・継続・終了を行う技術を実現した.(iii)として,音声の生理的表現の一つである「笑い」を音声合成により生成する技術を検討した.人間の笑い声の音響分析に基づき,話し声から「笑い声」,「喋り笑い」の合成を実現した

  • 音声学的測定法と計算論モデル手法を融合した対乳児発話音声の解析

     概要を見る

    本研究は、母親が乳児に話しかける際の話し方、対乳児発話(Infant-Directed Speech, IDS)に含まれる音声がどのような特徴をもち、それが乳児の音声獲得にどのような役割を果たしているのかを音声学的解析手法と、音響特性に基づいた数理モデルを用いた解析手法を融合して解析した。母音の質の違いにつては対乳児発話であっても対成人発話であってもSOMを用いたモデルで獲得が可能なことが分かったが、長短母音の違いは母音の長さ情報のみからの獲得は困難であることが分かった

▼全件表示

特定課題研究

  • 音象徴の表現力の精緻化

    2020年  

     概要を見る

    本研究では、刺激を工学的手法により作成・呈示し、その結果を心理学的な統計処理を施し解釈することで、音象徴の持つ表現力を精緻化する。具体的には、実験参加者の属性を抽象化能力の理解度という側面から、音象徴の持つ表現力の差異を明らかにする。音象徴の印象評定実験を行い、心理学的距離に差が生じ得るか検討した。印象評定実験では,Scheffe の一対比較法によって,選定した聴覚・視覚刺激の心理尺度上の距離を比較した.その結果,日本語母語話者においても,丸みを帯びた名前はブーバ顔と,角張った名前はキキ顔と強く結びつく傾向にあることが示された.

  • 音声言語コーパスへの発話スタイル属性付与のためのアノテーション規準作成と自動推定

    2020年   沈 睿

     概要を見る

    音声言語コーパスに収められたデータの発話スタイルについて、コーパス検索に適した体系を整理したうえで、主に言語処理技術により発話スタイル自動推定を可能にし、推定結果としての発話スタイルをコーパスの属性情報として活用できるようにすることを目指す。特定課題研究期間には、応募課題の発展のためにコーパスの内容を吟味してより具体的で現実的な問題を発見する。そのために、手元にあるコーパス20~30点の転記テキストデータを電子化し、プログラムなどで統一的に扱えるように形式を整えた。手元のコーパスの発話スタイルの網羅性を検討した。

  • 音声対話システム発話の音声言語的特徴制御によるインタラクション欲求向上

    2013年  

     概要を見る

    音声対話システムのシステム発話を制御することによってユーザに与える印象を変化させる技術の開発を目指している。本特定課題研究では、擬人化したシステムの自己開示によってパーソナリティを付与する手法に関する基礎研究を中心に進めた。実験を通じて、自己開示量と内容によって特定のパーソナリティを付与できることを確認した。この成果は、ヒューマンインタフェース学会論文誌に査読論文として掲載された(「自己開示による音声対話エージェントへのパーソナリティ付与」)。他にも、マイクロブログからユーモア発話を自動生成する技術(「非タスク指向対話システムにおけるマイクロブログを用いたユーモア発話の自動生成」)、発話速度あるいは無音区間長を制御する手法(「ロボット発話の話速・無音区間長の制御によるパーソナリティ認知と対話継続欲求の向上」)を検討し、それぞれによってユーザがシステムに抱く印象がどのように変化するかを実験により調査した。いずれも国内学会にて成果を発表した。ユーザ発話における音声のプロソディを解析することによってユーザの心的状態を推定して、それに応じてシステムの振舞を変えることによってユーザが抱く愛着感を変化させられることを実験により確認し、この成果を国際会議にて発表した(「Effects of an Agent Feature Comprehension on the Emotional Attachment of Users」)。いずれの研究においても、ユーザが抱く印象を変化させるこれらの手法によって、音声対話システムに対するインタラクション継続欲求が向上することを確認している。このことを一旦整理して国内学会にて発表した(「音声対話システムに対するインタラクション継続欲求」)。こうした一連の研究成果を体系化してさらに幅広く応用可能な技術を開発するために、インタラクション継続欲求とユーザ印象空間の関係を明確にする必要性が生じている。そこで最終的に、本特定課題研究を経て、2014年度科学研究費の基盤(C)に「音声対話システムに対するインタラクション欲求向上のためのユーザ印象空間の推定」というテーマを申請して採択された。

  • 生体情報を教師信号としたモデル学習による感情推定技術の高度化

    2006年  

     概要を見る

     本研究では、音声からの心的状態の推定において話者の心的状況をより高い精度で推定するため、生体情報を教師信号としたモデル学習を行う“生理心理学的アプローチの導入”を提案する。 従来の感情推定は、モデル学習の際に実験者の判断による評定結果が教師信号として用いられるため主観的方法であることが否めない。また推定の対象も基本的な感情にのみ重点が置かれてきた。 生体情報は、意図的な操作が入らず継時的な変化を捉えられることができるとされている。そのため、推定を行う際に実験の第一段階として生体信号を利用することで、多様で連続的な心情の変化を対象とすることができるようになり、またより客観的で精度の高い判断が可能になると思われる。 難度の異なる音読課題を2つ用意し、課題間における生体信号の反応の違いが音声の違いにも現れるのかを観察した。実験者の主観的評価によってストレス状態と判断された被験者の音声と、それらのうち生体信号の変化からもストレス状態にあると判断できた被験者の音声の比較を行う。 生体信号には、心的状態の推定へ利用できると思われた容積脈派(BVP)、心電図(EKG)、皮膚温(TEMP)、皮膚コンダクタンス(SC)を用いた。 音声の比較には、各音声からF0とパワーそれぞれの最大値、最小値、振幅、平均値、それに発話速度を加えた9つの特徴量を抽出し、これらを決定木学習に利用した。決定木学習には、C4.5アルゴリズムを使用し、交差検定を用いて評価を行う。 全データ(実験者の主観的評価のみによってストレス状態を判断した)で学習モデルを生成した場合平均63.9%であった判別率が、選別データ(主観的評価に加え、生体信号の変化からもストレス状態を判断した)で学習モデルを生成した場合には平均77.8%まで精度が向上した。 生体信号がストレス状態を判断するうえで一つの指標となり得ることを示唆する結果となった。本実験の結果、音声からの心的状態の推定を行う際に生体情報を利用することの有益性が実証された。

海外研究活動

  • 音声言語における感情・評価・態度の解析技術高度化

    2009年03月
    -
    2010年03月

    アメリカ   オハイオ州立大学

    中国   北京大学

 

現在担当している科目

▼全件表示