KIKUCHI, Hideaki

写真a

Affiliation

Faculty of Human Sciences, School of Human Sciences

Job title

Professor

Homepage URL

https://sites.google.com/view/kikuchihideaki/home

Concurrent Post 【 display / non-display

  • Faculty of Human Sciences   Graduate School of Human Sciences

  • Faculty of Science and Engineering   Graduate School of Fundamental Science and Engineering

  • Affiliated organization   Global Education Center

Research Institute 【 display / non-display

  • 2021
    -
    2022

    データ科学センター   兼任センター員

  • 2021
    -
    2022

    大学総合研究センター   兼任センター員

Degree 【 display / non-display

  • 早稲田大学   博士(情報科学)

Professional Memberships 【 display / non-display

  •  
     
     

    ヒューマンインタフェース学会

  •  
     
     

    情報処理学会

  •  
     
     

    電子情報通信学会

  •  
     
     

    人工知能学会

  •  
     
     

    日本音響学会

 

Research Areas 【 display / non-display

  • Intelligent informatics

Research Interests 【 display / non-display

  • Speech Science, Spoken Dialogue, Human Agent Interaction

Papers 【 display / non-display

  • Vowels in infant-directed speech: More breathy and more variable, but not clearer

    Kouki Miyazawa, Takahito Shinya, Andrew Martin, Hideaki Kikuchi, Reiko Mazuka

    COGNITION   166   84 - 93  2017.09  [Refereed]

     View Summary

    Infant-directed speech (IDS) is known to differ from adult-directed speech (ADS) in a number of ways, and it has often been argued that some of these IDS properties facilitate infants' acquisition of language. An influential study in support of this view is Kuhl et al. (1997), which found that vowels in IDS are produced with expanded first and second formants (F1/F2) on average, indicating that the vowels are acoustically further apart in IDS than in ADS. These results have been interpreted to mean that the way vowels are produced in IDS makes infants' task of learning vowel categories easier. The present paper revisits this interpretation by means of a thorough analysis of IDS vowels using a large-scale corpus of Japanese natural utterances. We will show that the expansion of F1/F2 values does occur in spontaneous IDS even when the vowels' prosodic position, lexical pitch accent, and lexical bias are accounted for. When IDS vowels are compared to carefully read speech (CS) by the same mothers, however, larger variability among IDS vowel tokens means that the acoustic distances among vowels are farther apart only in CS, but not in IDS when compared to ADS. Finally, we will show that IDS vowels are significantly more breathy than ADS or CS vowels. Taken together, our results demonstrate that even though expansion of formant values occurs in spontaneous IDS, this expansion cannot be interpreted as an indication that the acoustic distances among vowels are farther apart, as is the case in CS. Instead, we found that IDS vowels are characterized by breathy voice, which has been associated with the communication of emotional affect. (C) 2017 Elsevier B.V. All rights reserved.

    DOI

  • Assigning a Personality to a Spoken Dialogue Agent by Behavior Reporting

    Yoshito Ogawa, Hideaki Kikuchi

    NEW GENERATION COMPUTING   35 ( 2 ) 181 - 209  2017.04  [Refereed]

     View Summary

    A method to assign a personality to a spoken dialogue agent is proposed and evaluated. The proposed method assigns a personality using agent reporting about behavior independent of interaction with a user. The proposed method attempts to assigning complex personalities. For this purpose, we have defined a behavior report dialogue and designed a personality assigning method using behavior reporting. The proposed method consists of three steps: collecting stereotypes between a personality and behavior through a questionnaire, designing the behavior report dialogue from the collected stereotypes, and agent reports about behavior at the start of interactions with a user. Experimental results show that the proposed method can assign a personality by repeating the behavior report dialogue, (the assigned personality is equivalent to the personality determined by the collected stereotypes) and that reporting behavior influences the assigned personality. In addition, we verified that the proposed method can assign "kind", "judicious" and the five basic personalities defined in the Tokyo University Egogram Second Edition.

    DOI

  • Turn-taking timing of mother tongue

    Ichikawa Akira, Oohashi Hiroki, Naka Makiko, Kikuchi Hideaki, Horiuchi Yasuo, Kuroiwa Shingo

    Studies in Science and Technology   5 ( 1 ) 113 - 122  2016

    DOI CiNii

  • Humor utterance generation for non-task-oriented dialogue systems

    Shohei Fujikura, Yoshito Ogawa, Hideaki Kikuchi

    HAI 2015 - Proceedings of the 3rd International Conference on Human-Agent Interaction     171 - 173  2015.10

     View Summary

    We propose a humor utterance generation method that is compatible with dialogue systems, to increase "desire of continuing dialogue". A dialogue system retrieves leading-item: noun pairs from Twitter as knowledge and attempts to select the most humorous reply using word similarity, which reveals that incongruity can be explained by the incongruity-resolution model. We consider the differences among individuals, and confirm the validity of the proposed method. Ex-perimental results indicate that high-incongruity replies are significantly effective against low-incongruity replies with a limited condition.

    DOI

  • Constructing the corpus of infant-directed speech and infant-like robot-directed speech

    Ryuji Nakamura, Kouki Miyazawa, Hisashi Ishihara, Ken'ya Nishikawa, Hideaki Kikuchi, Minoru Asada, Reiko Mazuka

    HAI 2015 - Proceedings of the 3rd International Conference on Human-Agent Interaction     167 - 169  2015.10

     View Summary

    The characteristics of the spoken language used to address infants have been eagerly studied as a part of the language acquisition research. Because of the uncontrollability factor with regard to the infants, the features and roles of infantdirected speech were tried to be revealed by the comparison of speech directed toward infants and that toward other listeners. However, they share few characteristics with infants, while infants have many characteristics which may derive the features of IDS. In this study, to solve this problem, we will introduce a new approach that replaces the infant with an infant-like robot which is designed to control its motions and to imitate its appearance very similar to a real infant. We have now recorded both infant-and infantlike robot-directed speech and are constructing both corpora. Analysis of these corpora is expected to contribute to the studies of infant-directed speech. In this paper, we discuss the contents of this approach and the outline of the corpora.

    DOI

display all >>

Books and Other Publications 【 display / non-display

  • "感情の音声表出", 石井克典監修「IoHを指向する感情・思考センシング技術」

    KIKUCHI Hideaki

    CMC出版  2019 ISBN: 9784781314303

  • "音声対話システム", 白井克彦編著「音声言語処理の潮流」

    KIKUCHI Hideaki

    コロナ社  2010

  • “Outline of J_ToBI”, in "COMPUTER PROCESSING OF ASIAN SPOKEN LANGUAGES"

    KIKUCHI Hideaki

    Americas Group Publications,U.S.  2010 ISBN: 0935047727

  • "音声コミュニケーションの分析単位 -ToBI-", 坊農真弓, 高梨克也編,「多人数インタラクションの分析手法」

    KIKUCHI Hideaki

    オーム社  2009

  • "韻律を利用した対話状態の推定", 広瀬啓吉 編「韻律と音声言語情報処理」

    KIKUCHI Hideaki, SHIRAI Katsuhiko

    丸善  2006 ISBN: 4621076744

display all >>

Industrial Property Rights 【 display / non-display

  • 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体

    白井 克彦, 菊池 英明, 新関 一馬

    Patent

  • 音声認識装置及び音声認識用プログラム

    白井 克彦, 菊池 英明, 大久保 崇

    Patent

  • 連続音声認識装置および方法

    白井 克彦, 城崎 康夫, 菊池 英明

    Patent

Awards 【 display / non-display

  • 情報処理学会第53回全国大会大会優秀賞

    1996.03  

Research Projects 【 display / non-display

  • Real-time MRI database of articulatory movements of Japanese

    Project Year :

    2020.04
    -
    2024.03
     

  • Development of protocol of effective social work interview for older adults with dementia

    Project Year :

    2019.04
    -
    2022.03
     

  • バーチャルリアリティ環境におけるオラリティの運用の検討

    Project Year :

    2017.07
    -
    2020.03
     

     View Summary

    本年度は昨年度に引き続き、バーチャルリアリティ空間におけるオラリティを構成する要因(エージェントの視覚的特徴、コミュニケーションのインタラクティブ性、垂直方向の距離知覚、空間の非現実性)を心理学実験により検討した。研究1では、バーチャルリアリティ空間で対面したエージェントに対する適切なパーソナルスペースの推定に関する実証実験のデータ収集を行った。昨年度収集したデータと合わせて、対面するエージェントの視覚的な特徴(性別、人間またはロボット、身長差)がパーソナルスペースに影響することを確認した。研究2では、一次救命処置訓練をテーマにバーチャルリアリティ環境でのインタラクティブ性が訓練受講者の心理に及ぼす影響を検討した。実験では、エージェントが倒れてしまった場面で周囲の人物への声がけを行いながらAEDを用いる手続きを体験しながら学習した。受講者の声がけの音響特徴に合わせて、周囲のエージェントの振る舞いが変更するようにプログラムされており、受講者は自らの声がけによるインタラクティブな状況変化を体験した。その結果、同様の学習をビデオ視聴に行う場合と比べて、一次救命処置に対するより高い自己効力感と訓練方法に対する高い興味が示された。研究3では昨年度まで実施していたバーチャルリアリティ空間内の距離近く推定に関する実験を一部拡張し、垂直方向の距離推定を行った。その結果、奥行き方向と垂直方向では距離推定のバイアスが異なることが示された。研究4ではバーチャルリアリティ空間の非現実性が体験者の心理に及ぼす影響を検討した。3つの環境(草原、海、宿泊施設)を模したバーチャルリアリティ空間にお風呂を設置し、現実空間でお風呂に入っている参加者に提示した。その結果、非現実的なバーチャルリアリティ空間のお風呂と現実のお風呂のギャップにより参加者のリラックス度合いに変化が生まれることがわかった。本年度は、前年度までに行った対面コミュニケーションや空間知覚に関して、バーチャルリアリティ空間内の注意位置を計測しながら実験的検討を行う予定であった。注視点計測機能のあるヘッドマウントディスプレイを用いた検討を実施したが、注視点の推定精度が当初の予想よりも低いため検証実験の準備に想定以上の時間を要した。さらにコロナウイルス感染拡大の影響で被験者を伴う予備実験の実施を断念せざるを得なかった。これにより当初予定していた検証実験が未実施となった。実施が延期された視点計測を伴うバーチャルリアリティ環境におけるオラリティを構成する要因の検討を実施予定である。実験データをまとめるとともに、最終年度として、4年間で得られた知見を統合して、バーチャルリアリティ環境におけるオラリティに関わる要因の特徴を考察する

  • Elaboration of articulatory phonetics by means of realtime-MRI and WAVE data

    Project Year :

    2017.04
    -
    2020.03
     

  • コーパス言語学的手法に基づく会話音声の韻律特徴の体系化

    Project Year :

    2016.04
    -
    2020.03
     

     View Summary

    本研究課題の目的は、コーパス言語学的手法に基づき、独話や朗読音声との比較を通し、会話音声の韻律体系を実証的に検証・確立することである。この目的に向け、最終年度にあたる今年度は、次のことを実施した。①これまで、独話用に開発した韻律ラベリング基準X-JToBIを日常会話用に拡張することを検討してきたが、今年度はそれを作業マニュアルとしてまとめ上げ、今後、ラベリング結果とともに公開できるよう準備した。②代表者が構築を主導する『日本語日常会話コーパス』のうち16時間の会話を対象に、2次チェックまで含めて韻律ラベリングを実施した。③16時間のラベリング結果に基づき、『日本語話し言葉コーパス』の独話(講演)との比較を通して、日常会話の韻律の特性について分析を行い、以下のことを明らかにした:ア)上昇成分を伴うBPM(上昇調・上昇下降調など)が学会講演で多く雑談では少ない傾向が見られる、イ)BPMの内訳を見ると、学会講演ではアクセント句末での上昇調が多いのに対し、雑談では上昇下降調が多い、ウ)線形判別分析を用いてこれらの句末音調・BI値の特徴からレジスター(雑談・学会講演・模擬講演)を推定するモデルを構築し、各変数がレジスターの判別にどのように寄与するかを検討した結果、正解率は82.1%と、高い確率で3つのレジスターが句末音調・BI値の特徴から判別できることなどが分かった。以上の結果から、学会講演ではイントネーション句内において上昇調で卓立させたアクセント句が複数継起する発話スタイルをとることが多いのに対し、日常会話では上昇下降調などを伴うアクセント句は複数継起することは少なく単独でイントネーション句を構成する、つまり韻律的には細ぎれの発話スタイルが多いと考えることができる。令和元年度が最終年度であるため、記入しない。令和元年度が最終年度であるため、記入しない

display all >>

Specific Research 【 display / non-display

  • 音象徴の表現力の精緻化

    2020  

     View Summary

    本研究では、刺激を工学的手法により作成・呈示し、その結果を心理学的な統計処理を施し解釈することで、音象徴の持つ表現力を精緻化する。具体的には、実験参加者の属性を抽象化能力の理解度という側面から、音象徴の持つ表現力の差異を明らかにする。音象徴の印象評定実験を行い、心理学的距離に差が生じ得るか検討した。印象評定実験では,Scheffe の一対比較法によって,選定した聴覚・視覚刺激の心理尺度上の距離を比較した.その結果,日本語母語話者においても,丸みを帯びた名前はブーバ顔と,角張った名前はキキ顔と強く結びつく傾向にあることが示された.

  • 音声言語コーパスへの発話スタイル属性付与のためのアノテーション規準作成と自動推定

    2020   沈 睿

     View Summary

    音声言語コーパスに収められたデータの発話スタイルについて、コーパス検索に適した体系を整理したうえで、主に言語処理技術により発話スタイル自動推定を可能にし、推定結果としての発話スタイルをコーパスの属性情報として活用できるようにすることを目指す。特定課題研究期間には、応募課題の発展のためにコーパスの内容を吟味してより具体的で現実的な問題を発見する。そのために、手元にあるコーパス20~30点の転記テキストデータを電子化し、プログラムなどで統一的に扱えるように形式を整えた。手元のコーパスの発話スタイルの網羅性を検討した。

  • 音声対話システム発話の音声言語的特徴制御によるインタラクション欲求向上

    2013  

     View Summary

    音声対話システムのシステム発話を制御することによってユーザに与える印象を変化させる技術の開発を目指している。本特定課題研究では、擬人化したシステムの自己開示によってパーソナリティを付与する手法に関する基礎研究を中心に進めた。実験を通じて、自己開示量と内容によって特定のパーソナリティを付与できることを確認した。この成果は、ヒューマンインタフェース学会論文誌に査読論文として掲載された(「自己開示による音声対話エージェントへのパーソナリティ付与」)。他にも、マイクロブログからユーモア発話を自動生成する技術(「非タスク指向対話システムにおけるマイクロブログを用いたユーモア発話の自動生成」)、発話速度あるいは無音区間長を制御する手法(「ロボット発話の話速・無音区間長の制御によるパーソナリティ認知と対話継続欲求の向上」)を検討し、それぞれによってユーザがシステムに抱く印象がどのように変化するかを実験により調査した。いずれも国内学会にて成果を発表した。ユーザ発話における音声のプロソディを解析することによってユーザの心的状態を推定して、それに応じてシステムの振舞を変えることによってユーザが抱く愛着感を変化させられることを実験により確認し、この成果を国際会議にて発表した(「Effects of an Agent Feature Comprehension on the Emotional Attachment of Users」)。いずれの研究においても、ユーザが抱く印象を変化させるこれらの手法によって、音声対話システムに対するインタラクション継続欲求が向上することを確認している。このことを一旦整理して国内学会にて発表した(「音声対話システムに対するインタラクション継続欲求」)。こうした一連の研究成果を体系化してさらに幅広く応用可能な技術を開発するために、インタラクション継続欲求とユーザ印象空間の関係を明確にする必要性が生じている。そこで最終的に、本特定課題研究を経て、2014年度科学研究費の基盤(C)に「音声対話システムに対するインタラクション欲求向上のためのユーザ印象空間の推定」というテーマを申請して採択された。

  • 生体情報を教師信号としたモデル学習による感情推定技術の高度化

    2006  

     View Summary

     本研究では、音声からの心的状態の推定において話者の心的状況をより高い精度で推定するため、生体情報を教師信号としたモデル学習を行う“生理心理学的アプローチの導入”を提案する。 従来の感情推定は、モデル学習の際に実験者の判断による評定結果が教師信号として用いられるため主観的方法であることが否めない。また推定の対象も基本的な感情にのみ重点が置かれてきた。 生体情報は、意図的な操作が入らず継時的な変化を捉えられることができるとされている。そのため、推定を行う際に実験の第一段階として生体信号を利用することで、多様で連続的な心情の変化を対象とすることができるようになり、またより客観的で精度の高い判断が可能になると思われる。 難度の異なる音読課題を2つ用意し、課題間における生体信号の反応の違いが音声の違いにも現れるのかを観察した。実験者の主観的評価によってストレス状態と判断された被験者の音声と、それらのうち生体信号の変化からもストレス状態にあると判断できた被験者の音声の比較を行う。 生体信号には、心的状態の推定へ利用できると思われた容積脈派(BVP)、心電図(EKG)、皮膚温(TEMP)、皮膚コンダクタンス(SC)を用いた。 音声の比較には、各音声からF0とパワーそれぞれの最大値、最小値、振幅、平均値、それに発話速度を加えた9つの特徴量を抽出し、これらを決定木学習に利用した。決定木学習には、C4.5アルゴリズムを使用し、交差検定を用いて評価を行う。 全データ(実験者の主観的評価のみによってストレス状態を判断した)で学習モデルを生成した場合平均63.9%であった判別率が、選別データ(主観的評価に加え、生体信号の変化からもストレス状態を判断した)で学習モデルを生成した場合には平均77.8%まで精度が向上した。 生体信号がストレス状態を判断するうえで一つの指標となり得ることを示唆する結果となった。本実験の結果、音声からの心的状態の推定を行う際に生体情報を利用することの有益性が実証された。

Overseas Activities 【 display / non-display

  • 音声言語における感情・評価・態度の解析技術高度化

    2009.03
    -
    2010.03

    中国   北京大学

    アメリカ   オハイオ州立大学

 

Syllabus 【 display / non-display

display all >>