森島 繁生 (モリシマ シゲオ)

写真a

所属

理工学術院 先進理工学部

職名

教授

メールアドレス

メールアドレス

ホームページ

http://www.mlab.phys.waseda.ac.jp/

兼担 【 表示 / 非表示

  • 理工学術院   大学院先進理工学研究科

  • 附属機関・学校   グローバルエデュケーションセンター

学内研究所等 【 表示 / 非表示

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴 【 表示 / 非表示

  • 1982年04月
    -
    1987年03月

    東京大学   大学院工学系研究科   電子工学専門課程  

  • 1978年04月
    -
    1982年03月

    東京大学   工学部   電子工学科  

学位 【 表示 / 非表示

  • 工学博士

経歴 【 表示 / 非表示

  • 2004年04月
    -
    継続中

    早稲田大学   理工学術院   教授

  • 2010年04月
    -
    2014年03月

    NICT   音声言語コミュニケーション研究所   客員研究員

  • 1999年04月
    -
    2010年03月

    国際電気通信基礎技術研究所   客員研究員

  • 2001年04月
    -
    2004年03月

    成蹊大学   工学部   教授

  • 1988年04月
    -
    2001年03月

    成蹊大学   工学部   助教授

全件表示 >>

所属学協会 【 表示 / 非表示

  •  
     
     

    芸術科学会

  •  
     
     

    日本顔学会

  •  
     
     

    日本心理学会

  •  
     
     

    映像情報メディア学会

  •  
     
     

    日本音響学会

全件表示 >>

 

研究分野 【 表示 / 非表示

  • 知能情報学

研究キーワード 【 表示 / 非表示

  • 深層学習

  • 音響信号処理

  • 顔画像処理

  • マルチメディア情報処理

  • ヒューマンコンピュータインタラクション

全件表示 >>

論文 【 表示 / 非表示

  • LSTM-SAKT: LSTM-Encoded SAKT-like Transformer for Knowledge Tracing

    Takashi Oya, Shigeo Morishima

    CoRR   abs/2102.00845  2021年01月

     概要を見る

    This paper introduces the 2nd place solution for the Riiid! Answer
    Correctness Prediction in Kaggle, the world's largest data science competition
    website. This competition was held from October 16, 2020, to January 7, 2021,
    with 3395 teams and 4387 competitors. The main insights and contributions of
    this paper are as follows. (i) We pointed out existing Transformer-based models
    are suffering from a problem that the information which their query/key/value
    can contain is limited. To solve this problem, we proposed a method that uses
    LSTM to obtain query/key/value and verified its effectiveness. (ii) We pointed
    out 'inter-container' leakage problem, which happens in datasets where
    questions are sometimes served together. To solve this problem, we showed
    special indexing/masking techniques that are useful when using RNN-variants and
    Transformer. (iii) We found additional hand-crafted features are effective to
    overcome the limits of Transformer, which can never consider the samples older
    than the sequence length.

  • Property analysis of adversarially robust representation

    Yoshihiro Fukuhara, Takahiro Itazuri, Hirokatsu Kataoka, Shigeo Morishima

    Seimitsu Kogaku Kaishi/Journal of the Japan Society for Precision Engineering   87 ( 1 ) 83 - 91  2021年01月

     概要を見る

    In this paper, we address the open question: "What do adversarially robust models look at?" Recently, it has been reported in many works that there exists the trade-off between standard accuracy and adversarial robustness. According to prior works, this trade-off is rooted in the fact that adversarially robust and standard accurate models might depend on very different sets of features. However, it has not been well studied what kind of difference actually exists. In this paper, we analyze this difference through various experiments visually and quantitatively. Experimental results show that adversarially robust models look at things at a larger scale than standard models and pay less attention to fine textures. Furthermore, although it has been claimed that adversarially robust features are not compatible with standard accuracy, there is even a positive effect by using them as pre-trained models particularly in low resolution datasets.

    DOI

  • Self-supervised learning for visual summary identification in scientific publications

    Shintaro Yamamoto, Anne Lauscher, Simone Paolo Ponzetto, Goran Glavaš, Shigeo Morishima

    CEUR Workshop Proceedings   2847   5 - 19  2021年

     概要を見る

    Providing visual summaries of scientific publications can increase information access for readers and thereby help deal with the exponential growth in the number of scientific publications. Nonetheless, efforts in providing visual publication summaries have been few and far apart, primarily focusing on the biomedical domain. This is primarily because of the limited availability of annotated gold standards, which hampers the application of robust and high-performing supervised learning techniques. To address these problems we create a new benchmark dataset for selecting figures to serve as visual summaries of publications based on their abstracts, covering several domains in computer science. Moreover, we develop a self-supervised learning approach, based on heuristic matching of inline references to figures with figure captions. Experiments in both biomedical and computer science domains show that our model is able to outperform the state of the art despite being self-supervised and therefore not relying on any annotated training data.

  • Do We Need Sound for Sound Source Localization?

    Takashi Oya, Shohei Iwase, Ryota Natsume, Takahiro Itazuri, Shugo Yamaguchi, Shigeo Morishima

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   12627 LNCS   119 - 136  2021年

     概要を見る

    During the performance of sound source localization which uses both visual and aural information, it presently remains unclear how much either image or sound modalities contribute to the result, i.e. do we need both image and sound for sound source localization? To address this question, we develop an unsupervised learning system that solves sound source localization by decomposing this task into two steps: (i) “potential sound source localization”, a step that localizes possible sound sources using only visual information (ii) “object selection”, a step that identifies which objects are actually sounding using aural information. Our overall system achieves state-of-the-art performance in sound source localization, and more importantly, we find that despite the constraint on available information, the results of (i) achieve similar performance. From this observation and further experiments, we show that visual information is dominant in “sound” source localization when evaluated with the currently adopted benchmark dataset. Moreover, we show that the majority of sound-producing objects within the samples in this dataset can be inherently identified using only visual information, and thus that the dataset is inadequate to evaluate a system’s capability to leverage aural information. As an alternative, we present an evaluation protocol that enforces both visual and aural information to be leveraged, and verify this property through several experiments.

    DOI

  • Song2Face: Synthesizing Singing Facial Animation from Audio

    Shohei Iwase, Takuya Kato, Shugo Yamaguchi, Tsuchiya Yukitaka, Shigeo Morishima

    SIGGRAPH Asia 2020 Technical Communications, SA 2020    2020年12月  [査読有り]

     概要を見る

    We present Song2Face, a deep neural network capable of producing singing facial animation from an input of singing voice and singer label. The network architecture is built upon our insight that, although facial expression when singing varies between different individuals, singing voices store valuable information such as pitch, breathe, and vibrato that expressions may be attributed to. Therefore, our network consists of an encoder that extracts relevant vocal features from audio, and a regression network conditioned on a singer label that predicts control parameters for facial animation. In contrast to prior audio-driven speech animation methods which initially map audio to text-level features, we show that vocal features can be directly learned from singing voice without any explicit constraints. Our network is capable of producing movements for all parts of the face and also rotational movement of the head itself. Furthermore, stylistic differences in expression between different singers are captured via the singer label, and thus the resulting animations singing style can be manipulated at test time.

    DOI

全件表示 >>

Misc 【 表示 / 非表示

  • 敵対的サンプルに頑健な特徴表現の性質の分析

    福原吉博, 板摺貴大, 片岡裕雄, 森島繁生

    精密工学会誌(Web)   87 ( 1 )  2021年

    J-GLOBAL

  • スペクトログラムとピッチグラムの深層クラスタリングに基づく複数楽器パート採譜

    田中啓太郎, 中塚貴之, 錦見亮, 吉井和佳, 森島繁生

    情報処理学会研究報告(Web)   2020 ( MUS-128 )  2020年

    J-GLOBAL

  • LineChaser:視覚障碍者が列に並ぶためのスマートフォン型支援システム

    栗林雅希, 粥川青汰, 高木啓伸, 浅川智恵子, 森島繁生

    日本ソフトウェア科学会研究会資料シリーズ(Web)   ( 91 )  2020年

    J-GLOBAL

  • 分離型畳み込みカーネルを用いた非均一表面下散乱の効率的な計測と実時間レンダリング法

    谷田川達也, 山口 泰, 森島繁生

    Visual Computing 2019 論文集   P26  2019年06月

  • What Do Adversarially Robust Models Look At?

    Takahiro Itazuri, Yoshihiro Fukuhara, Hirokatsu Kataoka, Shigeo Morishima

       2019年05月

     概要を見る

    In this paper, we address the open question: "What do adversarially robust
    models look at?" Recently, it has been reported in many works that there exists
    the trade-off between standard accuracy and adversarial robustness. According
    to prior works, this trade-off is rooted in the fact that adversarially robust
    and standard accurate models might depend on very different sets of features.
    However, it has not been well studied what kind of difference actually exists.
    In this paper, we analyze this difference through various experiments visually
    and quantitatively. Experimental results show that adversarially robust models
    look at things at a larger scale than standard models and pay less attention to
    fine textures. Furthermore, although it has been claimed that adversarially
    robust features are not compatible with standard accuracy, there is even a
    positive effect by using them as pre-trained models particularly in low
    resolution datasets.

全件表示 >>

受賞 【 表示 / 非表示

  • 最優秀論文賞

    2020年12月   日本ソフトウェア科学会   LineChaser: 視覚障碍者が列に並ぶためのスマートフォン型支援システム  

    受賞者: 栗林 雅希, 粥川 青汰, 髙木 啓伸, 浅川 智恵子, 森島 繁生

  • CGジャパンアワード

    2020年11月   芸術科学会   CG,CV, 音楽情報処理の最先端研究と実用化開発  

    受賞者: 森島繁生

  • 羽倉賞フォーラムエイト賞

    2020年11月   最先端表現技術利用推進協会   1枚画像からのフォトリアリスティックな歌唱およびダンスキャラクタ⾃動⽣成  

    受賞者: 森島繁生, 岩本尚也, 加藤卓哉, 中塚貴之, 山口周悟

  • ベストペーパー最終ノミネート

    2019年06月   IEEE CVPR 2019   SiCloPe: シルエットベースの着衣人物  

    受賞者: 夏目亮太, 斎藤隼介, ゼンファン, ワイカイチェン, チョンヤンマー、ハオリー, 森島繁生

  • インタラクション2019論文賞

    2019年03月   情報処理学会   BBeep:歩行者との衝突予測に基づく警告音を用いた視覚障害者のための衝突回避支援システム  

    受賞者: 粥川 青汰, 樋口 啓太, João Guerreiro, 森島 繁生, 佐藤 洋一, Kris Kitani, 浅川 智恵子

全件表示 >>

共同研究・競争的資金等の研究課題 【 表示 / 非表示

  • 分散型匿名化処理によるプライバシープリザーブドAI基盤構築

    「超スマート社会の実現」領域 探索研究 サイバーとフィジカルの高度な融合に向けたAI技術の革新

    研究期間:

    2019年11月
    -
    2026年03月
     

    斎藤英雄, 森島繁生

    担当区分: 研究分担者

  • 認識・生成過程の統合に基づく視聴覚音楽理解

    基盤研究(B)

    研究期間:

    2019年04月
    -
    2023年03月
     

    吉井 和佳, 河原 達也, 森島 繁生

     概要を見る

    2019年度は、聴覚系による音楽理解の定量化として、まず、生成モデルと認識モデルの統合に基づく統計的自動採譜に取り組んだ。具体的には、コード認識タスクにおいて、コード系列から音響的特徴量系列が生成される過程を確率的生成モデルとして定式化し、その逆問題を解く、すなわち、音響的特徴量系列からコード系列を推定するための認識モデルを、償却型変分推論の枠組みで導入することで、両者を同時に最適化する方法を考案した。これにより、コードラベルが付与されていない音響信号も用いた半教師あり学習を可能にした。これは、人間が音楽を聴いて、そのコードを認識する際に、そのコードからどのような響きの音が発生するのかを同時に想像し、元の音楽との整合性を無意識的に考慮していることに相当していると考えられる。また、音楽の記号的な側面にも着目して研究を展開した。具体的には、ピアノの運指推定や、メロディのスタイル変換などの課題において、運指モデルや楽譜モデルを事前分布に導入し、身体的あるいは音楽的に妥当な推定結果を得るための統計的枠組みを考案した。さらに、音声理解の定量化して、音声スペクトルの深層生成モデルを事前分布に基いた音声強調法を開発すると同時に、高精度かつ高速なブラインド音源分離技術も考案し、音源モデル・空間モデルの両面から音理解の定量化に迫ることができた。一方、視覚系によるダンス動画理解の定量化に向けた第一段階として、画像中の人間の姿勢推定の研究の取り組みも開始した。また、楽器音を入力とすることで、高品質かつ音に合った自然な演奏映像の生成を実現した。具体的には、人の姿勢特徴量を介すことで、音と人物映像といった異なるドメイン間をマッピングするEnd-to-End学習が可能になった。

  • スキルやモティベーションを向上させる現実歪曲時空間の解明

    基盤研究(A)

    研究期間:

    2019年04月
    -
    2022年03月
     

    森島 繁生, 稲見 昌彦, 野嶋 琢也, 暦本 純一, 小池 英樹, 持丸 正明

     概要を見る

    初年度は、スキルやモティベーションを向上させるための歪曲時空間制御に関する要素技術開発および応用先の模索を行った。森島グループは、1枚の着衣全身画像からの高精度な姿勢の3次元モデル生成およびテクスチャ合成に成功し、任意の角度から対象を鑑賞できる3次元視覚コンテンツのためのプレイヤーの効率的なモデリングの可能性を示した。持丸グループは、力学的な介入環境によって運動スキルを向上させる研究基盤として、非侵襲な運動計測技術の開発およびデジタルヒューマン技術による解析環境の開発を行った。マーカレスのビデオ式モーションキャプチャを整備し、有効性の確認を行った。野嶋グループは、スポーツにおけるヒトの行動を変容させるモティベーションデザインに関して、ビデオゲームと物理スポーツの融合手法の提案および観客の観戦手法に関する調査を行った。またAR技術を利用した観戦システムを構築し,その有効性を確認した。稲見グループでは、スポーツスキルの向上を目的とした現実歪曲時空間として、球技の際のボールの動きがスローモーションとなる空間の実装に着手した。まずは、ボールジャグリングのトレーニングを最初のフィールドとして設定し、速度変更可能なVR環境の構築を開始した。小池グループでは、卓球をターゲットとして、プレイヤートラッキングとボールの着弾点予測、および卓球台への実時間プロジェクションを行った。プレイヤーのサーブ動作を1台のRGBカメラで撮影し、深層学習による動作予測システムFuturePoseを用いてボールの着弾点を実時間予測し、卓球台上に実時間投影される。実験の結果、実際の着弾点をほぼ正確に予測できることが示された。暦本グループは、学習者の発話を音声認識により常に確認し、教材に対して正しくshadowを行えていない場合は、スピーキングの速度をゆるめるなど、学習課題の難易度を自動的に調整する技術を開発した。

  • 次世代音声翻訳の研究

    基盤研究(S)

    研究期間:

    2017年05月
    -
    2022年03月
     

    中村 哲, 河原 達也, 猿渡 洋, 戸田 智基, 森島 繁生, 高道 慎之介, 須藤 克仁, サクリアニ サクティ, 吉野 幸一郎, 田中 宏季, 松本 裕治

     概要を見る

    課題①A)雑音下音声認識及びその前処理の音声強調処理に関し、独立深層学習行列分析(IDLMA)を提案した。B)単語単位のEnd-to-End音声認識を提案し、従来比30倍以上の高速化を実現した。また,音声認識と音声合成を人間の聴覚と発声器官のように連携させてモデル学習するMachine Speech Chainを提案し有効性を示した.さらに深層学習ベースの新たな漸進的音声認識,音声合成を提案した.C)入力に対して適応的な訳出遅延が可能な新しい方式を考案し,漸進的翻訳の実現可能性を示した.また同時通訳調の順送りの翻訳文を生成する方式を考案し,翻訳結果を順送りの訳に近づけられることを示した.D)機械翻訳の評価において訳出の長さを制御することで字幕等制約のある状況下での翻訳の実現や訳抜けや重複訳の解消を目指す手法の検討を行い,効果を確認した.E)対話制御に関わる多様なモダリティの情報を処理する研究開発を行った.
    課題②A)パラ言語情報を保持したまま音声翻訳を実現するため新たな原言語音声から対象言語音声へ直接翻訳する手法について研究した.従来の類似言語間の直接翻訳でなく異なる構造の言語間でも直接音声翻訳を実現する手法を提案した.B)異なる言語の音声データを用いた学習を可能とする統計的声質変換技術を構築するとともに、深層波形生成モデルの導入による高品質化を達成した.
    課題③A)奈良先端大の講義アーカイブシステムで翻訳字幕付与の自動化を実現した.B)音声画像翻訳の実現に向けて、特定人物の顔と全身のモデルをインスタントに自動生成し、任意の翻訳言語にシンクロさせて個性を保持したまま発話するアバタ生成技術を発展させた.
    課題④同時通訳者の注意に基づく認知負荷の計測に関して取り組んだ.
    課題⑤実際の統合システムとして実現するため,パイプ接続型・クライアントサーバ型の2種類のシステムを開発した.

  • 次世代メディアコンテンツ生態系技術の基盤構築と応用展開

    ACCEL

    研究期間:

    2016年04月
    -
    2021年03月
     

    後藤真孝, 森島繁生, 吉井和佳, 中村聡史

    担当区分: 研究分担者

全件表示 >>

 

現在担当している科目 【 表示 / 非表示

全件表示 >>

担当経験のある科目(授業) 【 表示 / 非表示

  • 画像情報処理工学特論

    早稲田大学  

  • デジタル信号処理

    早稲田大学  

  • 回路理論

    早稲田大学, 成蹊大学  

 

委員歴 【 表示 / 非表示

  • 2020年04月
    -
    継続中

    ACM VRST 2021  スポンサーシップチェア

  • 2018年04月
    -
    継続中

    JST CREST  アドバイザー

  • 2016年05月
    -
    2020年05月

    画像電子学会ビジュアルコンピューティング研究専門委員会  委員長

  • 2018年12月
    -
    2019年12月

    ACM VRST 2019  プログラムチェア

  • 2018年12月
     
     

    ACM SIGGRAPH ASIA 2018  VR/AR Advisor

全件表示 >>