渡辺 裕 (ワタナベ ヒロシ)

写真a

所属

理工学術院 基幹理工学部

職名

教授

ホームページ

https://www.ams.giti.waseda.ac.jp

プロフィール

1980年北大・工・電子卒.1985年同大大学院 博士課程修了.同年NTT入社.NTT研究所に おいて画像の高能率符号化及びMPEG標準化 に従事.2000年早稲田大学大学院国際情報通 信研究科教授.現在、早稲田大学基幹理工学部情報通信学科教授.マルチメディアの符号化及び配 信に関する研究に興味を持つ.工博.IEEE, 電子情報通信学会,映像情報メディア学会,情 報処理学会,画像電子学会各会員.

兼担 【 表示 / 非表示

  • 理工学術院   大学院基幹理工学研究科

  • 附属機関・学校   グローバルエデュケーションセンター

学内研究所等 【 表示 / 非表示

  • 2020年
    -
    2022年

    国際情報通信研究センター   兼任研究員

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

学歴 【 表示 / 非表示

  • 1980年04月
    -
    1985年03月

    北海道大学   大学院工学研究科   電子工学  

  • 1976年04月
    -
    1980年03月

    北海道大学   工学部   電子工学科  

学位 【 表示 / 非表示

  • Hokkaido University   Doctor of Engineering

  • 北海道大学   工学博士

経歴 【 表示 / 非表示

  • 2013年04月
    -
     

    早稲田大学基幹理工学部   情報通信学科   教授

  • 2001年04月
    -
    2013年03月

    早稲田大学大学院国際情報通信研究科   教授

  • 2000年09月
    -
    2001年03月

    早稲田大学 国際情報通信研究センター   教授

  • 1995年04月
    -
    2000年09月

    NTTヒューマンインタフェース研究所   主幹研究員

  • 1991年03月
    -
    1994年03月

    NTTヒューマンインタフェース研究所   特別研究員

全件表示 >>

所属学協会 【 表示 / 非表示

  •  
     
     

    IEEE (The Institute of Electrical and Electronic Engineers)

  •  
     
     

    画像電子学会

  •  
     
     

    映像情報メディア学会

  •  
     
     

    情報処理学会

  •  
     
     

    画像符号化シンポジウム

全件表示 >>

 

研究分野 【 表示 / 非表示

  • データベース

研究キーワード 【 表示 / 非表示

  • 情報通信工学

論文 【 表示 / 非表示

  • 漫画キャラクタ顔画像のクラスタリングにおける特徴表現の改良

    柳澤, 京極, Jain, 渡辺

    FIT2019 (第18回科学技術フォーラム)   H-029  2019年09月

  • Land Cover Classification and Change Detection Analysis of Multispectral Satellite Images Using Machine Learning

    Nyein Soe Thwal, Takaaki Ishikawa, Hiroshi Watanabe

    SPIE Remote Sensing 2019, Image and Signal Processing for Remote Sensing XXV   11155-56  2019年09月

  • Hand Joints Detection on Noisy Hand Poses Using Variational Autoencoder

    Khin Sabai Htwe, Takaaki Ishikawa, Hiroshi Watanabe

    The 6th IIEEJ International Conference on Image Electronics and Visual Computing (IEVC 2019)   4B-2  2019年08月

  • 全天球カメラ映像からの3次元再構成と点群合成手法の一検討

    加藤, 原, 渡辺

    映像情報メディア学会年次大会   34B-3  2019年08月

  • 学習型超解像と再構成型超解像の異なる組み合わせ順による時系列画像の画質改善

    堀, 加藤, 渡辺

    映像情報メディア学会年次大会   32B-1  2019年08月

全件表示 >>

書籍等出版物 【 表示 / 非表示

  • そこが知りたい最新技術 オーディオ・ビデオ圧縮入門

    亀山, 金子, 渡辺

    (株)インプレスR  2007年04月

  • 改訂版ディジタル放送教科書(上)(下)

    亀山, 花村, 渡辺ほか

    (株)インプレス  2004年10月 ISBN: 4844320270

  • Fundamentals of Digital Image Compression

    1996年

  • ディジタル画像圧縮の基礎(共著)

    日経BP社  1996年

産業財産権 【 表示 / 非表示

  • 画像符号化方法、画像符号化装置および画像符号化プログラム

    5561611

    渡辺 裕, 石川 孝明

    特許権

  • 画像符号化方法、画像符号化装置および画像符号化プログラム

    5626728

    石川 孝明, 渡辺 裕

    特許権

  • 画像符号化装置、画像符号化方法および画像符号化プログラム

    5035926

    渡辺 裕, 石川 孝明

    特許権

  • 画像符号化装置、画像符号化方法および画像符号化プログラム

    5076150

    渡辺 裕, 石川 孝明

    特許権

受賞 【 表示 / 非表示

  • 情報処理学会情報規格調査会標準化貢献賞

    2005年  

  • 日本規格協会標準化文献賞奨励賞

    1998年  

  • 画像電子学会技術賞

    1997年  

  • 映像情報メディア学会丹羽高柳著述賞

    1997年  

  • 電子情報通信学会学術奨励賞

    1988年  

共同研究・競争的資金等の研究課題 【 表示 / 非表示

  • 機械学習による人物運動解析の高精度化

    研究期間:

    2020年04月
    -
    2023年03月
     

     概要を見る

    本研究では、映像のみから人物の姿勢情報を機械学習により推定し、推定された人物の骨格座標を用いて運動解析や動作解析を行い、動作認識や個人認識の識別率の向上を目指す。機械学習を用いた骨格情報推定アルゴリズムは、非接触なアプローチであることに大きな利点がある。したがって、これらのアルゴリズムはスポーツ運動分析などの分野に対して幅広く適用できると考えられる。スポーツ運動分析や介護姿勢推定の分野では、パターン認識に加えて、推定された骨格情報の位置、角度、同期性、一致度の解析が望まれる。これらの解析結果から、運動や動作のパフォーマンスを向上させる動きに関する知識を獲得する

  • 大規模マンガデータベースのための自動要約生成の研究

    研究期間:

    2017年04月
    -
    2020年03月
     

     概要を見る

    2019年度は、キャラクタ顔画像分類の改善およびマンガ要約手法について検討した。これまで得られた研究成果を基にマンガの要約手法を確立するため、画像情報を用いたマンガ要約生成手法を提案し、主観的評価による検証を行った。評価実験では本学の生徒13名を研究補助者として雇用し、要約評価アンケートを実施した。本年度の研究成果として以下の3点が挙げられる。(1) キャラクタ顔画像のクラスタリングの高精度化を目指して、自己教師あり学習手法であるDeepClusterを組み合わせたCNNの学習について検討した。しかし、DeepClusterを組み合わせると顔画像の分類精度が低下することが分かった。(2) キャラクタ顔画像クラスタリングの高性能化を目的として、密度ベースのクラスタリング手法であるOPTICSおよびHDBSCANの適用を検討した。DBSCANとOPTICSの比較では、それぞれAMIが最大値をとるようにパラメタを設定した場合において、DBSCANは67.1%、OPTICSは58.7%の精度を示した。(3) 画像情報を用いたマンガ要約の生成について、主観的評価により有効性の検証を行った。「ランダムにページを抽出した要約(要約A)」、「大きなコマを持つページとその前後ページを抜き出した要約(要約B)」、「キャラクタの初登場シーンに着目した要約(要約C)」、「ロールコミュニティモデルを適用した要約(要約E)」の4手法に対してアンケートによるスコア付与を行った。実験結果からは、総合的な評価では提案手法の優位性は確認できなかった。しかし、特定の作品に対しては評価の高い要約が得られた。また、要約生成の自動化を検討するため、要約Cおよび要約Eについて、キャラクタ検出とキャラクタ顔画像分類を用いて生成した要約(要約D・要約F)との比較を行った。実験では、要約の満足度と情報量に関して自動化によるスコアの低下が見られた一方で、あらすじの理解度に関してはほぼ同等のスコアが得られた

  • マンガ検索のための自動要約生成に関する研究

    研究期間:

    2013年04月
    -
    2016年03月
     

     概要を見る

    マンガの自動要約を実現するためには、マンガに含まれるメタデータの抽出が必要である。このうち最も重要なものは登場キャラクターである。本研究では、キャラクター検出の高精度化を進めた。その結果、HOG特徴量を改良したDeformable Part Model (DPM) が有効であることを示した。また、事前知識がない状態からクラスリングにより主要キャラクターを同定する手法について検討した。これにより、正例と負例をDPMに与えることが可能となった。さらに、ロールコミュニティーモデルというキャラクターの登場場所・回数を検査する手法により、特定ページの重要度が決定でき、自動要約が実現できることがわかった

  • マンガ検索のための自動要約生成に関する研究

    基盤研究(C)

    研究期間:

    2013年
    -
    2015年
     

     概要を見る

    研究目的:マンガエピソードの自動要約生成には、登場キャラクターリストの自動生成が必須である。キャラクターの抽出には、その顔画像抽出が最も有効である。したがって、自然画像からの顔画像抽出を目的として開発されてきたハール変換型(Haar-like)の特徴量を、線画像主体で描かれるマンガ画像に対しても動作するように修正・拡張を行い、抽出精度の向上を目指している。
    研究方法:キャラクター抽出を目的とした特徴量として、対象をハール変換型(Haar-like)のみに限定せず、勾配ヒストグラム(HOG)を基盤としたDeformable Part Modelなどの最新の手法も線画像に適用してその効果を確認した。また判別にはサポートベクターマシーン(SVM)を用いることとした。
    キャラクター抽出には、マンガのキャラクター顔画像を数多く集積したデータセットが必要となる。そこで研究に協力的なマンガ作家の好意により、いくつかのマンガを提供してもらい顔画像(正例)切出し及び不正解画像(負例)切出しを行い、データベース化に向けた作業に入った。
    研究成果:1. 勾配ヒストグラム(HOG)特徴量を用いてキャラクター抽出を試みる場合、正例と負例画像の識別の際にキャラクターが含まれる背景画像も抽出性能に影響を与えることが分かった。背景がセリフ入りの吹き出し画像、オノマトペが含まれる画像、それ以外に3分類した場合、オノマトペが背景に存在する場合には、キャラクター抽出への影響は小さいことが分かった。(電子情報通信学会総合大会において発表)
    2. 勾配ヒストグラム(HOG)を基盤としたDeformable Part Modelは、顔画像中のいくつかの部分の相対的位置関係を利用するため、ハール変換型(Haar-like)特徴量よりもマンガキャラクターの顔画像抽出精度が高いことが分かった。(IEVC2014に投稿中)

  • オブジェクトベースの映像符号化

    研究期間:

    2000年
    -
    2001年
     

全件表示 >>

特定課題研究 【 表示 / 非表示

  • 敵対的生成ネットワークを用いた映像・音楽生成の高精度化

    2020年   Ahmad Yunnis Mousssa

     概要を見る

    Ahmad Yunis Moussa and Hiroshi Watanabe: “Audio Translation with Conditional Generative Adversarial Networks,” IEEE The 2nd International Conference on Artificial Intelligence in Information and Communication (ICAIIC 2020), 9B-1, Feb. 2020を研究基盤として、深層学習のひとつである敵対的生成ネットワークを用いて音響信号を合成する際の音質改善を図った。

  • 機械学習による人物運動解析の高精度化

    2019年   Khin Sabai Htwe, 稲田健太郎, 大澤遼平, 山川敦也

     概要を見る

    本研究では,映像のみから人物の姿勢情報を機械学習により推定し,推定された人物の部位座標ベクトルを目的に応じて処理することにより,動作認識や個人認識の識別率を向上させることに成功した.体操競技において倒立状態の姿勢推定を可能にした.ダンスのような集団行動における動作タイミングの一致度を推定する手法について提案した.さらに,手話解析への適用を行い,映像上で手の重なりがない条件下での認識率を改善した.また,野球における投球動作解析のように同一シーンの整合が必要となる場合に,推定された部位座標を基に特徴ベクトルを生成することで,時系列整合アルゴリズムを用いて同一シーンの自動抽出を行えることを示した.

  • マンガ要約生成の自動化に関する研究

    2016年   柳澤秀彰

     概要を見る

    本研究では,Faster R-CNN(Regions with CNN features)を使用したマンガコンテンツの検出およびコマ内容の認識を提案した.コマやフキダシ,キャラクターといったオブジェクトは作品毎の形状変化が大きいため,既定の画像特徴量を用いた検出は困難である.従って,畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)によって生成される特徴量のマンガへの適用について検討した.また,マンガコンテンツに固有な物体の配置に対応するため,複数の1クラス検出器の組み合わせによる検出手法を提案した.実験結果では,未知の5作品のマンガ画像に対する検出率とコマ構造認識率の観点から提案手法を評価した.その結果,52.8 - 84.9%の精度でコマ構造の認識が可能であることが分かった.

  • 顔画像認識に基づいた動物の品種識別

    2016年   渡部宏樹

     概要を見る

    本研究では,動物の顔画像に基づく品種識別性能向上のために,DCGANを用いたCNNのデータオーギュメンテーション手法を提案した.実験では,猫および犬の顔画像を対象とし,提案手法の性能を品種識別の正解率により評価した.その結果,DCGANを用いた類似画像追加と従来の画像変換によるデータオーギュメンテーション手法の組み合わせにより,猫の場合で0.8%,犬の場合で1.3%の正解率の向上を確認した.さらに,生成画像の品質が提案手法に及ぼす影響についての調査を行った.実験の結果,品質の良い画像を加える手法の方がより高い性能を発揮することが分かった.

  • 超高精細ビデオ符号化のための動きベクトル検出の研究

    2013年  

     概要を見る

    本研究では,動き推定誤差データの曲面近似に基づく画素補間が不要な小数画素精度動き推定手法を提案した.実験結果では,提案手法の性能をPSNRとビットレートの観点から評価した.その結果,MPEG-4 AVC (Advanced Video Coding) 及びMPEG-4 HEVC (High Efficiency Video Coding) のいずれの符号化方式と組み合わせても,R-D性能の点から劣化がほとんどなく且つ演算量が14-46%削減されることが分かった.まず,整数画素精度の動き推定マッチング誤差を,縦横画素位置を変数とする2次元データとして取扱い誤差曲面を生成した.次に,その曲面に対する数学的モデルとして,9個あるいは6個のパラメタからなる放物線関数(パラボリック形式)を用いた.予備実験を行い,実験から得られた誤差曲面とモデル関数とを照合した.その結果,曲面のある小領域では,中心位置の誤差演算時において45度方向に位置する画素の誤差からの寄与が非常に少ないことが分かった.したがって,中心位置とその縦横4画素からなる誤差に与える5個の係数(パラメタ)からなるモデルにより,十分誤差を近似できることが分かった.さらにより簡単な縦横分離形式でも十分な精度で近似できることが分かった.この1次元放物線を決定するパラメタの定義域についても検討した.また,放物線と比べてより自由度の高いいくつかのスプライン曲線の導入について検討した.スプライン曲線には,Cardinal-Spline, Hermite-Spline, Bézier-Spline, Non-Uniform Rational B-Spline (NURBS) などがある.このうち,3点の制御点で描ける2次形式のBézier-Splineによる誤差表面近似に基づく少数画素精度動き推定手法を提案した.実験の結果,整数画素精度の動き推定にBézier-Splineに基づく提案手法を組み合わせた方式は,より精度の細かなベクトルを選ぶ傾向にあることがわかった.Bézier-Splineの曲線を規定する係数の導出において、しきい値により場合分けすると,より性能が向上することが分かった.そこで提案方式をMPEG-HEVCと組み合わせ,その性能評価を行った.HEVCはAVCと比較して,符号化画像が同一の品質であれば,符号化レートが50%に削減できる超高圧縮符号化方式であり,2013年1月に仕様が凍結された最新の方式である.AVCは現在では幅広く普及しており,Blu-Ray Diskやハンディカム用のAVCHDで用いられている高圧縮符号化方式である.AVCでは動き補償のためのブロックサイズは主に16x16画素であったが,HEVCでは動き補償のためのブロックサイズが64x64画素にまで拡大可能となっている.したがってBézier-Splineの曲線を決定するしきい値を調節することとした.AVC,HEVCいずれの方式と組み合わせても,提案方式はR-Dの観点から劣化はなく,演算量が14-46%に低減できることが分かった.また処理時間をCPU time (msec) で評価した場合でも,13-36%に低減できることが分かった.したがって本提案方式は,8k画像 (水平画素数8000) のように超高精細に向かいつつある今後のテレビジョン画像を対象とする符号化器や,モバイル端末のようにCPU能力が低い符号化器において,演算処理量の低減に大きく貢献する技術である.

 

現在担当している科目 【 表示 / 非表示

全件表示 >>