2022/08/11 更新

写真a

ハヤミズ サトル
速水 悟
所属
研究院(研究機関) グリーン・コンピューティング・システム研究機構
職名
上級研究員(研究院教授)
プロフィール

The Business Reinvention of Japan を読んでいるところです。

兼担

  • 理工学術院   大学院基幹理工学研究科

学歴

  • 1979年04月
    -
    1981年03月

    東京大学   工学系研究科   機械工学専攻  

  • 1974年04月
    -
    1978年03月

    東京大学   工学部   産業機械工学科  

学位

  • 東京大学大学院工学系研究科   博士(工学)

経歴

  • 2021年04月
    -
    継続中

    早稲田大学   グリーン・コンピューティング・システム研究機構   上級研究員   研究院教授

  • 2002年04月
    -
     

    岐阜大学工学部   教授

  • 2001年04月
    -
    2002年03月

    独立行政法人産業技術総合研究所

  • 1981年04月
    -
    2001年03月

    通商産業省工業技術院電子技術総合研究所

 

研究分野

  • 知能情報学

研究キーワード

  • メディア情報学

  • 社会企業家

論文

  • Anomalous sound detection based on attention mechanism

    Hayato Mori, Satoshi Tamura, Satoru Hayamizu

    Proceedings of EUSIPCO    2021年08月  [査読有り]

    担当区分:最終著者

  • 再帰型オートエンコーダを用いた振動データによる工場設備の故障予測手法の提案

    朝日 翔太, 松井 彩華, 田村 哲嗣, 速水 悟, 井指 諒亮, 古川 輝, 内藤 孝昌

    日本機械学会   86 ( 891 ) 20 - 00020  2020年10月  [査読有り]

    DOI

  • Anomaly Detection in Mechanical Vibration Using Combination of Signal Processing and Autoencoder

    Ayaka Matsui, Shota Asahi, Satoshi Tamura, Satoru Hayamizu, Ryosuke Isashi, Akira Furukawa, Takayoshi Naitou

    Journal of Signal Processing   24 ( 4 ) 203 - 206  2020年07月  [査読有り]

    DOI

  • 音響信号処理と3-IR照度差ステレオ法による嚥下機能評価

    児玉千紗, 加藤邦人, 田村哲嗣, 速水悟

    電子情報通信学論文誌   .J102-D ( 3 ) 173 - 184  2019年03月  [査読有り]

  • Semantic Segmentation of Paved Road and Pothole Image Using U-Net Architecture

    2019 International Conference of Advanced Informatics: Concept, Theory and Application (ICAICTA). IEEE    2019年  [査読有り]

  • Toward Building Speech Databases in Timor Leste

    Borja L.C, Patrocinio Antonino, Satochi Tamura, Hidekazu Fukai, Satoru Hayamizu

    The 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment    2017年  [査読有り]

  • Investigation of DNN-based audio-visual speech recognition

    Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda, Satoru Hayamizu

    IEICE Transactions on Information and Systems   E99D ( 10 ) 2444 - 2451  2016年10月

     概要を見る

    © 2016 The Institute of Electronics, Information and Communication Engineers. Audio-Visual Speech Recognition (AVSR) is one of techniques to enhance robustness of speech recognizer in noisy or real environments. On the other hand, Deep Neural Networks (DNNs) have recently attracted a lot of attentions of researchers in the speech recognition field, because we can drastically improve recognition performance by using DNNs. There are two ways to employ DNN techniques for speech recognition: a hybrid approach and a tandem approach; in the hybrid approach an emission probability on each Hidden Markov Model (HMM) state is computed using a DNN, while in the tandem approach a DNN is composed into a feature extraction scheme. In this paper, we investigate and compare several DNN-based AVSR methods to mainly clarify how we should incorporate audio and visual modalities using DNNs. We carried out recognition experiments using a corpus CENSREC-1-AV, and we discuss the results to find out the best DNN-based AVSR modeling. Then it turns out that a tandembased method using audio Deep Bottle-Neck Features (DBNFs) and visual ones with multi-stream HMMs is the most suitable, followed by a hybrid approach and another tandem scheme using audio-visual DBNFs.

    DOI

  • Audio-visual speech recognition using deep bottleneck features and high-performance lipreading

    Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda, Satoru Hayamizu

    2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2015     575 - 582  2016年02月

     概要を見る

    © 2015 Asia-Pacific Signal and Information Processing Association. This paper develops an Audio-Visual Speech Recognition (AVSR) method, by (1) exploring high-performance visual features, (2) applying audio and visual deep bottleneck features to improve AVSR performance, and (3) investigating effectiveness of voice activity detection in a visual modality. In our approach, many kinds of visual features are incorporated, subsequently converted into bottleneck features by deep learning technology. By using proposed features, we successfully achieved 73.66% lipreading accuracy in speaker-independent open condition, and about 90% AVSR accuracy on average in noisy environments. In addition, we extracted speech segments from visual features, resulting 77.80% lipreading accuracy. It is found VAD is useful in both audio and visual modalities, for better lipreading and AVSR.

    DOI

  • Audio-visual processing toward robust speech recognition in cars

    Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda, Satoru Hayamizu

    7th Biennial Workshop on Digital Signal Processing for In-Vehicle Systems and Safety 2015     31 - 34  2015年

     概要を見る

    This paper reports our recent efforts to develop robust speech recognition in cars. Speech recognition is expected to handle many devices on cars. However, many kinds of acoustic noises, e.g. engine noise and car stereo, are observed in in-car environments, making performance of speech recognition decrease. In order to overcome the degradation, we develop a high-performance audio-visual speech recognition method. Lip images are obtained from captured face images using our face detection scheme. Some basic visual features are computed, then converted into visual features for speech recognition using a deep neural network. Audio features are obtained as well. Audio and visual features are subsequently concatenated into audio-visual features. As a recognition model, a multi-stream hidden Markov model is employed which can adjust contributions of audio and visual modalities. We evaluated our proposed method using an audio-visual corpus CENSREC-1-AV. In order to simulate driving-car condition, we prepared driving and music noises. Experimental results show that our method can significantly improving recognition performance in in-car condition.

  • Audio-visual speech recognition using deep bottleneck features and high-performance lipreading

    Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda, Satoru Hayamizu

    2015 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)     575 - 582  2015年

     概要を見る

    This paper develops an Audio-Visual Speech Recognition (AVSR) method, by (1) exploring high-performance visual features, (2) applying audio and visual deep bottleneck features to improve AVSR performance, and (3) investigating effectiveness of voice activity detection in a visual modality. In our approach, many kinds of visual features are incorporated, subsequently converted into bottleneck features by deep learning technology. By using proposed features, we successfully achieved 73.66% lipreading accuracy in speaker-independent open condition, and about 90% AVSR accuracy on average in noisy environments. In addition, we extracted speech segments from visual features, resulting 77.80% lipreading accuracy. It is found VAD is useful in both audio and visual modalities, for better lipreading and AVSR.

  • MULTI-MODAL SERVICE OPERATION ESTIMATION USING DNN-BASED ACOUSTIC BAG-OF-FEATURES

    Satoshi Tamura, Takuya Uno, Masanori Takehara, Satoru Hayamizu, Takeshi Kurata

    2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO)     2291 - 2295  2015年  [査読有り]

     概要を見る

    In service engineering it is important to estimate when and what a worker did, because they include crucial evidences to improve service quality and working environments. For Service Operation Estimation (SOE), acoustic information is one of useful and key modalities; particularly environmental or background sounds include effective cues. This paper focuses on two aspects: (1) extracting powerful and robust acoustic features by using stacked-denoising-autoencoder and hag-of-feature techniques, and (2) investigating a multi-modal SOE scheme by combining the audio features and the other sensor data as well as non-sensor information. We conducted evaluation experiments using multi-modal data recorded in a restaurant. We improved SOE performance in comparison to conventional acoustic features, and effectiveness of our multi modal SOE scheme is also clarified.

  • IMPROVEMENT OF UTTERANCE CLUSTERING BY USING EMPLOYEES' SOUND AND AREA DATA

    Tetsuya Kawase, Masanori Takehara, Satoshi Tamura, Satoru Hayamizu, Ryuhei Tenmoku, Takeshi Kurata

    2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)     3047 - 3051  2014年  [査読有り]

     概要を見る

    In this paper, we propose to use staying area data toward the estimation of serving time for customers. To classify utterances enables us to estimate conversation types between speakers. However, its performance becomes lower in real environments. We propose a method using area data with sound data to solve this problem. We also propose a method to estimate the conversation types using the decision trees. They were tested with the data recorded in a Japanese restaurant. In the experiment to classify utterances, the proposed method performed better than the method using only sound data. In the experiment to estimate the conversation types, we succeeded to recover 70% of the mis-classified conversations using both of sound and area data.

    DOI

  • Analysis of Customer Communication by Employee in Restaurant and Lead Time Estimation

    Masanori Takehara, Hiroya Nojiri, Satoshi Tamura, Satoru Hayamizu, Takeshi Kurata

    2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)     1 - 5  2014年  [査読有り]

     概要を見る

    Human behavior sensing and their analysis are great role to improve service quality and education of employees. This paper shows novel frameworks of detection of customer communication and lead time estimation(LTE) by using multi-sensored data, sound data and accounting data in the restaurant. They are useful for management about work environments and problems for employees. Lead time from order to delivery shows the quality of the service for customers. We found sound data of an employee's speech is useful for these techniques by speech ratio smoothing and POS sound detection.

    DOI

  • AUDIO-VISUAL VOICE CONVERSION USING NOISE-ROBUST FEATURES

    Kohei Sawada, Masanori Takehara, Satoshi Tamura, Satoru Hayamizu

    2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)    2014年  [査読有り]

     概要を見る

    Voice Conversion (VC) is a technique to convert speech data of source speaker into ones of target speaker. VC has been investigated and statistical VC is used for various purposes. Conventional VC uses acoustic features, however, the audio-only VC has suffered from the degradation in noisy or real environments. This paper proposes an Audio-Visual VC (AVVC) method using not only audio features but also visual information, i.e. lip images. Eigenlip feature is employed in our scheme as visual feature. We also propose a feature selection approach for audio-visual features. Experiments were conducted to evaluate our AVVC scheme comparing with audio-only VC, using noisy data. The results show that AVVC can improve the performance even in noisy environments, by properly selecting audio and visual parameters. It is also found that visual VC is also successful. Furthermore, it is observed that visual dynamic features are more effective than visual static information.

  • Data Collection for Mobile Audio-visual Speech Recognition in Various Environments

    Satoshi Tamura, Takumi Seko, Satoru Hayamizu

    2014 17TH ORIENTAL CHAPTER OF THE INTERNATIONAL COMMITTEE FOR THE CO-ORDINATION AND STANDARDIZATION OF SPEECH DATABASES AND ASSESSMENT TECHNIQUES (COCOSDA)    2014年  [査読有り]

     概要を見る

    This paper introduces our recent activities for audio-visual speech recognition on mobile devices and data collection in various environments. Audio-visual automatic speech recognition is effective in noisy or real conditions to enhance the robustness of speech recognizer and to improve the recognition accuracy. We have developed an audio-visual speech recognition interface for mobile devices. In order to evaluate the recognizer and investigate issues related to audio-visual processing on mobile computers, we collected speech data and lip images of 16 subjects in eight conditions, where there were various audio noises and visual difficulties. Audio-only speech recognition and visual-only lipreading were then conducted. Through these experiments, we found some issues and future works not only for construction of audio-visual database but also for robust audio-visual speech recognition.

  • An audio-visual in-car corpus "CENSREC-2-AV" for robust bimodal speech recognition

    Takuya Kawasaki, Naoya Ukai, Takumi Seko, Satoshi Tamura, Satoru Hayamizu, Chiyomi Miyajima, Norihide Kitaoka, Kazuya Takeda

    6th Biennial Workshop on DSP for In-Vehicle Systems and Safety 2013, DSP 2013    2013年

     概要を見る

    The purpose of this study is to build an evaluation framework for robust bimodal speech recognition in real environments, such as in-car conditions. Bimodal speech recognition using lip images has been studied to prevent the deterioration of speech recognition performance in noisy environments. Lip reading technologies using lip images play a great role for the bimodal speech recognition. Therefore, for the bimodal speech recognition, a database both speech signals and lip images is necessary to build a bimodal speech recognizer and to evaluate its performance. An evaluation framework for noisy bimodal speech recognition (CENSREC-1-AV) was constructed by Tamura et al; a subject on a blue screen background spoke Japanese connected digits in a quiet office environment. CENSREC-1-AV was recorded in the clean condition, on the other hand, a database recorded in real environments is required to evaluate a bimodal speech recognizer. Therefore, we have constructed a new audio-visual corpus CENSREC-2-AV, recorded in in-car environments; a subject sitting on a driver's seat in a car uttered Japanese connected digits in various driving conditions: for example, a tunnel situation with music background noises, and driving on an expressway while the window is open. By using CENSREC-2-AV, it is possible to realize a robust bimodal speech recognition method even in real environments.

  • Confidence estimation and keyword extraction from speech recognition result based on Web information

    Hara Kensuke, Sekiya Hideki, Kawase Tetsuya, Tamura Satoshi, Hayamizu Satoru

    2013 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)    2013年  [査読有り]

     概要を見る

    This paper proposes to use Web information for confidence measure and to extract keywords for speech recognition results. Spoken document processing has been attracting attention particularly for information retrieval and video (audiovisual) content systems. For example, measuring a confidence score which indicates how likely a document or a segmented document includes recognition errors has been studied. It is well known keyword extraction from recognition results is also an important issue. For these purposes, in this paper, pointwise mutual information (PMI) between two words is employed. PMI has been used to calculate a confidence measure of speech recognition, as a coherence measure by co-occurrence of words. We propose to further improve the method by using a Web query expansion technique with term triplets which consist of nouns in the same document. We also apply PMI to keyword estimation by summing a co-occurrence score (sumPMI) between a targeting keyword candidate and each term. The proposed methods were tested with 10 lectures in Corpus of Spontaneous Japanese (CSJ) and 2 simulated movie dialogues. In the experiments it is shown that the estimated confidence score has high relationship with recognition accuracy, indicating the effectiveness of our method. And sumPMI scores for keywords have higher values in the subjective tests.

  • Measurement and analysis of speech data toward improving service in restaurant.

    Masanori Takehara, Satoshi Tamura, Satoru Hayamizu, Ryuhei Tenmoku, Array,Tomohiro Fukuhara, Takeshi Kurata

    2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), Gurgaon, India, November 25-27, 2013     1 - 4  2013年  [査読有り]

    DOI

  • CENSREC-2-AV: An evaluation framework for bimodal speech recognition in real environments

    Naoya Ukai, Takuya Kawasaki, Satoshi Tamura, Satoru Hayamizu, Chiyomi Miyajima, Norihide Kitaoka, Kazuya Takeda

    Proceedings of the 2012 International Conference on Speech Database and Assessments, Oriental COCOSDA 2012     88 - 91  2012年

     概要を見る

    In this paper, we introduce a bimodal speech recognition corpus in real environments. In recent years, speech recognition technology has been used in noisy conditions. Therefore, it becomes necessary to achieve higher recognition accuracy in real environments. As one of the solutions, bimodal speech recognition using audio and non-audio information is getting studied. However, there are few databases which can be used to evaluate the bimodal speech recognition in real environments. In this paper, we introduce CENSREC-2-AV we have been working to built, as a new bimodal speech recognition corpus. CENSREC-2-AV is one of the databases of the CEN-SREC project; we provided a similar corpus CENSREC-1-AV as a database for bimodal speech recognition for additive noises. In these corpora, there are speech data and lip images. Researchers can evaluate a bimodal speech recognition method built using CENSREC-1-AV which consists of clean data, in real environments by using CENSREC-2-AV. © 2012 IEEE.

    DOI

  • GIF-SP: GA-based Informative Feature for Noisy Speech Recognition

    Satoshi Tamura, Yoji Tagami, Satoru Hayamizu

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)    2012年  [査読有り]

     概要を見る

    This paper proposes a novel discriminative feature extraction method. The method consists of two stages; in the first stage, a classifier is built for each class, which categorizes an input vector into a certain class or not. From all the parameters of the classifiers, a first transformation can be formed. In the second stage, another transformation that generates a feature vector is subsequently obtained to reduce the dimension and enhance recognition ability. These transformations are computed applying genetic algorithm. In order to evaluate the performance of the proposed feature, speech recognition experiments were conducted. Results in clean training condition shows that GIF greatly improves recognition accuracy compared to conventional MFCC in noisy environments. Multi-condition results also clarifies that out proposed scheme is robust against differences of conditions.

  • Multi-stream acoustic model adaptation for noisy speech recognition

    Satoshi Tamura, Satoru Hayamizu

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)    2012年  [査読有り]

     概要を見る

    In this paper, a multi-stream-based model adaptation method is proposed for speech recognition in noisy or real environments. The proposed scheme comes from our experience about audio-visual model adaptation. At first, an acoustic feature vector is divided into several vectors (e. g. static, first-order and second-order dynamic vectors), namely streams. While adaptation, a stream performing relatively high recognition performance is updated for the stream only. Alternatively, a stream having less recognition power is adapted using all the streams that are superior to the stream. In order to evaluate the proposed technique, recognition experiments were conducted using every streams, and then adaptation experiments were also investigated for various types of combination of streams.

  • Statistical Voice Conversion using GA-based Informative Feature

    Kohei Sawada, Yoji Tagami, Satoshi Tamura, Masanori Takehara, Satoru Hayamizu

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)    2012年  [査読有り]

     概要を見る

    In order to make voice conversion (VC) robust to noise, we propose VC using GA-based informative feature (GIF), by adding an extraction process of GIF to a conventional VC. GIF is proposed as a feature that can be applied not only in pattern recognition but also in relative tasks. In speech recognition, furthermore, GIF could improve recognition accuracy in noise environment. We evaluated the performances of VC using spectral segmental features (conventional method) and GIF, respectively. Objective experimental result indicates that in noise environments, the proposed method was better than the conventional method. Subjective experiment was also conducted to compare the performances. These results show that application of GIF to VC was effective.

  • GIF-LR:GA-based Informative Feature for Lipreading

    Naoya Ukai, Takumi Seko, Satoshi Tamura, Satoru Hayamizu

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)    2012年  [査読有り]

     概要を見る

    In this paper, we propose a general and discriminative feature "GIF" (GA-based Informative Feature), and apply the feature to lipreading (visual speech recognition). The feature extraction method consists of two transforms, that convert an input vector to GIF for recognition. The transforms can be computed using training data and Genetic Algorithm (GA). For lipreading, we extract a fundamental feature as an input vector from an image; the vector consists of intensity values at all the pixels in an input lip image, which are enumerated from left-top to right-bottom. Recognition experiments of continuous digit utterances were conducted using an audio-visual corpus including more than 268,000 lip images. The recognition results show that the GIF-based method is better than the baseline method using eigenlip features.

  • The role of speech technology in service-operation estimation

    Masanori Takehara, Satoshi Tamura, Ryuhei Tenmoku, Takeshi Kurata, Satoru Hayamizu

    2011 International Conference on Speech Database and Assessments, Oriental COCOSDA 2011 - Proceedings     116 - 119  2011年  [査読有り]

     概要を見る

    This paper introduces our recent effort to develop a Service-Operation Estimation (SOE) system using speech and multi-sensored data as well as other acquired data. In SOE, it is essential to analyze employees' data in order to increase the productivity in many service industries. Speech processing techniques, such as voice activity detection and keyword spotting recognition, help the analysis and enhance the precision of the results
    the beginning and end times of speech region are used to detect work events, and recognized keywords are used to conduct work estimation. In our system all the results are visualized in a 3D model, and it makes employers and employees help their operations. © 2011 IEEE.

    DOI

  • Template-based Spectral Estimation Using Microphone Array for Speech Recognition

    Satoshi Tamura, Eriko Hishikawa, Wataru Taguchi, Satoru Hayamizu

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4     2050 - +  2010年  [査読有り]

     概要を見る

    This paper proposes a Template-based Spectral Estimation (TSE) method for noise reduction of microphone array processing aiming at speech recognition enhancement. In the proposed method, a noise template in a complex plane is calculated for each frequency bin using non-speech audio signals observed at microphones. Then for every noise-overlapped speech signals, a speech signal can be reformed by applying the template and the gradient descent method. Experiments were conducted to evaluate not only performance of noise reduction but also improvement of speech recognition. Then NRR 16.7dB improvement was achieved by combining TSE and Spectral Subtraction (SS) methods. For speech recognition, 44% relative recognition error reduction was obtained comparing with the conventional SS method.

  • A Robust Audio-visual Speech Recognition Using Audio-visual Voice Activity Detection

    Satoshi Tamura, Masato Ishikawa, Takashi Hashiba, Shin'ichi Takeuchi, Satoru Hayamizu

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4     2702 - +  2010年  [査読有り]

     概要を見る

    This paper proposes a novel speech recognition method combining Audio-Visual Voice Activity Detection (AVVAD) and Audio-Visual Automatic Speech Recognition (AVASR). AVASR has been developed to enhance the robustness of ASR in noisy environments, using visual information in addition to acoustic features. Similarly, AVVAD increases the precision of VAD in noisy conditions, which detects presence of speech from an audio signal. In our approach, AVVAD is conducted as a preprocessing followed by an AVASR system, making a significantly robust speech recognizer. To evaluate the proposed system, recognition experiments were conducted using noisy audio-visual data, testing several AVVAD approaches. Then it is found that the proposed AVASR system using the model-free feature-fusion AVVAD method outperforms not only non-VAD audio-only ASR but also conventional AVASR.

  • Automatic metadata generation and video editing based on speech and image recognition for medical education contents

    Satoshi Tamura, Koji Hashimoto, Jiong Zhu, Satoru Hayamizu, Hirotsugu Asai, Hideki Tanahashi, Makoto Kanagawa

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5     2466 - +  2006年  [査読有り]

     概要を見る

    This paper reports a metadata generation system as well as an automatic video edit system. The metadata are information described about the other data. In the audio metadata. generation system, speech recognition using general language model (LM) and specialized LM is performed to input speech in order to obtain segment (event group) and audio metadata (event information) respectively. In the video edit system, visual metadata obtained by image recognition and audio metadata are combined into audio-visual metadata. Subsequently, multiple videos are edited to one video using the audio-visual metadata. Experiments were conducted to evaluate event detection of the systems using medical education contents, ACLS and BLS. The audio metadata system achieved about a 78% event detection correctness. In the edit system, an 87% event correctness was obtained by audio-visual metadata, and the survey proved that the edited video is appropriate and useful.

▼全件表示

書籍等出版物

  • 製造業のAI活用を支える統計的機械学習&深層学習

    ( 担当: 単著)

    日経BP社  2020年12月

  • 事例+演習で学ぶ機械学習 : ビジネスを支えるデータ活用のしくみ

    速水 悟( 担当: 単著)

    森北出版  2016年04月 ISBN: 9784627880214

Misc

  • 製造業におけるAI活用の拡大:現状と課題

    速水悟

    日本経営学会全国大会    2021年09月

    担当区分:筆頭著者

    研究発表ペーパー・要旨(全国大会,その他学術会議)  

  • 初等教育におけるテキスト型プログラミング言語 Python によるプログラミング教育の効果検証

    朝日翔太, 高橋和之, 村山聡江, 寺田和憲, 加藤邦人, 山口忠, 今井亜湖, 速水悟

    日本教育工学会 第34回全国大会    2018年09月

  • 音響信号処理による嚥下タイミング推定手法

    児玉千紗, 加藤邦人, 田村哲嗣, 速水悟

    計測自動制御学会ライフエンジニアリング部門,LE2017     139 - 142  2017年09月

  • マルチモーダル声質変換の頑健性に関する研究 (音声)

    川嶋 大義, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 411 ) 7 - 12  2015年01月

     概要を見る

    ある人(元話者)の声を別の人(目標話者)の声に変換する声質変換(Voice Conversion:VC)という技術がある.しかし,VCには背景雑音の影響を受けやすいという問題がある.そこで,音声に加えて口唇画像を用いたマルチモーダルVCが提案されている.本研究では,元話者特徴量として,音声から抽出した音響特徴量と口唇画像から抽出した画像特徴量を統合した音響・画像特徴量を用いる.本研究では,このマルチモーダルVCにおいて,雑音環境や画像外乱に対して高精度な声質変換が可能な,音響特徴と画像特徴の統合法について,複数話者の音響・画像パラレルデータを用い,さまざまな音響雑音・画像外乱環境において主観評価と客観評価を行った.その結果,音声のみのVCでは変換音声の品質が劣化するが,マルチモーダルVCにより品質劣化を防げることが確認でき,特に画像の動的特徴量が有効であることがわかった.

    CiNii

  • 呼吸音区間に対する喀痰検出システムと実環境における個人適応

    山下達也, 田村哲嗣, 速水悟, 林賢二, 西本裕

    電子情報通信学会論文誌D: 情報・システム   97 ( 12 ) 1831 - 1838  2014年12月

  • 音声情報と位置情報を用いた従業員の接客作業分析とその活用

    竹原正矩, 野尻弘也, 田村哲嗣, 速水悟, 蔵田武志

    研究報告音声言語情報処理(SLP)   2014 ( 5 ) 1 - 6  2014年10月

     概要を見る

    サービス業における業務改善や従業員教育を支援するため,行動計測とデータの分析技術の向上が必要とされている.本稿では,レストランにおける従業員の接客作業に着目する.接客作業には発話の機会が多いため,音声情報を分析することで接客の状況や作業に関する指標が得られることが期待される.また,注文伺い,配膳といった接客作業を検出することで,顧客の注文後の待ち時間を推定することができる.そこで,我々は音声情報と位置情報を組み合わせ,従業員の接客作業の検出を行う枠組みを提案し,顧客の待ち時間の推定への活用を検討する.そして,接客作業の検出や待ち時間の推定が,他の店舗やサービスでどのように展開できるかを考察する.

    CiNii

  • E-022 マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討(E分野:自然言語・音声・音楽,一般論文)

    絹田 卓也, 田村 哲嗣, 速水 悟

    情報科学技術フォーラム講演論文集   13 ( 2 ) 257 - 260  2014年08月

    CiNii

  • E-021 作業推定に向けた環境雑音のクラス分類(E分野:自然言語・音声・音楽,一般論文)

    宇野 太久哉, 竹原 正矩, 田村 哲嗣, 速水 悟, 蔵田 武志

    情報科学技術フォーラム講演論文集   13 ( 2 ) 253 - 256  2014年08月

    CiNii

  • 距離画像を用いたマルチモーダル音声認識 (パターン認識・メディア理解)

    鵜飼 直弥, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 493 ) 179 - 184  2014年03月

     概要を見る

    本稿では,マルチモーダル音声認識の新モダリティとして距離画像を提案する.特徴量として固有口を利用し,HMMとマルチストリームHMMを用いて,距離画像単体での読唇実験と,音声情報と統合したマルチモーダル音声認識実験を行った.その結果として,距離画像による認識性能とマルチモーダル音声認識実験による雑音環境下での認識率改善を確認することができ,距離画像の有効性が見られた.

    CiNii

  • 実環境におけるマルチモーダル音声インターフェースの適用 (パターン認識・メディア理解)

    世古 拓海, 河崎 卓也, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 493 ) 185 - 190  2014年03月

     概要を見る

    本稿では,音声と口唇動画像を用いるマルチモーダル音声認識を基にした「マルチモーダル音声インターフェース」のモバイル情報端末での実装を目指す.本インターフェースではサーバ・クライアントモデルを採用し,音声区間検出,特徴量抽出までをモバイル端末上で行い,サーバ上でマルチモーダル音声認識を実行する.またモバイル情報端末の多くは使用者が一人に限られることを利用し,モデル適応による認識精度向上を図る.試作したマルチモーダル音声インターフェースを用いた実験を行った.室内,屋外,乗用車内,駅などさまざまな実環境で,16名の話者から日本語連続数字発話時の音声・動画像を収集した.音声情報のみを用いた実験では,モデル適応による性能改善がみられた一方,周囲の雑音が大きい環境での課題が明らかとなった.画像情報のみを用いた実験では,音声認識結果とモデル適応技術を用いることで,識別性能が向上できることを確認した.また実験全体を通じて,音声区間検出や画像特徴,統合技術などに関する課題を明らかにした.

    CiNii

  • D-14-4 マルチモーダル音声インターフェースの開発(D-14.音声,一般セッション)

    田村 哲嗣, 世古 拓海, 速水 悟

    電子情報通信学会総合大会講演論文集   2014 ( 1 ) 131 - 131  2014年03月

    CiNii

  • 接客時間推定に向けた従業員の位置・音声データによる発話クラスタリング(音声対話・合成,第15回音声言語シンポジウム)

    川瀬 徹也, 竹原 正矩, 田村 哲嗣, 天目 隆平, 蔵田 武志, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   113 ( 366 ) 89 - 95  2013年12月

     概要を見る

    我々はレストランで収録された音声について,発話クラスタリングの研究を行っている.発話データには,従業員同士の会話や,顧客との会話が含まれており,対象話者をクラスタリングすることで,従業員の接客時間などの業務に関する指標を推定できることが期待される.本稿では,マイク装着者,他の従業員,顧客の3クラス発話クラスタリングを検討している.しかし,話者の不特定性や雑音の影響により分類精度が低下する事が考えられる.そこで,従業員の位置情報を音声データと統合して精度向上を試みた.さらに,提案手法をレストラン以外の場面に応用した際の汎用性について考察した.

    CiNii

  • 接客時間推定に向けた従業員の位置・音声データによる発話クラスタリング

    川瀬徹也, 竹原正矩, 田村哲嗣, 天目隆平, 蔵田武志, 速水悟

    研究報告音声言語情報処理(SLP)   2013 ( 15 ) 1 - 7  2013年12月

     概要を見る

    我々はレストランで収録された音声について,発話クラスタリングの研究を行っている.発話データには,従業員同士の会話や,顧客との会話が含まれており,対象話者をクラスタリングすることで,従業員の接客時間などの業務に関する指標を推定できることが期待される.本稿では,マイク装着者,他の従業員,顧客の 3 クラス発話クラスタリングを検討している.しかし,話者の不特定性や雑音の影響により分類精度が低下する事が考えられる.そこで,従業員の位置情報を音声データと統合して精度向上を試みた.さらに,提案手法をレストラン以外の場面に応用した際の汎用性について考察した.

    CiNii

  • H-035 位置・発話・会計データを用いた配膳待ち時間推定の試み(H分野:画像認識・メディア理解,一般論文)

    野尻 弘也, 竹原 正矩, 前山 賢人, 田村 哲嗣, 蔵田 武志, 速水 悟

    情報科学技術フォーラム講演論文集   12 ( 3 ) 171 - 174  2013年08月

    CiNii

  • マルチモーダル音声区間検出における識別手法の比較に関する研究(学生ポスターセッション,音声アプリケーション,一般)

    奥田 博也, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   112 ( 450 ) 31 - 32  2013年02月

     概要を見る

    近年、音声認識技術が発達し、カーナヒゲーションシステムや検索機能など、様々な場面で実用化されている。音声認識における雑音に対する前処理として、音声区間検出(Voice Activity Detection, VAD)が広く用いられている。VADの手法の1つに口唇動画像を用いるマルチモーダルVADがある。VADでは隠れマルコフモテル(Hidden Markov Model, HMM)、サポートベクターマシン(Support Vector Machine, SVM)、AdaBoostなどの識別手法が用いられている。これらについて、マルチモーダルVADにおける識別手法、またその重み付けなどを比較、調査し、考察する。

    CiNii

  • 高精度なマルチモーダル音声認識の実現に向けた取り組み (音声・第14回音声言語シンポジウム)

    田村 哲嗣, 沈 鵬, 奥田 博也, 鵜飼 直弥, 河崎 卓也, 世古 拓海, 速水 悟

    電子情報通信学会技術研究報告 : 信学技報   112 ( 369 ) 41 - 46  2012年12月

     概要を見る

    本稿では,音声と口唇動画像を用いるマルチモーダル音声認識に関して,高精度・リアルタイムに駆動する手法の実現に向けた取り組みについて述べる.はじめに,画像特徴量抽出やマルチモーダル音声区間検出など,基本要素の技術的概要と現状について解説し,その技術課題を議論する.あわせて,これまでの我々の取り組みについて述べる.これらを基に,高い認識精度をもつリアルタイム・マルチモーダル音声認識のための高速化手法の検討を行い,実際にマルチモーダル音声認識システムを作成した.そこで構築したシステムについて技術的詳細を報告し,続いて考察および今後の展開について論述する.

    CiNii

  • E-026 Noise Robust Voice Conversion using GA-based Informative Feature

    澤田 耕平, 田上 陽嗣, 田村 哲嗣, 竹原 正矩, 速水 悟

    情報科学技術フォーラム講演論文集   11 ( 2 ) 217 - 218  2012年09月

    CiNii

  • E-027 汎用・識別的特徴量を用いた音声区間検出(音声情報処理,E分野:自然言語・音声・音楽)

    奥田 博也, 田村 哲嗣, 速水 悟

    情報科学技術フォーラム講演論文集   11 ( 2 ) 219 - 220  2012年09月

    CiNii

  • 雑音環境下における静的・動的情報を用いた音響モデル適応

    田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   112 ( 141 ) 33 - 38  2012年07月

     概要を見る

    本稿では,雑音環境下・実環境下での音声認識性能の改善を目的に,複数のストリームを用いた音響モデル適応手法を提案する.はじめに,静的成分と動的成分(Δ成分とΔΔ成分)などのように,音響特徴量を複数のストリームに分割する.次に,予備的に認識を行い,その結果によりそれぞれのストリームの並び替えを行う.モデル適応を行う際には,最も性能の高かったストリームでは,そのストリームの情報のみを用いてモデルパラメータの適応を行う.それ以外のストリームにおいては,当該ストリームより性能の高かったストリームもあわせて用いることで,モデルパラメータの適応を行う.提案手法の有効性を確認するため,コーパスCENSREC-1を用いて認識実験および適応実験を行った.予備実験結果では,音響特徴量の動的成分が静的成分と比べて雑音に対する頑健性を有することが確かめられた.適応・認識実験では,提案する適応手法は,従来の音響特徴量やストリームをそのまま用いる方法と比較して,最も高い認識性能を得ることができ,手法の有効性が確かめられた.

    CiNii

  • GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善

    田村 哲嗣, 田上 陽嗣, 速水 悟

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   111 ( 364 ) 119 - 124  2011年12月

     概要を見る

    本稿では,パターン認識一般に広く適用できる識別的な特徴量GIFを提案する.本稿で提案する特徴量抽出手法では,入力ベクトルから中間ベクトルを経由する二段階の変換で,認識用の特徴量に変換する.第一段階の変換は,クラスごとの識別器を構築し,これに基づいて作成する.第二段階の変換は,クラス間の分散を最大化しつつ,直交化と次元圧縮を行う.これらの変換は,学習データを用いて遺伝的アルゴリズムによって決定する.本稿の特徴量GIFについて,音声認識性能評価基盤コーパスを用いて音声認識実験を行った.その結果、雑音環境下を中心に大幅な性能改善に成功し,本手法の有効性が確認された.

    CiNii

  • 肺音の情報処理と応用

    速水 悟, 田村 哲嗣

    非破壊検査 : journal of N.D.I   60 ( 12 ) 706 - 712  2011年12月

    CiNii

  • K-062 日本食レストラン産業におけるマルチセンサとPOSデータに基づくサービスオペレーション推定(人間支援のためのセンシングとマルチメディア,K分野:教育工学・福祉工学・マルチメディア応用)

    天目 隆平, 上岡 玲子, 牧田 孝嗣, 新村 猛, 竹原 政矩, 速水 悟, 蔵田 武志

    情報科学技術フォーラム講演論文集   10 ( 3 ) 859 - 860  2011年09月

    CiNii

  • RO-008 検索新聞 : 新聞形式型検索情報提示システムにおけるマイクロブログを用いたユーザ適応(情報検索,O分野:情報システム)

    関谷 英樹, 祖父江 翔, 田村 哲嗣, 速水 悟

    情報科学技術フォーラム講演論文集   10 ( 4 ) 141 - 146  2011年09月

    CiNii

  • 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応

    大西 正真, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   111 ( 97 ) 17 - 22  2011年06月

     概要を見る

    本論文は,マルチモーダル音声認識におけるMLLR法を用いたモデル適応において,音響情報と画像情報がそれぞれ異なるモダリティに与える影響(モダリティ間の効果)について調査するものである.マルチモーダル音声認識のモデル適応ではモダリティ間の情報が音声認識の精度向上に有効に働いている可能性がある.そこで,モダリティ間の効果が有効であるか否か調査を行った.具体的には,MLLR法の変換行列にいくつかの変化を加えてモデル適応を行い認識精度を比較した.実験にはマルチモーダル音声認識コーパスに音響雑音を加えたデータを使用した.実験の結果から,モダリティ間の情報の有効性が確認された.

    CiNii

  • ブースティングによるマルチモーダル音声区間検出の結果統合

    竹内 伸一, 羽柴 隆志, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   110 ( 81 ) 25 - 30  2010年06月

     概要を見る

    音声認識の前段階として用いられる音声区間検出技術(Voice Activity Detection, VAD)には高い雑音区間除去能力が求められる.耐雑音性を向上させる手法のひとつとしてマルチモーダルVADがあり,音声のノイズに影響を受けない画像情報を用いることで精度向上が期待できる.本報告では各モダリティから得られた結果をブースティングによって統合する,マルチモーダルVADの結果統合について検討を行う.AdaBoostは機械学習の手法のひとつであり,複数の弱識別器を統合することで強識別器を作成する.学習によって各学習器毎に求められた重みを考慮して2クラス分類が行われる.提案手法では音声/画像特徴量を識別器として学習を行い,各特徴量から得られた結果を用いた重みつき多数決で結果統合を行う.実験結果から,雑音重畳環境下では画像特徴量に重みを付与した多数決による結果統合が有効であることがわかった.

    CiNii

  • 加速度情報を用いた日常行動認識について

    竹内 伸一, 伊藤 真也, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. CAS, 回路とシステム   108 ( 453 ) 229 - 234  2009年02月

     概要を見る

    本研究では、部屋の中で行う日常的な行動に対する見守りシステムの構築を目指して,加速度情報に基づく人間の行動認識について検討する.腰(太股の上)に装着した単一の加速度センサから得られる加速度情報の隠れマルコフモデルを用いて行動認識を行う.本研究では,加速度情報の時系列信号そのものとその周波数分析によって得られる特徴量の比較を行う.具体的な,入力信号の低域周波数に着目した特徴量であるMFCC(Mel-Frequency Cepstral Coefficients)の適用,MFCCと重力加速度の角度情報の併用,周波数分析時の分析条件の検討などを行い性能改善を行う.日常的な6種類の行動に対する行動認識実験の結果,正解率を71.30%から87.96%へ,正解精度を58.88%から79.63%へと向上させることができた.

    CiNii

  • マルチモーダル音声認識における音声と画像の同期に関する調査

    田村 哲嗣, 石川 雅人, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   108 ( 312 ) 1 - 6  2008年11月

     概要を見る

    音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている.多くのマルチモーダル音声認識では,音声と画像の特徴量を統合して音響・画像特徴量とし,マルチストリームHMMを用いて音声認識を行っている.それぞれの特徴量は音声信号,画像系列から計算されるが,一般に音声と比べて画像はサンプリングレートやフレームレートが低い.またデバイスによっては,音声と画像の同期が保障されていないこともある.これらフレームレートの違いや同期のずれといった,マルチモーダル音声認識に特有の問題が,認識性能に悪影響を及ぼす可能性がある.そこで本論文では,これらの影響について,認識実験を通じて,調査・考察を行った.

    CiNii

  • 画像特徴量の正規化によるマルチモーダル音声認識の改善

    石川 雅人, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   108 ( 312 ) 7 - 12  2008年11月

     概要を見る

    音声と口唇動画像を用いたマルチモーダル音声認識は,雑音に強い頑健な音声認識として注目され,研究が行われている.マルチモーダル音声認識では画像特徴量が重要な役割を果たし,オプティカルフローや主成分スコアなど,さまざまな特徴量でその有効性が示されている.画像特徴量に関しては,どのような情報を用いるのかに加え,どのように直交化や正規化などの処理を行うかも,認識性能に重要な影響を及ぼす.そこで本研究では,画像特徴量の直交化について,さまざまな検討を行った.具体的には,画像特徴量を特異値分解や主成分分析を用いることで,認識率の改善に成功した.

    CiNii

  • 統計的音声区間検出法を用いた加速度センサによる人間の動作検出

    伊藤 真也, 浅野 翔, 田村 哲嗣, 速水 悟

    全国大会講演論文集   70   225 - 226  2008年03月

    CiNii

  • 音声と画像の confusion network を用いたマルチモーダル音声認識

    上澤 泰, 石川 雅人, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. SP, 音声   107 ( 356 ) 37 - 42  2007年11月

     概要を見る

    音声と画像の結果統合法によるマルチモーダル音声認識では,音声・画像を個別に認識した段階で,統合に必要な情報が的確に含まれた中間表現が重要である.近年,単語グラフのアークをクラスタリングすることで得られるCN (confusion network)が,音声認識の中間表現として用いられていることに加え,出力された各CNを統合するCNC (confusion network combination)が,複数の音声認識器の結果を統合する方法として提案されている.各認識器の誤り傾向が異なるほどCNCによる統合の効果が期待でき,音声と口唇動画像を用いたマルチモーダル音声認識においても有効な統合法であると考えられる.そこで,本研究では,音声と画像をCNCにより統合し,雑音下での音声認識性能の改善を試みた.その性能について評価した.またCNを行う2つの方法や,信頼度スコアとの関連についても検討した.

    CiNii

  • マルチモーダル医療支援システムの開発

    速水 悟

    Journal of Japan Society of Computer Aided Surgery : J.JSCAS   8 ( 3 ) 136 - 137  2006年12月

    CiNii

  • デジタルペン文字認識システムを用いた在宅看護支援における誤認識自動訂正機能

    澤田 剛, 林 雄二郎, 田村 哲嗣, 速水 悟

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   105 ( 594 ) 43 - 48  2006年02月

     概要を見る

    「在宅看護」の観点から,患者の家族がデジタルペンを用いて毎日の様子を記入し,その情報を医療機関へ転送する事で,訪問者護師がその情報から患者の様子を把握したり,訪問のタイミングを決定できるシステムの構築を目指した.デジタルペンとは,ペンストローク情報を内部メモリに保存してデジタルデータとして扱えるようにしたものであり,「筆記」という日常動作で手軽にデジタル文書を作成しておくことができる.この提案システムに付随し,過去の文章を形態素解析して作成した単語情報パターン,及び過去の訂正情報を利用してデジタルペン文字認識処理の後に誤認識を自動的に訂正する機能を構成した.この機能により,認識精度の向上が見られた.

    CiNii

  • Note-taking support for nurses using digital pen character recognition system

    Yujiro Hayashi, Satoshi Tamura, Satoru Hayamizu, Yutaka Nishimoto

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   4270 LNCS   428 - 436  2006年

     概要を見る

    This study presents a novel system which supports nurses in notetaking by providing a digital pen and character-recognition system laying stress on user interface. The system applies characteristics of a digital pen for improving the efficiency of tasks related to nursing records. The system aims at improving the efficiency of nursing activities and reducing the time spent for tasks for nursing records. In our system, first, notes are written on a check sheet using a digital pen along with a voice that is recorded on a voice recorder; the pen and voice data are transferred to a PC. The pen data are then recognized automatically as characters, which can be viewed and manipulated with the application. We conducted an evaluation experiment to improve efficiency and operation of the system, and its interface. The evaluation and test operations used 10 test subjects. Based on the test operation and the evaluation experiment of the system, it is turned out that improvement for urgent situations, enhancement of portability, and further use of character recognition are required. © Springer-Verlag Berlin Heidelberg 2006.

  • Utterance Analysis in Medical Cases for Spoken Dialog System

    Kiyoshi Naganuma, Satoru Hayamizu, Yuzo Takahashi, Yutaka Nishimoto, Yoshimi Matsuda, Yukiko Takahashi

    Proceedings of VSMM2004   10   954 - 961  2004年11月

     概要を見る

    音声による医療情報, 看護情報取得を目指して, 医療面接, 患者情報に関する発話分析を行った.発熱, 腹痛, 喘息の患者と医師との会話, バイタルサイン測定時の患者と看護師の会話, そして医師と看護師の会話について, 単語熟語の標識, その頻度解析を行い, 自動的解析用辞書を作成した.これに基づいて読み上げ原稿と自然発話でコンピュータによる理解度検証を行った.読み上げの場合は83.3%を理解し得たが, 自然発話では60%以下であった.会話の内容が医学用語や略語など特異な内容を含んでいるため, 医学的な文の構造解析を行うための情報が必要である.将来的にはこの情報を自動的に処理したい.

  • 研究開発用知的資源(<特集>「RWC-実世界知能」)

    速水 悟, Satoru Hayamizu, National Institute of Advanced Industrial Science and Technology (AIST)

    人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence   17 ( 2 ) 167 - 170  2002年03月

    CiNii

  • 大語彙音声認識における未知語の検出について

    速水 悟, 伊藤 克亘, 田中 和世

    Journal of the Acoustical Society of Japan (E)   16 ( 3 ) 165 - 171  1995年

     概要を見る

    This paper describes the relation between vocabulary sizes and detection errors of unknown words in large vocabulary speech recognition through recognition and detection experiments. Although the relation between vocabulary sizes and recognition performances has been reported the relation between vocabulary sizes and detection performances has not yet been studied. Especially, it has not for the cases of vocabulary sizes of over 1, 000 word. Experiments were conducted using the speech material of speaker MAU's ATR word speech database. The entries of the dictionary used is 40, 000 words from the Shinmeikai Japanese Language Dictionary. It is shown that when the vocabulary size increases from 1, 000 words to 40, 000 words, the relation between vocabulary sizes and detection errors has a similar tendency with the relation between vocabulary sizes and recognition errors. And increases of detection errors caused by increases of vocabulary sizes are shown to be small for the case of within vocabulary, compared with increases of detection errors for the case of out of vocabulary. These results should be taken into accounts in designing large vocabulary speech recognition systems including unknown word processing.

    CiNii

▼全件表示

 

担当経験のある科目(授業)

  • 情報処理入門(情報処理入門)

    工学部(昼)  

    2015年10月
    -
    継続中
     

  • ソーシャルイノベーション特論(ソーシャルイノベーション特論)

    工学研究科D  

    2017年10月
    -
    2021年02月
     

  • 機械学習特論

    2017年04月
    -
    2020年09月
     

  • データサイエンス入門

    全学共通教育  

    2017年10月
    -
    2020年02月
     

  • 技術経営概論

    工学部  

    2016年10月
    -
    2020年02月
     

  • メディアコンテント論

    工学研究科  

▼全件表示