Updated on 2024/03/29

写真a

 
SUKO, Tota
 
Affiliation
Faculty of Social Sciences, School of Social Sciences
Job title
Associate Professor
Degree
博士(工学) ( 早稲田大学 )

Research Areas

  • Theory of informatics / Intelligent informatics / Statistical science

Research Interests

  • ベイズ統計、統計的学習理論、ビジネス統計、データマイニング、情報理論

 

Papers

  • Asymptotic Evaluation of Classification in the Presence of Label Noise

    Goki Yasuda, Tota Suko, Manabu Kobayashi, Toshiyasu Matsushima

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences   E106A ( 3 ) 422 - 430  2023.03

     View Summary

    In a practical classification problem, there are cases where incorrect labels are included in training data due to label noise. We introduce a classification method in the presence of label noise that idealizes a classification method based on the expectation-maximization (EM) algorithm, and evaluate its performance theoretically. Its performance is asymptotically evaluated by assessing the risk function defined as the Kullback-Leibler divergence between predictive distribution and true distribution. The result of this performance evaluation enables a theoretical evaluation of the most successful performance that the EM-based classification method may achieve.

    DOI

    Scopus

  • A Study on Estimation of Distribution from Survey Data with Selection Bias based on Statistical Decision Theory

    Tota Suko

    Journal of Japan Industrial Management Association   73 ( 4 E ) 260 - 267  2023

     View Summary

    In recent years, web-based questionnaire surveys have become widely used. Since the cost of web surveys is low, they are easily used as a basic research tool for planning various policies. However, web surveys often contain selection bias. The results of questionnaires that do not reflect the population to be surveyed may lead to the planning of wrong measures. Therefore, it is important to develop a method to correct the selection bias in order to use web surveys effectively. In previous studies, a correction method has been proposed by modeling the occurrence of selection bias using a selection model. In this study, we propose a new correction method for selection bias based on statistical decision theory. We present an optimal distribution estimation method that minimizes the loss function under the Bayes criterion. We show that the proposed method is not only theoretically optimal, but also has good performance in numerical experiments on artificial data.

    DOI

    Scopus

  • Investigation of features for prediction modeling of nanoscale conduction with time-dependent calculation of electron wave packet

    Masakazu Muraguchi, Ryuho Nakaya, Souma Kawahara, Yoshitaka Itoh, Tota Suko

    Japanese Journal of Applied Physics   61 ( 4 )  2022.04

     View Summary

    A model to predict the electron transmission probability from the random impurity distribution in a two-dimensional nanowire system by combining the time evolution of the electron wave function and machine learning is proposed. We have shown that the intermediate state of the time evolution calculation is advantageous for efficient modeling by machine learning. The features for machine learning are extracted by analyzing the time variation of the electron density distribution using time evolution calculations. Consequently, the prediction error of the model is improved by performing machine learning based on the features. The proposed method provides a useful perspective for analyzing the motion of electrons in nanoscale semiconductors.

    DOI

    Scopus

  • A Note on the Estimation Method of Intervention Effects based on Statistical Decision Theory

    Shunsuke Horii, Tota Suko

    2019 53rd Annual Conference on Information Sciences and Systems, CISS 2019    2019.04

     View Summary

    In this paper, we deal with the problem of estimating the intervention effect in the statistical causal analysis using the structural equation model and the causal diagram. The intervention effect is defined as a causal effect on the response variable Y when the causal variable X is fixed to a certain value by an external operation and is defined based on the causal diagram. The intervention effect is defined as a function of the probability distributions in the causal diagram, however, generally these probability distributions are unknown, so it is required to estimate them from data. In other words, the steps of the estimation of the intervention effect using the causal diagram are as follows: 1. Estimate the causal diagram from the data, 2. Estimate the probability distributions in the causal diagram from the data, 3. Calculate the intervention effect. However, if the problem of estimating the intervention effect is formulated in the statistical decision theory framework, estimation with this procedure is not necessarily optimal. In this study, we formulate the problem of estimating the intervention effect for the two cases, the case where the causal diagram is known and the case where it is unknown, in the framework of statistical decision theory and derive the optimal decision method under the Bayesian criterion. We show the effectiveness of the proposed method through numerical simulations.

    DOI

    Scopus

    2
    Citation
    (Scopus)
  • A new latent class model for analysis of purchasing and browsing histories on EC sites

    Masayuki Goto, Kenta Mikawa, Shigeichi Hirasawa, Manabu Kobayashi, Tota Suko, Shunsuke Horii

    Industrial Engineering and Management Systems   14 ( 4 ) 335 - 346  2015.12

     View Summary

    The electronic commerce site (EC site) has become an important marketing channel where consumers can purchase many kinds of products
    their access logs, including purchase records and browsing histories, are saved in the EC sites' databases. These log data can be utilized for the purpose of web marketing. The customers who purchase many product items are good customers, whereas the other customers, who do not purchase many items, must not be good customers even if they browse many items. If the attributes of good customers and those of other customers are clarified, such information is valuable as input for making a new marketing strategy. Regarding the product items, the characteristics of good items that are bought by many users are valuable information. It is necessary to construct a method to efficiently analyze such characteristics. This paper proposes a new latent class model to analyze both purchasing and browsing histories to make latent item and user clusters. By applying the proposal, an example of data analysis on an EC site is demonstrated. Through the clusters obtained by the proposed latent class model and the classification rule by the decision tree model, new findings are extracted from the data of purchasing and browsing histories.

    DOI

    Scopus

    14
    Citation
    (Scopus)
  • Asymptotics of Bayesian Inference for a Class of Probabilistic Models under Misspecification

    Nozomi Miya, Tota Suko, Goki Yasuda, Toshiyasu Matsushima

    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES   E97A ( 12 ) 2352 - 2360  2014.12  [Refereed]

     View Summary

    In this paper, sequential prediction is studied. The typical assumptions about the probabilistic model in sequential prediction are following two cases. One is the case that a certain probabilistic model is given and the parameters are unknown. The other is the case that not a certain probabilistic model but a class of probabilistic models is given and the parameters are unknown. If there exist some parameters and some models such that the distributions that are identified by them equal the source distribution, an assumed model or a class of models can represent the source distribution. This case is called that specifiable condition is satisfied. In this study, the decision based on the Bayesian principle is made for a class of probabilistic models (not for a certain probabilistic model). The case that specifiable condition is not satisfied is studied. Then, the asymptotic behaviors of the cumulative logarithmic loss for individual sequence in the sense of almost sure convergence and the expected loss, i.e. redundancy are analyzed and the constant terms of the asymptotic equations are identified.

    DOI

    Scopus

  • An Analysis of Purchasing and Browsing Histories on an EC Site Based on a New Latent Class Model

    Masayuki Goto, Kenta Mikawa, Manabu Kobayashi, Shunsuke Horii, Tota Suko, Shigeichi Hirasawa

    The 1st East Asia Workshop on Industrial Engineering    2014.11

  • Asymptotics of MLE-based Prediction for Semi-supervised Learning

    Goki Yasuda, Nozomi Miya, Tota Suko, Toshiyasu Matsushima

    Proc. of 2012 International Symposium on Information Theory and its Applications (ISITA2014)     343  2014.10

  • Privacy-preserving Distributed Calculation Methods of a Least-squares Estimator for Linear Regression Models

    Tota Suko, Shunsuke Horii, Manabu Kobayashi, Masayuki Goto, Toshiyasu Matsushima, Shigeichi Hirasawa

    日本経営工学会論文誌   65 ( 2 ) 78 - 88  2014.07  [Refereed]

     View Summary

    In this paper, we study a privacy preserving linear regression analysis. We propose a new protocol of a distributed calculation method that calculates a least squares estimator, in the case that two parties have different types of explanatory variables. We show the security of privacy in the proposed protocol. Because the protocol have iterative calculations, we evaluate the number of iterations via numerical experiments. Finally, we show an extended protocol that is a distributed calculation method for k parties.

    DOI CiNii

  • Iterative multiuser joint decoding based on ADMM

    S. Horii, T. Suko, T. Matsushima, S. Hirasawa

    2013 IEEE Global Conference on Signal and Information Processing, GlobalSIP 2013 - Proceedings     1097 - 1100  2013

     View Summary

    In this paper, we develop an iterative multiuser joint decoding of code-division multiple-access (CDMA) signals based on a distributed optimization algorithm. For the joint decoding problem, decoding algorithm based on the turbo principle is widely used. The algorithm consists of soft-input soft-output (SISO) channel decoder and SISO multiuser detector and it can be derived as an application of the sum-product algorithm. On the other hand, in the research area of error correcting codes, the decoding algorithm based on convex optimization has been attracting a great deal of attention. Decoding algorithm based on linear programming (LP) has decoding error rate which is comparable with sum-product algorithm with stronger theoretical guarantees. We formulate the joint decoding problem of CDMA signals as an convex optimization problem and we present a relax form of the problem. Moreover, we propose a distributed algorithm which efficiently solves the relaxed optimization problem. The proposed algorithm is based on alternating direction method of multipliers (ADMM). We also see the performance of the proposed decoder through numerical simulations. © 2013 IEEE.

    DOI

    Scopus

  • Asymptotics of Bayesian estimation for nested models under misspecification

    Nozomi Miya, Tota Suko, Goki Yasuda, Toshiyasu Matsushima

    2012 INTERNATIONAL SYMPOSIUM ON INFORMATION THEORY AND ITS APPLICATIONS (ISITA 2012)     86 - 90  2012  [Refereed]

     View Summary

    We analyze the asymptotic properties of the cumulative logarithmic loss in the decision problem based on the Bayesian principle and explicitly identify the constant terms of the asymptotic equations as in the case of previous studies by Clarke and Barron and Gotoh et al. We assume that the set of models is given that identify a class of parameterized distributions, it has a nested structure and the source distribution is not contained in all the families of parameterized distributions that are identified by each model. The cumulative logarithmic loss is the sum of the logarithmic loss functions for each time decision-, e. g., the redundancy in the universal noiseless source coding.

  • A Note on Linear Programming Based Communication Receivers

    S. Horii, T. Suko, T. Matsushima, S. Hirasawa

    in Proc. of the 3rd International Castle Meeting on Coding Theory and Applications     141 - 146  2011

  • Bayes universal source coding scheme for correlated sources

    Tota Suko, Shunsuke Horii, Toshiyasu Matsushima, Shigeichi Hirasawa

    Proceedings of the 1st IEEE African Winter School on Information Theory and Communications 2010     27  2010.05

  • On the Bayesian Forecasting Algorithm under the Non-Stationary Binomial Distribution with the Hyper Parameter Estimation

    Daiki Koizumi, Tota Suko, Toshiyasu Matsushima

    Proceeding of Ninth Valencia International Meeting on Bayesian Statistics     167 - 168  2010

  • Asymptotic property of universal lossless coding for independent piecewise identically distributed sources

    Tota Suko, Toshiyasu Matsushima, Shigeichi Hirasawa

    Journal of Discrete Mathematical Sciences and Cryptography   13 ( 4 ) 383 - 391  2010

     View Summary

    The universal lossless source coding problem is one of the most important problem in communication systems. The aim of source coding is to compress data to reduce costs in digital communication. Traditional universal source coding schemes are usually designed for stationary sources. Recently, some universal codes for nonstationary sources have been proposed. Independent piecewise identically distributed (i.p.i.d.) sources are simple nonstationary sources that parameter changes discontinuously. In this paper, we assume new i.p.i.d. sources class, and we prove that Bayes codes minimize the mean redundancy when parameter transition pattern is known and parameter is unknown. © 2010 Taylor &amp
    Francis Group, LLC.

    DOI

    Scopus

  • 外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム

    須子統太, 松嶋敏泰, 平澤茂一

    情報処理学会論文誌数理モデル化と応用   Vol.1 ( No.1 ) 17 - 26  2008.09

    CiNii

  • 拡張された有本-Blahutアルゴリズムの大域的収束性について

    安井謙介, 須子統太, 松嶋敏泰

    電子情報通信学会論文誌   Vol.91-A ( No.9 ) 846 - 860  2008.09

    CiNii

  • Multiuser detection algorithm for CDMA based on the belief propagation algorithm

    Shunsuke Horii, Tota Suko, Toshiyasu Matsushima, Shigeichi Hirasawa

    IEEE International Symposium on Spread Spectrum Techniques and Applications     194 - 199  2008

     View Summary

    Optimum detection for the multiuser code-division multiple-access channel is prohibitively complex. This paper considers new iterative multiuser detection algorithm based on the belief propagation algorithm. Previously, the idea to apply the belief propagation algorithm to multiuser detection problem was suggested , however, it was believed that to apply the belief propagation algorithm to the detection problem is impossible because it requires an exponentially large amount of computation. It was the only fact that the parallel interference canceller is derived as an approximation of the belief propagation. In this paper, we show that the belief propagation algorithm can be applied to the detection problem by converting the factor graph structure. Performance of the detector based on the belief propagation algorithm is better than that of the parallel interference canceller. © 2008 IEEE.

    DOI

    Scopus

    1
    Citation
    (Scopus)
  • An algorithm for computing the secrecy capacity of broadcast channels with confidential messages

    Kensuke Yasui, Tota Suko, Toshiyasu Matsushima

    2007 IEEE INTERNATIONAL SYMPOSIUM ON INFORMATION THEORY PROCEEDINGS, VOLS 1-7   29 ( 1 ) 936 - 940  2007  [Refereed]

     View Summary

    In this paper, we present an iterative algorithm for computing the secrecy capacity of broadcast channel with confidential message (BCC) in the situation that the main channel is less noisy than the eavesdropper's channel. The global convergence of the algorithm is proved, and an expression for its convergence rate is derived.

    CiNii

  • Multiuser Detection Algorithms for CDMA based on the Massage Passing Algorithms

    Shunsuke Horii, Tota Suko, Toshiyasu Matsushima

    Proceeding of 2006 Hawaii, IEICE and SITA Joint Conference on Information Theory (HISC2006)   106 ( 60 ) 17 - 22  2006

    CiNii

▼display all

Books and Other Publications

  • IT Text 確率統計学

    須子統太, 鈴木誠, 浮田善文, 小林学, 後藤正幸

    オーム社  2010.09 ISBN: 9784274209130

Research Projects

  • 電子波動関数の時間発展データを用いたナノスケール半導体中の物性予測モデルの構築

    日本学術振興会  科学研究費助成事業

    Project Year :

    2023.04
    -
    2026.03
     

    村口 正和, 須子 統太

  • データの低品質性を考慮したデータ解析手法の開発と体系化

    日本学術振興会  科学研究費助成事業

    Project Year :

    2021.04
    -
    2024.03
     

    須子 統太

     View Summary

    本研究では,所謂ビッグデータにおけるデータの低品質性に着目し,低品質データからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで低品質データの統合的な扱い方を明らかにすることを目的としている.具体的には「目的A.統計的決定理論に基づく選択バイアス補正手法の開発」「目的B.不良回答を含むアンケートデータの分析手法の確立」「目的C.データ劣化過程の統合モデルの開発と体系化」という3つの目的に対する研究を進めていく.2021年度は目的AおよびBについて研究を実施した.
    目的A:選択バイアスの補正手法について,傾向スコア法や回帰モデル法など様々なアルゴリズムが提案されている.しかし,万能な補正アルゴリズムはなく,データによって補正精度の高いアルゴリズムが異なる事が実験的に示されている.そこで,選択バイアス発生のモデルを明確に定義することで,統計的決定理論に基づく最適な選択バイアス補正手法の提案を目的としている.2021年度は統計的決定理論に基づいた理論的なフレームワークを構築し,選択バイアス補正問題に対する理論的な最適戦略を明らかにした.また,人工データを用いた最適戦略のバイアス補正性能に関する評価実験を行った.この成果については国内学会にて発表を行い,同内容について現在論文投稿中である.
    目的B:不良回答が混入したアンケートに対する分析手法の開発を目的としている.2021年度は,アンケートに追加の設問を付与することで不良回答を検出する手法に関する理論的な検出精度の導出に関する研究を行った.本研究では一般的な設問の追加方法と不良回答混入モデルを提案することで,様々な状況における理論的な不良回答検出確率を導出した.これらの成果について国内学会での発表を行った.

  • 様々な低品質データに対応するロバストな分類アルゴリズムの開発

    Project Year :

    2018.04
    -
    2021.03
     

     View Summary

    蓄積されたデータをもとに,ある特徴量に対応するラベル(離散値)を予測する分類問題は,古くから統計学や機械学習,人工知能の分野で盛んに研究されている.近年様々な高精度な分類アルゴリズムが開発されたことにより,手書き文字認識,文書分類,購買行動予測など様々な場面でこれら分類アルゴリズムが活用されるようになってきた.その一方,必ずしも理想的な状況でデータが得られるとは限らず,低品質なデータに対する分類アルゴリズムの必要性が増してきている.そのため,ノイズを含むラベルからの学習や半教師あり学習など,様々な低品質なデータ取得状況に応じた分類手法の研究が個別に行われている.本研究では,分類問題におけるこれら低品質データの得られる状況を単一のモデルとして表現し,そのもとで高性能な分類アルゴリズムを構成することで,データの取得状況によらないロバストな分類アルゴリズムの開発を目的としている.本研究ではデータの発生構造として生成モデルおよび識別モデルと呼ばれる確率的な発生モデルを仮定し,それぞれにラベルノイズモデルを仮定した場合の分類アルゴリズムの提案および性能評価を行う計画を立てていた.2019年度は,当初予定を一部変更し,ノイズモデルのさらなる拡張を行い,潜在構造を持つ分類問題に対しラベルノイズモデルを適応した高性能な分類アルゴリズムの開発を行った.また,2018年度に行った漸近的な性能の理論解析の結果について,一部不十分な点が判明したため追加の研究を行い,提案したアルゴリズムの理論性能について詳細な解析結果を得た.2019年度の当初予定(研究課題申請時の計画)では,2018年度に行った,基本的な生成モデルを仮定した場合の分類アルゴリズムの開発および,そのアルゴリズムの性能評価を拡張し,生成モデルに対するカーネル法への拡張と識別モデルへの拡張を計画していた.しかし,2018年度の実績報告の際に報告した通り,2019年度開始時には計画を変更しており,2018年度に利用したラベルノイズモデルの更なる一般化および他のラベルノイズモデルを提案し,そのもとでデータの発生モデルとしては生成モデルを仮定した場合の分類アルゴリズムの提案およびその性能評価を行うことを計画していた.(尚この変更は,当初計画における「計画が予定通り進まない場合の対応」で想定していた範囲内の変更である.)本年度は変更された計画に従い,ラベルノイズモデルの更なる一般化として,潜在構造を持つ分類問題に対しラベルノイズモデルを拡張し分類アルゴリズムの開発とその性能評価を行った.また,2018年度に行った漸近的な性能の理論解析の結果について,一部不十分な点が判明したため追加の研究を行い,提案したアルゴリズムの理論性能について詳細な解析結果を得た.以上より,課題申請時の計画からは変更は出ているものの,2019年度当初に変更した計画通りに研究は進んでいる.2019年度の研究結果より,提案したモデルに対する新たな分類アルゴリズムについて,実験上の性能と理論解析における性能限界との間に大きな乖離がある事が分かった.これは提案したアルゴリズムの性能を更に向上させる事ができる可能性を示唆した結果であると考えられる.そこで2020年度は分類アルゴリズムの性能を理論限界に近づけるべく,アルゴリズムの挙動に対する詳細な調査および,それを元にしたアルゴリズムの改良を進めて行く予定である

  • Fundamental study on business analytics technologies on big data era

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research

    Project Year :

    2014.04
    -
    2017.03
     

    Goto Masayuki

     View Summary

    The objective of this study is to develop and deepen large-scale and diverse business data analytical technology (business analytics), propose new analytical models corresponding to various business data.Specifically, we promoted research on the following individual themes: 1) development of data analytics technology for database information on EC sites, 2) development of analytical technique of marketing information accumulated as text data, 3) development of statistical model for recommendar systems, 4) Theoretical analysis of Web marketing model using information retrieval and recommendation technology, 5) Development of analytical method for high dimensional and sparse large scale data, 6) Development of privacy protection data analysis technology

  • A Unified Analysis and Optimization of Information Security System with Probabilistic Components from Viewpoints of Convenience and Safety

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research

    Project Year :

    2013.04
    -
    2016.03
     

    MATSUSHIMA Toshiyasu, UKITA Yoshifumi, YOSHIDA Takahiro, NOMURA Ryo, SUKO Tota, HORII Shunsuke

     View Summary

    Information security problem with probabilistic components has been formulated by probabilistic models. Theoretical criteria for evaluation such as convenience and safety have been defined clearly and optimal attack or an authentication method has been derived theoretically. Theoretical safety bounds have been evaluated with respect to mathematical models with unified framework for each cipher or security system. A theoretical safety bound or optimality has been clarified with respect to a tradeoff between convenience and safety. New theoretical criteria have been derived for information security systems. Approximation algorithms with high performance for optimal attack or an authentication method have been constructed applying results of studies on problems in related fields such as learning or optimization theory that is formulated by probabilistic models equivalent to our study. Convenience or safety of information security systems has been simulated by applying these algorithms

  • Distributed Regression Protocols for Privacy Preserving Data Mining

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research

    Project Year :

    2013.04
    -
    2015.03
     

    SUKO Tota

     View Summary

    In this research, we study a privacy-preserving linear regression analysis. We consider the situation that a number of users have different data. They don’t want to show their data each other, but they want to calculate a certain estimator using all users data. Although some protocols conventionally proposed, we proposed some kind of protocols of distributed calculation method for practical use. we became privacy-preserving linear regression analysis available, if there is multicollinearity ,or sparse data

  • Text Mining for Languages of All Ages and Countries

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research

    Project Year :

    2010
    -
    2012
     

    SUZUKI Makoto, OHSUGA Akihiko, GOTO Masayuki, SUKO Tota

     View Summary

    We proposed the accumulation method, which is a language-independent text classification method that is based on the character N-gram. The accumulation method does not depend on the language structure, because this method uses the character N-gram to form index terms. If text documents are expressed in Unicode, then the accumulation method can classify documents using the same algorithm. Therefore, we classified English, Japanese, Korean, and Chinese text documents. As a result, the highest macro-averaged F-measures of the proposed method were 94.5% for the English Reuters-21578, 88.5% for the Japanese CD-Mainichi 2002 data set, 90.2% for the Korean Hankyoreh 2008 data set, and 92.6% for the People's Daily 2009-2010 data set. Thus, we obtained good results for these languages. Moreover, we were able to construct a mathematical model of the accumulation method and were able to clarify the mathematical meaning.

▼display all

Misc

  • BERTを用いた刑事裁判例における犯罪構成要件要素の抽出手法について

    中村, 恒太, 阿部, 太一, 西村, 剛輝, 中田, 己悠, 福岡, 咲歩, 須子, 統太, 野村, 亮, 仲道, 祐樹, 松澤, 伸

    第85回全国大会講演論文集   2023 ( 1 ) 651 - 652  2023.02

     View Summary

    刑事裁判例研究では法律専門家が大量の裁判例を読み込み,各犯罪の成立要件(構成要件)に該当する部分を抽出し比較する必要があるが,現状はこの作業を人手で行う必要がある.研究では,刑事裁判例研究の作業効率の改善のために,裁判例から各構成要件に該当する部分を抽出する.抽出は事前学習済みのBERTを用いて各構成要件と裁判例内の文章とのコサイン類似度を計算し,類似度の上位を各構成要件に該当する部分と判断する方法で行う.コサイン類似度を計算する際により典型的な裁判例から平均ベクトルを作成し用いること,抽出部分は各構成要件で重複しないこと,抽出順の変更を行うこと等により,抽出精度の改善が見られた.

  • A Study on Selection Bias Correction Based on Statistical Decision Theory in Logistic Regression Models

    ABE Taichi, SUKO Tota, GOTO Masayuki

    Proceedings of the Annual Conference of JSAI   JSAI2023   1G3GS102 - 1G3GS102  2023

     View Summary

    Online surveys are very useful for planning and verifying policies in many fields such as marketing because of their high cost-effectiveness and ease. However, due to difficulties to conduct it by random sampling, the survey results often contain selection bias. To cope with this problem, the method has been proposed by modeling the occurrence of selection bias and correcting it based on statistical decision theory. To apply this method to analyzing online surveys, it is necessary to put it into a specific model and examine its performance. In this study, we consider correcting selection bias in online surveys in which the response is binary and covariates are represented by continuous values, and assume logistic regression model as a data generation model. Then, we develop a correction method using a selection bias correction framework based on statistical decision theory. We also clarify its properties in numerical experiments on artificial data.

    DOI

  • 珠算競技における高負荷練習問題自動生成システム—Automatic Generation System of High-intensity Practice Exercises for Abacus

    須子, 統太, 原子, 弘務, 井上, 一磨, Suko, Tota, Harako, Hiromu, Inoue, Kazuma

    早稲田社会科学総合研究   20 ( 1 ) 39 - 47  2022.12

  • 刑事裁判例研究における類型化のための支援システム

    中田, 己悠, 西村, 剛輝, 須子, 統太, 野村, 亮, 仲道, 祐樹, 松澤, 伸

    第84回全国大会講演論文集   2022 ( 1 ) 921 - 922  2022.02

     View Summary

    刑法の研究では、「犯罪になりうる行為のうち、裁判所が実際に処罰しているのはどの範囲か」を客観的に把握することを目的として、裁判例の分析を行っている。裁判例は大量のテキストデータであり内容も千差万別であるが、分析に際し、いかなる類型についてどのような根拠で有罪としているかを分類するという事前作業が行われる。これら事前作業は一般的に専門家による読解と整理により行われており、人的コストが大きい。そこで、本研究では、刑法研究の作業効率を改善するため、この事前作業を自動化する支援システムの開発を行う。代表的な刑法裁判例をもとに提案システムによる分類を行い,事前作業としての要件を満たしているか検証を行う。

  • 不良回答検出のためのアンケート設計方法について

    伊藤, 健太郎, 須子, 統太, 小林, 学

    第84回全国大会講演論文集   2022 ( 1 ) 445 - 446  2022.02

     View Summary

    近年,Webアンケート等によるアンケート調査が様々な場面で活用されている.しかし,Webアンケートには不良回答が混入することが多く,アンケートの信頼性に問題がある.不良回答に対する一般的な対処方法として,アンケート設計時に特殊な設問を追加することで不良回答を検出する手法が提案されているが,検出の精度についての議論は少ない.そこで本研究では,不良回答混入モデルを仮定したもとで,不良回答検出のためのアンケート設計方法の統一的な枠組みを示し,いくつかの具体的な設計方法について検出誤り率の評価を行う.

  • 中国人日本語学習者による日中同形異義語誤り検出方法について

    崔, 可欣, 須子, 統太

    第84回全国大会講演論文集   2022 ( 1 ) 791 - 792  2022.02

     View Summary

    中国語と日本語は同じ漢字を使用する言語であるため同形語が多数存在する.その中には,同じ意味を表している同形同義語もあるが,意味の異なる同形異義語も多数存在する.そのため,中国人日本語学習者が日本語文章を作成する際,同形異義語を中国語の意味を用いて誤用しやすい傾向がある.このような文章は日本人が読むと違和感を感じるが,文法上の誤りがない場合一見して誤っていることが分かりにくい.そこで本研究では,中国人日本語学習者の学習支援を目的とした,日中同形異義語誤りの自動検出方法を検討する.事前学習済みのBERTと日中同形異義語の辞書を用いた,誤り検出アルゴリズムを提案し,評価実験により有効性を検証する.

  • Creation and multi-purpose use of full-on-demand content for data science education

    HORII Shunsuke, NOMURA Ryo, SUKO Tota

    Proceedings of the Conference of Transdisciplinary Federation of Science and Technology   2022   A-1-2  2022

     View Summary

    The Center for Data Science at Waseda University offers many full-on-demand courses related to data science, including statistics and machine learning. Since more than 10,000 students take these courses throughout the year, several faculty members work together to create the course content for a long time. The created contents are used in classes and in various ways, such as for students' self-study. This presentation will introduce the content creation method and its usage.

    DOI

  • Examples of Industry-Academia Collaboration in Data Science

    SUKO Tota, HORII Shunsuke, KOBAYASHI Manabu

    Proceedings of the Conference of Transdisciplinary Federation of Science and Technology   2022   A-1-4  2022

     View Summary

    Waseda University has established Waseda Data Science Consortium, and has been engaged in various initiatives in collaboration with companies. In this presentation, we will introduce some examples of these activities. Then, the future collaboration between universities and companies in the field of data science will be discussed.

    DOI

  • Word2vecを用いた日本語文章における同音異義語誤り検出方法について

    吉村, 光汰, 須子, 統太

    第83回全国大会講演論文集   2021 ( 1 ) 551 - 552  2021.03

     View Summary

    現在,文書作成ソフトには校正機能が備わっている.しかし,一般的な校正機能では,助詞,助動詞等の文法誤りの検出や,存在する単語であるかの検査は行うが,名詞や動詞,形容詞などにおける同音異義語の変換誤りは検出できない場合が多い.文章作成ソフトで作成された日本語文章において同音異義語の変換誤りは多く,これらを検出する機能は非常に重要な機能であると言える.本研究では,Word2vecを用いることで,文書中に出現した単語と周辺の単語との距離を算出し,同音異義語の変換誤りが無いか検出する方法を提案する.実際の新聞記事データに対し評価実験を行い,提案手法の有効性を検証する.

    CiNii

  • Modeling of electron transmission and time-development of electron density distribution in the nanoscale device under random impurity fluctuation with machine learning

    Nakaya Ryuho, Kawahara Souma, Itoh Yoshitaka, Suko Tota, Muraguchi Masakazu

    JSAP Annual Meetings Extended Abstracts   2020.1   2604 - 2604  2020.02

    DOI

  • アンケートデータにおける選択バイアスの補正手法の選択方法についての一考察

    沢田, 拓也, 西尾, 和恭, 石澤, 由宇輔, 須子, 統太

    第82回全国大会講演論文集   2020 ( 1 ) 559 - 560  2020.02

     View Summary

    アンケート調査は無作為抽出を前提としている。しかし実際に無作為抽出を行うことは難しく、選択バイアスによって集計結果の信頼性が低下することが多々ある。選択バイアスに対する補正手法は従来よりいくつか提案されているが、どのような調査データにも対応できる万能な手法はなく、対象となるデータによって有効な補正手法が異なることが知られている。そこで本研究では、ある調査データに対してどの補正手法を用いるのが最適かを選択する手法について検討する。

    CiNii

  • アンケート分析における不良回答の影響に関する一考察

    成川, 広貴, 村木, 鴻介, 須子, 統太

    第82回全国大会講演論文集   2020 ( 1 ) 623 - 624  2020.02

     View Summary

    近年、インターネット利用者の拡大を背景に、Webを利用したアンケート調査が広く行われている。webアンケートは「安く」、「早く」アンケート調査が実施できるという利点がある反面、回答者が正しく設問に回答しない、いわゆる「不良回答」が混入しやすいという問題がある。不良回答については回答時間をもとに識別を行う手法やアンケートの設問を工夫することで不良回答を検出する手法といった不良回答の除去方法について提案が行われてきた。本研究では不良回答のパターンを確率的にモデル化することで、アンケートに及ぼす不良回答の影響度合いを考察する。

    CiNii

  • Modeling of electron transmission process in the channel of nanoscale device under random impurity fluctuation with machine learning

    Nakaya Ryuho, Hirata Koudai, Kawahara Souma, Suko Tota, Muraguchi Masakazu

    JSAP Annual Meetings Extended Abstracts   2019.2   2984 - 2984  2019.09

    DOI

  • モジュール化されたオンライン統計教材を利用した効率的に学習可能なシステムの構築

    堀井俊佑, 石井雄隆, 須子統太

    統計教育実践研究     13 - 16  2019.03

    Research paper, summary (national, other academic conference)  

  • 珠算競技における苦手問題自動作成法について〜かけ算に対する検討〜

    北村, 瑠菜, 原子, 弘務, 守屋, 郁宏, 神頭, 和希, 於勢, 奈都子, 角田, 和正, 須子, 統太

    第81回全国大会講演論文集   2019 ( 1 ) 731 - 732  2019.02

     View Summary

    珠算競技は,解答時間の早さと正答率の高さを競う競技である.しかし効率的な練習方法は確立しておらず,一般的には単調な反復練習のみが行われている.従来,わり算種目に対して機械学習を利用した効率的な練習問題の自動作成法が提案されているが,珠算には多くの種目が存在し,他種目にわり算の自動生成手法をそのまま活用することはできない. そこで本研究では,新たにかけ算種目に対して機械学習を用いた苦手問題の自動作成法を開発する.また,従来研究では被験者1名で実験していたのに対し,本研究では被験者を5名に増やすことで競技者間での特性の違いについての検証も行う.

    CiNii

  • 不良回答を含むアンケートデータの信頼性向上手法について

    村木, 鴻介, 髙橋, 朋治, 小田, 陽平, 丹生谷, 英子, 須子, 統太

    第81回全国大会講演論文集   2019 ( 1 ) 685 - 686  2019.02

     View Summary

    近年,様々な場面でWebを利用したアンケート収集が行われている.Webアンケートは手ごろに行えるという利点がある反面,回答者が正しく設問に回答しない,いわゆる不良回答が混入しやすいという問題がある.通常,不良回答はルールベースで除去されるのが一般的である.また,アンケートの設問を工夫することで不良回答を検出しやすくする手法が提案されている.本研究では不良回答のパターンを確率的にモデル化することで,不良回答が含まれたアンケートデータに対し,集計値の信頼性が向上する手法を提案する.また,実際の大規模アンケートデータを用いた提案手法の有効性の検証を行う.

    CiNii

  • アンケートデータにおける選択バイアス補正法に関する一考察

    西尾, 和恭, 岡野, 拓巳, 戸次, 陸, 芝, 千尋, 須子, 統太

    第81回全国大会講演論文集   2019 ( 1 ) 687 - 688  2019.02

     View Summary

    アンケート調査において,完全な無作為抽出を行う事は難しく,選択バイアスによって集計結果の信頼性が低くなることが多々ある.従来,選択バイアスが含まれるデータに対する分析手法として,傾向スコア法や回帰モデルを利用した方法などが提案されている.しかし各々の手法がどのような状況において上手く補正できるかについて充分明らかにされていない.そこで本研究では,実際のアンケートデータを用いた実験を行うことで,各手法の性質を明らかにする事を目的とする.実際に集められた大規模なアンケートデータを利用し,疑似的に選択バイアスを発生させることで,各手法の性質を明らかにする.

    CiNii

  • 珠算競技における効果的な練習問題の自動生成法について

    原子, 弘務, 井上, 一磨, 諏訪, 貴大, 福岡, 省伍, 村田, 遼, 須子, 統太

    第80回全国大会講演論文集   2018 ( 1 ) 897 - 898  2018.03

     View Summary

    珠算競技は解答時間の早さ、並びに正答率の高さを競う競技である。しかし確立された練習方法は存在しない。そのため、従来までの練習は単調なものであり、効果の善し悪しを理解しないまま継続されてきた。そこで本研究では効率の良い練習方法の確立を目的とする。まずはランダムに生成した練習問題の中から間違えた問題や、数字の並び・計算過程において苦手であると感じた問題のデータ化を行った。その元で機械学習法を用いた苦手問題の自動生成法を提案した。提案手法により生成される苦手問題を用いて練習を行い、その効果を検証した。

    CiNii

  • Webアンケートデータを用いた分布推定における信頼性向上手法に関する一考察

    佐藤, 真悟, 岡野, 拓巳, 戸次, 陸, 杉本, 瑛生, 國安, 裕太, 須子, 統太

    第80回全国大会講演論文集   2018 ( 1 ) 461 - 462  2018.03

     View Summary

    近年、様々な場面でWebを利用したアンケート収集が行われている。Webアンケートは収集コストが低く抑えられる反面、対象とする母集団からのランダムサンプリングとみなせない事が多く、集計結果の信頼性が著しく低い事が多々ある。通常、リサンプリングによりデータの補正を行うが、属性ごとのサンプルサイズが小さくなってしまい、十分な精度の集計結果が得られない場合がある。そこで、本研究では母集団における属性比率と、取得データの属性比率の偏りを補正することで、アンケートデータの信頼性を効率よく向上させる手法を提案する。また、実際のECサイトの購買データとアンケートデータを利用し、提案手法の有効性の検証を行う.

    CiNii

  • 最大次数が未知の多項式回帰におけるスパース推定

    井上, 一磨, 須子, 統太

    第80回全国大会講演論文集   2018 ( 1 ) 281 - 282  2018.03

     View Summary

    近年,統計学,機械学習の分野でスパース推定に関する研究が数多く行われている.その中で,従来多項式回帰モデルに対してスパース推定を行う研究が行われている.しかし,いずれの研究も最大次数を固定した場合しか扱っていない.そこで本研究では最大次数が未知の多項式回帰モデルに対してスパース推定を行うアルゴリズムを提案する.提案手法は従来のモデルを含むより広いクラスのモデルに対して用いることが可能である.また,提案手法を用いて人工データと実データに対して有効性の検証を行う.

    CiNii

  • 一般化ラベルノイズモデルにおける分類問題について—The Classification Problem in Generalized Label Noise Model—情報論的学習理論と機械学習

    須子 統太, 堀井 俊佑

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   117 ( 293 ) 377 - 382  2017.11

    CiNii

  • ランダム回答法におけるオンラインベイズ推定について—Online Bayesian estimation of Randomized Response models

    須子 統太, 堀井 俊佑

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   115 ( 235 ) 7 - 11  2015.10

    CiNii

  • 詳細な学習ログを用いた英語リーディング過程の分析(2) ログデータから見た成績との関係

    中野美知子, 吉田諭史, 須子統太, 玉木欽也, ギエルモ エンリケズ

    情報処理学会第77回全国大会 講演論文集   4 ( 1 ) 503 - 504  2015.03

    CiNii

  • 電子教材とワークシートを用いた統計基礎教育におけるブレンディッドラーニングに関する一考察

    小泉大城, 須子統太, 平澤茂一

    情報処理学会第77回全国大会 講演論文集   4 ( 1 ) 605 - 606  2015.03

    CiNii

  • プライバシー保護機能を持つ分散型正則化最小二乗法について

    須子統太, 堀井俊佑, 小林学

    第37回情報理論とその応用シンポジウム予稿集(SITA2014)     300 - 305  2014.11

  • 統計基礎学修のためのブレンディッドラーニングの取り組み

    小泉 大城, 須子 統太

    平成26年度私立大学情報教育協会 ICT利用による教育改善研究発表会 資料集     28 - 29  2014.08

  • PDFファイルをベースとした電子教材作成支援システム

    荒本 道隆, 小泉 大城, 須子 統太, 平澤 茂一

    情報処理学会 第76回全国大会 講演論文集   4 ( 1 ) 359 - 361  2014.03

    CiNii

  • 統計基礎教育のためのタブレット型端末向け電子教材の試作と評価

    小泉 大城, 須子 統太, 平澤 茂一

    情報処理学会 第76回全国大会 講演論文集   4 ( 1 ) 361 - 362  2014.03

    CiNii

  • 判別を目的としたプライバシー保護データ解析に関する一考察

    後藤正幸, 須子統太, 小林 学, 平澤茂一

    日本経営工学会 平成25年春季大会予稿集     54 - 55  2013.05

  • 大学教育のための電子教材の試作 〜 タブレット端末向け統計基礎教材 〜

    小泉大城, 須子統太, 平澤茂一

    情報処理学会 第75回全国大会 講演論文集   4 ( 1 ) 467 - 468  2013.03

    CiNii

  • Hierarchical Multi-label Classification on Statistical Decision Theory

    YAMAMOTO Kiyohito, SUKO Tota, MATSUSHIMA Toshiyasu

      112 ( 454 ) 101 - 106  2013.02

     View Summary

    This paper considers multi-label classification on statistical decision theory. In Label Power Set format, multi-label classification is equivalent to multi-class classification. However, the number of classes increases exponentially as elements in label set grow in number. Hence in case of many labels, a prohibitive computational cost problem occurs. To avoid this problem, some studies have been done and one of them used hierarchical structure. On the other hand, optimal classification method based on bayes rule has been attracted much attention recently. We apply this optimal classification method based on bayes rule to multi-label classification problem. Moreover, assuming hierarchical structure on labels, we propose efficient classification algorithms which reduce computational cost to linear order on the number of elements in label set. Since optimal classification based on bayes rule differs calculation formula depending loss function, we present algorithms in case of O-1 loss and hamming loss, respectively.

    CiNii

  • Iterative Multiuser Joint Decoding based on Augmented Lagrangian Method

    Shunsuke Horii, Tota Suko, Toshiyasu Matsushima, Shigeichi Hirasawa

    電子情報通信学会技術研究報告   IT2013-34   13 - 17  2013

  • 真の分布を含むとは限らない階層モデル族に対するベイズ推定の漸近評価

    宮希望, 須子統太, 安田豪毅, 松嶋敏泰

    第36回情報理論とその応用シンポジウム予稿集(SITA2013)     665 - 670  2013

  • 半教師付き学習における一致推定量に基づく予測の漸近評価,

    安田豪毅, 宮希望, 須子統太, 松嶋敏泰

    第36回情報理論とその応用シンポジウム予稿集(SITA2013)     659 - 664  2013

  • 次数未知の多変数多項式回帰モデルにおけるベイズ予測

    山本粋士, 須子統太, 松嶋敏泰

    第36回情報理論とその応用シンポジウム予稿集(SITA2013)     520 - 524  2013

  • 線形回帰モデルにおけるベイズ決定理論に基づく予測の近似手法

    都築遼馬, 須子統太, 松嶋敏泰

    第36回情報理論とその応用シンポジウム予稿集(SITA2013)     438 - 441  2013

  • プライバシー保護を目的とした線形回帰モデルにおける事後確率最大推定量の分散計算法について

    中井 祥人, 須子統太, 松嶋敏泰

    電子情報通信学会技術研究報告   IBISML, 112(454) ( 452 ) 47 - 54  2013

    CiNii

  • 情報環境利用に関する満足度データの項目反応理論による検討

    岩間, 徳兼, 木村, 好美, 石田, 崇, 須子, 統太, 末松, 大

    MNC Communications   14  2012.12

    CiNii

  • 木構造を仮定した信号に対する拡張ラグランジュ法に基づいた圧縮センシングについて

    堀井俊佑, 須子統太, 松嶋敏泰

    第35回情報理論とその応用シンポジウム予稿集     320 - 325  2012

  • プライバシー保護を目的とした線形回帰モデルにおける最小二乗推定量 の分散計算法について

    須子統太, 堀井俊佑, 小林学, 後藤正幸, 松嶋敏泰, 平澤茂一

    電子情報通信学会技術研究報告   IBISML2012-49 ( 279 ) 107 - 111  2012

    CiNii

  • プライバシー保護を目的とした回帰分析の拡張について

    須子統太, 堀井俊佑, 小林学, 松嶋敏泰, 平澤茂一

    第35回情報理論とその応用シンポジウム予稿集     562 - 567  2012

  • 真のモデルを含まないパラメトリックモデル族に対するベイズ予測の漸近評価

    宮希望, 須子統太, 松嶋敏泰

    電子情報通信学会技術研究報告   IT2011-11 ( 142 ) 71 - 76  2011

    CiNii

  • Maximum likelihood detection for DS-CDMA using Gr�{o}bner bases

    Shunsuke Horii, Tota Suko, Toshiyasu Matsushima, Shigeichi Hirasawa

    第33回情報理論とその応用シンポジウム予稿集     489 - 493  2010

  • 複数の相関のある情報源に対するベイズ符号化について

    須子統太, 堀井俊佑, 松嶋敏泰, 平澤茂一

    第33回情報理論とその応用シンポジウム予稿集     759 - 763  2010

  • A Note on Multiuser Detection Algorithms for CDMA based on the Belief Propagation Algorithm

    S. Horii, T. Suko, T. Matsushima, S. Hirasawa

    電子情報通信学会技術報告   IT2007-26 ( 422 ) 7 - 12  2008

    CiNii

  • 区間で一定なパラメータを持つ非定常情報源の漸近的な性質について

    須子統太, 松嶋敏泰, 平澤茂一

    第31回情報理論とその応用シンポジウム予稿集     815 - 818  2008

  • マーキング仮定に基づくフィンガープリンティング符号のキャパシティについて

    柴田大介, 須子統太, 松嶋敏泰

    暗号と情報セキュリティシンポジウム予稿集    2008

  • 外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム

    須子統太, 松嶋敏泰, 平澤茂一

    情報処理学会研究報告   2007-MPS-67 ( 128 ) 13 - 16  2007

     View Summary

    Outliers are often included in statistical data. The statistics analysis result is influenced from outliers. Therefore, there are many researches for handling of outliers. Box modeled outliers using mixture distribution. There are many researches that aim parameter estimation or outlier detection about this model. In this paper, we treat prediction problem about this model. First, we present an optimal prediction method with reference to the Bayes criterion in this model. The computational complexity of this method grows exponentially. Next, we propose an approximation algorithm reducing the computational complexity using EM algorithm, and evaluate this algorithm through some simulations.

    CiNii

  • 密情報を持つBroadcast Channel の Secrecy Capacity 計算アルゴリズム

    安井謙介, 須子統太, 松嶋敏泰

    第29回情報理論とその応用シンポジウム予稿集     69 - 73  2006

  • A Note on Universal Coding Algorithm with the BWT

    SUKO Tota, MATSUSHIMA Toshiyasu, HIRASAWA Shigeichi

      28 ( 1 ) 315 - 318  2005.11

    CiNii

  • 電子透かしにおける秘匿容量の計算手法に関する研究

    安井謙介, 須子統太, 松嶋敏泰

    電子情報通信学会技術報告   IT2005-47 ( 191 ) 29 - 34  2005

    CiNii

  • 使用ユーザが変化するDS/CDMAシステムにおけるベイズ最適なマルチユーザ検出について

    堀井俊佑, 須子統太, 松嶋敏泰

    第28回情報理論とその応用シンポジウム予稿集   28 ( 2 ) 781 - 784  2005

    CiNii

  • 電子透かしにおける秘匿容量計算計算アルゴリズム

    安井謙介, 須子統太, 松嶋敏泰

    電子情報通信学会技術報告   IT2005-94 ( 665 ) 177 - 182  2005

    CiNii

  • BW変換を用いたユニバーサル符号化アルゴリズムに関する研究

    須子統太, 松嶋敏泰, 平澤茂一

    第28回情報理論とその応用シンポジウム予稿集     343 - 346  2005

  • 階層モデルにおけるベイズ予測の漸近評価に関する一考察

    宅味丈夫, 須子統太, 松嶋敏泰

    第27回情報理論とその応用シンポジウム予稿集   27 ( 2 ) 639 - 642  2004

    CiNii

  • 区間で定常なパラメータを持つ非定常情報源におけるベイズ符号の冗長度について

    須子統太, 松嶋敏泰, 平澤茂一

    電子情報通信学会技術報告   IT2004-22 ( 229 ) 23 - 28  2004

     View Summary

    In this paper we treat universal source coding when the parameters of the probabilistic model of source are known. Bayes code is one of the wellknowm universal codes. Bayes code has Bayes optimality in point of minimization of redundancy. Recently, many researches of Bayes code for nohstationary sources are done. Researches for sources with piecewise constant parameters are one of them. Each sections are visible to stationary sources. But these sources have abruptly changing parameters. And they are treated as nonstationary sources. But the Asymptotic character of mean redundancy for this source is not known. In this paper, we evaluate asymptotic mean redundancy of this source with the conditions of change number is not kown. And we show that Bayes code has universality with some condtions.

    CiNii

  • 外れ値データの発生を考慮にいれた回帰モデルにおけるベイズ予測法について

    須子統太, 仲川文隆, 松嶋敏泰

    2004年情報論的学習理論ワークショップ(IBIS2004)予稿集     34 - 39  2004

  • 区間で一定なパラメータを持つ非定常情報源におけるベイズ符号の冗長度について

    須子統太, 松嶋 敏泰, 平澤 茂一

    第27回情報理論とその応用シンポジウム予稿集   27 ( 2 ) 523 - 526  2004

    CiNii

  • 決定木モデルにおける予測アルゴリズムについて

    須子統太, 野村亮, 松嶋敏泰, 平澤茂一

    電子情報通信学会技術報告   COMP2003-36 ( 246 ) 93 - 98  2003

    CiNii

  • 区間で一定なパラメータを持つ情報源におけるベイズ符号化法について

    須子統太, 松嶋敏泰, 平澤茂一

    第26回情報理論とその応用シンポジウム予稿集   26 ( 1 ) 165 - 168  2003

    CiNii

  • 相関のある時系列の状態空間によるモデル化と予測

    鈴木悠哉, 須子統太, 松嶋敏泰

    電子情報通信学会技術報告   IT2003-38 ( 215 ) 87 - 92  2003

     View Summary

    Gaussian and Liner state space model is one of time series analyses. Kalman Filtering is the method to obtain the Bayes Inference on valiances known Gaussian and Liner state space model. Monte Carlo Filtering is the method to calculate the estimated value on general state space model. When we execute such analysis, there sometimes exist plural time series at the same time. In such case, we should calculate the estimated value from these correlated series. In this paper, we propose the expanded state space model, which includes these time series. Next, we propose how to calculate the estimated value by using information of all time series. Morever, to make sure that our proposition is effective; we prove that the expectation of our predicted risk is smaller than that of single time series. We also show some experimental results by simulation.

    CiNii

  • ベイズ決定理論に基づく予測における近似手法について

    江口公盛, 須子統太, 松嶋敏泰

    第26回情報理論とその応用シンポジウム予稿集   26 ( 2 ) 703 - 706  2003

    CiNii

  • 拡張された階層モデルにおける予測アルゴリズムについて

    須子統太, 野村亮, 松嶋敏泰

    第25回情報理論とその応用シンポジウム予稿集     755 - 758  2002

    CiNii

▼display all

 

Syllabus

▼display all

 

Sub-affiliation

  • Affiliated organization   Global Education Center

Research Institute

  • 2023
     
     

    Center for Higher Education Studies   Concurrent Researcher

  • 2022
    -
    2024

    Waseda Research Institute for Science and Engineering   Concurrent Researcher

Internal Special Research Projects

  • 先端データ科学技法のビジネス分野への応用と基礎的課題の発見

    2023   仲道祐樹, 野村亮

     View Summary

    本研究課題では,当初ビジネス分野におけるAIや機械学習などの先端データ科学技法の応用を目的としていたが,計画を一部変更し,社会科学分野,特に法律分野における応用についての研究を行った.具体的には,刑法の研究における定量分析や法律業務の支援を目的とし,生成AIを用いた刑事裁判例における構成要件該当事実の抽出手法の開発と評価を行った.構成要件とは刑法の条文に規定されている犯罪が成立するために満たされるべき要件を表す.刑事裁判例において具体的な事実のどの部分が構成要件として認定されているかを知ることは,刑法の研究において非常に重要な分析となる.しかしながら,大量の刑事裁判から構成要件要素を人手で抽出するには高い専門性と労力が必要となる.そこでデータ科学を活用した自動抽出システムの開発を目指した.従来,研究代表者は同様の目的を持つシステムをBERTなどの自然言語モデルを利用して開発していたが実用に耐える精度には至らない結果に終わっていた.しかしながら,OpenAI社によって発表されたGPT4のAPIを用いることで高精度なシステムの構築が期待されたことから提案システムの開発を行った.法学研究者と連携することで,実際の刑事裁判例に対し,構成要件該当事実についての正しい抽出データを作成することで,提案システムがどの程度正しく該当箇所を抽出できるか評価を行った.その結果,いくつかの条文に対応する刑事裁判例に対し,非常に高い精度の抽出を行える事が分かった.本研究の結果については,2024年5月に開催される人工知能学会全国大会で発表を行う予定である.

  • ナノスケール半導体デバイス設計のための機械学習アルゴリズムの開発

    2021   村口 正和

     View Summary

    近年,ナノスケールのデバイス設計に機械学習を⽤いることで,量⼦物理を取り込んだシミュレーションの煩雑さと計算コストの課題克服を⽬指す研究が進められている.本研究では,ナノスケールの半導体デバイス中のキャリアダイナミクスシミュレーションをモチーフとし,シミュレーションによるデバイス設計を機械学習により代替するための3種類の予測モデルの開発を行った.①不純物分布から電⼦の透過率を予測するモデル,②不純物分布および電子密度の初期状態から電子密度分布の変化を予測するモデル,③電子密度の変化データから不純物分布を予測するモデル.①については論文投稿を行い受理,②と③については学会発表を行った.

  • 低品質データ解析アルゴリズムの一般化と実データへの適用

    2020  

     View Summary

    様々な低品質データに対するデータ解析手法の開発を目的とし研究を行った.まず,ラベルにノイズを含む分類問題に関する研究を行った.誤りや欠損など様々なノイズ混入を一般的に表現可能なモデルを提案し,それに対応する分類アルゴリズムの提案を行い,その理論性能について評価を行った.また,日本語文書における同音異義語誤りを検出するアルゴリズムを提案し,実験によりその性能評価を行った.

  • 先端データ科学アルゴリズムの人文社会科学分野への応用

    2019  

     View Summary

    本研究課題では自身や他の研究者が開発した最新のデータ分析アルゴリズムを様々な実データに対して適用することで,様々な分析対象における実問題の解決を図るとともに,分析アルゴリズムの欠点や問題点を明らかにし,新たな分析アルゴリズムの開発に繋がる知見を得る事を目的としていた.本年度は,実際の大規模な消費者アンケートデータを分析対象とし,信頼度の低いアンケートデータにおける分析アルゴリズムの開発を行った.更に,半導体中での電子ダイナミクス計算によって得られたデータを対象とし,ナノスケールデバイスの設計における機械学習アルゴリズムの応用に関する研究を行った.

  • 低品質データのための次世代データ解析基盤の構築

    2017  

     View Summary

     様々な低品質データに対するデータ解析手法の開発を目的とし研究を行った.まず,ラベルにノイズを含む分類問題に関する研究を行った.誤りや欠損など様々なノイズ混入を一般的に表現可能なモデルを提案し,それに対応する分類アルゴリズムの提案を行った.次に,Web調査などのランダムサンプリングの前提が崩れているアンケートデータを用いて,母集団の回答分布を推定する研究を行った.最後に,重回帰分析におけるスパース推定について研究した.説明変数に複雑な交互作用や,高次の項を含む多項式回帰モデルにおいて,最大次数が未知の場合のスパース推定アルゴリズムを提案した.それぞれの研究成果については国内学会で発表を行った.

  • クラウド環境における確率モデルに基づく無歪み高圧縮符号化に関する研究

    2011  

     View Summary

    膨大な量のディジタルデータが流通する現代において,データ圧縮(情報源符号化)技術は,ネットワーク社会を支える重要な基盤技術のひとつとなっている.現在,主に使われているデータ圧縮技術は80 年代にZiv らによって提案されたLempel-Ziv 法(LZ 法)を基礎においている.具体的には,gzip などの圧縮ツールに用いられている手法である.LZ 法が提案されて以来,LZ法をベースにした改良法の研究が数多くされてきたものの,90 年代後半になると一定の成果を得たことで大きな進展はなくなった.また情報ネットワークの高速化に伴い,アルゴリズムの改善によるメリットが薄れてきたため,圧縮技術に関する研究は1 度は収束を迎えたかのように見えた.しかし近年,ネットワークの高速化が頭打ちになりつつある中,クラウドコンピューティングの発達やディジタルコンテンツの大容量化により,ネットワークトラヒックやサーバの記憶容量は増加の一途を辿っている.そのため,データ圧縮技術のさらなる発展が求められるようになり,今後のネットワーク社会における重要な課題のひとつであると考えられる.データ圧縮アルゴリズムは,圧縮対象となるデータの出現構造に対し,陽に確率モデルを仮定するアルゴリズムと,陽には仮定しないアルゴリズムに分類することができる.前者にはCTW法やベイズ符号など,後者にはLZ 法やその改良法などが含まれる.圧縮アルゴリズムの性能評価は,データのサイズを伸ばしていった時に,圧縮後のファイルのサイズが,圧縮の理論限界であるエントロピーへ収束するのか,また収束する場合にはどれくらいの速さで収束するのか,によって評価される.確率モデルを陽に仮定するアルゴリズムは,エントロピーの収束速度が非常に速い代わりに,仮定した確率モデルに対してしかエントロピーへの収束を保証できない.それに対し,LZ 法などの確率モデルを陽に仮定しないアルゴリズムは,非常に広いモデルのクラスに対してエントロピーへの収束が保証できる代わりに,その収束速度は非常に遅く,有限時点での圧縮性能は必ずしも高くない.現在主流として用いられている圧縮技術のほとんどは,LZ 法をベースとした確率モデルを陽に仮定しないアルゴリズムを用いているため,汎用性は高いものの個々のファイルに対しての圧縮性能は必ずしも高いとは言えず,圧縮率の改善の余地はまだまだあると考えられる.その一方,ベイズ符号などの確率モデルを仮定するアルゴリズムに関する研究は,限られた確率モデルに対する研究しか行われておらず,実用的なデータ構造に対する研究が不十分であるため実用化には至っていない.そこで本研究では,高圧縮率である確率モデルを仮定した圧縮アルゴリズムを,実用的なデータ構造に対して適用することを目的として研究を行った.特に従来テキストデータに対して,非常に高い圧縮率を持ち,理論的最適性の保証することのできるベイズ符号を他のデータ構造に対し拡張し適用を行った.その結果,アルゴリズムを実装する際,ベイズ符号が仮定する確率モデルと,真の確率構造がことなる場合においても,ベイズ符号は一定の圧縮性能を持つ事を理論的に示すことができた.

  • 実用化に向けた高圧縮符号化アルゴリズムに関する研究

    2006  

     View Summary

    情報ネットワーク社会において,情報の圧縮技術は欠くことのできない基盤技術である.現在、主に使われている圧縮技術は80年代にZivらによって提案されたLempel-Ziv法(LZ法)を基礎においている.具体的には,gzipなどの圧縮ツールのアルゴリズムで使われている.LZ法が提案されて以来,LZ法をベースにした改良法の研究が数多くされてきた.90年代後半になると,一定の成果を得たことで,大きな進展はなくなり,また情報ネットワークの高速化に伴い,多少の改善によるメリットが薄れてきたため,圧縮技術に関する研究は,一度は収束を迎えたかのように見えた.しかし近年,情報ネットワークの高速化が頭打ちになりつつある中,情報コンテンツの大容量化の速度は依然衰えず,圧縮技術の重要性が増しつつある.そのため,圧縮技術の基礎理論のさらなる発展は今後のネットワーク社会における重要な課題のひとつである.90年代に研究されていたベイズ符号という符号化法がある.この符号は,理論限界を達成することが示されており,他の符号よりも高い圧縮率で圧縮することが可能であることが知られている.従来,ベイズ符号やその他の符号に関する研究では定常な情報源に対しての研究がほとんどであり,より一般的な情報源である非定常情報源に対する研究は少ない.実際に圧縮するデータが非定常性を有することは充分に考えられ,実用化に際しては非定常な情報源に対しても性能が保証される符号の構成が必要となってくる.そこで本研究ではある非定常な情報源のクラスに対し,効率的なベイズ符号の構成法を提案し,それに対する漸近的な性能評価を行った.

▼display all