Updated on 2024/04/25

写真a

 
TANAKA-ISHII, Kumiko
 
Affiliation
Faculty of Science and Engineering, School of Fundamental Science and Engineering
Job title
Professor
Degree
Ph.D.

Research Experience

  • 2023.04
    -
    Now

    WASEDA University   School of Fundamental Science and Engineering   Professor

  • 2016.04
    -
    2023.03

    The University of Tokyo   RCAST   Professor

  • 2012.04
    -
    2016.03

    Kyushu University   Professor

  • 2007.04
    -
    2012.03

    The University of Tokyo   The Graduate School of Information Science and Technology   Associate professor

  • 2005.04
    -
    2007.03

    The University of Tokyo   The Graduate School of Information Science and Technology   Associate professor

  • 2003.03
    -
    2005.03

    The University of Tokyo   Information Technology Center   Associate professor

  • 2000.03
    -
    2003.02

    The University of Tokyo   Interfaculty Initiative in Information Studies Graduate School of Interdisciplinary Information Studies   Senior Lecturer

  • 1997.04
    -
    2000.03

    Agency of Industrial Science and Technology

▼display all

Education Background

  • 1993.04
    -
    1997.03

    The University of Tokyo   Ph.D. natural language processing  

  • 1994.06
    -
    1995.05

    LIMSI-CNRS   Visiting researcher  

  • 1991.04
    -
    1993.03

    The University of Tokyo   M.E. functional programming language  

  • 1987.04
    -
    1991.03

    The University of Tokyo   The Faculty of Engineering   Department of Mathematical Engineering and Information Physics  

Committee Memberships

  • 2021
    -
    Now

    Association for Computational Linguistics  ACL Rolling Review

  • 2018
    -
    Now

    大川情報通信基金  大川出版賞審査委員

  • 2022
    -
     

    JST  AIP 関連4 領域評価評価委員(ACT-I 評価委員)

  • 2022
    -
     

    Conference on Computational Linguistics (COLING),  査読委員

  • 2021
    -
    2022

    Large Resources and EvaluationConference (LREC),  査読委員

  • 2021
    -
     

    JSPS  科研費国際共同研究B 審査委員

  • 2021
    -
     

    North American Chapter of Annual Conference on Computational Linguistics (NAACL)  査読委員

  • 2021
    -
     

    Empirical Methods for Natural Language Processing  査読委員

  • 2021
    -
     

    Open Semiotics  査読委員

  • 2019
    -
    2021

    Entropy  査読担当

  • 2020
    -
     

    Lingua  査読委員

  • 2020
    -
     

    Semiotica  査読委員

  • 2020
    -
     

    Conference on Computational Linguistics (COLING),  査読委員

  • 2017
    -
    2020

    Annual Conference on Computational Linguistics (ACL)  査読委員

  • 2019
    -
     

    文部科学省  AIMap 評価委員会委員

  • 2019
    -
     

    PACLING  査読委員

  • 2018
    -
     

    Large Resources and EvaluationConference (LREC)  査読委員

  • 2017
     
     

    International Conference on Computational Linguistics (COLING)  査読委員

  • 2016
    -
     

    Empirical Methods for Natural Language Processing  査読委員

  • 2016
    -
     

    Computational Linguistics for Linguistic Complexity (CL4LC)  Program committee

  • 2014
    -
    2015

    言語処理学会  理事

  • 2013
    -
    2015

    ACM SIGCHI Conference  査読委員

  • 2014
    -
     

    Annual Conference on Computational Linguistics (ACL)  査読委員

  • 2014
    -
     

    International Conference on Computational Linguistics (COLING),  査読委員

  • 2013
    -
    2014

    International Workshop for Speech and Language Processing for Assistive Technologies  Program committee

  • 2013
    -
     

    電子情報通信学会  常任査読委員

  • 2013
    -
     

    Mobile HCI Conference  査読委員

  • 2013
    -
     

    ACM UIST Symposium  査読委員

  • 2013
    -
     

    Paci c Association for Computational Linguistics  Program committee

  • 2012
    -
     

    情報処理学会  シニア査読委員

  • 2012
    -
     

    Annual Conference on Computational Linguistics (ACL)  査読委員

  • 2006
    -
    2012

    情報処理学会  査読委員

  • 2011
    -
     

    International Conference on Informatics and Semiotics in Organizations  Program committee

  • 2011
    -
     

    Workshop on Advances in Text Input Methods,  Program committee

  • 2010
    -
    2011

    International Workshop for Speech and Language Processing for Assistive Technologies  Program committee

  • 2010
    -
     

    Annual Conference on Computational Linguistics (ACL)  査読委員

  • 2009
    -
    2010

    言語処理学会大会  Program committee

  • 2008
    -
    2010

    言語処理学会  評議員

  • 2008
    -
    2010

    言語処理学会  編集委員

  • 2008
    -
    2009

    論文誌「言語処理」,「教育と学習を支援する自然言語処理  特集号編集委員

  • 2008
    -
     

    言語処理学会大会  「教育と学習を支援する自然言語」ワークショップ 企画委員、大会実行委員委員

  • 2007
    -
    2008

    International Conference on Computer Processing of Oriental Languages  Program committee

  • 2007
    -
     

    Pacific Association for Computational Linguistics  Program committee

  • 2007
    -
     

    Workshop on Computational Japanese Studies  Organizer

  • 2007
    -
     

    Annual Conference on Computational Linguistics (ACL)  査読委員

  • 2006
    -
     

    Paci c Association for Computational Linguistics  Co-chair

  • 2006
    -
     

    Asia Information Retrieval Symposium  Program committee

  • 2004
    -
    2006

    応用数理学会  編集委員

  • 2004
    -
    2005

    International Joint Conference on Natural Language Processing  査読委員

  • 2004
    -
     

    言語処理学会大会  プログラム委員

  • 2004
    -
     

    International Joint Conference on Natural Language Processing  Session Organizer

  • 2003
    -
     

    International Workshop on Language Modeling for Text Entry Methods (Workshop of Conference of the European Chapter of the Association for Computational Linguistics)  Program committee

  • 2003
    -
     

    Pacific Association for Computational Linguistics  Program committee

  • 2001
    -
    2002

    ソフトウエア科学会  企画委員

  • 2000
    -
    2002

    言語処理学会  評議員

  • 2001
    -
     

    International Conference on Computer Processing of Oriental Languages  査読委員

  • 2001
    -
     

    Natural language Processing Paci c Rim  査読委員

  • 2001
    -
     

    Pacific Association for Computational Linguistics  Program committee

  • 2000
    -
    2001

    電子情報通信学会  「思考と言語」研究会, 幹事補佐

  • 2000
    -
    2001

    情報処理学会  「知能と複雑系」研究会委員

▼display all

Professional Memberships

  •  
     
     

    ACL

  •  
     
     

    The Association for Natural Language Processing

  •  
     
     

    Information Processing Society of Japan

Research Areas

  • Intelligent informatics   Computational Linguistics・Natural Language Processing / Mathematical informatics   Studies of Language by Complex Systems Theory / Software   Natural Language Interface / Linguistics   Quantitative Linguistics

Research Interests

  • Computational Linguistics

  • Studies of Language by Complex Systems Theory

  • Quantitative Linguistics

  • Mathematical Linguistics

  • Natural Language Processing

  • Multilingual processing

  • Language software

  • Information Retrieval . Information Extraction

  • Information Semiotics

▼display all

Awards

  • 第75回毎日出版文化賞

    2021.11   毎日新聞社   「言語とフラクタル」

    Winner: 田中久美子

  • Best Journal Paper Award of 2011

    2012.03   Association for Natural Language Processing   ”A Study on Constants of Natural Language Text”

    Winner: Daisuke Kimura,Kumiko Tanaka-Ishii

  • The 19th Ohkawa Book Award

    2011.03   The Okawa Foundation for Information and Telecommunications   ”Semiotics of Programming”

    Winner: Kumiko Tanaka-Ishii

  • Best paper award

    2011.02   16th International Conference on Intelligent User Interfaces (IUI)   ”picoTrans: An icon-driven user interface for machine translation on mobile devices”

    Winner: Wei Song, Andrew Finch, Kumiko Tanaka-Ishii, and Eiichiro Sumita.

  • The 32nd Suntory Academic Award (Philosophy and History)

    2010.12   SUNTORY FOUNDATION   ”Semiotics of Programming”

    Winner: Kumiko Tanaka-Ishii

  • The Young Scientists' Prize

    2008.04   Ministry of Education, Culture, Sports, Science and Technology (MEXT)  

    Winner: Kumiko Tanaka-Ishii

  • WWW Conference Best Presentation Award

    2005.05   International World Wide Web Conference (WWW)   ”A Multilingual Usage Consultation Tool Based on Internet Searching -More than a Search Engine, Less than QA-"

    Winner: Kumiko Tanaka-Ishii and Hiroshi Nakagawa.

  • Best paper award

    2003.08   International Conference of Pacific Association for Computational Linguistics (PACLING)   "Categorization of movies using comments"

    Winner: Kumiko Tanaka-Ishii, Michiko Abe, and Hiroshi Nakagawa.

▼display all

Media Coverage

  • 毎日出版文化賞授賞

    Newspaper, magazine

    毎日新聞  

    2021.12

  • 毎日出版文化賞受賞者発表

    Newspaper, magazine

    Author: Other  

    毎日新聞  

    2021.11

  • 次世代人

    Newspaper, magazine

    読売新聞  

    2011.01

  • サントリー学芸賞受賞報道

    Newspaper, magazine

    各新聞社  

    2010.11

  • 東京大学: 教育環境革新のプロジェクトを報告

    Newspaper, magazine

    毎日新聞  

    2005.07

  • かな漢字変換ソフトの実力

    Newspaper, magazine

    日経バイト  

    page 87  

    2003.12

  • 4 キー文字入力

    Newspaper, magazine

    DIME  

    page 49  

    2001.09

  • 携帯メールで親指の負担を軽くする?

    Newspaper, magazine

    i モードSTYLE  

    page 34  

    2001.08

  • キー4つでメール入力

    Newspaper, magazine

    読売新聞  

    2001.06

  • より速く、より賢く効率的に!進化するケータイの日本語入力環境

    Newspaper, magazine

    日経モバイル  

    page 23  

    2001.05

▼display all

 

Papers

  • Strahler number of natural language sentences in comparison with random trees

    Kumiko Tanaka-Ishii, Akira Tanaka

    Journal of Statistical Mechanics: Theory and Experiment   2023 ( 12 ) 123403  2023.12  [Refereed]

    Authorship:Lead author

     View Summary

    Abstract

    The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes a computation of the Strahler number’s upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similar to the case of river bifurcation as reported by Strahler (1957 Eos Trans. Am. Geophys. Union38 913–20). Based on the theory behind this number, we show that there is a kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3–4 for parsing (Schuler et al 2010 Comput. Linguist.36 1–30), and reports indicating a psychological ‘magical number’ of 3–5 (Cowan 2001 Behav. Brain Sci.24 87–114). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically. Therefore, the Strahler number of sentences is derived from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.

    DOI

    Scopus

  • Co-Training Realized Volatility Prediction Model with Neural Distributional Transformation

    Xin Du, Kai Moriyama, Kumiko Tanaka-Ishii

    4th ACM International Conference on AI in Finance    2023.11  [Refereed]

    DOI

    Scopus

  • Predictability of Post-Earnings Announcement Drift with Textual and Contextual Factors of Earnings Calls

    Andy Chung, Kumiko Tanaka-Ishii

    4th ACM International Conference on AI in Finance    2023.11  [Refereed]

    DOI

    Scopus

  • Modeling Momentum Spillover with Economic Links Discovered from Financial Documents

    Andy Chung, Kumiko Tanaka-Ishii

    4th ACM International Conference on AI in Finance    2023.11  [Refereed]

    DOI

    Scopus

  • Semantic Field of Words Represented as Nonlinear Functions

    Xin Du, Kumiko Tanaka-Ishii

    36th Conference on Advances in Neural Information Processing Systems    2022.11  [Refereed]

  • Stock portfolio selection balancing variance and tail risk via stock vector representation acquired from price data and texts.

    Xin Du, Kumiko Tanaka-Ishii

    Knowledge-Based Systems,   249   108917 - 108917  2022.08  [Refereed]

    DOI

    Scopus

  • Menzerath's law in the syntax of languages compared with random sentences

    Kumiko Tanaka-Ishii

    Entropy,   23 ( 6 ) 661 - 661  2021.05  [Refereed]

    Authorship:Lead author, Corresponding author

    DOI

    Scopus

  • A COMPARISON OF TWO FLUCTUATION ANALYSES FOR NATURAL LANGUAGE CLUSTERING PHENOMENA —TAYLOR vs. EBELING & NEIMAN METHODS—

    KUMIKO TANAKA-ISHII, SHUNTARO TAKAHASHI

    Fractals   29 ( 02 ) 2150033 - 2150033  2021.03  [Refereed]  [International journal]

    Authorship:Lead author

     View Summary

    This paper considers the fluctuation analysis methods of Taylor and Ebeling & Neiman. While both have been applied to various phenomena in the statistical mechanics domain, their similarities and differences have not been clarified. After considering their analytical aspects, this paper presents a large-scale application of these methods to text. It is found that both methods can distinguish real text from independently and identically distributed (i.i.d.) sequences. Furthermore, it is found that the Taylor exponents acquired from words can roughly distinguish text categories; this is also the case for Ebeling and Neiman exponents, but to a lesser extent. Additionally, both methods show some possibility of capturing script kinds.

    DOI

  • Stock embeddings acquired from news articles and price history, and an application to portfolio optimization

    Xin Du, Kumiko Tanaka-Ishii

    Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL) Long Papers     3353 - 3363  2020.07  [Refereed]

  • Entropy rate estimation for english via a large cognitive experiment using mechanical turk

    Gen Ren, Shuntaro Takahashi, Kumiko Tanaka-Ishii

    Entropy   21 ( 12 )  2019.12  [Refereed]

  • Evaluating computational language models with scaling properties of natural language

    Shuntaro Takahashi, Kumiko Tanaka-Ishii

    Computational Lingusitics   45 ( 3 )  2019.10  [Refereed]

  • Addendum: Another Explanation About the Bounds of the Taylor Exponent

    Kumiko Tanaka-Ishii, Tatsuru Kobahashi

    Journal of Physics Communications   3 ( 8 )  2019.08  [Refereed]

    Authorship:Lead author

  • Modeling financial time-series with generative adversarial networks

    Shuntaro Takahashi, Yu Chen, Kumiko Tanaka-Ishii

    Physica A: Statistical Mechanics and its Applications   527  2019.08  [Refereed]

    DOI

    Scopus

  • Taylor's law for linguistic sequences and random walk models

    Kumiko Tanaka-Ishii, Tatsuru Kobayashi

    Journal of Physics Communications   2 ( 11 )  2018.11  [Refereed]

    Authorship:Lead author

  • Cross Entropy of Neural Language Models at Infinity—A New Bound of the Entropy Rate

    Shuntaro Takahashi, Kumiko Tanaka-Ishii

    Entropy   20 ( 11 ) 839 - Online Journal  2018.11  [Refereed]

  • Long-Range Correlation Underlying Childhood Language and Generative Models

    Kumiko Tanaka-Ishii

    Frontiers Psychology    2018.09  [Refereed]

    DOI

    Scopus

  • Extraction of templates from phrases using sequence binary decision diagrams

    Daiki Hirano, Kumiko Tanaka-Ishii, Andrew Finch

    Natural Language Engineering   24   1 - 33  2018.07  [Refereed]

  • Taylor's Law for Human Linguistic Sequences

    Tatsuru Kobayashi, Kumiko Tanaka-Ishii

    Annual Conference of Association for Computational Lingusitics     1138 - 1148  2018.07  [Refereed]

  • Do Neural Nets Learn Statistical Laws behind Natural Language?

    Shuntaro Takahashi, Kumiko Tanaka-Ishii

    PLoS One   12 ( 12 ) e0189326 - Online Journal  2017.12  [Refereed]

    DOI

    Scopus

  • Inducing a Bilingual Lexicon from short Parallel Multiword Sequences

    Andrew Finch, Taisuke Harada, Kumiko Tanaka-Ishii, Eiichiro Sumita

    ACM Transactions on Asian Low-Resource Language Information Processing   16 ( 3 )  2017.03  [Refereed]

  • Long-Range Memory in Literary Texts: On the Universal Clustering of the Rare Words.

    Kumiko Tanaka-Ishii, Armin Bunde

    PLoS One   11 ( 11 ) e0164658 - Online Journal  2016.11  [Refereed]

    Authorship:Lead author

    DOI

    Scopus

  • Entropy Rate Estimates for Natural Language—A New Extrapolation of Compressed Large-Scale Corpora

    Ryosuke Takahira, Kumiko Tanaka-Ishii, Łukasz Dębowski

    Entropy   18 ( 10 ) 364 - Online Journal  2016.10  [Refereed]

    DOI

    Scopus

  • Computational constancy measures of texts – Yule’s K and R´enyi’s entropy

    Kumiko Tanaka-Ishii, Shunsuke Aihara

    Computational Linguistics   41 ( 3 ) 481 - 502  2015  [Refereed]

    Authorship:Lead author

    DOI

  • Sentence Hedge Detection without Cue Annotation: A Heuristic Cue Selection Approach

    Andre Kenji Horie, Kumiko Tanaka-Ishii

    自然言語処理   21 ( 1 ) 27 - 40  2014.03  [Refereed]

  • picoTrans: An Intelligent icon-driven interface for cross-lingual communication

    Wei Song, Andrew Finch, Kumiko Tanaka-Ishii, Keiji Yasuda, Eiichiro Sumita

    ACM Transactions on Interactive Intelligent Systems   3 ( 1 ) 1 - 31  2013.04  [Refereed]

    DOI

    Scopus

  • Speaking Louder Than Words with Pictures across Languages.

    Andrew Michael Finch, Wei Song, Kumiko Tanaka-Ishii, Eiichiro Sumita

    AI magazine   34 ( 2 ) 31 - 47  2013  [Refereed]

  • Verb Temporality Analysis using Reichenbach's Tense System

    Andre Kenji Horie, Kumiko Tanaka-Ishii, Mitsuru Ishizuka

    Proceedings of International Conference for Computational Linguistics (COLING)     471 - 482  2012.12  [Refereed]

  • Information Bias in English Words.

    Kumiko Tanaka-Ishii

    Journal of Quantitative Linguistics   19 ( 1 ) 77 - 94  2012.01  [Refereed]

    DOI

    Scopus

  • Text Segmentation by Language Using Minimum Description Length

    Hiroshi Yamaguchi, Kumiko Tanaka-Ishii

    Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics     969 - 978  2012  [Refereed]

  • Word familiarity and frequency

    Kumiko Tanaka-Ishii, Hiroshi Terada

    Studia Linguistica   65 ( 1 ) 96 - 116  2011.03  [Refereed]

    Authorship:Lead author

    DOI

    Scopus

  • Study on Constants of Natural Language Texts

    Daisuke Kimura, Kumiko Tanaka-Ishii

    Journal of Natural Language Processing   18 ( 2 ) 119 - 137  2011  [Refereed]

    DOI CiNii

  • Sorting Texts by Readability

    Kumiko Tanaka-Ishii, Satoshi Tezuka, Hiroshi Terada

    Computational Linguistics   36 ( 2 ) 203 - 227  2010.06  [Refereed]

    Authorship:Lead author

    DOI

  • Multilingual Spectral Clustering Using Document Similarity Propagation

    Dani Yogatama,Kumiko Tanaka-Ishii

    Proceedings of the Cnference on Empirical Methods in Natural Language Processing (EMNLP)     871 - 879  2009.08  [Refereed]

  • Kansuke: A logograph look-up interface based on a few modified stroke prototypes

    Kumiko Tanaka-Ishii, Julian Godon

    ACM Transactions on Computer-Human Interaction   16 ( 2 ) 11:1 - 11:7  2009.06  [Refereed]

    Authorship:Lead author

    DOI

    Scopus

  • An Instance vs. the Instance

    Kumiko Tanaka-Ishii

    Journal of Minds and Machines   19 ( 1 ) 117 - 128  2009.02  [Refereed]

    DOI

    Scopus

  • TypeAny : 言語判別を用いた多言語入力システム

    Yo Ehara, Kumiko Tanaka-Ishii

      15 ( 5 ) 151 - 167  2008.10

    DOI CiNii

  • From phoneme to morpheme ---another verification using corpus in English and Chinese

    Kumiko Tanaka‐Ishii, Zhihui Jin

    Studia Linguistica   62 ( 2 ) 155 - 179  2008.07  [Refereed]

    Authorship:Lead author

    DOI

    Scopus

  • Multilingual Text Entry using Automatic Language Detection

    Yo Ehara, Kumiko Tanaka-Ishii

    Proceedings of International Joint Conference on Natural Languate Processing     441 - 448  2008  [Refereed]

  • Pinyomi: Dictionary lookup via orthographic associations

    Lars Yencken, Zhihui Jin, Kumiko Tanaka-Ishii

    Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics     13 - 21  2007.01  [Refereed]

  • Multilingual phrase-based concordance generation in real-time

    Kumiko Tanaka-Ishii, Yuichiro Ishii

    Information Retrieval   10 ( 3 ) 275 - 295  2007.01  [Refereed]

    Authorship:Lead author

    DOI

    Scopus

  • Dyadic versus triadic sign models in functional and object-oriented computer programming paradigms

    Kumiko Tanaka-Ishii

    Semiotica   2006 ( 158 ) 213 - 232  2006.04  [Refereed]

    DOI

    Scopus

  • Word-based text entry techniques using adaptive language models

    Kumiko Tanaka-Ishii

    Journal of Natural Language Engineering   13 ( 1 ) 51 - 74  2006.02  [Refereed]

    DOI CiNii

    Scopus

  • Kansuke: A Kanji Look-Up System Based on a Few Stroke Prototypes

    Kumiko Tanaka-Ishii, Julian Godon

    In International Conference on the Computer Processing of Oriental Languages (TOCHI)     310 - 320  2006  [Refereed]

    Authorship:Lead author

  • Entering Japanese with a Few Button Device

    Kumiko Tanaka-Ishii

      46 ( 6 ) 691 - 696  2005.06  [Refereed]  [Invited]

    CiNii

  • 閻魔 Webインタフェースによるプログラミング教育支援システム

    Kumiko Tanaka-Ishii, Kazuhiko Kakehi, Masato Takeichi

      18   69 - 75  2005

    Authorship:Lead author

    DOI CiNii

  • A Multilingual Usage Consultation Tool Based on Internet Searching -More than a Search Engine, Less than QA-

    Kumiko Tanaka-Ishii, Hiroshi Nakagawa

    the International World Wide Web Conference Committee (IW3C2)     363 - 371  2005  [Refereed]

    Authorship:Lead author

     View Summary

    Best presentation award

  • 少数キーを用いた日本語入力(自然言語)(<特集>コラボレーションアートとネットワークエンターテイメント)

    Kumiko Tanaka-Ishii, Yusuke Inutsuka, Masato Takeichi

      44 ( 2 ) 433 - 442  2003.02  [Refereed]

    Authorship:Lead author

    CiNii

  • Categorization of movies using comments

    Kumiko Tanaka-Ishii, Michiko Abe, Hiroshi Nakagawa

    Proceedings of International Conference of Pacific Association for Computational Linguistics     221 - 229  2003  [Refereed]

    Authorship:Lead author

  • Acquiring vocabulary for predictive text entry through dynamic reuse of a small user corpus

    Kumiko Tanaka-Ishii, Daichi Hayakawa, Masato Takeichi

    ACL '03 Proceedings of the 41st Annual Meeting on Association for Computational Linguistics   1   407 - 414  2003  [Refereed]

    Authorship:Lead author

  • Japanese Text Entry with Digits - Can Japanese be Estimated Only From Consonants?

    Kumiko Tanaka-Ishii, Yusuke Inutsuka, Masato Takeichi

      43 ( 10 ) 3087 - 3096  2002.10  [Refereed]

    Authorship:Lead author

    CiNii

  • Entering Text with a Four Button Device

    Kumiko Tanaka-Ishii, Yusuke Inutsuka, Masato Takeichi

    The 19th International Conference on Computational Linguistics     988 - 994  2002  [Refereed]

    Authorship:Lead author

  • Japanese input system with digits --Can Japanese be input only with consonants?

    Kumiko Tanaka-Ishii, Yusuke Inutsuka, Masato Takeichi

    Human Language Technology Conference     211 - 218  2001  [Refereed]

    Authorship:Lead author

  • Multi-Agent Explanation Strategies in Real-Time Domains

    Kumiko Tanaka-Ishii, Ian Frank

    The 36th Annual Meeting for Association of Computational Linguistics     158 - 165  2000  [Refereed]

    Authorship:Lead author

    DOI

  • 第三言語を介した対訳辞書の作成(<特集>並列処理)

    Kumiko Tanaka-Ishii, Kyoji Umemura, Hideya Iwasaki

      39 ( 6 ) 1915 - 1924  1998.06  [Refereed]

    Authorship:Lead author

    CiNii

  • Reactive Content Selection in the Generation of Real-time Soccer Commentary

    Kumiko Tanaka-Ishii, Koiti Hashida, Itsuki Noda

    Proceedings of International Conference on Computational Linguistics (COLING)     1282 - 1288  1998  [Refereed]

    Authorship:Lead author

  • Extraction of Lexical Translations from Non-Aligned Copora

    Kumiko Tanaka, Hideya Iwasaki

    The 16th International Conference on Computational Linguistics     580 - 585  1996  [Refereed]

    Authorship:Lead author

    DOI

  • Construction of a Bilingual Dictionary Intermediated by a Third Language

    Kumiko Tanaka, Kyoji Umemura

    The 15th International Conference on Computational Linguistics     297 - 303  1994  [Refereed]

    Authorship:Lead author

    DOI

▼display all

Books and Other Publications

  • Open Semiotics. Volume 1: Epistemological and Conceptual Foundations

    Kumiko Tanaka-Ishii( Part: Contributor, Self-similar structure of sign systems: Not a metaphor.)

    Editions L'Harmattan  2023.06 ISBN: 9782140305252

  • 言語とフラクタル

    Kumiko Tanaka-Ishii( Part: Sole author)

    東大出版会  2021.05 ISBN: 9784130802574

  • Statistical Universals of Language: Mathematical Chance vs. Human Choice

    Kumiko Tanaka-Ishii( Part: Sole author)

    Springer  2021.05 ISBN: 9783030593766

     View Summary

    This volume explores the universal mathematical properties underlying big language data and possible reasons why such properties exist, revealing how we may be unconsciously mathematical in our language use. These properties are statistical and thus different from linguistic universals that contribute to describing the variation of human languages, and they can only be identified over a large accumulation of usages. The book provides an overview of state-of-the art findings on these statistical universals and reconsiders the nature of language accordingly, with Zipf's law as a well-known example.
    The main focus of the book further lies in explaining the property of long memory, which was discovered and studied more recently by borrowing concepts from complex systems theory. The statistical universals not only possibly lie as the precursor of language system formation, but they also highlight the qualities of language that remain weak points in today's machine learning.
    In summary, this book provides an overview of language's global properties. It will be of interest to anyone engaged in fields related to language and computing or statistical analysis methods, with an emphasis on researchers and students in computational linguistics and natural language processing. While the book does apply mathematical concepts, all possible effort has been made to speak to a non-mathematical audience as well by communicating mathematical content intuitively, with concise examples taken from real texts.

    DOI

  • Information Theory and Language

    Geng Ren, Shuntaro Takahashi, Kumiko Tanaka-Ishii( Part: Contributor, chapter 9, Entropy rate estimation for english via a large cognitive experiment using mechanical turk.)

    MDPI  2020.12

  • Interdisciplinary Perspective on Math Cognition

    Kumiko Tanaka-Ishii( Part: Contributor, Machine vs. structure of language via statistical universals, Chapter 4)

    Springer  2019.09

  • これからのウィトゲンシュタイン -刷新と応用のための14 篇

    田中久美子( Part: Contributor, 機械は『言語ゲーム』をプレイできるか)

    2016.11 ISBN: 9784905208051

  • 科学と文化をつなぐ

    田中久美子( Part: Contributor, 第1章 間は記号か-ゼロ記号再考-)

    東京大学出版会  2016.03 ISBN: 9784130603157

  • International Handbook of Semiotics

    Kumiko Tanaka-Ishii( Part: Contributor, Semiotics of Computing: Filling the Gap Between Humanity and Mechanical Inhumanity)

    Springer  2015.05

  • Language Production, Cognition, and the Lexicon

    Kumiko Tanaka-Ishii( Part: Contributor, Consonants as Skeleton of Language: Statistical Evidences Through Text Production)

    Springer  2014.11

  • Semiotic and Cognitive Science Essays on the Nature of Mathematics 2012

    Kumiko Tanaka-Ishii( Part: Contributor, Dyadic vs. Triadic Sign Models Through Computer Programs)

    Lincom GmbH  2012 ISBN: 9783862883325

     View Summary

    https://www.amazon.com/Semiotic-Cognitive-Science-Essays-Mathematics/dp/3862883329

  • 記号と再帰

    田中 久美子

    東京大学出版会  2010.06 ISBN: 4130802518

     View Summary

    第32回サントリー学芸賞(思想・歴史部門)、第19回大川出版賞

    ASIN

  • Semiotics of Programming

    Kumiko Tanaka-Ishii

    Cambridge University Press  2010.05 ISBN: 0521736277

  • こころと言葉―進化と認知科学のアプローチ

    ( Part: Contributor, 言語の文節に普遍的に観察される統計的性質)

    東京大学出版会  2008.11 ISBN: 4130830481

    ASIN

  • ソシュール一般言語学講義―コンスタンタンのノート

    フェルディナン・ド ソシュール( Part: Joint translator)

    東京大学出版会  2007.03 ISBN: 413080250X

    ASIN

  • Text Entry Systems ---Accessibility, Mobility, Universality---

    Scott MacKenzie, Kumiko Tanaka-Ishii, editors

    Morgan Kaufmann (Elsevier)  2007

     View Summary

    Co-authored chapters 2, 5, 10, 11, 13.

  • 数理工学への誘い

    ( Part: Contributor, 携帯電話に日本語を入力するには ――自然言語の数理)

    日本評論社  2002.09 ISBN: 4535783543

    ASIN

▼display all

Presentations

  • Towards Quantifying the Complexity of Natural Language Sentence Structure

    Kumiko Tanaka-Ishii  [Invited]

    Complexity in Language Variation and Change (COMPILA 2023)  (Meguro-ku TOKYO)  Yoshifumi Kawasaki (University of Tokyo, Japan) David Sanchez (Institute for Cross-Disciplinary Physics and Complex Systems IFISC, Mallorca, Spain) Marco Patriarca (National Institute of Chemical Physics and Biophysics, Tallinn, Estonia)

    Presentation date: 2023.08

    Event date:
    2023.08
     
     

     View Summary

    This event is supported by JSPS KAKENHI Grant Number JP23K12152 (Grant-in-Aid for Early-Career Scientists: Application of computational linguistic techniques to Medieval and Modern Spanish texts; PI: Yoshifumi KAWASAKI).

  • Human Signs through Semiotics of Computing

    Kumiko TANAKA-ISHII  [Invited]

    Clare Hall Philosophy and History SIG Seminar 

    Presentation date: 2023.02

  • Bonsai, Coastline and Language: Scale-Free Property of Natural Language

    Kumiko TANAKA-ISHII  [Invited]

    Clare Hall Colloquium 

    Presentation date: 2022.11

  • 言語を複雑系として捉える試み

    Kumiko TANAKA-ISHII  [Invited]

    言語処理学会大会 

    Presentation date: 2022.03

    Event date:
    2022.03
    -
     
  • 複雑系の視点からの言語とプログラムの差異

    Kumiko TANAKA-ISHII  [Invited]

    ソフトウエア技術者会議(SEA) 

    Presentation date: 2022.02

    Event date:
    2022.02
    -
     
  • 複雑系科学の観点からの言語研究の試み

     [Invited]

    NLP コロキウム 

    Presentation date: 2021.10

    Event date:
    2021.10
    -
     
  • Long Memory underlying Language

    Kumiko TANAKA-ISHII  [Invited]

    International Conference on Quantitative Linguistics 

    Presentation date: 2021.09

    Event date:
    2021.09
    -
     
  • 自然言語の長相関

    Kumiko TANAKA-ISHII  [Invited]

    応用数理学会大会 

    Presentation date: 2021.09

    Event date:
    2021.09
    -
     
  • 自然言語の中にひそむ数理的普遍

    Kumiko TANAKA-ISHII  [Invited]

    数学シンポジウムさきがけCREST シンポジウム 

    Presentation date: 2020.02

    Event date:
    2020.02
    -
     
  • 自然言語の数理的普遍

    Kumiko TANAKA-ISHII  [Invited]

    計算力学シンポジウム 

    Presentation date: 2019.12

    Event date:
    2019.12
    -
     
  • Towards a Philosophical grounding of Universal Statistical Properties Underlying Human Language: Mirroring Nature and Rule-Following

    Kumiko TANAKA-ISHII  [Invited]

    科学基礎論学会 

    Presentation date: 2018.06

    Event date:
    2018.06
    -
     
  • 「ことば」はどのようにフラクタルか

    Kumiko TANAKA-ISHII  [Invited]

    応用数理学会. ものづくり研究会 

    Presentation date: 2018.02

    Event date:
    2018.02
    -
     
  • プログラムはどうフラクタルか

    Kumiko TANAKA-ISHII  [Invited]

    プログラミングシンポジウム 

    Presentation date: 2018.01

    Event date:
    2018.01
     
     
  • 言語の長相関に内在する再帰的生成過程

    Kumiko TANAKA-ISHII  [Invited]

    認知科学大会第34回大会 

    Presentation date: 2017.09

    Event date:
    2017.09
    -
     
  • Generative Models Producing Power Laws of Language

    Kumiko TANAKA-ISHII  [Invited]

    Statistics of Languages: Theories and Experiments. Wawsaw. 

    Presentation date: 2017.07

    Event date:
    2017.07
     
     
  • 言語ゲームの原初形式を掴みうるか: 機械を道具として

    Kumiko TANAKA-ISHII  [Invited]

    これからのウィトゲンシュタインシンポジウム 

    Presentation date: 2016.12

    Event date:
    2016.12
     
     
  • Computational Constancy Measures of Texts

    Kumiko TANAKA-ISHII  [Invited]

    Language Modeling at IPIAN, Poland (hosted by Dr. Lukasz Debowski) 

    Presentation date: 2015.01

    Event date:
    2015.01
    -
     
  • 記号と再帰-記号論と情報科学-

    Kumiko TANAKA-ISHII  [Invited]

    ソフトウエア工学の基礎研究会(FOSE) 

    Presentation date: 2013.11

    Event date:
    2013.11
    -
     
  • User Interface Design for International Communication

    Kumiko TANAKA-ISHII  [Invited]

    International Collaboration Symposium 

    Presentation date: 2013.11

    Event date:
    2013.11
    -
     
  • Semiotics of Void

    Kumiko TANAKA-ISHII  [Invited]

    HCII 

    Presentation date: 2013.07

    Event date:
    2013.07
     
     
  • Semiotics of Programming

    Kumiko TANAKA-ISHII  [Invited]

    Semiotics in Information Science and Mathematics, University of Toronto, (hosted by Prof. Marcel Danesi) 

    Presentation date: 2011.03

    Event date:
    2011.03
     
     
  • Two Language Learning Applications Using Search Engines

    Kumiko TANAKA-ISHII  [Invited]

    Invited Talk at Google 

    Presentation date: 2010.09

    Event date:
    2010.09
    -
     
  • 言語処理を用いた語学教育支援|二つの観点からの取り組み|

    Kumiko TANAKA-ISHII

    『言語処理技術の深化と理論・応用 の新展開』2009 年度科研・合同シンポジウム 

    Presentation date: 2009.10

    Event date:
    2009.10
    -
     
  • 記号とは何か?

    Kumiko TANAKA-ISHII  [Invited]

    言語処理学会若手の会 

    Presentation date: 2009.09

    Event date:
    2009.09
    -
     
  • Predictive Entry Systems using Statistical Language Models

    Kumiko TANAKA-ISHII  [Invited]

    Japan- America Frontiers Engineering Symposium, funded by JST and PNAS 

    Presentation date: 2008.11

    Event date:
    2008.11
    -
     
  • A Multilingual Usage Consultation Tool based on Internet Searching

    Kumiko TANAKA-ISHII  [Invited]

    Charles University Prague, Czech Republic (Hosted by Prof. Vladislav Kubon) 

    Presentation date: 2006.03

    Event date:
    2006.03
    -
     
  • Usage Consultation Tool based on Web Search Engine

    Kumiko TANAKA-ISHII

    Yahoo Japan, (in Japanese Hosted by Researcher F. Kido) 

    Presentation date: 2005.12

    Event date:
    2005.12
    -
     
  • Mathematical Models behind Natural Language Entry Systems

    Kumiko TANAKA-ISHII

    Keio University (in Japanese, Hosted by Prof. S. Ishizaki) 

    Presentation date: 2005.11

    Event date:
    2005.11
    -
     
  • Information Bias in Text

    Kumiko TANAKA-ISHII

    Schloss Dagstuhl, International Conference and Research Center for Computer Science, Germany (Hosted by Dr. K. Harbusch) 

    Presentation date: 2005.09

    Event date:
    2005.09
    -
     
  • E-learning System for Foreign Language Learning

    Kumiko TANAKA-ISHII

    University of Tokyo Symposium on E-learning (reported by Mainichi Newspaper) 

    Presentation date: 2005.07

    Event date:
    2005.07
    -
     
  • Predictive Text Entry System for Small Mobile Devices using Adaptive Language Models

    Kumiko TANAKA-ISHII

    University of Nantes, France (Hosted by Dr. B.Daille) 

    Presentation date: 2005.03

    Event date:
    2005.03
    -
     
  • Predictive Text Entry System for Small Mobile Devices using Adaptive Language Models

    Kumiko TANAKA-ISHII

    University of Linchoping, Sweden (Hosted by Dr. K. McGee) 

    Presentation date: 2005.03

    Event date:
    2005.03
    -
     
  • Language Modeling for Natural Language Entry Systems

    Kumiko TANAKA-ISHII

    IRISA/University of Renne, France (Hosted by Dr. A. Morin) 

    Presentation date: 2004.09

    Event date:
    2004.09
    -
     
  • Text Entry and Language Models

    Kumiko TANAKA-ISHII

    University of Montreal, France (Hosted by Prof. V. Prince) 

    Presentation date: 2003.09

    Event date:
    2003.09
    -
     
  • Language Modeling for Text Entry Systems

    Kumiko TANAKA-ISHII

    University of Nancy, France (Hosted by Prof. K. Smaili) 

    Presentation date: 2003.03

    Event date:
    2003.03
    -
     
  • Entering Text with A Four-Button Device

    Kumiko TANAKA-ISHII

    University of Koblenz-Landau, Germany (Hosted by Prof. K. Harbusch) 

    Presentation date: 2003.03

    Event date:
    2003.03
    -
     
  • 統計的自然言語

    Kumiko TANAKA-ISHII  [Invited]

    神奈川県理数教育セミナー2002 

    Presentation date: 2002.12

    Event date:
    2002.12
    -
     
  • Entering Text with A Four-Button Device

    Kumiko TANAKA-ISHII

    IBM Watson Research Center, USA (Hosted by Dr. J. Chai) 

    Presentation date: 2002.11

    Event date:
    2002.11
    -
     
  • Entering Text with A Four Button Device

    Kumiko TANAKA-ISHII

    LORIA, France (Hosted by Prof. K. Smaili) 

    Presentation date: 2001.10

    Event date:
    2001.10
    -
     
  • Real-Time Discourse Generation

    Kumiko TANAKA-ISHII

    AT&T Bell Labs (Hosted by Dr. M. Nagata) 

    Presentation date: 2001.03

    Event date:
    2001.03
    -
     
  • Automatic Commentary System for Robocup Soccer Simulation League

    Kumiko TANAKA-ISHII

    Nagoya, Symposium on Multi-media Software Systems 

    Presentation date: 1999.12

    Event date:
    1999.12
    -
     
  • Automatic Commentary System for Robocup Soccer System

    Kumiko TANAKA-ISHII  [Invited]

    RoboCup Workshop (with Prof. Hitoshi Matsubara, Future University of Hakodate) 

    Presentation date: 1998.07

    Event date:
    1998.07
    -
     

▼display all

Research Projects

  • 価格と文書に基づく経済対象のベクトル表現とその応用

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    Project Year :

    2021.04
    -
    2026.03
     

    田中(石井)久美子, 新谷元嗣, 宮尾祐介

  • 自然言語の非線形性の計算論モデル

    国立研究開発法人科学技術振興機構  戦略的創造研究推進事業(CREST)「数学・数理科学と情報科学の連携・融合による情報活用基盤の創出と社会課題解決に向けた展開」領域

    Project Year :

    2021
    -
    2026.03
     

    田中(石井)久美子,宮尾祐介,峯島宏次

  • 冪則の観点からの高度技術の評価方法に関する研究

    日本学術振興会  科学研究費助成事業 挑戦的研究(開拓)

    Project Year :

    2020.07
    -
    2025.03
     

    田中(石井)久美子, チン ユ

  • 東京証券取引市場株式のポートフォリオ最適化技術の検証, PoC 構築, 事業化の 検討, ならびに社会実装

    東京大学  東京大学Gapファンドプログラム

    Project Year :

    2020.04
    -
    2021.09
     

    田中(石井)久美子

  • 冪則からみる実社会の共進化研究 -AIは非平衡な複雑系を擬態しうるか-

    Japan Science and Technology Agency  RITEX-HITE

    Project Year :

    2017.10
    -
    2021.03
     

  • 言語の計測可能な不変量の探求

    Japan Science and Technology Agency  戦略的創造研究推進事業(さきがけ)「社会的課題の解決に向けた数学と諸分野の協働」領域

    Project Year :

    2014
    -
    2017
     

    Kumiko Tanaka-Ishii

  • Unsupervised Segmentation and Annotation of Texts

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Challenging Exploratory Research

    Project Year :

    2012.04
    -
    2016.03
     

    Kumiko Tanaka-Ishii

     View Summary

    This project aims at construction of unsupervized methods for automatic segmentation/annotation of given texts, a fundamental procedure of natural language processing. In addition to lemmatization, other tasks requring segmentation/annotation are also considered. Three achievements are obtained. First, using compression, we constructed an algorithm for detecting text subparts in other languages than the main text. Through a large scale experiment, the method was shown to work with a high accuracy applicable to text preprocessing. Second, the edit distance procedure was extended by Bayes method, and was applied to aligned corpora, to obtain translation pairs. Third, by use of minimal automaton, the patterns underlying sentences are detected, which serves for defining the segments within the sentence and further grouping of similarly used text parts.

  • A Study of User Interface for Document Browsing

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (A)

    Project Year :

    2008.04
    -
    2014.03
     

    Kumiko Tanaka-Ishii

     View Summary

    In this project, we studied user interface design and natural language processing techniques to build applications to provide related information dynamically to the users when browsing web documents. The study relates to a technique called web mash up which is realized by a client embedded in the browser handling various user actions and a server which communicates with this client and provides the related information to the user. The study of the client was conducted through corporation relations and finally led to a successul entrepreneur company established by a student involved in the project. Moreover, various natural language techniques for extracting related/additional information were studied and this led to academic results including journal and conference papers and invited talks.

  • 文書の自動難易度判定に関する研究

    日本学術振興会  科学研究費助成事業 挑戦的萌芽研究

    Project Year :

    2008
    -
    2010
     

    田中(石井) 久美子

     View Summary

    本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。
    検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。
    最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。
    プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。
    本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。
    最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。

  • Webを用いた語学教育システムにおける文書評価方法に関する研究

    日本学術振興会  科学研究費助成事業 若手研究(A)

    Project Year :

    2005
    -
    2007
     

    田中(石井) 久美子

     View Summary

    本科研の当初の目的は、学内の語学学習のために構築途中にあったレポートシステム「天神」を完成させ、学生の学習や作文を支援する言語処理ルーチンを研究することにあった。本課題申請時には、代表者は情報基盤センターに所属しており、学内における教育を支援するソフトウエアを構築・運用することが任務の-つであった。ところが、平成17年度から所属が情報理工学系研究科に異動となり、学内任務が変更となった。学内の大規模サービスを運用するためのインフラ基盤を失い、語学担当教員の協力が必ずしも得られなくなった。「天神」ソフトウエア自体は、予定通り2005年度中に完成させたが、現在では学内の利用者が減り、2008年度夏学期をもって学内のサービスを終了予定である。
    以上のような事情をふまえ、語学学習に関する類似の別研究を行い、以下の成果を上げた。
    ○動的な用例辞書「端言」システムは、語学を学習するユーザが外国語で作文をする際に、語用の正確さを吟味する上で有用な用例を、動的にwebから獲得するシステムである。web関連ソフトウエアの国際会議最高峰WWWにおいて2005年にBest Presentation Awardを受賞した他、英文ジャーナルlnformation Retrievalに2007年に論文が掲載された。本システムは科研費にて導入したサーバ上で稼働中である。
    ○非漢字圏外国人のための漢字検索システム「漢輔」は、外国人が漢字について何ら予備知識がなくとも漢字を検索することができるシステムである。言語処理学会大会優秀発表賞を受賞した他、ユーザインターフェースにおける英文ジャーナルTOCHIに論文が2008年に採録となった。本システムは科研費にて導入したサーバ上で稼働中である。
    ○課題最終年度の3月に、言語処理学会大会付帯のワークショップとして「教育・学習を支援する言語処理ワークショップ」を主催し、分野のリーダーシップをとった。これを受け、現在、国内学術論文誌「自然言語処理」において「教育・学習」関連の特集号を企画しており、鋭意活動中である。
    最後に、本研究課題の審査・採録・遂行に関わったみなさまに感謝の意を表します。

  • 分かり易さ向上のためのテキストコンテンツ変換に関する研究

    日本学術振興会  科学研究費助成事業 特定領域研究

    Project Year :

    2004
    -
    2005
     

    中川 裕志, 黒橋 禎夫, 田中(石井)久美子, 吉田 稔, 清田 陽司

     View Summary

    本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた.
    Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成
    Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出
    Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。
    Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた.
    W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1)
    BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である.
    この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.
    なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。

  • 分かり易さ向上のためのテキストコンテンツ変換に関する研究

    日本学術振興会  科学研究費助成事業 特定領域研究

    Project Year :

    2003
     
     
     

    中川 裕志, 吉田 稔, 田中(石井)久美子, 黒橋 禎夫

     View Summary

    この研究では,Web新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象に次の研究を行った。
    (1)まず携帯記事の文とWeb記事の記事対応付けを行い、サンプル調査では100%の精度で対応付けできる方法を用いて記事対応をつけた。次に携帯記事とWeb記事における文同士の対応を、出現する名詞の一致度に着目する方法で行い、93%の精度で対応付けることに成功した。この結果、88,333組の文対応コーパスを抽出した。
    (2)上記のコーパスを用いて帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出を行った。本年度は特に携帯記事の文末での出現頻度が38%の割合であるサ変名詞で終了する名詞止めがWeb記事においてどのような表現であるかを抽出する言い換え抽出を行った。サンプルデータでは抽出された言い換えのうち最も順位の高いもので90%、3位までの言い換えで60%の精度で抽出できることが分かった。この言い換えデータは記事に要約や縮約を自動化するための言語資源として使える。
    (3)昨年度から続けているWeb記事の自動要約を引き続き行った。本年度はWeb記事と携帯記事の対応コーパスを教師データとしてSVMを用いた学習によって削除する部分を決める方法を実験した。この結果、いくつかの分野で精度の向上が見られた。
    (4)Web上のデータを利用する以下の多言語用例検索ツール:Kiwiシステムについて引き続き改善、評価実験を行った。日英仏の3言語でこのシステムを使って用例検索する方法と検索エンジンを使う方法を比較し、正解率で30%程度の上昇が見られることが分かった。

  • 少数キーによるテキスト入力手法の開発と評価に関する研究

    日本学術振興会  科学研究費助成事業 萌芽研究

    Project Year :

    2002
    -
    2003
     

    武市 正人, 田中(石井)久美子

     View Summary

    本研究の目的は、効果的な少数キーによるテキスト入力の新たな方式を提案し、その有効性を評価することである。この方式は、積極的に「曖昧さ」を導入することによってキーの個数を削減することと、その曖昧さを解消するために利用者ごとに語彙辞書を個別化することを効果的に組み合わせるという発想に基づくものである。本研究期間を通じて、日本語テキスト入力のための10個のキー入力システム(Touch-Me-Key 10)、日本語テキスト入力のための4個のキー入力システム(Touch-Me-Key 4)、非英語、非漢字の言語(タイ語等)に対するテキスト入力システム、数個(4個程度)のキーに相当する入力システムのプロトタイプの作成と評価した。とくに、平成15年度には、前年度より進めていた少数キーによる入力方式の活用に有効なテキスト入力方式を追究し、従来の方式の入力辞書を用いるものではない構成法として、いわゆる「辞書なし」のSancDic方式を提案した。本方式は、これまでの「辞書」による入力単語の同定を行なわないので、新規単語や口語体にも適用できるという特徴を有している。少数キー入力における「辞書なし」入力の有効性を確認し、これらの成果を国際会議ACL2003で発表するとともに、論文誌にも公表した。

  • モバイル環境における理解容易なテキスト生成のための自然言語処理に関する研究

    日本学術振興会  科学研究費助成事業 特定領域研究

    Project Year :

    2002
     
     
     

    中川 裕志, 田中(石井)久美子, 黒橋 禎夫

     View Summary

    モバイル環境においてユーザインタフェースの主要な役割を果たす携帯端末におけるテキスト情報の扱いについて研究を続けている.昨年からWebにおいて通常のパソコンをターゲットにしている新聞記事と,iモード端末をターゲットにしている新聞記事を2年間に渡って収集した。こうして収集した2種の新聞記事コーパスを同一のトピックを扱うものを自動的に対応付けしたた対応付けコーパスを利用して,自動要約の研究を進めた.目的はパソコン向けの長い記事からiモードのような携帯端末向けのコンパクトな記事を自動要約によって生成する方法である(代表者:中川が担当).まず,1日のあるジャンル(政治、経済など)の記事集合に対して、各単語のtf^*idfを計算する.一方、記事の先頭3文を掛かり受け解析し、枝の先の単語をtf^*idfの小さなものから削る。100文字要約で原文の70%,50文字要約で原文の50%程度の情報を保持することが対応コーパスを用いた評価実験で示された.また,要約のような短い記事を携帯端末において音声出力するシステムについても基礎的な検討(代表者:中川,分担者:黒橋が担当)を始め、主観評価実験の結果、iモード記事そのものよりは、Web記事中から対応する文を選択しする方法が良いとこが分かった.これに加え,ユーザインタフェースの一環として携帯端末によるユーザに優しい入力方式の研究も行った(分担者:田中が担当).

  • Research on automatic generation of real-time commentary about large scale disaster relief

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (B)

    Project Year :

    2001
    -
    2002
     

    MATSUBARA Hitoshi, OSAWA Eiichi, TANAKA Kumiko, TADOKORO Satoshi, TANAKA Kenji, FRANK Ian

     View Summary

    Communication is a vital part of the teamwork that is required for disaster relief operations. We have implemented a system Rescue-MIKE, which simulates the conversations that can be expected between large numbers of relief workers and controllers working in a rescue domain. Our system uses multiple agents (Director, Continuity, Background and Montors agents) to collect information from a simulated disaster scenario. It then produces a dialogue that fits the actions of the agents in the domain.

  • 音韻のゆらぎの解析に基づく表現豊かな音声合成に関する研究

    日本学術振興会  科学研究費助成事業 若手研究(B)

    Project Year :

    2001
    -
    2002
     

    田中(石井) 久美子

     View Summary

    今年度は、去年度解析した間と韻律の規則を用いて、実際に音声合成を行った。内容はサッカーの自動実況であり、結果として自由な文章の生成には程遠いものにとどまっている。しかし、韻律に変化を与えた方が、より状況を豊かに表現することができ、観客に与える印象も異なることがわかった。
    具体的には、まずはサッカーの実況のためのデータを用意する。これはテンプレートによる生成と、文法による生成の中間的な方式によるもので、組み合わせにより多くの内容を生成することができる。テンプレートには、強勢の可能性のあるところにマークを付けておく。その上でサッカーの状況に合わせてこのマークを用いて、間と韻律を制御する。
    本研究の結果、1997年から行っているサッカーの実況に関して、表現豊かな合成ができるようになった。かつては、常に同じ合成を用いており、ボールが中央にある状況とゴール時の実況はまったく同じであった。したがって観客の実況システムへの関心には限界があった。ところが、本成果を用いると、ゴールが入った瞬間などは韻律が上がり、間も変化する。これにより、観客も実況と共に感情を状況に移入することができるようになった。本システムのように読み上げの韻律や間を多少制御するだけで、大きく実況の印象が異なる。一方で、たとえば、40対0の状況下に、さらに1点得点した場合でも、同じように表現豊かに実況してしまう。このような「機械的な表現の豊かさ」は避けなければならない。結局、表現の豊かさは意味と深く関係しており、表層的な処理には限界がある。また、音声合成上は、現状では強勢の制御を行っていないため、英語での生成などには問題がある。また、現状では、サッカーの実況および物語以外の内容に用いるには限界がある。今後はこれまでの成果をベースにこれらの点をさらに改良していきたい。

  • モバイル環境向けコンテンツ開発のための自然言語処理に関する研究

    日本学術振興会  科学研究費助成事業 特定領域研究(C)

    Project Year :

    2001
     
     
     

    中川 裕志, 渡部 聡彦, 田中(石井)久美子, 黒橋 禎夫

     View Summary

    携帯端末の多様化、進化を受けて、携帯端末向けのコンテンツ開発のために既存のテキストコンテンツを自然言語処理によって変換する。特に高圧縮率の自動要約に加え言い換えを加味した処理を行う。具体例としては、名詞句(固有名詞など)の言い換え、構文的言い換え、とりわけ体言止め、助詞止めなどが重要になる。このような処理を実現するためには、要約元の文書と要約ないし言い換え結果を集めたコーパスが必要になる。そのために以下に述べる言語資源の収集をした。
    (1)収集:インターネットでPCを想定した新聞記事(1日200記事以上)と、i-モード端末を対象にした新聞記事(1日40記事程度)が毎日発信されている。ただし、i-モード記事は1日で消えてしまう。そこで、これを4月以来、毎日収集した。
    (2)対応付け 収集した記事群で1日単位にPC向け記事とi-モード記事の対応付けを行う。この対応付けを行うと、PC記事の言い換え、要約の言語データとしてi-モード記事を対応させる対応付けコーパスができる。i-モード記事中の名詞とPC向け記事中の名詞を調べ、3x(PC記事見出しとi-モード記事の名詞一致数)+(PC記事本文とi-モード記の名詞一致数)の値が35以上の場合を対応が付いたとすることにより、現在までの実験で80%近いi-モード記事を100%の精度で対応付けができた。そこで、この方法で1年分の対応付けコーパスを完成した。
    このように収集した対応付けコーパスを利用して形態素解析、構文解析を利用する小規模な要約実験を行い良好な結果を得た。

  • A Study about automatic domain term extraction from corpus

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (C)

    Project Year :

    2000
    -
    2001
     

    NAKAGAWA Hiroshi, TANAKA Kumiko

     View Summary

    We mainly grappled with automatic term extraction methods which extracts domain specific terms from domain corpora that were distributed by NTCIR1 TMREC task group. Among various works in automatic term extraction, the majority of them are concerned with statistics like frequency in corpora, and few focused on the characteristics of space which consists of extracted terms. In this work, we mainly focus on the latter. We propose the method which uses the statistical relation between compound nouns, that are up to 85% of all terms and the remaining 15% of simple nouns. For instance, if we have many compound nouns such as "human information system", "social information system" and so on, the importance of "information" is defined as how many kinds of nouns adjoin or are adjoined with "information." Then, the importance of compound noun is defined as the geometric means of its component nouns. Our system consists of (l) morphological analysis, (2)extracting candidate terms, (3) assign each candidate term its importance value and (4) evaluation with NTCIR1 TMREC test collection. The proposed method shows the high score among methods participating NTCIR1. We also localize our method to English in order for translation extraction to be investigated the next year.

▼display all

Misc

  • 言語はファイナンス工学にどのように寄与し得るか—大規模言語モデル ChatGPT とそれを支える AI 技術の盲点—

    Kumiko TANAKA-ISHII

    証券アナリストジャーナル   61 ( 11 ) 73 - 82  2023.11  [Invited]

    Authorship:Lead author

    Article, review, commentary, editorial, etc. (bulletin of university, research institution)  

  • 言語と計算

    Kumiko TANAKA-ISHII, Koji MINESHIMA

    現代思想7月号 特集:〈計算〉の世界   2023 ( 7 ) 140 - 151  2023.06  [Invited]

    Authorship:Lead author

    Article, review, commentary, editorial, etc. (scientific journal)  

  • 言語の長相関と文構造

    Kumiko TANAKA-ISHII

    数学セミナー8月号   60 ( 718 ) 32 - 36  2021.07

    Article, review, commentary, editorial, etc. (scientific journal)  

  • 言語の数理研究への誘い

    Kumiko Tanaka-Ishii

    数学セミナー3月号   59 ( 701 ) 8 - 12  2020.02

    Article, review, commentary, editorial, etc. (scientific journal)  

  • ガードナーとスマリヤン

    Kumiko Tanaka-Ishii

    数学セミナー11月号   58 ( 697 )  2019.10

  • 数は使用か

    Kumiko Tanaka-Ishii

    数学セミナー5月号   58 ( 690 )  2019.04

  • 言語のエントロピーレート

    Kumiko Tanaka-Ishii

    数学セミナー10月号   57 ( 683 ) 77 - 81  2018.09

  • 言語に内在するゆらぎ

    Kumiko Tanaka-Ishii

    数学セミナー9月号   57 ( 682 ) 72 - 77  2018.08

  • 言語の経験則

    Kumiko Tanaka-Ishii

    数学セミナー8月号   57 ( 681 ) 68 - 73  2018.07

  • 数理工学への誘い 携帯電話に日本語を入力するには--自然言語の数理

    Kumiko Tanaka-Ishii

    数学セミナ-   40 ( 10 ) 57 - 61  2001.10

    CiNii

▼display all

Industrial Property Rights

  • 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

    特許PCT/JP2021/003815

    杜キン, 石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 抽出装置、抽出方法、ならびに、プログラム,

    石井久美子and平野大貴

    Patent

  • ウェブ文書を表示する端末装置が実行するプログラム,

    特許第5360842号

    石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 検索システム

    特許第6144133 号

    石井久美子, 長尾真, 粟飯原俊介

    Rights holder: Kyusyu University

    Patent

  • 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム

    東京大学知的財産部管理番号23B12Z002-1

    Daniel Heffernan, 石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 確認システム、情報提供システム、ならびに、プログラム

    特許第4877831号

    石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 文字入力装置、文字入力方法、ならびに、プログラム

    特許第4706021号

    石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 漢字仮名交じり入力装置、漢字仮名交じり入力方法、ならびに、情報記憶媒体

    特許第4423369 号

    石井久美子

    Rights holder: The University of Tokyo

    Patent

  • 文字列入力装置、ならびに、プログラム

    特許第4096093 号

    武市正人, 石井久美子

    Rights holder: The University of Tokyo

    Patent

  • Check System, Information Providing System, and Computer-Readable Information Recording Medium Containing a Program

    特許第4877831 号

    Kumiko ISHII

    Rights holder: The University of Tokyo

    Patent

  • 単語列入力装置、単語列入力方法、ならびに、プログラム

    特許特許第3777477 号

    石井久美子, 武市正人

    Rights holder: The University of Tokyo

    Patent

  • 文字列入力装置、ならびに、プログラム

    石井久美子, イアン・フランク

    Patent

  • 抽出装置、用例検索装置、ならびに、プログラム

    中川裕志, 石井久美子

    Patent

  • ユーザ辞書生成登録システム、辞書サーバー、端末、ユーザー辞書生成方法、ユーザ辞書 登録方法、ならびに、情報記録媒体

    武市正人, 石井久美子

    Patent

▼display all

 

Syllabus

▼display all

Teaching Experience

  • アルゴリズムA

    Waseda University  

    2023.04
    -
    Now
     

  • プログラミングA

    Waseda University  

    2023.04
    -
    Now
     

  • 人工知能B

    Waseda University  

    2023.04
    -
    Now
     

  • 数理言語情報論

    Waseda University  

    2023.04
    -
    Now
     

  • 東京大学計数工学科数理情報工学特論I

    The University of Tokyo  

    2020
    -
    2022
     

  • 東京大学学際情報学府数理言語学概論

    The University of Tokyo  

    2017
    -
    2022
     

  • 東京大学情報理工学系研究科数理言語情報論

    The University of Tokyo  

    2016
    -
    2022
     

  • 東京大学先端学際工学特別講義

    The University of Tokyo  

    2016
    -
     
     

  • 九州大学工学部電気工学科人工知能

    Kyushu University  

    2015
    -
    2016
     

  • 九州大学大学院システム情報科学研究院機械学習概論

    Kyushu University  

    2014
    -
    2016
     

  • 九州大学工学部電気工学科技術表現法

    Kyushu University  

    2014
    -
    2016
     

  • 東京大学大学院情報理工学系研究科計算言語学

    The University of Tokyo  

    2009
    -
    2011
     

  • 東京大学大学院学際情報学府数理言語学概論

    The University of Tokyo  

    2004
    -
    2011
     

  • 東京大学計数工学科数理情報工学演習第一C(プログラミング演習)

    The University of Tokyo  

    2003
    -
    2011
     

  • 東京大学大学院情報理工学系研究科ロバストソフトウェア論

    The University of Tokyo  

    2005
    -
    2008
     

  • 東京大学大学院学際情報学府情報数理概論

    The University of Tokyo  

    2000
    -
    2003
     

  • 東京大学計数工学科数理情報工学演習第一A(プログラミング演習)

    The University of Tokyo  

    2000
    -
    2003
     

  • 東京大学計数工学科 数理情報工学特論第一

    The University of Tokyo  

    2001
    -
     
     

▼display all

 

Sub-affiliation

  • Faculty of Science and Engineering   Graduate School of Fundamental Science and Engineering

Research Institute

  • 2023
    -
    2024

    Waseda Research Institute for Science and Engineering   Concurrent Researcher

Internal Special Research Projects

  • 自然言語の数理モデルとその応用研究

    2023   杜 鑫

     View Summary

    &nbsp; 本研究では、深層学習に基づく機械学習を利用し、1. 自然言語の特性を数理モデルとして記述し、2. その特性を満たす機械学習技術を研究している。それらの成果を3. 言語情報を利用した数理ファイナンスに応用している。 応募者は本年度に早稲田大学の基幹理工学部情報理工学科に着任し、研究室の立ち上げを行った。研究室における研究では、GPUサーバを利用する必要がある。本費用を学外のGPUサーバの使用費として活用した。具体的には、深層学習を利用する、新しい検索エンジンの基礎特性を探究し、方式の改良を研究するために用い、研究室メンバーが利用した。得られた成果はトップ会議に投稿中である。 また、研究室ではさまざまな言語資源を利用しているが、その契約費用として活用した。