2022/06/29 更新

写真a

ヤマナ ハヤト
山名 早人
所属
理工学術院 基幹理工学部
職名
教授
メールアドレス
メールアドレス
プロフィール

昭和62年電子通信学科卒.平成元年修士課程了.平5年博士後期課程了.博士(工学).平成元~5年情報科学研究教育センター助手.平成5~12年通産省工業技術院電子技術総合研究所.平成8~9年通産省機械情報産業局電子機器課課付.平成11年成蹊大学大学院非常勤講師.平成12年理工学部助教授.平成16年7月国立情報学研究所客員助教授.平成17年4月同研究所客員教授,平成17年理工学術院教授,現在に至る.情報処理学会・研究奨励賞(平成5年).情報処理学会・山下記念研究賞(平成7年).データベース学会論文賞(平成21年).IBM Faculty Award(平成21年).電子情報通信学会論文賞(2013).IEICEフェロー(平成30年).IPSJフェロー(令和2年)IEEE Computer Society理事(2018-2020).IPSJ理事(2015-2016).日本データベース学会理事(2010-現在).電子情報通信学会(IECIE),情報処理学会(IPSJ),日本データベース学会(DBSJ),IEEE,ACM,AAAI各会員.完全準同型暗号, 情報検索,ビッグデータ解析,並列・分散処理,バイオインフォマティックス等の研究に従事.

兼担

  • 理工学術院   大学院基幹理工学研究科

  • 附属機関・学校   グローバルエデュケーションセンター

学内研究所等

  • 2021年
    -
    2022年

    データ科学センター   兼任センター員

  • 2020年
    -
    2022年

    リサーチイノベ オープンイノベーション推進セクション   兼任センター員

  • 2020年
    -
    2022年

    理工学術院総合研究所   兼任研究員

  • 2020年
    -
    2021年

    大学総合研究センター   兼任センター員

学歴

  • 1989年04月
    -
    1993年03月

    早稲田大学   大学院理工学研究科   電気(通信)工学専攻 博士後期課程  

  • 1987年04月
    -
    1989年03月

    早稲田大学   大学院理工学研究科   電気(通信)工学専攻 修士課程  

  • 1983年04月
    -
    1987年03月

    早稲田大学   理工学部   電子通信学科  

学位

  • 1993年03月   早稲田大学   博士(工学)

  • Waseda University   MS(Eng.)

経歴

  • 2005年04月
    -
    継続中

    早稲田大学   理工学術院   教授

  • 2020年10月
    -
    継続中

    早稲田大学   理事(情報化推進)

  • 2005年04月
    -
     

    国立情報学研究所   客員教授

  • 2004年04月
    -
    2005年03月

    国立情報学研究所   客員助教授

  • 2000年04月
    -
    2005年03月

    早稲田大学理工学部 助教授   助教授

  • 1999年04月
    -
    2000年03月

    成蹊大学大学院   工学研究科   非常勤講師

  • 1997年04月
    -
    2000年03月

    通産省 工業技術院 電子技術研究所   主任研究官

  • 1993年04月
    -
    1997年03月

    通産省 工業技術院 電子技術総合研究所   研究員

  • 1989年11月
    -
    1993年03月

    早稲田大学   情報科学研究教育センター   助手

▼全件表示

所属学協会

  •  
     
     

    ACM

  •  
     
     

    IEEE

  •  
     
     

    電子情報通信学会

  •  
     
     

    情報処理学会

  •  
     
     

    Database Society of Japan

 

研究分野

  • ウェブ情報学、サービス情報学

  • 生命、健康、医療情報学

  • 情報ネットワーク

  • 感性情報学

  • データベース

  • 知能情報学

  • ヒューマンインタフェース、インタラクション

  • 計算機システム

  • 計算科学   準同型暗号

▼全件表示

研究キーワード

  • 手書き文字コンピューティング

  • インターネット情報解析

  • 著者推定

  • Web情報の信憑性

  • 準同型暗号高速化

  • データマイニング

  • SNS解析

  • WWWクローラ

  • 検索エンジン

  • 並列化コンパイラ

▼全件表示

論文

  • Point of Interest Recommendation Acceleration Using Clustering

    Huida Jiao, Fan Mo, Hayato Yamana

    2021 IEEE 6th International Conference on Big Data Analytics, ICBDA 2021     175 - 180  2021年03月

     概要を見る

    Point of Interest (POI) recommendation systems exploit information in location-based social networks to predict locations that users may be interested in. POI recommendations have been widely adopted in many applications, which are helpful for daily life. POI recommendation services receive a huge volume of visit history data generated by users' daily lives with mobile devices. However, POI recommendation systems require long time to build a model from such a huge volume of check-in data and recommend suitable POIs to users. Thus, it is indispensable to shorten the execution time in a big data era. In this study, we propose a clustering-based method to divide the data into multiple subsets to accelerate the POI recommendation's execution while maintaining accuracy. Our proposed method can be adapted to any general POI recommendation algorithm. We divide the whole data, that is, users and POIs, into subsets with a tree structure to balance the size of subsets according to both geographical information and user check-in distribution. Evaluation results show that we successfully accelerate the base algorithms over 17 to 39 times faster while keeping the accuracy almost the same.

    DOI

  • Improving Text Classification Using Knowledge in Labels

    Cheng Zhang, Hayato Yamana

    2021 IEEE 6TH INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (ICBDA 2021)     193 - 197  2021年

     概要を見る

    Various algorithms and models have been proposed to address text classification tasks; however, they rarely consider incorporating the additional knowledge hidden in class labels. We argue that hidden information in class labels leads to better classification accuracy. In this study, instead of encoding the labels into numerical values, we incorporated the knowledge in the labels into the original model without changing the model architecture. We combined the output of an original classification model with the relatedness calculated based on the embeddings of a sequence and a keyword set. A keyword set is a word set to represent knowledge in the labels. Usually, it is generated from the classes while it could also be customized by the users. The experimental results show that our proposed method achieved statistically significant improvements in text classification tasks. The source code and experimental details of this study can be found on Github(1).

    DOI

  • Topological Measurement of Deep Neural Networks Using Persistent Homology.

    Satoru Watanabe, Hayato Yamana

    CoRR   abs/2106.03016  2021年

     概要を見る

    The inner representation of deep neural networks (DNNs) is indecipherable,
    which makes it difficult to tune DNN models, control their training process,
    and interpret their outputs. In this paper, we propose a novel approach to
    investigate the inner representation of DNNs through topological data analysis
    (TDA). Persistent homology (PH), one of the outstanding methods in TDA, was
    employed for investigating the complexities of trained DNNs. We constructed
    clique complexes on trained DNNs and calculated the one-dimensional PH of DNNs.
    The PH reveals the combinational effects of multiple neurons in DNNs at
    different resolutions, which is difficult to be captured without using PH.
    Evaluations were conducted using fully connected networks (FCNs) and networks
    combining FCNs and convolutional neural networks (CNNs) trained on the MNIST
    and CIFAR-10 data sets. Evaluation results demonstrate that the PH of DNNs
    reflects both the excess of neurons and problem difficulty, making PH one of
    the prominent methods for investigating the inner representation of DNNs.

  • User-centric Distributed Route Planning in Smart Cities based on Multi-objective Optimization.

    Francis Tiausas, Jose Paolo Talusan, Yu Ishimaki, Hayato Yamana, Hirozumi Yamaguchi, Shameek Bhattacharjee, Abhishek Dubey, Keiichi Yasumoto, Sajal K. Das 0001

    IEEE International Conference on Smart Computing(SMARTCOMP)     77 - 82  2021年

     概要を見る

    The realization of edge-based cyber-physical systems (CPS) poses important challenges in terms of performance, robustness, security, etc. This paper examines a novel approach to providing a user-centric adaptive route planning service over a network of Road Side Units (RSUs) in smart cities. The key idea is to adaptively select routing task parameters such as privacy-cloaked area sizes and number of retained intersections to balance processing time, privacy protection level, and route accuracy for privacy-augmented distributed route search while also handling per-query user preferences. This is formulated as an optimization problem with a set of parameters giving the best result for a set of queries given system constraints. Processing Throughput, Privacy Protection, and Travel Time Accuracy were developed as the objective functions to be balanced. A Multi-Objective Genetic Algorithm based technique (NSGA-II) is applied to recover a feasible solution. The performance of this approach was then evaluated using traffic data from Osaka, Japan. Results show good performance of the approach in balancing the aforementioned objectives based on user preferences.

    DOI

  • Real-time Periodic Advertisement Recommendation Optimization under Delivery Constraint using Quantum-inspired Computer.

    Fan Mo, Huida Jiao, Shun Morisawa, Makoto Nakamura, Koichi Kimura, Hisanori Fujisawa, Masafumi Ohtsuka, Hayato Yamana

    Proceedings of the 23rd International Conference on Enterprise Information Systems     431 - 441  2021年

    DOI

  • Overfitting Measurement of Deep Neural Networks Using No Data.

    Satoru Watanabe, Hayato Yamana

    8th IEEE International Conference on Data Science and Advanced Analytics(DSAA)     1 - 10  2021年

    DOI

  • Construction of Differentially Private Summaries Over Fully Homomorphic Encryption.

    Shojiro Ushiyama, Tsubasa Takahashi 0001, Masashi Kudo, Hayato Yamana

    Database and Expert Systems Applications - 32nd International Conference   12924 LNCS   9 - 21  2021年

     概要を見る

    Cloud computing has garnered attention as a platform of query processing systems. However, data privacy leakage is a critical problem. Chowdhury et al. proposed Cryptε, which executes differential privacy (DP) over encrypted data on two non-colluding semi-honest servers. Further, the DP index proposed by these authors summarizes a dataset to prevent information leakage while improving the performance. However, two problems persist: 1) the original data are decrypted to apply sorting via a garbled circuit, and 2) the added noise becomes large because the sorted data are partitioned with equal width, regardless of the data distribution. To solve these problems, we propose a new method called DP-summary that summarizes a dataset into differentially private data over a homomorphic encryption without decryption, thereby enhancing data security. Furthermore, our scheme adopts Li et al.’s data-aware and workload-aware (DAWA) algorithm for the encrypted data, thereby minimizing the noise caused by DP and reducing the errors of query responses. An experimental evaluation using torus fully homomorphic encryption (TFHE), a bit-wise fully homomorphic encryption library, confirms the applicability of the proposed method, which summarized eight 16-bit data in 12.5 h. We also confirmed that there was no accuracy degradation even after adopting TFHE along with the DAWA algorithm.

    DOI

  • First-Impression-Based Unreliable Web Pages Detection - Does First Impression Work?

    Kenta Yamada, Hayato Yamana

    Advanced Information Networking and Applications - Proceedings of the 35th International Conference on Advanced Information Networking and Applications (AINA-2021)   227   635 - 641  2021年

     概要を見る

    Considering the continuous increase in the number of web pages worldwide, detecting unreliable pages, such as those containing fake news, is indispensable. Natural language processing and social-information-based methods have been proposed for web page credibility evaluation. However, the applicability of the former to web pages is limited because a model is required for each language, while the latter is poorly adapted to changes, owing to its dependence on external services that can be discontinued. To solve these problems, herein we propose a first-impression-based web credibility evaluation method. Our experimental evaluation of a fake news corpus gave an accuracy of 0.898, which is superior to those of existing methods.

    DOI

  • Fast and Accurate Function Evaluation with LUT over Integer-Based Fully Homomorphic Encryption.

    Ruixiao Li, Hayato Yamana

    Advanced Information Networking and Applications - Proceedings of the 35th International Conference on Advanced Information Networking and Applications (AINA-2021)   226 LNNS   620 - 633  2021年

     概要を見る

    Fully homomorphic encryption (FHE), which is used to evaluate arbitrary functions in addition and multiplication operations via modular arithmetic (mod q) over ciphertext, can be applied in various privacy-preserving applications. However, big data is difficult to adopt owing to its high computational cost and the challenges associated with the efficient handling of complex functions such as log(x). To address these problems, we propose a method for handling any multi-input function using a lookup table (LUT) to replace the original calculations with array indexing operations over integer-based FHE. In this study, we extend our LUT-based method to handle any input values, i.e., including non-matched element values in the LUT, to match with a near indexed value and return an approximated output over FHE. In addition, we propose a technique for splitting the table to handle large integers for improved accuracy with only a slight increase in the execution time. For the experiments, we use the Microsoft/SEAL library, and the results show that our proposed method can evaluate a 16-bit to 16-bit function in 2.110 s and a 16-bit to 32-bit function in 2.268 s, thereby outperforming previous methods implemented via bit-wise calculation over FHE.

    DOI

  • Faster Homomorphic Trace-Type Function Evaluation.

    Yu Ishimaki, Hayato Yamana

    IEEE Access   9   53061 - 53077  2021年

     概要を見る

    Homomorphic encryption enables computations over encrypted data without decryption, and can be used for outsourcing computations to some untrusted source. In homomorphic encryption based on the hardness of ring-learning with errors, offering promising security and functionality, a plaintext is represented by a polynomial. A plaintext is treated as a vector whose homomorphic evaluation enables component-wise addition and multiplication, as well as rotation across the components. We focus on a commonly used and time-consuming subroutine that enables homomorphically summing-up the components of the vector or homomorphically extracting the coefficients of the polynomial, and call it homomorphic trace-type function. We improve the efficiency of the homomorphic trace-type function evaluation. The homomorphic trace-type function evaluation is performed by repeating homomorphic rotation followed by addition (rotations-and-sums). To correctly add up a rotated ciphertext and an unrotated one, a special operation called key-switching should be performed on the rotated one. As key-switching is computationally expensive, the rotations-and-sums is inherently inefficient. We propose a more efficient trace-type function evaluation by using loop-unrolling, which is compatible with other optimization techniques such as hoisting, and can exploit multi-threading. We show that the rotations-and-sums is not the optimal solution in terms of runtime complexity and that a trade-off exists between time and space. Experimental results demonstrate that our proposed method works 1.32-2.12 times faster than the previous method.

    DOI

  • Time Distribution Based Diversified Point of Interest Recommendation

    Fan Mo, Huida Jiao, Hayato Yamana

    2020 IEEE 5th International Conference on Cloud Computing and Big Data Analytics, ICCCBDA 2020     37 - 44  2020年04月  [査読有り]

     概要を見る

    © 2020 IEEE. In location-based social networks (LBSNs), personalized point-of-interest (POI) recommendation helps users mine their interests and find new locations conveniently and quickly. It is one of the most important services to improve users' quality of life and travel. Most POI recommendation systems devoted to improve accuracy, however in recent years, diversity of POI recommendations, such as categorical and geographical diversity, receives much attention because a single type of POIs easily causes loss of users' interest. Different from previous diversity related recommendations, in this paper, we focus on visiting time of POI- A unique attribute of the interaction between users and POIs. Users usually have different active visiting time patterns and different frequently visiting POIs depending on time. If a set of proper visiting times of recommended POIs concentrates on a small range of time, the user might be unsatisfied because they cannot cover whole of the user's active time range that results in inappropriateness for the user to visit those POIs. To solve this problem, we propose a new concept-time diversity and a time distribution based recommendation method to improve time diversity of recommended POIs. Our experimental result with Gowalla dataset shows our proposed method effectively improves time diversity 25.9% compared with USG with only 7.9% accuracy loss.

    DOI

  • 推薦システムにおける推薦理由提示手法の提案-機械学習解釈モデルを用いて-

    森澤竣, 真鍋智紀, 座間味卓臣, 山名早人

    日本データベース学会和文論文誌(Web)   18-J  2020年

    J-GLOBAL

  • 完全準同型暗号におけるbootstrap problem及びrelinearize problemの厳密解法の高速化

    佐藤宏樹, 石巻優, 山名早人

    日本データベース学会和文論文誌(Web)   18-J  2020年

    J-GLOBAL

  • Towards Privacy-preserving Anomaly-based Attack Detection against Data Falsification in Smart Grid.

    Yu Ishimaki, Shameek Bhattacharjee, Hayato Yamana, Sajal K. Das 0001

    2020 IEEE International Conference on Communications, Control, and Computing Technologies for Smart Grids(SmartGridComm)     1 - 6  2020年

     概要を見る

    In this paper, we present a novel framework for privacy-preserving anomaly-based data falsification attack detection in a smart grid advanced metering infrastructure (AMI). Specifically, we propose an anomaly detection framework over homomorphically encrypted data. Unlike existing privacy-preserving anomaly detectors, our framework detects the presence of not only energy theft (i.e., deductive attack), but also more advanced data integrity attacks (i.e., additive and camouflage attacks) over encrypted data without diminishing detection sensitivity. We optimize the anomaly detection procedure such that potentially expensive operations over homomorphically encrypted space are avoided. Moreover, we optimize the encryption method designed for a resource constrained device such as smart meters, and the time to complete encryption gets 40x faster over the naïve adoption of the encryption method. We also validate the proposed framework using a real dataset from smart metering infrastructures, and demonstrate that the data integrity attacks can be detected with high sensitivity, without sacrificing user privacy. Experimental results with a real dataset of 200 houses from an AMI in Texas showed that the detection sensitivity of the plaintext algorithm is not degraded due to the use of homomorphic encryption.

    DOI

  • Real-Time Periodic Advertisement Recommendation Optimization using Ising Machine.

    Fan Mo, Huida Jiao, Shun Morisawa, Makoto Nakamura, Koichi Kimura, Hisanori Fujisawa, Masafumi Ohtsuka, Hayato Yamana

    2020 IEEE International Conference on Big Data (IEEE BigData 2020)     5783 - 5785  2020年

     概要を見る

    Online advertising is widely used by commercial companies to attract customers. Tuning advertisement delivery to achieve a high conversion rate (CVR) is crucial for improving advertising effectiveness. Because advertisers require demandside platforms (DSPs) to deliver a certain number of ads within a fixed period, it is challenging to maximize CVR while satisfying ads delivery constraints. Such a combinatorial optimization problem is NP-hard when we have a considerable number of both ads and users. In this paper, we adopt Digital Annealer (DA), a quantum-inspired Ising computer, to solve the combinatorial optimization problem. The experimental evaluation result shows that the proposed method increases accuracy from 0.176 to 0.326 and achieves 20.8 times speed-up compared to baseline.

    DOI

  • Highly Accurate CNN Inference Using Approximate Activation Functions over Homomorphic Encryption.

    Takumi Ishiyama, Takuya Suzuki, Hayato Yamana

    CoRR   abs/2009.03727   3989 - 3995  2020年

     概要を見る

    In the big data era, cloud-based machine learning as a service (MLaaS) has attracted considerable attention. However, when handling sensitive data, such as financial and medical data, a privacy issue emerges, because the cloud server can access clients' raw data. A common method of handling sensitive data in the cloud uses homomorphic encryption, which allows computation over encrypted data without decryption. Previous research adopted a low-degree polynomial mapping function, such as the square function, for data classification. However, this technique results in low classification accuracy. This study seeks to improve the classification accuracy for inference processing in a convolutional neural network (CNN) while using homomorphic encryption. We apply various orders of the polynomial approximations of Google's Swish and ReLU activation functions. We also adopt batch normalization to normalize the inputs for the approximated activation functions to fit the input range to minimize the error. We implemented CNN inference labeling over homomorphic encryption using the Microsoft's Simple Encrypted Arithmetic Library (SEAL) for the Cheon-Kim-Kim-Song (CKKS) scheme. The experimental evaluations confirmed classification accuracies of 99.29% and 81.06% for MNIST and CIFAR-10, respectively, which entails 0.11% and 4.69% improvements, respectively, over previous methods.

    DOI

  • Deep Neural Network Pruning Using Persistent Homology.

    Satoru Watanabe, Hayato Yamana

    2020 IEEE THIRD INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND KNOWLEDGE ENGINEERING (AIKE 2020)     153 - 156  2020年

     概要を見る

    Deep neural networks (DNNs) have improved the performance of artificial intelligence systems in various fields including image analysis, speech recognition, and text classification. However, the consumption of enormous computation resources prevents DNNs from operating on small computers such as edge sensors and handheld devices. Network pruning (NP), which removes parameters from trained DNNs, is one of the prominent methods of reducing the resource consumption of DNNs. In this paper, we propose a novel method of NP, hereafter referred to as PHPM, using persistent homology (PH). PH investigates the inner representation of knowledge in DNNs, and PHPM utilizes the investigation in NP to improve the efficiency of pruning. PHPM prunes DNNs in ascending order of magnitudes of the combinational effects among neurons, which are calculated using the one-dimensional PH, to prevent the deterioration of the accuracy. We compared PHPM with global magnitude pruning method (GMP), which is one of the common baselines to evaluate pruning methods. Evaluation results show that the classification accuracy of DNNs pruned by PHPM outperforms that pruned by GMP.

    DOI

  • Highly Accurate CNN Inference Using Approximate Activation Functions over Homomorphic Encryption.

    Takumi Ishiyama, Takuya Suzuki, Hayato Yamana

    CoRR   abs/2009.03727   3989 - 3995  2020年

    DOI

  • DAMCREM: Dynamic Allocation Method of Computation REsource to Macro-Tasks for Fully Homomorphic Encryption Applications.

    Takuya Suzuki, Yu Ishimaki, Hayato Yamana

    IEEE International Conference on Smart Computing(SMARTCOMP)     458 - 463  2020年

     概要を見る

    Smart computing aims to improve the quality of life by utilizing Internet-of-Things devices and cloud computing. Typically, this computing handles private and/or personal information so concealing such sensitive information is a challenge. Adopting fully homomorphic encryption (FHE) is one approach for handling such sensitive information safely; that is, we can calculate the encrypted data without decryption. However, the time and space complexity of the FHE operation is high. Thus, its computation takes a long time. In this study, we aim to shorten FHE execution time by adopting our new scheduling algorithm, which divides a task into several macro-tasks and then assigns a set of threads. We assume a cloud computing system that is equipped with a many-core CPU. Thus, we propose the dynamic allocation method of computation resource to macro-tasks (DAMCREM), which dynamically allocates a certain number of threads (selected from pre-defined candidates) to each macro-task of every given job. In the evaluation, we compared DAMCREM to naive methods that allocate a pre-defined number of threads to each macro-task. The result shows that the average latency and maximum latency of job execution is less than those of naive methods, even when the average interval of job arrival is short.

    DOI

  • WUY at SemEval-2020 Task 7: Combining BERT and Naive Bayes-SVM for Humor Assessment in Edited News Headlines.

    Cheng Zhang, Hayato Yamana

    Proceedings of the Fourteenth Workshop on Semantic Evaluation(SemEval@COLING)     1071 - 1076  2020年

  • Topological Measurement of Deep Neural Networks Using Persistent Homology.

    Satoru Watanabe, Hayato Yamana

    International Symposium on Artificial Intelligence and Mathematics(ISAIM)    2020年

     概要を見る

    The inner representation of deep neural networks (DNNs) is indecipherable, which makes it difficult to tune DNN models, control their training process, and interpret their outputs. In this paper, we propose a novel approach to investigate the inner representation of DNNs through topological data analysis (TDA). Persistent homology (PH), one of the outstanding methods in TDA, was employed for investigating the complexities of trained DNNs. We constructed clique complexes on trained DNNs and calculated the one-dimensional PH of DNNs. The PH reveals the combinational effects of multiple neurons in DNNs at different resolutions, which is difficult to be captured without using PH. Evaluations were conducted using fully connected networks (FCNs) and networks combining FCNs and convolutional neural networks (CNNs) trained on the MNIST and CIFAR-10 data sets. Evaluation results demonstrate that the PH of DNNs reflects both the excess of neurons and problem difficulty, making PH one of the prominent methods for investigating the inner representation of DNNs.

    DOI

  • Imitation-Resistant Passive Authentication Interface for Stroke-Based Touch Screen Devices.

    Masashi Kudo, Hayato Yamana

    HCI International 2020 - Posters - 22nd International Conference   1226 CCIS   558 - 565  2020年

     概要を見る

    Today’s widespread use of stroke-based touchscreen devices creates numerous associated security concerns and requires efficient security measures in response. We propose an imitation-resistant passive authentication interface for stroke-based touch screen devices employing classifiers for each individual stroke, which is evaluated with respect to 26 features. For experimental validation, we collect stroke-based touchscreen data from 23 participants containing target and imitation stroke patterns using a photo-matching game in the form of an iOS application. The equal error rate (EER), depicting the rate at which false rejection and false acceptance of target and imitator strokes are equal, is assumed as an indicator of the classification accuracy. Leave-one-out cross-validation was employed to evaluate the datasets based on the mean EER. For each cross-validation, one out of the two target datasets, an imitator dataset, and the remaining 20 imitator datasets were selected as genuine data, imitator test data, and imitator training data, respectively. Our results confirm stroke imitation as a serious threat. Among the 26 stroke features evaluated in terms of their imitation tolerance, the stroke velocity was identified as the most difficult to imitate. Dividing classifiers based on the stroke direction was found to further contribute to classification accuracy.

    DOI

  • Smart SE: Smart Systems and Services Innovative Professional Education Program.

    Hironori Washizaki, Kenji Tei, Kazunori Ueda, Hayato Yamana, Yoshiaki Fukazawa, Shinichi Honiden, Shoichi Okazaki, Nobukazu Yoshioka, Naoshi Uchihira

    44th IEEE Annual Computers, Software, and Applications Conference(COMPSAC)     1113 - 1114  2020年

     概要を見る

    The Smart Systems and Services Innovative Professional Education (Smart SE) program is a certification program developed as part of the education network for the Practical information Technologies (enPiT-Pro) project, which is funded by the Japan Ministry of Education, Culture, Sports, Science and Technology. The Smart SE program provides industry professionals working in fields related to information and communication technology (ICT) with additional training and education in smart systems and services that utilize various technologies such as IoT, Cloud, Big Data, and Artificial Intelligence (AI) for businesses. Here, we illustrate its purpose, curriculum and features to respond to the needs of industrial professional education.

    DOI

  • Privacy Preserving Calculation in Cloud using Fully Homomorphic Encryption with Table Lookup

    Ruixiao Li, Yu Ishimaki, Hayato Yamana

    2020 5TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (IEEE ICBDA 2020)     315 - 322  2020年  [査読有り]

     概要を見る

    To protect data in cloud servers, fully homomorphic encryption (FHE) is an effective solution. In addition to encrypting data, FHE allows a third party to evaluate arithmetic circuits (i.e., computations) over encrypted data without decrypting it, guaranteeing protection even during the calculation. However, FHE supports only addition and multiplication. Functions that cannot be directly represented by additions or multiplications cannot be evaluated with FHE. A naive implementation of such arithmetic operations with FHE is a bit-wise operation that encrypts numerical data as a binary string. This incurs huge computation time and storage costs, however. To overcome this limitation, we propose an efficient protocol to evaluate multi-input functions with FHE using a lookup table. We extend our previous work, which evaluates a single-integer input function, such as f(x). Our extended protocol can handle multi-input functions, such as f(x, y). Thus, we propose a new method of constructing lookup tables that can evaluate multi-input functions to handle general functions. We adopt integer encoding rather than bit-wise encoding to speed up the evaluations. By adopting both permutation operations and a private information retrieval scheme, we guarantee that no information from the underlying plaintext is leaked between two parties: a cloud computation server and a decryptor. Our experimental results show that the runtime of our protocol for a two-input function is approximately 13 minutes, when there are 8,192 input elements in the lookup table. By adopting a multi-threading technique, the runtime can be further reduced to approximately three minutes with eight threads. Our work is more practical than a previously proposed bit-wise implementation, which requires 60 minutes to evaluate a single-input function.

    DOI

  • Geographic Diversification of Recommended POIs in Frequently Visited Areas.

    Jungkyu Han, Hayato Yamana

    ACM Transactions on Information Systems   38 ( 1 ) 1 - 39  2020年  [査読有り]

     概要を見る

    In the personalized Point-Of-Interest (POI) (or venue) recommendation, the diversity of recommended POIs is an important aspect. Diversity is especially important when POIs are recommended in the target users' frequently visited areas, because users are likely to revisit such areas. In addition to the (POI) category diversity that is a popular diversification objective in recommendation domains, diversification of recommended POI locations is an interesting subject itself. Despite its importance, existing POI recommender studies generally focus on and evaluate prediction accuracy. In this article, geographical diversification (geo-diversification), a novel diversification concept that aims to increase recommendation coverage for a target users' geographic areas of interest, is introduced, from which a method that improves geo-diversity as an addition to existing state-of-the-art POI recommenders is proposed. In experiments with the datasets from two real Location Based Social Networks (LSBNs), we first analyze the performance of four state-of-the-art POI recommenders from various evaluation perspectives including category diversity and geo-diversity that have not been examined previously. The proposed method consistently improves geo-diversity (CPR(geo)@20) by 5 to 12% when combined with four state-of-the-art POI recommenders with negligible prediction accuracy (Recall@20) loss and provides 6 to 18% geo-diversity improvement with tolerable prediction accuracy loss (up to 2.4%).

    DOI

  • Appearance Frequency-Based Ranking Method for Improving Recommendation Diversity

    Seiki Miyamoto, Takumi Zamami, Hayato Yamana

    2019 4TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (ICBDA 2019)     420 - 425  2019年  [査読有り]

     概要を見る

    Recommender systems are used to analyze users' preferences through their past activities and to personalize recommendations for each user based on what they might be interested in. The performance of the recommender system is most commonly measured using only recommendation accuracy. However, recommending accurate items does not mean that the generated recommendation is the best for the user because it can be biased towards some items that have a higher chance of being liked by users, such as popular items. Recommendations become repetitive and obvious with biased item selection and are less likely to be personalized. To mitigate bias and repetitiveness, recommendation diversity has been studied. However, diversity has a trade-off relationship with accuracy. Modifying the recommendation algorithm to consider diversity while learning about user preferences would not only cause loss in accuracy, but also lead to less precise reading of user preferences. Instead, using ranking methods to re-rank the priority of items predicted, the recommendation algorithm would keep the preciseness of the algorithm. In this study, a ranking method using the appearance frequency of items to restrict the items from being frequently recommended will be proposed. The experimental results showed that the proposed method consistently improved diversity in multiple diversity metrics.

    DOI

  • Privacy-preserving Recommendation for Location-based Services

    Qiuyi Lyu, Yu Ishimaki, Hayato Yamana

    2019 4TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (ICBDA 2019)     98 - 105  2019年  [査読有り]

     概要を見る

    Location-based recommendation services, such as Foursquare, enhance the convenience in the life of consumers. Users are usually sensitive to disclose their personal information. Unavoidable security concerns arise because malicious third parties could misuse confidential information, such as the users' preferences. The mainstream research to this problem is employing the privacy-preserving k-NN search algorithm. However, two major bottlenecks exist. One is that it only provides the nearest points of interest (POI) to the users without any recommendations based on the users' behavior history. This limited service eventually results in a situation in which no user would prefer to continue using it. The other is that only a single user holds the private key; thus, the service providers cannot obtain any user's information to analyze to make a profit. To solve the first problem, our proposed protocol provides recommendation services by adopting collaborative filtering techniques with an encrypted database based on fully homomorphic encryption aside from encrypting both the user's location and preferences. For the second problem, a privacy service provider (PSP) is designed to generate and hold the private key. Thus, service providers can homomorphically compute aggregate information concerning user behavior patterns and send the encrypted results to PSP to ensure decryption while maintaining the privacy of individual users. Compared with the previous studies, the novelty of the proposed protocol is the design of a commercially valuable privacy recommendation mechanism that could benefit both consumers and service providers on LBS.

    DOI

  • Fully Homomorphic Encryption with Table Lookup for Privacy-Preserving Smart Grid.

    Ruixiao Li, Yu Ishimaki, Hayato Yamana

    IEEE International Conference on Smart Computing(SMARTCOMP)     19 - 24  2019年  [査読有り]

     概要を見る

    Smart grids are indispensable applications in smart connected communities (SCC). To construct privacy-preserving anomaly detection systems on a smart grid, we adopt fully homomorphic encryption (FHE) to protect users' sensitive data. Although FHE allows a third party to perform calculations on encrypted data without decryption, FHE only supports addition and multiplication on encrypted data. In anomaly detection, we must calculate both harmonic and arithmetic means consisting of logarithms. A naive implementation of such arithmetic operations with FHE is a bitwise operation; thus, it requires huge computation time. To speed up such calculations, we propose an efficient protocol to evaluate any functions with FHE using a lookup table (LUT). Our protocol allows integer encoding, i.e., a set of integers is encrypted as a single ciphertext, rather than using bitwise encoding. Our experimental results in a multi-threaded environment show that the runtime of our protocol is approximately 51 s when the size of the LUT is 448,000. Our protocol is more practical than the previously proposed bitwise implementation.

    DOI

  • URL-based Phishing Detection using the Entropy of Non-Alphanumeric Characters.

    Eint Sandi Aung, Hayato Yamana

    Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services(iiWAS)     385 - 392  2019年  [査読有り]

     概要を見る

    © 2019 Association for Computing Machinery. Phishing is a type of personal information theft in which phishers lure users to steal sensitive information. Phishing detection mechanisms using various techniques have been developed. Our hypothesis is that phishers create fake websites with as little information as possible in a webpage, which makes it difficult for content- A nd visual similarity-based detections by analyzing the webpage content. To overcome this, we focus on the use of Uniform Resource Locators (URLs) to detect phishing. Since previous work extracts specific special-character features, we assume that non- A lphanumeric (NAN) character distributions highly impact the performance of URL-based detection. We hence propose a new feature called the entropy of NAN characters for URL-based phishing detection. Experimental evaluation with balanced and imbalanced datasets shows 96% ROC AUC on the balanced dataset and 89% ROC AUC on the imbalanced dataset, which increases the ROC AUC as 5 to 6% from without adopting our proposed feature.

    DOI

  • A Privacy-Preserving Query System using Fully Homomorphic Encryption with Real-World Implementation for Medicine-Side Effect Search.

    Yusheng Jiang, Tamotsu Noguchi, Nobuyuki Kanno, Yoshiko Yasumura, Takuya Suzuki, Yu Ishimaki, Hayato Yamana

    Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services(iiWAS)     63 - 72  2019年  [査読有り]

     概要を見る

    © 2019 Association for Computing Machinery. The preservation of privacy during a search has become a serious problem in recent years. There is an increasing requirement to ensure that user queries are not abused by a third party, including the search provider. Fully homomorphic encryption (FHE) can conduct addition and multiplication directly over ciphertext. Using FHE, privacy, concerning both the user queries and the database of the search provider, can be protected. In this paper, we propose a privacy-preserving query system model. We implemented the proposed model in a real-world medicine side-effect query system. We applied a filtering technique, prior to the query deployment, to reduce the size of the database and used multi-threading to accelerate the search. The system was tested 10,000 times with a random query, using a database comprising 40,000 records of simulation data, and completed 99.84% of the queries within 60 seconds (s), proving the real-world applicability of our system.

    DOI

  • Outsourced Private Set Union on Multi-Attribute Datasets for Search Protocol using Fully Homomorphic Encryption.

    Rumi Shakya, Yoshiko Yasumura, Suzuki Takuya, Yu Ishimaki, Hayato Yamana

    ACM International Conference Proceeding Series     55 - 62  2019年  [査読有り]

     概要を見る

    © 2019 Association for Computing Machinery. In the era of big data and cloud computing, outsourcing data storage to the cloud poses the risk of its abuse or leakage. Thus, we address the problem of delegating computation on outsourced private datasets while maintaining privacy. In this study, we consider a scenario involving two data owners outsourcing their datasets to a cloud service. The cloud performs a set union computation, after which the querier sends a query to obtain information from both datasets. We propose a protocol that uses fully homomorphic encryption (FHE) and Cartesian-join of Bloom filters (CBF) as proposed by Wang et al. The protocol obtains information on the existence of a particular set of elements without learning about the residing source. To the best of our knowledge, our protocol, by using the FHE and CBF matrix, is a novel approach to ensuring the security of outsourced set union operations.

    DOI

  • Secure Naïve Bayes Classification Protocol over Encrypted Data Using Fully Homomorphic Encryption.

    Yoshiko Yasumura, Yu Ishimaki, Hayato Yamana

    Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services(iiWAS)     45 - 54  2019年  [査読有り]

     概要を見る

    © 2019 Association for Computing Machinery. Machine learning classification has a wide range of applications. In the big data era, a client may want to outsource classification tasks to reduce the computational burden at the client. Meanwhile, an entity may want to provide a classification model and classification services to such clients. However, applications such as medical diagnosis require sensitive data that both parties may not want to reveal. Fully homomorphic encryption (FHE) enables secure computation over encrypted data without decryption. By applying FHE, classification can be outsourced to a cloud without revealing any data. However, existing studies on classification over FHE do not achieve the scenario of outsourcing classification to a cloud while preserving the privacy of the classification model, client's data and result. In this work, we apply FHE to a naïve Bayes classifier and, to the best of our knowledge, propose the first concrete secure classification protocol that satisfies the above scenario.

    DOI

  • Point of Interest Recommendation by Exploiting Geographical Weighted Center and Categorical Preference.

    Fan Mo, Hayato Yamana

    2019 International Conference on Data Mining Workshops   2019-November   73 - 76  2019年  [査読有り]

     概要を見る

    © 2019 IEEE. Point of interest (POI) recommendation is one of the indispensable services in location-based social networks (LBSNs). POI recommendation helps users find new locations and better understand the city. In LBSNs, the aspects, such as geographical information and categorical information, improve the accuracy of POI recommendation. In this paper, we propose two new techniques to improve the recommendation accuracy; 1) weighted center of a target user's each active area and 2) category-dependent threshold for categorical preference. The weighted center represents density-based center of a target user's active area. The geographical aspect usually adopts the target user's active areas that he frequently visited. Although previous researches define the active area by its active center and its radius, they choose the location of the most frequently visited POI as the active center even if there exist several POIs that have similar number of check-ins, which results in miss-definition of active center. Our weighted center is able to handle the target user's check-in probability, which follows a power-law distribution. Besides, previous researches predict users' preference for categories; however, they neglect the fact that different categories have different users' preference distributions. For example, a specific category has wide-range of subcategories to be preferred by user, but another category has a few subcategories to be preferred, even if there are many subcategories in the category. Thus, we set different thresholds to select candidate subcategories in each category. Experimental result with Weeplaces dataset shows that our method outperforms other baselines by at least 16.93% in F1-score@5.

    DOI

  • Two-Factor Authentication Using Leap Motion and Numeric Keypad.

    Tomoki Manabe, Hayato Yamana

    HCI for Cybersecurity, Privacy and Trust - First International Conference   11594 LNCS   38 - 51  2019年  [査読有り]

     概要を見る

    © 2019, Springer Nature Switzerland AG. Biometric authentication has become popular in modern society. It takes less time and effort for users when compared to conventional password authentication. Furthermore, biometric authentication was considered more secure than password authentication because it was more difficult to steal biometric information when compared to passwords. However, given the development of high-spec cameras and image recognition technology, the risk of the theft of biometric information, such as fingerprints, is increasing. Additionally, biometric authentication exhibits lower and less stable accuracy than that of password authentication. To solve the aforementioned issues, we propose two-factor authentication combining password-input and biometric authentication of the hand. We adopt Leap Motion to measure physical and behavioral features related to hands. Subsequently, a random forest classifier determines whether the hand features belongs to a genuine user. Our authentication system architecture completes the biometric authentication by using a limited amount of data obtained within a few seconds when a user enters a password. The advantage of the proposed method is that it prevents intrusion by biometric authentication even if a password is stolen. Our experimental results for 21 testers exhibit 94.98% authentication accuracy in a limited duration, 2.52 s on an average while inputting a password.

    DOI

  • Effectiveness of Usability & Performance Features for Web Credibility Evaluation.

    Kenta Yamada, Hayato Yamana

    2019 IEEE International Conference on Big Data (IEEE BigData)     6257 - 6259  2019年  [査読有り]

     概要を見る

    Unreliable web pages, such as fake news, have become an unavoidable problem. To tackle this problem, recent researches have adopted both content and social features to predict the credibility of the web pages; however, the accuracy is almost saturated. In this paper, we propose the adoption of Google Lighthouse features to predict web page credibility. Our experimental results show that the proposed method achieves an increased accuracy of 7.9% in comparison with state-of-the-art methods.

    DOI

  • Message from the BITS 2018 General Chairs and TPC Chairs

    Sajal K. Das, Hayato Yamana, General Co-Chairs, Mauro Conti, Atsuko Miyaji, Jun Sakuma

    Proceedings - 2018 IEEE International Conference on Smart Computing, SMARTCOMP 2018     xxiii  2018年07月  [査読有り]

    DOI

  • Attribute-based proxy re-encryption method for revocation in cloud storage: Reduction of communication cost at re-encryption

    Yoshiko Yasumura, Hiroki Imabayashi, Hayato Yamana

    2018 IEEE 3rd International Conference on Big Data Analysis, ICBDA 2018     312 - 318  2018年05月  [査読有り]

     概要を見る

    © 2018 IEEE. In recent years, many users have uploaded data to the cloud for easy storage and sharing with other users. At the same time, security and privacy concerns for the data are growing. Attribute-based encryption (ABE) enables both data security and access control by defining users with attributes so that only those users who have matching attributes can decrypt them. For real-world applications of ABE, revocation of users or their attributes is necessary so that revoked users can no longer decrypt the data. In actual implementations, ABE is used in hybrid with a symmetric encryption scheme such as the advanced encryption standard (AES) where data is encrypted with AES and the AES key is encrypted with ABE. The hybrid encryption scheme requires re-encryption of the data upon revocation to ensure that the revoked users can no longer decrypt that data. To re-encrypt the data, the data owner (DO) must download the data from the cloud, then decrypt, encrypt, and upload the data back to the cloud, resulting in both huge communication costs and computational burden on the DO depending on the size of the data to be re-encrypted. In this paper, we propose an attribute-based proxy re-encryption method in which data can be re-encrypted in the cloud without downloading any data by adopting both ABE and Syalim's encryption scheme. Our proposed scheme reduces the communication cost between the DO and cloud storage. Experimental results show that the proposed method reduces the communication cost by as much as one quarter compared to that of the trivial solution.

    DOI

  • 完全準同型暗号による秘密計算回路のループ最適化と最近傍法への適用

    佐藤宏樹, 馬屋原昂, 石巻優, 山名早人

    日本データベース学会和文論文誌(Web)   16-J   ROMBUNNO.12 (WEB ONLY)  2018年03月

    J-GLOBAL

  • オンライン学習を用いたアクティブ認証の実現―スマートフォンを対象として―

    石山雄大, 山名早人, 山名早人

    日本データベース学会和文論文誌(Web)   16-J   ROMBUNNO.18 (WEB ONLY)  2018年03月

    J-GLOBAL

  • ShuttleBoard:スマートウォッチにおけるタップ動作の少ない仮名文字入力手法

    下岡純也, 山名早人

    日本データベース学会和文論文誌(Web)   16-J   ROMBUNNO.5 (WEB ONLY)  2018年03月

    J-GLOBAL

  • History-enhanced Focused Website Segment Crawler.

    Tanaphol Suebchua, Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    2018 International Conference on Information Networking(ICOIN)   2018-January   80 - 85  2018年  [査読有り]

     概要を見る

    The primary challenge in focused crawling research is how to efficiently utilize computing resources, e.g., bandwidth, disk space, and time, to find as many web pages related to a specific topic as possible. To meet this challenge, we previously introduced a machine-learning-based focused crawler that aims to crawl a group of relevant web pages located in the same directory path, called a website segment, and has achieved high efficiency so far. One of the limitations of our previous approach is that it may repeatedly visit a website that does not serve any relevant website segments, in the scenario where the website segments share the same linkage characteristics as the relevant ones in the training dataset. In this paper, we propose a "history-enhanced focused website segment crawler" to solve the problem. The idea behind it is that the priority score of an unvisited website segment should be reduced if the crawler has consecutively downloaded many irrelevant web pages from the website. To implement this idea, we propose a new prediction feature, called the "history feature", that is extracted from the recent crawling results, i.e., relevant and irrelevant web pages gathered from the target website. Our experiment shows that our newly proposed feature could improve the crawling efficiency of our focused crawler by a maximum of approximately 5%.

    DOI

  • Efficient Topical Focused Crawling Through Neighborhood Feature.

    Tanaphol Suebchua, Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    New Generation Computing   36 ( 2 ) 95 - 118  2018年  [査読有り]

     概要を見る

    A focused web crawler is an essential tool for gathering domain-specific data used by national web corpora, vertical search engines, and so on, since it is more efficient than general Breadth-First or Depth-First crawlers. The problem in focused crawling research is the prioritization of unvisited web pages in the crawling frontier followed by crawling these web pages in the order of their priority. The most common feature, adopted in many focused crawling researches, to prioritize an unvisited web page is the relevancy of the set of its source web pages, i.e., its in-linked web pages. However, this feature is limited, because we cannot estimate the relevancy of the unvisited web page correctly if we have few source web pages. To solve this problem and enhance the efficiency of focused web crawlers, we propose a new feature, called the "neighborhood feature". This enables the adoption of additional already-downloaded web pages to estimate the priority of a target web page. The additionally adopted web pages consist both of web pages located at the same directory as that of the target web page and web pages whose directory paths are similar to that of the target web page. Our experimental results show that our enhanced focused crawlers outperform the crawlers not utilizing the neighborhood feature as well as the state-of-the-art focused crawlers, including HMM crawler.

    DOI

  • Editor's Message to Special Issue of Young Researchers' Papers.

    Hayato Yamana

    Journal of Information Processing   26   224 - 224  2018年  [査読有り]

    DOI

  • Outsourced Private Set Intersection Cardinality with Fully Homomorphic Encryption.

    Arisa Tajima, Hiroki Sato, Hayato Yamana

    6th International Conference on Multimedia Computing and Systems(ICMCS)   2018-May   1 - 8  2018年  [査読有り]

     概要を見る

    Cloud database services have attracted considerable interest with the increase in the amount of data to be analyzed. Delegating data management to cloud services, however, causes security and privacy issues because cloud services are not always trustable. In this study, we address the problem of answering join queries across outsourced private datasets while maintaining data confidentiality. We particularly consider a scenario in which two data owners each own a set of elements and a querier asks the cloud to perform join operations to obtain the size of the common elements in the two datasets. To process the join operations without revealing the contents of data to the cloud, we propose two protocols, a basic protocol and a querier-friendly protocol, which adopt a functionality of outsourced private set intersection cardinality (OPSI-CA) with fully homomorphic encryption (FHE) and bloom filters. The querier-friendly protocol achieves a reduction in communication and computation costs for the querier. Our experimental results show that it takes 436 s for the basic protocol and 298 s for the querier-friendly protocol to execute the join query on the two datasets with 100 elements each. The novelty of this study is that our protocols are the first approaches for outsourced join operations adopting FHE.

    DOI

  • Active Authentication on Smartphone using Touch Pressure.

    Masashi Kudo, Hayato Yamana

    The 31st Annual ACM Symposium on User Interface Software and Technology Adjunct Proceedings     96 - 98  2018年  [査読有り]

     概要を見る

    Smartphone user authentication is still an open challenge because the balance between both security and usability is indispensable. To balance between them, active authentication is one way to overcome the problem. In this paper, we tackle to improve the accuracy of active authentication by adopting online learning with touch pressure. In recent years, it becomes easy to use the smartphones equipped with pressure sensor so that we have confirmed the effectiveness of adopting the touch pressure as one of the features to authenticate. Our experiments adopting online AROW algorithm with touch pressure show that equal error rate (EER), where the miss rate and false rate are equal, is reduced up to one-fifth by adding touch pressure feature. Moreover, we have confirmed that training with the data from both sitting posture and prone posture archives the best when testing variety of postures including sitting, standing and prone, which achieves EER up to 0.14%.

    DOI

  • Non-Interactive and Fully Output Expressive Private Comparison.

    Yu Ishimaki, Hayato Yamana

    Progress in Cryptology - INDOCRYPT 2018 - 19th International Conference on Cryptology in India(INDOCRYPT)   11356 LNCS   355 - 374  2018年  [査読有り]

     概要を見る

    © 2018, Springer Nature Switzerland AG. Private comparison protocols are fundamental to the field of secure computation. Recently, Lu et al. (ASIACCS 2018) proposed a new protocol, XCMP,, which is based on a ring-based fully homomorphic encryption (FHE) scheme. In that scheme, two μ-bit integers a and b are compared in encrypted form without revealing the plaintext to an evaluator. The protocol outputs a bit in encrypted form, which indicates whether a > b. XCMP has the following three advantages: the output can be reused for further processing, the evaluation is performed without any interactions with a decryptor having a secret key, and the required multiplicative depth is only 1. However, XCMP has two potential disadvantages. First, the protocol result preserves both additive and multiplicative homomorphisms over ℤ t only, whereas the underlying FHE scheme can support a much larger plaintext space of (Formula Presented) for a prime t and a power-of-two N; this restricts the functionality of applications using the comparison result. Second, the bit length μ of the integers to be compared is no more than log N (typically 16 bits, at most). Thus, it is difficult for XCMP to handle larger integers. In this paper, we propose a non-interactive private comparison protocol that solves the aforementioned problems and outputs an additively and multiplicatively reusable comparison result over the ring without adding an extremely large computational overhead over XCMP. Moreover, by regarding a μ (>16 -bit integer as a sequence of chunks, we show that the multiplicative depth required for our comparison protocol is logarithmic in the number of chunks. This value is much smaller than the naïve solution with a multiplicative depth of log μ. Experiment results demonstrate that our protocol introduces a subtle overhead over XCMP. Remarkably, we experimentally demonstrate that our protocol for a larger domain is comparable to the construction given by one of the state-of-the-art bitwise FHE schemes.

    DOI

  • External Content-dependent Features for Web Credibility Evaluation.

    Kazuyoshi Ootani, Hayato Yamana

    IEEE International Conference on Big Data (IEEE BigData 2018)     5414 - 5416  2018年  [査読有り]

     概要を見る

    Unreliable web pages such as fake news has become a global problem in big data era. The motivation to publish fake news is often for profit; for example, earning advertisement income by putting ads on their web pages. In this paper, we focus on different usage of HTML source tags between reliable and unreliable web pages, then propose new features for predicting their credibility. The experimental result shows that our proposed features increase accuracy when used together with previously proposed Contents features.

    DOI

  • Improving Recommendation Diversity Across Users by Reducing Frequently Recommended Items.

    Seiki Miyamoto, Takumi Zamami, Hayato Yamana

    IEEE International Conference on Big Data (IEEE BigData 2018)     5392 - 5394  2018年  [査読有り]

     概要を見る

    Recommender systems have been used for analyzing users' preference through their past activities and recommend items in which they might be interested in. There are numerous research on improving the accuracy of recommendation being conducted, so the recommender system reads user preference more accurately. However, it is important to consider the recommendation diversity, because lacking diversity will lead to recommendation being repetitive and obvious. In this paper, we propose a method to re-rank the recommendation list by appearance frequency of items to recommend more range of items. The experimental result shows that our method consistently performs better than a related work to improve recommendation diversity.

    DOI

  • A Survey on Recommendation Methods Beyond Accuracy.

    Jungkyu Han, Hayato Yamana

    IEICE Transactions on Information & Systems   100-D ( 12 ) 2931 - 2944  2017年12月  [査読有り]

     概要を見る

    In recommending to another individual an item that one loves, accuracy is important, however in most cases, focusing only on accuracy generates less satisfactory recommendations. Studies have repeatedly pointed out that aspects that go beyond accuracy-such as the diversity and novelty of the recommended items-are as important as accuracy in making a satisfactory recommendation. Despite their importance, there is no global consensus about definitions and evaluations regarding beyond-accuracy aspects, as such aspects closely relate to the subjective sensibility of user satisfaction. In addition, devising algorithms for this purpose is difficult, because algorithms concurrently pursue the aspects in trade-off relation (i.e., accuracy vs. novelty). In the aforementioned situation, for researchers initiating a study in this domain, it is important to obtain a systematically integrated view of the domain. This paper reports the results of a survey of about 70 studies published over the last 15 years, each of which addresses recommendations that consider beyond-accuracy aspects. From this survey, we identify diversity, novelty, and coverage as important aspects in achieving serendipity and popularity unbiasedness-factors that are important to user satisfaction and business profits, respectively. The five major groups of algorithms that tackle the beyond-accuracy aspects are multi-objective, modified collaborative filtering (CF), clustering, graph, and hybrid; we then classify and describe algorithms as per this typology. The off-line evaluation metrics and user studies carried out by the studies are also described. Based on the survey results, we assert that there is a lot of room for research in the domain. Especially, personalization and generalization are considered important issues that should be addressed in future research (e.g., automatic per-user-trade-off among the aspects, and properly establishing beyond-accuracy aspects for various types of applications or algorithms).

    DOI

  • Bits Message from General Co-Chairs

    Sajal K. Das, Hayato Yamana

    2017 IEEE International Conference on Smart Computing, SMARTCOMP 2017     xxiii  2017年06月  [査読有り]

    DOI

  • 完全準同型暗号による安全頻出パターンマイニング計算量効率化

    今林広樹, 石巻優, 馬屋原昂, 佐藤宏樹, 山名早人

    情報処理学会論文誌トランザクション データベース(Web)   10 ( 1 ) 1‐12 (WEB ONLY)  2017年03月

    J-GLOBAL

  • A survey on recommendation methods beyond accuracy

    Jungkyu, H.A.N., Yamana, H.

    IEICE Transactions on Information and Systems   E100D ( 12 ) 2931 - 2944  2017年  [査読有り]

     概要を見る

    Copyright © 2017 The Institute of Electronics, Information and Communication Engineers. In recommending to another individual an item that one loves, accuracy is important, however in most cases, focusing only on accuracy generates less satisfactory recommendations. Studies have repeatedly pointed out that aspects that go beyond accuracy—such as the diversity and novelty of the recommended items—are as important as accuracy in making a satisfactory recommendation. Despite their importance, there is no global consensus about definitions and evaluations regarding beyond-accuracy aspects, as such aspects closely relate to the subjective sensibility of user satisfaction. In addition, devising algorithms for this purpose is difficult, because algorithms concurrently pursue the aspects in trade-off relation (i.e., accuracy vs. novelty). In the aforementioned situation, for researchers initiating a study in this domain, it is important to obtain a systematically integrated view of the domain. This paper reports the results of a survey of about 70 studies published over the last 15 years, each of which addresses recommendations that consider beyond-accuracy aspects. From this survey, we identify diversity, novelty, and coverage as important aspects in achieving serendipity and popularity unbiasedness—factors that are important to user satisfaction and business profits, respectively. The five major groups of algorithms that tackle the beyond-accuracy aspects are multi-objective, modified collaborative filtering (CF), clustering, graph, and hybrid; we then classify and describe algorithms as per this typology. The off-line evaluation metrics and user studies carried out by the studies are also described. Based on the survey results, we assert that there is a lot of room for research in the domain. Especially, personalization and generalization are considered important issues that should be addressed in future research (e.g., automatic per-user-trade-off among the aspects, and properly establishing beyond-accuracy aspects for various types of applications or algorithms).

    DOI

  • Private Substring Search on Homomorphically Encrypted Data

    Yu Ishimaki, Hiroki Imabayashi, Hayato Yamana

    2017 IEEE INTERNATIONAL CONFERENCE ON SMART COMPUTING (SMARTCOMP)     457 - 462  2017年  [査読有り]

     概要を見る

    With the rapid development of cloud storage services and IoT environment, how to securely and efficiently search without compromising privacy has been an indispensable problem. In order to address such a problem, much works have been proposed for searching over encrypted data. Motivated by storing sensitive data such as genomic and medical data, substring search for encrypted data has been studied. Previous work either leaks query access pattern using vulnerable cryptographic model or performs search over plaintext data by an encrypted query. Thus they are not compatible with outsourcing scenario where searched data is stored in encrypted form which is searched by an encrypted substring query without leaking query access pattern, i.e., private substring search. In order to perform private substring search, Fully Homomorphic Encryption (FHE) can be adopted although it induces computationally huge overhead. Because of the huge overhead, performing private substring search efficiently over FHE is a challenging task. In this work, we propose a private substring search protocol over encrypted data by adopting FHE followed by examining its feasibility. In particular, we make use of batching technique which can accelerate homomorphic computation in SIMD manner. In addition, we propose a data structure which can be useful to specific searching function for batched computation. Our experimental result showed our proposed method is feasible.

    DOI

  • Geographical Diversification in POI Recommendation: Toward Improved Coverage on Interested Areas

    Jungkyu Han, Hayato Yamana

    PROCEEDINGS OF THE ELEVENTH ACM CONFERENCE ON RECOMMENDER SYSTEMS (RECSYS'17)     224 - 228  2017年  [査読有り]

     概要を見る

    In recommending POIs(Point-Of-Interests), factors such as the diversity of the recommended POIs are as important as accuracy for providing a satisfactory recommendation. Although existing diversification methods can help POI recommender systems suggest more diverse POIs, they lack "geographical diversification," which results in the concentration of the supposedly "diverse" recommended POIs on "a small portion" in areas where the target-user is most active. This is caused by the neglect of POI locations in the diversification, i.e., existing diversification methods try to diversify the categories of recommended items. However, geographical diversification is essential for users whose activity interests comprise many sub-areas and who require a variety of recommended POIs encompassing all their activity interests. In this paper, we propose a novel proportional geographical diversification method that recommends a variety of POIs located in the activity district of a user such that the variety of sub-areas in the district is proportional to the frequency of his/her activity in each sub-area. We compare the performance of the proposed method with existing diversification methods using real datasets. The evaluation result shows that no method except the proposed one can significantly increase geographical diversity at the expense of tolerable accuracy loss.

    DOI

  • Virtual co-eating: Making solitary eating experience more enjoyable

    Takahashi, M., Tanaka, H., Yamana, H., Nakajima, T.

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   10507 LNCS   460 - 464  2017年  [査読有り]

     概要を見る

    Recently, a research on eating habits of Japanese college students revealed that they have a highly desire to communicate with others through co-eating. Even though better eating experience through co-eating is important, they often tend to be alone even more because of some reasons like small households, living alone, and having no time to find others for co-eating. Therefore, we believe that it may improve eating experience by incorporating a fictional character into the real space as a partner to eat together. For validating the idea, we have developed a virtual co-eating system for solving issues caused from solitary eating, and show some insights from its user study.

    DOI

  • A Variable-Length Motifs Discovery Method in Time Series using Hybrid Approach

    Chaw Thet Zan, Hayato Yamana

    19TH INTERNATIONAL CONFERENCE ON INFORMATION INTEGRATION AND WEB-BASED APPLICATIONS & SERVICES (IIWAS2017)     49 - 57  2017年  [査読有り]

     概要を見る

    Discovery of repeated patterns, known as motifs, from long time series is essential for providing hidden knowledge to real-world applications like medical, financial and weather analysis. Motifs can be discovered on raw time series directly or on their transformed abstract representation alternatively. Most of time series motif discovery methods require predefined motif length, which results in long execution time because we have to vary the length to discover motifs with different lengths. To solve the problem, we propose an efficient method for discovering variable length motifs in combination of approximate method with exact verification. First, symbolic representation is adopted to discover motifs roughly followed by exact examination of the found motifs with original real-valued data to achieve fast and exact discovery. The experiments show that our proposed method successfully discovered significant motifs efficiently in comparison with state-of-the-art methods: MK and SBF.

    DOI

  • Securing Big Data and IoT Networks in Smart Cyber-Physical Environments

    Sajal K. Das, Hayato Yamana

    2017 INTERNATIONAL CONFERENCE ON SMART DIGITAL ENVIRONMENT (ICSDE'17)   Part F130526   189 - 194  2017年  [査読有り]

     概要を見る

    This position paper highlights security and privacy issues in smart environments based on cyber-physical systems. It also summarizes some of our recent research activities and projects in this area.

    DOI

  • Attribute-based Proxy Re-encryption Method for Revocation in Cloud Data Storage.

    Yoshiko Yasumura, Hiroki Imabayashi, Hayato Yamana

    2017 IEEE International Conference on Big Data (IEEE BigData 2017)   2018-January   4858 - 4860  2017年  [査読有り]

     概要を見る

    In the big data era, many users upload data to cloud while security concerns are growing. By using attribute-based encryption (ABE), users can securely store data in cloud while exerting access control over it. Revocation is necessary for real-world applications of ABE so that revoked users can no longer decrypt data. In actual implementations, however, revocation requires re-encryption of data in client side through download, decrypt, encrypt, and upload, which results in huge communication cost between the client and the cloud depending on the data size. In this paper, we propose a new method where the data can be re-encrypted in cloud without downloading any data. The experimental result showed that our method reduces the communication cost by one quarter in comparison with the trivial solution where re-encryption is performed in client side.

    DOI

  • MCMalloc: A Scalable Memory Allocator for Multithreaded Applications on a Many-core Shared-memory Machine.

    Akira Umayabara, Hayato Yamana

    2017 IEEE International Conference on Big Data (IEEE BigData 2017)   2018-January   4846 - 4848  2017年  [査読有り]

     概要を見る

    In the big data era, multithreaded processing on a many-core machine, whose core number is still increasing, has become essential to parallelize the execution of big data applications, besides distributed computing. In such a machine, malloc-intensive applications cannot scale due to lock contentions among threads, which becomes worse as the number of threads increases. To solve the problem, we propose a new method to reduce lock contentions by batch malloc, pseudo free, and fine-grained data-locking. Experimental result shows 4.72 times speed-up in comparison with JEmalloc which is the fastest memory allocator among previous ones.

    DOI

  • Familiarity-aware POI Recommendation in Urban Neighborhoods.

    Jungkyu Han, Hayato Yamana

    Journal of Information Processing   25   386 - 396  2017年  [査読有り]

     概要を見る

    © 2017 Information Processing Society of Japan. Users’ visiting patterns to POIs (Points-Of-Interest) varied with regard to the users’ familiarity with their visited areas. For instance, users visit tourist sites in unfamiliar cities rather than in their familiar home city. Previous studies have shown that familiarity can improve POI recommendation performance. However, such studies have focused on the differences between home and other cities, and not among small urban neighborhoods in the same city where user activities frequently occur. Applying the studies directly to the areas is difficult because simple distance-based familiarity measures, or visit-pattern differences represented on topics, groups of POIs that share common functions such as Arts, French restaurants, are too coarse for capturing the differences observed among different areas. In the urban neighborhoods in the same city, user visit-pattern differences originate from more precise POI levels. In order to extend the previously proposed familiarity-aware POI recommendation to be adopted in different areas in the same city, we propose a method that employs visit-frequency-based familiarity and precise POI level of visit-pattern differentiation. In experiments on real LBSN data consists of over 800,000 check-ins for three cities: NYC, LA, and Tokyo, our proposed method outperforms state-of-the-art methods by 0.05 to 0.06 in Recall@20 metric.

    DOI

  • Dynamic SAX Parameter Estimation for Time Series.

    Chaw Thet Zan, Hayato Yamana

    International Journal of Web Information Systems   13 ( 4 ) 387 - 404  2017年  [査読有り]

     概要を見る

    Purpose - The paper aims to estimate the segment size and alphabet size of Symbolic Aggregate approXimation (SAX). In SAX, time series data are divided into a set of equal-sized segments. Each segment is represented by its mean value and mapped with an alphabet, where the number of adopted symbols is called alphabet size. Both parameters control data compression ratio and accuracy of time series mining tasks. Besides, optimal parameters selection highly depends on different application and data sets. In fact, these parameters are iteratively selected by analyzing entire data sets, which limits handling of the huge amount of time series and reduces the applicability of SAX.Design/methodology/approach - The segment size is estimated based on Shannon sampling theorem (autoSAXSD_S) and adaptive hierarchical segmentation (autoSAXSD_M). As for the alphabet size, it is focused on how mean values of all the segments are distributed. The small number of alphabet size is set for large distribution to easily distinguish the difference among segments.Findings - Experimental evaluation using University of California Riverside (UCR) data sets shows that the proposed schemes are able to select the parameters well with high classification accuracy and show comparable efficiency in comparison with state-of-the-art methods, SAX and auto_iSAX.Originality/value - The originality of this paper is the way to find out the optimal parameters of SAX using the proposed estimation schemes. The first parameter segment size is automatically estimated on two approaches and the second parameter alphabet size is estimated on the most frequent average (mean) value among segments.

    DOI

  • An improved symbolic aggregate approximation distance measure based on its statistical features.

    Chaw Thet Zan, Hayato Yamana

    Proceedings of the 18th International Conference on Information Integration and Web-based Applications and Services, iiWAS 2016, Singapore, November 28-30, 2016     72 - 80  2016年11月  [査読有り]

    DOI

  • 早稲田大学のICT活用 : 過去・現在,そして未来へ (ICT活用の新段階)

    山名 早人

    IDE : 現代の高等教育   ( 585 ) 11 - 16  2016年11月

    CiNii

  • Message from the MAW 2016 Symposium Organizers

    Takahiro Hara, Kin Fun Li, Shengrui Wang, Hayato Yamana

    Proceedings - IEEE 30th International Conference on Advanced Information Networking and Applications Workshops, WAINA 2016     lviii  2016年05月

    DOI

  • 国会議事録を用いた経済指標のナウキャスティング

    高杉亮介, 山名早人, 山名早人

    日本データベース学会和文論文誌(Web)   14-J  2016年

    J-GLOBAL

  • What is your Mother Tongue?: Improving Chinese Native Language Identification by Cleaning Noisy Data and Adopting BM25

    Lan Wang, Masahiro Tanaka, Hayato Yamana

    PROCEEDINGS OF 2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS (ICBDA)     42 - 47  2016年  [査読有り]

     概要を見る

    Native language identification (NLI) is a process by which an author's native language can be identified from essays written in the second language of the author. In this work, a supervised model is built to accomplish this based on a Chinese learner corpus. In the NLI field, this is the first work to (1) eliminate noisy data automatically before the training phase and (2) employ a BM25 term weighting technique to score each feature. We also adopt a hierarchical structure of linear support vector machine classifiers to achieve high accuracy and a state-of-the-art accuracy of 77.1%, which is greater than those of other Chinese NLI methods by over 10%.

    DOI

  • Identifying protein short linear motifs by position-specific scoring matrix

    Fang, C., Noguchi, T., Yamana, H., Sun, F.

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   9713 LNCS   206 - 214  2016年  [査読有り]

     概要を見る

    Short linear motifs (SLiMs) play a central role in several biological functions, such as cell regulation, scaffolding, cell signaling, post-translational modification, and cleavage. Identifying SLiMs is an important step for understanding their functions and mechanism. Due to their short length and particular properties, discovery of SLiMs in proteins is a challenge both experimentally and computationally. So far, many existing computational methods adopted many predicted sequence or structures features as input for prediction, there is no report about using position-specific scoring matrix (PSSM) profiles of proteins directly for SLiMs prediction. In this study, we describe a simple method, named as PSSMpred, which only use the evolutionary information generated in form of PSSM profiles of protein sequences for SLiMs prediction. When comparing with other methods tested on the same datasets, PSSMpred achieves the best performances: (1) achieving 0.03-0.1 higher AUC than other methods when tested on HumanTest151; (2) achieving 0.03-0.05 and 0.03-0.06 higher AUC than other methods when tested on ANCHOR-short and ANCHOR-long respectively.

    DOI

  • Adaptive Focused Website Segment Crawler

    Tanaphol Suebchua, Arnon Rungsawang, Hayato Yamana

    PROCEEDINGS OF 2016 19TH INTERNATIONAL CONFERENCE ON NETWORK-BASED INFORMATION SYSTEMS (NBIS)     181 - 187  2016年  [査読有り]

     概要を見る

    Focused web crawler has become indispensable for vertical search engines that provide a search service for specialized datasets. These vertical search engines have to collect specific web pages in the web space, whereas search engines such as Google and Bing gather web pages from all over the world. The problem in focused crawling research is how to collect specific web pages with minimal computing resources. We previously addressed this problem by proposing a focused crawling strategy, which utilizes an ensemble machine learning classifier to find the group of relevant web pages, referred to as relevant website segment. In this paper, we enhance the proposed crawler as follows: 1) We increase the accuracy of predicting website segments, by preparing two predictors: a predictor learned by features extracted from relevant source website segments and another predictor learned by features from irrelevant ones. The idea is that there may exist different characteristics between these two types of source website segments. 2) We also propose a noisy data elimination method when updating the predictor incrementally during the crawling process. A preliminary experiment shows that our enhanced crawler outperforms a crawler that equips neither of these approaches by around 12%, at most.

    DOI

  • Secure frequent pattern mining by fully homomorphic encryption with ciphertext packing

    Imabayashi, H., Ishimaki, Y., Umayabara, A., Sato, H., Yamana, H.

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   9963 LNCS   181 - 195  2016年  [査読有り]

     概要を見る

    We propose an efficient and secure frequent pattern mining protocol with fully homomorphic encryption (FHE). Nowadays, secure outsourcing of mining tasks to the cloud with FHE is gaining attentions. However, FHE execution leads to significant time and space complexities. P3CC, the first proposed secure protocol with FHE for frequent pattern mining, has these particular problems. It generates ciphertexts for each component in item-transaction data matrix, and executes numerous operations over the encrypted components. To address this issue, we propose efficient frequent pattern mining with ciphertext packing. By adopting the packing method, our scheme will require fewer ciphertexts and associated operations than P3CC, thus reducing both encryption and calculation times. We have also optimized its implementation by reusing previously produced results so as not to repeat calculations. Our experimental evaluation shows that the proposed scheme runs 430 times faster than P3CC, and uses 94.7% less memory with 10,000 transactions data.

    DOI

  • Privacy-Preserving String Search for Genome Sequences with FHE bootstrapping optimization

    Yu Ishimaki, Hiroki Imabavashi, Kana Shimizu, Hayato Yamana

    2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)     3989 - 3991  2016年  [査読有り]

     概要を見る

    Privacy-preserving string search is a crucial task for analyzing genomics-driven big data. In this work, we propose a cryptographic protocol that uses Fully Homomorphic Encryption (FHE) to enable a client to search on a genome sequence database without leaking his/her query to the server. Though FHE supports both addition and multiplication over encrypted data, random noise inside ciphertexts grows with every arithmetic operation especially multiplication, which results in incorrect decryption when the noise amount exceeds its threshold called level. There are two approaches to avoid the incorrect decryption: one is setting the sufficient level that assures correct decryption within the limited number of operations, and the other is resetting the noise by the method called bootstrapping. It is important to find an optimal balance between overhead caused by the level and overhead caused by the bootstrapping, since using higher level deteriorates the performance of all the arithmetic operations, while the more number of bootstrappings causes more expensive overhead. In this study, we propose an efficient approach to minimize the number of bootstrappings while reducing the level as much as possible. Our experimental result shows that it runs at most 10 times faster than a naive approach.

    DOI

  • Fast and Space-Efficient Secure Frequent Pattern Mining by FHE

    Hiroki Imabayashi, Yu Ishimaki, Akira Umayabara, Hayato Yamana

    2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)     3983 - 3985  2016年  [査読有り]

     概要を見る

    In the big data era, security and privacy concerns are growing. One of the big challenges is secure Frequent Pattern Mining (FPM) over Fully Homomorphic Encryption (FHE). There exist some research efforts aimed at speeding-up, however, we have a big room so as to decrease time and space complexity. Apriori over FHE, in particular, generates a large number of ciphertexts during the support calculation, which results in both large time and space complexity. To solve it, we proposed a speed-up technique, around 430 times faster and 18.9 times smaller memory usage than the state-of-the-art method, by adopting both packing and caching mechanism. In this paper, we further propose to decrease the memory space used for caching. Our goal is to discard redundant cached ciphertexts without increasing the execution time. Our experimental results show that our method decreases the memory usage by 6.09% at most in comparison with our previous method without increasing the execution time.

    DOI

  • A study on individual mobility patterns based on individuals’ familiarity to visited areas

    Han, J., Yamana, H.

    International Journal of Pervasive Computing and Communications   12 ( 1 ) 23 - 48  2016年  [査読有り]

     概要を見る

    Purpose - The purpose of this paper is to clarify the correlations between amount of individual's knowledge of a specific area and his/her visit pattern to point of interest (POI, interested places) located in the area.Design/methodology/approach - This paper proposes a visit-frequency-based familiarity estimation method that estimates individuals' knowledge of areas in a quantitative manner. Based on the familiarity degree, individuals' visit logs to POIs are divided into a set of groups followed by analyzing the differences among the groups from various points of view, such as user preference, POI categories/popularity, visit time/date and subsequent visits.Findings - Existence of statistically significant correlations between individuals' familiarity to areas and their visit patterns is observed by our analysis using 1.4-million POI visit logs collected from a popular location-based social network (LBSN), Foursquare. There exist different skewness of the visit time and visited POI distribution/popularity with regard to the familiarity. For instance, users go to unfamiliar areas on weekends and visit POIs for cultural experiences, such as museums. Anotable point is that the correlations can be detected even in the areas in home city, which have not been known so far.Originality/value - This is the first in-depth work that studies both estimation of individuals' familiarity and correlations between the familiarity and individuals' mobility patterns by analyzing massive LBSN data. The methodologies used and the findings of this work can be applicable not only to human mobility analysis for sociology, but also to POI recommendation system design.

    DOI

  • Why people go to unfamiliar areas?: Analysis of mobility pattern based on users' familiarity

    Jungkyu Han, Hayato Yamana

    17th International Conference on Information Integration and Web-Based Applications and Services, iiWAS 2015 - Proceedings    2015年12月  [査読有り]

     概要を見る

    Human mobility analysis with Location-Based Social Network (LBSN) data is the basis of personalized point-of-interest (POI) recommendations or location-aware advertisements. In addition to personal preference and spatiotemporal factors such as time and distance, personal context has a strong influence on mobility. An individual's familiarity with an area is an interesting context because it can bias the influence of certain factors. For example, the mobility patterns of two persons who have similar preferences are different when their familiarity with the area is different, even in the same area. In this paper, we analyze familiarity's effect on mobility patterns by using over 1.4 million check-ins gathered from Foursquare. The analysis indicates that there is a skewness of the visit time and visited venue distribution in unfamiliar areas. For instance, people go to unfamiliar areas on weekends
    and venues for cultural experiences, such as museums, strongly contribute to the motivation of visit.

    DOI

  • ビッグデータがもたらす超情報社会―すべてを視る情報処理技術:基盤から応用まで―2 ビッグデータ関連プログラム―米国とEUにおける動向―

    山名早人

    情報処理   56 ( 10 ) 962 - 967  2015年09月

    J-GLOBAL

  • Cross-lingual Investigation of User Evaluations for Global Restaurants

    LE Jiawen, YAMANA Hayato

    Information and Media Technologies   10 ( 2 ) 317 - 322  2015年

     概要を見る

    Twitter, as one of the popular social network services, is now widely used to query public opinions. In this paper, tweets, along with the reviews collected from review websites are used to carry out sentimental analysis, so as to figure out the language-based and location-based effects on user evaluations for six global restaurants. The language expansion is carried out that 34 languages are taken into account. By using a range of new and standard features, a series of classifiers are trained and applied in the later steps of sentiment analysis. Our experimental results show that the location and language effects on user evaluations for restaurants actually exist.

    DOI CiNii

  • Detecting Learner's To-Be-Forgotten Items using Online Handwritten Data.

    Hiroki Asai, Hayato Yamana

    Proceedings of the 15th New Zealand Conference on Human-Computer Interaction, CHINZ 2015, Hamilton, New Zealand, September 3-4, 2015     17 - 20  2015年  [査読有り]

    DOI

  • Predicting Various Types of User Attributes in Twitter by Using Personalized PageRank

    Kazuya Uesato, Hiroki Asai, Hayato Yamana

    PROCEEDINGS 2015 IEEE INTERNATIONAL CONFERENCE ON BIG DATA     2825 - 2827  2015年  [査読有り]

     概要を見る

    Predicting various types of user-attributes in social networks has become indispensable for personalizing applications since there are many non-disclosed attributes in social networks. However, extracted attributes in existing works are limited to pre-defined types of attributes, which results in no extraction of unexpected-types of attributes. In this paper, we therefore propose a novel method that extracts various, i.e., unlimited, types of attributes by adopting personalized PageRank to a large social network. The experimental results using over 7.9 million of Japanese twitter-users show that our proposed method successfully extracts four types of attributes per-user in average with 0.841 of MAP@20.

    DOI

  • Condensing position-specific scoring matrixs by the Kidera factors for ligand-binding site prediction

    Fang, C., Noguchi, T., Yamana, H.

    International Journal of Data Mining and Bioinformatics   12 ( 1 ) 70 - 84  2015年  [査読有り]

     概要を見る

    protein functional sites. However, it is 20-dimentional and contains many redundant features. The Kidera factors were reported to contain information relating almost all physical properties of amino acids, but it requires appropriate weighting coefficients to express their properties. We developed a novel method, named as KSPSSMpred, which integrated PSSM and the Kidera Factors into a 10-dimensional matrix (KSPSSM) for ligand-binding site prediction. Flavin adenine dinucleotide (FAD) was chosen as a representative ligand for this study. When compared with five other feature-based methods on a benchmark dataset, KSPSSMpred performed the best. This study demonstrates that, KSPSSM is an effective feature extraction method which can enrich PSSM with information relating 188 physical properties of residues, and reduce 50% feature dimensions without losing information included in the PSSM.

    DOI PubMed

  • 電子ドキュメントに対する範囲選択手書きアノテーション認識モデル

    浅井 洋樹, 山名 早人

    情報処理学会論文誌データベース(TOD)   7 ( 4 ) 1 - 12  2014年12月

     概要を見る

    紙に印刷されたドキュメント上にペンで情報を書き込む手書きアノテーションは,情報付加や強調を目的に広く用いられている.一方,コンピュータ上での電子ドキュメントに対して手書きアノテーションを行う際には,アノテーション情報を活用した検索や共有といった可用性の向上が課題となる.この課題を解決するうえで,アノテーション対象として選択されたドキュメント中の箇所の推定が求められるが,従来提案されている経験的な推定手法では手書きアノテーションにおける人間特有の傾向が考慮されないため,十分な認識精度を得られない.そこで本研究では人間の手書きアノテーション傾向に基づいた範囲選択手書きアノテーションを認識するモデルを提案する.本提案モデルでは下線や囲い込み,縦線といった一般的な範囲選択アノテーションの検出に加え,筆記者の意図する選択範囲抽出を実現する.認識精度評価の結果,文字単位での選択では平均85%,行単位での選択では平均91%の精度を達成可能であることを確認した.Handwriting annotation on paper-based documents is widely performed for both appending information and emphasizing a part of the document. When we perform it on electronic documents using a computer, there are some problems about improving availability such as searching and sharing by using these annotation information. We have to estimate where is annotated on the document to solve the problem. However, the accuracy of traditional methods indicate insufficient recognition accuracy because they proposed heuristic method ignoring human habit of annotations. In this paper, we therefore propose a recognition model of handwriting targeting annotations that is important to solve these problems. Our recognition model enables to detect common targeting annotation by users such as underline, enclosure and vertical. Our user study found that the proposed model can estimate selected region for 85% on average in the selection of characters and for 91% in the selection of text lines.

    CiNii J-GLOBAL

  • Intelligent ink annotation framework that uses user's intention in electronic document annotation

    Hiroki Asai, Hayato Yamana

    ITS 2014 - Proceedings of the 2014 ACM International Conference on Interactive Tabletops and Surfaces     333 - 338  2014年11月  [査読有り]

     概要を見る

    Annotating documents is one of the indispensable interaction between human and documents. The annotation system of electronic documents enables to implement effective functions, such as information retrieval and annotation-based navigation, by using the annotation information
    however, traditional systems require users to perform gestures in addition to common gestures for paper-based documents. This can reduce "learnability" of the system. We propose an intelligent ink annotation framework that helps the system to increase the learnability of annotation systems by detecting recognizable intentions from natural annotation behavior on paper-based documents. Our framework recognizes "Targeting Content" and "Commenting," which are related to extraction of annotation information. We have developed a prototype annotation system using our proposed framework and conducted a user study to identify future direction.

    DOI

  • メンション情報を利用したTwitterユーザープロフィール推定

    奥谷 貴史, 山名 早人

    DBSJ Japanese journal = 日本データベース学会和文論文誌   13 ( 1 ) 1 - 6  2014年10月

    CiNii J-GLOBAL

  • 携帯端末に適用可能なモーションブラー警告システム

    手塚 渉太, 浅井 洋樹, 山名 早人

    DBSJ Japanese journal = 日本データベース学会和文論文誌   13 ( 1 ) 58 - 63  2014年10月

    CiNii J-GLOBAL

  • マルチコアCPU環境における低レイテンシデータストリーム処理

    上田 高徳, 秋岡 明香, 山名 早人

    情報・システムソサイエティ誌   19 ( 3 ) 14 - 14  2014年

    DOI CiNii

  • Analyzing conservation patterns and its influence on identifying protein functional

    Chun Fang, Tamotsu Noguchi, Hayato Yamana

    Proceedings of the 6th International Conference on Bioinformatics and Computational Biology, BICOB 2014     73 - 79  2014年01月

     概要を見る

    Evolutionary conservation information included in position-specific scoring matrix (PSSM) has been adopted by almost all sequence-based methods for identifying protein functional sites, because all functional sites, whether in ordered or disordered proteins, are found to be conserved to some extent. However, different functional sites have different conservation patterns, some of them are linear contextual, some of them are mingled with highly variable residues, and some others seem to be conserved independently. All existing studies used the direct output of PSSM for functional sites prediction, without considering the relationship between conservation patterns of residues and the distribution of conservation scores in PSSMs. In order to demonstrate the importance of analyzing conservation patterns, three PSSM-based methods for identifying 3 kinds of functional sites have been compared. Experiment results show that, although all the methods are based on the same feature - PSSM of protein sequence, they are competent in identifying different patterns of functional sites: the PSSM-based method is competent for identifying functional site which is independently conserved; the smoothed-PSSM is competent for identifying functional site which is continuous conserved; and the masked-smoothed- PSSM based method is competent for identifying functional site which is mingled with intensively highly flexible and highly conserved residues. Copyright © (2014) by the International Society for Computers and Their Applications.

  • Image Annotation Fusing Content-based and Tag-based Technique Using Support Vector Machine and Vector Space Model

    Shan-Bin Chan, Hayato Yamana, Duy-Dinh Le, Shin'ichi Satoh, Hayato Yamana

    10TH INTERNATIONAL CONFERENCE ON SIGNAL-IMAGE TECHNOLOGY AND INTERNET-BASED SYSTEMS SITIS 2014     272 - 276  2014年  [査読有り]

     概要を見る

    In this paper, we propose a new image annotation method by combining content-based image annotation and tag-based image annotation techniques. Content-based image annotation technique is adopted to extract "loosely defined concepts" by analyzing pre-given images' features such as color moment (CM), edge orientation histogram (EOH), and local binary pattern (LBP); followed by constructing a set of SVMs for 100 loosely defined concepts. A base-vector for each concept, similar to tag-based image annotation technique, is then constructed by using SVMs' predicted probabilistic results for sample-images whose main concepts are known. Finally cosine similarity between a query-image vector and the base vector is calculated for each concept. Experimental results show that our proposed method outperforms content-based image annotation technique by about 23% in accuracy.

    DOI

  • EA snippets: Generating summarized view of handwritten documents based on emphasis annotations

    Asai, H., Yamana, H.

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   8522 LNCS ( PART 2 ) 20 - 31  2014年  [査読有り]

     概要を見る

    Owing to the recent development of handwriting input devices such as tablets and digital pens, digital notebooks have become an alternative to traditional paper-based notebooks. Digital notebooks are available for various device types. To display a list of text documents on a device screen, we often use scaled thumbnails or text snippets summarized through natural language processing or structural analyses. However, these are ineffective in conveying summaries of handwritten documents, because informal and unstructured handwritten data are difficult to summarize using traditional methods. We therefore propose the use of emphasis-based snippets, i.e., summarized handwritten documents based on natural emphasis annotations, such as underlines and enclosures. Our proposed method places emphasized words into thumbnails or text snippets. User studies showed that the proposed method is effective for keyword-based navigation.

    DOI

  • A Challenge of Authorship Identification for Ten-thousand-scale Microblog Users

    Syunya Okuno, Hiroki Asai, Hayato Yamana

    2014 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)     52 - 54  2014年  [査読有り]

     概要を見る

    Internet security issues require authorship identification for all kinds of internet contents; however, authorship identification for microblog users is much harder than other documents because microblog texts are too short. Moreover, when the number of candidates becomes large, i.e., big data, it will take long time to identify. Our proposed method solves these problems. The experimental results show that our method successfully identifies the authorship with 53.2% of precision out of 10,000 microblog users in the almost half execution time of previous method.

    DOI

  • Analysis of evolutionary conservation patterns and their influence on identifying protein functional sites

    Fang, C., Noguchi, T., Yamana, H.

    Journal of Bioinformatics and Computational Biology   12 ( 5 ) 1440003  2014年  [査読有り]

     概要を見る

    Evolutionary conservation information included in position-specific scoring matrix (PSSM) has been widely adopted by sequence-based methods for identifying protein functional sites, because all functional sites, whether in ordered or disordered proteins, are found to be conserved at some extent. However, different functional sites have different conservation patterns, some of them are linear contextual, some of them are mingled with highly variable residues, and some others seem to be conserved independently. Every value in PSSMs is calculated independently of each other, without carrying the contextual information of residues in the sequence. Therefore, adopting the direct output of PSSM for prediction fails to consider the relationship between conservation patterns of residues and the distribution of conservation scores in PSSMs. In order to demonstrate the importance of combining PSSMs with the specific conservation patterns of functional sites for prediction, three different PSSM-based methods for identifying three kinds of functional sites have been analyzed. Results suggest that, different PSSM-based methods differ in their capability to identify different patterns of functional sites, and better combining PSSMs with the specific conservation patterns of residues would largely facilitate the prediction.

    DOI PubMed

  • Simplified sequence-based method for ATP-binding prediction using contextual local evolutionary conservation

    Fang, C., Noguchi, T., Yamana, H.

    Algorithms for Molecular Biology   9 ( 1 ) 7  2014年  [査読有り]

     概要を見る

    Background: Identifying ligand-binding sites is a key step to annotate the protein functions and to find applications in drug design. Now, many sequence-based methods adopted various predicted results from other classifiers, such as predicted secondary structure, predicted solvent accessibility and predicted disorder probabilities, to combine with position-specific scoring matrix (PSSM) as input for binding sites prediction. These predicted features not only easily result in high-dimensional feature space, but also greatly increased the complexity of algorithms. Moreover, the performances of these predictors are also largely influenced by the other classifiers.Results: In order to verify that conservation is the most powerful attribute in identifying ligand-binding sites, and to show the importance of revising PSSM to match the detailed conservation pattern of functional site in prediction, we have analyzed the Adenosine-5'-triphosphate (ATP) ligand as an example, and proposed a simple method for ATP-binding sites prediction, named as CLCLpred (Contextual Local evolutionary Conservation-based method for Ligand-binding prediction). Our method employed no predicted results from other classifiers as input; all used features were extracted from PSSM only. We tested our method on 2 separate data sets. Experimental results showed that, comparing with other 9 existing methods on the same data sets, our method achieved the best performance.Conclusions: This study demonstrates that: 1) exploiting the signal from the detailed conservation pattern of residues will largely facilitate the prediction of protein functional sites; and 2) the local evolutionary conservation enables accurate prediction of ATP-binding sites directly from protein sequence.

    DOI PubMed

  • 編集にあたって

    山名, 早人, 中野, 美由紀, 関, 洋平

    情報処理学会論文誌. データベース   6 ( 5 ) i - iii  2013年12月

  • マルチコアCPU環境における低レイテンシデータストリーム処理

    上田高徳, 秋岡明香, 山名早人, 山名早人

    電子情報通信学会論文誌 D   J96-D ( 5 ) 1094 - 1104  2013年05月

    J-GLOBAL

  • Producer-Consumer型モジュールで構成された並列分散Webクローラの開発

    上田 高徳, 佐藤 亘, 鈴木 大地, 打田 研二, 森本 浩介, 秋岡 明香, 山名 早人

    情報処理学会論文誌データベース(TOD)   6 ( 2 ) 85 - 97  2013年03月

     概要を見る

    Webクローラは,クローリング済みURLの検出やWebサーバに対する連続アクセス防止といった処理を実行しながらデータ収集を行う必要がある.Web空間に存在する大量のURLに対して高速な収集を実現するために並列分散クローリングが求められるが,省資源でのクローリングを行うためにも,処理の時間計算量と空間計算量の削減に加え,計算機間の負荷分散も必要である.本論文で提案するWebクローラは,クローリング処理をProducer-Consumer型のモジュール群で実行することにより,これまでの被クロールWebサイト単位での負荷分散でなく,Webクローラを構成するモジュール単位での負荷分散を実現する.つまり,Webクローラを構成する各モジュールが必要とする計算機資源に応じた分散処理が可能になり,計算機間での計算負荷やメモリ使用量の偏りを改善することができる.また,ホスト名やURLを管理するモジュールは時間計算量と空間計算量に優れたデータ構造を利用して構成されており,大規模なクローリングが省資源で可能になる.Web crawlers must collect Web data while performing tasks such as detecting crawled URLs and preventing consecutive accesses to a particular Web server. Parallel-distributed crawling is carried out at a high speed for the enormous number of URLs existing on the Web. However, in order to crawl efficiently, a crawler must realize load balancing between computers in addition to reducing time and space complexities in the crawling process. The Web crawler proposed in this paper crawls the Web using producer-consumer modules, which compose the crawler, and it realizes load balancing per module and not per crawled Web site. In other words, it realizes load balancing that is appropriate to certain computer resources necessary for the modules that compose the Web crawler; in this way, it improves biases in computation loads and memory utilization between computers. Moreover, the crawler is able to crawl the Web on a large scale while conserving resources, because the modules that manage host names or URLs are implemented by data structures that are temporally and spatially efficient.

    CiNii J-GLOBAL

  • Detecting student frustration based on handwriting behavior

    Hiroki Asai, Hayato Yamana

    UIST 2013 Adjunct - Adjunct Publication of the 26th Annual ACM Symposium on User Interface Software and Technology     77 - 78  2013年  [査読有り]

     概要を見る

    Detecting states of frustration among students engaged in learning activities is critical to the success of teaching assistance tools. We examine the relationship between a student's pen activity and his/her state of frustration while solving handwritten problems. Based on a user study involving mathematics problems, we found that our detection method was able to detect student frustration with a precision of 87% and a recall of 90%. We also identified several particularly discriminative features, including writing stroke number, erased stroke number, pen activity time, and air stroke speed. © 2013 Authors.

    DOI

  • A Negative Sample Image Selection Method Referring to Semantic Hierarchical Structure for Image Annotation

    Shan-Bin Chan, Hayato Yamana, Shin'ichi Satoh

    2013 INTERNATIONAL CONFERENCE ON SIGNAL-IMAGE TECHNOLOGY & INTERNET-BASED SYSTEMS (SITIS)     162 - 167  2013年  [査読有り]

     概要を見る

    When SVM is adopted for image annotation, we know that high quality sample images will improve image recognition accuracy. Images with the same visual/semantic features are adopted as positive sample images, and images with different visual/semantic features are adopted as negative sample images. But it is labor intensive in high quality sample images selection, especially when collecting by visual features. Most researchers randomly choose positive and negative sample images for classifier training. In many applications, adopting different negative sample image datasets will vary annotation accuracy. In this research, we will discuss the accuracy between different negative sample images dataset collected by semantic features. We adopted ImageNet as image dataset in this study, and we adopted WordNet for building semantic hierarchical tree. Semantic hierarchical structure tree is adopted to calculate the distance between each node. Then we adopt this distance relationship to prepare positive and negative sample images. We prepare one baseline method and suggest six different negative sample images selection methods for experiment. The binary SVM classifier training and prediction is implemented to compare the accuracy and Mean Reciprocal Rank (MRR) between baseline and each proposed method. Our results show that if we select uniform amount of negative sample images in each distance in the semantic hierarchical tree, we will achieve highest accuracy.

    DOI

  • WSD Team's Approaches for Textual Entailment Recognition at the NTCIR10 (RITE2).

    Daiki Ito, Masahiro Tanaka, Hayato Yamana

    Proceedings of the 10th NTCIR Conference on Evaluation of Information Access Technologies, NTCIR-10, National Center of Sciences, Tokyo, Japan, June 18-21, 2013    2013年  [査読有り]

  • IC-BIDE: Intensity Constraint-based Closed Sequential Pattern Mining for Coding Pattern Extraction

    Hiromasa Takei, Hayato Yamana

    2013 IEEE 27TH INTERNATIONAL CONFERENCE ON ADVANCED INFORMATION NETWORKING AND APPLICATIONS (AINA)     976 - 983  2013年  [査読有り]

     概要を見る

    We propose intensity constraint-based closed sequential pattern mining algorithm, called IC-BIDE, for a coding pattern extraction. Source code often contains frequent patterns of function calls or control flows, i.e., "coding patterns." Previous studies used sequential pattern mining to extract coding pattern; however, these algorithms have not been optimized for coding pattern extraction, which results in useless patterns as well as long execution times. We propose a new constraint, called "intensity constraint," in order to enhance closed sequential pattern mining and efficiently extract coding patterns. Our proposed algorithm is based on BI-Directional Execution (BIDE), an algorithm proposed expressly for closed sequential pattern mining. BIDE algorithm is not able to adapt to constraint-based closed sequential pattern mining. We extend BIDE algorithm and prove that our extended algorithm is able to adapt to intensity constraint-based closed sequential pattern mining. Our contributions are as follow; 1) We propose a new constraint, which we call "intensity"; 2) We propose intensity constraint-based closed sequential pattern mining algorithm, which we call "IC-BIDE" algorithm. Experimental results with open source software (Bullet Physics, MySQL, and OpenCV) show that IC-BIDE algorithm successfully excludes useless pattern effectively. Moreover, our proposed method is able to accelerate the extraction by a factor of 8.9 in comparison with the BIDE algorithm.

    DOI

  • MFSPSSMpred: Identifying short disorder-to-order binding regions in disordered proteins based on contextual local evolutionary conservation

    Fang, C., Noguchi, T., Tominaga, D., Yamana, H.

    BMC Bioinformatics   14 ( 1 ) 300  2013年  [査読有り]

     概要を見る

    Background: Molecular recognition features (MoRFs) are short binding regions located in longer intrinsically disordered protein regions. Although these short regions lack a stable structure in the natural state, they readily undergo disorder-to-order transitions upon binding to their partner molecules. MoRFs play critical roles in the molecular interaction network of a cell, and are associated with many human genetic diseases. Therefore, identification of MoRFs is an important step in understanding functional aspects of these proteins and in finding applications in drug design.Results: Here, we propose a novel method for identifying MoRFs, named as MFSPSSMpred (Masked, Filtered and Smoothed Position-Specific Scoring Matrix-based Predictor). Firstly, a masking method is used to calculate the average local conservation scores of residues within a masking-window length in the position-specific scoring matrix (PSSM). Then, the scores below the average are filtered out. Finally, a smoothing method is used to incorporate the features of flanking regions for each residue to prepare the feature sets for prediction. Our method employs no predicted results from other classifiers as input, i.e., all features used in this method are extracted from the PSSM of sequence only. Experimental results show that, comparing with other methods tested on the same datasets, our method achieves the best performance: achieving 0.004 similar to 0.079 higher AUC than other methods when tested on TEST419, and achieving 0.045 similar to 0.212 higher AUC than other methods when tested on TEST2012. In addition, when tested on an independent membrane proteins-related dataset, MFSPSSMpred significantly outperformed the existing predictor MoRFpred.Conclusions: This study suggests that: 1) amino acid composition and physicochemical properties in the flanking regions of MoRFs are very different from those in the general non-MoRF regions; 2) MoRFs contain both highly conserved residues and highly variable residues and, on the whole, are highly locally conserved; and 3) combining contextual information with local conservation information of residues facilitates the prediction of MoRFs.

    DOI PubMed

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌. データベース   5 ( 2 ) i - iii  2012年06月

    CiNii

  • 学生論文特集の発行にあたって(<特集>学生論文)

    山名 早人

    電子情報通信学会論文誌. D, 情報・システム   95 ( 3 ) 31 - 36  2012年03月

    CiNii

  • 品詞n-gramを用いた著者推定手法 : 話題に対する頑健性の評価

    井上 雅翔, 山名 早人

    日本データベース学会論文誌   10 ( 3 ) 7 - 12  2012年02月

    CiNii J-GLOBAL

  • データストリーム処理におけるレイテンシ削減と高可用性のためのオペレータ実行方法

    上田高徳, 打田研二, 秋岡明香, 山名早人, 山名早人

    日本データベース学会論文誌   10 ( 3 )  2012年

    J-GLOBAL

  • Hit count reliability: How much can we trust hit counts?

    Koh Satoh, Hayato Yamana

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   7235   751 - 758  2012年  [査読有り]

     概要を見る

    Recently, there have been numerous studies that rely on the number of search results, i.e., hit count. However, hit counts returned by search engines can vary unnaturally when observed on different days, and may contain large errors that affect researches that depend on those results. Such errors can result in low precision of machine translation, incorrect extraction of synonyms and other problems. Thus, it is indispensable to evaluate and to improve the reliability of hit counts. There exist several researches to show the phenomenon
    however, none of previous researches have made clear how much we can trust them. In this paper, we propose hit counts' reliability metrics to quantitatively evaluate hit counts' reliability to improve hit count selection. The evaluation results with Google show that our metrics successfully adopt reliable hit counts - 99.8% precision, and skip to adopt unreliable hit counts - 74.3% precision. © 2012 Springer-Verlag Berlin Heidelberg.

    DOI

  • ウェブサーチエンジンに見る統合検索(<特集>統合検索)

    山名 早人

    情報の科学と技術   61 ( 9 ) 343 - 348  2011年09月

     概要を見る

    近年のウェブサーチエンジンは,その検索結果ページに様々な情報ソースからの検索結果を統合して表示する。統合される情報ソースは,ウェブページだけではなく,ニュース記事,ブログ記事,画像,動画,Twitterなどのリアルタイム情報などである。しかし,こうした様々な情報ソースからの検索結果は常に表示されるわけではない。ウェブサーチエンジンは,どのクエリに対して,どの情報ソースを対象に検索し,どの検索結果を統合すべきかを判断している。本稿では,こうしたウェブサーチエンジンにおける統合検索で用いられている技術とその評価手法を紹介すると共に,統合検索の今後について述べる。

    DOI CiNii

  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    INFORMATION RETRIEVAL   14 ( 2 ) 133 - 157  2011年04月

     概要を見る

    We investigate temporal factors in assessing the authoritativeness of web pages. We present three different metrics related to time: age, event, and trend. These metrics measure recentness, special event occurrence, and trend in revisions, respectively. An experimental dataset is created by crawling selected web pages for a period of several months. This data is used to compare page rankings by human users with rankings computed by the standard PageRank algorithm (which does not include temporal factors) and three algorithms that incorporate temporal factors, including the Time-Weighted PageRank (TWPR) algorithm introduced here. Analysis of the rankings shows that all three temporal-aware algorithms produce rankings more like those of human users than does the PageRank algorithm. Of these, the TWPR algorithm produces rankings most similar to human users', indicating that all three temporal factors are relevant in page ranking. In addition, analysis of parameter values used to weight the three temporal factors reveals that age factor has the most impact on page rankings, while trend and event factors have the second and the least impact. Proper weighting of the three factors in TWPR algorithm provides the best ranking results.

    DOI

  • ロック制御型同期複製ミドルウェアの提案(分散データベース,<特集>データ工学論文)

    堀井 洋, 小野寺 民也, 山名 早人

    電子情報通信学会論文誌. D, 情報・システム   94 ( 3 ) 515 - 524  2011年03月

     概要を見る

    既存データベースを利用してミドルウェアでデータベース複製を行う手法において,トランザクション中の更新ごとに複製を行う同期複製手法は,データベースの一貫性を損なうことなく,照会中心のアプリケーションの性能を向上することが可能である.しかし,従来手法は,レプリカをまたがったデッドロックを検出できない,繰返し可能読取りの分離性を提供できない問題がある.本論文では,排他制御をミドルウェア内で行うことで,繰返し可能読取りの分離性を保障し,かつ,デッドロックを検出可能とする同期複製ミドルウェア,Yamaを提案する.Yamaの排他制御は,SQL記述の解析とレプリカへの直接問合せで,SQLを処理する際に必要となるロック対象を特定し,Yama内の排他制御機構よりロックを獲得する.また,各レプリカに非コミット読込み分離性の処理を要求することで,レプリカ内部の排他制御で処理が停滞することを防ぐ.我々は,本手法をTPC-Wに適用したところ,従来手法に比べ,高いスループットを示すことが分かった.

    CiNii

  • Legible thumbnail: Summarizing on-line handwritten documents based on emphasized expressions

    Hiroki Asai, Takanori Ueda, Hayato Yamana

    Mobile HCI 2011 - 13th International Conference on Human-Computer Interaction with Mobile Devices and Services     551 - 556  2011年  [査読有り]

     概要を見る

    In recent years, digital notebooks have been replacing traditional paper-based notebooks with the development of handwriting input devices. Currently, we can access digital notebooks in various devices, including mobile devices. When we use such mobile devices, however, their limited screen size results in difficulty in understanding the summary of hand-written documents, without the use of a zoom feature. In this paper, we therefore propose the "Legible Thumbnail" that helps us to understand the summary without zooming. Our method detects the important words based on emphasis, such as an underline, and the method outputs the emphasized words to the thumbnail. Experiments show our thumbnail reduces search time by 21%. © 2011 Authors.

    DOI

  • Retweet Reputation: A Bias-Free Evaluation Method for Tweeted Contents.

    Shino Fujiki, Hiroya Yano, Takashi Fukuda, Hayato Yamana

    Social Innovation and Social Media, Papers from the 2011 ICWSM Workshop, Barcelona, Catalonia, Spain, July 21, 2011   WS-11-01   10 - 13  2011年  [査読有り]

  • ロック制御型同期複製ミドルウェアの提案

    堀井洋, 小野寺民也, 山名早

    信学論(D)   Vol.J94-D ( No.3 ) 515 - 524  2011年

  • ウェブサーチエンジンに見る統合検索 (特集 統合検索)

    山名 早人

    情報の科学と技術   61 ( 9 ) 343 - 348  2011年

    DOI CiNii J-GLOBAL

  • Hit Count Dance--検索エンジンのヒット数に対する信頼性検証

    舟橋 卓也, 山名 早人

    日本データベース学会論文誌   9 ( 1 ) 18 - 22  2010年06月

    CiNii J-GLOBAL

  • OLTPのための自動グループコミット手法の提案(ストレージ 並列分散データベース,<特集>データ工学論文)

    堀井 洋, 小野寺 民也, 山名 早人

    電子情報通信学会論文誌. D, 情報・システム   93 ( 3 ) 222 - 231  2010年03月

     概要を見る

    データベースの幅広い普及により,更新トランザクションを多用するアプリケーションが増えている.更新トランザクションは,高価な高可用サーバで処理する必要があるため,スケールアップが求められる.そのためには,複数のトランザクションを一つのトランザクションとして処理するグループコミットが有効である.しかし,グループコミットを利用するには,アプリケーションの修正が必要で,既存のアプリケーションに適用することができなかった.本論文では,トランザクション処理内容の事前知識や,アプリケーションの修正を必要とせず,ミドルウェア内でグループコミットを行う手法を提案する.アプリケーションの修正を行わない場合,グループコミットの対象とするトランザクション集を特定し,バッチ更新をスケジュールする必要がある.本手法では,トランザクションの実行履歴をもとに,トランザクション中のSQLを事前に予測し,グループコミット対象,バッチ更新のスケジュールを行う.本手法をJavaで実装し,5クライアントの環境で評価したところ,データベースのCPU利用率を抑えながら,従来の約2倍のスループットを実現可能であることが分かった.

    CiNii J-GLOBAL

  • Nb-GCLOCK: A Non-blocking Buffer Management Based on the Generalized CLOCK

    Makoto Yui, Jun Miyazaki, Shunsuke Uemura, Hayato Yamana

    26TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING ICDE 2010     745 - 756  2010年  [査読有り]

     概要を見る

    In this paper, we propose a non-blocking buffer management scheme based on a lock-free variant of the GCLOCK page replacement algorithm. Concurrent access to the buffer management module is a major factor that prevents database scalability to processors. Therefore, we propose a non-blocking scheme for bufferfix operations that fix buffer frames for requested pages without locks by combining Nb-GCLOCK and a non-blocking hash table. Our experimental results revealed that our scheme can obtain nearly linear scalability to processors up to 64 processors, although the existing locking-based schemes do not scale beyond 16 processors.

    DOI

  • 舟橋卓也, 山名早人

    Hit Count Dance, 検索エンジンのヒット数に対する信頼性検証

    日本データベース学会論文誌   Vol.9 ( No.1 ) 18 - 22  2010年

  • Reliability Verification of Search Engines’ Hit Counts:How to Select a Reliable Hit Count for a Query,

    Takuya FUNAHASHI, Hayato YAMANA

    Proc. of 1st International Workshop on Quality in Web Engineering   6385s   114 - 125  2010年

    DOI

  • ロックフリーGCLOCKページ置換アルゴリズム

    油井 誠, 宮崎 純, 植村 俊亮, 加藤 博一, 山名 早人

    情報処理学会論文誌. データベース   2 ( 4 ) 32 - 48  2009年12月

     概要を見る

    GCLOCKに基づくロックフリーなページ置換アルゴリズムNb-GCLOCKを提案する.バッファ管理モジュールへの並行アクセスは,CPUのプロセッサ数に対するデータベースのスケーラビリティを阻害する主要な要因である.本論文では,Nb-GCLOCKと無待機ハッシュ表の組合せにより,要求されたページをバッファフレームに固定するbufferfix処理をノンブロッキングに行う手法を提案する.実験結果により,既存のロックに基づくバッファ管理手法が16プロセッサ以上,プロセッサ数に対するスケーラビリティを示さないのに対して,我々の手法が64プロセッサまでほぼ線形のスケーラビリティを示すことを明らかにし,提案手法の有効性を示す.

    CiNii

  • 8.100億規模のWebページ収集・分析への挑戦(第2部:情報の高信頼蓄積・検索技術等の開発,<特集>学と産の連携による基盤ソフトウェアの先進的開発)

    村岡 洋一, 山名 早人, 松井 くにお, 橋本 三奈子, 赤羽 匡子, 萩原 純一

    情報処理   49 ( 11 ) 1277 - 1283  2008年11月

     概要を見る

    Webページ数は,2006年11月時点で537億ページと推測されている.我々は,2004年1月〜2006年7月の間に,全世界の5,548万台のWebサーバからテキストのみを対象に収集を行い,ユニークなWebページ数として約144.5億ページを収集した.また,収集済みWebページに対して,トップレベルドメイン分布,記述言語分布,Webサーバの地理的位置の解析,バックリンク解析やPageRank計算を進め,Web空間の現状分析を行った.さらに,Webページの解析がビジネスに利用可能であることを示すために,企業のWebサイト上の活動を可視化するe企業調査プロトタイプを構築し,企業の特徴,戦略,評判などの抽出を行った.

    CiNii J-GLOBAL

  • 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案

    中村智浩, 平野孝佳, 平手勇宇, 山名早人, 山名早人

    日本データベース学会論文誌   7 ( 2 )  2008年

    J-GLOBAL

  • Web structure in 2005

    Yu Hirate, Shin Kato, Hayato Yamana

    ALGORITHMS AND MODELS FOR THE WEB-GRAPH   4936   36 - 46  2008年  [査読有り]

     概要を見る

    The estimated number of static web pages in Oct 2005 was over 20.3 billion, which was determined by multiplying the average number of pages per web server based on the results of three previous studies, 200 pages, by the estimated number of web servers on the Internet, 101.4 million. However, based on the analysis of 8.5 billion web pages that we crawled by Oct. 2005, we estimate the total number of web pages to be 53.7 billion. This is because the number of dynamic web pages has increased rapidly in recent years. We also analyzed the web structure using 3 billion of the 8.5 billion web pages that we have crawled. Our results indicate that the size of the "CORE," the central component of the bow tie structure, has increased in recent years, especially in the Chinese and Japanese web.

    DOI

  • 検索エンジンを用いた英文冠詞誤りの検出

    平野 孝佳, 平手 勇宇, 山名 早人

    日本データベース学会letters   6 ( 3 ) 1 - 4  2007年12月

    CiNii J-GLOBAL

  • EPCI: Extracting potentially copyright infringement texts from the web

    Takashi Tashiro, Takanori Ueda, Taisuke Hori, Yu Hirate, Hayato Yamana

    16th International World Wide Web Conference, WWW2007     1151 - 1152  2007年  [査読有り]

     概要を見る

    In this paper, we propose a new system extracting potentially copyright infringement texts from the Web, called EPCI. EPCI extracts them in the following way: (1) generating a set of queries based on a given copyright reserved seed-text, (2) putting every query to search engine API, (3) gathering the search result Web pages from high ranking until the similarity between the given seed-text and the search result pages becomes less than a given threshold value, and (4) merging all the gathered pages, then re-ranking them in the order of their similarity. Our experimental result using 40 seed-texts shows that EPCI is able to extract 132 potentially copyright infringement Web pages per a given copyright reserved seed-text with 94% precision in average.

    DOI

  • Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh, Hayato Yamana

    BMC BIOINFORMATICS   7   524  2006年12月  [査読有り]

     概要を見る

    Background: Multiple sequence alignment (MSA) is a useful tool in bioinformatics. Although many MSA algorithms have been developed, there is still room for improvement in accuracy and speed. In the alignment of a family of protein sequences, global MSA algorithms perform better than local ones in many cases, while local ones perform better than global ones when some sequences have long insertions or deletions (indels) relative to others. Many recent leading MSA algorithms have incorporated pairwise alignment information obtained from a mixture of sources into their scoring system to improve accuracy of alignment containing long indels.Results: We propose a novel group-to-group sequence alignment algorithm that uses a piecewise linear gap cost. We developed a program called PRIME, which employs our proposed algorithm to optimize the well-defined sum-of-pairs score. PRIME stands for Profile-based Randomized Iteration MEthod. We evaluated PRIME and some recent MSA programs using BAliBASE version 3.0 and PREFAB version 4.0 benchmarks. The results of benchmark tests showed that PRIME can construct accurate alignments comparable to the most accurate programs currently available, including L-INS-i of MAFFT, ProbCons, and T-Coffee.Conclusion: PRIME enables users to construct accurate alignments without having to employ pairwise alignment information. PRIME is available at http://prime.cbrc.jp/.

    DOI PubMed

  • 1. 検索エンジンの概要(<特集>検索エンジン2005-Webの道しるべ-)

    山名 早人, 村田 剛志

    情報処理   46 ( 9 ) 981 - 987  2005年09月

    CiNii

  • TF^2P-growth : 閾値設定を必要としない頻出アイテムセット抽出アルゴリズム

    平手 勇宇, 岩橋 永悟, 山名 早人

    情報処理学会論文誌. データベース   46 ( 8 ) 60 - 71  2005年06月

     概要を見る

    データマイニング分野での頻出アイテムセット抽出手法は, 最小サポート値を与えて, 最小サポート値以上のサポート値を持つアイテムセットを抽出する手法である.与えられる最小サポート値から抽出される頻出アイテムセット数を予測することは困難であることから, 最小サポート値を必要とせず, 頻出上位数κを指定して, サポート値降順にκアイテムセットを抽出するTop-κ Miningコンセプトが近年提案されている.しかし, Top-κ Miningコンセプトも閾値としてκを指定する必要があり, ユーザはマイニングプロセス開始時に, 解析に必要なアイテムセット数を予測しなければならない.本稿では, 最小サポート値や閾値をユーザが指定する必要のない頻出アイテムセット抽出法としてTF^2P-growthアルゴリズムを提案する.TF^2P-growthは, 短時間でサポート値降順にアイテムセットを抽出しユーザに返すアルゴリズムである.

    CiNii J-GLOBAL

  • BTBのエントリ有無を参照した分岐予測器(プロセッサアーキテクチャ)

    斎藤 史子, 山名 早人

    情報処理学会論文誌. コンピューティングシステム   45 ( 11 ) 71 - 79  2004年10月

     概要を見る

    命令間の制御依存によってパイプライン処理を滞らせないために,近年のプロセッサでは,分岐予測が採用されている.分岐予測によって未解決の分岐命令を投機的実行することが可能となる.しかし,近年,命令パイプライン長の深化により,分岐予測ミスペナルティが増大している.そのため,分岐予測ミス率の低減は,プロセッサの性能向上のために不可避な課題となっている.分岐予測は,分岐条件の成立・不成立の予測と分岐先アドレスの予測で構成される.分岐先アドレス予測に利用される分岐先アドレスバッファ(BTB: Branch Target Buffer)は,分岐条件が成立する(Taken)分岐をエントリに登録する.BTBのエントリに存在しない分岐の分岐条件成立・不成立状況を解析した結果,BTBにエントリを持たない分岐のほとんどが,分岐条件が成立しない(NotTaken)分岐であることが好かった.そこで,BTBにエントリを持たない分岐をNotTakenと予測する分岐予測手法を提案する.提案手法では,さらに,分波方向予測器のエントリ数削減により,競合を緩和するために,BTBにエントリのない分岐は,分岐方向予測器を更新しない.SimpleScalar 3.0c/PISA sim-bpredシミュレータで実験したところ,SPECint95 (train)では,8KB Gshare予測器で平均1.5%,1.5KB B...

    CiNii J-GLOBAL

  • 検索エンジンのアーキテクチャ(<特集>インターネット検索エンジン)

    山名 早人

    情報の科学と技術   54 ( 2 ) 84 - 89  2004年02月

     概要を見る

    今や検索エンジンは,インターネットを利用する上でなくてはならない存在となっている。しかし,そのアーキテクチャは明らかにされていない部分が多い。本稿では,世界最大の検索エンジンであるGoogleを例にとり,検索エンジンのアーキテクチャについて, Web情報の収集,インデックス化,検索の3つに焦点をあてて紹介する。また,大量の検索クエリーをどのように処理するかや,運用にはどの程度のコストがかかるのかなどの運用に関わる問題についても取り上げる。

    DOI CiNii J-GLOBAL

  • 「情報」応用の開拓 : 全世界のWeb情報アーカイブ構築への挑戦(<小特集>インタネットの新しい応用の開拓を目指して)

    山名 早人

    映像情報メディア学会誌 : 映像情報メディア   57 ( 12 ) 1632 - 1637  2003年12月

    DOI CiNii J-GLOBAL

  • (家庭内におけるIT)IT社会を先導するインターネット : 家庭でのインターネットアクセスの現状と今後(<特集>暮らしの中のIT : 身近な応用システム)

    山名 早人

    電子情報通信学会誌   86 ( 5 ) 304 - 310  2003年05月

     概要を見る

    総務省の調査によれば,日本における家庭へのインターネット普及率は,2002年末に全世帯の8割を超えた.全世帯へのインターネット普及率が10%を超えたのは1998年末であり,普及率10%までの所要年数は5年である.この所要年数をパソコンの13年,自動車・携帯電話の15年等に比較すると,いかに急ピッチで普及してきたかが分かる.本稿では,インターネットと家庭との関係に焦点を当て,具体的データに基づいて,家庭からのインターネットアクセスの過去・現在・未来を紹介する.

    CiNii J-GLOBAL

  • 逐次プログラムの投機並列実行を行なう中間コードインタプリタの構成法

    小池 汎平, 山名 早人, 山口 喜教

    情報処理学会論文誌. プログラミング   40 ( 10 ) 64 - 74  1999年12月

     概要を見る

    本論文では,投機並列実行を行なうことにより逐次プログラムの自動的な並列実行を行なう中間コードインタプリ夕を構成する方法についての検討を行なう.次に,並列処理粒度を適切に制御するチェックポイント実行機能,検索/登録/排他制御のオーバヘッドを最小にして投機的メモリ操作を効率的に実現する手法など,効率的な投機並列実行を特別なハードウェアを用いずに実現するためのソフトウェア上の手法を提案する.そして,これらの方法を用いることによってどの程度の基本性能が得られるかを評価するために行なった実験の結果を示す.実験結果から,チェックポイント実行によって処理粒度を適切に設定すること,および,投機的メモリ操作の効率的な実現をはじめとする様々なソフトウェア上の工夫をほどこすことにより,特別なハードウェアを用いなくても,並列処理による速度向上効果の得られる,投機並列実行中間コードインクプリ夕を構成することが可能であることが確認された.

    CiNii J-GLOBAL

  • ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価 (<特集>並列処理)

    坂根 広史, 児玉 祐悦, 建部 修見, 小池 汎平, 山名 早人, 山口 喜教, 弓場 敏嗣

    情報処理学会論文誌   40 ( 5 ) 2281 - 2292  1999年05月

     概要を見る

    本論文では, 分散メモリ型並列計算機において, 同期・通信の支援機構が行列問題の並列処理性能に与える影響について議論し, それらが有効となる条件・要因を, モデルと実験によって定量的に明らかにする. LU分解法の代入部に現れる三角方程式の求解では, 互いに依存性のない計算要素がイテレーション間にまたがっており, その並列性はウェーブフロント状に抽出できる. この問題を, 並列性を自然に利用する細粒度アルゴリズムと, ブロック化による粗粒度アルゴリズムで表し, 並列計算機EM-XとAP1000+に実装した. 最初に予備実験によって, これらの計算機が持つ同期・通信機構の特徴をパラメータによって表した. 次に, アルゴリズムの性質をモデル化し, 通信オーバヘッドに起因する性能上限と, 並列度の制限による有効PE台数を理論的に示した. 問題サイズが小さい場合, あるいは十分なPE台数が利用できる場合は, 高い並列度が得られる細粒度アルゴリズムが有望である. ただし細粒度アルゴリズムで高い性能を得るには, 通信起動のオーバヘッドが十分小さいことが必要であり, EM-Xがこの要件を満たす. 逆に, 問題サイズが十分大きいか, 比較的少ないPE台数しか与えられない場合は粗粒度アルゴリズムの方が良い. この場合は通信性能より逐次演算性能が重要となり, AP1000+が優位性を示す.

    CiNii J-GLOBAL

  • 「情報検索の新たな展開 : テストコレクションからサーチエンジンまで」

    細野 公男, 小川 泰嗣, 神門 典子, 木谷 勉, 住田 一男, 福島 俊一, 山名 早人

    情報処理   40 ( 2 ) 34 - 35  1999年02月

    CiNii

  • Experiments of Collecting WWW Information Using Distributed WWW Robots

    Hayato Yamana, Kent Tamura, Hiroyuki Kawano, Satoshi Kamei, Masanori Harada, Hideki Nishimura, Isao Asai, Hiroyuki Kusumoto, Yoichi Shinoda

        379 - 380  1998年  [査読有り]

     概要を見る

    Abstract This paper presents the experiments of col-lecting the documents on the WWW using distributed WWW robots. We propose distributed WWW robots to collect the documents quickly. Our final goal is to col-lect all of the documents on the WWW in Japan within one day. Currently, eight distributed WWW Robots are running in Japan. The experimental results show that we are able to gain 5.8 to 9.7 times speedup when four distributed WWW robots are placed at different places in comparison with when only one WWW robot is used. 1

    DOI

  • 次世代並列処理計算機のプロトタイプを開発 : 通信オーバヘッドを大幅に削減

    山名 早人

    電子情報通信学会誌   79 ( 8 ) 855 - 855  1996年08月

    CiNii

  • MOSトランジスタ構造の高安定真空マイクロ素子の開発に成功 : ディスプレイなどへの実用化に大きく前進

    山名 早人

    電子情報通信学会誌   79 ( 6 ) 630 - 630  1996年06月

    CiNii

  • Identifying the capability of overlapping computation with communication

    A Sohn, J Ku, Y Kodama, M Sato, H Sakane, H Yamana, S Sakai, Y Yamaguchi

    PROCEEDINGS OF THE 1996 CONFERENCE ON PARALLEL ARCHITECTURES AND COMPILATION TECHNIQUES (PACT '96)     133 - 138  1996年  [査読有り]

     概要を見る

    Overlapping computation with communication is central to obtaining high performance on distributed-memory multiprocessors. Identifying the capability of overlapping, machine architects and programmers will be able to provide tools which can effectively utilize the underlying architecture. This report explicates the overlapping capability of two distributed-memory multiprocessors: the laboratory prototype EM-X multithreaded multiprocessor and a commercially available IBM SP2 with wide nodes. The well-known bitonic sorting algorithm is selected for experiments. Various message sizes are used to determine when, where, how much and why overlapping takes place. Experimental results indicate that both multiprocessors would yield up to 30% to 40% overlap of communication time when the message size is approximately 1K integers. EM-X is found message-size insensitive yielding high overlap for various message sizes while SP2 was effective for a window of message size of 512 to 2K integers, depen...

  • 並列計算機EM-4におけるマクロタスク間投機的実行の分散制御方式

    山名, 早人, 佐藤, 三久, 児玉, 祐悦, 坂根, 広史, 坂井, 修一, 山口, 喜教

    情報処理学会論文誌   36 ( 7 ) 1578 - 1588  1995年07月  [査読有り]

     概要を見る

    本論文では,マクロタスクと呼ぶタスクレベルでの投機的実行を並列計算機上で行うマクロタスク間投機的実行の効果的な制御手法として分散制御方式を提案する.一般に,投機的実行における理想的なモデル(Oracle Model)を仮定すると,投機的実行を行わない場合に比較して12〜630倍の速度向上が得られる.しかし,実際には,投機的実行時に発生する制御オーバヘッドのために,上記の理論性能に近づくのは難しく,制御オーバヘッドの小さい制御手法が必要とされる.本論文で提案する分散制御方式は,各マクロタスクが(1)自分の後続のマクロタスクを動的に生成すると共に,(2)システム全体に放送される制御情報を随時監視し各マクロタスク自身が次の状態を決定することにより実現される.これにより,マクロタスクの制御を並列化できると共に,マクロタスク制御オーバーヘッドがマクロタスク数に依存しなくなり,高速な投機的実行が可能となる.本方式を並列計算機EM-4上にインプリメントし,Boolean Recur

    J-GLOBAL

  • 分散共有メモリ型並列計算機における1重Doacross型ループの実行時間算出法

    山名 早人, 安江 俊明, 村岡 洋一, 山口 善教

    電子情報通信学会論文誌. D-I, 情報・システム, I-コンピュータ   78 ( 2 ) 170 - 178  1995年02月

     概要を見る

    近年の分散共有メモリ型並列計算機は,プロセッサの処理と独立に非同期でデータ転送を行う機構を備え,プロセッサがデータ転送に忙殺されるのを防いでいる.また,プロセッサの高速化と64bitアーキテクチャ化により,演算性能は向上したが,コストパフォーマンスの関係からネットワークの転送性能は,プロセッサの演算性能より低く設定される場合が多い.本論文では,このような分散共有メモリ型並列計算機において,1重Doacross型ループの実行時間算出法を提案する.実行時間算出にあたっては,ネットワークの転送性能として,プロセッサとネットワーク間のデータ入出力時間間隔であるデータ転送ピッチを新たに導入すると共に,データ転送余裕時間およびデータ転送発行遅延時間を定義し,ループ実行時間を求める.また,求められたループ実行時間の利用例としてデータ転送ピッチを考慮した場合,データ転送順序の変更によって実行時間を小さくすることができることを示す.T3Dを対象としたシミュレーションの結果,従来法に比較して,より実測値に近い実行時間を算出できることを確認した.

    CiNii J-GLOBAL

  • Dynamic characteristics of multithreaded execution in the EM-X multiprocessor

    H Sakane, R Sato, Y Kodama, H Yamana, S Sakai, Y Yamaguchi

    1995 INTERNATIONAL WORKSHOP ON COMPUTER PERFORMANCE MEASUREMENT AND ANALYSIS (PERMEAN '95), PROCEEDINGS     14 - 22  1995年  [査読有り]

     概要を見る

    Multithreading is known be effective for tolerating communication latency in distributed-memory multiprocessors. Two types of support for multithreading have been used to date including software and hardware. This paper presents the impact of multithreading on performance through empirical studies. In particular, we explicate the performance difference between software support and hardware support for the 80-processor EM-X distributed-memory multiprocessor which we have designed and implemented. The EMX provides three types of hardware supports for fine-grain multithreading including direct remote memory access, fast thread invocation, and dedicated instructions for generating fixed-sized communication packets. To demonstrate the effect of multithreading, we have performed various experiments using micro benchmark programs and MP3D, one of the SPLASH benchmarks. Three types of performance parameters have been measured including processor efficiency, remote memory latency, and network load. Experimental results indicate that the EM-X architecture is highly effective for supporting the multithreading principles of execution through dedicated hardware and software. keywords Multithreading, latency hiding, fine grain communication, direct remote memory access, shared memory benchmark, synthetic workload. 1

  • 並列処理システムにおけるマクロタスク間先行評価方式

    山名 早人, 安江 俊明, 石井 吉彦, 村岡 洋一

    電子情報通信学会論文誌. D-I, 情報・システム, I-コンピュータ   77 ( 5 ) 343 - 353  1994年05月

     概要を見る

    本論文では,並列処理システム上ではFORTRANプログラムを高速に実行する方式として,多段の条件分岐に渡る先行評価を用いたプログラムの並列化と実行方式を提案する.従来,条件分岐を含むプログラムを並列化する手法がいくつか提案されている.先行評価を用いない手法としては,(1)タスクの最早実行条件求出法があり,先行評価を用いる手法としては,(2)スーパスカラプロセッサやVLIW計算機を対象とした条件分岐1段に限った先行評価方式,および,(3)特定のループを対象とした多段の先行評価方式,が提案されている.しかし,(1)最早実行条件を求めるのみでは十分な並列性が得られない.(2)1段の条件分岐の先行評価で得られる速度向上はたかだか2倍である,(3)適用対象が特定ループに限られる,という問題をもつ.これらの問題に対して,本論文では,プログラムをマクロタスクに分割し,マクロタスク間の多段の先行評価方式を一般的な並列処理システム上で定義する.そして,各々のマクロタスクについと,実行開始条件・制御確定条件・実行停止条件を用いたマクロタスクの実行制御手法を提案する.

    CiNii J-GLOBAL

  • A FORTRAN compiling method for dataflow machines and its prototype compiler for the parallel processing system -Harray-

    T. Yasue, H. Yamana, Y. Muraoka

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   757 LNCS   482 - 496  1993年

     概要を見る

    In this paper, we propose an efficient techniques, called CD translation, to compile a FORTRAN program to a optimized dataflow code. The CD translation generates the dataflow control information from a control flow graph by using the data flow analysis with the branch node operation, and enables to analyze a sequential program with any type of the control structures (e.g. goto statement and irreducible loop) correctly, while the previous method cannot compile a FORTRAN to the dataflow program perfectly. This analysis technique is much worthy of not only the construction of the compiler for dataflow machines but also the analysis technique for the parallelizing compiler because the dataflow program represents all the program dependencies with only data dependencies unifyingly and enables to analyze all the program dependencies identically. Moreover the FORTRAN compiler implementing the CD translation is introduced.

    DOI

  • データ駆動計算機におけるDOACROSS型ループに対するフロー処理方式の提案

    石井 吉彦, 安江 俊明, 山名 早人, 村岡 洋一

    電子情報通信学会論文誌. D-I, 情報・システム, I-コンピュータ = The transactions of the Institute of Electronics, Information and Communication Engineers   75 ( 7 ) 440 - 449  1992年07月

    CiNii J-GLOBAL

  • 並列処理システム-晴-におけるデータフロープログラム開発環境

    山名早人, 神舘淳, 安江俊明, 村岡洋一

    電子情報通信学会論文誌 D-1   73 ( 6 )  1990年

    J-GLOBAL

  • System architecture of parallel processing system - Harray

    Hayato Yamana, Toshikazu Marushima, Takashi Hagiwara, Yoichi Muraoka

    Proceedings of the International Conference on Supercomputing   130184   76 - 89  1988年06月  [査読有り]

     概要を見る

    This paper proposes a parallel processing system - Harray-for scientific computations. Data flow computers are expected to obtain the high performance because they can extract parallelism fully from a program. However, they have many problems, such as the difficulty of controlling the sequence of execution. The - Harray - system is an array processor which adapts two levels of control mechanism
    data flow execution in each processor and control flow between processors, in order to take full advantage of both mechanisms. A task which is assigned to a processor is called a "macro-block". Three types of macro-blocking and three types of activation schemes for the macro-block which initiates its execution are introduced in order to attain the high performance. Moreover, a hardware synchronization mechanism is used to reduce synchronization overhead and to gain the liner speedup of the - Harray - system. In this paper, the system architecture of the - Harray - system and its performance evaluation by software simulation are presented.

    DOI

▼全件表示

書籍等出版物

▼全件表示

Misc

  • 推薦システムにおける推薦理由の説明可能性に関するサーベイ

    松島ひろむ, 森澤竣, 石山琢己, 山名早人

    情報科学技術フォーラム講演論文集   20th  2021年

    J-GLOBAL

  • オンライン手書き解答データを用いた解答者のヒント参照有無の判定 -幾何学問題を対象として-

    三浦将人, 村上統馬, 中山祐貴, 山名早人

    電子情報通信学会技術研究報告   119 ( 393(ET2019 69-75)(Web) )  2020年

    J-GLOBAL

  • 完全準同型暗号の高速化に向けたハードウェア利活用に関する研究調査

    井上紘太朗, 鈴木拓也, 山名早人

    情報科学技術フォーラム講演論文集   19th  2020年

    J-GLOBAL

  • 金沢市東山ひがし重要伝統的建造物群保存地区における修理・修景事業のための調査資料の活用3

    内田 伸, 平手 勇宇, 山名 早人

    石川工業高等専門学校紀要   51   19 - 24  2019年

     概要を見る

    The aim of this study is to utilization of survey materials in repair landscape project, exemplifying "Higashiyama-higashi" Important Preservation District for Groups of Historic Buildings located in Ishikawa Prefecture as a case study. In this paper, we investigated the cleaning method of timber lattice and the sectional structure of wooden fittings and analyzed the relationship between the change in appearance of timber lattice and the sectional structure of wooden fittings.

    DOI CiNii

  • メニーコアCPU環境における準同型暗号演算高速化を目的とするタスクスケジューリング手法の検討

    鈴木拓也, 石巻優, 山名早人

    情報処理学会研究報告(Web)   2019 ( HPC-170 )  2019年

    J-GLOBAL

  • Secureな環境における副作用ファジー検索システムの構築

    菅野敦之, 野口保, 山名早人

    日本薬剤師会学術大会(Web)   52nd  2019年

    J-GLOBAL

  • FCMalloc:完全準同型暗号の高速化に向たメモリアロケータ

    馬屋原昂, 佐藤宏樹, 石巻優, 今林広樹, 山名早人

    情報処理学会研究報告(Web)   2017 ( OS-141 )  2017年

    J-GLOBAL

  • 特定分野における単語重要度計算手法の提案と短い文章における著者の専門性推定への適応

    滝川真弘, 山名早人

    情報処理学会研究報告(Web)   2017 ( NL-233 )  2017年

    J-GLOBAL

  • CTR向上を目的としたWEBページ上でのオンライン広告配置位置推定

    大谷一善, 滝川真弘, 堀田弘明, 山名早人

    情報科学技術フォーラム講演論文集   16th  2017年

    J-GLOBAL

  • 電子ペンを利用した数学手書き答案の戦略分類手法~多項式展開問題を題材として~

    浅井洋樹, 山名早人, 山名早人

    情報処理学会研究報告(Web)   2016 ( CE-133 )  2016年

    J-GLOBAL

  • 電子ペンを用いた手書き解答データによる幾何学解答パターン分類手法

    森山優姫菜, 下岡純也, 浅井洋樹, 山名早人, 山名早人

    情報科学技術フォーラム講演論文集   15th  2016年

    J-GLOBAL

  • 完全準同型暗号のデータマイニングへの利用に関する研究動向

    佐藤宏樹, 馬屋原昂, 石巻優, 今林広樹, 山名早人

    情報科学技術フォーラム講演論文集   15th  2016年

    J-GLOBAL

  • 特定分野を対象とした単語重要度計算手法の提案とTwitterにおける専門性推定への適応

    滝川真弘, 山名早人

    情報科学技術フォーラム講演論文集   15th  2016年

    J-GLOBAL

  • ビッグデータがもたらす超情報社会 -すべてを視る情報処理技術:基盤から応用まで-:0.編集にあたって

    中野 美由紀, 山名 早人

    情報処理   56 ( 10 ) 956 - 957  2015年09月

     概要を見る

    ビッグデータという言葉のもと,巨大な量のデータの収集,蓄積,管理はもとより,従来とは比較にならないデータ量を考慮した解析技術,新たに得られた解析データも含めたデータ共有技術と,あらたな超情報社会が出現している.ビッグデータ時代とはなにかについて,簡単に解説すると共に,ビッグデータの具体的な事例を紹介する.

    CiNii

  • Cross-lingual Investigation of User Evaluations for Global Restaurants

    LE Jiawen, YAMANA Hayato

    DBSJ journal   13 ( 1 ) 37 - 42  2015年03月

    CiNii

  • 場所推薦において訪問履歴の効果的利用に関する研究-地域精通度による訪問パターンの変化-

    HAN Jungkyu, 山名早人

    電子情報通信学会技術研究報告   115 ( 110(DE2015 1-11) )  2015年

    J-GLOBAL

  • スマートウォッチにおけるアイズフリー日本語入力手法

    下岡純也, 浅井洋樹, 山名早人, 山名早人

    日本ソフトウェア科学会研究会資料シリーズ(Web)   ( 76 )  2015年

    J-GLOBAL

  • 上層句情報の利用と学習データの選別による母語推定の精度向上 (言語理解とコミュニケーション) -- (第6回集合知シンポジウム)

    田中 正浩, 王 瀾, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 366 ) 127 - 132  2014年12月

     概要を見る

    本稿では,英語文章を対象とした母語推定(Native Language Identification),すなわち英語文章執筆者の母語推定における推定精度向上のための手法として,i)上層句情報の利用,ii)学習データからの外れ値削除手法を提案する.2005年から始められた母語推定タスクは著者の属性推定タスクの一つであり,第二言語習得など多くの応用先があるとされる.2013年にはNLI Shared Task 2013が行われるなど,近年盛んに研究されている.本提案手法をNLI Shared Task 2013と同一のデータセットを用いて評価を行った結果,2014年の最高精度である85.3%を超える85.6%の精度を達成し,提案手法の有効性を確認した.

    CiNii J-GLOBAL

  • オンライン手書き情報を用いた未定着記憶推定システム

    浅井洋樹, 山名早人

    研究報告コンピュータと教育(CE)   2014 ( 1 ) 1 - 6  2014年11月

     概要を見る

    漢字や英単語を記憶する暗記学習は,忘却せずに再生可能となるよう記憶を定着させることが目標であり,より効率的に記憶を定着可能な学習システムは学習者にとって有用である.記憶を定着させるためには,暗記する対象を再学習する反復学習を繰り返す必要があると言われており,効率的に暗記を行うためには定着していない記憶を選び出して優先的に反復学習を行うことが必要である.しかし,学習者の正解・不正解のテスト結果だけでは,正解しているがすぐに忘れてしまう定着度の低い暗記対象が検出できないため,未定着記憶を網羅することができない.また定着・未定着の 2 値判定にとどまり,反復学習の優先順位を決めることができない.そこで本研究では,タブレット端末等から取得可能な時系列情報や筆圧が含まれるオンライン手書き情報を用いて,学習者の記憶定着度を推定する手法を提案する.提案システムによって得られる連続値である 「記憶度」 の数値が低い事象を優先的に学習することで,効率的に暗記可能な学習支援システムの構築が実現可能となる.

    CiNii J-GLOBAL

  • マイクロブログを対象とした著者推定手法の提案 : 10,000人レベルでの著者推定 (データ工学)

    奥野 峻弥, 浅井 洋樹, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 173 ) 65 - 70  2014年08月

     概要を見る

    従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験ではTwitterユーザ10,000人に対して著者推定を行い,Precision@1で0.535,MRRで0.602を達成した.

    CiNii J-GLOBAL

  • メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察 (データ工学)

    上里 和也, 田中 正浩, 浅井 洋樹, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 173 ) 125 - 130  2014年08月

     概要を見る

    Twitterのような大規模なソーシャルサービスにおいて,ユーザの興味や所属などのプロフィールを知ることは,効果的なマーケティングを行う上で重要である.このような背景から,Twitterにおけるプロフィール推定に関する研究が行われてきた.従来のプロフィール推定手法では,フォロー情報によって構築されるソーシャルグラフからコミュニティを抽出し,対象のユーザが属するコミュニティの属性を推定することでプロフィール推定を行なっている.しかし,各々のフォローの目的や,活発な交流があるかという点を考慮することができないため,実際に親密な関係を持つユーザ群をコミュニティとして抽出することが困難であるという問題が存在する.それに対して奥谷らは,フォローに代えてメンション情報を用いてソーシャルグラフを構築することで,これらの問題を解決する手法を提案している.しかし同手法には,プロフィール推定の対象となるユーザの周辺ユーザのプロフィールに幅広く共通して出現する単語が,プロフィールとして出力されにくいという問題がある.そこで本論文では,奥谷らのプロフィール推定手法における単語の重要度の算出方法を変更し,Twitterユーザ全体からランダムにサンプリングした100,000ユーザのデータを利用して一般語をフィルタリングすることで,この問題を解決する手法を提案する.6人の被験者による実験の結果,奥谷らの手法と比較して,Precision@10が0.37から0.78,MRRが1.44から2.61に向上した.

    CiNii J-GLOBAL

  • Topics and Influential User Identification in Twitter using Twitter Lists (データ工学)

    Zhou Guanying, Asai Hiroki, Yamana Hayato

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 173 ) 71 - 76  2014年08月

     概要を見る

    Twitter, as one of the most popular social network services, draws the attention of more and more researchers worldwide. With a large amount of information tweeted every day, it turns essential to identify the influential users we are interested in. In the previous research, researchers mainly identify topics from tweets and rank users by utilizing the follow relationship; however, the following relationship is strongly related to their reputation in real world and cannot describe their influence and activity level in Twitter exactly. Instead, in this paper, to identify topics and influential users, we use "Twitter List," whose name represents the topic of listed members. By analyzing Twitter List, we are able to detect topics and identify influential users in the corresponding topic more efficiently. Based on our experimental evaluation using the selected two topics, the influential users identified by our proposed method have the average influence score related to the topic made by interviewees of 3.7 and 3.33 outweigh the methods of ranking by follower numbers with the average score of 3.22 and 3.27 respectively.

    CiNii

  • Cross-Domain Investigations of User Evaluations under the Multi-cultural Backgrounds (データ工学)

    LE JIAWEN, YAMANA HAYATO

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 173 ) 137 - 142  2014年08月

     概要を見る

    Twitter, as one of the most popular social network services, is widely used to query public opinions. In this research, a large corpus of Twitter data, along with online reviews, are used to apply sentimental and culture-based analysis, so as to figure out the cultural effects on user evaluations. Posts written in more than 30 languages from more than 30 countries are collected. In order to implement the cross-domain investigations, global restaurants and world attractions are taken as the research subjects, and a series of classifiers with high performances are trained and applied in the experiment steps. Then various analyzing methods are applied to obtain informative results and conclusions about the user evaluations for the targets. As the contributions, this research validates the capability and field transferability of the proposed methods for cross-lingual sentiment analysis, and arrives at the conclusions that the cultural effects on user evaluations for both restaurant domain and travel domain actually exist, and are obvious for some countries and cultural backgrounds.

    CiNii

  • 単語の意味概念行列を用いたキーワード生成による関連論文検索システム (データ工学)

    林 佑磨, 奥野 峻弥, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   114 ( 173 ) 53 - 58  2014年08月

     概要を見る

    研究者は,研究意義や既存手法を知るために,自らの研究分野に関連する論文の調査を行う.論文の調査に広く用いられる論文検索システムは,ユーザがキーワードをクエリとして与えるキーワード検索が一般的である.専門用語の多い技術分野などでは,特に研究分野にまだ精通していない研究者が,適切なキーワードを与えて検索を行い,満足な結果を得ることは難しい.この問題を解決するため,我々は論文の概要を入力とする関連論文検索システムを提案した.同システムでは,入力の概要に含まれる単語が持つ意味を意味概念行列として表現し考慮することで,検索に用いるクエリの自動生成を行っている.本稿では,我々が以前提案したシステムの拡張を行う.具体的には,1)日本語論文検索への対応,および2)RSMによる論文クラスタリングを用いてより質の高いキーワード生成を実現する.日本語に対応している既存の論文検索システムとの比較により,p@10を平均で0.17向上させることに成功した.

    CiNii J-GLOBAL

  • Topics and Influential User Identification in Twitter using Twitter Lists

    Guanying Zhou, Hiroki Asai, Hayato Yamana

    研究報告情報基礎とアクセス技術(IFAT)   2014 ( 13 ) 1 - 6  2014年07月

     概要を見る

    Twitter, as one of the most popular social network services, draws the attention of more and more researchers worldwide. With a large amount of information tweeted every day, it turns essential to identify the influential users we are interested in. In the previous research, researchers mainly identify topics from tweets and rank users by utilizing the follow relationship; however, the following relationship is strongly related to their reputation in real world and cannot describe their influence and activity level in Twitter exactly. Instead, in this paper, to identify topics and influential users, we use "Twitter List," whose name represents the topic of listed members. By analyzing Twitter List, we are able to detect topics and identify influential users in the corresponding topic more efficiently. Based on our experimental evaluation using the selected two topics, the influential users identified by our proposed method have the average influence score related to the topic made by interviewees of 3.7 and 3.33 outweigh the methods of ranking by follower numbers with the average score of 3.22 and 3.27 respectively.Twitter, as one of the most popular social network services, draws the attention of more and more researchers worldwide. With a large amount of information tweeted every day, it turns essential to identify the influential users we are interested in. In the previous research, researchers mainly identify topics from tweets and rank users by utilizing the follow relationship; however, the following relationship is strongly related to their reputation in real world and cannot describe their influence and activity level in Twitter exactly. Instead, in this paper, to identify topics and influential users, we use "Twitter List," whose name represents the topic of listed members. By analyzing Twitter List, we are able to detect topics and identify influential users in the corresponding topic more efficiently. Based on our experimental evaluation using the selected two topics, the influential users identified by our proposed method have the average influence score related to the topic made by interviewees of 3.7 and 3.33 outweigh the methods of ranking by follower numbers with the average score of 3.22 and 3.27 respectively.

    CiNii

  • マイクロブログを対象とした著者推定手法の提案-10,000人レベルでの著者推定-

    奥野峻弥, 浅井洋樹, 山名早人

    研究報告情報基礎とアクセス技術(IFAT)   2014 ( 12 ) 1 - 6  2014年07月

     概要を見る

    従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.

    CiNii

  • メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察

    上里和也, 田中正浩, 浅井洋樹, 山名早人

    研究報告情報基礎とアクセス技術(IFAT)   2014 ( 22 ) 1 - 6  2014年07月

     概要を見る

    Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などのプロフィールを知ることは,効果的なマーケティングを行う上で重要である.このような背景から,Twitter におけるプロフィール推定に関する研究が行われてきた.従来のプロフィール推定手法では,フォロー情報によって構築されるソーシャルグラフからコミュニティを抽出し,対象のユーザが属するコミュニティの属性を推定することでプロフィール推定を行なっている.しかし,各々のフォローの目的や,活発な交流があるかという点を考慮することができないため,実際に親密な関係を持つユーザ群をコミュニティとして抽出することが困難であるという問題が存在する.それに対して奥谷らは,フォローに代えてメンション情報を用いてソーシャルグラフを構築することで,これらの問題を解決する手法を提案している.しかし同手法には,プロフィール推定の対象となるユーザの周辺ユーザのプロフィールに幅広く共通して出現する単語が,プロフィールとして出力されにくいという問題がある.そこで本論文では,奥谷らのプロフィール推定手法における単語の重要度の算出方法を変更し,Twitter ユーザ全体からランダムにサンプリングした 100,000 ユーザのデータを利用して一般語をフィルタリングすることで,この問題を解決する手法を提案する.6 人の被験者による実験の結果,奥谷らの手法と比較して,Precision@10 が 0.37 から 0.78,MRR が 1.44 から 2.61 に向上した.

    CiNii

  • メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察

    上里和也, 田中正浩, 浅井洋樹, 山名早人

    研究報告データベースシステム(DBS)   2014 ( 22 ) 1 - 6  2014年07月

     概要を見る

    Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などのプロフィールを知ることは,効果的なマーケティングを行う上で重要である.このような背景から,Twitter におけるプロフィール推定に関する研究が行われてきた.従来のプロフィール推定手法では,フォロー情報によって構築されるソーシャルグラフからコミュニティを抽出し,対象のユーザが属するコミュニティの属性を推定することでプロフィール推定を行なっている.しかし,各々のフォローの目的や,活発な交流があるかという点を考慮することができないため,実際に親密な関係を持つユーザ群をコミュニティとして抽出することが困難であるという問題が存在する.それに対して奥谷らは,フォローに代えてメンション情報を用いてソーシャルグラフを構築することで,これらの問題を解決する手法を提案している.しかし同手法には,プロフィール推定の対象となるユーザの周辺ユーザのプロフィールに幅広く共通して出現する単語が,プロフィールとして出力されにくいという問題がある.そこで本論文では,奥谷らのプロフィール推定手法における単語の重要度の算出方法を変更し,Twitter ユーザ全体からランダムにサンプリングした 100,000 ユーザのデータを利用して一般語をフィルタリングすることで,この問題を解決する手法を提案する.6 人の被験者による実験の結果,奥谷らの手法と比較して,Precision@10 が 0.37 から 0.78,MRR が 1.44 から 2.61 に向上した.

    CiNii

  • Topics and Influential User Identification in Twitter using Twitter Lists

    Guanying Zhou, Hiroki Asai, Hayato Yamana

    研究報告データベースシステム(DBS)   2014 ( 13 ) 1 - 6  2014年07月

     概要を見る

    Twitter, as one of the most popular social network services, draws the attention of more and more researchers worldwide. With a large amount of information tweeted every day, it turns essential to identify the influential users we are interested in. In the previous research, researchers mainly identify topics from tweets and rank users by utilizing the follow relationship; however, the following relationship is strongly related to their reputation in real world and cannot describe their influence and activity level in Twitter exactly. Instead, in this paper, to identify topics and influential users, we use "Twitter List," whose name represents the topic of listed members. By analyzing Twitter List, we are able to detect topics and identify influential users in the corresponding topic more efficiently. Based on our experimental evaluation using the selected two topics, the influential users identified by our proposed method have the average influence score related to the topic made by interviewees of 3.7 and 3.33 outweigh the methods of ranking by follower numbers with the average score of 3.22 and 3.27 respectively.Twitter, as one of the most popular social network services, draws the attention of more and more researchers worldwide. With a large amount of information tweeted every day, it turns essential to identify the influential users we are interested in. In the previous research, researchers mainly identify topics from tweets and rank users by utilizing the follow relationship; however, the following relationship is strongly related to their reputation in real world and cannot describe their influence and activity level in Twitter exactly. Instead, in this paper, to identify topics and influential users, we use "Twitter List," whose name represents the topic of listed members. By analyzing Twitter List, we are able to detect topics and identify influential users in the corresponding topic more efficiently. Based on our experimental evaluation using the selected two topics, the influential users identified by our proposed method have the average influence score related to the topic made by interviewees of 3.7 and 3.33 outweigh the methods of ranking by follower numbers with the average score of 3.22 and 3.27 respectively.

    CiNii

  • 包括的遺伝子ネットワーク構造からの活性化部位推定手法の開発

    下岡純也, 油谷幸代, 山名早人, 山名早人

    日本分子生物学会年会プログラム・要旨集(Web)   37th  2014年

    J-GLOBAL

  • 編集にあたって

    山名 早人, 中野 美由紀, 関 洋平

    情報処理学会論文誌データベース(TOD)   6 ( 5 ) i - iii  2013年12月

    CiNii

  • 教育環境における書き込み可能な電子ペーパー端末の利活用

    浅井 洋樹, 山名 早人

    MNC Communications   ( 15 )  2013年12月

    CiNii

  • 文体及びツイート付随情報を用いた乗っ取りツイート検出

    上里和也, 奥谷貴志, 浅井洋樹, 奥野峻弥, 田中正浩, 山名早人

    研究報告データベースシステム(DBS)   2013 ( 21 ) 1 - 8  2013年11月

     概要を見る

    Twitter のユーザ数が増加を続ける一方で,不正に ID 及びパスワードを入手され,他人によってツイートを投稿される被害が増加している.これに対し,我々はアカウント乗っ取りによって投稿されるメッセージの一部であるスパムツイートの検出手法を提案し,8 割程度の正答率を得ている.同手法では特定の単語が含まれているスパムツイートを検出対象とし,検出の有効性を示している.本研究では同検出対象を広げ,アカウントの所持者以外が投稿したツイート全体を 「乗っ取りツイート」 として定義し,これを検出する手法を提案する.また本研究では,以前提案した手法に対してパラメータの再調整を行うと同時に,頻繁に用いるハッシュタグの種類及びリプライを送る相手が各アカウントにおいて特徴的であることを利用し,F 値の向上を図った.100 アカウントに対して評価実験を行った結果,我々が提案している従来手法と比較し,F 値を 0.1984 向上させ F 値 0.8570 を達成した.

    CiNii J-GLOBAL

  • 編集にあたって

    山名 早人, 酒井 哲也, 石川 佳治

    情報処理学会論文誌データベース(TOD)   6 ( 4 ) i - iii  2013年09月

    CiNii

  • 刊行500号までの軌跡とこれからの論文誌のあり方

    山名 早人

    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition)   96 ( 8 ) 1661 - 1662  2013年08月

    CiNii

  • 医薬品副作用情報を用いた副作用検索システムの提案 (データ工学)

    三上 拓也, 駒田 康孝, 野口 保, 菅野 敦之, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 150 ) 59 - 64  2013年07月

     概要を見る

    医薬品の服用に伴う副作用の早期発見と対策は,医療現場において重要な課題である.副作用の早期発見と対策のためには,医師や薬剤師が全医薬品の全副作用を把握しておく必要がある.しかし,一つの医薬品に既知の副作用は数多くあり,全ての副作用の把握は困難である.また副作用には同義に解される類似表記が多くあり,同一の副作用にも関わらず表記違いにより異なる副作用として誤認し,副作用の発見が遅れる可能性がある.さらに,医薬品との関連性が立証されていない未知の副作用も想定される.そこで本稿では副作用の表記ゆれに頑健かつ,医薬品の未知の副作用検索に対応した副作用検索システムを提案する.提案手法では,医薬品の添付文書中の副作用や,副作用が疑われる症例報告を元に医薬品の未知の副作用を推定する.実験では,実際に副作用が疑われる症例報告があった事例150件を入力し,副作用の検索結果と,副作用が疑われる症例報告にある,医薬品との関連性が疑われる副作用を比較することにより有用性を評価した.実験の結果,副作用の検出率は72.7%であり,うち42.2%を未知の副作用として検出した.また従来,表記ゆれにより同一の副作用として検出できなかった既知の副作用29.3%を,副作用の表記ゆれを解消して同一の副作用として検出でき,提案手法が有用であることを確認した.

    CiNii J-GLOBAL

  • マイクロブログを対象とした1,000人レベルでの著者推定手法構築に向けて

    奥野峻弥, 浅井洋樹, 山名早人

    研究報告データベースシステム(DBS)   2013 ( 7 ) 1 - 6  2013年07月

     概要を見る

    従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,限定された人数の著者候補者群を取り扱ってきた.またこれまでに,インターネットに投稿された文章を対象に 1 万人レベルでの著者推定手法を提案し,8 割程度の精度を得ている.しかし,多数のユーザが存在する,マイクロブログに投稿されるメッセージは,投稿数は多いが一度に投稿される文章量が短く,未知語や誤字脱字が多いという特徴が存在するため,これまでの手法では精度が低下してしまう.そこで,本研究ではメッセージから辞書を作成し,その辞書を用いた形態素解析器を利用することで少数のメッセージを利用した大規模人数に対する著者推定を行う手法を提案する.900 人の候補者から著者を推定する評価実験を行った結果,既存の著者推定手法よりも精度が上昇することが確認できた.

    CiNii

  • マイクロブログを対象とした1,000人レベルでの著者推定手法構築に向けて

    奥野峻弥, 浅井洋樹, 山名早人

    情報処理学会研究報告. 情報学基礎研究会報告   2013 ( 7 ) 1 - 6  2013年07月

     概要を見る

    従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,限定された人数の著者候補者群を取り扱ってきた.またこれまでに,インターネットに投稿された文章を対象に 1 万人レベルでの著者推定手法を提案し,8 割程度の精度を得ている.しかし,多数のユーザが存在する,マイクロブログに投稿されるメッセージは,投稿数は多いが一度に投稿される文章量が短く,未知語や誤字脱字が多いという特徴が存在するため,これまでの手法では精度が低下してしまう.そこで,本研究ではメッセージから辞書を作成し,その辞書を用いた形態素解析器を利用することで少数のメッセージを利用した大規模人数に対する著者推定を行う手法を提案する.900 人の候補者から著者を推定する評価実験を行った結果,既存の著者推定手法よりも精度が上昇することが確認できた.

    CiNii

  • 医薬品副作用情報を用いた副作用検索システムの提案

    三上拓也, 駒田康孝, 野口保, 菅野敦之, 山名早人

    研究報告データベースシステム(DBS)   2013 ( 11 ) 1 - 6  2013年07月

     概要を見る

    医薬品の服用に伴う副作用の早期発見と対策は,医療現場において重要な課題である.副作用の早期発見と対策のためには,医師や薬剤師が全医薬品の全副作用を把握しておく必要がある.しかし,一つの医薬品に既知の副作用は数多くあり,全ての副作用の把握は困難である.また副作用には同義に解される類似表記が多くあり,同一の副作用にも関わらず表記違いにより異なる副作用として誤認し,副作用の発見が遅れる可能性がある.さらに,医薬品との関連性が立証されていない未知の副作用も想定される.そこで本稿では副作用の表記ゆれに頑健かつ,医薬品の未知の副作用検索に対応した副作用検索システムを提案する.提案手法では,医薬品の添付文書中の副作用や,副作用が疑われる症例報告を元に医薬品の未知の副作用を推定する.実験では,実際に副作用が疑われる症例報告があった事例 150 件を入力し,副作用の検索結果と,副作用が疑われる症例報告にある,医薬品との関連性が疑われる副作用を比較することにより有用性を評価した.実験の結果,副作用の検出率は 72.7% であり,うち 42.2% を未知の副作用として検出した.また従来,表記ゆれにより同一の副作用として検出できなかった既知の副作用 29.3% を,副作用の表記ゆれを解消して同一の副作用として検出でき,提案手法が有用であることを確認した.

    CiNii

  • マイクロブログを対象とした1,000人レベルでの著者推定手法構築に向けて(ブログ・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)

    奥野 峻弥, 浅井 洋樹, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   113 ( 150 ) 37 - 42  2013年07月

     概要を見る

    従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,限定された人数の著者候補者群を取り扱ってきた.またこれまでに,インターネットに投稿された文章を対象に1万人レベルでの著者推定手法を提案し,8割程度の精度を得ている.しかし,多数のユーザが存在する,マイクロブログに投稿されるメッセージは,投稿数は多いが一度に投稿される文章量が短く,未知語や誤字脱字が多いという特徴が存在するため,これまでの手法では精度が低下してしまう.そこで,本研究ではメッセージから辞書を作成し,その辞書を用いた形態素解析器を利用することで少数のメッセージを利用した大規模人数に対する著者推定を行う手法を提案する.900人の候補者から著者を推定する評価実験を行った結果,既存の著者推定手法よりも精度が上昇することが確認できた.

    CiNii J-GLOBAL

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌データベース(TOD)   6 ( 3 ) i - iii  2013年06月

    CiNii

  • SVMによるGタンパク共役受容体と化学化合物の相互作用予測 (ニューロコンピューティング)

    大野 亮仁, 藤 博幸, 山名 早人

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 111 ) 55 - 61  2013年06月

     概要を見る

    Gタンパク共役受容体(G-protein-coupled receptor,以下GPCR)は,内在性リガンドと結合することで細胞外からの様々なシグナルを細胞内に伝達しており,新薬開発の重要なターゲットとして注目されている.しかし,GPCRと化合物の組合せは膨大であるため,計算機による正確な結合予測手法が求められている.先行研究として,GPCRを構成するアミノ酸配列全長が持つ化学的性質と化合物の化学的性質を用いて結合を予測する手法がある.しかし,GPCRには立体構造が既知のものがあり,その細胞外側の領域にリガンド結合部位が決まっている.よって,リガンド結合部位のアミノ酸が結合に強く影響を与えると考えたため,リガンド結合部位のアミノ酸に注目すべきと考えた.本研究では,全長配列を使用する代わりに,リガンド結合部位のアミノ酸のみを利用することで予測の改善を試みた.特徴量として結合部分のアミノ酸と化合物の化学記述子を用い,SVMによりGPCRと化合物の結合を予測したところ,アミノ酸配列全長を用いた時に比べAccuracyが3.6%, F値は0.038, AUCは0.002向上した.

    CiNii J-GLOBAL

  • Identifying Topics and Influential Users based on Information Propagation in Twitter (データ工学)

    ZHOU Guanying, ZHANG Xuan, YAMANA Hayato

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報   113 ( 105 ) 29 - 33  2013年06月

     概要を見る

    Recently, Twitter has become an efficient tool for product promotion. Thus, both how to measure the influence of individuals and to identify influential Twitter users have great research value. Most of previous researches about influential Twitter users identification have been concentrated on the following and/or friend relationships over user network without taking the factors of real information propagation into account. We believe influential users are those who spread information in the propagation and thus they are key figures in advertising for commercial companies. In this paper, we proposed a new method to identify influential Twitter users in some popular topics in Twitter based on retweet relationship. We use LDA to detect topics and then rank Twitter users in each topic.

    CiNii

  • 検索ヒット数の正確性評価 : 大規模クロールデータに対する文書頻度との比較

    佐藤 亘, 上田 高徳, 山名 早人

    日本 データベース 学会 論文誌 = DBSJ journal   12 ( 1 ) 13 - 18  2013年06月

    CiNii J-GLOBAL

  • SCPSSMpred: A general sequence-based method for ligand-binding site prediction

    Chun Fang, Tamotsu Noguchi, Hayato Yamana

    IPSJ Transactions on Bioinformatics   6   35 - 42  2013年06月

     概要を見る

    In this paper, we propose a novel method, named SCPSSMpred (Smoothed and Condensed PSSM based prediction), which uses a simplified position-specific scoring matrix (PSSM) for predicting ligand-binding sites. Although the simplified PSSM has only ten dimensions, it combines abundant features, such as amino acid arrangement, information of neighboring residues, physicochemical properties, and evolutionary information. Our method employs no predicted results from other classifiers as input, i.e., all features used in this method are extracted from the sequences only. Three ligands (FAD, NAD and ATP) were used to verify the versatility of our method, and three alternative traditional methods were also analyzed for comparison. All the methods were tested at both the residue level and the protein sequence level. Experimental results showed that the SCPSSMpred method achieved the best performance besides reducing 50% of redundant features in PSSM. In addition, it showed a remarkable adaptability in dealing with unbalanced data compared to other methods when tested on the protein sequence level. This study not only demonstrates the importance of reducing redundant features in PSSM, but also identifies sequence-derived hallmarks of ligand-binding sites, such that both the arrangements and physicochemical properties of neighboring residues significantly impact ligand-binding behavior. ©2013 Information Processing Society of Japan.

    DOI

  • マルチコアCPU環境における低レイテンシデータストリーム処理(ストリーム処理,<特集>データ工学と情報マネジメント論文)

    上田 高徳, 秋岡 明香, 山名 早人

    電子情報通信学会論文誌. D, 情報・システム   96 ( 5 ) 1094 - 1104  2013年05月

     概要を見る

    データストリーム処理のアプリケーションには,アルゴリズム取引やネットワークパケット監視のように,大容量データストリームを低レイテンシで処理することが必要なものがある.マルチコアCPUを用いた並列処理により大容量ストリームの処理が可能であるが,オペレータごとにスレッドを割り当てると,CPUコア間通信やスレッド待機のオーバヘッドによりレイテンシが増大する.逆にスレッド数が少なすぎては並列性を生かせず,処理できるデータ量に限界が生じる.本論文では,CPUアーキテクチャやスレッド待機のオーバヘッドを考慮し,処理レイテンシを短縮するスレッド割当手法を提案する.マルチコア環境におけるデータストリーム処理のレイテンシ定義を与え,モデル上で最適なスレッド割当が求まることを示す.更に,入力ストリームのデータレート変化に応じてオペレータを再配置する際,ストリーム処理を止めずにタプル適用順序を守ってオペレータを再配置する方法を提案する.

    CiNii

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌データベース(TOD)   6 ( 2 ) i - iii  2013年03月

    CiNii

  • 機械学習アルゴリズムに特化したタスクグラフセット

    秋岡明香, 村岡洋一, 山名早人

    電子情報通信学会技術研究報告   112 ( 454(IBISML2012 93-109) ) 25 - 30  2013年02月

     概要を見る

    大規模データ解析に対する需要の高まりにより,機械学習アルゴリズムをグラウトのような大規模分散環境で,高速かつスケーラブルに実行する必要が生じている.機械学習アルゴリズムの多くは,並列分散分野におけるデータインテンシブアプリケーションとは全く異なるデータアクセスパターンを持つ.したがって,機械学習アルゴリズムを並列分散実行し高速化するためには,機械学習アルゴリズム特有のデータアクセスパターンを抽出・モデル化し,並列実行可能な箇所や依存関係を明記したタスクグラフを生成する必要がある.本稿では,代表的な機械学習アルゴリズム実装についてタスクグラフ生成手法を適用し,解析を行ない,表現する手法について検討する.

    CiNii J-GLOBAL

  • 三角形特徴を用いた部分形状検索(ポスターセッション,大規模データベースとパターン認識)

    武井 宏将, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   112 ( 441 ) 109 - 109  2013年02月

     概要を見る

    近年、三次元形状データはさまざまな分野で活用され、多くの三次元データが保存されている。三次元形状データの増加に伴い、三次元形状データの検索へのニーズが高まっている。形状検索は大きく全体形状検索と部分形状検索の二つに分けられる。全体形状検索では、クエリーとして与えた形状データと完全一致する形状データを検索する。一方、部分形状検索では、クエリーとして与えた形状データを含む形状データを検索する。形状検索を実行する多くの場面において、検索したい形状と同一の形状データをクエリーとして持っていることはほとんどなく、クエリーとして用いられるのは多くの場合、部分形状データとなる。そのため、全体形状検索よりも部分形状検索へのニーズの方が高い。一方で、部分形状検索はクエリーと検索したい形状が同一形状でないため形状間の対応付けが難しく、チャレンジンクな課題として知られている。部分形状検索の手法としては、Bag-of-featuresを用いる方法や特徴点のマッチングを用いる方法が知られている。しかし、Bag-of-featuresを用いる方法では、Bag-of-featuresは全体形状データまたは部分形状データを事前にヒストクラム表現するため、事前にヒストグラム表現した形状とクエリーが類似していなければ適用することは難しい。特徴点のマッチングを用いる方法では、特徴点のマッチングの精度が検索の精度に影響する。特に、誤対応した特徴点のマッチングが精度の低下をもたらす。本論文の提案手法は、三点の特徴点からなる三角形を用いることでマッチング精度の向上を実現する。クエリーとして与えた形状データから特徴点を抽出し、三点の特徴点を一組の三角形とする。局所特徴量ベクトルの距離による対応付けに基づき、保存された形状データの特徴点からなる三角形を作成し、その三角形どうしを比較する。三点の特徴点を用いることで局所的な情報だけではなく特徴点間の位置関係も考慮され、三角形の対応関係をチェックすることで誤対応を取り除くことができ、マッチング精度を向上することができる。また、各特徴点の局所特徴量ベクトルをインデックス化し、インデックスと三角形間の対応関係チェックを組み合わせて用いることで、高速な検索を実現する。本論文における、私たちの貢献は以下の2つである。1.三角形特徴を用いることで、精度向上を実現している2.特徴点の局所特徴量ベクトルのインデックス化と三角形間の対応関係チェックを組み合わせることで高速な検索を実現している実験として、形状データ100データをインデックス化したデータベースを作成し、インデックス化したデータから無作為に選んだ20データについて、形状データ全体の30〜50%程度を切り出したデータをクエリーとする部分形状検索を行った。本実験において、特徴点を単独で用いた場合の正解率0.65に対して、提案手法は正解率0.85を示した。また、インデックス化するデータの数を増やして検索速度を測定し、本提案手法がインデックス化されたデータ数に対して頑健に検索できることを示した。

    CiNii

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌データベース(TOD)   6 ( 1 ) i - iii  2013年01月

    CiNii

  • マイクロブログを対象とした著者推定手法の提案-5,000人規模での著者推定-

    奥野峻弥, 浅井洋樹, 浅井洋樹, 山名早人, 山名早人

    情報処理学会シンポジウムシリーズ(CD-ROM)   2013 ( 5 )  2013年

    J-GLOBAL

  • 教育環境における書き込み可能な電子ペーパー端末の利活用

    浅井 洋樹, 山名 早人

    大学ICT推進協議会年次大会論文集     3p  2013年

    CiNii

  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出(ソーシャルメディア,ビッグデータとソーシャルコンピューティング,及び一般)

    上田 高徳, 浅井 洋樹, 藤木 紫乃, 山本 祐輔, 武井 宏将, 秋岡 明香, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   112 ( 346 ) 53 - 58  2012年12月

    CiNii

  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出

    上田高徳, 浅井洋樹, 藤木紫乃, 山本祐輔, 武井宏将, 武井宏将, 秋岡明香, 山名早人, 山名早人

    電子情報通信学会技術研究報告   112 ( 346(DE2012 27-40) ) 53 - 58  2012年12月

    CiNii J-GLOBAL

  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出

    上田高徳, 浅井洋樹, 藤木紫乃, 山本祐輔, 武井宏将, 秋岡明香, 山名早人

    情報処理学会研究報告. データベース・システム研究会報告   2012 ( 8 ) 1 - 6  2012年12月

     概要を見る

    本稿では我々が取り組んでいる多メディアビッグデータの統合的解析による情報抽出の試みについて述べる.ソーシャルメディアの普及によって,様々な情報がリアルタイムにインターネット上にアップロードされるようになった.我々は,単一のソーシャルメディアだけでなく,複数の情報源を組み合わせた, 「多メディアデータ」 を解析することで,より有益な情報を抽出できると考えている.本稿では我々が取り組んでいる多メディア解析について述べる.また,大規模リアルタイムデータの解析をサポートするために開発している,並列分散処理フレームワーク QueueLinker についても述べる.

    CiNii

  • 形態素間の優先関係を考慮した略語生成手法

    田中友樹, 及川孝徳, 山名早人, 山名早人, 大西貴士, 土田正明, 石川開

    情報処理学会シンポジウムシリーズ(CD-ROM)   2012 ( 5 ) ROMBUNNO.B4,TANAKA  2012年11月

    J-GLOBAL

  • Producer‐Consumer型モジュールで構成された並列分散Webクローラの開発

    上田高徳, 佐藤亘, 鈴木大地, 打田研二, 森本浩介, 秋岡明香, 山名早人, 山名早人

    情報処理学会シンポジウムシリーズ(CD-ROM)   2012 ( 5 ) ROMBUNNO.B3,UEDA  2012年11月

    J-GLOBAL

  • 筆記情報と時系列モデルを用いた学習者つまずき検出(教育・学習支援プラットフォーム/一般)

    浅井 洋樹, 野輝 明里, 苑田 翔吾, 山名 早人

    電子情報通信学会技術研究報告. ET, 教育工学   112 ( 269 ) 65 - 70  2012年10月

     概要を見る

    生徒の学習を支援する際に必要なプロセスとして,つまずきの検知が挙げられる.CAIのつまずき検出に関する研究では,採点結果や解答所要時間,センサーから取得した学習者の顔画像や脈拍などの生体情報,そして入力デバイスであるキーボードやマウスの操作履歴を利用して検知を行う研究が行われてきた.しかし現状の初等教育では筆記活動を中心とした環境であり,こうした環境におけるつまずき検出に関しては深い議論が行われてこなかった.本報告では生徒が利用するペンから得られる筆記情報を元に,つまずきを検出する手法について検討を行う.検出には時系列モデルであるARモデルを用いて学習者の手書き行動が変化する変化点を検出し,変化点間ごとに推定を行う.実施した試験評価において一定の検出性能が確認できた.

    CiNii J-GLOBAL

  • 強調表記を利用した手書きドキュメント検索スニペット生成

    浅井洋樹, 山名早人, 山名早人

    情報処理学会研究報告(CD-ROM)   2012 ( 3 ) ROMBUNNO.DBS-154,NO.8  2012年10月

    J-GLOBAL

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌データベース(TOD)   5 ( 3 ) i - iii  2012年09月

    CiNii

  • 強調表記を利用した手書きドキュメント検索スニペット生成

    浅井洋樹, 山名早人

    情報処理学会研究報告. データベース・システム研究会報告   2012 ( 8 ) 1 - 7  2012年07月

     概要を見る

    近年,タブレット端末や電子ペンに代表される手書き入力可能な端末が普及し始めたことにより,手書きドキュメントの電子化が進みつつある.端末上でのドキュメント探索,閲覧プロセスの過程において各ドキュメントの概要把握を目的とした閲覧時では,元ドキュメントを縮小したサムネイルや,要約テキストを出力するテキストスニペットが一覧表示のスニペットとしてしばし用いられる.しかし,手書きドキュメントに対して従来の単純に縮小したサムネイルを用いると,文字が要約されずに縮小されてしまうため記述内容が読み取れず,概要把握が困難となる問題がある.また,図などの文字以外の情報が含まれ,不完全な文字認識しか行えない手書きドキュメントを要約する研究は,我々の知る限り存在しない.そこで本稿では,下線や囲い込みに代表される筆記者の強調表記を利用して,手書きドキュメントを要約することにより概要の把握が容易となる検索スニペットを提案する.ユーザによる情報検索評価実験の結果,従来と比較して我々の提案するスニペットを利用することで検索速度が平均 42% 削減される結果が得られた.

    CiNii

  • 強調表記を利用した手書きドキュメント検索スニペット生成

    浅井洋樹, 山名早人

    情報処理学会研究報告. 情報学基礎研究会報告   2012 ( 8 ) 1 - 7  2012年07月

     概要を見る

    近年,タブレット端末や電子ペンに代表される手書き入力可能な端末が普及し始めたことにより,手書きドキュメントの電子化が進みつつある.端末上でのドキュメント探索,閲覧プロセスの過程において各ドキュメントの概要把握を目的とした閲覧時では,元ドキュメントを縮小したサムネイルや,要約テキストを出力するテキストスニペットが一覧表示のスニペットとしてしばし用いられる.しかし,手書きドキュメントに対して従来の単純に縮小したサムネイルを用いると,文字が要約されずに縮小されてしまうため記述内容が読み取れず,概要把握が困難となる問題がある.また,図などの文字以外の情報が含まれ,不完全な文字認識しか行えない手書きドキュメントを要約する研究は,我々の知る限り存在しない.そこで本稿では,下線や囲い込みに代表される筆記者の強調表記を利用して,手書きドキュメントを要約することにより概要の把握が容易となる検索スニペットを提案する.ユーザによる情報検索評価実験の結果,従来と比較して我々の提案するスニペットを利用することで検索速度が平均 42% 削減される結果が得られた.

    CiNii

  • 編集にあたって

    山名早人, 酒井哲也, 石川佳治

    情報処理学会論文誌データベース(TOD)   5 ( 2 ) i - iii  2012年06月

    CiNii

  • Welcome message from MAW-2012 international symposium organizers

    Takahiro Hara, Kin Fun Li, Hayato Yamana, Shengrui Wang

    Proceedings - 26th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2012    2012年05月

    DOI

  • ThumbPop : 注目物体を強調した疑似立体サムネイル生成 (ヒューマン情報処理)

    新井 啓介, 武井 宏将, 山名 早人

    電子情報通信学会技術研究報告 : 信学技報   111 ( 500 ) 177 - 182  2012年03月

    CiNii

  • 低解像度可視光目画像を用いたモデルベース視線推定手法 (パターン認識・メディア理解)

    福田 崇, 山名 早人

    電子情報通信学会技術研究報告 : 信学技報   111 ( 499 ) 31 - 36  2012年03月

    CiNii

  • ThumbPop : 注目物体を強調した疑似立体サムネイル生成 (パターン認識・メディア理解)

    新井 啓介, 武井 宏将, 山名 早人

    電子情報通信学会技術研究報告 : 信学技報   111 ( 499 ) 177 - 182  2012年03月

    CiNii

  • 低解像度可視光目画像を用いたモデルベース視線推定手法 (ヒューマン情報処理)

    福田 崇, 山名 早人

    電子情報通信学会技術研究報告 : 信学技報   111 ( 500 ) 31 - 36  2012年03月

    CiNii

  • 低解像度可視光目画像を用いたモデルベース視線推定手法(テーマセッション,人の視聴覚情報処理とPRMUの接点)

    福田 崇, 山名 早人

    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理   111 ( 500 ) 31 - 36  2012年03月

     概要を見る

    人間工学,市場戦略などに用いられる視線情報は,自然な状態に置かれた多くの被験者から得られることが望ましい.これらの条件を満たすためには,Webカメラを用いることが有効である.Webカメラを用いて非接触型視線推定を実現する場合,使用する目画像の解像度が低く,誤差が生じることが問題となる.これに対し,これまで我々はWebカメラから得られる低解像度目画像を用いて,眼球の回転角度を連続値で詳細に推定する非接触型視線推定手法を提案した.前研究では,二値化した低解像度目画像から得られる瞳輪郭の歪みを除去して得られる瞳輪郭の近似楕円から視線方向を推定した.しかし,二値化の段階で影などの影響を排するために閾値を手動で調整する必要があり,実用上の問題があった.そのため,本稿では目画像二値化の閾値を自動で調整し,残った影領域を除去することで瞳輪郭を正確に楕円近似する手法を提案する.これにより,各種パラメタ設定を自動にし,かつ,水平誤差7.0°,垂直誤差4.3°の精度での視線推定を実現した.

    CiNii

  • ThumbPop : 注目物体を強調した疑似立体サムネイル生成(テーマセッション,人の視聴覚情報処理とPRMUの接点)

    新井 啓介, 武井 宏将, 山名 早人

    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理   111 ( 500 ) 177 - 182  2012年03月

     概要を見る

    本稿ではユーザが注目している物体と背景とを分離し,疑似的な立体サムネイルを作成する手法を提案する.現在広く利用されている縮小サムネイルは,サイズが小さくなると何が写っているのか把握できず視認性が失われてしまうため,画面の小さい端末での利用に適していない.また注目物体を強調した画像縮小手法においても,注目物体が背景領域に埋もれてしまうために,サイズの小さいサムネイルでは注目物体の被発見性が失われてしまうという問題があった.この問題に対し,画像内から注目物体を自動的に抽出し,アフィン変換された背景画像と合成することで,注目物体の視認性を高めた疑似立体サムネイルを作成する.これにより,注目物体を背景に埋もれさせることなく,強調させたサムネイルを生成することができる.

    CiNii

  • 低解像度可視光目画像を用いたモデルベース視線推定手法(テーマセッション,人の視聴覚情報処理とPRMUの接点)

    福田 崇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   111 ( 499 ) 31 - 36  2012年03月

     概要を見る

    人間工学,市場戦略などに用いられる視線情報は,自然な状態に置かれた多くの被験者から得られることが望ましい.これらの条件を満たすためには,Webカメラを用いることが有効である.Webカメラを用いて非接触型視線推定を実現する場合,使用する目画像の解像度が低く,誤差が生じることが問題となる.これに対し,これまで我々はWebカメラから得られる低解像度目画像を用いて,眼球の回転角度を連続値で詳細に推定する非接触型視線推定手法を提案した.前研究では,二値化した低解像度目画像から得られる瞳輪郭の歪みを除去して得られる瞳輪郭の近似楕円から視線方向を推定した.しかし,二値化の段階で影などの影響を排するために閾値を手動で調整する必要があり,実用上の問題があった.そのため,本稿では目画像二値化の閾値を自動で調整し,残った影領域を除去することで瞳輪郭を正確に楕円近似する手法を提案する.これにより,各種パラメタ設定を自動にし,かつ,水平誤差7.0°,垂直誤差4.3°の精度での視線推定を実現した.

    CiNii J-GLOBAL

  • ThumbPop : 注目物体を強調した疑似立体サムネイル生成(テーマセッション,人の視聴覚情報処理とPRMUの接点)

    新井 啓介, 武井 宏将, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   111 ( 499 ) 177 - 182  2012年03月

     概要を見る

    本稿ではユーザが注目している物体と背景とを分離し,疑似的な立体サムネイルを作成する手法を提案する.現在広く利用されている縮小サムネイルは,サイズが小さくなると何が写っているのか把握できず視認性が失われてしまうため,画面の小さい端末での利用に適していない.また注目物体を強調した画像縮小手法においても,注目物体が背景領域に埋もれてしまうために,サイズの小さいサムネイルでは注目物体の被発見性が失われてしまうという問題があった.この問題に対し,画像内から注目物体を自動的に抽出し,アフィン変換された背景画像と合成することで,注目物体の視認性を高めた疑似立体サムネイルを作成する.これにより,注目物体を背景に埋もれさせることなく,強調させたサムネイルを生成することができる.

    CiNii J-GLOBAL

  • Visual-Attention-based Thumbnail using Two-Stage GrabCut

    Keisuke Arai, Hiromasa Takei, Hayato Yamana

    2012 INTERNATIONAL CONFERENCE ON MULTIMEDIA COMPUTING AND SYSTEMS (ICMCS)     96 - 101  2012年

     概要を見る

    This paper proposes a new thumbnail generation method to improve the recognizability of visual attention objects on small displays. Previous methods such as simple scaling reduce the recognizability of original images because the visual attention objects become too small to recognize. When we view thumbnails on small displays such as those of mobile devices, recognizability is indispensable for handling many images simultaneously. To solve the problem of low recognizability of visual attention objects, we adopt GrabCut to extract visual attention objects from an original image and then divide the original image into visual attention objects and a background image. While the background image is reduced to fit the size of a thumbnail, the extracted visual attention objects are merged into the reduced background image to preserve their recognizability. In adopting GrabCut, we propose a two-stage GrabCut method to automate the extraction of attention objects; the extraction was performed by hand in previous methods. Our experimental results show that our proposed method is able to shorten the search time by 44% and improve the precision of the search by 19% in comparison with simple scaling.

    DOI

  • データストリーム処理におけるレイテンシ最小化と高可用性のためのオペレータ実行方法

    上田高徳, 打田研二, 秋岡明香, 山名早人, 山名早人

    情報処理学会シンポジウムシリーズ(CD−ROM)   2011 ( 5 ) ROMBUNNO.2G-2,UEDA  2011年10月

    J-GLOBAL

  • 品詞n‐gramを用いた著者推定手法—話題に依存しない頑健性の評価—

    井上雅翔, 中島泰, 山名早人, 山名早人

    情報処理学会シンポジウムシリーズ(CD−ROM)   2011 ( 5 ) ROMBUNNO.ROMBUNSHOSESSHON,INOE  2011年10月

    J-GLOBAL

  • 検索エンジンのヒット数に対する信頼性評価指標の提案とその妥当性検証

    佐藤亘, 打田研二, 山名早人, 山名早人

    情報処理学会研究報告(CD−ROM)   2011 ( 3 ) ROMBUNNO.DBS-152,NO.8  2011年10月

    J-GLOBAL

  • 検索エンジンのヒット数に対する信頼性評価指標の提案とその妥当性検証

    佐藤 亘, 打田 研二, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2011 ( 8 ) 1 - 8  2011年07月

     概要を見る

    近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.

    CiNii

  • 検索エンジンのヒット数に対する信頼性評価指標の提案とその妥当性検証

    佐藤 亘, 打田 研二, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   2011 ( 8 ) 1 - 8  2011年07月

     概要を見る

    近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.

    CiNii J-GLOBAL

  • オンライン手書きノートからの強調語抽出

    浅井 洋樹, 山名 早人

    日本データベース学会論文誌   10 ( 1 ) 67 - 72  2011年06月

    CiNii J-GLOBAL

  • Welcome message from MAW 2011 symposium chairs

    Takahiro Hara, Kin Fun Li, Shengrui Wang, Hayato Yamana

    Proceedings - 25th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2011     48  2011年05月

    DOI

  • Welcome message from the QuEST 2011 workshop chairs

    Kin Fun Li, Rick McGeer, Stephen Neville, Hayato Yamana

    Proceedings - 25th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2011    2011年05月

    DOI

  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    INFORMATION RETRIEVAL   14 ( 2 ) 133 - 157  2011年04月

     概要を見る

    We investigate temporal factors in assessing the authoritativeness of web pages. We present three different metrics related to time: age, event, and trend. These metrics measure recentness, special event occurrence, and trend in revisions, respectively. An experimental dataset is created by crawling selected web pages for a period of several months. This data is used to compare page rankings by human users with rankings computed by the standard PageRank algorithm (which does not include temporal factors) and three algorithms that incorporate temporal factors, including the Time-Weighted PageRank (TWPR) algorithm introduced here. Analysis of the rankings shows that all three temporal-aware algorithms produce rankings more like those of human users than does the PageRank algorithm. Of these, the TWPR algorithm produces rankings most similar to human users&apos;, indicating that all three temporal factors are relevant in page ranking. In addition, analysis of parameter values used to weight the three temporal factors reveals that age factor has the most impact on page rankings, while trend and event factors have the second and the least impact. Proper weighting of the three factors in TWPR algorithm provides the best ranking results.

    DOI

  • 情報検索コース

    監修, 神門 典子, 山名 早人

    Webラーニングプラザ:技術者Web学習システム(技術者向けeラーニング), 科学技術振興機構    2011年03月  [招待有り]

  • レビューからの商品比較表の自動生成

    相川直視, 山名早人, 山名早人

    言語処理学会年次大会発表論文集   17th (CD-ROM)   ROMBUNNO.D2-3  2011年03月

    J-GLOBAL

  • ロック制御型同期複製ミドルウェアの提案

    堀井洋, 堀井洋, 小野寺民也, 山名早人

    電子情報通信学会論文誌 D   J94-D ( 3 ) 515-524  2011年03月

    J-GLOBAL

  • Increase the Image Search Results by Using Flickr Tags

    ShanBin Chan, 佐藤真一, 山名早人

    DEIM2011   B1-3  2011年

  • 2段階LDAを用いたインクリメンタルなソフトウェアレポジトリの自動分類手法

    井上雅翔, 新井啓介, 山名早人

    DEIM2011   E4-5  2011年

  • ウェブサーバへの最短訪問間隔を保証する時間計算量がO(1)のウェブクローリングスケジューラ

    森本浩介, 上田高徳, 打田研二, 山名早人

    DEIM2011   B5-6  2011年

  • 品詞と助詞の出現パターンを用いた類似著者の推定とコミュニティ抽出

    中島泰, 山名早人

    DEIM2011   C6-5  2011年

  • 検索エンジンのヒット数の信頼性に対する評価

    佐藤亘, 打田研二, 山名早人

    DEIM2011   E6-1  2011年

  • 結晶化環境におけるpH値を考慮したSVMによるタンパク質結晶化の予測

    片岡義雅, 野口保, 百石弘澄, 小林大輔, 山名早人

    DEIM2011   D8-1  2011年

  • 筆記者の強調表現に基づいたオンライン手書きノートの圧縮サムネイル生成手法

    浅井洋樹, 小林大輔, 山名早人

    DEIM2011   E8-6  2011年

  • Cannyエッジ情報に基づく人物画像における髪型の定量化

    須藤優介, 福田崇, 山名早人

    DEIM2011   E9-6  2011年

  • 字幕テキストの利用によるマイクロブログからのテレビ番組に言及したメッセージ検出手法

    山本祐輔, 及川孝徳, 山名早人

    DEIM2011   A10-1  2011年

  • レビューからの商品比較表の自動生成

    相川直視, 山名早人

    自然言語処理学会第17回年次大会   D2-3  2011年

  • Increase the Image Search Results by Using Flickr Tags

    ShanBin Chan, 佐藤真一, 山名早人

    DEIM2011   B1-3  2011年

  • ミニブログにおける注目語抽出手法の提案と注目語を用いたメディア間での話題追跡

    加藤慶一, 秋岡明香, 村岡洋一, 山名早人

    情報処理学会研究報告(CD−ROM)   2010 ( 4 ) ROMBUNNO.DBS-151,22 - 8  2010年12月

     概要を見る

    Twitter に代表されるミニブログは新たなメディアとして注目を集めており,そこでの発言の解析や,テレビや新聞等の他のメディアとミニブログとの相関関係の解析に対する需要が高まっている.しかし,ミニブログにおける発言は,特定の作品や商品に関する言及を多く含み,これらの多くは複合語であるため,そもそも形態素解析を正しく行なうことが難しい.そこで,ミニブログにおける出現頻度が急上昇した自立語,特に名詞に注目し,複合語で構成される固有名詞 (注目語) を取得する手法を提案する.提案手法により,ミニブログにおける形態素解析の精度向上が期待でき,ミニブログや他のメディアでの関連ある話題をより正確に追跡することが可能となる.A mini blog service, including Twitter, is one of emerging media of note. Across-the-board analysis in posted blogs, and descriptions in related media, such as TV, newspapers, and other media, is indispensable for social analysis. Posts in mini blogs, however, often include names of particular movies, novels, and products, and many of which are compounders. A compounder is often divided into several words by word processors, and difficult to extract as one solid word. Here, if a hot compounder is extracted as it is supposed to be, the quality of morphological analysis is improved to contribute to better topic tracking in many descriptions in media. Therefore, in this paper, we propose a methodology to extract distinctive phrases from mini blog posts. The methodology picks up burgeoning keywords included in posts in limted time, and tries to form meaningful compounders.

    CiNii J-GLOBAL

  • クラウド環境でのストリーミングアプリケーション向け動的資源配置手法 (データベースシステム(DBS) Vol.2010-DBS-151)

    秋岡 明香, 加藤 慶一, 村岡 洋一, 山名 早人

    情報処理学会研究報告   2010 ( 4 ) 1 - 7  2010年12月

     概要を見る

    時系列に沿って短時間間隔でデータが到着する入力データストリームに対して,リアルタイムに詳細な解析を行なうストリーミングアプリケーションの重要性が高まっている.本稿では,こうしたストリーミングアプリケーションを並列化し,動的にクラウドなどの広域分散環境に配置する手法を提案する.シミュレーションにより従来通りにストリーミングアプリケーションを処理した場合と提案手法によりストリーミングアプリケーションを並列処理した場合を比較したところ,現実的なアプリケーションを想定した場合には従来通りの実行方法では処理が間に合わず,データを破棄する必要があることを示した.また,提案手法を用いることで,全てのデータを破棄することが可能であることを示し,そのオーバーヘッドは 26% であった.Streaming application, which requires to process data frequently arrives in chronological order, is now a center of interest. This paper proposes a methodology to parallelize, and dynamically allocate streaming applications over distributed environment such as cloud computing environment. The simulation results approved that practical streaming applications need to be processed in parallel in order to avoid loss of data for lack of processing time. However, the methodology proposed in this paper enables all the input data processed with 26% overhead of average execution time of each block of input data.

    CiNii

  • クラウド環境でのストリーミングアプリケーション向け動的資源配置手法

    秋岡 明香, 加藤 慶一, 村岡 洋一, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2010 ( 8 ) 1 - 7  2010年11月

     概要を見る

    時系列に沿って短時間間隔でデータが到着する入力データストリームに対して,リアルタイムに詳細な解析を行なうストリーミングアプリケーションの重要性が高まっている.本稿では,こうしたストリーミングアプリケーションを並列化し,動的にクラウドなどの広域分散環境に配置する手法を提案する.シミュレーションにより従来通りにストリーミングアプリケーションを処理した場合と提案手法によりストリーミングアプリケーションを並列処理した場合を比較したところ,現実的なアプリケーションを想定した場合には従来通りの実行方法では処理が間に合わず,データを破棄する必要があることを示した.また,提案手法を用いることで,全てのデータを破棄することが可能であることを示し,そのオーバーヘッドは 26% であった.

    CiNii J-GLOBAL

  • ミニブログにおける注目語抽出手法の提案と注目語を用いたメディア間での話題追跡

    加藤 慶一, 秋岡 明香, 村岡 洋一, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2010 ( 22 ) 1 - 8  2010年11月

     概要を見る

    Twitter に代表されるミニブログは新たなメディアとして注目を集めており,そこでの発言の解析や,テレビや新聞等の他のメディアとミニブログとの相関関係の解析に対する需要が高まっている.しかし,ミニブログにおける発言は,特定の作品や商品に関する言及を多く含み,これらの多くは複合語であるため,そもそも形態素解析を正しく行なうことが難しい.そこで,ミニブログにおける出現頻度が急上昇した自立語,特に名詞に注目し,複合語で構成される固有名詞 (注目語) を取得する手法を提案する.提案手法により,ミニブログにおける形態素解析の精度向上が期待でき,ミニブログや他のメディアでの関連ある話題をより正確に追跡することが可能となる.

    CiNii J-GLOBAL

  • Resizable-LSHによる閾値可変の近似的類似検索手法の高速化

    山? 邦弘, 山名 早人

    情報処理学会研究報告. AL, アルゴリズム研究会報告   2010 ( 5 ) 1 - 8  2010年09月

     概要を見る

    本稿では,筆者らがこれまでに提案している Resizable-LSH を改善し,広域な閾値に対しても類似検索を可能にする手法を提案する.近年,類似度の尺度として距離を用いた高速な類似検索手法の 1 つとして,Locality-Sensitive Hashing (局所性鋭敏型ハッシング,以下 LSH) による近似的な類似検索が注目されている.LSH とは 「距離が近い入力同士は高い確率で衝突する」 特徴を持つハッシュ関数を用いたデータマッピング手法である.しかし事前計算の際に類似度の閾値を固定とすることで高速化しているため,エンドユーザが閾値を変更しながら類似検索をすることはできない.そこで Resizable-LSH ではハッシュ値が近いデータも検索することで,閾値を可変とした類似検索を実現しているが,閾値が大きくなると検索量も膨大になるため,速度低下を招いていた.本稿では Resizable-LSH のハッシュ値検索方式を変更してハッシュ値探索とデータ探索を同時に行う手法を提案する.本手法により,従来の Resizable-LSH と比較して 800 倍以上の速度向上を達成し,広域な閾値を設定した場合でも高速な類似検索を実現する.

    CiNii

  • The 2010 IEEE International Symposium on Mining and Web (MAW): Welcome message from symposium organizers

    Takahiro Hara, Kin Fun Li, Shengrui Wang, Hayato Yamana, Laurence T. Yang, Yanchun Zhang

    24th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2010    2010年07月

    DOI

  • The 2010 IEEE International Workshop on Quantitative Evaluation of large-scale Systems and Technologies (QuEST): Welcome message from workshop organizers

    Kin Fun Li, Rick McGeer, Stephen Neville, Hayato Yamana

    24th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2010     90  2010年07月

    DOI

  • 検索語の重みの2段階調整手法(センサデータ処理及び一般,センサデータ処理,ストリームデータベース,及び一般)

    矢野 博也, 中島 泰, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   110 ( 107 ) 45 - 50  2010年06月

     概要を見る

    文書検索において単語の重み付けを行う方法の一つとしてTF・IDF法があげられる.IDFは文書集合での単語の出現しにくさを表わしており,検索対象の文書集合に依存する性質を持つ.そのため,クエリと同じ分野ではあまり出現しないためIDFが大きくなるような特定性が高い単語であっても,検索対象文書には出現しやすい単語であった場合にはIDFは小さくなってしまう問題がある.そこで本論文では,従来の検索手法を用いて検索対象の文書集合からクエリと同じ分野であると考えられる関連文書を抽出するステップと関連文書集合での出現頻度も用いて検索するステップの2段階に分ける手法を提案する.従来手法と比較するためNTCIR-1のIRタスクデータを用いて評価実験を行ったところ,一般的なベクトル空間モデルと比較して7.1%の精度向上が得られ,NTCIR-1で最も高精度だった結果と同等の精度が得られた.

    CiNii J-GLOBAL

  • 特徴領域の位置関係に着目したテンプレートマッチングによる類似物体検出

    新井 啓介, 森本 浩介, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   2010 ( 4 ) 1 - 8  2010年05月

     概要を見る

    大量の画像の中から同じ物体が写っている画像を探し出す類似物体検出は,画像の整理や Web 画像を利用した市場調査に利用することができる.類似物体を検出する手法としてテンプレートマッチングがある.テンプレートマッチングは対象となる画像に同じ物体が写りこんでいることを前提としているため,写りこんでいない可能性のある未知の画像には向いていない.そこで本稿では,写りこんでいることを前提としていることに起因する誤検出率を低下させるため,従来のテンプレートマッチング手法に対し,さらに特徴的な領域の位置関係を考慮する手法を提案する.テンプレート画像から物体の特徴的な領域を決定し,その領域ごとにテンプレートマッチングを行う.得られた結果に投票処理を行い,特徴領域の重心を算出し,各領域の重心を介した位置関係を考察する.これにより,提案手法では AUC (Area Under the Curve) と F 値による評価において,それぞれ最大で 0.121,0.052 ポイント精度が向上した.

    CiNii

  • 安価なWebカメラを用いたModel-Based視線推定(テーマ関連,顔・人物・ジェスチャ・行動)

    福田 崇, 松崎 勝彦, 山名 早人

    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理   109 ( 471 ) 113 - 118  2010年03月

     概要を見る

    一般家庭において被験者を拘束せずに実現できる視線推定は,今後のユーザインタフェースの革新に大きく貢献するものと考えられる.商用の視線推定システムは赤外線を用い高精度な推定を実現しているが,一般家庭への普及にはWebカメラを用いたシステムが望まれる.しかし,Webカメラを用いた場合,被験者を拘束せずに目画像を得ようとするとその解像度は低くなる.低解像度の目画像はノイズの影響を強く受けるため,従来の低解像度目画像による視線推定手法では,眼球回転角度が量子化され高精度での視線推定が困難であった.本論文では,Webカメラから得られる低解像度目画像に画像処理,幾何学処理を行うことで,高精度の視線推定を実現する.実験の結果,水平方向で平均3.8°,垂直方向で平均1.9°の誤差を示した.本実験では,キャリブレーションを行わず,5人の被験者によって実験を行った.

    CiNii J-GLOBAL

  • 安価なWebカメラを用いたModel-Based視線推定(テーマ関連,顔・人物・ジェスチャ・行動)

    福田 崇, 松崎 勝彦, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   109 ( 470 ) 113 - 118  2010年03月

     概要を見る

    一般家庭において被験者を拘束せずに実現できる視線推定は,今後のユーザインタフェースの革新に大きく貢献するものと考えられる.商用の視線推定システムは赤外線を用い高精度な推定を実現しているが,一般家庭への普及にはWebカメラを用いたシステムが望まれる.しかし,Webカメラを用いた場合,被験者を拘束せずに目画像を得ようとするとその解像度は低くなる.低解像度の目画像はノイズの影響を強く受けるため,従来の低解像度目画像による視線推定手法では,眼球回転角度が量子化され高精度での視線推定が困難であった.本論文では,Webカメラから得られる低解像度目画像に画像処理,幾何学処理を行うことで,高精度の視線推定を実現する.実験の結果,水平方向で平均3.8°,垂直方向で平均1.9°の誤差を示した.本実験では,キャリブレーションを行わず,5人の被験者によって実験を行った.

    CiNii

  • 6K-7 データアクセスパターンに基づくデータマイニング手法の分類(情報爆発時代における並列分散処理技術,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)

    秋岡 明香, 村岡 洋一, 山名 早人, 中島 達夫

    全国大会講演論文集   72 ( 5 ) "5 - 105"-"5-106"  2010年03月

    CiNii

  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    Information Retrieval   Vol.13 ( No.4 )  2010年

  • 特定言語Webページ収集のためのフォーカストクローラの性能改善手法

    詹 善斌, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • 字幕テキストの利用によるブログで引用されたテレビ番組の推定

    及川 孝徳, 中島 泰, 松崎 勝彦, 黒木 さやか, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • アンカーテキストとリンク構造を用いた同義語抽出手法

    黒木 さやか, 立石 健二, 細見 格, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • Winnyネットワーク上を流通するコンテンツの傾向と分析

    打田 研二, 高木 浩光, 山崎 邦弘, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • WWWにおけるP3Pコンパクトポリシーの利用状況に関する調査

    櫻井 宏樹, 高木 浩光, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • Unexpected and Interesting: 動画視聴サイトにおける発見性 を重視した動画推薦手法の提案

    中村 智浩, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • QueueLinker: パイプライン型アプリケーションのための分散処理フレームワーク

    上田 高徳, 片瀬 弘晶, 森本 浩介, 打田 研二, 油井 誠, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • LittleWeb: 類似ノード集約によるWebグラフ圧縮手法

    片瀬弘晶, 上田 高徳, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • Hit Count Dance -検索エンジンのヒット数に関する信頼性検証-

    舟橋卓也, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)    2010年

  • 安価なWebカメラを用いたModel-Based視線推定

    福田 崇, 松崎勝彦, 山名早人

    信学技報(PRMU)   Vol.2009 ( No.252 ) 113 - 118  2010年

  • データアクセスパターンに基づくデータマイニング手法の分類

    秋岡明香, 村岡洋一, 山名早人, 中島達夫

    第72回情処全大   6K-7 ( 5 )  2010年

    J-GLOBAL

  • 特徴領域の位置関係に着目したテンプレートマッチングによる類似物体検出

    新井 啓介, 森本 浩介, 山名 早人

    情処研報   Vol.2010-CVIM-172 ( No.4 ) 1 - 8  2010年

    J-GLOBAL

  • Search Engines’ Trustworthiness-Current Status

    Hayato YAMANA

    Proc. of the 5th Korea-Japan Database Workshop     219 - 240  2010年

  • 検索語の重みの2段階調整手法

    矢野博也, 中島泰, 山名早人

    信学技報   Vol.110 ( No.107 ) 45 - 50  2010年

  • 領域分割と色特徴を利用したテンプレートマッチングによる類似物体検出

    新井啓介, 森本浩介, 山名早人

    MIRU2010,IS2-42    2010年

  • 動画像における正面画像推定からの衣服領域抽出

    金正文, 森本浩介, 山名早人

    MIRU2010, IS3-36    2010年

  • 低解像度目画像からのModel-Based視線推定

    福田崇, 松崎勝彦, 山名早人

    MIRU2010, IS1-46    2010年

  • Localized Multiple Kernel Learningを用いた画像分類

    小林大輔, 相川直視, 山名早人

    MIRU2010, IS2-43    2010年

  • Data Access Pattern Analysis on Stream Mining Algorithms for Cloud Computation,

    Sayaka Akioka, Hayato Yamana, Yoichi Muraoka

    Proc. of the 2010 Int'll Conf. on Parallel and Distributed Processing Techniques and Applications    2010年

  • The Method of Improving the Specific Language Focused Crawler,

    Shan-Bin Chan, Hayato Yamana

    Proc. of the 1st CIPS-SIGHAN Joint Conf. on Chinese Language Processing(CLP2010)    2010年

  • Resizable-LSHによる閾値可変の近似的類似検索手法の高速化

    山﨑邦弘, 山名早人

    情報研報   Vol.2010-AL-131 ( No.5 ) 1 - 8  2010年

    J-GLOBAL

  • Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?

    Naoyoshi AIKAWA, Tetsuya SAKAI, Hayato YAMANA

    WebDBForum2011    2010年

  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    Information Retrieval   Vol.13 ( No.4 )  2010年

  • Search Engines’ Trustworthiness-Current Status

    Hayato YAMANA

    Proc. of the 5th Korea-Japan Database Workshop     219 - 240  2010年

  • Reliability Verification of Search Engines' Hit Counts: How to Select a Reliable Hit Count for a Query

    Takuya Funahashi, Hayato Yamana

    CURRENT TRENDS IN WEB ENGINEERING   6385s   114 - 125  2010年

     概要を見る

    In this paper, we investigate the trustworthiness of search engines' hit counts, numbers returned as search result counts. Since many studies adopt search engines' hit counts to estimate the popularity of input queries, the reliability of hit counts is indispensable for archiving trustworthy studies. However, hit counts are unreliable because they change, when a user clicks the "Search" button more than once or clicks the "Next" button on the search results page, or when a user queries the same term on separate days. In this paper, we analyze the characteristics of hit count transition by gathering various types of hit counts over two months by using 10,000 queries. The results of our study show that the hit counts with the largest search offset just before search engines adjust their hit counts are the most reliable. Moreover, hit counts are the most reliable when they are consistent over approximately a week.

    DOI

  • Data Access Pattern Analysis on Stream Mining Algorithms for Cloud Computation,

    Sayaka Akioka, Hayato Yamana, Yoichi Muraoka

    Proc. of the 2010 Int'll Conf. on Parallel and Distributed Processing Techniques and Applications    2010年

  • The Method of Improving the Specific Language Focused Crawler,

    Shan-Bin Chan, Hayato Yamana

    Proc. of the 1st CIPS-SIGHAN Joint Conf. on Chinese Language Processing(CLP2010)    2010年

  • Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?

    Naoyoshi AIKAWA, Tetsuya SAKAI, Hayato YAMANA

    WebDBForum2011    2010年

  • Cross-media impact on Twitter in Japan

    Sayaka Akioka, Norikazu Kato, Yoichi Muraoka, Hayato Yamana

    International Conference on Information and Knowledge Management, Proceedings     111 - 118  2010年

     概要を見る

    Twitter, a microblogging service, is now grabbing attention of people as a new channel. For deep understanding of this new service, this paper reports the characteristics of Twitter users in Japan, and the impact of media such as publications, and TV programs on Twitter community. To the best of our knowledge, this paper is the first to analyze mutual impact between Twitter, and other media quantitatively. In order for the analyses, we crawled user profiles whose language setting is Japanese, and conducted several analysis with well-known methodologies as conventional work did. We confirmed the characteristics of the collected user profiles. We observed the distributions of the number of friends, and the number of follows both follow power-law, and there exists the correlation between the number of friends, and the number of follows. Besides the collected user profiles, we also utilized closed caption data of TV programs in Japan, and other information on media picked up Twitter. We run a batch of matching these data outside Twitter with the collected user profiles, and concluded Twitter has been already widely spread among Japanese people, however, media have still huge impact on the growth of Twitter users. We also conjectured the impact is not one-sided, however, is mutual influence between Twitter, and other media. © 2010 ACM.

    DOI

  • ロックフリーGCLOCKページ置換アルゴリズム

    油井 誠, 宮崎 純, 植村 俊亮, 加藤 博一, 山名 早人

    情報処理学会論文誌データベース(TOD)   2 ( 4 ) 32 - 48  2009年12月

     概要を見る

    GCLOCKに基づくロックフリーなページ置換アルゴリズムNb-GCLOCKを提案する.バッファ管理モジュールへの並行アクセスは,CPUのプロセッサ数に対するデータベースのスケーラビリティを阻害する主要な要因である.本論文では,Nb-GCLOCKと無待機ハッシュ表の組合せにより,要求されたページをバッファフレームに固定するbufferfix処理をノンブロッキングに行う手法を提案する.実験結果により,既存のロックに基づくバッファ管理手法が16プロセッサ以上,プロセッサ数に対するスケーラビリティを示さないのに対して,我々の手法が64プロセッサまでほぼ線形のスケーラビリティを示すことを明らかにし,提案手法の有効性を示す.In this paper, we propose a lock-free variant of the GCLOCK page replacement algorithm, named Nb-GCLOCK. Concurrent access to the buffer management module is a major factor that prevents database scalability to processors. Therefore, we propose a non-blocking scheme for bufferfix operations that fix buffer frames for requested pages without locks by combining Nb-GCLOCK and a wait-free hash table. Our experimental results revealed that our scheme can obtain nearly linear scalability to processors up to 64 processors, although the existing locking-based schemes do not scale beyond 16 processors.

    CiNii

  • 2-way prediction法によるGPCRリガンドの結合予測

    百石 弘澄, 杉原 稔, 諏訪 牧子, 加藤 毅, 山名 早人, 藤渕 航

    情報処理学会研究報告. BIO, バイオ情報学   2009 ( 2 ) 1 - 8  2009年09月

     概要を見る

    Gタンパク質共役型受容体(GPCR)は創薬研究の中心となっており,GPCRと相互作用する未知のリガンドを予測することは重要な課題である.しかしながら,相互作用するリガンドが全く知られていないGPCRも多く存在し,これらのGPCRと相互作用するリガンドを予測することは学習用サンプルの不足から困難となる.そこで,我々はサポートベクターマシンを利用した2-way prediction法を提案する.この方法では,リガンド,GPCR,双方から予測を行い,相互作用するリガンドの情報とGPCRの情報が全くない場合の予測に対応した.実験により提案手法の有効性を示す.

    CiNii

  • N-gram と離散型共起表現を用いたワードサラダ型スパム検出手法の提案

    森本 浩介, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   95 ( 24 ) X1 - X8  2009年07月

     概要を見る

    インターネット上にウェブページが爆発的に増加し,インターネットから得られる情報が重要になっている.しかし,ウェブページの爆発的な増加につれてスパム行為を行うページも同様に増加し,インターネットから得られる情報の価値を下げている.スパム行為には様々な手法があるが,本論文では自動的に文章を生成するワードサラダに着目し,ワードサラダ型のスパムを効率的に検出する手法を提案する.ワードサラダ型スパムを検出するため,n-gram と離散型共起表現を用いてカルバック・ライブラー情報量に基づく文章のスコアを計算し,計算したスコアに基づき判定を行う.提案手法の評価実験を行った結果,既存手法と比較して F 値で 0.18 の性能の向上を確認できた.Information on the Internet becomes important because of exploding Web page. However, Spam pages also have exploded and information from the Internet have become lower reliability. Though there are many Spamming methods, in this article we focus on &quot;word salad&quot; that creates text automatically, and we propose the effective method of word salad detection. We detect word salad by the score based on Kullback-Leibler divergence calculated with n-gram and interrupted collocation. As a result of experiment, our method improves 0.18 points in F-value from the existing method.

    CiNii

  • Resizable-LSH : 可変領域型の近似的類似検索

    山崎 邦弘, 中村 智浩, 舟橋 卓也, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   148 ( 22 ) V1 - V8  2009年07月

     概要を見る

    本稿では閾値を可変にした近似的な類似検索手法を提案する.近年,距離を用いた類似検索手法の 1 つとして,Locality-Sensitive Hashing (局所性鋭敏型ハッシング,LSH) による近似的な類似検索が注目されている.LSHは,「距離が近い入力同士は高い確率で衝突する」 特徴を持つハッシュ関数を用いたデータマッピング手法であり,高次元なデータに対しても高速に近傍検索を行うことができる.しかし LSH では,事前計算によって距離が近いデータ同士を同じハッシュ値にマッピングするため,検索時に類似度の閾値を変更することができない.閾値を変更するにはハッシュテーブルの再構築が必要になるため,ユーザが閾値を指定できるような類似検索は実現困難である.そこで本研究では,類似検索時に,クエリとハッシュ値が一致するデータに加え,ハッシュ値が近いデータも取得することで,ハッシュテーブルの再構築を行うことなく,閾値を指定できる類似検索を実現した.提案手法は,閾値に合わせてハッシュテーブルを逐次再構築する LSH と比較して,同程度の精度で,かつ 1,000 倍程度の高速化を達成できることを実験により確認した.We introduce an efficient algorithm named &quot;Resizable-LSH&quot; for approximate similarity search, which enables resizing the search range flexibly. Nowadays, Locality-Sensitive Hashing (LSH) is drawing attention as an efficient algorithm for approximate nearest neighbor search. LSH adopts hash functions that collide with high probability if two vectors are close, so that LSH finds approximate nearest neighbors quickly even if the dataset is high-dimensional. However, LSH should generate hash tables preliminarily, that results in resizing the search range costs expensive because hash table regeneration is required whenever we face the needs to resize search range. To solve the problem, our proposed Resizable-LSH retrieves not only the same hash value of query, but also near hash values. Then Resizable-LSH achieves resizable range-search. As it turns out, the result of the experiments shows Resizable-LSH works about 1,000 times faster than LSH with almost the same quality in comparison with LSH.

    CiNii

  • Resizable-LSH : 可変領域型の近似的類似検索

    山崎 邦弘, 中村 智浩, 舟橋 卓也, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   95 ( 22 ) 1 - 8  2009年07月

     概要を見る

    本稿では閾値を可変にした近似的な類似検索手法を提案する.近年,距離を用いた類似検索手法の 1 つとして,Locality-Sensitive Hashing (局所性鋭敏型ハッシング,LSH) による近似的な類似検索が注目されている.LSHは,「距離が近い入力同士は高い確率で衝突する」 特徴を持つハッシュ関数を用いたデータマッピング手法であり,高次元なデータに対しても高速に近傍検索を行うことができる.しかし LSH では,事前計算によって距離が近いデータ同士を同じハッシュ値にマッピングするため,検索時に類似度の閾値を変更することができない.閾値を変更するにはハッシュテーブルの再構築が必要になるため,ユーザが閾値を指定できるような類似検索は実現困難である.そこで本研究では,類似検索時に,クエリとハッシュ値が一致するデータに加え,ハッシュ値が近いデータも取得することで,ハッシュテーブルの再構築を行うことなく,閾値を指定できる類似検索を実現した.提案手法は,閾値に合わせてハッシュテーブルを逐次再構築する LSH と比較して,同程度の精度で,かつ 1,000 倍程度の高速化を達成できることを実験により確認した.We introduce an efficient algorithm named &quot;Resizable-LSH&quot; for approximate similarity search, which enables resizing the search range flexibly. Nowadays, Locality-Sensitive Hashing (LSH) is drawing attention as an efficient algorithm for approximate nearest neighbor search. LSH adopts hash functions that collide with high probability if two vectors are close, so that LSH finds approximate nearest neighbors quickly even if the dataset is high-dimensional. However, LSH should generate hash tables preliminarily, that results in resizing the search range costs expensive because hash table regeneration is required whenever we face the needs to resize search range. To solve the problem, our proposed Resizable-LSH retrieves not only the same hash value of query, but also near hash values. Then Resizable-LSH achieves resizable range-search. As it turns out, the result of the experiments shows Resizable-LSH works about 1,000 times faster than LSH with almost the same quality in comparison with LSH.

    CiNii

  • N-gram と離散型共起表現を用いたワードサラダ型スパム検出手法の提案

    森本 浩介, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   148 ( 24 ) 1 - 8  2009年07月

     概要を見る

    インターネット上にウェブページが爆発的に増加し,インターネットから得られる情報が重要になっている.しかし,ウェブページの爆発的な増加につれてスパム行為を行うページも同様に増加し,インターネットから得られる情報の価値を下げている.スパム行為には様々な手法があるが,本論文では自動的に文章を生成するワードサラダに着目し,ワードサラダ型のスパムを効率的に検出する手法を提案する.ワードサラダ型スパムを検出するため,n-gram と離散型共起表現を用いてカルバック・ライブラー情報量に基づく文章のスコアを計算し,計算したスコアに基づき判定を行う.提案手法の評価実験を行った結果,既存手法と比較して F 値で 0.18 の性能の向上を確認できた.Information on the Internet becomes important because of exploding Web page. However, Spam pages also have exploded and information from the Internet have become lower reliability. Though there are many Spamming methods, in this article we focus on &quot;word salad&quot; that creates text automatically, and we propose the effective method of word salad detection. We detect word salad by the score based on Kullback-Leibler divergence calculated with n-gram and interrupted collocation. As a result of experiment, our method improves 0.18 points in F-value from the existing method.

    CiNii

  • 複数キーワードクエリに対する検索ヒット数の信頼性検証(一般,「ユビキタス,センサ環境におけるデータベース」,及び一般)

    舟橋 卓也, 曽根 広哲, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   109 ( 153 ) 19 - 24  2009年07月

     概要を見る

    これまでに検索エンジンのヒット数を利用して自然言語処理やWeb規模の推定を行う研究が行われている.これらの研究において,検索エンジンのヒット数は正しいという仮定の下で行われてきた.この仮定を検証するため,筆者らは検索エンジンのヒット数に対する信頼性の検証を行っている.筆者らの従来研究では1キーワードクエリに対するヒット数の信頼性についてのみ検証を行ってきた.それに対して本論文では2キーワード以上のクエリに対するヒット数の信頼性に対して検証を行い,その結果を報告する.

    CiNii J-GLOBAL

  • ウェブクローラ向けの効率的な重複URL検出手法

    久保田 展行, 上田 高徳, 山名 早人

    日本データベース学会論文誌   8 ( 1 ) 83 - 88  2009年06月

    CiNii J-GLOBAL

  • 多数のランドマークを用いるためのALTアルゴリズム拡張

    松永 拓, 平手 勇宇, 山名 早人

    情報処理学会研究報告. AL, アルゴリズム研究会報告   2009 ( 9 ) 75 - 80  2009年01月

     概要を見る

    近年,汎用的なグラフ構造に対しての最短経路探索の高速化手法として,ALTアルゴリズムが提案されている.ALTアルゴリズムでは,ランドマークと呼ばれるノードと他のノードの距離を保存しておくことにより,A*探索における距離推定のためのヒューリスティック関数を提供する.しかし,ALTアルゴリズムでは,事前保存領域がランドマーク数増加に対して線形に増加し,多くのランドマークを設定することは,多くの事前保存領域を必要としてしまう.そこで本稿では,ALTアルゴリズムにおけるヒューリスティック関数を2ランドマークを用いて推定するように拡張し,ランドマークの追加による事前保存領域が線形には増加しない手法を提案する.道路ネットワークを用いた実験の結果,提案手法においてランドマークをランダムに選択した場合,ALTアルゴリズムにおいてランドマークをランダムに選択した場合よりも,少ない事前保存領域で,平均して少ない探索空間で最短経路を得るができることを確認した.

    CiNii J-GLOBAL

  • Exploiting idle CPU cores to improve file access performance

    Takanori Ueda, Yu Hirate, Hayato Yamana

    Proceedings of the 3rd International Conference on Ubiquitous Information Management and Communication, ICUIMC'09   CD-ROM   529 - 535  2009年

     概要を見る

    Many-core CPUs require many parallel computation tasks to reach their full potential because CPU cores become idle if they do not have enough computation tasks. How best to utilize a number of cores in many-core CPUs should be examined. In this paper, we propose exploitation of idle cores for improving file access performance. Idle cores are used to extract file access patterns from access logs and the extracted patterns are used to improve file cache efficiency by reordering the LRU (Least Recently Used) list based on the extracted patterns. Data mining techniques are used to extract access patterns to reduce computation overhead. Our method was evaluated by simulation and also implemented on Linux kernel 2.6.26 as a prototype system. In the simulation experiment, our method improved the cache-hit ratio up to 1.09% on DBT-2 (TPC-C) trace logs. Our prototype implementation on Linux improves DBT-2 performance up to 5.24% on a real machine. Copyright 2009 ACM.

    DOI

  • 商用検索エンジンにランキングされたサイトのランク変動パターンの解析

    吉田泰明, 平手勇宇, 山名早人

    DEIM2009    2009年

  • 検索ヒット数のクラスタリングを用いた補正手法の検討

    舟橋 卓也, 平手 勇宇, 山名 早人

    DEIM2009    2009年

  • 核となるアイテムセットによる頻出アイテムセット抽出数削減手法

    松崎勝彦, 平手勇宇, 山名早人

    DEIM2009    2009年

  • 印象語からの概念推定システム

    永井洋平, 黒木さやか, 山名 早人

    信学技報(Webインテリジェンスとインタラクション研究会)    2009年

  • Webページ間の関連性の伝播を用いたWebコミュニティ抽出手法の評価

    飯村卓也, 平手勇宇, 山名早人

    DEIM2009    2009年

  • 複数キーワードクエリに対する検索ヒット数の信頼性検証

    舟橋卓也, 曽根広哲, 山名早人

    信学技報   Vol.109 ( No.153 ) 19 - 24  2009年

  • ブログにおける話題語の出現理由の抽出と話題に関する詳細記事推薦

    中島泰, 黒木さやか, 櫻井宏樹, 山名早人

    第15回Webインテリジェンスとインタラクション研究会    2009年

  • Ngramと離散型共起表現を用いたワードサラダスパム検出手法の提案

    森本 浩介, 片瀬 弘晶, 山名 早人

    情報研報   Vol.2009-DBS-148 ( No.24 ) 1 - 8  2009年

    J-GLOBAL

  • 2-way prediction 法によるGPCRリガンドの結合予測

    百石弘澄, 杉原稔, 諏訪牧子, 加藤毅, 山名早人, 藤渕航

    情報研報   Vol.2009-BIO-18 ( No.2 ) 1 - 8  2009年

    J-GLOBAL

  • ウィキペディア記事閲覧回数の特徴分析

    曽根広哲, 山名早人

    Wikimedia Conference Japan 2009   SIG-SWO-A901-03  2009年

  • QueueLinker: Distributed Producer/Consumer Queue Framework"

    上田 高徳, 片瀬 弘晶, 森本 浩介, 打田 研二, 山名早人

    WebDB Forum2009    2009年

  • ロックフリーGCLOCKページ置換アルゴリズム

    油井誠, 宮崎純, 植村俊亮, 加藤博一, 山名早人

    情報処理学会論文誌: データベース   Vol.2 ( No.4 ) 32 - 48  2009年

    J-GLOBAL

  • QueueLinker: Distributed Producer/Consumer Queue Framework"

    上田 高徳, 片瀬 弘晶, 森本 浩介, 打田 研二, 山名早人

    WebDB Forum2009    2009年

  • Resizable-LSH:可変領域型の近似的類似検索

    山崎邦弘, 中村智浩, 舟橋卓也, 山名早人, 山名早人

    情報処理学会研究報告(CD-ROM)   2009 ( 2 )  2009年

    J-GLOBAL

  • A Scalable Monitoring System for Distributed Environments

    Sayaka Akioka, Junichi Ikeda, Takanori Ueda, Yuki Ohno, Midori Sugaya, Yu Hirate, Jiro Katto, Shigeki Goto, Yoichi Muraoka, Hayato Yamana, Tatsuo Nakajima

    FIRST INTERNATIONAL WORKSHOP ON SOFTWARE TECHNOLOGIES FOR FUTURE DEPENDABLE DISTRIBUTED SYSTEMS, PROCEEDINGS     32 - +  2009年

     概要を見る

    The total amount of information to process or analyze is jumping sharply with the quick spread of computers and networks. Our project, «Highly scalable monitoring architecture for information explosion», develops a monitoring system allows observing systems, merging the system logs, and discovering intelligence to share. More concretely, the project builds the total system to maintain, optimize, and protect autonomically. This paper reports the outcomes of the project after first-half of the development period.The rest of the paper is organized as follows. Section 2 describes the concept and details of the monitoring system on a single node, and Section 3 addresses the aggregation of the collected information in distributed environments. Section 4 and Section 5 introduce applications of the monitoring systems. Section 6 summarizes the project and mentions future plans. © 2009 IEEE.

    DOI

  • Profiling Node Conditions of Distributed System with Sequential Pattern Mining

    Yu Hirate, Hayato Yamana

    FIRST INTERNATIONAL WORKSHOP ON SOFTWARE TECHNOLOGIES FOR FUTURE DEPENDABLE DISTRIBUTED SYSTEMS, PROCEEDINGS     43 - +  2009年

     概要を見る

    Recently, with wide-spread of distributed systems, distributed monitoring systems are needed to mange such systems. However, since monitoring architecture of distributed system faces a huge amount of log data which come from local computing nodes, information aggregation is fundamental scheme for monitoring distributed system. In this paper, we preset a novel approach for extracting computing node-condition profiles by using sequential pattern mining, which is one of data mining techniques. Extracted computing node condition profiles represent node condition patterns which are occurred in many computing nodes frequently. Thus, extracted profiles enable summarized distributed system conditions to be small sized and easy-understandable information.

    DOI

  • The Challenge of Eliminating Storage Bottlenecks in Distributed Systems

    Takanori Ueda, Yu Hirate, Hayato Yamana

    FIRST INTERNATIONAL WORKSHOP ON SOFTWARE TECHNOLOGIES FOR FUTURE DEPENDABLE DISTRIBUTED SYSTEMS, PROCEEDINGS     49 - 53  2009年

     概要を見る

    One of the most difficult problems in distributed systems is load-balancing. Even if we take care of load-balancing, heavily-loaded nodes often occur while there are still lightly-loaded nodes that have idle memory and idle CPU power. Our idea is to exploit this idle memory and idle CPU power to improve the storage performance of heavily-loaded nodes. Idle memory can be used for caching file data and idle CPU power can be used for extracting file access patterns from file access logs. File access patterns are valuable sources for optimizing a cache strategy. Our project goal is to improve the overall performance of distributed systems by improving storage access performance. This paper gives an overview of this project idea and reports the current status of the project. In addition, we show benchmark results from our prototype cache extension system, which is implemented in Linux Kernel 2.6. The DBT-3 (TPC-H) benchmark results show that our system can increase computer speed by a factor of 6.68.

    DOI

  • グラフデータ処理エンジンの実装と評価(ウェブ情報とデータベースに関して(ポスター講演))

    松永 拓, 片瀬 弘晶, 上田 高徳, 久保田 展行, 森本 浩介, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 329 ) 43 - 43  2008年11月

    CiNii

  • 検索エンジンの信頼性(<特集>情報の信頼性評価)

    山名 早人

    人工知能学会誌   23 ( 6 ) 752 - 759  2008年11月

    CiNii J-GLOBAL

  • Improvement in speed and accuracy of multiple sequence alignment program prime

    Shinsuke Yamada, Osamu Gotoh, Hayato Yamana

    IPSJ Transactions on Bioinformatics   1   2 - 12  2008年11月

     概要を見る

    Multiple sequence alignment (MSA) is a useful tool in bioinformatics. Although many MSA algorithms have been developed, there is still room for improvement in accuracy and speed. We have developed an MSA program PRIME, whose crucial feature is the use of a group-to-group sequence alignment algorithm with a piecewise linear gap cost. We have shown that PRIME is one of the most accurate MSA programs currently available. However, PRIME is slower than other leading MSA programs. To improve computational performance, we newly incorporate anchoring and grouping heuristics into PRIME. An anchoring method is to locate well-conserved regions in a given MSA as anchor points to reduce the region of DP matrix to be examined, while a grouping method detects conserved subfamily alignments specified by phylogenetic tree in a given MSA to reduce the number of iterative refinement steps. The results of BAliBASE 3.0 and PREFAB 4 benchmark tests indicated that these heuristics contributed to reduction in the computational time of PRIME by more than 60% while the average alignment accuracy measures decreased by at most 2%. Additionally, we evaluated the effectiveness of iterative refinement algorithm based on maximal expected accuracy (MEA). Our experiments revealed that when many sequences are aligned, the MEA-based algorithm significantly improves alignment accuracy compared with the standard version of PRIME at the expense of a considerable increase in computation time. © 2008 Information Processing Society of Japan.

    DOI CiNii

  • アクセスパターンマイニングによるOSレベルでの動的なI/O最適化(セッション3a:Data Mining and Enterprise DB)

    上田 高徳, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2008 ( 88 ) 73 - 78  2008年09月

     概要を見る

    CPUのManyコア化による並列性能の向上により,ストレージによるパフォーマンスボトルネックが以前にも増して問題となってきている.Manyコア環境では様々なアプリケーションが並列に動作するため,OSレベルでのアプリケーション横断なI/O最適化が必須と考えられる,また,アプリケーション構成が複雑になると,人手によるチューニングも困難になるため,自動的なI/O最適化の必要性が高まると予想される.本論文では,OS内においてアプリケーションのファイルアクセスログからアクセスパターンを抽出し,ディスクキャッシュ置換アルゴリズムの効率改善に利用する手法を提案する.提案手法をLinux 2.6.26へ実装し,データベースベンチマークであるDBT-2(TPC-C)により評価を行ったところ,最大で5.24%のトランザクション性能の改善を確認できた.

    CiNii J-GLOBAL

  • Webページ間の関連性の伝播を用いたWebコミュニティ抽出手法(セッション5a:Webマイニング)

    飯村 卓也, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2008 ( 88 ) 133 - 138  2008年09月

     概要を見る

    ユーザが求める情報を効率よく獲得するために,数多くのWebコミュニティ抽出手法が提案されている.これまでの研究では,関連の薄いWebページをWebコミュニティから排除することを目的として,あるWebページをWebコミュニティに含めるかどうかの条件を厳しくすることにより,適合率を上げることに成功している.しかし,本来Webコミュニティに含まれるべきWebページが含まれなくなることがあるため再現率が低下している.そこで本稿では,Webコミュニティ中のWebページと多くリンクしているWebページを新たなメンバに加えていくことにより,適合率を低下させることなく,再現率を向上させることができるWebコミュニティ抽出手法を提案する.比較実験の結果,提案手法は既存手法と同等の適合率を保ちつつ再現率を向上させることができることが確認できた.

    CiNii J-GLOBAL

  • 商用検索エンジンのヒット数に対する信頼性の検証(セッション5a:Webマイニング)

    舟橋 卓也, 上田 高徳, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2008 ( 88 ) 139 - 144  2008年09月

     概要を見る

    これまでに検索エンジンのヒット数を利用した研究が数多く行われている.こうした研究では、当該クエリに対するヒット数を用いることにより,翻訳支援や自然言語処理支援など様々なアプリケーション構築を目指している.従来,検索エンジンのヒット数は信頼できるという仮定の下で用いられてきた.しかし検索エンジンが返すヒット数の信頼性に対する検証は筆者の知る限り行われていない.もしもヒット数が不正確な場合,ヒット数を利用した研究の信頼性は疑わしいものとなる.そこで本論文では,検索エンジンのヒット数に対してその信頼性の検証を行う.検証実験では,日本で広く用いられている商用検索エンジンであるGoogle,Yahoo! Japan,Live Searchが提供している検索APIを利用した.また実験に利用するクエリとして,日本語Wikipediaからランダムに選択した1,000件の記事タイトルを使用した.検証実験の結果,ヒット数は5%〜50%の確率で,推定を行った理想的なヒット数に対して5%以上大きさが異なることがわかった.

    CiNii J-GLOBAL

  • 全世界のWebサーバの地理的位置・バックリンク数の解析

    平手勇宇, 片瀬弘晶, 山名早人

    日本データベース学会論文誌   Vol.7 ( No.2 ) 1 - 6  2008年09月

    CiNii J-GLOBAL

  • Message from the MAW 2008 co-chairs

    Takahiro Hara, Yanchim Zhang, William K. Cheung, Shengrui Wang, Hayato Yamana, Km Fun Li, Laurence T. Yang

    Proceedings - International Conference on Advanced Information Networking and Applications, AINA     57  2008年09月

    DOI

  • 検索エンジンのランキングにおける日本語版ウィキペディアの影響力

    曽根広哲, 吉田泰明, 平手勇宇, 山名早人

    信学技報(データ工学研究会)   Vol.108 ( No.93 ) 89 - 94  2008年06月

     概要を見る

    検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.

    CiNii J-GLOBAL

  • メニーコア時代におけるOSレベルでのI/O最適化

    上田高徳

    情報研報(jDBワークショップ)   Vol.2008 ( No.56 ) 133 - 133  2008年06月

     概要を見る

    近い将来,1つのチップに十数コアを搭載したメニーコア CPU が登場することは確実である.メニーコア環境下では,多くのアプリケーションが並列に動作するため,HDD が特に不得手とするランダムアクセスの頻度が増え,ストレージがますますボトルネックになると考えられる.そこで我々は,ストレージのボトルネックをソフトウェア的に軽減することを考えている.具体的には,アプリケーションのアクセスパターンを活用するディスクキャッシュ機構を Linux に実装し,実システムで評価することをひとつの目標にしている.ワークショップでは,これまでの研究概要と既存研究について述べると共に,最新の研究成果について述べ,今後の研究指針を示す.Many-core CPU which consists of some dozen cores in one package will definitely appear in the near future. In many-core environments, storage system will become bottlenecks since the random access to storage will increase because many applications will run in parallel. To meet this problem, we try to ease the storage bottlenecks by software method. Specifically, we try to implement a novel disk cache technique which exploits file access patterns of applications. The cache technique will be implemented on Linux Kernel and evaluated in real system. In this talk, we will show our research abstract and related works, and then show the latest results and the milestone of our research.

    CiNii

  • 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案

    中村智浩, 平野孝佳, 平手勇宇, 山名早人

    日本データベース学会論文誌   Vol.7 ( No.2 ) 7 - 12  2008年06月

    CiNii J-GLOBAL

  • 検索エンジンのランキングにおける日本語版ウィキペディアの影響力

    曽根 広哲, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 89 - 94  2008年06月

     概要を見る

    検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.

    CiNii

  • 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案

    中村 智浩, 平野 孝佳, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 59 - 64  2008年06月

     概要を見る

    インターネット上のニュース記事を対象としたクラスタリングは,関連記事や最新話題語などの検出を目的として,アメリカのTDTプロジェクトをはじめ、広く研究されている.ニュース記事において、他記事との関連性を持たない単独記事は頻出するが、従来のクラスタリング手法では単独のクラスタとして検出することが困難である.そこで本稿では,事前に固有名詞情報や地理的情報などを用いて単独記事を検出し,検出した単独記事をニュース記事集合から除いたうえでクラスタリングする手法を提案する.評価では,半年分の日本のニュース2136記事を用いた.最短距離法でクラスタリングする場合,本手法を適用することにより,精度を10.2%改善できると共に計算時間を約1/3に抑えることができた.

    CiNii

  • 全世界のWebサーバの 地理的位置・バックリンク数の解析

    平手 勇宇, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告情報学基礎(FI)   2008 ( 56 ) 25 - 32  2008年06月

     概要を見る

    Web サーバからは,膨大な情報が発信され続けており,我々の調査では 2005 年 10 月時点で世界中に 537 億のページが存在すると予測している.我々はこれまでに e-Society プロジェクトで収集した約 107 憶ページのトップレベルドメイン分布,言語分布について調査を行ってきた.本稿では,これまでの解析の発展として,Web サーバの地理的設置位置分布,Virtual Host 数の地理的分布,および Web サーバ単位でのバックリンク数分布の解析を行った.その結果,約 95.5%の Web サーバが,北米・ヨーロッパ・アジア地域に設置されていること,1ホストあたりの Virtual Host 数が多い国は,中南米・東欧諸国であること,そしてバックリンク数と Web サーバ数は Power-Low に従っていることを確認した.According to our investigation result in Oct. 2005, the number of Web pages all over the world is estimated 53.7 billion. We have investigated TLD distribution and Language Distribution of Web pages based on 10.7 billion Web page dataset. In this paper, as one of our Web statics investigation series, we analyzed three kinds of distribution based on 10.7 billion Web page dataset, distribution of geographical location of Web server, the number of virtual hosts per one Web server, and the number of back links, i.e. the value of in-degree, per one Web server. Our results show (1) about 95.5% of Web servers are located in North America, Europe, and Asia regions, (2) hosts located in Latain America and East Europe have a large number of virtual hosts, and (3) the distribution between the value of in-degree and the number of Web servers follow the power low.

    CiNii J-GLOBAL

  • ウィキペディアを対象とした編集回数に依存しない編集者の信頼度測定手法

    櫻井 宏樹, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 93 ) 115 - 120  2008年06月

     概要を見る

    インターネット上に公開されているフリーの百科事典ウィキペディアは,現在,日本語版だけでも約49万項目の記事が公開されており,その情報量は膨大かつ有用なものとなっている.しかし,誰もが簡単に編集を行えるという特性上,記事内容の信頼性が不確かになっている.これは,記事を書いた人物がどのような人物かわからないため,記事の信頼性を判断しにくくなってしまっているからである.こうした問題に対し,記事の信頼性を判定する手法として,従来,編集履歴を用いる方法が提案されているが,被編集回数の少ない記事や編集者に対する評価が適切でないという問題を持つ.特に,編集回数が少ない日本語版には適さない.これに対し,本稿では編集回数に依存せずに編集者を評価するため,編集部分が最新版まで残る割合を基に編集者を評価する手法を提案する.提案手法の評価実験を行った結果,信頼度が高い編集者は評価が高く,信頼度が低い編集者は評価が低く評価できていること,編集回数に依存せずに評価できていることを確認した.

    CiNii J-GLOBAL

  • 全世界のWebサーバの地理的位置・バックリンク数の解析(Web解析・検索クエリ)

    平手 勇宇, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   2008 ( 56 ) 25 - 32  2008年06月

     概要を見る

    Webサーバからは,膨大な情報が発信され続けており,我々の調査では2005年10月時点で世界中に537億のページが存在すると予測している.我々はこれまでにe-Societyプロジェクトで収集した約107憶ページのトップレベルドメイン分布,言語分布について調査を行ってきた.本稿では,これまでの解析の発展として,Webサーバの地理的設置位置分布,Virtual Host数の地理的分布,およびWebサーバ単位でのバックリンク数分布の解析を行った.その結果,約95.5%のWebサーバが,北米・ヨーロッパ・アジア地域に設置されていること,1ホストあたりのVinual Host数が多い国は,中南米・東欧諸国であること,そしてバックリンク数とWebサーバ数はPower-Lowに従っていることを確認した.

    CiNii

  • メニーコア時代におけるOSレベルでのI/O最適化(jDBワークショップ)

    上田 高徳, 平手 勇宇, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   2008 ( 56 ) 133 - 133  2008年06月

     概要を見る

    近い将来,1つのチップに十数コアを搭載したメニーコア CPU が登場することは確実である.メニーコア環境下では,多くのアプリケーションが並列に動作するため,HDD が特に不得手とするランダムアクセスの頻度が増え,ストレージがますますボトルネックになると考えられる.そこで我々は,ストレージのボトルネックをソフトウェア的に軽減することを考えている.具体的には,アプリケーションのアクセスパターンを活用するディスクキャッシュ機構を Linux に実装し,実システムで評価することをひとつの目標にしている.ワークショップでは,これまでの研究概要と既存研究について述べると共に,最新の研究成果について述べ,今後の研究指針を示す.Many-core CPU which consists of some dozen cores in one package will definitely appear in the near future. In many-core environments, storage system will become bottlenecks since the random access to storage will increase because many applications will run in parallel. To meet this problem, we try to ease the storage bottlenecks by software method. Specifically, we try to implement a novel disk cache technique which exploits file access patterns of applications. The cache technique will be implemented on Linux Kernel and evaluated in real system. In this talk, we will show our research abstract and related works, and then show the latest results and the milestone of our research.

    CiNii J-GLOBAL

  • 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案(テーマ,膨大なデータから学ぶもの)

    中村 智浩, 平野 孝佳, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 93 ) 59 - 64  2008年06月

     概要を見る

    インターネット上のニュース記事を対象としたクラスタリングは,関連記事や最新話題語などの検出を目的として,アメリカのTDTプロジェクトをはじめ、広く研究されている.ニュース記事において、他記事との関連性を持たない単独記事は頻出するが、従来のクラスタリング手法では単独のクラスタとして検出することが困難である.そこで本稿では,事前に固有名詞情報や地理的情報などを用いて単独記事を検出し,検出した単独記事をニュース記事集合から除いたうえでクラスタリングする手法を提案する.評価では,半年分の日本のニュース2136記事を用いた.最短距離法でクラスタリングする場合,本手法を適用することにより,精度を10.2%改善できると共に計算時間を約1/3に抑えることができた.

    CiNii

  • 検索エンジンのランキングにおける日本語版ウィキペディアの影響力(テーマ,膨大なデータから学ぶもの)

    曽根 広哲, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 93 ) 89 - 94  2008年06月

     概要を見る

    検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.

    CiNii

  • 100億規模のWebページ収集とその活用(招待講演,膨大なデータから学ぶもの)

    山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 93 ) 95 - 95  2008年06月

     概要を見る

    インターネット上のWebサーバから発信されるWebページ数は,2005年10月時点で537億ページと推測されている.我々は文部科学省のe-Societyプロジェクトの一環として,2004年1月〜2006年7月末の間に,全世界の5,548万台のWebサーバからユニークWebページ数として14,456,201,906ページを収集した.収集にあたっては,高速収集の実現と相手Webサーバへの負担軽減といった相反する事項の両立が重要である.本プロジェクトでの実験を通じて,Webサーバへのリクエスト間隔の動的な調整,アクセスコントロール等,様々なノウハウを蓄積することができた.また,収集済Webページの約107億ページを対象に,記述言語分布,トップレベルドメイン分布,Webサーバの地理的位置の解析,Webサーバ単位でのバックリンク解析やPageRank計算を進めてきた.本講演では,これまでの経験を踏まえ,大規模なWebページ収集を行うためのクロール技術とWebページの活用について述べる.

    CiNii

  • ウィキペディアを対象とした編集回数に依存しない編集者の信頼度測定手法(一般,膨大なデータから学ぶもの)

    櫻井 宏樹, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   108 ( 93 ) 115 - 120  2008年06月

     概要を見る

    インターネット上に公開されているフリーの百科事典ウィキペディアは,現在,日本語版だけでも約49万項目の記事が公開されており,その情報量は膨大かつ有用なものとなっている.しかし,誰もが簡単に編集を行えるという特性上,記事内容の信頼性が不確かになっている.これは,記事を書いた人物がどのような人物かわからないため,記事の信頼性を判断しにくくなってしまっているからである.こうした問題に対し,記事の信頼性を判定する手法として,従来,編集履歴を用いる方法が提案されているが,被編集回数の少ない記事や編集者に対する評価が適切でないという問題を持つ.特に,編集回数が少ない日本語版には適さない.これに対し,本稿では編集回数に依存せずに編集者を評価するため,編集部分が最新版まで残る割合を基に編集者を評価する手法を提案する.提案手法の評価実験を行った結果,信頼度が高い編集者は評価が高く,信頼度が低い編集者は評価が低く評価できていること,編集回数に依存せずに評価できていることを確認した.

    CiNii

  • 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案(テーマ,膨大なデータから学ぶもの)

    中村 智浩, 平野 孝佳, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 59 - 64  2008年06月

     概要を見る

    インターネット上のニュース記事を対象としたクラスタリングは,関連記事や最新話題語などの検出を目的として,アメリカのTDTプロジェクトをはじめ、広く研究されている.ニュース記事において、他記事との関連性を持たない単独記事は頻出するが、従来のクラスタリング手法では単独のクラスタとして検出することが困難である.そこで本稿では,事前に固有名詞情報や地理的情報などを用いて単独記事を検出し,検出した単独記事をニュース記事集合から除いたうえでクラスタリングする手法を提案する.評価では,半年分の日本のニュース2136記事を用いた.最短距離法でクラスタリングする場合,本手法を適用することにより,精度を10.2%改善できると共に計算時間を約1/3に抑えることができた.

    CiNii

  • 検索エンジンのランキングにおける日本語版ウィキペディアの影響力(テーマ,膨大なデータから学ぶもの)

    曽根 広哲, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 89 - 94  2008年06月

     概要を見る

    検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.

    CiNii

  • 100億規模のWebページ収集とその活用(膨大なデータから学ぶもの)

    山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 95 - 95  2008年06月

    CiNii

  • ウィキペディアを対象とした編集回数に依存しない編集者の信頼度測定手法

    櫻井 宏樹, 吉田 泰明, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   108 ( 94 ) 115 - 120  2008年06月

     概要を見る

    インターネット上に公開されているフリーの百科事典ウィキペディアは,現在,日本語版だけでも約49万項目の記事が公開されており,その情報量は膨大かつ有用なものとなっている.しかし,誰もが簡単に編集を行えるという特性上,記事内容の信頼性が不確かになっている.これは,記事を書いた人物がどのような人物かわからないため,記事の信頼性を判断しにくくなってしまっているからである.こうした問題に対し,記事の信頼性を判定する手法として,従来,編集履歴を用いる方法が提案されているが,被編集回数の少ない記事や編集者に対する評価が適切でないという問題を持つ.特に,編集回数が少ない日本語版には適さない.これに対し,本稿では編集回数に依存せずに編集者を評価するため,編集部分が最新版まで残る割合を基に編集者を評価する手法を提案する.提案手法の評価実験を行った結果,信頼度が高い編集者は評価が高く,信頼度が低い編集者は評価が低く評価できていること,編集回数に依存せずに評価できていることを確認した.

    CiNii

  • 3ZK-10 Webページ間最短経路探索システムの構築(情報爆発時代におけるWeb技術およびWeb情報抽出,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)

    松永 拓, 平手 勇宇, 山名 早人

    全国大会講演論文集   70 ( 5 ) "5 - 193"-"5-194"  2008年03月

    CiNii

  • 5L-1 全世界のWebページのTLD・言語分布解析(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)

    平手 勇宇, 山名 早人

    全国大会講演論文集   70 ( 5 ) "5 - 361"-"5-362"  2008年03月

    CiNii

  • EReM-DiCE: Exploiting Remote Memory for Disk Cache Extension

    Takanori UEDA, Yu HIRATE, Hayato YAMANA

    Proc. of 1st International Workshop on Storage and I/O Virtualization, Performance, Energy, Evaluation and Dependability (SPEED2008)    2008年

  • 分散メタP2Pストレージ「DiMPS」によるコンテンツ配信システムの実現

    岡本雄太, 山名早人

    DEWS2008    2008年

  • 評判情報における評価対象の性質や一部分を表す表現の高精度な抽出手法

    臼渕護, 平手勇宇, 山名早人

    言語処理学会第14回年次大会(NLP2008)    2008年

  • 全世界のWebページのTLD・言語分布解析

    平手勇宇, 山名早人

    第70回情処全大   5L-1 ( 5 )  2008年

    J-GLOBAL

  • 全世界のWebサイトの言語分布と日本語を含むWebサイトのリンク・地理的位置の解析

    童 芳, 平手勇宇, 山名早人

    DEWS2008    2008年

  • 商用検索エンジンの検索結果では取得できないランキング下位部分の収集・解析

    舟橋卓也, 上田高徳, 平手勇宇, 山名早人

    DEWS2008    2008年

  • 検索エンジンを用いた類似文章検索システムEPCI の評価

    田代崇, 上田高徳, 平手勇宇, 山名早人

    DEWS2008    2008年

  • リンク構造解析アルゴリズム高速化のための縮小Webリンク構造の構築

    片瀬弘晶, 松永拓, 上田高徳, 田代崇, 平手勇宇, 山名早人

    DEWS2008    2008年

  • プログラムコードの抽象化を利用した類似ソースコード検索システム

    黒木さやか, 上田高徳, 平手勇宇, 山名早人

    DEWS2008    2008年

  • システムコールレベルのアクセスログによるディスクアクセスパターンマイニングの検討

    上田高徳, 平手 勇宇, 山名 早人

    DEWS2008    2008年

  • Webページ間最短経路探索システムの構築

    松永 拓, 平手勇宇, 山名早人

    第70回情処全大   3ZK-10 ( 5 )  2008年

    J-GLOBAL

  • Webページ間最短経路サブグラフによるオンラインリンクマイニング

    松永 拓, 平手勇宇, 山名 早人

    DEWS2008    2008年

  • Y.Hirate(D3), A.Aiyoshizawa, S.O, Y.Ioku, F.Kido and H.Yamana

    System for Detecting Auction Fraud Communities in Internet Auctions

    Proc. of the 2nd International Conf. on Information Systems, Technology and Management(ICISTM-08)    2008年

  • What's going on in search engine rankings?

    Yasuaki Yoshida, Takanori Ueda, Takashi Tashiro, Yu Hirate, Hayato Yamana

    2008 22ND INTERNATIONAL WORKSHOPS ON ADVANCED INFORMATION NETWORKING AND APPLICATIONS, VOLS 1-3     1199 - 1204  2008年  [査読有り]

     概要を見る

    Many people use search engines every day to retrieve documents from the Web. Although the social influence of search engine rankings has become significant, ranking algorithms are not disclosed. In this paper we have investigated three major search engine rankings by analyzing two kinds of data. One is the weekly ranking snapshots of top 250. Web pages we collected for almost one year by submitting 1,000 pre-selected queries; the other comprises back-linked Web pages gathered by our own Web crawling. As a result, we have confirmed that (1) several top 10 rankings are mutually similar however the following ranked Web pages are almost different, (2) ranking transitions have their own characteristics, and (3) each search engine's ranking has its own correlation with the number of back-linked Web pages.

    DOI

  • 全世界のWebホストの地理的位置・バックリンク数の解析

    平手勇宇, 片瀬弘晶, 山名早人

    情報研報(DBS)   Vol.2008 ( No.56 ) 25 - 32  2008年

  • 全世界のWebサイトのTLD・言語分布・地理的設置位置の特定

    童芳, 平手勇宇, 山名早人

    日本データベース学会論文   Vol.7 ( No.1 ) 31 - 36  2008年

    J-GLOBAL

  • 商用検索エンジンの検索結果では取得できないランキング下位部分の収集・解析

    舟橋卓也, 上田高徳, 平手勇宇, 山名早人

    日本データベース学会論文誌   Vol.7 ( No.1 ) 37 - 42  2008年

    J-GLOBAL

  • 商用検索エンジンのヒット数に対する信頼性の検証

    舟橋卓也, 上田高徳, 平手勇宇, 山名早人

    情処研報(DBS)/iDB2008   Vol.2008 ( No.88 ) 139 - 144  2008年

  • リンク構造解析アルゴリズム高速化のための縮小Webの構築

    片瀬弘晶, 松永拓, 上田高徳, 田代崇, 平手勇宇, 山名早人

    日本データベース学会論文誌, Vol.7   Vol.7 ( No.1 ) 245 - 250  2008年

    J-GLOBAL

  • システムコールレベルのアクセスログを用いたディスクアクセスパターンマイニング

    上田高徳, 平手勇宇, 山名早人

    日本データベース学会論文誌   Vol.7 ( No.1 ) 145 - 150  2008年

    J-GLOBAL

  • アクセスパターンマイニングによるOSレベルでの動的なI/O最適化

    上田高徳, 平手勇宇, 山名早人

    情処研報(DBS)/iDB2008   Vol.2008 ( No.88 ) 73 - 78  2008年

  • Webページ間の関連性の伝播を用いたWebコミュニティ抽出手法

    飯村卓也, 平手勇宇, 山名早人

    情処研報(DBS)/iDB2008   Vol.2008 ( No.88 ) 133 - 138  2008年

  • 100億規模のWebページ収集とその活用

    山名早人

    信学技報(データ工学研究会)   Vol.108 ( No.93 ) 95  2008年

  • Toward the Analysis of over 10 billion Web pages

    Hayato YAMANA

    Proc. of the 4th Korea-Japan Int'l Database Workshop 2008(KJDB 2008)     239 - 255  2008年

  • 大規模Webリンクデータを用いた リンクスパムコミュニティ抽出

    平手勇宇, 山名早人

    楽天研究開発シンポジウム2008    2008年

  • 検索エンジンの信頼性

    山名早人

    人工知能学会誌   Vol.23 ( No.6 ) 752 - 759  2008年

  • 100億規模のWebページ収集・分析への挑戦

    村岡洋一, 山名早人, 松井くにお, 橋本三奈子, 赤羽匡子, 萩原純一

    情報処理   Vol.49 ( No.11 ) 1277 - 1283  2008年

  • 商用検索エンジンのヒット数に対する信頼性の検証

    舟橋卓也, 上田高徳, 平手勇宇, 山名早人

    日本データベース学会論文誌   Vol.7 ( No.3 ) 31 - 36  2008年

    J-GLOBAL

  • グラフデータ処理エンジンの実装と評価

    松永拓, 片瀬弘晶, 上田高徳, 久保田展行, 森本浩介, 平手勇宇, 山名早人

    信学技報   Vol.108 ( No. 329 ) 43 - 43  2008年

  • EReM-DiCE: Exploiting Remote Memory for Disk Cache Extension

    Takanori UEDA, Yu HIRATE, Hayato YAMANA

    Proc. of 1st International Workshop on Storage and I/O Virtualization, Performance, Energy, Evaluation and Dependability (SPEED2008)    2008年

  • Y.Hirate(D3), A.Aiyoshizawa, S.O, Y.Ioku, F.Kido and H.Yamana

    System for Detecting Auction Fraud Communities in Internet Auctions

    Proc. of the 2nd International Conf. on Information Systems, Technology and Management(ICISTM-08)    2008年

  • Toward the Analysis of over 10 billion Web pages

    Hayato YAMANA

    Proc. of the 4th Korea-Japan Int'l Database Workshop 2008(KJDB 2008)     239 - 255  2008年

  • 大規模テキストからの複合語の属性表現の抽出手法

    臼渕護, 平手勇宇, 山名早人

    言語処理学会年次大会発表論文集   14th  2008年

    J-GLOBAL

  • Web structure in 2005

    Yu Hirate, Shin Kato, Hayato Yamana

    ALGORITHMS AND MODELS FOR THE WEB-GRAPH   4936   36 - 46  2008年

     概要を見る

    The estimated number of static web pages in Oct 2005 was over 20.3 billion, which was determined by multiplying the average number of pages per web server based on the results of three previous studies, 200 pages, by the estimated number of web servers on the Internet, 101.4 million. However, based on the analysis of 8.5 billion web pages that we crawled by Oct. 2005, we estimate the total number of web pages to be 53.7 billion. This is because the number of dynamic web pages has increased rapidly in recent years. We also analyzed the web structure using 3 billion of the 8.5 billion web pages that we have crawled. Our results indicate that the size of the "CORE," the central component of the bow tie structure, has increased in recent years, especially in the Chinese and Japanese web.

    DOI

  • Optimistic transactional active replication

    Hiroshi Horii, Hayato Yamana

    Proceedings of the 2nd International Conference on Ubiquitous Information Management and Communication, ICUIMC-2008     94 - 100  2008年

     概要を見る

    Critical database applications require 2-safe replication between at least two sites for disaster-tolerant services. At the same time, they must provide consistent and low-latency results to their clients in normal cases. In this paper, we propose Optimistic Transactional Active Replication (OTAR), which replicates the transaction logs with low latency and provides a consistent view to database applications. The latency of our replication is lower than Passive Replication, and guarantees the serializability of transaction isolation levels that cannot be supported by Active Replication. For our replication, each client sends a transaction request to all replicas and all of the replicas execute the request and optimistically return the result of the transaction to the client. Each replica generates a causality history of the transaction, sent to the client with the result. With the causality histories, the client can make sure that the requested transaction was executed in the same order at all of the replicas and eventually commit it. If the client cannot validate the order, then the client waits for the pessimistic result of the transaction from the replicas. This paper describes the algorithm and its properties. © 2008 ACM.

    DOI

  • マルチプルアラインメントプログラムPRIMEの速度・精度両面からの改良

    山田 真介, 後藤 修, 山名 早人

    情報処理学会研究報告. BIO, バイオ情報学   2007 ( 128 ) 267 - 274  2007年12月

     概要を見る

    マルチプルアラインメント(MSA)の作成はバイオインフォマティクスにおいて重要な役割を果たす。これまでにさまざまなMSAアルゴリズムが考案されてきたが、依然として改良が続けられている。我々はPRIMEというMSAプログラムを開発してきた。PRIMEは精度の良いアラインメントを作成可能であるが、他の高精度なプログラムと比べて計算が遅い。そこで、ヒューリスティックな手法を新たにPRIMEへ導入した。ベンチマークの結果から精度の低下を2%程度に抑え、2倍以上の高速化を実現することができた。また、maximal expected accuracy (MEA)法に基づいたMSAアルゴリズムについても評価を行い、配列数が多い場合に多大な計算時間を要するものの、元のPRIMEより高精度であることが分かった。

    CiNii

  • マルチプルアラインメントプログラムPRIMEの速度・精度両面からの改良

    山田 真介, 後藤 修, 山名 早人

    情報処理学会研究報告. MPS, 数理モデル化と問題解決研究報告   2007 ( 128 ) 267 - 274  2007年12月

     概要を見る

    マルチプルアラインメント(MSA)の作成はバイオインフォマティクスにおいて重要な役割を果たす。これまでにさまざまなMSAアルゴリズムが考案されてきたが、依然として改良が続けられている。我々はPRIMEというMSAプログラムを開発してきた。PRIMEは精度の良いアラインメントを作成可能であるが、他の高精度なプログラムと比べて計算が遅い。そこで、ヒューリスティックな手法を新たにPRIMEへ導入した。ベンチマークの結果から精度の低下を2%程度に抑え、2倍以上の高速化を実現することができた。また、maximal expected accuracy (MEA)法に基づいたMSAアルゴリズムについても評価を行い、配列数が多い場合に多大な計算時間を要するものの、元のPRIMEより高精度であることが分かった。

    CiNii

  • 実写画像への手描き風輪郭線付加による絵画画像自動作成(実写画像とビジョン,議題 : ビジョンとグラフィクスの融合およびCG一般)

    坂本 祐軌, 山名 早人

    情報処理学会研究報告. グラフィクスとCAD研究会報告   2007 ( 84 ) 1 - 6  2007年08月

     概要を見る

    本稿では,実写画像に手描き風の輪郭線を付加して絵画調にするフィルタを提案する.入力画像から輪郭線の軌跡を抽出してそこにラインパターン(鉛筆,ペン,筆,クレヨン等で描いた線)を被せることで,様々な輸郭線の表現を可能にする.これにより,ユーザーの希望する種類の輸郭線を付加した絵画画像の自動生成を可能にすることを目的とする.この目的を実現するためには絵画画像として自然な輪郭線の軌跡を抽出する必要がある.しかし,既存の輪郭線抽出では輪郭線が分断されたり,ひげができるという問題がある.本稿では,こうした問題を解決するため,分断された輪郭線を纏め上げると同時に余分なひげを削減した輪郭線を抽出する手法を提案する.この結果,自然な輸郭線が抽出可能になり,千書き風の輪郭線を表現可能になった.

    CiNii J-GLOBAL

  • リモートメモリを用いたランダムディスクアクセス高速化手法(ARC-9 : システム制御,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))

    上田 高徳, 平手 勇宇, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2007 ( 79 ) 151 - 156  2007年08月

     概要を見る

    コンピュータシステムの性能向上のためには,ハードディスクアクセスの高速化が欠かせない.しかし,ハードウェアやアプリケーションの修正が必要となる高速化手法は導入コストが高い.そこで本論文では,ハードウェアとアプリケーションの修正が不要な,OSレベルで実現できる高速化手法を提案する.具体的には,ネットワークに接続されたリモートマシンの物理メモリをディスクキャッシュに用いることでディスクアクセスの高速化を図る.本論文では提案手法をLinux Kernel 2.6に実装し,DBT-3によるPostgreSQLに対するベンチマークを行ったところ,物理メモリを提供するマシンの台数が2台の時に1.52倍,4台の時に3.10倍,8台の時に6.68倍の高速化効果が得られた.

    CiNii J-GLOBAL

  • 検索エンジンを用いた英文冠詞誤りの検出(夏のデータベースワークショップ2007(データ工学,一般))

    平野 孝佳, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2007 ( 65 ) 139 - 144  2007年07月

     概要を見る

    近年,英語の必要性はますます高くなっており,英作文を書く機会も増えてきている.本稿では,日本人の英作文によく見られる冠詞誤りを,検索エンジンを用いて検出する手法を提案する.検索エンジンを用いる手法は,検索エンジンがインデックス化している膨大なウェブページのテキストデータを利用することができるため,従来のコーパスを用いた手法では検出できなかった誤りを検出することが可能である.検索エンジンを用いた従来手法として,単純なフレーズを用いてフレーズ検索するLapataらの手法があるが,希出なパターンには対応できないという欠点があった.本稿では,冠詞前後の複数の単語について活用形を考慮したり、冠詞に影響を与えないと考えられる単語を除去するといった類似フレーズを用いた拡張を行い,パターンについても判定できるよう改善した.実験の結果,提案手法はLapataらの手法より,一般的な文章で0.04ポイント,技術的な文章で0.19ポイント高い性能(F-measure)で誤りを検出できることを確認した.

    CiNii

  • 商用検索エンジンのランキングに関する定量的評価と特徴解析(夏のデータベースワークショップ2007(データ工学,一般))

    吉田 泰明, 上田 高徳, 田代 崇, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2007 ( 65 ) 441 - 446  2007年07月

     概要を見る

    現在,Web上の情報は膨大であり,欲しい情報をWeb上から探すために検索エンジンが広く用いられている.このように,検索エンジンのランキングが与える社会的影響は大きいにも関わらず,ユーザは検索エンジンのランキング手法を理解せずに利用しているのが現状である.本稿では,各種検索エンジンの特徴を明らかにすべく,週に一回1000のクエリを用い主要な3つの検索エンジンのランキングの比較と特徴の解析を行った.その結果,主要な検索エンジン間ではランキングの上位ほど揃いやすく,ランキングの時間変化の特徴にも違いがあることが分かった.また,ランキングと逆リンク数にも相関があることが分かった.

    CiNii

  • 検索エンジンを用いた英文冠詞誤りの検出(検索エンジン応用,夏のデータベースワークショップ2007(データ工学,一般))

    平野 孝佳, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   107 ( 131 ) 139 - 144  2007年06月

     概要を見る

    近年,英語の必要性はますます高くなっており,英作文を書く機会も増えてきている.本稿では,日本人の英作文によく見られる冠詞誤りを,検索エンジンを用いて検出する手法を提案する.検索エンジンを用いる手法は,検索エンジンがインデックス化している膨大なウェブページのテキストデータを利用することができるため,従来のコーパスを用いた手法では検出できなかった誤りを検出することが可能である.検索エンジンを用いた従来手法として,単純なフレーズを用いてフレーズ検索するLapataらの手法があるが,希出なパターンには対応できないという欠点があった.本稿では,冠詞前後の複数の単語について活用形を考慮したり、冠詞に影響を与えないと考えられる単語を除去するといった類似フレーズを用いた拡張を行い,パターンについても判定できるよう改善した.実験の結果,提案手法はLapataらの手法より,一般的な文章で0.04ポイント,技術的な文章で0.19ポイント高い性能(F-measure)で誤りを検出できることを確認した.

    CiNii J-GLOBAL

  • 商用検索エンジンのランキングに関する定量的評価と特徴解析(ランキング,夏のデータベースワークショップ2007(データ工学,一般))

    吉田 泰明, 上田 高徳, 田代 崇, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   107 ( 131 ) 441 - 446  2007年06月

     概要を見る

    現在,Web上の情報は膨大であり,欲しい情報をWeb上から探すために検索エンジンが広く用いられている.このように,検索エンジンのランキングが与える社会的影響は大きいにも関わらず,ユーザは検索エンジンのランキング手法を理解せずに利用しているのが現状である.本稿では,各種検索エンジンの特徴を明らかにすべく,週に一回1000のクエリを用い主要な3つの検索エンジンのランキングの比較と特徴の解析を行った.その結果,主要な検索エンジン間ではランキングの上位ほど揃いやすく,ランキングの時間変化の特徴にも違いがあることが分かった.また,ランキングと逆リンク数にも相関があることが分かった.

    CiNii J-GLOBAL

  • 手書き数式入力システムMathBox(テーマセッション4(数式),文字・文書の認識・理解)

    糟谷 勇児, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   106 ( 606 ) 1 - 6  2007年03月

     概要を見る

    本論文では手書きにより数式をコンピュータに入力できるシステムMathBoxを提案する。MathBoxではユーザは枠に数式記号を1文字ずつ書いていくことにより数式を入力することができる。枠に英数字を書くと累乗と添え字を書く枠を表示し、分数線を書くと分子分母を書く枠を表示するなど、ユーザの筆記に合わせて次の枠を表示する。これによりMathBoxは従来難しかった数式構造の認識を行わず、ユーザとインタラクティブに数式構造を構成することができる。実験により、2文字までの修正を許せば1つの数式が86.5%の認識率で入力できることが分かった。またMathType^&lt;[○!R]1&gt;と比較して平均33.1%入力時間を削減できることが分かった。

    CiNii J-GLOBAL

  • ユーザクエリによる画像へのキーワード付けを利用した画像検索 : 利用によって賢くなる検索エンジン(一般セッション5(映像処理2),文字・文書の認識・理解)

    井口 茂, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   106 ( 606 ) 61 - 66  2007年03月

     概要を見る

    本論文では,利用度に応じてラベリングが進み,検索精度が向上していく画像検索システムを提案する.一般に画像検索は,キーワードをクエリとする検索と,画像をクエリとする類似画像検索に大別できる.キーワードによる検索では,言語的・意味的に関連した画像が得られ,類似画像検索では,見た目や雰囲気の類似した画像が得られる.また,キーワードによる検索では,事前に画像へラベル付けをする手間がかかり,類似画像検索では,ラベリングの必要がないかわりに,キーワードという効果的な情報を扱えていない.これに対し本論文では,キーワードと画像の両方を用い,意味的に関連のある画像と見た目の類似した画像の両方を検索できるとともに,利用と共にラベリングが進み,検索精度が向上していくシステムを提案する.検証実験の結果,検索回数の増加に伴う,ラベル付与率と平均ラベル数の上昇,および,精度とF値の上昇が確認された.

    CiNii J-GLOBAL

  • 先読みスレッドを用いたDiskアクセスの高速化

    深山辰徳, 杉田秀, 蛭田智則, 山名早人

    情処研報, Hokke2007   Vol.2007 ( No.17 ) 233 - 238  2007年03月

     概要を見る

    磁気記憶装置からのデータ取得にかかる時間と,主記憶からのデータの取得にかかる時間では,4~10倍の差がある.こうした格差を補うための研究として,磁気記憶装置から効率的にデータを取り出す研究が行われている.本論文ではプログラムがアクセスする可能性の高いデータに対して,先読みスレッドで事前にデータの読み込みを行うことによりプログラムの性能向上を目指す.具体的には,マルチコア環境における先読みスレッドを利用したディスクキャッシュの効果的利用を提案する.メインスレッドとは別のスレッドで先読みを行うことにより,事前にディスクキャッシュ上に目的のデータを乗せることができる.本手法によって,gzipが最大で39.2%性能向上することが確認できた.It takes four to ten times more time to get data from hard disk drive than from DRAM. In this paper, we present a speed up mechanisms using a prefetching thread on a multicore system to overcome this relative deterioration of hard disk drive performance. A Prefetching thread loads data from hard disk before main thread requires the particular data. When main thread requires the data, the data will be found on disk cache so it will take no time to get the data. We have confirmed that the prefetching thread reduces the execution time of gzip. The performance of gzip increased up to 39.2%.

    CiNii J-GLOBAL

  • マルチコア・SMTプロセッサ上におけるシェルスクリプト高速化手法

    杉田 秀, 深山 辰徳, 蛭田 智則, 當仲寛哲, 山名 早人

    情報処理学会研究報告計算機アーキテクチャ(ARC)   2007 ( 17 ) 73 - 78  2007年03月

     概要を見る

    本研究では,マルチコア・SMT(Simultaneous Multi-Threading) プロセッサ上でのシェルスクリプト実行の有効性を示すことを目的とする.近年マルチコアプロセッサおよびSMTの技術が注目されている.しかし,並列性を考慮していないプログラムを通常のコンパイラでコンパイルしても,マルチコアプロセッサやマルチスレッドを有効活用することはできない.通常,これらの技術の恩恵を受けるためには,並列化プログラミングが必要であり,自動並列化の技術も数多く研究されている.本稿では,シェルスクリプト自身が持つ並列性に着目し,マルチコアプロセッサ・SMT環境において,シェルスクリプトの高速化を実現する手法,シェルスクリプトの自動並列化プログラムを提案する.本提案手法を用いて,マルチコアプロセッサ・SMTマシン上でシェルスクリプトの実行を行った結果,手法適用前に比べて1.4~1.8倍の速度向上を得ることができた.The purpose of this study is to show the effectiveness of shell script execution on multi-core and/or SMT (Simultaneous Multi-Threading) processors. Recently, multi-core processor and SMT technique have become popular even at home and in business. However, using programs or compilers without consideration of parallelism does not give us the benefits of multi-core and multi-thread. Programmers have to do parallel programming to receive the benefits. Therefore, automatic parallelizing technique has been studied actively. This paper proposes automatic parallelizing scheme for shell script programs on multi-core and/or SMT processors. As a result of the experiment, we have confirmed that the speed-up of automatic parallelized shell script program is 1.4 to 1.8 times in comparison with the original shell script program.

    CiNii J-GLOBAL

  • マルチコア・SMTプロセッサ上におけるシェルスクリプト高速化手法(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))

    杉田 秀, 深山 辰徳, 蛭田 智則, 當仲 寛哲, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2007 ( 17 ) 73 - 78  2007年03月

     概要を見る

    本研究では,マルチコア・SMT(Simultaneous Multi-Threading)プロセッサ上でのシェルスクリプト実行の有効性を示すことを目的とする.近年マルチコアプロセッサおよびSMTの技術が注目されている.しかし,並列性を考慮していないプログラムを通常のコンパイラでコンパイルしても,マルチコアプロセッサやマルチスレッドを有効活用することはできない.通常,これらの技術の恩恵を受けるためには,並列化プログラミングが必要であり,自動並列化の技術も数多く研究されている.本稿では,シェルスクリプト自身が持つ並列性に着目し,マルチコアプロセッサ・SMT環境において,シェルスクリプトの高速化を実現する手法,シェルスクリプトの自動並列化プログラムを提案する,本提案手法を用いて,マルチコアプロセッサ・SMTマシン上でシェルスクリプトの実行を行った結果,手法適用前に比べて1.4〜1.8倍の速度向上を得ることができた.

    CiNii

  • 先読みスレッドを用いたDiskアクセスの高速化(セキュアアーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))

    深山 辰徳, 杉田 秀, 蛭田 智則, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2007 ( 17 ) 233 - 238  2007年03月

     概要を見る

    磁気記憶装置からのデータ取得にかかる時間と,主記憶からのデータの取得にかかる時間では,4〜10倍の差がある.こうした格差を補うための研究として,磁気記憶装置から効率的にデータを取り出す研究が行われている.本論文ではプログラムがアクセスする可能性の高いデータに対して,先読みスレッドで事前にデータの読み込みを行うことによりプログラムの性能向上を目指す.具体的には,マルチコア環境における先読みスレッドを利用したディスクキャッシュの効果的利用を提案する.メインスレッドとは別のスレッドで先読みを行うことにより,事前にディスクキャッシュ上に目的のデータを乗せることができる.本手法によって,gzipが最大で39.2%性能向上することが確認できた.

    CiNii

  • MathBox: Interactive Pen-Based Interface for Inputting Mathematical Expressions

    Yuji Kasuya, Hayato Yamana

    2007 INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES     274 - 277  2007年

     概要を見る

    Inputting mathematical expressions with a mouse and a keyboard is a troublesome task. Thus, a number of mathematical expression recognition systems capable of recognizing handwritten mathematical expressions to input them into computers have been proposed. Even with these systems, however, structure recognition of mathematical expressions is still difficult. This paper presents MathBox, a new pen-based interface for inputting mathematical expressions into computers. MathBox interactively shows "boxes" in which the user can write one symbol. The boxes are shown along with the user's writing. For example, when the user writes 'x,' the boxes for a power and an index of 'x' and for the next symbol are shown. When the user inputs a fraction line, boxes for the numerator, denominator, and the next symbol are shown. MathBox skips recognizing the structures of expressions, which enables users to write mathematical expressions with practical accuracy.

    DOI

  • 二段階の類似画像検索を用いた改変画像検出手法

    馬越健治, 糟谷 勇児, 山名 早人

    DEWS2007     L1-3  2007年

  • 経済時系列データからの投資指標の抽出

    柳井佳孝, 山名早人

    DEWS2007     E9-4  2007年

  • ネットワーク上のマシンをディスクキャッシュに利用した場合の性能評価

    上田高徳, 平手勇宇, 山名早人

    DEWS2007     E7-9  2007年

  • キーワードの出現に基づくブログコミュニティ抽出とオピニオンリーダーの発見

    永拓, 平手勇宇, 山名早人

    DEWS2007     C3-7  2007年

  • Web検索エンジンのランキングバイアスに関する研究動向

    平手勇宇, 吉田泰明, 山名早人

    DEWS2007     C7-7  2007年

  • 手書き数式入力システムMathBox

    糟谷勇児, 山名早人

    信学技報PRMU    2007年

  • ユーザクエリによる画像へのキーワード付けを利用した画像検索 ~ 利用によって賢くなる検索エンジン ~

    井口 茂, 山名早人

    信学技報PRMU    2007年

  • マルチコアプロセッサ上におけるシェルスクリプト高速化手法

    杉田秀, 深山辰徳, 蛭田智則, 當仲寛哲, 山名早人

    情処研報, Hokke2007   Vol.2007 ( No.17 ) 73 - 78  2007年

  • タンパク質立体構造に基づいたアラインメント中の保存領域抽出手法の改良

    山田真介, 山名早人, 野口保

    第7回日本蛋白質科学会年会   7th  2007年

    J-GLOBAL

  • EPCI: Extracting potentially copyright infringement texts from the web

    Takashi Tashiro, Takanori Ueda, Taisuke Hori, Yu Hirate, Hayato Yamana

    16th International World Wide Web Conference, WWW2007   pp.1151-1152   1151 - 1152  2007年

     概要を見る

    In this paper, we propose a new system extracting potentially copyright infringement texts from the Web, called EPCI. EPCI extracts them in the following way: (1) generating a set of queries based on a given copyright reserved seed-text, (2) putting every query to search engine API, (3) gathering the search result Web pages from high ranking until the similarity between the given seed-text and the search result pages becomes less than a given threshold value, and (4) merging all the gathered pages, then re-ranking them in the order of their similarity. Our experimental result using 40 seed-texts shows that EPCI is able to extract 132 potentially copyright infringement Web pages per a given copyright reserved seed-text with 94% precision in average.

    DOI

  • 商用検索エンジンのランキングに関する定量的評価と特徴解析

    吉田泰明, 上田高徳, 田代崇, 平手勇宇, 山名早人

    情報研報(DBS),Vol.2007   No.65   441 - 446  2007年

  • 検索エンジンを用いた英文冠詞誤りの検出

    平野孝佳, 平手勇宇, 山名早人

    情報研報(DBS),Vol.2007     139 - 144  2007年

  • リモートメモリを用いたランダムディスクアクセス高速化手法

    上田高徳, 平手勇宇, 山名 早人

    情処研報(ARC), Vol.2007   No.79   151 - 156  2007年

  • multiple sequence alignment program based on group-to-group sequence alignment algorithm with piecewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh, Hayato Yamana

    ISMB/ECCB2007, Austria Center Vienna    2007年

  • 実写画像への手描き風輪郭線付加による絵画画像自動作成

    坂本祐軌, 山名早人

    情処研報(ARC), Vol.2007   No.84  2007年

  • 商用サーチエンジンのランキング解析サポートシステム

    吉田泰明, 舟橋卓也, 片瀬弘晶, 上田高徳, 平手勇宇, 山名早人

    DBWeb2007    2007年

  • 学内ドメインに存在する隠れたWebページの解析

    平手勇宇, シュティフ ロマン, 魏小比, 山名早人

    平成19年度情報教育研究集会    2007年

  • multiple sequence alignment program based on group-to-group sequence alignment algorithm with piecewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh, Hayato Yamana

    ISMB/ECCB2007, Austria Center Vienna    2007年

  • P2Pファイル共有ネットワークを利用した大規模分散ストレージの実現

    岡本雄太, 蛭田智則, 山名早人

    情報処理学会全国大会講演論文集   69th ( 3 )  2007年

    J-GLOBAL

  • MathBox: Interactive Pen-Based Interface for Inputting Mathematical Expressions

    Yuji Kasuya, Hayato Yamana

    2007 INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES     274 - 277  2007年

     概要を見る

    Inputting mathematical expressions with a mouse and a keyboard is a troublesome task. Thus, a number of mathematical expression recognition systems capable of recognizing handwritten mathematical expressions to input them into computers have been proposed. Even with these systems, however, structure recognition of mathematical expressions is still difficult. This paper presents MathBox, a new pen-based interface for inputting mathematical expressions into computers. MathBox interactively shows "boxes" in which the user can write one symbol. The boxes are shown along with the user's writing. For example, when the user writes 'x,' the boxes for a power and an index of 'x' and for the next symbol are shown. When the user inputs a fraction line, boxes for the numerator, denominator, and the next symbol are shown. MathBox skips recognizing the structures of expressions, which enables users to write mathematical expressions with practical accuracy.

    DOI

  • The development and evaluation of a prototype system for the inference of genetic networks based on genetic programming

    Kouji Tanaka, Hayato Yamana

    WMSCI 2007: 11TH WORLD MULTI-CONFERENCE ON SYSTEMICS, CYBERNETICS AND INFORMATICS, VOL IV, PROCEEDINGS   4   13 - 18  2007年

     概要を見る

    Estimating mutual interactions of genetic networks is mainly to infer the mutual control relationships from multiple genes from the gene expression data. Such correlations are typically expressible in the form of nonlinear simultaneous differential equations. However, most work to date has employed S-systems as an expression of such differential equations, allowing only rough approximations of mass actions, and as such it was difficult to determine the actual correlations between the genes. Instead, we formulate the mutual interactions as actual simultaneous partial differential equations, and automatically determine its structure and coefficients using genetic programming (GP) from a given data series. Parallel implementation of the scheme in a Grid environment using our Jojo Grid programming system for Java has resulted in precise determination of the equations in many cases within some reasonable time.

  • 1P474 Automatic extraction of conserved region from alignment based on protein structure(23. Bioinformatics, genomics and proteomics (I),Poster Session,Abstract,Meeting Program of EABS &BSJ 2006)

    Yamada Shinsuke, Yamada Koutarou, Yamana Hayato, Noguchi Tamotsu

    生物物理   46 ( 2 ) S265  2006年10月

    DOI CiNii

  • 配列プロファイルを利用したドメインリンカー予測(DNA・タンパク質構造)

    滝沢 雅俊, 山名 早人, 野口 保

    情報処理学会研究報告. BIO, バイオ情報学   2006 ( 99 ) 41 - 47  2006年09月

     概要を見る

    ドメインリンカー予測は、タンパク質の立体構造を迅速に決定するうえで重要な役割を果たす。従来のドメインリンカー予測法では、スライディングウィンドウにより予測を行うため、ドメインリンカーに出現するアミノ酸の位置依存性を十分に考慮することができない。本稿では、ドメインリンカーの両端部分に着目し、配列プロファイルから抽出した各アミノ酸の出現位置依存性をもとに、サポートベクターマシーンを用いて予測する方法を提案する。提案手法をDSSPで決定したコイル領域に対して適用させた結果、従来手法に比べ、Sensitivity、Specificity共に約20%向上することが可能であると確認した。

    CiNii J-GLOBAL

  • Building a terabyte-scale web data collection "NW1000G-04" in the NTCIR-5 WEB task

    Masao Takaku, Keizo Oyama, Akiko Aizawa, Haruko Ishikawa, Haruko Ishikawa, Kengo Minamide, Shin Kato, Hayato Yamana, Hayato Yamana, Junya Hayashi

    NII Technical Reports   2006 ( 12 ) 1 - 8  2006年09月

     概要を見る

    We built a terabyte-scale web data collection, NW1000G-04, which was used in the NTCIR-5 WEB task. This report describes the process of building the collection and some statistics of it in detail.

  • Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出,夏のデータベースワークショップDBWS 2006)

    田代 崇, 上田 高徳, 堀 泰祐, 平手 勇宇, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2006 ( 78 ) 27 - 33  2006年07月

     概要を見る

    近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.

    CiNii J-GLOBAL

  • インターネットオークションにおける不正行為者の発見支援(マイニング,夏のデータベースワークショップDBWS 2006)

    平手 勇宇, 相吉澤 明, 翁 松齢, 井奥 雄一, 木戸 冬子, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2006 ( 78 ) 367 - 374  2006年07月

     概要を見る

    近年のインターネットオークションの浸透に伴い,現在,膨大な数のユーザ間でオークション取引が行われている.一方で,不正行為を行うユーザによる被害が問題となっている.本稿では,オークションデータのうち,評価ログを用いることによって,不正行為ユーザの事前発見支援を行う手法を提案する.評価ログとは,オークションの取引後に,出品者と落札者がお互いを評価する行動を記録するログである.提案手法は,被不正評価ユーザを絞り込む手法,被不正評価ユーザを基にして,不正評価を行うユーザコミュニティを抽出する手法で構成される.提案手法を評価した結果,評価ログデータから,不正行為を行うユーザコミュニティを抽出することが可能であることを確認した.

    CiNii J-GLOBAL

  • インターネットオークションにおける不正行為者の発見支援(マイニング)

    平手 勇宇, 相吉澤 明, 翁 松齢, 井奥 雄一, 木戸 冬子, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   106 ( 150 ) 37 - 42  2006年07月

     概要を見る

    インターネットの普及に伴い,インターネットオークションのユーザも膨大なものとなり、利用者間でオークション取引が行われている.一方で,不正行為を行うユーザによる被害が問題となっている.本稿では,オークションデータのうち,評価ログを用いることによって,不正行為ユーザの事前発見支援を行う手法を提案する.評価ログとは,オークションの取引後に,出品者と落札者がお互いを評価する行動を記録するログである.提案手法は,被不正評価ユーザを絞り込む手法,被不正評価ユーザを基にして,不正評価を行うユーザコミュニティを抽出する手法で構成される.提案手法を評価した結果,評価ログデータから,不正行為を行うユーザコミュニティを抽出することが可能であることを確認した.

    CiNii J-GLOBAL

  • Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出)

    田代 崇, 上田 高徳, 堀 泰祐, 平手 勇宇, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   106 ( 149 ) 23 - 28  2006年07月

     概要を見る

    近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.

    CiNii J-GLOBAL

  • 選択注視点における特徴ベクトルの階層化クラスタリング(テーマ関連セッション2)

    斎藤 純, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   2006 ( 25 ) 57 - 62  2006年03月

     概要を見る

    コンテントベース画像検索において,(i)検索の高速化及び(ii)検索における意味性を向上させるためには,画像の分類が必要不可欠となる.本研究では,画像の中から選択注視点を特定したのち,注視点とその周辺情報を特徴ベクトルとし,階層化クラスタリングにより画像を分類する.選択注視点とは,視覚内の,すなわち空間的なはずれ値である.本稿では,選択注視モデルを拡張し,時間的なはずれ値を検出するために,残差情報を用いた階層化クラスタリング手法を提案する.また,本稿では,獲得したカテゴリの重心ベクトルを用いた重み付けによる選択注視点の移動方法を述べる.結果,選択注視手法のはずれ値検出の考え方は,階層的なカテゴリの獲得に応用可能であることがわかった.また,獲得したカテゴリに属する注視点を画像の中から探索することが可能となった.

    CiNii J-GLOBAL

  • 拡張多視点SPSによる3次元形状と反射属性の推定(一般セッション15)

    小林 正典, 井口 茂, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   2006 ( 25 ) 391 - 398  2006年03月

     概要を見る

    実物から自動的に3次元物体のモデルを生成する手法が研究されているが,先行研究では高価な装置が必要であったり,事前に対象物体の反射特性を知っている必要があったり,対象物体の反射特性が1種類であると仮定をするなど,制約が大きい.これに対し,本研究では,多視点SFSをベースとして複数の反射特性が混在していても3次再形状と反射属性の復元を行えるように拡張した手法を提案する.具体的には,入力画像を事前に領域分割・クラスタリングし,各々の領域ごとた3次元形状と反射属性の推定を行う.

    CiNii J-GLOBAL

  • 拡張多視点SFSによる3次元形状と反射属性の推定(一般セッション(5),CVのためのパターン認識・学習理論の新展開)

    小林 正典, 井口 茂, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 674 ) 219 - 226  2006年03月

     概要を見る

    実物から自動的に3次元物体のモデルを生成する手法が研究されているが,先行研究では高価な装置が必要であったり,事前に対象物体の反射特性を知っている必要があったり,対象物体の反射特性が1種類であると仮定をするなど,制約が大きい.これに対し,本研究では,多視点SFSをベースとして複数の反射特性が混在していても3次元形状と反射属性の復元を行えるように拡張した手法を提案する.具体的には,入力画像を事前に領域分割・クラスタリングし,各々の領域ごとに3次元形状と反射属性の推定を行う.

    CiNii J-GLOBAL

  • 選択注視点における特徴ベクトルの階層化クラスタリング(テーマセッション(2),CVのためのパターン認識・学習理論の新展開)

    斎藤 純, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 673 ) 57 - 62  2006年03月

     概要を見る

    コンテントベース画像検索において,(i)検索の高速化及び(ii)検索における意味性を向上させるためには,画像の分類が必要不可欠となる.本研究では,画像の中から選択注視点を特定したのち,注視点とその周辺情報を特徴ベクトルとし,階層化クラスタリングにより画像を分類する.選択注視点とは,視覚内の,すなわち空間的なはずれ値である.本稿では,選択注視モデルを拡張し,時間的なはずれ値を検出するために,残差情報を用いた階層化クラスタリング手法を提案する.また,本稿では,獲得したカテゴリの重心ベクトルを用いた重み付けによる選択注視点の移動方法を述べる.結果,選択注視手法のはずれ値検出の考え方は,階層的なカテゴリの獲得に応用可能であることがわかった.また,獲得したカテゴリに属する注視点を画像の中から探索することが可能となった.

    CiNii J-GLOBAL

  • 配線遅延を考慮したキャッシュメモリ高速化手法

    蛭田智則, 増田渓介, 山名早人

    情処研報(Hokke2006)   Vol.2006 ( No.20 ) 19 - 24  2006年02月

     概要を見る

    マイクロプロセッサとメモリとの速度ギャップの増大により、高速なキャッシュメモリの必要性が増している。しかし、近年のプロセスの微細化に伴い、マイクロプロセッサに搭載されるキャッシュメモリ量は増加し、キャッシュメモリにおける配線遅延が増加している。そのため、今後キャッシュメモリアクセスがシステムのボトルネックになる可能性がある。そこで、本稿では、配線遅延を考慮したキャッシュメモリ高速化手法を提案する。本手法をSimpleScalar 3.0dに実装し、SPEC95 CINT、SPEC2000 CINTを用いて評価した結果、平均1.17倍のIPC向上が得られた。The increase of the gap between processor speed and memory speed makes cache memory more important. However, wire delay in large cache grows that results from the process miniaturization. Therefore, cache memory access will become bottle neck. This paper proposes an optimization technique for cache memory considering wire delay. We implement this technique with SimpleScalar 3.0d and evaluate with SPEC95 CINT and SPEC2000 CINT. In the result, IPC grows at the average of 1.17 times.

    CiNii J-GLOBAL

  • 配線遅延を考慮したキャッシュメモリ高速化手法(メモリシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))

    蛭田 智則, 増田 渓介, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2006 ( 20 ) 19 - 24  2006年02月

     概要を見る

    マイクロプロセッサとメモリとの速度ギャップの増大により、高速なキャッシュメモリの必要性が増している。しかし、近年のプロセスの微細化に伴い、マイクロプロセッサに搭載されるキャッシュメモリ量は増加し、キャッシュメモリにおける配線遅延が増加している。そのため、今後キャッシュメモリアクセスがシステムのボトルネックになる可能性がある。そこで、本稿では、配線遅延を考慮したキャッシュメモリ高速化手法を提案する。本手法をSimpleScalar 3.0dに実装し、SPEC95 CINT、SPEC2000 CINTを用いて評価した結果、平均1.17倍のIPC向上が得られた。

    CiNii

  • 二種類のSVMを用いたオンライン類似数式文字識別(テーマセッション,文字認識・文書理解)

    糟谷 勇児, 山名 早人

    電子情報通信学会技術研究報告. TL, 思考と言語   105 ( 612 ) 55 - 60  2006年02月

     概要を見る

    数式を効率よくコンピュータに入力する方法として、手書きの数式を認識し、コンピュータで利用可能な形式に変換するシステムの開発が望まれている。しかし、数式中の文字や記号の認識は一般の文字と異なりrとγ、wとωのような類似文字が多く存在するため困難である。そこで本稿では2種類のSVM (Support Vector Machine)を使い分け、類似の文字を精度よく識別する手法を提案する。二種類のSVMとは(1)画像を入力として用いるSVMと(2)ペンの位置の時系列情報を入力とするSVMGDTW (SVM Gaussian Dynamic Time Warping)である。本手法によりrとγは86.7%、Wとωは85.6%で判別できることを確認した。また本手法をDTWとテンプレートマッチングからなる認識手法と併用したところ、数字・英字・ギリシア文字・数式記号からなるサンプル(全106文字)に対して91.1%の認識率を得た。

    CiNii J-GLOBAL

  • 選択注視を用いた画像検索システムの提案(一般セッション,文字認識・文書理解)

    斎藤 純, 山名 早人

    電子情報通信学会技術研究報告. TL, 思考と言語   105 ( 612 ) 61 - 66  2006年02月

     概要を見る

    現在の主流なコンテントベース画像検索システムでは,画像の中で重要と考えられる箇所における集中的な情報処理が行われていない.これは,画像の中から集中的処理の必要な箇所を自動決定することが困難であることに起因する.一方,人間や霊長類の脳研究のひとつとして,被検体が視覚情報を与えられたときにどこに注目を向けるかという,選択注視の研究がある.本研究では,画像検索に局所情報を取り入れるために,選択注視モデルによって低次特徴からのみ選択注視点を決定し,その注視点の周辺情報を集積した特徴ベクトルを画像検索に用いる.本稿では,選択注視手法とその画像検索への応用方法,またその有効性について述べる.

    CiNii J-GLOBAL

  • 二種類のSVMを用いたオンライン類似数式文字識別(テーマセッション,文字認識・文書理解)

    糟谷 勇児, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 614 ) 55 - 60  2006年02月

     概要を見る

    数式を効率よくコンピュータに入力する方法として、手書きの数式を認識し、コンピュータで利用可能な形式に変換するシステムの開発が望まれている。しかし、数式中の文字や記号の認識は一般の文字と異なりrとγ、wとωのような類似文字が多く存在するため困難である。そこで本稿では2種類のSVM(Support Vector Machine)を使い分け、類似の文字を精度よく識別する手法を提案する。二種類のSVMとは(1)画像を入力として用いるSVMと(2)ペンの位置の時系列情報を入力とするSVMGDTW(SVM Gaussian Dynamic Time Warping)である。本手法によりrとγは86.7%、wとωは85.6%で判別できることを確認した。また本手法をDTWとテンプレートマッチングからなる認識手法と併用したところ、数字・英字・ギリシア文字・数式記号からなるサンプル(全106文字)に対して91.1%の認識率を得た。

    CiNii

  • 選択注視を用いた画像検索システムの提案(一般セッション,文字認識・文書理解)

    斎藤 純, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 614 ) 61 - 66  2006年02月

     概要を見る

    現在の主流なコンテントベース画像検索システムでは,画像の中で重要と考えられる箇所における集中的な情報処理が行われていない.これは,画像の中から集中的処理の必要な箇所を自動決定することが困難であることに起因する.一方,人間や霊長類の脳研究のひとつとして,被検体が視覚情報を与えられたときにどこに注目を向けるかという,選択注視の研究がある.本研究では,画像検索に局所情報を取り入れるために,選択注視モデルによって低次特徴からのみ選択注視点を決定し,その注視点の周辺情報を集積した特徴ベクトルを画像検索に用いる.本稿では,選択注視手法とその画像検索への応用方法,またその有効性について述べる.

    CiNii

  • Sequential pattern mining with time intervals

    Yu Hirate, Hayato Yamana

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   3918   775 - 779  2006年

     概要を見る

    Sequential pattern mining can be used to extract frequent sequences maintaining their transaction order. As conventional sequential pattern mining methods do not consider transaction occurrence time intervals, it is impossible to predict the time intervals of any two transactions extracted as frequent sequences. Thus, from extracted sequential patterns, although users are able to predict what events will occur, they are not able to predict when the events will occur. Here, we propose a new sequential pattern mining method that considers time intervals. Using Japanese earthquake data, we confirmed that our method is able to extract new types of frequent sequences that are not extracted by conventional sequential pattern mining methods. © Springer-Verlag Berlin Heidelberg 2006.

    DOI

  • Generalized sequential pattern mining with item intervals

    Yu Hirate, Hayato Yamana

    Journal of Computers   1 ( 3 ) 51 - 60  2006年

     概要を見る

    Sequential pattern mining is an important data mining method with broad applications that can extract frequent sequences while maintaining their order. However, it is important to identify item intervals of sequential patterns extracted by sequential pattern mining. For example, a sequence &lt
    A
    B &gt
    with a 1-day interval and a sequence &lt
    A
    B &gt
    with a 1-year interval are completely different
    the former sequence may have some association, while the latter may not. To adopt item intervals, two approaches have been proposed for integration of item intervals with sequential pattern mining
    (1) constraint-based mining and (2) extended sequence-based mining. However, although constraint-based mining approach avoids the extraction of sequences with non-interest time intervals such as too long intervals it has setbacks in that it is difficult to specify optimal constraints related to item interval, and users must re-execute constraint-based algorithms with changing constraint values. On the other hand, extended sequence-based mining approach does not need to specify constraints and re-execute. Since extended sequence-based mining approach cannot adopt any constraints based on time intervals, it may extract meaningless patterns, such as sequences with too long item intervals. This means these two approaches have not only advantages but also disadvantages. To solve this problem, in this paper, we generalize sequential pattern mining with item interval. The generalization includes three points
    (a) a capability to handle two kinds of item interval measurement, item gap and time interval, (b) a capability to handle extended sequences which are defined by inserting pseudo items based on the interval itemization function, and (c) adopting four item interval constraints. Generalized sequential pattern mining is able to substitute all types of conventional sequential pattern mining algorithms with item intervals. Using Japanese earthquake data, we have confirmed that our proposed algorithm is able to extract sequential patterns with item interval, defined in a flexible manner by the interval itemization function. © 2006 ACADEMY PUBLISHER.

    DOI

  • 選択注視を用いた画像検索システムの提案

    斎藤純, 山名早人

    信学技報(PRMU)   Vol.105 ( No.614 ) 61 - 66  2006年

  • SVMを用いたオンライン類似数式文字認識

    糟谷勇児, 山名早人

    信学技報(PRMU)    2006年

  • 迷惑メールを見分ける賢いチップ

    山名早人監修, G.スティックス

    日経サイエンス   2006年5月号  2006年

  • 時間情報を含むシーケンシャルパターンマイニングの一般化

    平手勇宇, 山名早人

    DEWS2006    2006年

  • 検索エンジンを利用した英作文支援システムの構築

    佐藤学, 安藤進, 山名早人

    言語処理学会第12回年次大会   12th   664 - 667  2006年

    J-GLOBAL

  • 距離と属性を考慮したPrefixSpanによる感情表現抽出

    佐藤一誠, 平手勇宇, 山名早人

    DEWS2006    2006年

  • 学習器残差の距離による画像検索システム

    斎藤純, 山名早人

    信学技法(PRMU)   Vol.105 ( No.673 ) 57 - 62  2006年

  • 拡張多視点SFSによる3次元形状と反射属性の推定

    小林正典, 井口茂, 山名早人

    情処研報(CVIM),   Vol.2006 ( No.25 ) 391 - 398  2006年

  • リンク構造解析による不要なWebコミュニティの事前判別

    斉田直幸, 山名早人

    DEWS2006    2006年

  • Fact of the Web:50億ページのウェブの解析

    加藤真, 山名早人

    DEWS2006    2006年

  • タンパク質立体構造に基づく保存領域の自動抽出

    山田晃太郎, 山田真介, 山名早人, 野口保

    第6回日本蛋白質科学会年会   ポスター番号2P-07  2006年

    J-GLOBAL

  • Text Mining using PrefixSpan constrained by Item Interval and Item Attribute

    Issei Sato, Yu Hirate, Hayato Yamana

    ICDEW 2006 - Proceedings of the 22nd International Conference on Data Engineering Workshops    2006年

     概要を見る

    Applying conventional sequential pattern mining methods to text data extracts many uninteresting patterns, which increases the time to interpret the extracted patterns. To solve this problem, we propose a new sequential pattern mining algorithm by adopting the following two constraints. One is to select sequences with regard to item intervals-The number of items between any two adjacent items in a sequence-And the other is to select sequences with regard to item attributes. Using Amazon customer reviews in the book category, we have confirmed that our method is able to extract patterns faster than the conventional method, and is better able to exclude uninteresting patterns while retaining the patterns of interest.

    DOI

  • インターネットオークションにおける不正行為者の発見支援

    平手勇宇, 相吉澤明, 翁松齢, 井奥雄一, 木戸冬子, 山名早人

    情報研報(DBS)   Vol.2006 ( 140(2) ) 367 - 374  2006年

  • Web ページを対象とした著作権違反自動検知システム

    田代崇, 上田高徳, 堀泰祐, 平手勇宇, 山名早人

    情報研報(DBS)   Vol.2006 ( 140(2) ) 27 - 33  2006年

  • 配列プロファイルを利用したドメインリンカー予測

    滝沢雅俊, 山名早人, 野口保

    情処研報(BIO)   Vol.2006 ( 99 ) 41 - 47  2006年

  • 検索エンジンを用いた英文冠詞誤りの検出

    平野孝佳, 平手勇宇, 山名早人

    日本データベース学会Letters Vol.6, No.3     1 - 4  2006年

  • インターネットオークションにおける不正行為者の発見支援

    平手勇宇, 相吉澤 明, 翁 松齢, 井奥雄一, 木戸冬子, 山名早人

    日本データベース学会Letters   Vol.5 ( 2 ) 77 - 80  2006年

    J-GLOBAL

  • Web上の文章を対象とした著作権違反自動検知システム

    田代 崇, 上田高徳, 堀 泰祐, 平手勇宇, 山名早人

    日本データベース学会Letters   Vol.5 ( 2 ) 25 - 28  2006年

    J-GLOBAL

  • 学内ドメインに存在する著作権違反ページ抽出の可能性

    平手勇宇, 山名早人

    平成18年度情報教育研究集会論文集     876 - 879  2006年

  • Web Structure in 2005

    Yu Hirate, Hayato Yamana

    WAW2006, Banff    2006年

  • Automatic extraction of conserved region from alignment based on protein structure

    Shinsuke Yamada, Kouratou Yamada, Hayato Yamana, Tamotsu Noguchi

    EABS & BSJ 2006   Poster No. 1P474  2006年

  • Prediction of domain and disordered regions in proteins by fold recognition and secondary structure prediction

    Masatoshi Takizawa, Naoko Inoue, Kentaro Tomii, Hayato Yamana, Tamotsu Noguchi

    Critical Assessment of Techniques for Protein Structure Prediction Seventh Meeting   Poster No.9  2006年

  • Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh, Hayato Yamana

    BMC Bioinformatics   7  2006年

     概要を見る

    Background: Multiple sequence alignment (MSA) is a useful tool in bioinformatics. Although many MSA algorithms have been developed, there is still room for improvement in accuracy and speed. In the alignment of a family of protein sequences, global MSA algorithms perform better than local ones in many cases, while local ones perform better than global ones when some sequences have long insertions or deletions (indels) relative to others. Many recent leading MSA algorithms have incorporated pairwise alignment information obtained from a mixture of sources into their scoring system to improve accuracy of alignment containing long indels. Results: We propose a novel group-to-group sequence alignment algorithm that uses a piecewise linear gap cost. We developed a program called PRIME, which employs our proposed algorithm to optimize the well-defined sum-of-pairs score. PRIME stands for Profile-based Randomized Iteration MEthod. We evaluated PRIME and some recent MSA programs using BAliBASE version 3.0 and PREFAB version 4.0 benchmarks. The results of benchmark tests showed that PRIME can construct accurate alignments comparable to the most accurate programs currently available, including L-INS-i of MAFFT, ProbCons, and T-Coffee. Conclusion: PRIME enables users to construct accurate alignments without having to employ pairwise alignment information. PRIME is available at http://prime.cbrc.jp/. © 2006 Yamada et al
    licensee BioMed Central Ltd.

    DOI PubMed

  • Text Mining using PrefixSpan constrained by Item Interval and Item Attribute

    Issei Sato, Yu Hirate, Hayato Yamana

    ICDEW 2006 - Proceedings of the 22nd International Conference on Data Engineering Workshops     35 - 38  2006年

     概要を見る

    Applying conventional sequential pattern mining methods to text data extracts many uninteresting patterns, which increases the time to interpret the extracted patterns. To solve this problem, we propose a new sequential pattern mining algorithm by adopting the following two constraints. One is to select sequences with regard to item intervals-The number of items between any two adjacent items in a sequence-And the other is to select sequences with regard to item attributes. Using Amazon customer reviews in the book category, we have confirmed that our method is able to extract patterns faster than the conventional method, and is better able to exclude uninteresting patterns while retaining the patterns of interest.

    DOI

  • Sequential pattern mining with time intervals

    Yu Hirate, Hayato Yamana

    ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING, PROCEEDINGS   3918   775 - 779  2006年

     概要を見る

    Sequential pattern mining can be used to extract frequent sequences maintaining their transaction order. As conventional sequential pattern mining methods do not consider transaction occurrence time intervals, it is impossible to predict the time intervals of any two transactions extracted as frequent sequences. Thus, from extracted sequential patterns, although users are able to predict what events will occur, they are not able to predict when the events will occur. Here, we propose a new sequential pattern mining method that considers time intervals. Using Japanese earthquake data, we confirmed that our method is able to extract new types of frequent sequences that are not extracted by conventional sequential pattern mining methods.

    DOI

  • テクスチャと非テクスチャの区別を用いた輪郭線抽出(スポーツ・運動映像のパターン認識・理解)

    井口 茂, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 414 ) 13 - 18  2005年11月

     概要を見る

    本論文では, 輪郭線抽出の精度を向上させるため, 画像をテクスチャ部分と非テクスチャ部分に分割した上で, 各領域に対して各々適した輪郭線抽出法を適用する手法を提案する.輪郭を求める最も一般的な手法は, 微分フィルタによるエッジ検出である.しかし, テクスチャ部分においては「エッジ=境界線」とはいえず, テクスチャ解析を用いなければ高い精度を得ることができない.従来研究では, 画像全体に対してエッジ検出かテクスチャ解析のいずれかの手法を用いている.これに対し本論文では, まず, 局所フラクタル次元に基づきテクスチャ部分を分離する輪郭線を抽出する.次に非テクスチャ部分に対し, 閾値を自動決定したCannyフィルタを用い輪郭線を得る.実験により, 人工画像と自然画像において提案手法の有効性が示された.

    CiNii J-GLOBAL

  • デジタルペンによるオンライン数式サンプル採取システムと採取文字サンプルに対する認識実験(一般, 顔・ジェスチャーの認識・理解)

    糟谷 勇児, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   105 ( 374 ) 7 - 12  2005年10月

     概要を見る

    本論文では、デジタルペンを用いたオンライン手書き数式サンプル採取システムを提案する。従来のオンライン文字認識では、タブレットにより採取された筆跡が主に用いられてきた。しかし、タブレットのデータは(1)ユーザが不慣れでありデータを多く集めることが困難、(2)画面を見ながら文字を書くため実際の筆跡とは異なるといった点が問題となる。これに対して本論文では、初心者でも簡単に利用できるデジタルペンを用い計74人分の文字及び数式サンプルを採取した。さらに、デジタルペンのデータが従来のタブレットのデータの代替として利用でき、かつ、認識精度を上げることができることを確認した。採取データは、Web上で公開予定である。

    CiNii J-GLOBAL

  • C-013 スレッドレベル投機的実行に関する考察(C分野:アーキテクチャ・ハードウェア)

    斎藤 史子, 山名 早人

    情報科学技術フォーラム一般講演論文集   4 ( 1 ) 205 - 206  2005年08月

    CiNii

  • イベント発生時間間隔を考慮したシーケンシャルパターンマイニング

    平手 勇宇, 小松 俊介, 山名 早人

    情報処理学会研究報告データベースシステム(DBS)   2005 ( 68 ) 321 - 328  2005年07月

     概要を見る

    データマイニング分野におけるシーケンシャルパターンマイニング手法は,イベントの発生順序を保った上での頻出シーケンスを抽出する手法である.しかし,既存のシーケンシャルパターンマイニング手法では,イベント間の時間間隔については考慮していないため,抽出された頻出シーケンス中の任意の2つのイベント間に,どれだけの時間間隔があるのかを区別することができない.本稿では,イベント間の時間間隔を考慮したシーケンシャルパターンマイニング手法を提案する.提案手法の予備評価を地震発生データに対して適用させた結果,既存のシーケンシャルパターンマイニング手法では表現できなかった,新たな頻出シーケンスを抽出することが可能であると確認した.In data mining researches, sequential pattern mining extracts frequent sequences keeping their event occurrence orders. Since conventional sequential pattern mining methods have not consider event occurrence time intervals, it is impossible to understand time intervals of any two events which are included by result sequences. In this paper, we propose a new sequential pattern mining method which considers event occurrence time intervals. As a result of our evaluation in applying the earthquake data. We confirmed our new method can extract new kind of frequent sequences which couldn&#039;t extracted by conventional sequential pattern mining methods.

    CiNii

  • イベント発生時間間隔を考慮したシーケンシャルパターンマイニング(データマイニング, 夏のデータベースワークショップDBWS2005)

    平手 勇宇, 小松 俊介, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2005 ( 68 ) 321 - 328  2005年07月

     概要を見る

    データマイニング分野におけるシーケンシャルパターンマイニング手法は, イベントの発生順序を保った上での頻出シーケンスを抽出する手法である.しかし, 既存のシーケンシャルパターンマイニング手法では, イベント間の時間間隔については考慮していないため, 抽出された頻出シーケンス中の任意の2つのイベント間に, どれだけの時間間隔があるのかを区別することができない.本稿では, イベント間の時間間隔を考慮したシーケンシャルパターンマイニング手法を提案する.提案手法の予備評価を地震発生データに対して適用させた結果, 既存のシーケンシャルパターンマイニング手法では表現できなかった, 新たな頻出シーケンスを抽出することが可能であると確認した.

    CiNii

  • イベント発生時間間隔を考慮したシーケンシャルパターンマイニング(データマイニング, 夏のデータベースワークショップ2005)

    平手 勇宇, 小松 俊介, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   105 ( 172 ) 43 - 48  2005年07月

     概要を見る

    データマイニング分野におけるシーケンシャルパターンマイニング手法は, イベントの発生順序を保った上での頻出シーケンスを抽出する手法である.しかし, 既存のシーケンシャルパターンマイニング手法では, イベント間の時間間隔については考慮していないため, 抽出された頻出シーケンス中の任意の2つのイベント間に, どれだけの時間間隔があるのかを区別することができない.本稿では, イベント間の時間間隔を考慮したシーケンシャルパターンマイニング手法を提案する.提案手法の予備評価を地震発生データに対して適用させた結果, 既存のシーケンシャルパターンマイニング手法では表現できなかった, 新たな頻出シーケンスを抽出することが可能であると確認した.

    CiNii J-GLOBAL

  • 検索エンジンから分析エンジンへ

    山名早人

    人工知能学会誌   Vol.20 ( No.4 ) 471 - 478  2005年07月

    CiNii J-GLOBAL

  • TF^2P-growth: 閾値設定を必要としない頻出アイテムセット抽出アルゴリズム

    平手勇宇, 岩橋永悟, 山名早人

    情報処理学会論文誌   Vol.46 ( No.SIG 8(TOD 26) ) 60 - 71  2005年06月

     概要を見る

    データマイニング分野での頻出アイテムセット抽出手法は,最小サポート値を与えて,最小サポート値以上のサポート値を持つアイテムセットを抽出する手法である.与えられる最小サポート値から抽出される頻出アイテムセット数を予測することは困難であることから,最小サポート値を必要とせ0ず,頻出上位数k を指定して,サポート値降順にk アイテムセットを抽出するTop-k Mining コンセプトが近年提案されている.しかし,Top-k Mining コンセプトも閾値としてk を指定する必要があり,ユーザはマイニングプロセス開始時に,解析に必要なアイテムセット数を予測しなければならない.本稿では,最小サポート値や閾値をユーザが指定する必要のない頻出アイテムセット抽出法としてTF2P-growth アルゴリズムを提案する.TF2P-growth は,短時間でサポート値降順にアイテムセットを抽出しユーザに返すアルゴリズムである.Conventional frequent itemset mining algorithms require some user-specified minimum support, and then mine frequent itemsets with support values that are higher than the minimum support. As it is difficult to predict how many frequent itemsets will be mined with a specified minimum support, the Top-k mining concept has been proposed. The Top-k Mining concept is based on an algorithm for mining frequent itemsets without a minimum support, but with the number of most k frequent itemsets ordered according to their support values. However, the Top-k mining concept still requires a threshold k. Therefore, users must decide the value of k before initiating mining. In this paper, we propose a new mining algorithm, called &quot;TF2P-growth,&quot; which does not require any thresholds. This algorithm mines itemsets with the descending order of their support values without any thresholds and returns frequent itemsets to users sequentially with short response time.

    CiNii

  • 10. 21世紀COEプロジェクト「プロダクティブICTアカデミア」(<特集>21世紀卓越した情報研究拠点プログラムの目指す研究(前編))

    上田 和紀, 大石 進一, 甲藤 二郎, 中島 達夫, 村岡 洋一, 山名 早人

    情報処理   46 ( 4 ) 410 - 416  2005年04月

    CiNii

  • 21世紀COEプロジェクト「プロダクティブICTアカデミア」

    上田 和紀, 大石 進一, 甲藤 二郎, 中島 達夫, 村岡 洋一, 山名 早人

    情報処理   46 ( 4 ) 410 - 416  2005年04月

    CiNii J-GLOBAL

  • スタックフレームのセグメント化によるバッファオーバーフロー対策法(セキュリティ・暗号2, 組込技術とネットワークに関するワークショップ)

    蛭田 智則, 山名 早人

    情報処理学会研究報告. SLDM, [システムLSI設計技術]   2005 ( 27 ) 161 - 165  2005年03月

     概要を見る

    近年、バッファオーバーフローと呼ばれる脆弱性を利用した攻撃が増えつつある。バッファオーバーフローはプログラムの変数用に用意された領域に、領域の大きさを越えたデータが入力されることで発生する。バッファオーバーフローのなかで、最も危険なものがスタックオーバーフローである。スタックオーバーフローが発生すると、リターンアドレスが書き換えられ、悪意あるコードが実行可能になる。本論文ではスタックフレームのセグメント化によるスタックオーバーフローの解決手法を提案する。SimpleScalarツールセットver3.0dに本手法を実装し、SPEC CINT95を用いて性能への影響を検証した。検証の結果、提案手法適用による性能低下率は平均2.53%であった。

    CiNii

  • スタックフレームのセグメント化によるバッファオーバーフロー対策法

    蛭田 智則, 山名 早人

    情報処理学会研究報告. SLDM, [システムLSI設計技術]   119 ( 0 ) 161 - 165  2005年03月

     概要を見る

    近年、バッファオーバーフローと呼ばれる脆弱性を利用した攻撃が増えつつある。バッファオーバーフローはプログラムの変数用に用意された領域に、領域の大きさを越えたデータが入力されることで発生する。バッファオーバーフローのなかで、最も危険なものがスタックオーバーフローである。スタックオーバーフローが発生すると、リターンアドレスが書き換えられ、悪意あるコードが実行可能になる。本論文ではスタックフレームのセグメント化によるスタックオーバーフローの解決手法を提案する。SimpleScalarツールセットver3.0dに本手法を実装し、SPEC CINT95を用いて性能への影響を検証した。検証の結果、提案手法適用による性能低下率は平均2.53%であった。

    CiNii

  • スタックフレームのセグメント化によるバッファオーバーフロー対策法(セキュリティ・暗号 2, 組込技術とネットワークに関するワークショップ)

    蛭田 智則, 山名 早人

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   104 ( 738 ) 71 - 75  2005年03月

     概要を見る

    近年、バッファオーバーフローと呼ばれる脆弱性を利用した攻撃が増えつつある。バッファオーバーフローはプログラムの変数用に用意された領域に、領域の大きさを越えたデータが入力されることで発生する。バッファオーバーフローのなかで、最も危険なものがスタックオーバーフローである。スタックオーバーフローが発生すると、リターンアドレスが書き換えられ、悪意あるコードが実行可能になる。本論文ではスタックフレームのセグメント化によるスタックオーバーフローの解決手法を提案する。SimpleScalarツールセットver3.0dに本手法を実装し、SPEC CINT95を用いて性能への影響を検証した。検証の結果、提案手法適用による性能低下率は平均2.53%であった。

    CiNii J-GLOBAL

  • MPIETE2:MPIプログラム実行時間予測ツールMPIETEの通信予測誤差に関する改良

    岩渕 寿寛, 杉田 秀, 山名早人

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2005 ( 19 ) 175 - 180  2005年03月

     概要を見る

    本稿では,MPIプログラム実行時間予測ツールMPI Execution Time Estimator(MPIETE)の,通信予測手法の改善案を提案する.MPIETEは,プログラムを計算ブロック,通信ブロックに分割し,各ブロックの実行時間情報からプログラム全体の実行時間を予測する.予測の際,各ブロックの実行時間情報の取得を高速に行うことで,実際の実行よりも速く実行時間予測が可能である.しかし,MPIETEは,通信コンテンション等が発生しない,理想的な環境での予測を前提としていたため,通信コンテンションの発生に伴う通信の待ち時間を予測することが不可能であり,通信時間予測誤差に問題がある.本稿では,MPIETEの通信予測手法を変更し,通信の待ち時間を考慮したブロック実行時間情報を導入する.本稿で示す提案手法は,通信の待ち時間による通信性能の低下を予測し,予測対象計算機上で最大の実行性能を示すProcessing Unit(PU)数の特定を可能とするものである.また我々は,本手法をMPIETEに適用し,MPIETE2を開発した.本稿では,MPIETE2を用いて,NAS Parallel Benchmarks(NPB) ver2.4の実行時間の予測を行った結果も示す.NPB2.4のEP,CG,FT,MGのCLASS Bの実行時間を予測したところ,2-128PUの実行で予測誤差は14%以内であり,予測に必要な処理時間は,実際の実行と比較して約1/4の時間であった.特に,すべてのプログラムにおいて,通信性能の低下を予測でき,実際の実行よりも速く,最大の実行性能を示すPU数を特定できた.In this paper, we improve the MPI Execution Time Estimator (MPIETE) to reduce the prediction error of communication time. MPIETE we have proposed is the execution time estimation tool for MPI programs. MPIETE&#039;s scheme divides a MPI program into the computation blocks and the communication blocks, and then predicts the total execution time by summing the execution time of each block. Since estimating the block execution time is fast, MPIETE enables to predict the total execution time faster than executing MPI program actually. However, MPIETE assumes no network contension. This results in some errors to predict the delay-time with network contentions. In this paper, by proposing the new estimation scheme for communication block including the delay-time, we improve the MPIETE. The proposed scheme enables to predict the performance decrement and to find out the number of the Processing Unit (PU) where the target platform marks the best performance. We have evaluated MPIETE2 ,that improves MPIETE with the proposed scheme, using EP, CG, FT, MG from NAS Parallel Benchmmarks 2.4. As the results for 2-128PU, the prediction error ranges are less than 14% and the execution time of the prediction is 1/4 times smaller than the actual execution time. Moreover, MPIETE2 predicts exactly the number of PU where the target platform marks the best performance.

    CiNii J-GLOBAL

  • Tri-Mode分岐予測器の提案

    斎藤 史子, 山名 早人

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)   2005 ( 19 ) 25 - 30  2005年03月

     概要を見る

    命令間の制御依存によってパイプライン処理を滞らせないために,近年のプロセッサでは分岐予測が採用されている.分岐予測は,未解決の分岐命令を超えた実行(投機的実行)を可能とする.一方,近年の命令パイプライン長の深化により,分岐ミスペナルティが増大している.そのため,分岐予測ミス率の低減はプロセッサの性能向上において不可避の課題となっている.現在までさまざまな分岐予測器が提案されてきた.なかでも,複数の予測表で構成されたハイブリッド分岐予測器は高精度な予測器として知られている.代表的なハイブリッド予測器には,分岐命令の偏向に応じて予測表を使い分けるBi-Mode分岐予測器がある.Bi-Mode分岐予測器では,Choice PHTが分岐命令の偏向を判断し,偏向に応じて採用するDirection PHT(Taken/NotTaken PHT)を決定する.本稿では,Choice PHTがWeakly分岐(Weakly Taken/NotTaken)と判断した場合に,分岐命令に偏向がないことに着目した.そこで,Weakly分岐を予測するための予測表(Weakly PHT)を追加し,Direction PHTではChoice PHTがStrongly分岐(Strongly Taken/NotTaken)と判断する分岐のみを扱うことを提案する.本稿では,Weakly PHTを追加したBi-Mode予測器をTri-Mode分岐予測器と呼ぶ.SPECint95(ref)ベンチマークの実験において,12KB容量の分岐予測器では,BTB hit/miss参照手法を適用したTri-Mode予測器が,従来のBi-Mode予測器と比較して平均2.78%の予測ミス削減率を示した.The branch prediction is installed on the recent processor to avoid stalling pipeline. Branch prediction is a kind of speculative execution for control dependence. In the recent year, the deeper pipeline gets, the higher branch miss prediction penalty reaches. Thus, branch miss prediction rate must lower to rise processor performance.Recently, many various branch predictors have been proposed. Hybrid branch predictors composed of multiple pattern history tables (PHT) show the highest accuracy among them. The Bi-Mode branch predictor is the most famous of the hybrid branch predictors. On the Bi-Mode predictor, the Choice PHT judges the branch bias and selects the Direction PHT(Taken or NotTaken PHT). This paper focuses on the Weakly Branches which the Choice PHT judges Weakly Taken or NotTaken don&#039;t have the branch bias. In order to avoid the Weakly branch influence on the Direction PHTs, we propose &quot;the Tri-Mode brach predictor&quot; added the Weakly PHT predicting the Weakly branches. On the 12KB Tri-Mode predictor, the branch miss reduction rate from the Bi-Mode predictor shows average 2.78% in the SPECint95(ref inputs) benchmark simulation.

    CiNii J-GLOBAL

  • Tri-Mode分岐予測器の提案(プロセッサ技術(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))

    斎藤 史子, 山名 早人

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   2005 ( 19 ) 25 - 30  2005年03月

     概要を見る

    命令間の制御依存によってパイプライン処理を滞らせないために, 近年のプロセッサでは分岐予測が採用されている. 分岐予測は, 未解決の分岐命令を超えた実行(投機的実行)を可能とする. 一方, 近年の命令パイプライン長の深化により, 分岐ミスペナルティが増大している. そのため, 分岐予測ミス率の低減はプロセッサの性能向上において不可避の課題となっている. 現在までさまざまな分岐予測器が提案されてきた. なかでも, 複数の予測表で構成されたハイブリッド分岐予測器は高精度な予測器として知られている. 代表的なハイブリッド予測器には, 分岐命令の偏向に応じて予測表を使い分けるBi-Mode分岐予測器がある. Bi-Mode分岐予測器では, Choice PHTが分岐命令の偏向を判断し, 偏向に応じて採用するDirection PHT(Taken/NotTaken PHT)を決定する. 本稿では, Choice PHTがWeakly分岐(Weakly Taken/NotTaken)と判断した場合に, 分岐命令に偏向がないことに着目した. そこで, Weakly分岐を予測するための予測表(Weakly PHT)を追加し, Direction PHTではChoice PHTがStrongly分岐(Strongly Taken/NotTaken)と判断する分岐のみを扱うことを提案する. 本稿...

    CiNii

  • MPIETE2 : MPIプログラム実行時間予測ツールMPIETEの通信予測誤差に関する改良(通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))

    岩渕 寿寛, 杉田 秀, 山名 早人

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   2005 ( 19 ) 175 - 180  2005年03月

     概要を見る

    本稿では, MPIプログラム実行時間予測ツールMPI Execution Time Estimator(MPIETE)の, 通信予測手法の改善案を提案する. MPIETEは, プログラムを計算ブロック, 通信ブロックに分割し, 各ブロックの実行時間情報からプログラム全体の実行時間を予測する. 予測の際, 各ブロックの実行時間情報の取得を高速に行うことで, 実際の実行よりも速く実行時間予測が可能である. しかし, MPIETEは, 通信コンテンション等が発生しない, 理想的な環境での予測を前提としていたため, 通信コンテンションの発生に伴う通信の待ち時間を予測することが不可能であり, 通信時間予測誤差に問題がある. 本稿では, MPIETEの通信予測手法を変更し, 通信の待ち時間を考慮したブロック実行時間情報を導入する. 本稿で示す提案手法は, 通信の待ち時間による通信性能の低下を予測し, 予測対象計算機上で最大の実行性能を示すProcessing Unit(PU)数の特定を可能とするものである. また我々は, 本手法をMPIETEに適用し, MPIETE2を開発した. 本稿では, MPIETE2を用いて, NAS Parallel Benchmarks(NPB)ver2.4の実行時間の予測を行った結果も示す. NPB2.4のEP, CG, FT, MGのCLASS Bの実行時...

    CiNii

  • Predictive Coding の誤差情報による選択注視

    斎藤 純, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   148   235 - 242  2005年03月

    CiNii

  • Predictive Codingの誤差情報による選択注視(一般セッション(4))

    斎藤 純, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   2005 ( 18 ) 235 - 242  2005年03月

     概要を見る

    本研究では、学習後のPredictive Codingにおける誤差を利用した、教師なし選択注視方法を提案する。RaoとBallardによる脳視覚経路模倣システム・Predictive Codingでは、部分画像をある基底の線形結合で表現するために、内部予測誤差を用いて基底を学習する。本手法では、学習後のシステムにおいて内部予測誤差が大きい部分に、選択注視の情報が含まれていると考え、学習サンプルにはない特徴を持つ部分画像を取り出す。本手法を実装したシステムに、似通った種の自然画像を与え学習をさせ、認識においては別の種の画像を与える。その際の動作を検証し、本手法の実用性について考察する。

    CiNii J-GLOBAL

  • ハイパースレッディング環境における投機的スレッド間の同期手法の提案(コンパイラ及びツール, SHINING 2005「アーキテクチャとコンパイラの協調および一般」)

    本田 大, 斎藤 史子, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2005 ( 7 ) 33 - 38  2005年01月

     概要を見る

    近年、CPU処理速度と主記憶からのデータ転送速度との間の格差が顕著になってきているため、キャッシュメモリの重要性が高まってきている。特に、非線形なアクセスパターンを示すポインタ遷移プログラムのキャッシュミスが問題視されている。この問題に対し、余剰なCPU資源を利用して、単数あるいは複数のHelperスレッドを実行させ、キャッシュミスレイテンシを隠蔽するPre-Executionが提案されている。本論文では、Pre-Executionを前提とした、Helperスレッドとメインスレッドとの間の効率的な同期手法を提案する。さらに、従来方式よりprefetchする領域を拡大し、2次キャッシュの効果を高める手法も検討する。Intel Xeonプロセッサでの実機上で、SPEC2000 181.mcf、300.twolf、Oldenベンチマークのhealthにおいて、スレッド間の同期をとる手法と非同期による手法で性能評価を行った。結果、平均29.67%の2次キャッシュミスを削減し、181.mcfで3.26%、healthで1.36%の処理性能高速化を達成できた。

    CiNii J-GLOBAL

  • 弱偏向状態に着目した分岐予測手法(分岐予測アーキテクチャ及びスケジューリング, SHINING 2005「アーキテクチャとコンパイラの協調および一般」)

    仲沢 由香里, 斎藤 史子, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2005 ( 7 ) 51 - 56  2005年01月

     概要を見る

    近年, パイプライン段数の深化, 命令フェッチ幅・発行幅の増加に伴い, 高精度な分岐予測機構が求められている.分岐予測は, 分岐の成立・不成立で遷移する2bit飽和カウンタ(予測カウンタ)によって予測を行う.予測カウンタの各状態(Strongly Taken, Weakly Taken, Weakly Not-taken, Strongly Not-taken)における予測精度を解析した結果, gshare予測器のWeakly状態における予測精度が特に低いことがわかった.本研究では, gshare予測器の予測カウンタ状態を参照した予測器選択手法を提案する.SPECint95(train入力)を対象にシミュレーションした結果, Combining予測器と比較して, 12KBのハードウェア容量で平均0.22%, 24KBで平均0.3%予測ミス率が低減した.

    CiNii J-GLOBAL

  • PlusDBG: Web community extraction scheme improving both precision and pseudo-recall

    N Saida, A Umezawa, H Yamana

    WEB TECHNOLOGIES RESEARCH AND DEVELOPMENT - APWEB 2005   3399   938 - 943  2005年

     概要を見る

    This paper proposes PlusDBG to improve both precision and pseudo-recall by extending the conventional Web community extraction scheme. Precision is defined as the percentage of relevant Web pages extracted as members of Web communities and pseudo-recall is defined as the sum of the number of relevant Web pages extracted as members of Web communities. The proposed scheme adopts the new distance parameter defined by the relevance between a Web page and a Web community, and extracts the Web community with higher precision and pseudo-recall. Moreover, we have implemented and evaluated the proposed scheme. Our results confirm that the proposed scheme is able to extract about 3.2-fold larger numbers of members of Web communities than the conventional scheme, while maintaining equivalent precision.

  • Googleを超える利口な検索エンジン

    山名早人監修, J.モスタファ

    日経サイエンス   日経サイエンス2005年5月号  2005年

  • 迷惑メールを撃退する

    山名早人監修, J.グッドマン, D.ベッカーマン, R.ラウンスウェイト

    日経サイエンス   日経サイエンス2005年7月号  2005年

  • イベント発生間隔を考慮したシーケンシャルパターンマイニング

    平手勇宇, 小松俊介, 山名早人

    情報研報(DBS)   Vol.2005 ( No.68 ) 321 - 328  2005年

  • 特集 検索エンジン2005-Webの道しるべ- 1.検索エンジンの概要

    山名早人, 村田剛志

    情報処理   Vol.46 ( No.9 ) 981 - 987  2005年

    CiNii J-GLOBAL

  • 三次元情報を利用した保存領域の自動決定

    山田晃太郎, 山田真介, 山名早人, 野口保

    産総研 生命情報科学人材養成コース 最終シンポジウム、ポスター番号040    2005年

  • 区分的線形ギャップコストを用いたマルチプルアラインメントアルゴリズムの開発

    山田真介, 山名早人, 後藤修

    産総研 生命情報科学人材養成コース 最終シンポジウム、ポスター番号002    2005年

  • スレッドレベル投機的実行に関する考察

    斎藤史子, 山名早人

    FIT2005,C-1   FIT 2005  2005年

    J-GLOBAL

  • FORTE1を利用したドメイン予測法の開発

    滝沢雅俊, 山名早人, 野口保

    産総研 生命情報科学人材養成コース 最終シンポジウム、ポスター番号038    2005年

  • デジタルペンを用いた数式サンプル収集システムの紹介と採取サンプルの解析

    糟谷勇児, 山名早人

    信学技報(PRMU)   Vol.105 ( No.374 ) 7 - 12  2005年

  • PRIME - an implementation of a doubly nested randomized iterative refinement strategy with the picewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh

    CBRC2005, Poster No.2    2005年

  • PRIME - an implementation of a doubly nested randomized iterative refinement strategy with the picewise linear gap cost

    Shinsuke Yamada, Osamu Gotoh

    CBRC2005, Poster No.2    2005年

  • テクスチャと非テクスチャの区別を用いた輪郭線抽出

    井口茂, 山名早人

    信学技報(PMRU)   Vol.105 ( No.414 ) 13 - 18  2005年

  • P2Pファイル共有ネットワーク上で動作するメタファイルシステム

    岡本雄太, 山名早人

    日本ソフトウェア科学会インターネットテクノロジワークショップ2005(WIT2005)    2005年

  • スパイウェア

    山名早人監訳, 斎藤純, 平手勇, 糟谷勇児, 柳井佳孝, 蛭田智則, 杉田秀, 井口茂訳

    CACM日本語版   Vol.6, No.1  2005年

  • Multiple sequence alignment

    Osamu Gotoh, Shinsuke Yamada, Tetsushi Yada

    handbook of computational molecular biology    2005年

  • Overview of the NTCIR-5 WEB Navigational Retrieval Subtask 2 (Navi-2)

    Keizo Oyama, Masao Takaku, Haruko Ishikawa, Akiko Aizawa, Hayato Yamana

    Proc. of NTCIR-5 Workshop    2005年

  • Overview of the NTCIR-5 WEB Navigational Retrieval Subtask 2 (Navi-2)

    Keizo Oyama, Masao Takaku, Haruko Ishikawa, Akiko Aizawa, Hayato Yamana

    Proc. of NTCIR-5 Workshop    2005年

  • リカレントネットを用いたオンライン文字認識システム

    糟谷勇児, 山名早人

    情報処理学会全国大会講演論文集   67th ( 2 )  2005年

    J-GLOBAL

  • HMMでの動作認識における類似動作からの特徴部位抽出

    井口茂, 山名早人

    情報処理学会全国大会講演論文集   67th ( 2 )  2005年

    J-GLOBAL

  • MPIプログラムの簡易実行による実行時間予測手法における通信予測の効率化

    杉田秀, 岩淵寿寛, 山名早人

    情報処理学会全国大会講演論文集   67th ( 1 )  2005年

    J-GLOBAL

  • 相同性検索手法の組み合わせによる検索精度向上

    滝沢雅俊, 山田真介, 山名早人

    情報処理学会全国大会講演論文集   67th ( 3 )  2005年

    J-GLOBAL

  • PlusDBG: Web community extraction scheme improving both precision and pseudo-recall

    N Saida, A Umezawa, H Yamana

    WEB TECHNOLOGIES RESEARCH AND DEVELOPMENT - APWEB 2005   3399   938 - 943  2005年

     概要を見る

    This paper proposes PlusDBG to improve both precision and pseudo-recall by extending the conventional Web community extraction scheme. Precision is defined as the percentage of relevant Web pages extracted as members of Web communities and pseudo-recall is defined as the sum of the number of relevant Web pages extracted as members of Web communities. The proposed scheme adopts the new distance parameter defined by the relevance between a Web page and a Web community, and extracts the Web community with higher precision and pseudo-recall. Moreover, we have implemented and evaluated the proposed scheme. Our results confirm that the proposed scheme is able to extract about 3.2-fold larger numbers of members of Web communities than the conventional scheme, while maintaining equivalent precision.

    DOI

  • 3P266 完全グラフを利用したタンパク質のrigid domainの同定とSCOPへの応用(生命情報科学 A) 構造ゲノミクス)

    益子 理絵, 輪湖 博, 山名 早人

    生物物理   44 ( 1 ) S256  2004年11月

    DOI CiNii

  • F-033 共有メモリ型並列計算機上での強化学習の並列学習法(F.人工知能)

    森 紘一郎, 山名 早人

    情報科学技術フォーラム一般講演論文集   3 ( 2 ) 291 - 292  2004年08月

    CiNii J-GLOBAL

  • ハイパースレッディング環境における投機的スレッドを用いたキャッシュ効率化(ARC-3 : プロセッサアーキテクチャIII)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)

    本田 大, 斎藤 史子, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2004 ( 80 ) 43 - 48  2004年07月

     概要を見る

    近年、CPU処理速度と主記憶からのデータ転送速度との間の格差が顕著になってきているため、キャッシュメモリの重要性が高まってきている。しかし、特に、非線形なアクセスパターンを示すポインタ遷移プログラムでは、キャッシュミスが頻発する。この問題に対し、余剰なCPU資源を利用して、単数あるいは複数のHelperスレッドを実行させ、キャッシュミスレイテンシを隠蔽するPre-Executionが提案されている。本論文では、Pre-Executionにおける、Helperスレッドとメインスレッドとの間の効率的な同期手法を提案する。さらに、従来方式よりprefetchする領域を拡大し、2次キャッシュの効果を高める手法を検討する。Intel Xeonプロセッサでの実機による性能評価の結果、SPEC2000 181.mcfにおいて、平均36.4%の2次キャッシュミスを削減し、3.26%の処理性能高速化を達成できた。

    CiNii J-GLOBAL

  • 検索エンジンを使った翻訳サポートシステムの構築(応用・事例1)(夏のデータベースワークショップDBWS2004)

    大鹿 広憲, 佐藤 学, 安藤 進, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2004 ( 72 ) 585 - 591  2004年07月

     概要を見る

    本稿では、英作文を支援するためのサポートシステムの構築について述べる。ある文章を英作文したとき、作成した文章の中で文型的にどんな前置詞を使ったらいいのか、あるいはどの名詞にしたらいいかと迷うことがある。このような時、その文型が実際使われているかどうかをフレーズ指定として検索エンジンで検索すると、その文型の汎用性を調べることができる。以上の性質を利用し、本稿では、安藤進著の「翻訳に役立つGoogle活用テクニック」(丸善)で紹介されている手法を元に検索エンジンを利用した翻訳及び英作文の作業についてのサポートシステムを構築した。作成した英文の汎用性を調べるための様々な検索テクニックをシステム側で自動的に構築することによって、従来のWeb和英辞典よりも便利なWebにおける英作文支援のサービスを提供することに成功した。

    CiNii

  • 検索エンジンを使った翻訳サポートシステムの構築(セッション8C : 応用・事例1)(夏のデータベースワークショップ : DBWS2004)

    大鹿 広憲, 佐藤 学, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   104 ( 177 ) 237 - 242  2004年07月

     概要を見る

    本稿では、英作文を支援するためのサポートシステムの構築について述べる。ある文章を英作文したとき、作成した文章の中で文型的にどんな前置詞を使ったらいいのか、あるいはどの名詞にしたらいいかと迷うことがある。このような時、その文型が実際使われているかどうかをフレーズ指定として検索エンジンで検索すると、その文型の汎用性を調べることができる。以上の性質を利用し、本稿では、安藤進著の「翻訳に役立つGoogle活用テクニック」(丸善)で紹介されている手法を元に検索エンジンを利用した翻訳及び英作文の作業についてのサポートシステムを構築した。作成した英文の汎用性を調べるための様々な検索テクニックをシステム側で自動的に構築することによって、従来のWeb和英辞典よりも便利なWebにおける英作文支援のサービスを提供することに成功した。

    CiNii J-GLOBAL

  • Webデータの新しい利用法の開拓を目指して

    山名早人

    情報研報(DBS)   Vol.2004 ( No.45 ) 107 - 110  2004年05月

     概要を見る

    インターネット上のWWWサーバから発信される情報量は膨大であり、2004年4月時点で、テキストデータだけでも92.5億ページと推測される。また、2002年?2003年の増加傾向をみると、Webページは今後も1年間におよそ10億ページずつ増加を続けると予想される。このような膨大なWebページには、人間が一生かかっても学ぶことのできない情報、知識、ノウハウが凝縮されていると言っても過言ではない。本稿では、このような膨大なWebデータをどのように収集し更新すべきか、そして、このような膨大なWebデータをどのように有効活用すべきかについて、いくつかの研究事例を紹介すると共に、新しい利用法について考える。The amount of the information on the Web is huge and the number of Web page is estimated about 9.25 billion in April 2004. Moreover, one billion Web pages will be added to the Web repository every year, which is estimated by calculating its average increase in these two years. It is not too much to say that the huge Web repository has all kinds of information, knowledge, and know-how that can not be learned by a human even if he spent all the life time to learn them. In this paper, we introduce the major research projects that concern how to crawl the huge Web pages, how to keep them up-to-date, and how to make full use of them.

    CiNii

  • Webデータの新しい利用法の開拓を目指して

    山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   2004 ( 45 ) 107 - 110  2004年05月

     概要を見る

    インターネット上のWWWサーバから発信される情報量は膨大であり、2004年4月時点で、テキストデータだけでも92.5億ページと推測される。また、2002年〜2003年の増加傾向をみると、Webページは今後も1年間におよそ10億ページずつ増加を続けると予想される。このような膨大なWebページには、人間が一生かかっても学ぶことのできない情報、知識、ノウハウが凝縮されていると言っても過言ではない。本稿では、このような膨大なWebデータをどのように収集し更新すべきか、そして、このような膨大なWebデータをどのように有効活用すべきかについて、いくつかの研究事例を紹介すると共に、新しい利用法について考える。

    CiNii J-GLOBAL

  • スレッドレベル投機的実行による依存距離不定運搬依存を持つループの並列化(<特集>実時間処理,組込システム及び一般)

    石川 隼輔, 山名 早人

    情報処理学会研究報告. SLDM, [システムLSI設計技術]   2004 ( 33 ) 63 - 68  2004年03月

     概要を見る

    従来の並列化手法では、イテレーションをまたぐデータ依存(ループ運搬依存)が静的に解析できない場合、データ依存が存在すると仮定し解析を進めるため並列化できない。しかし,このようなループに対してスレツドレベル投機的実行を適用することにより、プログラムを高速に実行することが可能となる。本稿では、依存距離不定運搬依存を含むループに対し、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバヘッドをパラメータとして取り入れ、投機的実行の効果が期待できる部分のみに選択的に投機的実行を適用する方式を提案した。実際にSPECcpu95ベンチマークの129.compressに適用した結果、IBM pSeries690上において0.7-1.3倍の速度向上を得られることを確認した。

    CiNii

  • 強化学習並列化による学習の高速化(一般 : マルチエージェントと学習)

    森 紘一郎, 山名 早人

    情報処理学会研究報告. ICS, [知能と複雑系]   2004 ( 29 ) 89 - 94  2004年03月

     概要を見る

    強化学習は知識がない状態から試行錯誤によって学習を行う.そのため,学習が遅いという欠点があり,いかに学習を高速に行うかが大きな問題点となっている.このような問題に対して,従来,価値関数を分割して各プロセッサに割り当て,並列に更新する手法が提案されている.しかし,強化学習の性質上,分割された価値関数間で頻繁に経験を交換する必要があり,従来の研究ではプロセッサ間通信のオーバーヘッドが大きいことが問題であった.本論文では,共有する1つの価値関数を複数のエージェントが非同期並列的に更新するオーバーヘッドの少ない手法を提案する.共有メモリ型並列計算機IBM pSeries 690上で127×127の迷路問題を評価タスクにして実行したところ24プロセッサで22.2倍の速度向上を達成できた.

    CiNii

  • スレッドレベル投機的実行による依存距離不定運搬依存を持つループの並列化(<特集>実時間処理,組込システム及び一般)

    石川 隼輔, 山名 早人

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   103 ( 736 ) 19 - 24  2004年03月

     概要を見る

    従来の並列化手法では、イテレーションをまたぐデータ依存(ループ運搬依存)が静的に解析できない場合、データ依存が存在すると仮定し解析を進めるため並列化できない。しかし、このようなループに対してスレッドレベル投機的実行を適用することにより、プログラムを高速に実行することが可能となる。本稿では、依存距離不定運搬依存を含むループに対し、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバヘッドをパラメータとして取り入れ、投機的実行の効果が期待できる部分のみに選択的に投機的実行を適用する方式を提案した。実際にSPECcpu95ベンチマークの129.compressに適用した結果、IBM pSeries690上において0.7-1.3倍の速度向上を得られることを確認した。

    CiNii J-GLOBAL

  • 強化学習並列化による学習の高速化(一般(マルチエージェントと学習))(「社会システムにおける知能」及び一般)

    森 紘一郎, 山名 早人

    電子情報通信学会技術研究報告. AI, 人工知能と知識処理   103 ( 725 ) 59 - 64  2004年03月

     概要を見る

    強化学習は知識がない状態から試行錯誤によって学習を行う.そのため,学習が遅いという欠点があり,いかに学習を高速に行うかが大きな問題となっている.このような問題に対して,従来,価値関数を分割して各プロセッサに割り当て,並列に更新する手法が提案されている.しかし,強化学習の性質上,分割された価値関数間で頻繁に経験を交換する必要があり,従来の研究ではプロセッサ間通信のオーバーヘッドが大きいことが問題であった.本論文では,共有する1つの価値関数を複数のエージェントが共同期並列的に更新するオーバーヘッドの少ない手法を提案する.共有メモリ型並列計算機IBM pSeries 690上で127×127の迷路問題を評価タスクにして実行したところ24プロセッサで22.2倍の速度向上を達成できた.

    CiNii J-GLOBAL

  • MPIプログラム実行時間予測ツールMPIETEの評価(MPI性能評価)

    堀井 洋, 岩渕 寿寛, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2004 ( 20 ) 55 - 60  2004年03月

     概要を見る

    本稿では、同じプログラムを様々な計算機環境で実行時間を予測する際、ある計算機環境での予測のために生成したデータを、異なる計算機環境での予測にも利用することが可能なMPIプログラム実行時間予測手法を提案する。また、提案手法を用いたMPIプログラム実行時間予測ツールMPI Execution Time Estimator(MPIETE)で、NAS Parallel Benchmarks(NPB)ver2.4の実行時間の予測を行う。並列プログラムに対する、最適な計算機構成を決定するには、様々な計算機構成での実行時間を予測する必要がある。従来の並列プログラム予測手法は、プログラムの実行時間を予測するために、想定する計算機環境ごとに、予測に必要なパラメータを生成する必要がある。我々の提案する予測手法は、想定する計算機環境ごとに生成するパラメータと、予測対象となるプログラムごとに生成するパラメータに分けることで、短時間で同じプログラムを様々な計算機環境で実行時間を予測することが可能である。提案手法を用いて、NPB ver2.4のEP、OG、LUのCLASS Bの実行時間を予測したところ、16PU以内では誤差10%以内で予測可能であった。また、32PU以上の予測では、通信部分を除いた計算部分の実行時間は10%以内の予測誤差で予測可能であるのに対し、通信時間は、30%以上の予測誤差が生じた。...

    CiNii J-GLOBAL

  • BTBのエントリ有無を参照した分岐予測器の提案(高速化手法)

    斎藤 史子, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2004 ( 20 ) 127 - 132  2004年03月

     概要を見る

    命令間の制御依存によってパイプライン処理を滞らせないために,近年のプロセッサでは,分岐予測が採用されている.分岐予測によって未解決の分岐命令を投機的実行することが可能となる.しかし,近年,命令パイプライン長の深化により,分岐予測ミスペナルティが増大している.そのため,分岐予測ミス率の低減は,プロセッサの性能向上のために不可避な課題となっている.分岐予測は,分岐条件の成立・不成立の予測と分岐先アドレスの予測で構成される.分岐先アドレス予測に利用される分岐先アドレスバッファ(BTB:Branch Target Buffer)は,分岐条件が成立する(Taken)分岐をエントリに登録する.BTBのエントリに存在しない分岐の分岐条件成立・不成立状況を解析した結果,BTBにエントリを持たない分岐の殆どが,分岐条件が成立しない(NotTaken)分岐であることが判った.そこで,BTBにエントリを持たない分岐をNotTakenと予測する分岐予測手法を提案する.提案手法では,さらに,分岐方向予測器のエントリ数削減により,競合を緩和するために,BTBにエントリのない分岐は,分岐方向予測器を更新しない. SimpleScalar 3.0c/PISA sim-bpredシミュレータで実験したところ,SPECint95(train)では,8KB Gshare予測器で平均1.5%,1.5KB Bi-Mo...

    CiNii J-GLOBAL

  • 見たいサイトが一発で出てくる検索エンジンの仕組みとは

    山名早人

    インターネットマガジン(インプレス)   ( No.108 ) 88 - 91  2004年

  • 検索エンジンのアーキテクチャ

    山名早人

    情報の科学と技術   Vol.54 ( No.2 ) 84 - 89  2004年

    DOI

  • 分岐方向偏向強弱毎の予測表で構成された分岐方向予測機構

    斎藤史子, 山名早人

    情処研報(ARC)   Vol.2004 ( No.20 ) 127 - 132  2004年

  • 繰り返し囚人のジレンマゲームを適用したネットオークションモデルの提案と協調行動の観察

    久野木 彩子, 山名 早人

    DEWS2004    2004年

  • 強化学習並列化による学習の高速化

    森紘一郎, 山名早人

    情処研報(ICS)   Vol.2004 ( No.29 ) 89 - 94  2004年

  • リンク構造を利用したWebページの更新判別手法

    熊谷 英樹, 山名 早人

    DEWS2004    2004年

  • ユーザへの応答時間を重視した最頻出kパターン抽出アルゴリズム

    平手 勇宇, 岩橋 永悟, 山名 早人

    DEWS2004    2004年

  • ユーザの感覚を考慮したWeb検索システムの評価手法

    大塚 崇志, 江口 浩二, 山名 早人

    DEWS2004    2004年

  • ページ-コミュニティ間の関連性を考慮したWebコミュニティ抽出

    斉田直幸, 梅沢 晃, 山名早人

    第66回情処全大   1U-5 ( 3 )  2004年

    J-GLOBAL

  • トランスポート層の情報を利用したパケットの経路選択

    高見進太郎, 山名早人, 廣津登志夫

    第66回情処全大   4W-2 ( 3 )  2004年

    J-GLOBAL

  • スレッドレベル投機的実行による依存距離不定運搬依存をもつループの並列化

    石川隼輔, 山名早人

    情処研報(SLDM)   Vol.2004 ( No.33 ) 63 - 68  2004年

  • グループ化されたWebページを用いた検索

    梅沢 晃, 山名 早人

    DEWS2004    2004年

  • MPIプログラムの簡易実行結果を用いた実行時間予測ツールMPIETEの評価

    堀井 洋, 岩渕寿寛, 山名早人

    情処研報(HPC)   Vol.2004 ( No.20 ) 55 - 60  2004年

  • Grid上での頻出パターン抽出時におけるデータ通信量の削減

    加藤真, 平手勇宇, 岩橋永悟, 山名早人

    進的計算基盤システムシンポジウム予稿集   2004 ( 6 ) 165 - 166  2004年

    J-GLOBAL

  • BTBのエントリ有無を参照した分岐予測器

    斎藤史子, 山名早人

    先進的計算基盤システムシンポジウム予稿集   2004 ( 6 ) 261 - 268  2004年

    J-GLOBAL

  • An Efficient Algorithm for Mining Top-k Frequent Patterns with a Small Response Time

    平手勇宇, 岩橋永悟, 山名早人

    2004 CORS/INFORMS International Meeting (2004.5)    2004年

  • A Challenge to Gather 10 billion of Web Pages

    山名早人

    2004 CORS/INFORMS International Meeting (2004.5)    2004年

  • サービス指向コンピューティング

    山名早人監訳, 石川隼輔, 堀井洋, 岩渕寿寛, 岩橋永悟, 山口正男訳

    CACM日本語版   Vol.4 ( No.3 )  2004年

  • 検索エンジンを使った翻訳サポートシステムの構築

    大鹿広憲, 佐藤学, 安藤進, 山名早人

    DBWS2004    2004年

  • ハイパースレッディング環境における投機的スレッドを用いたキャッシュ効率化

    本田大, 斎藤史子, 山名早人

    SWoPP2004    2004年

  • extension of group-to-group sequence alignment algorithm under a piecewise linear gap cost

    山田真介, 後藤修, 山名早人

    Proc. of Intelligent Systems for Molecular Biology 2004    2004年

  • BTBエントリ有無を参照した分岐予測器

    斎藤史子, 山名早人

    情報処理学会論文誌コンピューティングシステム(ACS)   45 ( 7 ) 71 - 79  2004年

     概要を見る

    命令間の制御依存によってパイプライン処理を滞らせないために,近年のプロセッサでは,分岐予測が採用されている.分岐予測によって未解決の分岐命令を投機的実行することが可能となる.しかし,近年,命令パイプライン長の深化により,分岐予測ミスペナルティが増大している.そのため,分岐予測ミス率の低減は,プロセッサの性能向上のために不可避な課題となっている.分岐予測は,分岐条件の成立・不成立の予測と分岐先アドレスの予測で構成される.分岐先アドレス予測に利用される分岐先アドレスバッファ(BTB: Branch Target Buffer)は,分岐条件が成立する(Taken)分岐をエントリに登録する.BTBのエントリに存在しない分岐の分岐条件成立・不成立状況を解析した結果,BTBにエントリを持たない分岐のほとんどが,分岐条件が成立しない(NotTaken)分岐であることが分かった.そこで,BTBにエントリを持たない分岐をNotTakenと予測する分岐予測手法を提案する.提案手法では,さらに,分岐方向予測器のエントリ数削減により,競合を緩和するために,BTBにエントリのない分岐は,分岐方向予測器を更新しない.SimpleScalar 3.0c/PISA sim-bpredシミュレータで実験したところ,SPECint95(train)では,8KB Gshare予測器で平均1.5%,1.5KB Bi-Mode予測器で平均0.4%の予測ミス率が低減した.The branch prediction is installed on the recent processor to avoid stalling pipeline. Branch prediction is a kind of speculative execution for control dependence. In the recent year, the deeper pipeline gets, the higher branch miss prediction penalty reaches. Thus, branch miss prediction rate must lower to rise processor performance. The branch prediction predicts a branch direction and a branch target address. BTB (Branch Target Buffer) registers Taken branch. We found that the most branches, which do not have BTB entry are NotTaken branches. We propose the branch predictor reffering a BTB entry existence. The proposed predictor only updates the entry of the branch whose target address is registered in BTB, in order to allevilate aliasing. In SPECint95 (train), branch prediction miss rate lowers avarage 1.5% on 8KB Gshare predictor and avarage 0.4% on 1.5KB Bi-Mode predictor.

    CiNii

  • TF2P-growth: An Efficient Algorithm for Mining Frequent Patterns without any Thresholds

    平手勇宇, 岩橋永悟, 山名早人

    IEEE ICDM'04 Workshop on Alternatives Techniques for Data Mining and Knowledge Discovery    2004年

  • Extension of Prrn: implementation of a doubly nested randomized iterative refinement strategy under a piecewise linear gap cost

    山田真介, 後藤修, 山名早人

    the Fifteenth International Conference on Genome Informatics    2004年

  • ハイブリッド予測機構における選択器と予測器の協調による予測ミス率の低減(ARC-7:予測と投機)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))

    斎藤 史子, 仲沢 由香里, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2003 ( 84 ) 115 - 120  2003年08月

     概要を見る

    近年,パイプライン段数の深化に伴い,高精度な分岐方向予測機構が求められている.多くの予測機構は,競合を緩和するために,予測表の数量を増加させ,ハードウェア容量を増大させる傾向にあった.本研究では, Hybrid予測機構を対象とし,予測表の数量を増加させずに,予測ミス率を低減する方法を提案する.この方式に基づいた予測機構を予測カウンタ状態参照予測機構(Hybrid Predictor Referenced Prediction Counter State: Hybrid-RPCS)と呼ぶ.予測ミス率の高い難予測分岐は,分岐成立・不成立が遷移し,偏向方向が定まらないと言われている.そこで,偏向方向の定まらない分岐に対応するために,選択器カウンタの状態と予測器カウンタの状態に応じて,予測結果を反転する.例えば,Bi-Mode予測機構では,予測表の採用を決定する選択器カウンタがstrongly状態で,かつ,最終的な予測を決定する予測器カウンタがweakly状態であり,選択器の予測に逆らった場合の予測ミス率が高いことを利用する.SPECint95ref入カセットを対象にシミュレーションした結果,1.5KB Bi-Mode予測機構に適用した場合,最大1.43%(099. go),12KB Combining予測機構に適用した場合,最大0.16%(099. go)予測ミス率が低減した.

    CiNii J-GLOBAL

  • MPIプログラムの簡易実行による実行時間予測手法の評価(HPC-9 : 性能評価)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))

    岩渕 寿寛, 堀井 洋, 山名 早人

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   2003 ( 83 ) 131 - 136  2003年08月

     概要を見る

    本稿では、我々がこれまでに提案しているMPIプログラムの実行時間予測手法をNAS Parallel Benchmarks ver.2.3に適用し、2〜128PUのPCクラスタ上で評価した結果を示す。実行時間予測は、対象とするアプリケーションの実行に最適なPU台数を特定するための有効な手法である。従来提案されている予測手法は、実行時間を予測するだけでなく、各種オーバヘッドの詳細な情報を得ることを目的にしている場合が多く、長時間のシミュレーションが必要であった。我々の手法では、実行時間を得ることに目的を限定し、実行対象機上で簡易実行を行うことにより、実際の実行より速く予測することが可能となる。2〜128PUでの評価の結果、実際の実行時間のO(10^&lt;-1&gt;)〜O(10^&lt;-3&gt;)の時間で予測が可能であり、CG、ISを除くプログラム6つの32PUまでの実行で、予測誤差が10%以内に収まることを確認した。

    CiNii J-GLOBAL

  • FP-growth並列化による頻出パターン抽出高速化(セッション5B : パターン抽出)

    岩橋 永悟, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   2003 ( 71 ) 327 - 333  2003年07月

     概要を見る

    データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する.本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた.また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。

    CiNii

  • EP-growth並列化による頻出パターン抽出高速化(パターン抽出)(「夏のデータベースワークショップ(DBWS2003)」一般)

    岩橋 永悟, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   103 ( 191 ) 109 - 114  2003年07月

     概要を見る

    データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。 2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する。本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた。また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。

    CiNii J-GLOBAL

  • 分子系統樹構成法に関する最新技術動向

    益子理絵, 山田真介, 山名早人

    第65回情処全大   1Y-5 ( 1 ) 1  2003年

    J-GLOBAL

  • 分岐命令実行回数に着目した投機的実行支援情報収集機構の設計とFPGAへの実装

    蛭田智則, 山名早人, 佐谷野健二, 小池汎平

    第65回情処全大   3ZA-5   1  2003年

  • 投機的実行による難並列化ループの高速化

    石川隼輔, 山名早人

    第65回情処全大   3ZA-4 ( 1 ) 1  2003年

    J-GLOBAL

  • 投機的データプリフェッチを用いたキャッシュ効率化の考察

    本田 大, 山名早人

    第65回情処全大   3ZA-7 ( 1 ) 1  2003年

    J-GLOBAL

  • 大規模Webデータからのコミュニティ抽出

    梅沢 晃, 山名早人

    第65回情処全大   4U-1 ( 3 ) 3  2003年

    J-GLOBAL

  • リンク構造を用いたWebページ自動分類の精度向上法

    大西高裕, 山名早人

    第65回情処全大   4ZA-1 ( 3 ) 3  2003年

    J-GLOBAL

  • ユーザの検索履歴を用いた情報検索システムの提案

    三浦典之, 山名早人

    第65回情処全大   3U-1 ( 3 ) 3  2003年

    J-GLOBAL

  • マルコフモデルを用いたWebランキング法の評価実験

    赤津秀之, 山名早人

    第65回情処全大   4ZA-2   3  2003年

  • データ依存命令を対象としたデータ値予測

    仲沢由香里, 山名早人

    第65回情処全大   3ZA-6 ( 1 ) 1  2003年

    J-GLOBAL

  • ゲノムデータベースにおけるアノテーションフィールドを利用したエントリの類似検索

    三村 徹, 諸岡慎士, 山名早人

    第65回情処全大   4U-3   3  2003年

  • アプリケーションのレスポンス時間を用いたPCの性能評価

    堀井 洋, 山名早人

    第65回情処全大   5U-5 ( 1 ) 1  2003年

    J-GLOBAL

  • Webページ構造を考慮したキーワードによる画像の内容特定

    大鹿広憲, 山名早人

    第65回情処全大   3N-1 ( 3 ) 3  2003年

    J-GLOBAL

  • Webページの更新傾向を踏まえた効率的な収集方法の提案

    熊谷英樹, 山名早人

    第65回情処全大   4ZA-4 ( 3 ) 3  2003年

    J-GLOBAL

  • Webサーチエンジンの新しい評価手法

    大塚崇志, 山名早人

    電子情報通信学会第14回データ工学ワークショップDEWS2003   (7-P:Webサーチ,Web応用)  2003年

  • MPIプログラムの簡易実行による実行時間予測

    岩渕寿寛, 堀井 洋, 山名早人

    第65回情処全大   5Z-5 ( 1 ) 1  2003年

    J-GLOBAL

  • GnutellaにおけるQuery Hitを用いたトラヒック量軽減手法の提案

    難波貞暁, 山名早人

    第65回情処全大   5W-5   3  2003年

  • IT社会を先導するインターネット-家庭でのインターネットアクセスの現状と今後-

    山名早人

    電子情報通信学会誌   Vol.86 ( No.5 ) 304 - 310  2003年

  • FP-growthの並列化による頻出パターン抽出の高速化

    岩橋永悟, 山名早人

    情処研報(DBS)   Vol.2003 ( No.71 ) 327 - 334  2003年

  • ハイブリッド予測機構における選択器と予測器の協調による予測ミス率の低減

    斎藤史子, 仲沢由香里, 山名早人

    情処研報(ARC)   Vol.2003 ( No.84 ) 115 - 120  2003年

  • ハイブリッド予測機構における選択器と予測器の協調による予測ミス率の低減

    斎藤史子, 仲沢由香里, 山名早人

    情処研報(ARC)   Vol.2003 ( No.84 ) 115 - 120  2003年

  • MPIプログラムの簡易実行による実行時間予測の評価

    岩渕寿寛, 堀井洋, 山名早人

    情処研報(HPC)   Vol.2003 ( No.83 ) 131 - 136  2003年

  • 「情報」応用の開拓~全世界のWeb情報アーカイブ構築への挑戦~

    山名早人

    映像情報メディア学会誌   Vol.57 ( No.12 ) 1632 - 1637  2003年

    DOI

  • 分岐命令に着目した投機的実行支援情報収集機構の設計とFPGAへの実装

    蛭田智則, 小池汎平, 佐谷野健二, 山名早人

    情報処理学会全国大会講演論文集   65th ( 1 )  2003年

    J-GLOBAL

  • マルコフモデルを使用したWebランキングの評価実験

    赤津秀之, 山名早人

    情報処理学会全国大会講演論文集   65th ( 3 )  2003年

    J-GLOBAL

  • P2P方式における検索効率の改善手法の評価

    難波貞暁, 山名早人

    情報処理学会全国大会講演論文集   65th ( 3 )  2003年

    J-GLOBAL

  • ゲノムデータベースにおけるエントリの関連性検索

    三村徹, 諸岡慎士, 山名早人

    情報処理学会全国大会講演論文集   65th ( 3 )  2003年

    J-GLOBAL

  • Exploitation of Informational Applications - Toward the Global Web Information Archive

    Hayato Yamana

    Kyokai Joho Imeji Zasshi/Journal of the Institute of Image Information and Television Engineers   57 ( 12 ) 1632 - 1637  2003年

    書評論文,書評,文献紹介等  

    DOI

  • ハイブリッド分岐方向予測機構の性能比較

    斎藤 史子, 北村 健志, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2002 ( 112 ) 89 - 94  2002年11月

     概要を見る

    近年,分岐方向予測機構の予測正解率を向上させるための一手法として,複数の予測表を持つ分岐方向予測機構(本稿ではハイブリッド予測機構と呼ぶ)が提案されている.ハイブリッド予測機構は,(1)予測の信頼性によって,予測結果を採用する予測表を選択するGlobal/Local履歴対応予測機構と,(2)分岐の偏向に応じてエントリを設ける予測表を選択する競合緩和予測機構に大別される.従来の研究では,これら2種類の分岐方向予測機構の性能比較は充分とは言えない.そこで,本稿では,これらのハイブリッド予測機構のハードウェア容量を同一とした場合の予測正解率を比較した.また,我々は,今まで初期1億命令をシミュレーション対象としてきたのに対して,本稿では,より精度の高い結果を得るために,初期処理命令除去後の全命令を対象とした.さらに,(1)において競合緩和が考慮されていないことに着目し,予測表更新法を変更することによる競合緩和を試みた.その結果,SPECint95(gcc,ijpeg)において,(1)は,(2)に比較し予測正解率が0.1〜1%優れることを確認した.また,(1)は,予測表を常時更新する場合と比較して,競合の多いプログラム(gcc)では,0.5%予測正解率が向上した.以上から,(1)と(2)の予測正解率の差は,ほとんどないことと,競合の多いプログラムでは,(1)の予測表の更新法に改良の余地...

    CiNii J-GLOBAL

  • 複数のPHTを持つ分岐予測機構の性能比較

    斎藤 史子, 蛭田 智則, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2002 ( 81 ) 55 - 60  2002年08月

     概要を見る

    近年,分岐方向予測機構における予測正解率を向上させるための一手法として,複数の予測表(PHT:Pattren History Table)を保持した予測機構が提案されている.複数のPHTを保持する分岐方向予測機構は,採用するPHTの決定が各々のPHTにおける予測候補となるエントリの信頼性に基づく機構と,採用するPHTの決定が各々のPHTにおける予測候補となるエントリの信頼性に関係のない機構とに大別できる.本稿では,前者の予測機構をハイブリッド予測機構,後者の予測機構を複数PHT予測機構と呼ぶ.ハイブリッド予測機構と複数PHT予測機構の構成は類似しているが,今まで,その性能はほとんど比較されてこなかった.そこで,本稿では,比較対象となる予測機構におけるPHTの構成を統一し,制限容量内におけるPHTの構成比を調整することによって,公正にハイブリッド予測機構と複数PHT予測機構の性能比較を行う.その結果,SPECint95では,採用するPHTの決定が各々のPHTにおける予測候補となるエントリの信頼性に基づく機構が,採用するPHTの決定が各々のPHTにおける予測候補となるエントリの信頼性に関係のない機構よりも,容量を等しくした場合,高い予測正解率に達することを確認した.このことから,PHTのエントリ毎に信頼性を割り当てる手法は,依然として有効であると判断できる.

    CiNii J-GLOBAL

  • 遷移確率に基づく分岐予測手法の提案

    梅沢 晃, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2002 ( 37 ) 25 - 30  2002年05月

     概要を見る

    プロセッサの処理速度を向上させるために、今日のプロセッサではパイプラインを利用して命令を並列に実行させる技術が使われている。しかし、条件分岐が存在すると次の命令を確定することができない。条件分岐の分岐成立の有無を予測し、分岐方向が確定する前に実行を開始する技術を分岐予測と言い、予測精度向上のため様々な研究が行われている。本稿では、従来の動的分岐予測手法では予測が困難と分類される分岐をターゲットとし、分岐の同一方向への連続分岐回数の偏りに基づいた分岐予測手法を提案する。本予測手法をSPECint95に適用したところ、特定の分岐においてBimodal Predictorと比べ、予測ミス率が最大33.49%減少した。

    CiNii J-GLOBAL

  • 時間間隔を用いた検索履歴のモデル化

    鈴木俊輔, 山名早人

    情処研報(DD)   Vol.2002 ( No.28 ) 103 - 110  2002年03月

     概要を見る

    Googleなど既存の検索エンジンでは、あらかじめ生成しておいたインデックスに基づいた検索を行う。したがって、同一の検索語で検索した場合、ユーザの求める情報が異なっても同一の検索結果が返される。このような問題を解決するために、本稿では、検索履歴からユーザの意図を推測することを目的として、検索履歴の解析を行い、ユーザの検索パターンのモデル化を行った。その結果、再検索までの時間間隔を2パターンに分類できた。さらに、再検索しているユーザの検索語入力パターンの91%を9パターンに分類することができた。このパターンを利用することにより、検索エンジン側でユーザの意図に合致した検索結果を返すための指針を得ることができた。The conventional search engines searches based on the pre-generated index. Thus, when some users search with the same query, the search engine returns same result, even if they want to obtain different results. In order to solve such a problem, in this paper, we propose the user modeling scheme based on the user&#039;s search pattern to speculate the user&#039;s intention. Consequently, we have classified the search interval to re-search into two patterns. Furthermore, we have classified 91% of a user&#039;s queries into nine patterns. Using these patterns, the search engines will be able to return the results that suite the user&#039;s intention.

    CiNii

  • 時間間隔を用いた検索履歴のモデル化

    鈴木 俊輔, 山名 早人

    情報処理学会研究報告. DD, [デジタル・ドキュメント]   2002 ( 28 ) 103 - 110  2002年03月

     概要を見る

    Googleなど既存の検索エンジンでは、あらかじめ生成しておいたインデックスに基づいた検索を行う。したがって、同一の検索語で検索した場合、ユーザの求める情報が異なっても同一の検索結果が返される。このような問題を解決するために、本稿では、検索履歴からユーザの意図を推測することを目的として、検索履歴の解析を行い、ユーザの検索パターンのモデル化を行った。その結果、再検索までの時間間隔を2パターンに分類できた。さらに、再検索しているユーザの検索語入力パターンの91%を9パターンに分類することができた。このパターンを利用することにより、検索エンジン側でユーザの意図に合致した検索結果を返すための指針を得ることができた。

    CiNii J-GLOBAL

  • ループへの効果的な投機的実行適用手法

    石川隼輔, 山名早人

    情処研報(HPC)   Vol.2002 ( No.22 ) 121 - 126  2002年03月

     概要を見る

    本稿では,ループに対して投機的実行を効果的に適用する手法について提案し,SPECcpu95 ベンチマークのcompress プログラムを用いて有効性を検証した.一般的に,ループはプログラムの実行時間の大部分を占めていることから,ループ並列化によるプログラム速度向上率は高い。しかし、従来の並列化手法では、データ依存が静的に解析できない場合、データ依存が存在すると仮定し解析を進める。このため、たとえば,実際には一万回に一回しかループ運搬依存(LCD)が発生しないようなループであっても並列化することができない.しかし,このようなループに対して投機的実行を適用することにより,プログラムを高速に実行することが可能となる.本稿では、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバーヘッドをパラメータとして取り入れることにより,投機的実行の効果が期待できる部分のみを選択的に投機的実行する方式を提案する。提案手法は、復帰処理オーバーヘッドの他、LCD が実行時にどの程度の確立で存在するのかを表すLCD 存在率と、投機的実行開始位置とをパラメータとし,選択的な投機的実行を実現する。本手法をcompress プログラムに適用した結果,現状では3倍の速度低下がみられた。このため、速度低下の原因を解析し,その原因を解決するための新たな投機的実行適用手法も提案する.In this paper, we propose an efficient speculative execution scheme for loops, and have confirmed the usefullness of the scheme using the compress program from SPECcup95 benchmark. Generally, since the execution time of loops holds the large portion of the total execution time, the loop parallelization scheme improves the program performance, dramatically. However, when the data dependence cannnot be analyzed statically, the conventional parallelization scheme assumes that the data dependence exists. For this reason, such a loop cannot be parallelized even if the loop carried dependence(LCD) occurs only in 10,000 times, dynamically. However, the speculative execution scheme has been known to speedup such a loop. In this paper, we propose the scheme to apply the speculative execution alternatively only to the portion expected to be speeduped effectively, using the overhead parameter required for the book-keeping process when the speculation fails. Such overhead has not been considered on conventional speculative execution schemes. The proposed scheme enables the alternative speculative exection using the overhead parameter for book-keeping, the LCD existence probability, and the timing of the speculative execution initiation. As a results, in the present stage, the execution speed is fell down to one third. To solve this problem, we also propose a new speculative execution.

    CiNii

  • ループへの効果的な投機的実行適用手法

    石川 隼輔, 山名 早人

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   2002 ( 22 ) 121 - 126  2002年03月

     概要を見る

    本稿では、ループに対して投機的実行を効果的に適用する手法について提案し、SPECcpu95ベンチマークのcompressプログラムを用いて有効性を検証した。一般的に、ループはプログラムの実行時間の大部分を占めていることから、ループ並列化によるプログラム速度向上率は高い。しかし、従来の並列化手法では、データ依存が静的に解析できない場合、データ依存が存在すると仮定し解析を進める。このため、例えば、実際には1万回に1回しかループ運搬依存(LCD)が発生しないようなループであっても並列化することができない。しかし、このようなループに対して投機的実行を適用することにより、プログラムを高速に実行することが可能となる。 本稿では、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバーヘッドをパラメータとして取り入れることにより、投機的実行の効果が期待できる部分のみを選択的に投機的実行する方式を提案する。提案手法は、復帰処理オーバーヘッドの他、LCDが実行時にどの程度の確率で存在するのかを表すLCD存在確率と、投機的実行開始位置とをパラメータとし、選択的な投機的実行を実現する。本手法をcompressプログラムに適用した結果、現状では3倍の速度低下がみられた。このため、速度低下の原因を解析し、その原因を解決するための新たな投機的実行適用手法も提案する。

    CiNii J-GLOBAL

  • 脳型情報処理の研究に関する最新動向

    齋藤雅浩, 山名早人

    第64回情処全大   5P-3 ( 2 )  2002年

    J-GLOBAL

  • 逆リンクのチェックによるサイトの特徴・有用性の調査

    高見進太郎, 山名早人

    第64回情処全大   3X-3 ( 3 )  2002年

    J-GLOBAL

  • マルコフモデルを使用したWebランキング

    赤津秀之, 山名早人

    第64回情処全大   3X-6 ( 3 )  2002年

    J-GLOBAL

  • ドメイン毎のWebページ数の偏りを考慮した日本のWebページ数推定調査

    西村真幸, 山名早人

    第64回情処全大   2X-6 ( 3 )  2002年

    J-GLOBAL

  • Web上からの論文ファイル自動抽出の試み

    田伏真之, 山名早人

    第64回情処全大   4Y-6 ( 3 )  2002年

    J-GLOBAL

  • Webページの更新頻度とアクセス頻度に基づく効率的な収集方法の考察

    熊谷英樹, 山名早人

    第64回情処全大   4X-6 ( 3 )  2002年

    J-GLOBAL

  • 構造プロファイルによる局所構造予測法の開発

    山田真介, 富井健太郎, 太田元規, 秋山泰, 山名早人

    第2回日本蛋白質科学会年会ポスター   2p-141  2002年

  • 投機的実行に関する最新技術動向

    斎藤 史子, 山名 早人

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2001 ( 116 ) 67 - 72  2001年11月

     概要を見る

    命令レベルの投機的実行について、制御依存を緩和する分岐予測とデータ依存を緩和するデータ予測に分類してまとめる。本稿では、1996-2001年のHPCA, 1996-2000年のISCA, MICRO, ASPLOSから分岐予測に関する論文36本、データ予測に関する論文27本を調査すると共に、他の論文誌から19本をとりあげまとめた。全体の傾向として、1998年までは、分岐予測とデータ予測に関する研究は分岐予測が全体の半分以上を占めていたが、1997年からデータ予測に関する研究も盛んになってきている。

    CiNii J-GLOBAL

  • 実測に基づいたMPIプログラムの実行時間予測手法

    堀井 洋, 山名 早人

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   2001 ( 102 ) 61 - 66  2001年10月

     概要を見る

    本稿ではMPIプログラムの実行時間を低コストで予測する手法を提案し, 本手法の有用性をNAS Parallel Benchmark(NPB)ver 2.3を用いて検証した.提案する予測手法ではMPIプログラムの実行時間を計算部分と通信部分に分けて予測する.計算部分の予測では, MPIプログラムをループ構造をもつ複数ブロックに分け, ブロックごとの計算部分の実行時間を測定し, その基板データをもとに想定するPU台数時の実行時間を予測する.通信部分の予測では, MPIプログラム中で行われる通信と同じサイズの通信にかかる時間をあらかじめ想定するプラットフォーム上で測定し, その基礎データをもとに通信時間を予測する.

    CiNii J-GLOBAL

  • サーチエンジンGoogle

    山名早人, 近藤秀和

    情報処理   Vol.42 ( No.8 ) 775 - 780  2001年08月

     概要を見る

    Googleは,世界最大の情報を持つサーチエンジンとして有名である.Googleは,スタンフォード大学コンピュータサイエンス学科の研究プロジェクトとしてスタートした後,シリコンバレーの2大ベンチャーキャピタルから総額2 500万ドルの投資を受け,博士課程の学生であった当時25歳のLarry(Lawrence)Pageと Sergey Brinの2人が1998年9月に会社として起業した.

    CiNii J-GLOBAL

  • 招待講演2 サーチエンジンGoogleの情報検索技術 (AIシンポジウム(第15回)WWW情報検索と情報統合)

    山名 早人

    AIシンポジウム   15   21 - 26  2001年07月

    CiNii

  • 投機的実行のループへの効果的な適用法

    山名早人

    情報処理学会第62回全国大会   5R-4 ( 1 )  2001年

    J-GLOBAL

  • 招待論文-サーチエンジンGoogleの情報検索技術

    山名早人

    第15回AIシンポジウム   SIG-J-A101   21 - 26  2001年

    J-GLOBAL

  • データベース最前線-12-検索エンジンと高速ページ収集技術--分散型WWWロボット実験

    山名 早人

    Bit   32 ( 12 ) 72 - 79  2000年12月

    CiNii J-GLOBAL

  • 2000-ARC-139-28 臨界投機実行のループへの適用

    山名 早人, 小池 帆平

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   2000 ( 74 ) 163 - 168  2000年08月

     概要を見る

    本報告では、我々が提案している臨界投機実行をループに対してどのように適用させるかについて検討する。臨界投機実行は、タスクレベルでの投機的実行方式であり、これを、メモリアンビゲーションなどによりデータ依存関係が静的に解析できず並列化できないループや、制御依存によって並列化できないループに適用することによって、高速化を図る。ループを9つのカテゴリに分類すると共に、SPEC95intのcompressに対して適用を検討した結果を示す。

    CiNii J-GLOBAL

  • 分散型WWWロボットによる国内のWWWデータ収集実験

    山名早人

    ACM SIGMOD Japanシンポジウム講演集    2000年

  • 広域分散コンピューティングの現状と課題―分散型WWWロボットを例にとって―

    山名早人

    北海道地域ネットワーク協議会シンポジウム2000/北海道地域ネットワーク協議会     95 - 102  2000年

  • スーパーコンパイラ・テクノロジの調査研究

    平成11年度先導調査研究報告書/新エネルギー・産業総合開発機構    2000年

  • 分散型WWWロボットによる国内のWWWデータ収集実験

    山名早人

    ACM SIGMOD Japanシンポジウム講演集    2000年

  • 臨界投機実行のループへの適用

    山名早人, 小池汎平

    情報処理学会 計算機アーキテクチャ研究会(SWoPP00)    2000年

  • 分散型WWWロボットの予備評価と高速化の検討

    山名早人, 森英雄, 田村健人, 河野浩之, 村岡洋一

    日本ソフトウェア科学会インターネットテクノロジワークショップ    2000年

  • Internet広域分散サーチロボットの研究開発

    村岡洋一, 山名早人, 田村健人, 河野浩之, 森英雄, 浅井勇夫, 西村英樹, 楠本博之, 篠田洋一

    第19回IPA技術発表会    2000年

  • 分散WWWロボット実験

    山名早人

    Bit,共立出版    2000年

  • 分散型WWWロボット実験の状況 (特集 次世代インターネットの展望)

    山名 早人

    機械振興   32 ( 8 ) 61 - 67  1999年08月

    CiNii

  • 臨界投機型情報検索によるユーザの絞込検索支援 (テーマ:「インターネットとAI」および一般)

    山名 早人, 小池 汎平, 児玉 祐悦

    知識ベ-スシステム研究会   43rd ( 43 ) 93 - 98  1999年03月

    CiNii J-GLOBAL

  • 投機的 制御/データ依存グラフとJava Jog-time Analyzer : Java Virtual Accelerator実現へ向けての予備評価

    小池 汎平, 山名 早人, 山口 喜教

    情報処理学会論文誌プログラミング(PRO)   40 ( 1 ) 32 - 41  1999年02月

     概要を見る

    我々は 既存逐次計算機のプログラムを 並列計算機上でエミュレーション実行しつつ速度向上を得る 並列化エミュレーションによってJavaプログラム実行の高速化を目指す実行時並列化インタプリタ/JITコンパイラシステムJava Virtual Acceleratorの実現を検討している. 並列化エミュレーションでは 逐次バイナリプログラムから並列性の自動抽出を試みる. 逐次プログラムに内在する制御・データ依存関係を可能な限り緩和するために 投機的制御・データ依存グラフというプログラム表現を導入した. これは 依存グラフ上を流れる制御・データ値の両方について 予測率で依存関係を表わす各アークを重み付けし 予測が容易で情報量が少ないとみなせるアークを予測・確認ノードに置き換えることによって得られるものである. 上記モデルに基づく並列化の実験を行なうために Javaプログラムの動特性解析ツールJava Jog-time Analyzerを開発した. JJAは 中間コードインタプリタが プログラム実行時に データ・分岐予測モジュールの起動 統計情報の収集を行ない プログラム終了時に 各予測モジュールの予測率 クリティカルパス計算時間 平均並列度などの統計データを依存グラフのプロットとともに出力する. 本論文では JJAを用いて行なった各種の実験結果について報告する.The authors are investigating the possibility of Java Virtual Accelerator, a run-time parallelizing interpreter/JIT compiler system which speeds up Java execution through parallelizing emulation. To realize parallelizing emulation, automatic extraction of the parallelism from sequential binary programs is important. We developed the "speculative control-data dependence graph" model to relieve the control and data dependence constraints inherent in the sequential programs. Speculative control-data dependence graph is constructed by measuring the prediction rate for both control and data values during the test run, and replacing highly predictable arcs with predict-confirm nodes. Java Jog-time Analyzer is developed for the experiment of the model described above. JJA analyzes control and data dependences statically while class files are loaded, and the intermediate code interpreter of JJA invokes data and branch prediction modules and gathers run-time statistics everytime basic block boundary is crossed. Run-time statistics such as the block execution counts, the prediction rates, the critical path execution time and the average parallelism, as well as the plot of the dependence graphs, are shown at the end of the execution. In this paper, several experiment results with JJA are shown.

    CiNii

  • 投機的 制御/データ依存グラフとJava Jog-time Analyzer : Java Virtual Accelerator実現へ向けての予備評価

    小池 汎平, 山名 早人, 山口 喜教

    情報処理学会論文誌. プログラミング   40 ( 1 ) 32 - 41  1999年02月

     概要を見る

    我々は, 既存逐次計算機のプログラムを, 並列計算機上でエミュレーション実行しつつ速度向上を得る, 並列化エミュレーションによってJavaプログラム実行の高速化を目指す実行時並列化インタプリタ/JITコンパイラシステムJava Virtual Acceleratorの実現を検討している. 並列化エミュレーションでは, 逐次バイナリプログラムから並列性の自動抽出を試みる. 逐次プログラムに内在する制御・データ依存関係を可能な限り緩和するために, 投機的制御・データ依存グラフというプログラム表現を導入した. これは, 依存グラフ上を流れる制御・データ値の両方について, 予測率で依存関係を表わす各アークを重み付けし, 予測が容易で情報量が少ないとみなせるアークを予測・確認ノードに置き換えることによって得られるものである. 上記モデルに基づく並列化の実験を行なうために, Javaプログラムの動特性解析ツールJava Jog-time Analyzerを開発した. JJAは, 中間コードインタプリタが, プログラム実行時に, データ・分岐予測モジュールの起動, 統計情報の収集を行ない, プログラム終了時に, 各予測モジュールの予測率, クリティカルパス計算時間, 平均並列度などの統計データを依存グラフのプロットとともに出力する. 本論文では, JJAを用いて行なった各種の実験結果につい...

    CiNii J-GLOBAL

  • ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価

    坂根広史, 児玉祐悦, 建部修見, 小池帆平, 山名早人, 弓場敏嗣

    情報処理学会論文誌/情報処理学会   40 ( 5 ) 2281 - 2292  1999年

     概要を見る

    本論文では 分散メモリ型並列計算機において 同期・通信の支援機構が行列問題の並列処理性能に与える影響について議論し それらが有効となる条件・要因を モデルと実験によって定量的に明らかにする. LU分解法の代入部に現れる三角方程式の求解では 互いに依存性のない計算要素がイテレーション間にまたがっており その並列性はウェーブフロント状に抽出できる. この問題を 並列性を自然に利用する細粒度アルゴリズムと ブロック化による粗粒度アルゴリズムで表し 並列計算機EM-XとAP1000+に実装した. 最初に予備実験によって これらの計算機が持つ同期・通信機構の特徴をパラメータによって表した. 次に アルゴリズムの性質をモデル化し 通信オーバヘッドに起因する性能上限と 並列度の制限による有効PE台数を理論的に示した. 問題サイズが小さい場合 あるいは十分なPE台数が利用できる場合は 高い並列度が得られる細粒度アルゴリズムが有望である. ただし細粒度アルゴリズムで高い性能を得るには 通信起動のオーバヘッドが十分小さいことが必要であり EM-Xがこの要件を満たす. 逆に 問題サイズが十分大きいか 比較的少ないPE台数しか与えられない場合は粗粒度アルゴリズムの方が良い. この場合は通信性能より逐次演算性能が重要となり AP1000+が優位性を示す.In this paper, we discuss efficient parallel execution of a dense-matrix problem considering trade-offs between fine-grain and coarse-grain communication in distributed memory machines. The solution of the triangular system of equations involves data dependencies between consecutive iterations in the outer-loop. The dependencies can be naturally solved and processed in parallel by wavefront computation. Two ways of parallelizing are presented; the element-wise fine-grain approach and the coarse-grain approach. We implemented these algorithms on both EM-X and AP 1000+. Fine-grain support mechanisms of the EM-X had a great effect on the performance of the element-wise method for relatively small problem size, while employed RISC processors of the AP1000+ brought high performance of the coarse-grain method for larger size.

    CiNii

  • 並列計算機を用いた臨界投機型情報検索サービスの予備評価

    山名早人, 小池汎平, 児玉祐悦, 坂根広史, 山口喜則

    並列処理シンポジウムJSPP99予稿集/情報処理学会   99 ( 6 ) 216  1999年

    J-GLOBAL

  • 分散型WWWロボット実験の状況

    山名早人

    機械振興/機械振興協会   32 ( 8 ) 61 - 67  1999年

    J-GLOBAL

  • 経営学大事典 第二版

    中央経済社    1999年

  • Internet広域分散協調サーチロボットの研究開発

    IPA第18回技術発表会論文集/情報処理振興事業協会   18   71 - 78  1999年

  • 分散型WWWロボットの実験状況と今後の課題

    インターネットコンファレンス99論文集/日本ソフトウェア科学会   14, p.141  1999年

  • 逐次型プログラムの投機並列実行を行う中間コードインタプリタの構成法

    小池 汎平, 山名 早人, 山口 喜教

    情報処理学会論文誌/情報処理学会   40 ( SIG10 ) 64 - 74  1999年

     概要を見る

    本論文では 投機並列実行を行なうことにより逐次プログラムの自動的な並列実行を行う中間コードインタプリタを構成する方法についての検討を行う.次に 並列処理粒度を適切に制御するチェックポイント実行機能 探索/登録/排他制御のオーバヘッドを最小にして投機的メモリ操作を効率的に実現する手法など 効率的な投機並列実行を特別なハードウェアを用いずに実現するためのソフトウェア上の手法を提案する.そして これらの方法を用いることによってどの程度の基本性能が得られるかを評価するために行なった実験の結果を示す.実験結果から チェックポイント実行によって処理粒度を適切に設定すること および 投機的メモリ操作の効率的な実現をはじめとする様々なソフトウェア上の工夫をほどこすことにより 特別なハードウェアを用いなくても 並列処理による速度向上効果の得られる 投機並列実行中間コードインタプリタを抗せ宇する事が可能であることが確認された.In this paper, the design of the intermediate code interpreter, which executes a sequential program in parallel using speculative method, is discussed. Software techniques which enable an efficient parallel speculative execution without hardware support, such as the check point execution mechanism with which an appropriate parallel execution granularity is established, and the efficient implementation of the speculative memory operations which minimize the overhead of searching, recording and the mutual exclusion, are proposed. Experiment results to see the basic performance of these techniques are also presented. From the experiment, we confirmed that we can implement a speculative intermediate code interpreter which can result in speedup, if we adopt the software techniques described in this paper.

    CiNii

  • 国内の全WWWデータを24時間で収集する分散型WWWロボットの試み

    山名早人, 田村健人, 森英雄, 黒田洋介, 西村英樹, 浅井勇夫, 楠本博之, 篠田陽一, 村岡洋一

    Proceedings of NORTH Internet Symposium   1999  1999年

    J-GLOBAL

  • Fast speculative search engine on the highly parallel computer EM-X

    Hayato Yamana, Hanpei Koike, Yuetsu Kodama, Hirofumi Sakane, Yoshinori Yamaguchi

    SIGIR Forum (ACM Special Interest Group on Information Retrieval)     390  1998年12月

     概要を見る

    A WWW search engine called fast speculative search engine that uses speculative execution of multiprocessor systems to shorten the total time to retrieve information from the WWW is presented. This engine predicts the user&#039;s next queries and initiates the searches with the predicted queries before receiving them to accelerate narrowing the search space. This fast speculative search engine is implemented using the data speculation on the EM-X, a highly parallel computer which can tolerate communication latency by using low latency communication and multithreading.

    DOI

  • インタ-ネット広域分散協調サ-チロボツト (特集 マルチメディア/インタ-ネツトにおける情報検索の新潮流)

    山名 早人

    Computer today   15 ( 5 ) 4 - 9  1998年09月

    CiNii J-GLOBAL

  • マルチグレイン並列化コンパイラにおける臨界投機実行の効果について

    山名 早人, 小池 汎平, 児玉 祐悦, 坂根 広史, 山口 喜教

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   98 ( 70 ) 19 - 24  1998年08月

     概要を見る

    本報告では、マルチグレイン並列化コンパイラに、我々が提案している臨界投機実行を適用する場合の適用部分とその効果について検討する。マルチグレイン並列処理は、従来のループ並列化に加え、粗粒度並列処理、近細粒度並列処理を階層的に組み合わせて多様な並列性を抽出する並列化手法である。マルチグレイン並列化コンパイラに臨界投機実行を適用することにより、メモリアンビゲーションなどによりデータ依存関係が静的に解析できず並列化できない部分や制御依存によって並列化できない部分に対する並列化が可能となる。本稿では、プログラム中のどの部分に対して臨界投機実行を適用すべきかについて、ループを9つののカテゴリに分類すると共に、効果的適用法について検討する。

    CiNii J-GLOBAL

  • マルチグレイン並列化処理における臨界投機実行の適用

    山名 早人, 小池 汎平, 児玉 祐悦, 坂根 広史, 山口 喜教

    全国大会講演論文集   56 ( 1 ) 297 - 298  1998年03月

    CiNii J-GLOBAL

  • 投機的制御・データ依存グラフとJava Jog-time Analyzer Java Virtual Acceleratorの実現に向けて

    小池汎平, 山名早人, 山口喜教

    情報処理学会シンポジウム論文集   98 ( 7 )  1998年

    J-GLOBAL

  • 分散型ロボットによるWWW情報収集

    山名早人

    第9回データ工学ワークショップ(DEWS'98), 電子情報通信学会データ工学専門委員会    1998年

    CiNii

  • WWW情報検索の現状

    山名 早人

    コンピュータソフトウェア   14 ( 5 ) 503 - 510  1997年09月

     概要を見る

    1997年1月時点で,世界の約83万組織,約1600万台のコンピュータがインターネットに接続し,学術論文から趣味にいたるまで,1億ページを越える情報がWWWサーバから発信されている.この膨大な情報を有効に利用するためには,必要とする情報の掲載されたページを瞬時に,かつ,的確にみつけ出すことが必須となる.このような機能を提供するWWW情報検索サービスは,1994年頃から登場し始め,現在,その数は100を越える.本稿では,WWW情報検索サービスの現状とその問題点を解説する.

    CiNii J-GLOBAL

  • 細粒度通信機構を用いたRadixソートの実行

    児玉 祐悦, 坂根 広史, 佐藤三久, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会論文誌   38 ( 9 ) 1726 - 1735  1997年09月

     概要を見る

    EM?Xは,ワード単位の細粒度通信を命令実行パイプラインでサポートする分散メモリ型の高並列計算機である.リモートメモリアクセスをスレッド処理とオーバラップすることにより通信スループットを向上させるとともに,複数のスレッドを効率良く切り替えることにより通信レイテンシにも強いアーキテクチャとなっている.これにより並列処理の適用分野の拡大を目指している.現在80プロセッサから構成されるシステムが完成し,実機による評価を行っている.その一例として,radixソートを取り上げ,並列性能の評価を行うとともに,他の並列計算機との比較を行った.この結果,細粒度通信を効率良くサポートすることにより,粗粒度通信時にみられるプロセッサ台数を増加させた場合のネットワーク混雑による性能低下を解消し,非常に高いスケーラビリティを確認できた.EM-X is a highly parallel computer with a distributed memory.It supports fine-grain communication,whose size is two-word fixed,on an instruction execution pipeline.It achieves high communication throughput by overlapping remote memory access with thread execution,and tolerates communication latency by rapid switching of threads.We developed an 80 processor system of EM-X,and are evaluating its architectural features on the system.In this paper,we execute radix sort programs to evaluate the parallel performance of EM-X and compare the results with other parallel computers.The results show that fine grain communication achieves very good scalability,while coarse grain message passing decreasethe performance on a large number of processors because of contentions on a network.

    CiNii

  • 細粒度通信機構を持つ並列計算機EM ? Xによる疎行列計算の性能評価

    佐藤三久, 児玉 祐悦, 坂根 広史, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会論文誌   38 ( 9 ) 1761 - 1770  1997年09月

     概要を見る

    本稿では,疎行列問題の1つとして,疎行列のCG法を取り上げ,並列計算機EM?Xでの細粒度通信を用いた並列プログラミングと性能について報告する.EM?Xでは,データ駆動機構により細粒度パケットによる通信が効率的に処理されるため,従来のメッセージ通信型プロセッサに比べて,きわめて低レーテンシの通信が可能になっている.細粒度通信機構の効果を評価するため,CG法の主要な演算である行列ベクトル積の計算について,complete exchange のブロック転送を使う方法と,細粒度通信を用いて必要な要素のみを転送する方法,行列計算中に要素ごとにリモートメモリ読み出しを行う方法について比較した.その結果,プロセッサ数が増えるに従って,EM?Xでは必要な要素にのみアクセスを行う細粒度通信による方法が有効であることが分かった.特に,プロセッサあたりの問題サイズが小さくなる場合において,有効である.ブロック転送による方法はいっせい転送によりネットワークがネックになり,効率が低下し,マルチスレッドでレーテンシを隠蔽したリモートメモリ読み出しによる方法はネットワークへの負荷は低いが,スレッド切替え等のオーバヘッドによって性能が低下している.In this paper,we describe the parallelization of a sparse matrix computation,CG(Conjugate Gradient method) kernel taken from NAS parallel benchmark suite,for the EM-X multiprocessor.Dataflow mechanism of EM-X supports fine-grain communication very efficiently,which provides low latency communication,and flexible message-passing facility.We compare the performance of sparse matrix vector multiplications by the complete exchange communication,by element-wise remote update and by the element-wise remote read with multithreading.The measurements taken on the EM-X indicates effectiveness of the fine-grain communication which enables element-wise access efficiently.Fine-grain communication is effective when problem size per PE becomes small in large scale multiprocessor systems.The complete complete exchange version incurs the negative impact due to the limitation of its bandwidth,and the performance of the element-wise remote read version is degraded by the overhead of context-switching for multithreading.

    CiNii

  • 細粒度通信機構を用いたRadixソートの実行

    児玉 祐悦, 坂根 広史, 佐藤 三久, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会論文誌   38 ( 9 ) 1726 - 1735  1997年09月

     概要を見る

    EM-Xは, ワード単位の細粒度通信を命令実行パイプラインでサポートする分散メモリ型の高並列計算機である. リモートメモリアクセスをスレッド処理とオーバラップすることにより通信スループットを向上させるとともに, 複数のスレッドを効率良く切り替えることにより通信レイテンシにも強いアーキテクチャとなっている. これにより並列処理の適用分野の拡大を目指している. 現在80プロセッサから構成されるシステムが完成し, 実機による評価を行っている. その一例として, radixソートを取り上げ, 並列性能の評価を行うとともに, 他の並列計算機との比較を行った. この結果, 細粒度通信を効率良くサポートすることにより, 粗粒度通信時にみられるプロセッサ台数を増加させた場合のネットワーク混雑による性能低下を解消し, 非常に高いスケーラビリティを確認できた.

    CiNii J-GLOBAL

  • 細粒度通信機構を持つ並列計算機EM-Xによる疎行列計算の性能評価

    佐藤 三久, 児玉 祐悦, 坂根 広史, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会論文誌   38 ( 9 ) 1761 - 1770  1997年09月

     概要を見る

    本稿では, 疎行列問題の1つとして, 疎行列のCG法を取り上げ, 並列計算機EM-Xでの細粒度通信を用いた並列プログラミングと性能について報告する. EM-Xでは, データ駆動機構により細粒度パケットによる通信が効率的に処理されるため, 従来のメッセージ通信型プロセッサに比べて, きわめて低レーテンシの通信が可能になっている. 細粒度通信機構の効果を評価するため, CG法の主要な演算である行列ベクトル積の計算について, complete exchangeのブロック転送を使う方法と, 細粒度通信を用いて必要な要素のみを転送する方法, 行列計算中に要素ごとにリモートメモリ読み出しを行う方法について比較した. その結果, プロセッサ数が増えるに従って, EM-Xでは必要な要素にのみアクセスを行う細粒度通信による方法が有効であることが分かった. 特に, プロセッサあたりの問題サイズが小さくなる場合において, 有効である. ブロック転送による方法はいっせい転送によりネットワークがネックになり, 効率が低下し, マルチスレッドでレーテンシを隠蔽したリモートメモリ読み出しによる方法はネットワークへの負荷は低いが, スレッド切替え等のオーバヘッドによって性能が低下している.

    CiNii J-GLOBAL

  • 臨界投機実行のWWW情報検索への応用

    山名 早人, 小池 汎平, 児玉 祐悦, 戸田 賢二, 山口 喜教

    電子情報通信学会技術研究報告. CPSY, コンピュータシステム   97 ( 226 ) 69 - 74  1997年08月

     概要を見る

    本報告では, 並列計算機の能力を最大限まで活用し高速な計算を可能とする臨界投機実行の応用例としてWWW情報検索を取り上げ, そのシステム概要を説明する. 臨界投機実行は, 負荷の小さいプロセッサを活用して, タスクレベルでの投機的実行を行い, 全体の処理速度の向上を図る実行方式である. 本研究では, 臨界投機実行をWWW情報検索に応用することにより, 高速なWWW情報検索サービスの構築を目指す. プラットホームとして, 80台のプロセッサから構成される分散メモリ型高並列計算機であるEM-Xを用いる.

    CiNii J-GLOBAL

  • WWW情報検索サ-ビスの動向 (特集 発展する情報産業)

    山名 早人

    機械振興   30 ( 8 ) 54 - 63  1997年08月

    CiNii J-GLOBAL

  • インターネットの魅力

    山名早人

    CIAJ Journal (Communications and Information Network Association of Japan)   37 ( 3 )  1997年

    J-GLOBAL

  • EM-Xによる密行列計算の細粒度並列処理 ウェーブフロント型並列性の効率的実行

    坂根広史, 児玉祐悦, 小池汎平, 佐藤三久, 山名早人, 坂井修一, 山口喜教

    並列処理シンポジウム論文集   1997  1997年

    J-GLOBAL

  • 複雑現象の解明における超高速計算機利用技術の研究

    関口智嗣, 佐藤三久, 山名早人

    国立機関原子力試験研究成果報告書   36(1995)  1997年

    J-GLOBAL

  • Experience with fine-grain communication in EM-X multiprocessor for parallel sparse matrix computation

    M Sato, Y Kodama, H Sakane, H Yamana, S Sakai, Y Yamaguchi

    11TH INTERNATIONAL PARALLEL PROCESSING SYMPOSIUM, PROCEEDINGS     242 - 248  1997年

     概要を見る

    Sparse matrix problems require a communication paradigm different from those used in conventional distributed-memory multiprocessors. We present in this gaper how fine-grain communication can help obtain high performance in the experimental distributed-memory multiprocessor, EM-X, developed at ETL, which can handle fine-grain communication very efficiently. The sparse matrix: kernel, Conjugate Gradient, is selected for the experiments. Among the steps in CG is the sparse matrix vector multiplications we focus on in the study. Some communication methods are developed for performance comparison, including coarse-grain and fine-grain implementations, Fine-grain communication allows exact data access in an unstructured problem to reduce the amount of communication. While CG presents bottlenecks in terms of a large number of fine-grain remote reads, the multi-thraded principles of execution is so designed to tolerate such latency. Experimental results indicate that the performance of fine-grain read implementation is comparable to that of coarse-grain implementation on 64 processors. The results demonstrate that fine-grain communication can be a viable and efficient approach to unstructured sparse matrix problems on large-scale distributed-memory multiprocessors.

  • Fine-grain multithreading with the EM-X multiprocessor

    Andrew Sohn, Yuetsu Kodama, Jui Ku, Mitsuhisa Sato, Hirofumi Sakane, Hayato Yamana, Shuichi Sakai, Yoshinori Yamaguchi

    Annual ACM Symposium on Parallel Algorithms and Architectures     189 - 198  1997年01月

     概要を見る

    Multithreading aims to tolerate latency by overlapping communication with computation. This report explicates the multithreading capabilities of the EM-X distributed-memory multiprocessor through empirical studies. The EM-X provides hardware supports for fine-grain multithreading, including a by-passing mechanism for direct remote reads and writes, hardware FIFO thread scheduling, and dedicated instructions for generating fixed-sized communication packets. Bitonic sorting and Fast Fourier Transform are selected for experiments. Parameters that characterize the performance of multithreading are investigated, including the number of threads, the number of thread switches, the run length, and the number of remote reads. Experimental results indicate that the best communication performance occurs when the number of threads is two to four. FFT yielded over 95% overlapping due to a large amount of computation and communication parallelism across threads. Even in the absence of thread computation parallelism, multithreading helps overlap over 35% of the communication time for bitonic sorting.

    DOI

  • Message-based efficient remote memory access on a highly parallel computer EM-X

    Yuetsu Kodama, Yuetsu Kodama, Hirohumi Sakane, N. Mitsuhisa Sato, Hayato Yamana, Shuichi Sakal, Yoshinori Yamaguchl

    IEICE Transactions on Information and Systems   E79-D ( 8 ) 1065 - 1071  1996年12月

     概要を見る

    Communication latency is central to multiprocessor design. This study presents the design principles of the EM-X distributed-memory multiprocessor towards tolerating communication latency. The EM-X overlaps computation with communication for latency tolerance by multithreading. In particular, we present two types of hardware support for remote memory access: (1) priority-based packet scheduling for thread invocation, and (2) direct remote memory access. The prioritybased scheduling policy extends a FIFO ordered thread invocation policy to adopt to different computational needs. The direct remote memory access is designed to overlap remote memory operations with thread execution. The 80-processor prototype of EM-X is developed and is operational since December 1995. We execute several programs on the machine and evaluate how the EM-X effectively overlaps computation with communication toward tolerating communication latency for high performance parallel computing.

  • 行列演算ベンチマークを用いた並列計算機EM-Xの評価

    坂根 広史, 児玉 祐悦, 佐藤 三久, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   96 ( 80 ) 239 - 244  1996年08月

     概要を見る

    分散メモリ型並列計算機EM-Xの上でLINPACKベンチマークを並列化して実装し、定型的な粗粒度演算および通信パターンが現れる行列問題における浮動小数点演算能力について評価した。並列化においてはピボット列のブロードキャストアルゴリズムと負荷分散の関係や、ブロードキャスト通信と列消去演算のオーバラップについて検討した。最内周ループの逐次実行部分は、過去に報告した高速コードを、多列同時消去によりレジスタの有効利用を図ってさらに高速化し、理論ピーク性能として1要素演算につき4命令で実行できるコードを作成した。そしてこれら有効な高速化手法とEM-X固有の特性との関連を調べた。80PE構成において1000次元のLINPACKベンチマークに対して、354.2 Mflop/s、5000次元で601.5 Mflop/sの実測値を楊た。

    CiNii J-GLOBAL

  • Message-Based Efficient Remote Memory Access on a Highly Parallel Computer EM-X

    KODAMA Yuetsu, SAKANE Hirohumi, SATO Mitsuhisa, YAMANA Hayato, SAKAI Shuichi, YAMAGUCHI Yoshinori

    IEICE Transactions on Information and Systems   E79D ( 8 ) 1065 - 1071  1996年08月

     概要を見る

    Communication latency is central to multiprocessor design. This study presents the design principles of the EM-X distributed-memory multiprocessor toward;s tolerating communication latency. The EM-X overlaps computation with communication for latency tolerance by multithreading. In particular, we present two types of hardware support for remote memory access: (1) priority-based packet scheduling for thread invocation, and (2) direct remote memory access. The priority-based scheduling policy extends a FIFO ordered thread invocation policy to adopt to different computational needs. The direct remote memory access is designed to overlap remote memory operations with thread execution. The 80-processor prototype of EM-X is developed and is operational since December 1995. We execute several programs on the machine and evaluate how the EM-X effectively overlaps computation with communication toward tolerating communication latency for high performance parallel computing.

    CiNii

  • WWWの楽しみ方

    山名 早人

    電子情報通信学会誌   79 ( 1 ) 65 - 67  1996年01月

    CiNii J-GLOBAL

  • 高並列計算機EM-Xによるradixソートの実行

    児玉祐悦, 坂根広史, 佐藤三久, 山名早人, 坂井修一, 山口喜教

    並列処理シンポジウム論文集   1996  1996年

    J-GLOBAL

  • 複雑現象の解明における超高速計算機利用技術の研究

    関口智嗣, 佐藤三久, 山名早人

    国立機関原子力試験研究成果報告書   35(1994)  1996年

    J-GLOBAL

  • 投機的実行研究の最新動向とタスク間投機的実行の有効性

    山名 早人, 佐藤 三久, 児玉 祐悦, 坂根 広史, 坂井 修一, 山口 喜教

    全国大会講演論文集   51 ( 6 ) 75 - 76  1995年09月

     概要を見る

    投機的実行(Speculative Execution)に関して,94年〜95年7月のサーベイを報告すると共に,我々が提案しているタスク間投機的実行の有効性を示す.なお,94年までの調査については,文献[2]を参照していただきたい.調査対象とした論文を表1に示し,近年の投機的実行に関する論文数の推移を図1に示す.図1に示すように,VLIWやSuperscalarが出始めた91年頃から投機的実行に関する論文が急増している.これらの研究は,(1)プログラムに内在する命令レベルの並列性調査,(2)Superscalar/VLIWでの投機的実行,(3)並列計算機での投機的実行に分類される.90年代前半は(1)に関する論文が多かったが,その後,(2)に関する論文が急増し,94-95年の論文はその中でも,分岐予測(branch prediction)と条件付実行(predicated execution)に関するものが全体の7割を占め,89-93年に多かったアーキテクチャ上の実現方法に関する論文が激減した.本報告では,現在最もホットな話題となっている分岐予測と条件付実行を中心に説明する.

    CiNii J-GLOBAL

  • Unlimited Speculative Executionの制御オーバヘッド削減手法

    山名 早人, 佐藤 三久, 児玉 祐悦, 坂根 広史, 坂井 修一, 山口 喜教

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   95 ( 80 ) 33 - 40  1995年08月

     概要を見る

    本報告では,タスクレベルの投機的実行を並列計算機上で実現する際に生じる制御オーバヘッド削減について検討する.並列計算機EM-4上に分散制御方式をソフトウェアにより実現し,制御オーバヘッドの発生原因毎に,投機的実行の効果に与える影響を調べた.その結果,放送のレイテンシやタスクの起動処理にかかるオーバヘッドの影響は小さく,制御情報を処理する放送受信処理が最も性能に影響を与えることがわかった.放送受信処理が1/4レに削減された場合,現在のインプリメントの約3倍の性能向上が期待できる.この時,理論速度向上が13.6倍のプログラムを32台のPEで実行すると,最大10倍の速度向上が得られる.

    CiNii J-GLOBAL

  • 細粒度通信機構をもつ並列計算機EM-Xによる疎行列問題の並列処理

    佐藤 三久, 児玉 祐悦, 坂根 広史, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   95 ( 80 ) 209 - 216  1995年08月

     概要を見る

    本稿では、疎行列問題の一つとして、疎行列のCG法を取り上げ、並列計算機EM-Xでの並列プログラミングと性能について報告する。EM-Xでは、データ駆動機構により、細粒度パケットによる通信が効率的に処理できる。この機構により、従来のメッセージ通信型プロセッサに比べて、極めて低レーテンシの通信が可能になるだけでなく、相手のメモリに対し直接書き込めることにより、柔軟なプログラミングが可能になっている。CG法の主要な演算である行列ベクトル積の計算について、Complete exchangeのブロック転送を使う方法と、計算中に要素ごとにリモートメモリアクセスする方法を比較した。その結果、プロセッサ数が多くなるとリモートメモリアクセスによる方法がマルチスレッドでレーテンシを隠蔽することにより、ブロック転送による方法の性能にほぼ同程度になり、行列がさらに疎になると有効なことが分かった。

    CiNii J-GLOBAL

  • 並列計算機EM-4におけるマクロタスク間投機的実行の分散制御方式

    山名,佐藤, 児玉,坂根, 坂井,山口

    情報処理学会論文誌   36 ( 7 ) 1578 - 1588  1995年07月

     概要を見る

    本論文では、マクロタスクと呼ぶタスクレベルでの投機的実行を並列計算機上で行うマクロタスク間投機的実行の効果的な制御手法として分散制御方式を提案する。一般に、投機的実行における理想的なモデル(Oracle Model)を仮定すると、投機的実行を行わない場合に比較して12?630倍の速度向上が得られる。しかし、実際には、投機的実行時に発生する制御オーバヘッドのために、上記の理論性能に近づくのは難しく、制御オーバヘッドの小さい制御手法が必要とされる。本論文で提案する分散制御方式は、各マクロタスクが(1)自分の後続のマクロタスクを動的に生成すると共に、(2)システム全体に放送される制御情報を随時監視し各マクロタスク自身が次の状態を決定することにより実現される。これにより、マクロタスクの制御を並列化できると共に、マクロタスク制御オーバヘッドがマクロタスク数に依存しなくなり、高速な投機的実行が可能となる。本方式を並列計算機EM?4上にインプリメントし、Boolean Recurrenceループを用いて評価した結果、従来提案されている一般的なタスク制御方式である集中制御方式を用いた場合に比較し、マクロタスク制御オーバヘッドを小さくできることを確認した。

    CiNii

  • A macrotask-level unlimited speculative execution on multiprocessors

    Hayato Yamana, Mitsuhisa Sato, Yuetsu Kodama, Hirofumi Sakane, Shunichi Sakai, Yoshinori Yamaguchi

    Proceedings of the International Conference on Supercomputing   129361   328 - 337  1995年07月

     概要を見る

    The purpose of this paper is to propose a new fast execution scheme of FORTRAN programs. The proposed scheme enables the fast initiation of macrotask when its data dependences are satisfied even if the control flow has not been reached. The previous schemes to parallelize a program including conditional branches have a number of problems - 1) Though the theoretical speedup ratio is up to N when N conditional branches are jumped on either a VLIW or a superscalar machine, the number of N is restricted up to the number of ALU's on a chip, 2) Since conventional control schemes use a few processors to control macrotasks, the overhead to control them is large. The proposed scheme solves these problems - 1) The proposed scheme enables speculative execution between coarse grain tasks, i.e., macrotasks, on multiprocessors by jumping many conditional branches, 2) A distributed control scheme is proposed and implemented on the EM-4 multiprocessor to decrease the control overhead of macrotasks. Preliminary evaluations show that the control overhead of the proposed scheme is smaller than that of the other control schemes. Moreover, it is confirmed that the distributed control can be implemented by using software when the average macrotask execution time is larger than 14.4 (Is on the EM-4 multiprocessor.

    DOI

  • A SPECULATIVE EXECUTION SCHEME OF MACROTASKS FOR PARALLEL-PROCESSING SYSTEMS

    H YAMANA, T YASUE, Y ISHII, Y MURAOKA

    SYSTEMS AND COMPUTERS IN JAPAN   26 ( 6 ) 1 - 15  1995年06月

     概要を見る

    This paper considers the high-speed execution of FORTRAN programs on parallel processing systems and proposes the parallelizing scheme of the program and execution based on the speculative execution over multiple conditional branches. Several techniques have been proposed that parallelize the program including conditional branches.
    A method which does not use the speculative execution is: (1) the method called earliest execution condition determination. As the methods which use the speculative execution are: (2) speculative evaluation scheme for a single conditional branch for the superscalar processor or VLIW computer; and (3) multiple speculative execution scheme assuming particular loops.
    There are the following problems: (1) sufficient parallelism is not extracted only by determining the earliest execution condition; (2) the speed improvement that can be realized by the speculative execution of a single conditional branch is at most twofold; and (3) the scheme can be applied only to particular loops.
    This paper divides the program into macrotasks, and defines the multiple stage speculative execution scheme between macrotasks on the general parallel processing system. Then, the macrotask execution control for the individual macro-task is proposed, using the execution start condition, the control establishment condition and the execution stop condition.

    DOI

  • 分散共有メモリ型並列計算機における1重Doacross型ループの実行時間算出法

    山名,安江, 村岡,山口

    電子情報通信学会論文誌   J78-D-1/2   170 - 178  1995年

  • The EM-X parallel computer: Architecture and basic performance

    Y KODAMA, H SAKANE, M SATO, H YAMANA, S SAKAI, Y YAMAGUCHI

    22ND ANNUAL INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE, PROCEEDINGS     14 - 23  1995年

     概要を見る

    Latency tolerance is essential in achieving high performance on parallel computers for remote function calls and fine-grained remote memory accesses. EM-X supports interprocessor communication on an execution pipeline with small and simple packets. It can create a packet in one cycle, and receive a packet from the network in the on-chip buffer without interruption. EM-X invokes threads on packet arrival, minimizing the overhead of thread switching. It can tolerate communication latency by using efficient multi-threading and optimizing packet flow of fine grain communication. EM-X also supports the synchronization of two operands, direct remote memory read/write operations and flexible packet scheduling with priority. This paper describes distinctive features of the EM-X architecture and reports the performance of small synthetic programs and larger more realistic programs.

    DOI

  • EM-X parallel computer: Architecture and basic performance

    Yuetsu Kodama, Hirohumi Sakane, Mitsuhisa Sato, Hayato Yamana, Shuichi Sakai, Yoshinori Yamaguchi

    Conference Proceedings - Annual International Symposium on Computer Architecture, ISCA     14 - 23  1995年01月

     概要を見る

    Latency tolerance is essential in achieving high performance on parallel computers for remote function calls and fine-grained remote memory accesses. EM-X supports interprocessor communication on an execution pipeline with small and simple packets. It can create a packet in one cycle, and receive a packet from the network in the on-chip buffer without interruption. EM-X invokes threads on packet arrival, minimizing the overhead of thread switching. It can tolerate communication latency by using efficient multi-threading and optimizing packet flow of fine grain communication. EM-X also supports the synchronization of two operands, direct remote memory read/write operations and flexible packet scheduling with priority. This paper describes distinctive features of the EM-X architecture and reports the performance of small synthetic programs and larger more realistic programs.

  • ループ間DOACROSS方式の並列計算機EM-4上での評価

    山名 早人, 佐藤 三久, 児玉 祐悦, 坂根 広史, 坂井 修一, 山口 喜教

    全国大会講演論文集   48 ( 6 ) 19 - 20  1994年03月

     概要を見る

    従来, Doall型以外のループを並列計算機上で実行する方式としてDoacross[Cytr86]やPipelining[PaKL80]が提案されている. しかし, これらの方式は, 元々, 密結合型の並列計算機を対象としたものであり, メッセージ通信によりプロセッサ間のデータ交換を行う祖結合型の並列計算機では, 十分な処理性能を引き出すことができない. これは, 以下に述べる問題によるものである. ここで, ループの繰り返し回数をNとする. ・ Doacrossでは, プロセッサ間の通信ディレイが(N-l)回分, 全体の実行時間に加算されるため, が十分に小さくないと処理速度の向上が得られない. ・ Pipeliningでは, 各文の実行時問Tsが(N-l)回分, 全体の来行時間に加算されるため, Tsが十分に小さくないと処理速度の向上が得られない. 祖結合型の並列計算機では, メッゼージ通信によりプロセッサ間のデータ交換を行うため,を小さくすることが困難である. また, Tsには, 他のプロセッサ間でのデータの入出力時間が含まれるため, Tsを小さくすることも困難である. これに対して, 本報告で提案するループ間Doacrossは, プロセッサ問の通信ディレイが全体の実行時間に与える影響, 及び, 各文の実行時問Tsが全体の実行時間に与える影響を小さくする方式である. 本...

    CiNii J-GLOBAL

  • 並列計算機EM-Xのプロセッサ・ネットワークインターフェースの最適化の検討

    坂根 広史, 児玉 祐悦, 佐藤 三久, 山名 早人, 坂井 修一, 山口 喜教

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告   94 ( 13 ) 105 - 112  1994年01月

     概要を見る

    我々は現在並列計算機EM-Xに用いるシングルチッププロセッサEMC-Yの設計を進めている.EMC-YはRISCアーキテクチャを採用した演算部およびネットワークインタフェースを内蔵しており,両者を密に融合している.すでに開発したEM-4の評価に基づき,ネットワークの性能を十分に引き出すと同時に演算部の稼働率を高めるための工夫として,メモリアクセス方法の改良やパケットバッファの追加等をおこなう.新しい機能について,レジスタ転送レベルシミュレータを用いてEMC-Yの内部動作を詳しく調べることによってその効果を確かめ,より効率のよい設計パラメータを得た.

    CiNii J-GLOBAL

  • 並列処理システムにおけるマクロタスク間先行評価方式

    山名,安江, 石井,村岡

    電子情報通信学会論文誌   J77-D-1/5   343 - 353  1994年

  • 並列計算機EM-4におけるループ間Doacross方式の自動最適化

    山名早人, 佐藤三久, 児玉祐悦, 坂根広史, 坂井修一, 山口喜教

    情報処理学会研究報告   94 ( 50(ARC-106) )  1994年

    J-GLOBAL

  • 並列計算機EM-4における多段先行評価の分散制御方式

    山名早人, 佐藤三久, 児玉祐悦, 坂根広史, 坂井修一, 山口喜教

    並列処理シンポジウム論文集   1994  1994年

    J-GLOBAL

  • 投機的実行の現状とUnlimited Speculative Execution Schemeの提案

    山名早人, 佐藤三久, 児玉祐悦, 坂根広史, 坂井修一, 山口喜教

    情報処理学会研究報告   94 ( 66(ARC-107) )  1994年

    J-GLOBAL

  • 並列計算機用要素プロセッサEMC-Yの基本性能評価

    坂根広史, 児玉祐悦, 佐藤三久, 山名早人, 坂井修一, 山口喜教

    情報処理学会研究報告   94 ( 66(ARC-107) )  1994年

    J-GLOBAL

  • 投機的実行の現状と Unlimited Speculative Execution Scheme の提案

    山名

    情報処理学会研究報告   107   105 - 112  1994年

    CiNii

  • 多段先行評価方式の並列計算機EM-4上での予備評価

    山名 早人, 佐藤 三久, 児玉 祐悦, 坂根 広史, 坂井 修一, 山口 喜教

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング]   93 ( 72 ) 105 - 112  1993年08月

     概要を見る

    本報告では,多段の条件分岐に渡る投機的実行手法である多段先行評価方式を,データ駆動機構を持つ分散メモリ型並列処理計算機EM-4上にインプリメントし,予備評価を行った結果を報告する.本方式は,(1)先行評価時の副作用問題の解決,(2)必要プロセッサ数増大問題の解決,(3)条件分岐の多段に渡る先行評価の実現,(4)一般的な並列処理システムを対象,という特徴を持つ.EM-4上での予備評価の結果,タスクサイズが10命令の時,制御オーバーヘッドを0と仮定した理論性能向上の約50%,タスクサイズが100命令の時,約90%の性能を引き出せることがわかった.

    CiNii J-GLOBAL

  • 分散メモリ型並列計算機AP1000上への疎行列用BLAS-3の実装

    内野 聡, 萩原 純一, 安江 俊明, 山名 早人, 村岡 洋一

    全国大会講演論文集   46 ( 1 ) 59 - 60  1993年03月

     概要を見る

    疎行列を対象としたBLAS-3(Basic Linear Algebra Subrou-tine Leve13)を並列化し、富士通の分散メモリ型並列計算機AP1000上に実装した。BLAS-3は、次のサブルーチンで構成されている。・行列の積(GEMM,SYMM)・対称行列に対する階数kと2kの更新(SYRK,SYRK)・三角行列との積(TRMM)・右辺が複数列で、三角行列を係数に持つ連立一次方程式(TRSM)このうちTRSM以外の5つは、行列同士の積が主演算である。そのため、実装にあたって疎行列の積の並列化方法が重要になる。密行列の積の並列化と比較して、疎行列の積の並列化においては、次の点が問題になる。1.疎行列の積C&amp;loarr;C+ABの計算においては、疎行列が圧縮されて格納されているためCの書き換えに時間がかかる。2.後巡する方法で行列をセルヘ分割した時、各セル(PE)の持つ部分行列の大きさに偏りがあるために、その格納に必要なメモリと通信量に偏りが生じる。そこで、本稿では1点を解決するための計算の実行順序について提案し、その計算順序で実行した場合における2の点を解決するための通信方法について提案する。さらに、提案した方法に基づいて実装したGEMM(非対称行列同士の積)ルーチンを用いて評価する。なお、疎行列は以下の条件で格納されているものとする。汎用的なプログラムとするた...

    CiNii J-GLOBAL

  • DOACROSS型ループにおける最適なデータ通信順序

    山名 早人, 村岡 洋一

    全国大会講演論文集   46 ( 6 ) 35 - 36  1993年03月

     概要を見る

    本報告では,DOACRCSS型ループの実行時間を最小にするデータ通信順序を求める.DOACROSS型ループ実行に関する従来の研究は,プロセッサの処理能力を表すパラメータとして演算命令の実行時間(以下,演算時間),及び,データ通信の遅延時間以下,通信遅延時間)を用いてきた.しかし,演算と通信を並列に処理できるマルチプロセッサ上で,DOACROSS型ループを実行する場合,これらのパラメータ以外に,通信ピッチを考慮いなくてはならない.通信ピッチは,プロセッサと相互結合網間のデータ入出力時間間隔である.通信ピッチがデータ通信の発生する時間間隔より大きい場合,通信が全体の実行時間の隘路となる.これは、データ通信が通信ピッチ以下の時間間隔で開始(以下,発行)できず,通信発行に遅延が生じるためである.この時,実際の実行時間は,従来の理論的な値よりも大きくなる.以下では,このような場合,データを定義順で他のプロセッサへ送らず,通信順序を変更することにより,実行智間を短縮できることを示す.

    CiNii J-GLOBAL

  • 先行評価に適したマクロタスク生成手法

    山名 早人, 安江 俊明, 石井 吉彦, 村岡 洋一

    全国大会講演論文集   46 ( 6 ) 37 - 38  1993年03月

     概要を見る

    従来提案しているマクロタスク間先行評価方式におけるマクロタスク構成方法について報告する.先行評価方式とは,プログラム中の条件分岐文を越えて実行を進める方式である.マクロタスク生成の目的は,(1)変数の2重定義に件う副作用間題の回避,及び(2)仮実行(投棄的実行)に必要なプロセッサ数の削減の2点である.先行評価によって生じる副作用は,先行評価中に,同一データに対する2重定義が行われることによって生じる,本稿では,2重定義を回避するために,各マクロタスクヘのデータ依存間係が制御によらず一意になるようにマクロタスクを構成する.次に,実行時のプロセッサ数を削減するため,マクロタスク生成においては,データ依存と制御依存の間係を用いて,マクロタスクを融合した場合も,先行評価の効果を失わない部分を1つのマクロタスクとする.これは,従来のマクロタスク生成手法が制御依存のみを考えていたのに対し,データ依存を考えた生成手法として新規性を持つ.

    CiNii J-GLOBAL

  • A flow‐executing scheme for DOACROSS loops on dynamic dataflow machines

    Yoshihiko Ishii, Hayato Yamana, Toshiaki Yasue, Yoichi Muraoka

    Systems and Computers in Japan   24 ( 4 ) 1 - 12  1993年

     概要を見る

    This paper modifies a flow‐executing scheme of the color‐reuse type, using multiple initial loop control packets, and then proves that the flow‐executing scheme is best suited for executing DOACROSS loops on dynamic dataflow machines. Flow‐executing schemes can be divided into four categories: (1) those using a single initial loop control packet
    (2) those using multiple initial loop packets
    (a) the color overflow type
    and (b) the color reuse type. Then the flow‐executing scheme can be classified into Classes (1‐a), (1b), (2‐a), and (2‐b) through the combination of Categories (1), (2), (a), and (b). This paper suggests that Class (2‐b) is best suited for executing DOACROSS loops, as it extracts full parallelism from DOACROSS loops, no sychronization overhead exists, and no memory access overhead exists after the synchronization. Copyright © 1993 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • 超並列のためのマルチアーキテクチャコンパイラはれだすの内部表現

    安江 俊明, 金子 正教, 萩原 純一, 田原 歩, 山名 早人, 村岡 洋一

    全国大会講演論文集   45 ( 5 ) 335 - 336  1992年09月

     概要を見る

    はれだすは超並列化マルチアーキテクチャコンパイラの開発を目的とした開発環境である。本稿では、はれだすの内部表現とその上での先行評価表現方法について述べる。超並列化のための1つのアプローチとして、先行評価により既存言語中に陰に含まれる並列性を抽出する方法がある。先行評価とはプログラム中の制御依存関係を変更することにより、データ依存関係以外の先行制約関係を排除する高速化手法である。しかし、従来の先行評価では、命令レベルスケジューリングにおける並列性不足の補助手段としてしか実現されていない。はれだすでは、内部表現レベルで汎用的に先行評価を扱うことができるため、先行評価により引き出し得る並列性を有効に利用することが可能となる。本稿では、この内部表現による先行評価の表現方法について述べる。まず第2節においてはれだすの構成を述べる。続く第3節で、内部表現の構成と特徴について説明したのち、第4節で先行評価の表現方法とその操作方法について詳説する。

    CiNii J-GLOBAL

  • はれだすにおけるループ間依存関係の記述方法とその適用例

    金子 正教, 安江 俊明, 萩原 純一, 田原 歩, 山名 早人, 村岡 洋一

    全国大会講演論文集   45 ( 5 ) 337 - 338  1992年09月

     概要を見る

    本稿では、マルチアーキテクチャコンパイラ開発環境-はれだす-におけるループ間依存関係の記述方法とその適用例について述べる。従来、プログラム中におけるデータ依存関係を特徴付ける方法して依存ベクトルが用いられている。しかし、この依存ベクトルは、同一ループ内あるいはループ外におけるデータ依存関係を記述するものであり、ループ間のデータ依存関係を特徴付けるための一般的な記述方法は定義されていなかった。これに対して本稿では、ループ間依存ベクトルを定義し、ループ間のデータ依存関係を記述する方法について述べる。また、ループ間依存ベクトルを用いることにより、ループ融合可能判定が従来手法に比べて容易に行えることを示し、さらに、各ループの並列性を失うことなくループを融合するためのループ間依存ベクトルの適用法について述べる。

    CiNii J-GLOBAL

  • 先行評価を用いたマクロタスクの多段仮実行方式における分散制御手法

    山名 早人, 安江 俊明, 石井 吉彦, 村岡 洋一

    全国大会講演論文集   45 ( 6 ) 121 - 122  1992年09月

     概要を見る

    本報告では、先行評価を用いたマクロタスクの多段仮実行方式におけるマクロタスクの効果的な制御手法として、マクロタスクの分散制御手法を提案する。多段仮実行方式は、プログラム中のデータ依存と制御依存の内、データ依存を保証した段階でマクロタスクと呼ぶタスクの実行を開始し、後で制御依存に基づいて制御確定したマクロタスクを選択する手法である。本方式を実際のマルチプロセッサ上で実現するにあたっての問題点は、実行時に発生する各種オーバヘッドの削減である。実行時のオーバヘッドには、制御が確定しない段階で実行を開始することにより発生する(1)メモリバンド幅の増大に起因するオーバヘッド、(2)多数のマクロタスクを制御するために発生する制御オーバヘッドがある。本稿では、これら2つのオーバヘッドの内、(2)のオーバヘッドを削減するための手法として、プロセッサにマクロタスク制御専用のハードウェアを付加し、集中制御を廃したマクロタスクの制御手法を提案する。(1)の問題は、マクロタスクのスケジューリング問題であり、今後の課題である。

    CiNii J-GLOBAL

  • 多重ループの最適なベクトル化手法の提案

    新開 正史, 安江 俊明, 金子 正教, 山名 早人, 村岡 洋一

    全国大会講演論文集   44 ( 5 ) 93 - 94  1992年02月

     概要を見る

    本稿では、多重ループの最適なベクトル化を実現するために、(1)内側ループからのタイト化、(2)積極的なループ分割、という2つの解析方針に基づくベクトル化手法を提案する。従来の多重ループのベクトル化手法では、(1)外側ループからタイト化するためループ分割が十分できない、(2)ループ分割による損得の評価が不完全である、という問題があり、最適なベクトル化ができない。そこで、本稿ではこれらの問題を解決するための解析手法を提案するとともに、実機(富士通のVP220O)において本手法を定量的に評価する。

    CiNii J-GLOBAL

  • マルチプロセッサシステムにおける多段先行評価制御手順

    石井 吉彦, 安江 俊明, 山名 早人, 村岡 洋一

    全国大会講演論文集   44 ( 6 ) 27 - 28  1992年02月

     概要を見る

    本稿では,マルチプロセツサシステムにおける,タスク一段の先行評価の制御(一段先行評価制御)と,タスク多段に渡る先行評価の制御(多段先行評価制御)との違いについて述べる.我々は,一投先行評価制御,及び,多段先行評価制御を具体的なマルチプロセッサシステム(並列処理システム-晴-)に沿って提案してきた.本稿では,一段先行評価制御,及び,多段先行評価制御を時相論理で表現し一般化する.その後,この時相論理を用いて,制御の違いを推論する,また,この推論によって,我々が提案してきた具体的なマルチプロセッサシステムに沿った一段先行評価制御,及び,多段先行評価制御の正当性を述べる.

    CiNii J-GLOBAL

  • 先行評価を用いたFORTRANプログラムの並列化と実行方式

    山名 早人, 安江 俊明, 村岡 洋一

    全国大会講演論文集   44 ( 6 ) 29 - 30  1992年02月

     概要を見る

    本報告では,FORTRANプログラムをマルチプロセッサ上で高速に実行するための方式として,先行評価を用いたプログラムの並列化手法と実行方式を提案する.従来,条件分岐を含むプログラムを並列化する手法として,タスクの最速実行条件を求める手法や制御依存を越えた実行方式が提案されている.しかし,(1)最速実行条件を求めるだけでは十分な並列性が得られない,(2)対象プログラムが限定され,かつ,実行方式の提案がないといった問題を持つ.これらの問題に対して我々は,フローグラフ展開を用いた仮実行方式,データ駆動を用いた条件分岐のn段先行評価制御方式を提案している.本稿では,これらの手法を一般化すると共に,理論的な速度向上について論じる.

    CiNii J-GLOBAL

  • 分散メモリ型並列計算機におけるDOループ処理方式の提案

    萩原純一, 安江俊明, 金子正教, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   92 ( 172(CPSY92 9-19) )  1992年

    J-GLOBAL

  • 共有メモリ型マルチプロセッサにおける共有メモリアクセス競合緩和のための一手法

    山名早人, 村岡洋一

    電子情報通信学会技術研究報告   92 ( 172(CPSY92 9-19) )  1992年

    J-GLOBAL

  • 早稲田大学理工学部電子通信学科村岡洋一研究室

    田渕 仁浩, 山名 早人

    人工知能学会誌   6 ( 3 )  1991年05月

    CiNii

  • Parallel execution scheme of conditional branches with graph unfolding for the parallel processing system - Harray

    Hayato Yamana, Toshiaki Yasue, Jun Kohdate, Yoichi Muraoka

    Bulletin of Centre for Informatics (Waseda University)   12   8 - 18  1991年03月

     概要を見る

    The purpose of this paper is to propose and evaluate a new scheme, called the Preceding Activation Scheme with Graph Unfolding, which translates a FORTRAN program into a dataflow graph and executes it efficiency. The problems in restructuring a FORTRAN program into a dataflow graph is that a FORTRAN program has an explicit control flow, which results in little parallelism because many gate-operations, such as T/F gates, are introduced in the dataflow graph to synchronize the data mevement. Thus, discarding these gate-operations is the key to expose parallelism from a FORTRAN program, which is the main purpose of the proposed scheme. In the software simulation, it is shown that the execution speed with the proposed scheme for flow graphs without backward branches is about 1.5 times as fast as that of the pure dataflow computer. Moreover, the execution speed is 2.7 times as fast as that of the pure dataflow computer if a flow graph including backward branches is unfolded by the proposed scheme.

    J-GLOBAL

  • 並列処理システム : 晴における条件分岐文の並列処理とその効果

    山名 早人, 安江 俊明, 神舘 淳, 村岡 洋一

    全国大会講演論文集   42 ( 6 ) 60 - 61  1991年02月

     概要を見る

    本報告では,プログラム内の条件分岐を並列処理することによるプログラム実行時間の短縮について述べ,我々の提案している並列処理システム-晴-上での条件分岐並列処理手法の性能予測を示す.プログラム中の条件分岐を並列処理しようという試みは,VLIW型計算機を中心にこれまでに数多く行われている.しかし,これらの方式は,大規模な並列処理計算機を対象とした方式ではないため,条件分岐の先行評価段数が小さく,得られる並列性も小さい.これに対して,-晴-は1000台規模の要素プロセッサを持つため,先行評価段数を大きくし,十分な並列性をプログラムから抽出する.先行評価段数を大きくする手法として,我々はこれまでにフローグラフ展開を提案している.フローグラフ展開とは,条件分岐点における同期をとらず,条件の成立・不成立によって分かれる全ての制御フローについて演算を同時に実行し,後で制御に基づいて有効となったフローを選択する手法である.これまでの評価では,フローグラフ展開の対象となる部分について,1.5倍-5.2倍の処理速度の向上を確認している.本稿では,まず,(1)条件分岐の並列処理による処理速度向上をいくつかの科学技術計算プログラムのシミュレーション結果を用いて示し,次に(2)フローグラフ展開による処理速度の向上が,プログラム全体として考えた時に,どの程度期待できるかについて評価した結果を示す.

    CiNii J-GLOBAL

  • 並列処理システム : 晴の要素プロセッサ制御方式

    石崎 一明, 石井 吉彦, 萩本 猛, 山名 早人, 村岡 洋一

    全国大会講演論文集   42 ( 6 ) 62 - 63  1991年02月

     概要を見る

    本報告では、並列処理システム-晴-における仮実行時の要素プロセッサ(PE)内の制御方法について述べる。仮実行方式とは、プログラムの並列実行を妨げる原因の一つである制御依存を超えてeagar evaluationを行う方式である。従来のパイプラインプロセッサ等のeagar evaluationは、単一プロセッサ内で行われていたためその範囲が小規模であった。-晴-では、仮実行を複数プロセッサを用い、多段にわたってeagar evaluationを行う。ここで問題となるのは分岐が決定した際の、複数PE間にわたるPEの制御方法である。制御を一箇所で集中的に行うと1000台規模のプロセッサではオーバヘッドが無視できない。そこで、我々は実行制御をPE毎に分散して行う方式を提案している。本報告では、まず仮実行の単位としてActivation Setという制御単位を定義する。次に、Activation Setを用いた仮実行時のPE毎に独立した制御方法について、その概要を述べる。さらに、PE内での具体的な処理手順を示す。

    CiNii J-GLOBAL

  • 並列処理システム-晴-におけるプロトタイプFORTRANコンパイラ

    安江俊明, 神舘淳, 山名早人, 村岡洋一

    並列処理シンポジウム論文集   1991  1991年

    J-GLOBAL

  • 並列処理システム-晴-における条件分岐の先行評価制御方式

    山名早人, 石崎一明, 安江俊明, 村岡洋一

    情報処理学会研究報告   91 ( 64(ARC-89) )  1991年

    J-GLOBAL

  • 並列処理システム-晴-における大域記憶へのアクセス競合緩和手法

    山名早人, 大段智志, 村岡洋一

    並列処理シンポジウム論文集   1991  1991年

    J-GLOBAL

  • ループ並列化手法“Dependent-flowループ化”の提案

    金子正教, 中里倫明, 安江俊明, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   91 ( 130(CPSY91 4-33) )  1991年

    J-GLOBAL

  • 並列処理システム-晴-の演算実行機構の構成

    萩本猛, 山名早人, 村岡洋一

    情報処理学会全国大会講演論文集   43rd ( 6 )  1991年

    J-GLOBAL

  • 先行評価に適した並列計算機のネットワーク構成

    石崎一明, 安江俊明, 山名早人, 村岡洋一

    情報処理学会研究報告   91 ( 64(ARC-89) )  1991年

    J-GLOBAL

  • 並列処理システム-晴-におけるスケジューリング方式 プロセッサ間通信・同期削減のためのタスク生成方針の提案

    萩原純一, 安江俊明, 山名早人, 村岡洋一

    情報処理学会全国大会講演論文集   43rd ( 6 )  1991年

    J-GLOBAL

  • An environment for dataflow program development of parallel processing system‐harray

    Hayato Yatnana, Jun Kohdate, Toshiaki Yasue, Associate Members, Yoichi Muraoka

    Systems and Computers in Japan   22 ( 8 ) 26 - 38  1991年

     概要を見る

    This paper considers the dataflow program development environment for the system programmer who develops the compiler and proposes a method to improve the debugging efficiency. The conventional debugging methods are either: (1) to monitor the packet in the dataflow ring, or (2) to specify the function containing a bug. The former contains unsolved problems such as the determination of start timing for the data monitoring and the presentation of a large amount of information to the user. The latter contains a problem in that the debugging is impossible at the dataflow level. This paper aims at the solution of those problems, and the detailed debugging is executed on the software, not on the real machine. The information presentation on a dataflow graph is considered for systematic presentation of the debugging information. As the development environment, the parallel processing system Harray proposed by the authors is considered. In the proposed system, a two‐stage process is employed in which the first step is to specify the macro‐block (which is a task unit in Harray) containing the bug, and the second step is the detailed debugging of the specified macro‐block. The debugging within the macroblock is executed on the software, and the debugging efficiency is improved by: (1) diagram representation for easier visual recognition, and (2) backward tracing function. Copyright © 1991 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • 並列処理システム-晴-におけるデ-タフロ-プログラム開発環境

    山名 早人

    電子情報通信学会論文誌. D-1, 情報・システム. 1, 情報処理   73 ( 6 ) p569 - 579  1990年06月

    CiNii J-GLOBAL

  • データ駆動計算機におけるカラー管理方式の実装 DOACROSS型ループの高速化をめざして

    石井吉彦, 安江俊明, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   90 ( 143(CPSY90 12-37) )  1990年

    J-GLOBAL

  • 並列処理システム-晴-のパケット管理機構の構成

    石崎一明, 山名早人, 村岡洋一

    情報処理学会研究報告   90 ( 90(ARC-85) )  1990年

    J-GLOBAL

  • 並列処理システム-晴-における大域記憶

    山名早人, 片山啓, 草野義博, 村岡洋一

    並列処理シンポジウム論文集   1990  1990年

    J-GLOBAL

  • 並列処理システム-晴-におけるマクロブロック管理方式

    山名早人, 安江俊明, 神館淳, 村岡洋一

    電子情報通信学会技術研究報告   90 ( 143(CPSY90 12-37) )  1990年

    J-GLOBAL

  • 科学技術計算用並列処理システム-晴-におけるカラー管理方式の評価

    石井吉彦, 安江俊明, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   90 ( 11(CPSY90 1-4) )  1990年

    J-GLOBAL

  • 科学技術計算用並列処理システム-晴-における関数実行方式

    石崎一明, 神舘淳, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   90 ( 11(CPSY90 1-4) )  1990年

    J-GLOBAL

  • 並列処理システム-晴-におけるFORTRAN to Dataflowコンパイラ

    安江俊明, 神館淳, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   90 ( 143(CPSY90 12-37) )  1990年

    J-GLOBAL

  • Parallel processing system -Harray-

    H. Yamana, Y. Kusano, T. Yasue, J. Kohdate, T. Hagiwara, Y. Muraoka

    Computing Systems in Engineering   1 ( 1 ) 111 - 130  1990年

     概要を見る

    The parallel processing system -Harray- for scientific computations is introduced. The special features of the -Harray- system described are (1) the Controlled Dataflow (CD flow) mechanism, (2) the preceding activation scheme with graph unfolding, and (3) the visual environment for dataflow program development. The CD flow mechanism, controlling the sequence of execution in two levels-dataflow execution in each processor and control flow execution between processors-is adapted in the -Harray- system. Though dataflow computers are expected to extract parallelism fully from a program, they have many problems, such as the difficulty of controlling the sequence of execution. To solve these problems, the CD flow mechanism is adopted. The preceding activation scheme makes it possible to bypass control dependencies in a program, such as IF-GOTO statements which decrease the parallelism in a program. The flow graph of a program is unfolded to decrease the control dependency and to increase the parallelism. The visual environment helps programmers in the writing and debugging of a dataflow program. The environment consists of a graphical editor of a dataflow graph, and a debugger. These special features of the -Harray- system and its execution mechanism are described. © 1990.

    DOI

  • 並列処理システム-晴-におけるカラー管理方式

    石井 吉彦, 安江 俊明, 山名 早人, 村岡 洋一

    全国大会講演論文集   39 ( 3 ) 1798 - 1799  1989年10月

     概要を見る

    本稿では、並列処理システム-晴-[1]におけるカラー管理方式の一提案を行なう。-晴-では、マクロブロック[1]という処理単位内で動的データ駆動方式を採用している。動的データ駆動方式ではループの処理にカラーを用いる。しかし、カラーは有限であるため、カラーの資源管理が必要となる。カラーの資源管理、即ち、カラーの回収・再割当に関して従来の方式では、「カラーのオーバフロー時に新しいループを生成する方法」が提案されている[2]。しかしながら、ループ生成のオーバヘッドが大きいという問題を持つ。また、計算機資源は有限であるから、計算機資源以上のカラーを用いても、処理速度向上は望めない。即ち、計算機資源に見合ったカラーを使用すれば良い。これらの点をふまえて、本稿では、必要以上のカラーを使用せず、カラーの回収・再割当のオーバヘッドを削減したループ処理方式を提案する。以下では、まず、ループ本体に対しデータフロー解析を行ない、カラーの必要個数(Lで表わす)を求める。そして、カラーのオーバフローを回避し、Lで制限されたカラーを回収・再割当するループ処理方式を示す。なお、今回はLが計算機資源以下の場合について報告する。

    CiNii J-GLOBAL

  • 並列処理システム-晴-における実行時エラーの処理

    萩本 猛, 草野 義博, 山名 早人, 村岡 洋一

    全国大会講演論文集   39 ( 3 ) 1800 - 1801  1989年10月

     概要を見る

    我々は,科学技術計算用並列処理システム-晴-(-HARRAY-:IIybrid ARRAY)を提案している).-晴-は,科学技術計算用にF0RTRANで記述されたプログラムを高速に実行することを目的とし,要素プロセッサを1024個持つ並列処理システムである.-晴-の実行方式は,プログラムをコンパイル時にマクロブロックという単位に分割し,マクロブロック間をコントロールフロー,マクロブロック内をデータフローで処理を行うCDフロー方式である.データフローのプログラムでは,後述するゲート後置を行うと,計算機資源が無限にあると仮定したとき,実行速度が約3倍向上することを確認している.しかし,計算機資源は有限であるため,-晴-では,プログラムの並列度が計算機資源よりも小さい部分でゲート後置を行い,この部分の実行速度を向上させる.しかし,制御ゲートが実行時エラーを回避させるために設けられているとき,ゲート後置を行うと,その先行評価部分で,ゲート後置が原因の実行時エラーが発生する場合がある.この実行時エラーは,ユーザのプログラムの誤りが原因でないため,ユーザに報告することはできない.したがって,ゲート後置が原因となりえる実行時エラーが発生したとき,その発生原因がゲー置であるのかプログラムの誤りであるのかを判断する必要がある.本稿では,ゲート後置が原因となりえる実行時エラーが発生したとき,その...

    CiNii J-GLOBAL

  • 並列処理システム-晴-における構造体処理の実現

    山名 早人, 草野 義博, 村岡 洋一

    全国大会講演論文集   39 ( 3 ) 1802 - 1803  1989年10月

     概要を見る

    本稿では,並列処理システム-晴-〔1〕における構造体処理方式〔2〕の実現方法について述べる.-晴-では,実行方式にCDフロー(Controlled Dataflow)方式〔3〕を採用している.CDフロー方式では,マクロブロックと呼ぶ処理単位間でコントロールフロー制御をおこない,マクロブロック内でデータフロー実行をおこなう.データフロー実行には記憶の概念が存在しないが,実際に計算機を構成するにあたっては,大規模な構造体を格納するための構造体記憶が必要不可欠である.従来,構造体処理に関してI-ストラクチャ〔4〕等が提案されている.しかし,これらの方式はデータフロー方式の持つ単一代入則を厳密に実現したものであって,参照は複数回できるが,定義は1回のみという制限を持つ.したがって,二重定義時には,構造体をコピーしなければならず,オーバヘッドが発生する.-晴-では,構造体記憶(以下大域記憶と呼ぶ)に対して複数回の定義及び参照を可能とし,二重定義時のコピーオーバヘッドを無くした構造体処理方式を提案している〔2〕.本方式では,アクセス順序の保証を複数マクロブロックに及ぶ定義・参照に対しておこない,マクロブロック内に閉じた定義・参照は対象としない.これは,マクロブロック内で定義されたデータを同一マクロブロック内で使用する場合には,定義されたデータをらである.本稿では,まず-晴-の大域記憶及び...

    CiNii J-GLOBAL

  • 並列処理システム-晴-の低レベルプログラムビジュアル開発環境

    安江俊明, 神舘淳, 萩原孝, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   89 ( 19(CPSY89 1-5) )  1989年

    J-GLOBAL

  • 並列処理システム-晴-におけるフローグラフ展開

    荻原孝, 山名早人, 神館純, 村岡洋一

    情報処理学会研究報告   89 ( 30(ARC-75) )  1989年

    J-GLOBAL

  • 並列処理システム-晴-におけるCDフロー(Controlled Dataflow)方式

    山名早人, 草野義博, 神舘淳, 安江敏明, 村岡洋一

    電子情報通信学会技術研究報告   89 ( 168(CPSY89 45-58) )  1989年

    J-GLOBAL

  • 並列処理システム 晴

    萩原孝, 山名早人, 丸島敏一, 村岡洋一

    BIT (Tokyo)   21 ( 4 )  1989年

    J-GLOBAL

  • 並列処理システム-晴-におけるフローグラフ展開を用いたコンパイル手法

    神舘淳, 安江俊明, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   89 ( 168(CPSY89 45-58) )  1989年

    J-GLOBAL

  • A PRECEDING ACTIVATION SCHEME WITH GRAPH UNFOLDING FOR THE PARALLEL PROCESSING SYSTEM HARRAY

    H YAMANA, T HAGIWARA, J KOHDATE, Y MURAOKA

    PROCEEDINGS : SUPERCOMPUTING 89     675 - 684  1989年

     概要を見る

    The purpose of this work is to propose and evaluate the preceding activation scheme with graph unfolding, which translate a Fortran program into a dataflow graph and executes it efficiently. The problems in restructuring a Fortran program into a dataflow graph are that a Fortran program is not written in a single assignment rule and it has an explicit control flow. These problems result in little parallelism because many gate operations, such as T/F gates, are introduced in the dataflow graph to synchronize the data movement. Therefore, discarding these gate operations is the key to exposing parallelism in a Fortran program. The preceding activation scheme with graph unfolding is proposed to discard these gate operations. The result of the performance evaluation by the &#039;Harray&#039; software simulator is presented. It is shown that the execution speed with the proposed scheme for flow graphs without backward branches is about 1.5 times as fast as that with the extended activation scheme which initiates the execution only after it is confirmed that a basic block will be selected at a conditional branch. Moreover, the execution speed is 2.7 times as fast as that with the extended activation scheme if a flow graph including backward branches is unfolded by the proposed scheme.

  • 並列処理システム-晴-の待ち合わせ記憶構成

    山名 早人, 草野 義博, 萩原 孝, 村岡 洋一

    全国大会講演論文集   37 ( 1 ) 65 - 66  1988年09月

     概要を見る

    我々は、主に科学技術計算を目的とした並列処理システム-晴-を提案している。-晴-では、プログラムに内在する並列性を十分に引き出す為にデータフロー実行を取り入れている。データフロー実行では、ノードの発火制御を司る待ち合わせ記憶(WM:Waiting Memory)の高速化がシステム全体の高速化において重要なポイントとなる。本稿では、-晴-の試作機で用いる待ち合わせ記憶WMの構成について述べると共に、ソフトウェアシミュレータによる簡単な評価を行う。

    CiNii J-GLOBAL

  • 並列処理システム-晴-におけるマクロブロック終了検出

    草野 義博, 萩原 孝, 山名 早人, 村岡 洋一

    全国大会講演論文集   37 ( 1 ) 67 - 68  1988年09月

     概要を見る

    我々が提案している科学技術計算処理用データフロー・マルチプロセッサシステム-晴-では、各プロセッサエレメントへ割り当てるタスクの分割にマクロブロックという概念を用いている。マクロブロックとはプログラムをある基準に従って図1のように分割したもので、-晴-ではマクロブロックを単位としてプロセッサエレメントにタスクを割り当てる。マクロブロック内部ではデータ駆動制御で計算を進めて自然に並列性を抽出し、さらにマクロブロック間にコントロールフロー制御を導入し階層的な制御構造をとる。このような方法により、制御命令の増加などのデータ駆動制御の欠点を補うことができる。しかし、マクロブロックを単位としてタスクを割当てる際に種々の問題が生じる。マクロブロックの終了検出を高速に行なう必要があることもその一つである。そこで、本稿ではマクロブロックの終了検出を高速に行なう手法について述べ、簡単な評価を行なう。

    CiNii J-GLOBAL

  • 並列処理システム-晴-の要素プロセッサ構成

    山名早人, 丸島敏一, 草野義博, 村岡洋一

    情報処理学会研究報告   88 ( 19(CA-70) )  1988年

    J-GLOBAL

  • 並列処理計算機-晴-における要素プロセッサのシミュレーション評価

    草野義博, 山名早人, 丸島敏一, 村岡洋一

    情報処理学会全国大会講演論文集   36th ( 1 )  1988年

    J-GLOBAL

  • 並列処理システム-晴-の実行方式

    丸島敏一, 山名早人, 萩原孝, 草野義博, 村岡洋一

    情報処理学会研究報告   88 ( 4(CA-69/MC-48) )  1988年

    J-GLOBAL

  • 並列処理システム-晴-のソフトウエアシミュレータによる評価

    山名早人, 萩原孝, 草野義博, 村岡洋一

    情報処理学会研究報告   88 ( 79(ARC-73) )  1988年

    J-GLOBAL

  • 並列処理システム-晴-の並列化コンパイラの設計について

    萩原孝, 山名早人, 村岡洋一

    電子情報通信学会技術研究報告   88 ( 155 )  1988年

    J-GLOBAL

  • EXPERIENCE USING THE RESTRUCTURING COMPILER PARAFRASE.

    Toshikazu Marushima, Takashi Hagiwara, Hayato Yamana, Yoichi Muraoka

    Bulletin of Centre for Informatics (Waseda University)   5   69 - 77  1987年03月

     概要を見る

    Parallel processing with an ordinary sequential language is important from a point of a view of its simplicity and the effective utilization of existing software. This paper reports an experience gained by using Parafrase, a restructuring compiler developed by University of Illinois.

    J-GLOBAL

  • 科学技術計算用並列処理システム-晴-の要素プロセッサ構成の検討

    山名早人, 丸島敏一, 萩原孝, 村岡洋一

    情報処理学会全国大会講演論文集   34th ( 1 )  1987年

    J-GLOBAL

  • 科学技術計算用並列処理システム-晴-のマクロブロック化手法の検討

    萩原孝, 山名早人, 丸島敏一, 村岡洋一

    情報処理学会全国大会講演論文集   34th ( 1 )  1987年

    J-GLOBAL

  • RetweetReputation: バイアスを排除したTwitter投稿内容評価手法

    藤木紫乃, 矢野博也, 山名早人

    DEIM2011   A10-3

  • Sequential Pattern Mining with Time Interval

    Yu Hirate, Hayato Yamana

    Proc. of PAKDD2006  

    DOI

▼全件表示

産業財産権

  • 認証システム、認証プログラム及び認証方法

    山名 早人, 工藤 雅士

    特許権

    J-GLOBAL

  • 略語生成システム

    特許第6135867号

    石川 開, 土田 正明, 大西 貴士, 山名 早人, 及川 孝徳

    特許権

    J-GLOBAL

  • 記憶度推定装置および記憶度推定プログラム

    特許第6032638号

    山名 早人, 苑田 翔吾, 浅井 洋樹

    特許権

    J-GLOBAL

  • 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム

    特許第5648890号

    立石 健二, 細見 格, 山名 早人

    特許権

    J-GLOBAL

  • 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム

    立石 健二, 細見 格, 山名 早人

    特許権

    J-GLOBAL

  • ネットワーク取引不正行為者検出方法

    山名 早人, 平出 勇宇, 相吉澤 明, 木戸 冬子

    特許権

    J-GLOBAL

▼全件表示

Works(作品等)

  • CREST SECURE DATA SHARING AND DISTRIBUTION PLATFORM FOR INTEGRATED BIG DATA UTILIZATION

    ソフトウェア 

    2015年10月
    -
    2021年09月

  • 多メディアWeb解析基盤の構築及び社会分析ソフトウェアの開発

    2008年
    -
     

  • 検索エンジンの信頼性

    2007年
    -
     

  • Trustwothiness of Search Engines

    2007年
    -
     

  • e-Society/インターネット上の知識集約を可能にするプラットフォーム構築技術

    2002年
    -
    2007年

  • e-Society Project

    2002年
    -
    2007年

  • Productive ICT Academia Program(21世紀COE)

    2002年
    -
    2006年

  • 効率的な情報収集に関する調査(Web)

    2002年
     
     

  • 分散ソフトウェアロボット負荷分散法の研究

    2000年
    -
    2002年

  • アドバンスト並列化コンパイラ技術の開発(NEDO/METI)

    2000年
    -
    2002年

  • Research on Load Balancing Technique for Distributed WWW Robots

    2000年
    -
    2002年

  • Research on Advanced Parallelizing Compiler

    2000年
    -
    2002年

  • WWW情報検索システムのサーベイ

    2000年
    -
     

  • Survey in WWW Search Engines

    2000年
    -
     

▼全件表示

受賞

  • フェロー

    2020年   IPSJ  

  • Golden Core Award

    2018年   IEEE Computer Society  

  • フェロー

    2018年   IEICE  

  • 論文賞

    2013年   IEICE  

  • 2008年日本データベース学会論文賞

    2009年  

  • IBM Faculty Award

    2009年  

  • 2003-12月号学会誌ベストオーサー賞(映像メディア学会)

    2003年  

  • 情報処理学会 ベストオーサー賞

    2002年  

  • 山下記念研究賞(情報処理学会)

    1995年  

  • 研究奨励賞(情報処理学会)

    1993年  

▼全件表示

共同研究・競争的資金等の研究課題

  • オンライン手書きデータからの論理的思考力の見える化

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    研究期間:

    2020年04月
    -
    2024年03月
     

    山名 早人

     概要を見る

    オンライン学習では、学習者個人個人の理解度に合わせた適切なフィードバッ クを自動生成することが求められる。そこで本研究課題では、最終目標としてオンライン手書きデータを用いた論理的思考力の推定を目指している。論理的思考力を明かにするためには思考過程の見える化が求められる。そこで初年度は、数学幾何学問題を対象として、(1)各種判定に必要となる有効な特徴量の選定、(2)部分点を付与可能かどうかの検証の2点を進めた。
    <BR>
    まず、特徴量の選定は、「幾何学問題解答時のヒント参照有無の判定」を題材として進めた。具体的には、解答者が「ヒントを参照したか否か」に有効な特徴量を Recursive Feature Elimination(RFE)により判定した。本学36名の学生に対し、幾何学5種類の単元(並行と合同、図形の性質、円、相似な図形、三平方の定理)から各4 問の合計20題を解答してもらい、問題難易度毎に調査した。結果、難易度によらずヒント参照前後での特徴量に差が出るものは「筆記速度平均」であり、難易度が高い問題に対してのみ特徴量に差がでるものは「ストロークの時間間隔平均、標準偏差」「ストローク間移動距離平均、最大値」であった。以上から、幾何学問題解答時の挙動解析では問題難易度を考慮する必要があることがわかった。
    <BR>
    次に、論理的思考力判定にあたり、「考え方は正解であるがケアレアスミス等で最後の解答を間違った」ような場合の判定が可能かについて検証を行った。大学生20名から5題の幾何学証明問題解答時のストロークデータを収集し解析した。結果、ケアレスミスをした解答を「本来であれば完答することのできた解答である」と仮定した場合、「完答できた解答」か「部分点を付与すべき解答」かの分類において、0.833の正解率を得ることができることを確認できた。

  • 100億Webページ収集に基づくWebコンテンツの信頼性解析

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    研究期間:

    2017年07月
    -
    2022年03月
     

    山名 早人

     概要を見る

    本研究では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すことで,安心してWebを利用できる環境を提供することに資する基盤研究を実施することを目指している.
    3年目である平成31年度(令和元年度)は、Webページのコンテンツに依存せずに信頼性を判定するための手法として、(1)URLの特徴を用いた信頼度判定手法の精度向上、(2)コンテンツ解析に基づく信頼度判定、(2)著者人数推定に基づく信頼度判定に取り組んだ。
    URLの特徴を用いた信頼度判定では、URLに含まれる英数字以外の文字のエントロピーを特徴量として用いることで、96.2%のAUCを達成できることを示した。これは、同提案特徴量を用いない場合に比較して絶対値4.9%の向上となる。
    コンテンツ解析に基づく信頼度判定では、自然言語やAPIを利用せず、Google Lighthouseで定義される特徴量を用いることで、F値0.898を達成した。これらの特徴量はWebサーバの性能や各種フォーマットへの適合性等を判断するためのものであるが、信頼性判定に利用できることを示した点は新たな発見である。
    最後に著者人数推定に基づくWebページの信頼性判定に取り組んだ。これは、一般的に多くの人が共同して書いた文章の信頼性は高くなるという事実に基づき、コンテンツの著者人数を推定しようとするものである。今年度は、その手法について検討を行った。具体的には、文章をスライディングウィンドウにより分割し、単一ウィンドウは1名の著者で書かれたという前提のもと、前後のスライディングウィンドウとの類似度の変化により著者を推定する。これを実現するにあたり、我々が過去にSNSを対象に行った10万人を対象とした著者推定で明らかになった特徴量を用いている。

  • 戦略的創造研究推進事業(CREST)「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域

    JST  戦略的創造研究推進事業(CREST)

    研究期間:

    2015年10月
    -
    2021年09月
     

  • Web情報を対象とした数十万人規模での著者推定

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    研究期間:

    2013年04月
    -
    2017年03月
     

    山名 早人, 大山 敬三, 宇野 毅明, 奥野 峻弥, 奥谷 貴志, 浅井 洋樹, 上里 和也, 田中 正浩, 篠原 正太, 石山 雄大

     概要を見る

    インターネット上には様々な情報が氾濫し、その信憑性が社会問題化してきている。本研究では、信憑性を判断するための方法の一つとして著者推定技術をSNS等の短い文書に適用し10万人の候補者の中から、著者を発見する研究に取り組んだ。つまり、事前に著者の書いた何らかの文書があれば、発信者を推定することが可能となる。結果、10万人のSNSユーザの中から特定のユーザを発見するために、30発言あれば60%の精度で発見できる仕組みを構築した。また、上位10位までに抽出できる確率は74%を達成した。これは、世界の他の研究が10万人を対象として精度20%程度に留まっているのに対し大きな貢献である。

  • オンライン手書きデータからの学習つまずき発見

    日本学術振興会  科学研究費助成事業 挑戦的萌芽研究

    研究期間:

    2014年04月
    -
    2016年03月
     

    山名 早人, 浅井 浩樹

     概要を見る

    本研究は、教育での電子化が推進される中、学習つまずきを時系列で得られる手書きデータから自動発見する手法を研究し、以って近い将来実現するであろう効果的な個別学習の実現に供することを目指した。
    <BR>
    具体的には、学習つまずきを1)記憶に依存するつまずきと2)解答過程におけるつまずきに分類し自動抽出を試みた。記憶に依存するつまずきでは、暗記学習における記憶定着をモデル化し、漢字書き取りを題材に、未記憶、主観定着、主観未定着に分類し、主観定着の中で未記憶状態にあるものを自動抽出し、F値で0.69を達成した。解答過程におけるつまずきでは、数学を題材に解法を戦略別に自動分類し、F値0.5~0.7を達成した。

  • Web情報構造と利用者行動の統合分析とその情報アクセス高度化への応用

    日本学術振興会  科学研究費助成事業 基盤研究(A)

    研究期間:

    2010年04月
    -
    2013年03月
     

    大山 敬三, 相澤 彰子, 宮尾 祐介, 孫 媛, 小林 哲郎, 韓 浩, 岸田 和明, 山名 早人, 奥村 学, 吉岡 真治, 石田 栄美, 村田 剛志, 江口 浩二

     概要を見る

    Webの構造や利用者の情報検索・閲覧行動を総合的に理解し,応用として展開するため,Web閲覧ログデータやマイクロブログデータ等,Web情報構造とWeb利用者行動に関連する様々なデータを収集・導入し,アンケート調査とも連動させることにより,これらを統合・分析した。
    その結果,知りたい情報と知らせたい情報との間の乖離や,Webポータルサイトを利用することにより意図しない情報接触行動が生ずることなど,Web利用者に関する様々な知見が実証的に得られた。また,統合・分析により得られた情報に基づいて,情報推薦や情報検索等の情報アクセスを高度化するための様々な手法を研究・提案した。

  • 多メディアWeb解析基盤の構築及び社会分析ソフトウェアの開発

    文部科学省  次世代IT基盤構築のための研究開発

    研究期間:

    2009年
    -
    2011年03月
     

    佐藤真一, 喜連川優, 豊田 正史

  • 検索エンジンの信頼性解析

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    研究期間:

    2009年
    -
    2011年
     

    山名 早人, 松山 泰男

     概要を見る

    検索エンジンは日常生活においても必要不可欠な存在となっているにも関わらず,その信頼性は不透明である.特に,検索結果として表示されるヒット数は,同じ検索語でも100倍, 1000倍と大きく変動する.本研究では,様々な指標として用いられているヒット数に着目し,ヒット数の変動傾向を15ヶ月に渡る調査から明かにした.さらに,信頼性の高いヒット数を得るための仕組みを考案し99.5%の精度でヒット数の大小判定ができる仕組みを確立した.

  • メニーコアCPUにおける冬眠コアのゼロ化

    日本学術振興会  科学研究費助成事業 挑戦的萌芽研究

    研究期間:

    2009年
    -
    2010年
     

    山名 早人

     概要を見る

    2010年度は、2009年度に開発したシステム自動最適化アルゴリズムの実機評価を目指した。本アルゴリズムはProducer-Consumer型のモジュール群で構築されたアプリケーションにおいて、メニーコアCPUを最大限に利用できるよう各モジュールに割り当てる計算機やスレッド数を自動で決定し、アプリケーションの性能を最適化することが目標である。研究には我々が開発している分散処理フレームワークであるQueueLinkerを用いた。
    2010年度は、まず、自動最適化アルゴリズムの評価用アプリケーションとしてWebクローラを開発し、QueueLinkerのプロトタイプにより動作を確認した。本クローラを構成するモジュールは全てProducer-Consumer型であり、QueueLinkerにより分散実行できる。実験に先立ち、本クローラがWebサーバにかける負荷を軽減するために、同一Webサーバに対するアクセス時間間隔の最小値を厳密に保証するクローリングスケジューラを開発した。本スケジューラは、時間計算量が0(1)であり、空間計算量の上限がクローリング対象のURL数に依存しない。本アルゴリズムはDEIM 2011において発表した。
    そして、開発したWebクローラをアプリケーションに用い、QueueLinkerの自動プロファイリング機能を開発した。本プロファイリング機能は、モジュールが使用するCPU時間や、ネットワーク通信量をプロファイリングできる。その後、昨年度開発したシステム自動最適化アルゴリズムを実際のプロファイリングデータを利用して動作するよう設計を修正した。本アルゴリズムは、各モジュールが使用するリソース量に基づいて、アプリケーションの性能が最大になるように、モジュールに割り当てる計算機やスレッド数を自動で決定するものである。

  • 情報爆発に対応する高度にスケーラブルなモニタリングアーキテクチャ

    日本学術振興会  科学研究費助成事業 特定領域研究

    研究期間:

    2006年
    -
    2010年
     

    中島 達夫, 村岡 洋一, 後藤 滋樹, 山名 早人, 甲藤 二郎, 追川 修一, 秋岡 明香

     概要を見る

    本研究において目的とするモニタリングアーキテクチャは,情報基盤,社会基盤,人々の日常生活を守るためのソフトウエアの一群である.通常は独立に研究されていた研究分野を統合することにより,従来解決が困難であった問題を解決していくことを可能とする.本研究では,計算機システム,ネットワークシステム,実世界に関する統合的なスケーラブルモニタリングに関するシステム構築をおこなうことで将来の計算機システムのあるべき姿を検討した.

  • 情報爆発に対応する新IT基盤研究支援プラットホームの構築

    日本学術振興会  科学研究費助成事業 特定領域研究

    研究期間:

    2006年
    -
    2010年
     

    安達 淳, 田中 克己, 西田 豊明, 國吉 康夫, 須藤 修, 黒橋 禎夫, 原 隆弘, 松岡 聡, 田浦 健次朗, 建部 修見, 棟朝 雅晴, 廣津 登志夫, 松原 仁, 下條 真司, 千葉 滋, 湯淺 太一, 松山 隆司, 近山 隆, 近堂 徹, 河野 健二, 岡本 正宏, 合田 憲人, 鎌田 十三郎, 喜連川 優, 山名 早人, 中村 豊, 小林 広明, 中島 浩, 喜連川 優, 下條 真司, 千葉 滋

     概要を見る

    本特定領域に参加する計画・公募研究班で共用するための研究基盤を構築し、研究活動の支援を行った。これにより、限られた経費の中で研究資源の共用を図り研究連携を深める効果を発揮した。具体的には開放型検索エンジンTSUBAKIによる大規模コーパスの提供、広域分散コンピューティングテストベッドInTrigger、実世界インタラクション計測分析環境IMADE、そしてセンサーネットワーク予防医療の実験環境を構築した。

  • 記号とパターンの統合によるin silicoバイオインフォマティックス

    日本学術振興会  科学研究費助成事業 基盤研究(A)

    研究期間:

    2005年
    -
    2007年
     

    松山 泰男, 柳澤 政生, 山名 早人, 胡桃坂 仁志, 井上 真郷, 勝又 尚人

     概要を見る

    この研究は,計算知能理論に基づいて,DNA配列やアミノ酸配列が作りだすソフトなパターンを発見するための汎用アルゴリズムを開発し,生命情報配列中の特定機能部位をin silicoで予測することを目的とした.このとき,設定問題が単に計算機科学的な仮想問題に留まらないように,ウェットバイオロジーの研究者を構成員として加えた.生命情報をin silicoで扱うITおよび情報科学者と,それを試験管内で扱う生命科学者の融合にはまだ時間を要するが,下記のような成果を得てこの方向を推進することができた.
    (1)ヒトやE.coliのDNA配列を対象とし,遺伝子の直前にある転写開始点の位置を推定する方式を確立した.特にヒトに対しては,スペクトラムカーネルとよばれる転写開始点付近の特徴抽出法と隠れマルコフモデルによるプロモータモデルに加えて,高速フーリエ変換に基づいたノンプロモータモデルを導入し,最後にサポートベクトルマシンで判定結果を出すということを行ない,トップクラスの予測性能を示すROC曲線を得ることができた.
    (2)アミノ酸配列の多重アラインメントに対して新たなアルゴリズムを得た.この方法はアラインメントを施す時に複数の配列間で生じるギャップの重なりを少なく押さえ,かつギャップ延長を区分線形にしたものとして,ClustalWやT-Coffeeよりも実データに近い結果を与えるものとなっている.
    (3)ウェットバイオロジーの部分においては,Rad51という二本鎖切断を修復する遺伝子の結合部位が乳ガン患者において改変されていることを発見した.
    以上のように,この研究においては,ポストゲノムとしての主要テーマの一つであるプロモーターや転写開始点の予測,配列比較の中心課題である多重アラインメント,そして生命そのものに関連するRad51という分野において先端的な成果を得ることができた.

  • ヘルパースレッドを用いたマルチスレッディングプロセッサのための高速化技術研究

    日本学術振興会  科学研究費助成事業 基盤研究(B)

    研究期間:

    2005年
    -
    2006年
     

    山名 早人, 斎藤 史子

     概要を見る

    近年、マルチコアCPUが相次いで登場している。本研究では、こうしたマルチコアCPU上でのマルチスレッディングを用いた高速化技術について研究を行った。
    2005年度は、本分野でのサーベイ、アルゴリズム検討、アプリケーション側からの検討を行った。アルゴリズム検討では、分岐予測の面からパイプライン中の空きスロシトを削減する方法を検討した。さらに、近年のオンチップマルチプロセッサでは、L2を共有するものが増加しており、L2の効率的な制御方法についても検討を行った。具体的には、L2内のどこに必要となるデータを配置するかというデータ配置最適化技術を提案し、SPECint95、SPECint2000で平均17%のIPC向上を確認した。アプリケーションレベルからの検討では、今後その高速化が重要となってくると考えられる検索アプリケーションの動作特徴等を調査した。
    2006年度は、前年度の検討に基づき、ターゲットをディスクアクセスの最適化に特化し、オンチップマルチプロセッサ上でのキャッシュ最適化について研究を進めた。まず、DISKの先読みにヘルパースレッドを用いる例では、先読みスレッドで事前にデータの読み込み込む手法を提案し、gzipが最大で39.2%性能向上することを確認した。次に、DISKキャッシュ自体をネットワーク接続された他のPC上に置き、ヘルパースレッドによりディスクキャッシュを制御する高速化手法を提案した。DBT-3ベンチマークテストによる評価では、最大3。08倍の性能向上を確認した。さらに、実アプリケーションとして、シェルスクリプト実行の高速化を実現した。特に、シェルスクリプトの自動並列化プログラムを提案することにより、シェルスクリプト実行を1.4〜1.8倍高速化することができた。本研究成果は、USP研究所において製品化を目指している。

  • 広域分散型情報収集・検索システムにおける負荷分散方式の研究

    日本学術振興会  科学研究費助成事業 若手研究(B)

    研究期間:

    2001年
    -
    2002年
     

    山名 早人

     概要を見る

    平成14年度の研究においては、平成13年度の成果を踏まえた上で、ネットワークの混雑状況を考慮した分散収集の仕組みを提案するため、当該WWWサーバに至る経路が複数ある場合の経路の選択手法について研究を実施した。
    具体的には、パケットのトランスポート層の各種情報を分析する事で、複数のネットワーク経路が存在する場合に最適な経路を発見することが可能かどうかを検証した。まず、パケット内のトランスポート層の情報であるTCPヘッダの内容を分析し、複数のネットワークの中から、どのネットワークを使えば効率的にデータ転送を行う事ができるのか示すことができるパラメータを発見することを目指した。
    最初に、転送率とTCPの様々なパラメータ(平均ウィンドウサイズ、最大ウィンドウサイズ、RTT)の関連性について解析した。解析の結果、1KB以上の転送量を持つコネクションよりは1KB未満の転送量を持つコネクションのほうが、ウィンドウサイズと転送率の関係を得やすいということがわかった。さらに、長い転送時間のコネクション(実験では1秒以上)よりは短い転送時間(同1秒未満)のコネクションからの方が、ウィンドウサイズと転送率の関係を得やすいことがわかった。
    これらの結果は、小さい転送量、もしくは短い転送時間のコネクションでは、安定してパケットの送信が行われているためだと考えられる。大きい転送量、もしくは長い転送時間のコネクションは、送信の途中で何らかの問題点を持っている可能性があるため、最適経路を選択する上でのパラメータとしては用いない方がよいことが分かった。
    以上の結果を踏まえ、Webページ収集時に当該WWWサーバまで複数の経路が存在する場合に、経路を選択するための一手法を提案した。
    さらに、昨年度からの継続として、Webページの更新間隔をWebページを収集することなく発見するためのアルゴリズム開発を行った。

  • 科学技術計算用並列処理システム-晴-のアーキテクチャに関する研究

    日本学術振興会  科学研究費助成事業 奨励研究(A)

    研究期間:

    1991年
     
     
     

    山名 早人

▼全件表示

講演・口頭発表等

  • 特定分野における単語重要度計算手法の提案と短い文章における著者の専門性推定への適応

    滝川真弘, 山名早人

    情報処理学会研究報告(Web)  

    発表年月: 2017年10月

    開催年月:
    2017年10月
     
     
  • CTR向上を目的としたWEBページ上でのオンライン広告配置位置推定

    大谷一善, 滝川真弘, 堀田弘明, 山名早人

    情報科学技術フォーラム講演論文集  

    発表年月: 2017年09月

    開催年月:
    2017年09月
     
     
  • FCMalloc:完全準同型暗号の高速化に向たメモリアロケータ

    馬屋原昂, 佐藤宏樹, 石巻優, 今林広樹, 山名早人

    情報処理学会研究報告(Web)  

    発表年月: 2017年07月

    開催年月:
    2017年07月
     
     
  • 電子ペンを用いた手書き解答データによる幾何学解答パターン分類手法

    森山優姫菜, 下岡純也, 浅井洋樹, 山名早人, 山名早人

    情報科学技術フォーラム講演論文集  

    発表年月: 2016年08月

    開催年月:
    2016年08月
     
     
  • 特定分野を対象とした単語重要度計算手法の提案とTwitterにおける専門性推定への適応

    滝川真弘, 山名早人

    情報科学技術フォーラム講演論文集  

    発表年月: 2016年08月

    開催年月:
    2016年08月
     
     
  • 完全準同型暗号のデータマイニングへの利用に関する研究動向

    佐藤宏樹, 馬屋原昂, 石巻優, 今林広樹, 山名早人

    情報科学技術フォーラム講演論文集  

    発表年月: 2016年08月

    開催年月:
    2016年08月
     
     
  • 完全準同型暗号を用いた高速なゲノム秘匿検索

    石巻 優, 清水 佳奈, 縫田 光司, 山名 早人

    2016年暗号と情報セキュリティシンポジウム(SCIS2016)予稿集  

    発表年月: 2016年01月

    開催年月:
    2016年01月
     
     
  • 場所推薦において訪問履歴の効果的利用に関する研究―地域精通度による訪問パターンの変化―

    HAN Jungkyu, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2015年06月

    開催年月:
    2015年06月
     
     
  • Comparison of Different Semantic Negative Concepts Selection Methods in SVM Classifier Training for Image Annotation

    Shan-Bin Chan, Shin'ichi Satoh, Hayato Yamana

    第5回データ工学と情報マネジメントに関するフォーラム (DEIM2013)  

    発表年月: 2015年03月

    開催年月:
    2015年03月
     
     
  • 上層句情報の利用と学習データの選別による母語推定の精度向上

    田中正浩, WANG Lan, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2014年12月

    開催年月:
    2014年12月
     
     
  • オンライン手書き情報を用いた未定着記憶推定システム

    浅井洋樹, 山名早人

    情報処理学会研究報告(Web)  

    発表年月: 2014年11月

    開催年月:
    2014年11月
     
     
  • メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察

    上里和也, 田中正浩, 浅井洋樹, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2014年07月

    開催年月:
    2014年07月
     
     
  • 単語の意味概念行列を用いたキーワード生成による関連論文検索システム

    林佑磨, 奥野峻弥, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2014年07月

    開催年月:
    2014年07月
     
     
  • マイクロブログを対象とした著者推定手法の提案―10,000人レベルでの著者推定―

    奥野峻弥, 浅井洋樹, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2014年07月

    開催年月:
    2014年07月
     
     
  • 文体及びツイート付随情報を用いた乗っ取りツイート検出

    上里和也, 奥谷貴志, 浅井洋樹, 奥野峻弥, 田中正浩, 山名早人

    研究報告データベースシステム(DBS)   一般社団法人情報処理学会  

    発表年月: 2013年11月

    開催年月:
    2013年11月
     
     

     概要を見る

    Twitter のユーザ数が増加を続ける一方で,不正に ID 及びパスワードを入手され,他人によってツイートを投稿される被害が増加している.これに対し,我々はアカウント乗っ取りによって投稿されるメッセージの一部であるスパムツイートの検出手法を提案し,8 割程度の正答率を得ている.同手法では特定の単語が含まれているスパムツイートを検出対象とし,検出の有効性を示している.本研究では同検出対象を広げ,アカウントの所持者以外が投稿したツイート全体を 「乗っ取りツイート」 として定義し,これを検出する手法を提案する.また本研究では,以前提案した手法に対してパラメータの再調整を行うと同時に,頻繁に用いるハッシュタグの種類及びリプライを送る相手が各アカウントにおいて特徴的であることを利用し,F 値の向上を図った.100 アカウントに対して評価実験を行った結果,我々が提案している従来手法と比較し,F 値を 0.1984 向上させ F 値 0.8570 を達成した.

  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出

    上田高徳, 浅井洋樹, 藤木紫乃, 山本祐輔, 武井宏将, 秋岡明香, 山名早人

    情報処理学会研究報告. データベース・システム研究会報告   一般社団法人情報処理学会  

    発表年月: 2012年12月

    開催年月:
    2012年12月
     
     

     概要を見る

    本稿では我々が取り組んでいる多メディアビッグデータの統合的解析による情報抽出の試みについて述べる.ソーシャルメディアの普及によって,様々な情報がリアルタイムにインターネット上にアップロードされるようになった.我々は,単一のソーシャルメディアだけでなく,複数の情報源を組み合わせた, 「多メディアデータ」 を解析することで,より有益な情報を抽出できると考えている.本稿では我々が取り組んでいる多メディア解析について述べる.また,大規模リアルタイムデータの解析をサポートするために開発している,並列分散処理フレームワーク QueueLinker についても述べる.

  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出

    上田高徳, 浅井洋樹, 藤木紫乃, 山本祐輔, 武井宏将, 武井宏将, 秋岡明香, 山名早人, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2012年12月

    開催年月:
    2012年12月
     
     
  • ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出(ソーシャルメディア,ビッグデータとソーシャルコンピューティング,及び一般)

    上田 高徳, 浅井 洋樹, 藤木 紫乃, 山本 祐輔, 武井 宏将, 秋岡 明香, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   一般社団法人電子情報通信学会  

    発表年月: 2012年12月

    開催年月:
    2012年12月
     
     
  • Producer‐Consumer型モジュールで構成された並列分散Webクローラの開発

    上田高徳, 佐藤亘, 鈴木大地, 打田研二, 森本浩介, 秋岡明香, 山名早人, 山名早人

    情報処理学会シンポジウムシリーズ(CD-ROM)  

    発表年月: 2012年11月

    開催年月:
    2012年11月
     
     
  • 形態素間の優先関係を考慮した略語生成手法

    田中友樹, 及川孝徳, 山名早人, 山名早人, 大西貴士, 土田正明, 石川開

    情報処理学会シンポジウムシリーズ(CD-ROM)  

    発表年月: 2012年11月

    開催年月:
    2012年11月
     
     
  • 筆記情報と時系列モデルを用いた学習者つまずき検出

    浅井洋樹, 浅井洋樹, 野澤明里, 苑田翔吾, 山名早人

    電子情報通信学会技術研究報告  

    発表年月: 2012年10月

    開催年月:
    2012年10月
     
     
  • 筆記情報と時系列モデルを用いた学習者つまずき検出(教育・学習支援プラットフォーム/一般)

    浅井 洋樹, 野輝 明里, 苑田 翔吾, 山名 早人

    電子情報通信学会技術研究報告. ET, 教育工学   一般社団法人電子情報通信学会  

    発表年月: 2012年10月

    開催年月:
    2012年10月
     
     

     概要を見る

    生徒の学習を支援する際に必要なプロセスとして,つまずきの検知が挙げられる.CAIのつまずき検出に関する研究では,採点結果や解答所要時間,センサーから取得した学習者の顔画像や脈拍などの生体情報,そして入力デバイスであるキーボードやマウスの操作履歴を利用して検知を行う研究が行われてきた.しかし現状の初等教育では筆記活動を中心とした環境であり,こうした環境におけるつまずき検出に関しては深い議論が行われてこなかった.本報告では生徒が利用するペンから得られる筆記情報を元に,つまずきを検出する手法について検討を行う.検出には時系列モデルであるARモデルを用いて学習者の手書き行動が変化する変化点を検出し,変化点間ごとに推定を行う.実施した試験評価において一定の検出性能が確認できた.

  • The 2010 IEEE International Workshop on Quantitative Evaluation of large-scale Systems and Technologies (QuEST): Welcome message from workshop organizers

    Kin Fun Li, Rick McGeer, Stephen Neville, Hayato Yamana

    24th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2010  

    発表年月: 2010年07月

    開催年月:
    2010年07月
     
     
  • The 2010 IEEE International Symposium on Mining and Web (MAW): Welcome message from symposium organizers

    Takahiro Hara, Kin Fun Li, Shengrui Wang, Hayato Yamana, Laurence T. Yang, Yanchun Zhang

    24th IEEE International Conference on Advanced Information Networking and Applications Workshops, WAINA 2010  

    発表年月: 2010年07月

    開催年月:
    2010年07月
     
     
  • 検索語の重みの2段階調整手法(センサデータ処理及び一般,センサデータ処理,ストリームデータベース,及び一般)

    矢野 博也, 中島 泰, 山名 早人

    電子情報通信学会技術研究報告. DE, データ工学   社団法人電子情報通信学会  

    発表年月: 2010年06月

    開催年月:
    2010年06月
     
     

     概要を見る

    文書検索において単語の重み付けを行う方法の一つとしてTF・IDF法があげられる.IDFは文書集合での単語の出現しにくさを表わしており,検索対象の文書集合に依存する性質を持つ.そのため,クエリと同じ分野ではあまり出現しないためIDFが大きくなるような特定性が高い単語であっても,検索対象文書には出現しやすい単語であった場合にはIDFは小さくなってしまう問題がある.そこで本論文では,従来の検索手法を用いて検索対象の文書集合からクエリと同じ分野であると考えられる関連文書を抽出するステップと関連文書集合での出現頻度も用いて検索するステップの2段階に分ける手法を提案する.従来手法と比較するためNTCIR-1のIRタスクデータを用いて評価実験を行ったところ,一般的なベクトル空間モデルと比較して7.1%の精度向上が得られ,NTCIR-1で最も高精度だった結果と同等の精度が得られた.

  • 特徴領域の位置関係に着目したテンプレートマッチングによる類似物体検出

    新井 啓介, 森本 浩介, 山名 早人

    情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア]   一般社団法人情報処理学会  

    発表年月: 2010年05月

    開催年月:
    2010年05月
     
     

     概要を見る

    大量の画像の中から同じ物体が写っている画像を探し出す類似物体検出は,画像の整理や Web 画像を利用した市場調査に利用することができる.類似物体を検出する手法としてテンプレートマッチングがある.テンプレートマッチングは対象となる画像に同じ物体が写りこんでいることを前提としているため,写りこんでいない可能性のある未知の画像には向いていない.そこで本稿では,写りこんでいることを前提としていることに起因する誤検出率を低下させるため,従来のテンプレートマッチング手法に対し,さらに特徴的な領域の位置関係を考慮する手法を提案する.テンプレート画像から物体の特徴的な領域を決定し,その領域ごとにテンプレートマッチングを行う.得られた結果に投票処理を行い,特徴領域の重心を算出し,各領域の重心を介した位置関係を考察する.これにより,提案手法では AUC (Area Under the Curve) と F 値による評価において,それぞれ最大で 0.121,0.052 ポイント精度が向上した.

  • 6K-7 データアクセスパターンに基づくデータマイニング手法の分類(情報爆発時代における並列分散処理技術,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)

    秋岡 明香, 村岡 洋一, 山名 早人, 中島 達夫

    全国大会講演論文集   一般社団法人情報処理学会  

    発表年月: 2010年03月

    開催年月:
    2010年03月
     
     
  • 安価なWebカメラを用いたModel-Based視線推定(テーマ関連,顔・人物・ジェスチャ・行動)

    福田 崇, 松崎 勝彦, 山名 早人

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   社団法人電子情報通信学会  

    発表年月: 2010年03月

    開催年月:
    2010年03月
     
     

     概要を見る

    一般家庭において被験者を拘束せずに実現できる視線推定は,今後のユーザインタフェースの革新に大きく貢献するものと考えられる.商用の視線推定システムは赤外線を用い高精度な推定を実現しているが,一般家庭への普及にはWebカメラを用いたシステムが望まれる.しかし,Webカメラを用いた場合,被験者を拘束せずに目画像を得ようとするとその解像度は低くなる.低解像度の目画像はノイズの影響を強く受けるため,従来の低解像度目画像による視線推定手法では,眼球回転角度が量子化され高精度での視線推定が困難であった.本論文では,Webカメラから得られる低解像度目画像に画像処理,幾何学処理を行うことで,高精度の視線推定を実現する.実験の結果,水平方向で平均3.8°,垂直方向で平均1.9°の誤差を示した.本実験では,キャリブレーションを行わず,5人の被験者によって実験を行った.

  • 安価なWebカメラを用いたModel-Based視線推定(テーマ関連,顔・人物・ジェスチャ・行動)

    福田 崇, 松崎 勝彦, 山名 早人

    電子情報通信学会技術研究報告. HIP, ヒューマン情報処理   一般社団法人電子情報通信学会  

    発表年月: 2010年03月

    開催年月:
    2010年03月
     
     

     概要を見る

    一般家庭において被験者を拘束せずに実現できる視線推定は,今後のユーザインタフェースの革新に大きく貢献するものと考えられる.商用の視線推定システムは赤外線を用い高精度な推定を実現しているが,一般家庭への普及にはWebカメラを用いたシステムが望まれる.しかし,Webカメラを用いた場合,被験者を拘束せずに目画像を得ようとするとその解像度は低くなる.低解像度の目画像はノイズの影響を強く受けるため,従来の低解像度目画像による視線推定手法では,眼球回転角度が量子化され高精度での視線推定が困難であった.本論文では,Webカメラから得られる低解像度目画像に画像処理,幾何学処理を行うことで,高精度の視線推定を実現する.実験の結果,水平方向で平均3.8°,垂直方向で平均1.9°の誤差を示した.本実験では,キャリブレーションを行わず,5人の被験者によって実験を行った.

  • Cross-media impact on Twitter in Japan

    Sayaka Akioka, Norikazu Kato, Yoichi Muraoka, Hayato Yamana

    International Conference on Information and Knowledge Management, Proceedings  

    発表年月: 2010年

    開催年月:
    2010年
     
     

     概要を見る

    Twitter, a microblogging service, is now grabbing attention of people as a new channel. For deep understanding of this new service, this paper reports the characteristics of Twitter users in Japan, and the impact of media such as publications, and TV programs on Twitter community. To the best of our knowledge, this paper is the first to analyze mutual impact between Twitter, and other media quantitatively. In order for the analyses, we crawled user profiles whose language setting is Japanese, and conducted several analysis with well-known methodologies as conventional work did. We confirmed the characteristics of the collected user profiles. We observed the distributions of the number of friends, and the number of follows both follow power-law, and there exists the correlation between the number of friends, and the number of follows. Besides the collected user profiles, we also utilized closed caption data of TV programs in Japan, and other information on media picked up Twitter. We run a batch of matching these data outside Twitter with the collected user profiles, and concluded Twitter has been already widely spread among Japanese people, however, media have still huge impact on the growth of Twitter users. We also conjectured the impact is not one-sided, however, is mutual influence between Twitter, and other media. © 2010 ACM.

  • Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?

    Naoyoshi AIKAWA, Tetsuya SAKAI, Hayato YAMANA

    WebDBForum2011  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • The Method of Improving the Specific Language Focused Crawler,

    Shan-Bin Chan, Hayato Yamana

    Proc. of the 1st CIPS-SIGHAN Joint Conf. on Chinese Language Processing(CLP2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Data Access Pattern Analysis on Stream Mining Algorithms for Cloud Computation,

    Sayaka Akioka, Hayato Yamana, Yoichi Muraoka

    Proc. of the 2010 Int'll Conf. on Parallel and Distributed Processing Techniques and Applications  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Reliability Verification of Search Engines' Hit Counts: How to Select a Reliable Hit Count for a Query

    Takuya Funahashi, Hayato Yamana

    CURRENT TRENDS IN WEB ENGINEERING   SPRINGER-VERLAG BERLIN  

    発表年月: 2010年

    開催年月:
    2010年
     
     

     概要を見る

    In this paper, we investigate the trustworthiness of search engines' hit counts, numbers returned as search result counts. Since many studies adopt search engines' hit counts to estimate the popularity of input queries, the reliability of hit counts is indispensable for archiving trustworthy studies. However, hit counts are unreliable because they change, when a user clicks the "Search" button more than once or clicks the "Next" button on the search results page, or when a user queries the same term on separate days. In this paper, we analyze the characteristics of hit count transition by gathering various types of hit counts over two months by using 10,000 queries. The results of our study show that the hit counts with the largest search offset just before search engines adjust their hit counts are the most reliable. Moreover, hit counts are the most reliable when they are consistent over approximately a week.

  • Search Engines’ Trustworthiness-Current Status

    Hayato YAMANA

    Proc. of the 5th Korea-Japan Database Workshop  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    Information Retrieval  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?

    Naoyoshi AIKAWA, Tetsuya SAKAI, Hayato YAMANA

    WebDBForum2011  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Resizable-LSHによる閾値可変の近似的類似検索手法の高速化

    山﨑邦弘, 山名早人

    情報研報  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • The Method of Improving the Specific Language Focused Crawler,

    Shan-Bin Chan, Hayato Yamana

    Proc. of the 1st CIPS-SIGHAN Joint Conf. on Chinese Language Processing(CLP2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Data Access Pattern Analysis on Stream Mining Algorithms for Cloud Computation,

    Sayaka Akioka, Hayato Yamana, Yoichi Muraoka

    Proc. of the 2010 Int'll Conf. on Parallel and Distributed Processing Techniques and Applications  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Localized Multiple Kernel Learningを用いた画像分類

    小林大輔, 相川直視, 山名早人

    MIRU2010, IS2-43  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 低解像度目画像からのModel-Based視線推定

    福田崇, 松崎勝彦, 山名早人

    MIRU2010, IS1-46  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 動画像における正面画像推定からの衣服領域抽出

    金正文, 森本浩介, 山名早人

    MIRU2010, IS3-36  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 領域分割と色特徴を利用したテンプレートマッチングによる類似物体検出

    新井啓介, 森本浩介, 山名早人

    MIRU2010,IS2-42  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 検索語の重みの2段階調整手法

    矢野博也, 中島泰, 山名早人

    信学技報  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Search Engines’ Trustworthiness-Current Status

    Hayato YAMANA

    Proc. of the 5th Korea-Japan Database Workshop  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 特徴領域の位置関係に着目したテンプレートマッチングによる類似物体検出

    新井 啓介, 森本 浩介, 山名 早人

    情処研報  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • データアクセスパターンに基づくデータマイニング手法の分類

    秋岡明香, 村岡洋一, 山名早人, 中島達夫

    第72回情処全大  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 安価なWebカメラを用いたModel-Based視線推定

    福田 崇, 松崎勝彦, 山名早人

    信学技報(PRMU)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Hit Count Dance -検索エンジンのヒット数に関する信頼性検証-

    舟橋卓也, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • LittleWeb: 類似ノード集約によるWebグラフ圧縮手法

    片瀬弘晶, 上田 高徳, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • QueueLinker: パイプライン型アプリケーションのための分散処理フレームワーク

    上田 高徳, 片瀬 弘晶, 森本 浩介, 打田 研二, 油井 誠, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Unexpected and Interesting: 動画視聴サイトにおける発見性 を重視した動画推薦手法の提案

    中村 智浩, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • WWWにおけるP3Pコンパクトポリシーの利用状況に関する調査

    櫻井 宏樹, 高木 浩光, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Winnyネットワーク上を流通するコンテンツの傾向と分析

    打田 研二, 高木 浩光, 山崎 邦弘, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • アンカーテキストとリンク構造を用いた同義語抽出手法

    黒木 さやか, 立石 健二, 細見 格, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 字幕テキストの利用によるブログで引用されたテレビ番組の推定

    及川 孝徳, 中島 泰, 松崎 勝彦, 黒木 さやか, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • 特定言語Webページ収集のためのフォーカストクローラの性能改善手法

    詹 善斌, 山名 早人

    第2回データ工学と情報マネジメントに関するフォーラム(DEIM2010)  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • Time-weighted web authoritative ranking

    Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana

    Information Retrieval  

    発表年月: 2010年

    開催年月:
    2010年
     
     
  • ロックフリーGCLOCKページ置換アルゴリズム

    油井 誠, 宮崎 純, 植村 俊亮, 加藤 博一, 山名 早人

    情報処理学会論文誌データベース(TOD)   情報処理学会  

    発表年月: 2009年12月

    開催年月:
    2009年12月
     
     

     概要を見る

    GCLOCKに基づくロックフリーなページ置換アルゴリズムNb-GCLOCKを提案する.バッファ管理モジュールへの並行アクセスは,CPUのプロセッサ数に対するデータベースのスケーラビリティを阻害する主要な要因である.本論文では,Nb-GCLOCKと無待機ハッシュ表の組合せにより,要求されたページをバッファフレームに固定するbufferfix処理をノンブロッキングに行う手法を提案する.実験結果により,既存のロックに基づくバッファ管理手法が16プロセッサ以上,プロセッサ数に対するスケーラビリティを示さないのに対して,我々の手法が64プロセッサまでほぼ線形のスケーラビリティを示すことを明らかにし,提案手法の有効性を示す.In this paper, we propose a lock-free variant of the GCLOCK page replacement algorithm, named Nb-GCLOCK. Concurrent access to the buffer management module is a major factor that prevents database scalability to processors. Therefore, we propose a non-blocking scheme for bufferfix operations that fix buffer frames for requested pages without locks by combining Nb-GCLOCK and a wait-free hash table. Our experimental results revealed that our scheme can obtain nearly linear scalability to processors up to 64 processors, although the existing locking-based schemes do not scale beyond 16 processors.

  • 2-way prediction法によるGPCRリガンドの結合予測

    百石 弘澄, 杉原 稔, 諏訪 牧子, 加藤 毅, 山名 早人, 藤渕 航

    情報処理学会研究報告. BIO, バイオ情報学   一般社団法人情報処理学会  

    発表年月: 2009年09月

    開催年月:
    2009年09月
     
     

     概要を見る

    Gタンパク質共役型受容体(GPCR)は創薬研究の中心となっており,GPCRと相互作用する未知のリガンドを予測することは重要な課題である.しかしながら,相互作用するリガンドが全く知られていないGPCRも多く存在し,これらのGPCRと相互作用するリガンドを予測することは学習用サンプルの不足から困難となる.そこで,我々はサポートベクターマシンを利用した2-way prediction法を提案する.この方法では,リガンド,GPCR,双方から予測を行い,相互作用するリガンドの情報とGPCRの情報が全くない場合の予測に対応した.実験により提案手法の有効性を示す.

  • N-gram と離散型共起表現を用いたワードサラダ型スパム検出手法の提案

    森本 浩介, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   情報処理学会  

    発表年月: 2009年07月

    開催年月:
    2009年07月
     
     

     概要を見る

    インターネット上にウェブページが爆発的に増加し,インターネットから得られる情報が重要になっている.しかし,ウェブページの爆発的な増加につれてスパム行為を行うページも同様に増加し,インターネットから得られる情報の価値を下げている.スパム行為には様々な手法があるが,本論文では自動的に文章を生成するワードサラダに着目し,ワードサラダ型のスパムを効率的に検出する手法を提案する.ワードサラダ型スパムを検出するため,n-gram と離散型共起表現を用いてカルバック・ライブラー情報量に基づく文章のスコアを計算し,計算したスコアに基づき判定を行う.提案手法の評価実験を行った結果,既存手法と比較して F 値で 0.18 の性能の向上を確認できた.Information on the Internet becomes important because of exploding Web page. However, Spam pages also have exploded and information from the Internet have become lower reliability. Though there are many Spamming methods, in this article we focus on &quot;word salad&quot; that creates text automatically, and we propose the effective method of word salad detection. We detect word salad by the score based on Kullback-Leibler divergence calculated with n-gram and interrupted collocation. As a result of experiment, our method improves 0.18 points in F-value from the existing method.

  • Resizable-LSH : 可変領域型の近似的類似検索

    山崎 邦弘, 中村 智浩, 舟橋 卓也, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告   情報処理学会  

    発表年月: 2009年07月

    開催年月:
    2009年07月
     
     

     概要を見る

    本稿では閾値を可変にした近似的な類似検索手法を提案する.近年,距離を用いた類似検索手法の 1 つとして,Locality-Sensitive Hashing (局所性鋭敏型ハッシング,LSH) による近似的な類似検索が注目されている.LSHは,「距離が近い入力同士は高い確率で衝突する」 特徴を持つハッシュ関数を用いたデータマッピング手法であり,高次元なデータに対しても高速に近傍検索を行うことができる.しかし LSH では,事前計算によって距離が近いデータ同士を同じハッシュ値にマッピングするため,検索時に類似度の閾値を変更することができない.閾値を変更するにはハッシュテーブルの再構築が必要になるため,ユーザが閾値を指定できるような類似検索は実現困難である.そこで本研究では,類似検索時に,クエリとハッシュ値が一致するデータに加え,ハッシュ値が近いデータも取得することで,ハッシュテーブルの再構築を行うことなく,閾値を指定できる類似検索を実現した.提案手法は,閾値に合わせてハッシュテーブルを逐次再構築する LSH と比較して,同程度の精度で,かつ 1,000 倍程度の高速化を達成できることを実験により確認した.We introduce an efficient algorithm named &quot;Resizable-LSH&quot; for approximate similarity search, which enables resizing the search range flexibly. Nowadays, Locality-Sensitive Hashing (LSH) is drawing attention as an efficient algorithm for approximate nearest neighbor search. LSH adopts hash functions that collide with high probability if two vectors are close, so that LSH finds approximate nearest neighbors quickly even if the dataset is high-dimensional. However, LSH should generate hash tables preliminarily, that results in resizing the search range costs expensive because hash table regeneration is required whenever we face the needs to resize search range. To solve the problem, our proposed Resizable-LSH retrieves not only the same hash value of query, but also near hash values. Then Resizable-LSH achieves resizable range-search. As it turns out, the result of the experiments shows Resizable-LSH works about 1,000 times faster than LSH with almost the same quality in comparison with LSH.

  • Resizable-LSH : 可変領域型の近似的類似検索

    山崎 邦弘, 中村 智浩, 舟橋 卓也, 山名 早人

    情報処理学会研究報告. データベース・システム研究会報告   情報処理学会  

    発表年月: 2009年07月

    開催年月:
    2009年07月
     
     

     概要を見る

    本稿では閾値を可変にした近似的な類似検索手法を提案する.近年,距離を用いた類似検索手法の 1 つとして,Locality-Sensitive Hashing (局所性鋭敏型ハッシング,LSH) による近似的な類似検索が注目されている.LSHは,「距離が近い入力同士は高い確率で衝突する」 特徴を持つハッシュ関数を用いたデータマッピング手法であり,高次元なデータに対しても高速に近傍検索を行うことができる.しかし LSH では,事前計算によって距離が近いデータ同士を同じハッシュ値にマッピングするため,検索時に類似度の閾値を変更することができない.閾値を変更するにはハッシュテーブルの再構築が必要になるため,ユーザが閾値を指定できるような類似検索は実現困難である.そこで本研究では,類似検索時に,クエリとハッシュ値が一致するデータに加え,ハッシュ値が近いデータも取得することで,ハッシュテーブルの再構築を行うことなく,閾値を指定できる類似検索を実現した.提案手法は,閾値に合わせてハッシュテーブルを逐次再構築する LSH と比較して,同程度の精度で,かつ 1,000 倍程度の高速化を達成できることを実験により確認した.We introduce an efficient algorithm named &quot;Resizable-LSH&quot; for approximate similarity search, which enables resizing the search range flexibly. Nowadays, Locality-Sensitive Hashing (LSH) is drawing attention as an efficient algorithm for approximate nearest neighbor search. LSH adopts hash functions that collide with high probability if two vectors are close, so that LSH finds approximate nearest neighbors quickly even if the dataset is high-dimensional. However, LSH should generate hash tables preliminarily, that results in resizing the search range costs expensive because hash table regeneration is required whenever we face the needs to resize search range. To solve the problem, our proposed Resizable-LSH retrieves not only the same hash value of query, but also near hash values. Then Resizable-LSH achieves resizable range-search. As it turns out, the result of the experiments shows Resizable-LSH works about 1,000 times faster than LSH with almost the same quality in comparison with LSH.

  • N-gram と離散型共起表現を用いたワードサラダ型スパム検出手法の提案

    森本 浩介, 片瀬 弘晶, 山名 早人

    情報処理学会研究報告. 情報学基礎研究会報告  

    発表年月: 2009年07月

    開催年月:
    2009年07月
     
     

     概要を見る

    インターネット上にウェブページが爆発的に増加し,インターネットから得られる情報が重要になっている.しかし,ウェブページの爆発的な増加につれてスパム行為を行うページも同様に増加し,インターネットから得られる情報の価値を下げている.スパム行為には様々な手法があるが,本論文では自動的に文章を生成するワードサラダに着目し,ワードサラダ型のスパムを効率的に検出する手法を提案する.ワードサラダ型スパムを検出するため,n-gram と離散型共起表現を用いてカルバック・ライブラー情報量に基づく文章のスコアを計算し,計算したスコアに基づき判定を行う.提案手法の評価実験を行った結果,既存手法と比較して F 値で 0.18 の性能の向上を確認できた.Information on the Internet becomes important because of exploding Web page. However, Spam pages also have exploded and information from the Internet have become lower reliability. Though there are many Spamming m