分寺 杏介 | ![]() |
ブンジ キョウスケ | |
大学院経営学研究科 経営学専攻 | |
准教授 | |
教育学関係 |
心理測定で最もメジャーなリッカート型測定では,実際よりも回答者自身が良く(悪く)見えるように偽ること(フェイキング)が容易です。これに対応するため,複数の選択肢を同時に提示して回答させる方法が注目を集めています。
この一対比較・強制選択法について,より幅広い実用化に向けた理論的な検討を行っています。
心理測定をコンピュータを用いて実施する (CBT) 場合,回答内容だけでなく回答時間や回答デバイスの情報など様々な付加データ(パラデータ)が取得できます。こうしたデータを利用することで,心理測定の質をより高めることが出来ないか,という観点から研究を行っています。
2020年05月 日本計算機統計学会, 奨励賞
本学会の欧文誌に公刊された Bunji & Okada (2019) は,反応時間もモデルに組み込んだ項目反応理論の優れた論文であり,本学会シンポジウムでも優れた口頭発表をしている (分寺・岡田,2017,2018)。その他,Behaviorresearch methods,日本テスト学会誌や,行動計量学の諸誌に,テストデータの計算機統計学の優れた論文を公刊しており,今後の研究が奨励されます。 Bunji, K., & Okada, K. (2019). Item response and response time model for personality assessment via linear ballistic accumulation. Japanese Journal of Statistics and Data Science, 2, 263–297. 分寺杏介,岡田謙介 (2018) Thurstonian IRT におけるパラメータの不変性について.日本計算機統計学会第32回シンポジ ウム. 分寺杏介,岡田議介 (2017) 反応時を利用する新たな項目反応モデ ルの提案 ― Linear Ballistic Accumulation を用いた効率的な推定法 ―.日本計算機統計学会第31回シンポジウム., 日本国国内学会・会議・シンポジウム等の賞
2017年12月 日本テスト学会, 日本テスト学会大会発表賞, 出題領域と解答時間を考慮した項目選択アルゴリズムの性能評価
日本国国内学会・会議・シンポジウム等の賞
2017年11月 日本計算機統計学会, 学生研究発表賞, 反応時間を利用する新たな項目反応モデルの提案 -Linear Ballistic Accumulation を用いた効率的な推定法-
国内学会・会議・シンポジウム等の賞
本稿では,コンピュータを用いたアセスメント(computer-based testing[CBT])の理論的側面に関する各領域の研究を概観するとともに,最新の研究動向を紹介する。CBTに関する主要な研究トピックのうち「紙筆式(PBT)による得点との比較可能性」「適応型テスト」「新しい形式の項目」「オンライン試験における不正行為とその対策」「ログデータの活用」「特別な配慮」の6点について,これまでの知見および最新の動向を紹介した。また,CBTの発展に関する先行研究の予測に従い,CBTに関する研究の今後の方向性についての展望を「妥当性」「テスト不安」「自動化」という3つの観点から論じた。
日本テスト学会, 2023年06月, 日本テスト学会誌, 19 (1), 191 - 225, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
Background: One of the reasons why students go to counseling is being called on based on self-reported health survey results. However, there is no concordant standard for such calls. Objective: This study aims to develop a machine learning (ML) model to predict students’ mental health problems in 1 year and the following year using the health survey’s content and answering time (response time, response time stamp, and answer date). Methods: Data were obtained from the responses of 3561 (62.58%) of 5690 undergraduate students from University A in Japan (a national university) who completed the health survey in 2020 and 2021. We performed 2 analyses; in analysis 1, a mental health problem in 2020 was predicted from demographics, answers for the health survey, and answering time in the same year, and in analysis 2, a mental health problem in 2021 was predicted from the same input variables as in analysis 1. We compared the results from different ML models, such as logistic regression, elastic net, random forest, XGBoost, and LightGBM. The results with and without answering time conditions were compared using the adopted model. Results: On the basis of the comparison of the models, we adopted the LightGBM model. In this model, both analyses and conditions achieved adequate performance (eg, Matthews correlation coefficient [MCC] of with answering time condition in analysis 1 was 0.970 and MCC of without answering time condition in analysis 1 was 0.976; MCC of with answering time condition in analysis 2 was 0.986 and that of without answering time condition in analysis 2 was 0.971). In both analyses and in both conditions, the response to the questions about campus life (eg, anxiety and future) had the highest impact (Gain 0.131-0.216; Shapley additive explanations 0.018-0.028). Shapley additive explanations of 5 to 6 input variables from questions about campus life were included in the top 10. In contrast to our expectation, the inclusion of answering time–related variables did not exhibit substantial improvement in the prediction of students’ mental health problems. However, certain variables generated based on the answering time are apparently helpful in improving the prediction and affecting the prediction probability. Conclusions: These results demonstrate the possibility of predicting mental health across years using health survey data. Demographic and behavioral data, including answering time, were effective as well as self-rating items. This model demonstrates the possibility of synergistically using the characteristics of health surveys and advantages of ML. These findings can improve health survey items and calling criteria.
JMIR Publications Inc., 2023年05月, JMIR Mental Health, 10, e42420, 英語, 国際誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
感情語を獲得することは子どもの社会化や感情経験の発達に重要な役割を持つ。本研究の目的は,幼児および小学校3年生までの児童を対象とする短縮版感情語彙尺度を開発することである。研究1では,年少児から小学3年生までの子どもを持つ母親からデータを収集し,項目反応理論を用いて幼児用および小学校低学年用の感情語彙尺度を開発し,情動コンピテンスとの関連を調べた。研究2では,幼児用感情語彙尺度で測定される感情語彙能力と一般的な言語能力や社会的コンピテンスとの関連,研究3では,低学年用感情語彙尺度で測定される感情語彙能力と一般的な言語能力との関連を検討した。感情語彙能力と子どもの一般的な言語能力や社会情動的コンピテンスの関連から,本尺度の妥当性の証拠が確認された。
日本教育心理学会, 2023年03月, 教育心理学研究, 71 (1), 51 - 61, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
Paired-comparison format questionnaires that measures two latent traits suffer from the problem of unidentifiability in the Thurstonian item response model. This study proposes a new method that enables us to identify this model. Specifically, we pro- pose to use every item twice in the questionnaire. In simulation studies, our proposed method recovered the respondent parameters at least as well as the control method, which required analysts to fix some of the parameters to their true values. In the real data analysis, the proposed method was applied to data obtained by two types of psychological scales, one of which contained only positively keyed items, whereas the other contained both positively and negatively keyed items. Item parameters and trait scores estimated using the former data resulted in large posterior standard deviations. In contrast, those estimated with the latter data exhibited better estimation proper- ties. Although it generally does not allow for precise measurement, we show that the proposed method is applicable to empirical analysis. It achieved progress, in that, it negates the need for the unrealistic assumption of fixing parameters to their true values.
日本行動計量学会, 2021年09月, 行動計量学, 48 (2), 53 - 68, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
There has been a growing interest in psychological measurements that use the multiple-alternative forced-choice (MAFC) response format for its resistance to response biases. Although several models have been proposed for the data obtained from such measurements, none have succeeded in incorporating the response time information. Given that currently, many psychological measurements are performed via computers, it would be beneficial to develop a joint model involving an MAFC item response and response time. The present study proposes the first model that combines a cognitive process model that underlies the observed response time and the forced-choice item response model. Specifically, the proposed model is based on the linear ballistic accumulator model of response time, which is substantially extended by reformulating its parameters so as to incorporate the MAFC item responses. The model parameters are estimated by the Markov chain Monte Carlo (MCMC) algorithm. A simulation study confirmed that the proposed approach could appropriately recover the parameters. Two empirical applications are reported to demonstrate the use of the proposed model and compare it with existing models. The results showed that the proposed model could be a useful tool for jointly modeling the MAFC item responses and response times.
Society of Multivariate Experimental Psychology, 2021年03月, Multivariate Behavioral Research, 57 (4), 658 - 678, 英語, 国際誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
コンピュータ上で行う心理特性の測定には,回答に要した時間も収集できることや,回答バイアスの影響を受けにくい比較判断型項目を自然に実装ができることといった利点がある。従来の紙の調査票をそのままコンピュータに載せるのではなく,こうした特徴を活用して妥当性の高い測定を行えると望ましい。本稿ではこれを実現するための,ベイズ統計的アプローチに基づく項目反応理論モデルの拡張による私たちの研究を紹介する。
一般社団法人社会調査協会, 2020年09月, 社会と調査, 25, 22 - 30, 日本語, 国内誌, 国際共著していない[招待有り]
研究論文(学術雑誌)
The two-alternative multidimensional forced-choice measurement of personality has attracted researchers’ attention for its tolerance to response bias. Moreover, the response time can be collected along with the item response when personality measurement is conducted with computers. In view of this situation, the objective of this study is to propose a Thurstonian D-diffusion item response theory (IRT) model, which combines two key existing frameworks: the Thurstonian IRT model for forced-choice measurement and the D-diffusion IRT model for the response time in personality measurement. The proposed model reflects the psychological theories behind the data-generating mechanism of the item response and response time. A simulation study reveals that the proposed model can successfully recover the parameters and factor structure in typical application settings. A real data application reveals that the proposed model estimates similar but still different parameter values compared to the original Thurstonian IRT model, and this difference can be explained by the response time information. In addition, the proposed model successfully reflects the distance–difficulty relationship between the response time and the latent relative respondent position.
Psychonomic Society, 2020年06月, Behavior Research Methods, 52 (3), 1091 - 1107, 英語, 国際誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
Much scholarly attention is focused on psychological measurement through the paired-comparison format, which is considered to be tolerant to systematic response bias. The Thurstonian D-diffusion item response theory model was recently proposed to incorporate response-time information in this context. Because reliability is a fundamental measurement property, this study used the above model to conduct a preliminary investigation into the extent of the reliability increase achieved when incorporating response-time information into paired-comparison psychological measurement. Under some realistic conditions, our simulation revealed a practically relevant (but not very large) degree of increase. The same type of increase was also found during our analysis of a real psychological dataset containing measurements for the Big Five traits. As such, this study produced evidence supporting the collection and utilization of response time when conducting paired-comparison psychological measurement.
The Behaviormetric Society, 2020年04月, Behaviormetrika, 48 (1), 169 - 177, 英語, 国際誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
学位論文(博士)
本研究では,適応型テストにおける項目選択アルゴリズムにおける特性値の推定精度および項目プール内の項目の出題回数のバランスについて,一定の制限時間がある条件下にて比較検討を行った。シミュレーションの結果,(1) 解答時間の期待値を用いて項目情報量を補正するアルゴリズムで特性値推定の精度・項目の出題回数のバランスの両側面が向上すること,(2) 項目識別力と解答にかかる時間に正の相関がある場合には,特に項目情報量ベースで出題を決定するアルゴリズムでは平均解答数が減少すること,(3) そのような状況下ではOverlap Rate の上昇を抑える手法の方が高い精度で特性値推定が可能であること,(4) RMSE とテスト情報量ではアルゴリズム間の優劣関係がわずかに異なること,などが明らかになった。
日本テスト学会, 2019年06月, 日本テスト学会誌, 15 (1), 1 - 20, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
On the basis of a combination of linear ballistic accumulation (LBA) and item response theory (IRT), this paper proposes a new class of item response models, namely LBA IRT, which incorporates the observed response time (RT) by means of LBA. Our main objective is to develop a simple yet effective alternative to the diffusion IRT model, which is one of best-known RT-incorporating IRT models that explicitly models the underlying psychological process of the elicited item response. Through a simulation study, we show that the proposed model enables us to obtain the corresponding parameter estimates compared with the diffusion IRT model while achieving a much faster convergence speed. Furthermore, the application of the proposed model to real personality measurement data indicates that it fits the data better than the diffusion IRT model in terms of its predictive performance. Thus, the proposed model exhibits good performance and promising modeling capabilities in terms of capturing the cognitive and psychometric processes underlying the observed data.
Japanese Federation of Statistical Science Associations, 2019年04月, Japanese Journal of Statistics and Data Science, 2 (1), 263 - 297, 英語, 国際誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
We propose a computer-based testing environment, Reading Skill Test, to measure the effects of various types of systematic reading support systems. We prove its validity, reliability and one-dimensionality using 31,000 subjects. The effects of furigana system on the 5th to 8th grade students are analyzed using this environment. Furigana is a widely used Japanese reading support system that has been believed to be beneficial especially for pupils. Despite our expectation, we have to conclude that furigana failed to improve pupils' reading significantly, and discuss why it did so.
2018年07月, Proceedings of the 40th Annual Cognitive Science Society Meeting (CogSci 2018), 100 - 105, 英語[査読有り]
研究論文(国際会議プロシーディングス)
本研究では,小学校と中学校の理科教科書を対象に,語彙と構文の観点からテキストの複雑さを構成するパラメータを予測し,小・中間でそのパラメータで表現できるギャップがあることを示す.中学校に適応できないいわゆる小・中ギャップは,生活面と学習面から研究されてきたが,教科書等の教材のテキストの相違がもたらすギャップに着目した研究はない.本研究はこの点を背景に,テキストの表現形式に具体的にどのような差があるのかを,小・中ギャップに関連する段階の教科書を対象に明らかにするものである.分析の結果,小・中の教科書には特に係り受け関係の複雑さに顕著な差があることが明らかになった.
計量国語学会, 2017年09月, 計量国語学, 31 (2), 144 - 159, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
CORE A
2017年, Proceedings of the 39th Annual Cognitive Science Society Meeting (CogSci 2017), 1556 - 1561, 英語, 国際誌[査読有り]
研究論文(国際会議プロシーディングス)
This study proposes a graded response model including a new parameter, which represents rater effects affecting inter-item variance. The validity of this model was shown by parameter restoration simulation, in which artificial item response data were generated and calibrated under 12 conditions each. Another simulation study, which compares estimation accuracy of θ in the presented model and original graded response model, was conducted. Results indicated the proposed model can remove the rater effect. Using a rating experiment that induced the halo effect, it was shown that the new parameter wir can be regarded as a halo effect.
日本行動計量学会, 2016年09月, 行動計量学, 43 (2), 181 - 195, 日本語, 国内誌, 国際共著していない[査読有り]
研究論文(学術雑誌)
書評論文,書評,文献紹介等
本稿では、就学期の子どもの認知能力を計測する目的で行われている「学力テスト」のあり方を展望し、今後の教育政策をエビデンスに基づくものに転換していくために、どのような学力テストのあり方が望ましいかを論じる。まずは国内外で実施された学力テストの動向を振り返り、その後平成27年から開始された「埼玉県・学力学習状況調査」を1つのモデルケースとして取り上げる。本稿の後半では、平成27年から開始された「埼玉県・学力学習状況調査」のデータの簡単な記述統計と分析を紹介するとともに、これと同時に行われた埼玉県戸田市での教員調査の結果も踏まえ、今後の改善点についても論じる。
独立行政法人経済産業研究所, 2017年03月, RIETIポリシー・ディスカッション・ペーパー, 17-P-010, 日本語, 国際共著していない機関テクニカルレポート,技術報告書,プレプリント等
ポスター発表
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
ポスター発表
口頭発表(一般)
口頭発表(一般)
ポスター発表
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
口頭発表(一般)
ポスター発表
ポスター発表
シンポジウム・ワークショップパネル(公募)
口頭発表(一般)
口頭発表(一般)
ポスター発表
競争的資金
本研究の目的は,多様な評定者効果を統一的に表現する数理モデルを提案し,その性能を評価すること,また提案モデルを使用した実際の分析例を提示することであった. 本年度は前年度に引き続き,Linear Ballistic Accumulationモデル(LBA)に基づく項目反応モデルについての考察および,Thurstoneの比較判断の法則に基づくモデルの拡張に関する研究を中心に行った.本年度の研究としては,第一にLBA IRTモデルを多次元多肢選択項目に拡張するためのモデルの拡張を行った(業績4,論文投稿準備中).Thurstoneの比較判断の法則を援用することにより,各選択肢の潜在的な効用を考慮したモデリングを行うことができると考えられる.また,LBAモデルをベースにすることで回答時間データを併せて用いることが可能となり,より豊かな情報を引き出すことが可能になると考えられる.将来的には,選択肢間での潜在的効用を促進・抑制しあう構造を取り入れることで,文脈効果を考慮したモデリングが可能になると期待される.第二にLBA IRTモデルをリッカート尺度などの順序データに適用するための拡張の研究を行った(業績5,6).通常のLBA IRTモデルは二択の項目にしか適用できないため,一問あたりの情報量が限られてしまう.リッカート尺度は心理学に限らず様々な分野で広く用いられている手法であるため,本モデルの提案により,より一般的な場面においてもLBA IRTを適用することが可能となり,また二択の場合と比べてより情報量の多い分析が可能になると考えられる.
競争的資金
査読等
査読等
査読等
査読等
査読等