(都市安全研究センター)｜神戸大学研究者紹介システム

SEARCH

検索詳細

氏名

所属

職名

研究分野

研究キーワード

論文

滝口哲也
都市安全研究センター
教授

研究者基本情報

■ 学位

博士（工学）, 奈良先端科学技術大学院大学

■ 研究ニュース

2021年03月20日, 痛みを感じた時の脳内の神経回路変化をホログラフィック顕微鏡によって解明
神戸大学研究ニュースサイトへのリンク

■ 研究キーワード

発話コミュニケーション支援技術

音声情報処理

脳活動

音声対話

機械学習

画像処理

マルチモーダル情報処理

■ 研究分野

ライフサイエンス / 医療福祉工学

情報通信 / 生命、健康、医療情報学

情報通信 / 知能情報学

情報通信 / 知覚情報処理

■ 委員歴

2023年06月 - 2025年05月, 電子情報通信学会, 英文論文誌D 編集委員長

2025年04月, 日本音響学会, 代議員

2025年01月, IEEE Signal Processing Society (SPS), Kansai Chapter, Chair

2023年01月 - 2024年12月, IEEE Signal Processing Society (SPS), Kansai Chapter, Vice Chair

2015年06月 - 2017年05月, 電子情報通信学会，日本音響学会, 音声研究会企画幹事

2015年05月 - 2016年10月, 電子情報通信学会, 英文論文誌D「Special Section on Recent Advances in Machine Learning for Spoken Language Processing」小特集編集委員

2014年06月 - 2016年06月, 電子情報通信学会, 英文論文誌D 編集幹事

2015年04月 - 2016年05月, 日本音響学会, 関西支部会計幹事

2010年05月 - 2014年05月, 電子情報通信学会, 英文論文誌D 編集委員

2011年03月 - 2012年05月, 電子情報通信学会, 英文論文誌D「Special Section on Recent Advances in Multimedia Signal Processing Techniques and Applications」小特集編集委員

2009年04月 - 2011年03月, 情報処理学会, 音声言語情報処理研究会幹事

2010年01月 - 2010年10月, 国際会議Interspeech 2010, サブエリアチェア，Special Session オーガナイザー， Session チェア

2009年10月 - 2010年09月, 電子情報通信学会, 英文論文誌D「Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction」小特集編集委員

2007年06月 - 2009年03月, 日本音響学会, 関西支部若手研究者交流研究発表会実行委員

2007年06月 - 2008年03月, 電子情報通信学会, 英文論文誌D 「Special Section on Robust Speech Processing in Realistic Environments」小特集編集委員

2004年04月 - 2007年03月, 情報処理学会, 音声言語情報処理研究会運営委員

研究活動情報

■ 受賞

2015年01月 21st Japan-Korea joint Workshop on Frontiers of Computer Vision, 優秀論文賞（Excellence Paper Award）, "Estimation of Object Functions Using Deformable Part Model"
Yosuke Kitano, Tetsuya Takiguchi, Yasuo Ariki

2009年08月 International Conference on Multimedia, Information Technology and its Applications, Distinguished Paper Award, "Generic Object Recognition using CRF by Incorporating BoF as Global Features"
OKUMURA Takeshi, TAKIGUCHI Tetsuya, ARIKI Yasuo

2008年06月 IEEE ICME, ベストペーパー賞, "GRAPH CUTS BY USING LOCAL TEXTURE FEATURES OF WAVELET COEFFICIENT FOR IMAGE SEGMENTATION"
Fukuda Keita, Takiguchi Tetsuya, Ariki Yasuo

■ 論文

Estimation of HVAC Sound Preferences from Cortical Magnetic Patterns During Paired-Comparison Tasks
Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa
Assessing preferences for heating, ventilation, and air conditioning (HVAC) sounds is important for improving comfort in living spaces. Recently, preference assessments using neurophysiological measurements have gained attention. However, associations between HVAC sound preferences and cortical activity remain insufficiently understood to establish neurophysiological indices. In this study, we developed machine learning models that estimate preference scores from magnetoencephalographic (MEG) signals recorded during HVAC sound presentation. We also developed spatial filters based on the common spatial pattern to extract MEG signals associated with the preferences. Both were trained for each participant using MEG signal pairs and participant’s paired-comparison judgments of HVAC sounds based on either coolness or preference. The preference scores estimated from the training data were strongly correlated with the average preference scores obtained through a psychological paired-comparison method (r > 0.98). Analysis of trained linear models revealed that the spatial filters primarily contributing to score estimation extracted theta (4–8 Hz) and alpha (8–13 Hz) oscillations. These suggest that the signals extracted by the spatial filters may reflect cortical activity associated with the coolness and preference of HVAC sounds, and that the preference estimation models may capture the relationship between cortical activity and psychological scales of HVAC sound preferences.
MDPI AG, 2025年11月, Applied Sciences, 15(22) (22), 12009 - 12009
研究論文（学術雑誌）

子育て支援における相談者の多様性を考慮したLLMベースシミュレータの設計
伊藤瞭介, 滝口哲也, 平田充宏, 森祐美子, 堀田聰子, 有木康雄
一般社団法人人工知能学会, 2025年10月, 人工知能学会研究会資料言語・音声理解と対話処理研究会, 105, 103 - 108, 日本語

Outlier Removal in MEG Data for Imagined Speech Classification
Koki Nose, Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa
IEEE, 2025年10月, 2025 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 1435 - 1440
研究論文（国際会議プロシーディングス）

DialFill: Utilizing Dialogue Filling to Integrate Retrieved Knowledge in Responses
Qiang Xue, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers (IEEE), 2025年03月, IEEE Access, 13, 61123 - 61135, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Operatic Singing Voice Synthesis From Inexperienced Voice Considering Tempo and Vowel Change
Aoto Sugahara, Soma Kishimoto, Yuji Adachi, Kiyoto Tai, Ryoichi Takashima, Tetsuya Takiguchi
Springer Nature Singapore, 2024年12月, Lecture Notes in Computer Science (MultiMedia Modeling), 157 - 170, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Prefix tuning with prompt augmentation for efficient financial news summarization
Shangyang Mou, Qiang Xue, Xunquan Chen, Jinhui Chen, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
Abstract In financial markets, the sentiment expressed in news articles plays a pivotal role in interpreting and forecasting market trends, which also holds true for the task of financial news summarization (FNS). Leveraging AI models to analyze social science data, this paper employs financial sentiment to improve FNS effectiveness by introducing a novel method that combines the sentiment polarity extracted from financial news with prompt augmentation techniques to ensure that the generated summaries are emotionally consistent with the source articles. Specifically, the detected sentiments are embedded into prompts and provide directive instructions to the model to generate summaries. Furthermore, to address the problem of limited large-scale datasets for FNS and ensure more tailored results, we employed prefix tuning as a fine-tuning strategy. Preliminary results indicate that our combined methodology outperforms approaches that use only prefix tuning. The experimental findings further validate the significance of sentiment analysis in FNS, which enhances the accuracy of capturing and reflecting market sentiment, thereby yielding valuable insights into financial markets. This method not only improves the accuracy and relevance of summaries but also ensures that their content is emotionally consistent with the source news, offering a new perspective on financial news summarization.
Springer Science and Business Media LLC, 2024年12月, Journal of Computational Social Science, 8(19) (19), 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

RAG-Fusion Based Information Retrieval for Fact-Checking
Yuki Momii, Tetsuya Takiguchi, Yasuo Ariki
Association for Computational Linguistics, 2024年11月, Proceedings of the Seventh Fact Extraction and VERification Workshop (FEVER), 47 - 54, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Training of VITS Model Reflecting the Duration of a Physically Unimpaired Speaker for a Text-to-speech System for a Person with a Stutter
Ryo Nagakubo, Haruki Yamashita, Ryoichi Takashima, Misuzu Yasui, Tetsuya Takiguchi
IEEE, 2024年10月, 2024 IEEE 13th Global Conference on Consumer Electronics (GCCE), 421 - 422, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Speech Recognition for a Person With Cerebral Palsy Using Whisper Fine-Tuned on Japanese and English Dysarthric Speech
Kirito Haze, Ryoichi Takashima, Tetsuya Takiguchi
IEEE, 2024年10月, 2024 IEEE 13th Global Conference on Consumer Electronics (GCCE), 419 - 420, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-Preserving Speech Synthesis for Spinal Muscular Atrophy with a Tracheotomy
Minori Iwata, Ryoichi Takashima, Chiho Sasaki, Tetsuya Takiguchi
ACM, 2024年10月, The 26th International ACM SIGACCESS Conference on Computers and Accessibility, 1 - 5, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Self-supervised learning using unlabeled speech with multiple types of speech disorder for disordered speech recognition
Ryoichi Takashima, Takeru Otani, Ryo Aihara, Tetsuya Takiguchi, Shinya Taguchi
ACM, 2024年10月, The 26th International ACM SIGACCESS Conference on Computers and Accessibility, 1 - 5, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Generation of Colored Subtitle Images Based on Emotional Information of Speech Utterances
Ryoichi Takashima, Fumiya Nakamura, Ryo Aihara, Tetsuya Takiguchi, Yusuke Itani
IEEE, 2024年08月, 2024 32nd European Signal Processing Conference (EUSIPCO), 536 - 540, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Effects of Listening Behaviors of a Social Robot on Adult’s Motivation and Performance in Piano Practice
Ryuto Matsusaka, Masahiro Shiomi, Tetsuya Takiguchi
IEEE, 2024年08月, 2024 33rd IEEE International Conference on Robot and Human Interactive Communication (ROMAN), 1029 - 1034, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Representation Learning Based on Variational Autoencoders for Imagined Speech Classification
Hajime Yano, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa
IEEE, 2024年08月, 2024 32nd European Signal Processing Conference (EUSIPCO), 1546 - 1550, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Integrating Textual and Financial Time Series Data for Enhanced Forecasting*
Shangyang Mou, Qiang Xue, Wenting Zhang, Takuji Kinkyo, Shigeyuki Hamori, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
IEEE, 2024年07月, 2024 16th IIAI International Congress on Advanced Applied Informatics (IIAI-AAI), 541 - 544
研究論文（国際会議プロシーディングス）

Attempts on detecting Alzheimer's disease by fine-tuning pre-trained model with Gaze Data
Junichi Nagasawa, Yuichi Nakata, Mamoru Hiroe, Yujia Zheng, Yutaka Kawaguchi, Yuji Maegawa, Naoki Hojo, Tetsuya Takiguchi, Minoru Nakayama, Maki Uchimura, Yuma Sonoda, Hisatomo Kowa, Takashi Nagamatsu
ACM, 2024年06月, Proceedings of the 2024 Symposium on Eye Tracking Research and Applications, 1 - 3
研究論文（国際会議プロシーディングス）

歌声合成と変換を用いた未経験者音声からのオペラ歌唱音声合成
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 1031 - 1034
研究論文（その他学術会議資料等）

日本語フォント文字の印象評価と感情字幕生成への応用
中村史也, 相原龍, 高島遼一, 滝口哲也, 伊谷裕介
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 983 - 986
研究論文（その他学術会議資料等）

吃音者向けTTSシステムのための健常者音素継続長を反映したVITSの学習手法の提案
長久保諒, 山下陽生, 高島遼一, 安井美鈴, 滝口哲也
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 919 - 922
研究論文（その他学術会議資料等）

wav2vec 2.0と疑似ラベリングを活用した脳性麻痺者の音声認識
松坂勇樹, 高島遼一, 滝口哲也
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 873 - 876
研究論文（その他学術会議資料等）

EdenVC : 音素継続長とアライメントの協調学習を用いた系列長変換型声質変換モデル
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 793 - 796
研究論文（その他学術会議資料等）

正弦波入力型ニューラルボコーダを用いたTTSモデルによる歌声合成
清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 785 - 788
研究論文（その他学術会議資料等）

想起音声識別のための変分自己符号化器に基づく表現学習
矢野肇, 高島遼一, 滝口哲也, 中川誠司
2024年03月, 日本音響学会2024年春季研究発表会講演論文集, 645 - 648
研究論文（その他学術会議資料等）

対話ロボットを用いた演奏学習支援システムの開発
松阪瑠音, 塩見昌裕, 滝口哲也
2024年03月, 第28回情報処理学会シンポジウム INTERACTION 2024, 1390 - 1392
研究論文（その他学術会議資料等）

Enhancing Economic Time Series Prediction with News Text Data and Numerical Data: A Transformer-Based Approach
Shangyang Mou, Wenting Zhang, Takuji Kinkyo, Shigeyuki Hamori, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2024年03月, 言語処理学会第30回年次大会発表論文集, 1975 - 1979, 日本語
研究論文（その他学術会議資料等）
神戸大学リポジトリ（Kernel）へのリンク

知識グラフに基づくルールベースよるFact Verificationとその拡張手法の考察
籾井裕貴, 滝口哲也, 有木康雄
2024年03月, 言語処理学会第30回年次大会発表論文集, 2976 - 2981
研究論文（その他学術会議資料等）

知識グラフの対話システムへの記憶化：学習アプローチの探究
薛強, 滝口哲也, 有木康雄
2024年03月, 言語処理学会第30回年次大会発表論文集, 1453 - 1457
研究論文（その他学術会議資料等）

JudgerToken: A Single-Token Method for Reducing Repetition in Dialogue System
Qiang Xue, Tetsuya Takiguchi, Yasuo Ariki
2024年03月, Proceedings of the 14th International Workshop on Spoken Dialogue Systems Technology
[査読有り]
研究論文（国際会議プロシーディングス）

Dysarthric Speech Recognition Using Pseudo-Labeling, Self-Supervised Feature Learning, and a Joint Multi-Task Learning Approach
Ryoichi Takashima, Yuya Sawa, Ryo Aihara, Tetsuya Takiguchi, Yoshie Imai
2024年03月, IEEE Access, 12, 36990 - 36999, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Iterative Annotation for Road Damage Detection Using Human-in-the-Loop with a Vision and Language Model
Ryuichi Tomiya, Tristan Hascoe, Ryoichi Takashima, Tetsuya Takiguchi
2024年02月, International Workshop on Frontiers of Computer Vision
[査読有り]
研究論文（国際会議プロシーディングス）

Fast Neural Speech Waveform Generative Models With Fully-Connected Layer-Based Upsampling
Haruki Yamashita, Takuma Okamoto, Ryoichi Takashima, Yamato Ohtani, Tetsuya Takiguchi, Tomoki Toda, Hisashi Kawai
2024年02月, IEEE Access, 12, 31409 - 31421
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Dysarthric Speech Recognition Using Pseudo-Labeling, Self-Supervised Feature Learning, and a Joint Multi-Task Learning Approach.
Ryoichi Takashima, Yuya Sawa, Ryo Aihara, Tetsuya Takiguchi, Yoshie Imai
2024年, IEEE Access, 12, 36990 - 36999
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Fast Neural Speech Waveform Generative Models With Fully-Connected Layer-Based Upsampling.
Haruki Yamashita, Takuma Okamoto, Ryoichi Takashima, Yamato Ohtani, Tetsuya Takiguchi, Tomoki Toda, Hisashi Kawai
2024年, IEEE Access, 12, 31409 - 31421
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Learning Global Evapotranspiration Dataset Corrections from a Water Cycle Closure Supervision
Tristan Hascoet, Victor Pellet, Filipe Aires, Tetsuya Takiguchi
Evapotranspiration (E) is one of the most uncertain components of the global water cycle (WC). Improving global E estimates is necessary to improve our understanding of climate and its impact on available surface water resources. This work presents a methodology for deriving monthly corrections to global E datasets at 0.25∘ resolution. A principled approach is proposed to firstly use indirect information from the other water components to correct E estimates at the catchment level, and secondly to extend this sparse catchment-level information to global pixel-level corrections using machine learning (ML). Several E satellite products are available, each with its own errors (both random and systematic). Four such global E datasets are used to validate the proposed approach and highlight its ability to extract seasonal and regional systematic biases. The resulting E corrections are shown to accurately generalize WC closure constraints to unseen catchments. With an average deviation of 14% from the original E datasets, the proposed method achieves up to 20% WC residual reduction on the most favorable dataset.
MDPI AG, 2023年12月, Remote Sensing, 16(1) (1), 170 - 170
[査読有り]
研究論文（学術雑誌）

知識グラフを活用したルールベースによるFact Verification
籾井裕貴, 滝口哲也, 有木康雄
2023年12月, 人工知能学会言語・音声理解と対話処理研究会, 51 - 55
研究論文（研究会，シンポジウム資料等）

対話データに基づく重複文負例の作成と重複を抑制する言語モデルの提案
薛強, 滝口哲也, 有木康雄
2023年12月, 人工知能学会言語・音声理解と対話処理研究会, 19 - 24
研究論文（研究会，シンポジウム資料等）

Rule-based Fact Verification Utilizing Knowledge Graphs
Y. Momii, T. Takiguchi, Y. Ariki
2023年12月, The 12th International Joint Conference on Knowledge Graphs
[査読有り]
研究論文（国際会議プロシーディングス）

歯科医療情報共有化と異分野融合によるデータ駆動型時代の歯科医療発話困難者の音声コミュニケーションを支援する音声認識技術
滝口哲也, 北条直樹, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳
(一社)日本医療情報学会, 2023年11月, 医療情報学連合大会論文集, 43回, 390 - 391, 日本語

Magnetic cortical oscillations associated with subjective auditory coolness during paired comparison of time-varying HVAC sounds
Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa
The impressions of heating, ventilation, and air conditioning (HVAC) sounds are important for the comfort people experience in their living spaces. Revealing neural substrates of the impressions induced by HVAC sounds can help to develop neurophysiological indices of the comfort of HVAC sounds. There have been numerous studies on the brain activities associated with the pleasantness of sounds, but few on the brain activities associated with the thermal impressions of HVAC sounds. Seven time-varying HVAC sounds were synthesized as stimuli using amplitude modulation. Six participants took part in subjective evaluation tests and MEG measurements. Subjective coolness of the HVAC sounds was measured using the paired comparison method. Magnetoencephalographic (MEG) measurements were carried out while participants listened to and compared the time-varying HVAC sounds. Time-frequency analysis and cluster-based analysis were performed on the MEG data. The subjective evaluation tests showed that the subjective coolness of the amplitude-modulated HVAC sounds was affected by the modulation frequency, and that there was individual difference in subjective coolness. A cluster-based analysis of the MEG data revealed that the brain activities of two participants significantly differed when they listened to cooler or less cool HVAC sounds. The frontal low-theta (4–5 Hz) and the temporal alpha (8–13 Hz) activities were observed. The frontal low-theta and the temporal alpha activities may be associated with the coolness of HVAC sound. This result suggests that the comfort level of HVAC sound can be evaluated and individually designed using neurophysiological measurements.
Ovid Technologies (Wolters Kluwer Health), 2023年10月, NeuroReport, 35(1) (1), 1 - 8
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

単語埋め込み表現を用いた感情音声からの字幕画像生成手法の検討
中村史也, 相原龍, 高島遼一, 滝口哲也, 伊谷裕介
2023年09月, 日本音響学会2023年秋季研究発表会講演論文集, 1333 - 1336
研究論文（その他学術会議資料等）

吃音者の音声認識における連発ラベル導入による連発箇所の検出
松坂勇樹, 高島遼一, 安井美鈴, 滝口哲也
2023年09月, 日本音響学会2023年秋季研究発表会講演論文集, 1325 - 1328
研究論文（その他学術会議資料等）

End-to-End 系列変換型声質変換への高速ニューラル波形生成モデル導入の検討
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2023年09月, 日本音響学会2023年秋季研究発表会講演論文集, 1295 - 1298
研究論文（その他学術会議資料等）

Diff-SVCを用いたオペラ歌唱音声合成における中高域強調ネットワークの検討
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
2023年09月, 日本音響学会2023年秋季研究発表会講演論文集, 1283 - 1286
研究論文（その他学術会議資料等）

F0予測・波形生成ネットワークの一貫学習によるメルスペクトログラム入力型F0制御可能ニューラルボコーダ
清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2023年09月, 日本音響学会2023年秋季研究発表会講演論文集, 1041 - 1044
研究論文（その他学術会議資料等）

Optical Flow Regularization of Implicit Neural Representations for Video Frame Interpolation
Weihao Zhuang, Tristan Hascoet, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi
Now Publishers, 2023年09月, APSIPA Transactions on Signal and Information Processing, 12(1) (1)
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

EEG Source Estimation Using Deep Prior Without a Subject’s Individual Lead Field
Naoki Hojo, Hajime Yano, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa
IEEE, 2023年06月, 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), 1 - 5
[査読有り]
研究論文（国際会議プロシーディングス）

全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2023年06月, 電子情報通信学会技術研究報告, 123(88) (88), 73 - 78
研究論文（研究会，シンポジウム資料等）

発話音声の感情情報に基づく色つき字幕画像生成の検討
中村史也, 相原龍, 高島遼一, 滝口哲也, 伊谷裕介
2023年06月, 電子情報通信学会技術研究報告, 123(88) (88), 54 - 59
研究論文（研究会，シンポジウム資料等）

Diff-SVCを用いたオペラ歌唱音声合成
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
2023年06月, 電子情報通信学会技術研究報告, 123(88) (88), 30 - 35
研究論文（研究会，シンポジウム資料等）

MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較
清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒
2023年06月, 電子情報通信学会技術研究報告, 123(88) (88), 20 - 25
研究論文（研究会，シンポジウム資料等）

Harmonic-Net: Fundamental Frequency and Speech Rate Controllable Fast Neural Vocoder
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai
2023年05月, IEEE Transactions on Audio, Speech, and Language Processing, 31, 1902 - 1915
[査読有り]
研究論文（学術雑誌）

Multi-stream FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル
山下陽生, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2023年03月, 電子情報通信学会技術研究報告, 122(389) (389), 7 - 12
研究論文（その他学術会議資料等）

基本周波数制御可能な高速ニューラル波形生成モデルの比較
清水聡太, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2023年03月, 電子情報通信学会技術研究報告, 122(389) (389), 1 - 6
研究論文（その他学術会議資料等）

知識グラフに基づく応答文生成における記号化されたエンティティの利用
籾井裕貴, 滝口哲也, 有木康雄
2023年03月, 言語処理学会第29回年次大会発表論文集, 2007 - 2012
研究論文（その他学術会議資料等）

生成・分類言語モデルに基づく対話システムの構築
薛強, 滝口哲也, 有木康雄
2023年03月, 言語処理学会第29回年次大会発表論文集, 1969 - 1973
研究論文（その他学術会議資料等）

EEGNetを用いた脳磁界データによる想起時の音声識別の検討
山名莉央, 北条直樹, 矢野肇, 滝口哲也, 高島遼一, 中川誠司
2023年03月, 日本音響学会春季研究発表会講演論文集, (3-4P-3) (3-4P-3), 517 - 520
研究論文（その他学術会議資料等）

発話音声の感情を反映したテロップ画像の自動生成手法の検討
中村史也, 相原龍, 高島遼一, 滝口哲也, 今井良枝
2023年03月, 日本音響学会春季研究発表会講演論文集, (2-3Q-4) (2-3Q-4), 887 - 890
研究論文（その他学術会議資料等）

Harmonic-Net++: 基本周波数制御可能なメルスペクトログラム入力型高速ニューラルボコーダ
清水聡太, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2023年03月, 日本音響学会春季研究発表会講演論文集, (2002/3/4) (2002/3/4), 717 - 720
研究論文（その他学術会議資料等）

自己正確推定損失を用いたDeep Priorに基づく複数の脳内電流源の推定
矢野肇, 高島遼一, 滝口哲也, 中川誠司
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-4P-16) (1-4P-16), 509 - 512
研究論文（その他学術会議資料等）

Deep Priorを用いた脳波からのForward modelと電流源の同時推定
北条直樹, 矢野肇, 高島遼一, 滝口哲也, 中川誠司
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-4P-15) (1-4P-15), 505 - 508
研究論文（その他学術会議資料等）

Emotional Voice Conversion with a Novel Content-Style Fusion Block
陳訓泉, 陳金輝, 高島遼一, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3Q-8) (1-3Q-8), 831 - 834
研究論文（その他学術会議資料等）

脊髄性筋萎縮症者音声合成における明瞭性および話者性を考慮した適応手法の検討
吉本拓真, 高島遼一, 佐々木千穂, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3Q-6) (1-3Q-6), 825 - 828
研究論文（その他学術会議資料等）

器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入
冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3Q-2) (1-3Q-2), 811 - 814
研究論文（その他学術会議資料等）

Towards Expressive Speech Conversion based on StarGANv2
牟尚泱, 陳金輝, 高島遼一, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3P-10) (1-3P-10), 799 - 802
研究論文（その他学術会議資料等）

発話音声を用いたオペラ歌唱音声合成の初期検討
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3P-9) (1-3P-9), 795 - 798
研究論文（その他学術会議資料等）

wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識
松坂勇樹, 高島遼一, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-3P-2) (1-3P-2), 773 - 776
研究論文（その他学術会議資料等）

音響イベントのゼロショット学習における属性情報の拡張
Lin Yi-Han, 高島遼一, 滝口哲也
2023年03月, 日本音響学会春季研究発表会講演論文集, (1-1P-4) (1-1P-4), 213 - 216
研究論文（その他学術会議資料等）

End-to-End系列変換型声質変換の高速化およびノンネイティブ話者変換の検討
山下陽生, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2023年03月, 日本音響学会春季研究発表会講演論文集, (2001/3/13) (2001/3/13), 699 - 702
研究論文（その他学術会議資料等）

EEG Current Source Localization Using Deep Prior
Naoki Hojo, Hajime Yano, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa
2023年03月, International Workshop on Nonlinear Circuits and Signal Processing, 502 - 505
[査読有り]
研究論文（国際会議プロシーディングス）

Visual Archive Search Using Vision-language Object Detection Models
Ryuichi Tomiya, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi
2023年03月, International Workshop on Nonlinear Circuits and Signal Processing, 340 - 343
[査読有り]
研究論文（国際会議プロシーディングス）

Zero-Shot Sound Event Classification Using a Sound Attribute Vector with Global and Local Feature Learning.
Yihan Lin, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi
2023年, ICASSP, 1 - 5
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Convolutional Neural Networks Inference Memory Optimization with Receptive Field-Based Input Tiling
Weihao Zhuang, Tristan Hascoet, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
Now Publishers, 2023年01月, APSIPA Transactions on Signal and Information Processing, 12(1) (1), 1 - 20
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Reversible designs for extreme memory cost reduction of CNN training.
Tristan Hascoet, Quentin Febvre, Weihao Zhuang, Yasuo Ariki, Tetsuya Takiguchi
2023年01月, EURASIP J. Image Video Process., 2023(1) (1), 1 - 30
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Optimizing Japanese dam reservoir inflow forecast for efficient operation
Keisuke Yoshimi, Tristan Hascoet, Rousslan F. Julien Dossa, Ryoichi Takashima, Tetsuya Takiguchi, Satoru Oishi
2022年12月, NeurIPS 2022 Workshop on Tackling Climate Change with Machine Learning, 1 - 5
[査読有り]
研究論文（国際会議プロシーディングス）

Levee protected area detection for improved flood risk assessment in global hydrology models
Masato Ikegawa, Tristan Hascoet, Victor Pellet, Xudong Zhou, Tetsuya Takiguchi, Dai Yamazaki
2022年12月, NeurIPS 2022 Workshop on Tackling Climate Change with Machine Learning, 1 - 5
[査読有り]
研究論文（国際会議プロシーディングス）

Current Source Localization Using Deep Prior with Depth Weighting
Hajime Yano, Rio Yamana, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa
IEEE, 2022年11月, 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
[査読有り]
研究論文（国際会議プロシーディングス）

Speaker-Independent Emotional Voice Conversion via Disentangled Representations
Xunquan Chen, Takashi Kamihigashi, Jinhui Chen, Tetsuya Takiguchi, Edwin R. Hancock
2022年11月, IEEE Transactions on Multimedia
[査読有り]
研究論文（学術雑誌）

Binary Attribute Embeddings for Zero-Shot Sound Event Classification
Yihan Lin, Xunquan Chen, Ryoichi Takashima and Tetsuya Takiguchi
2022年10月, IEEE GCCE, 13 - 14
[査読有り]
研究論文（国際会議プロシーディングス）

Evaluation and Manipulation of Neural Activity using Two-Photon Holographic Microscopy.
Daisuke Kato, Xiangyu Quan, Yuta Tanisumi, Zhongtian Guo, Mitsuhiro Morita, Tetsuya Takiguchi, Osamu Matoba, Hiroaki Wake
Recent advances in optical bioimaging and optogenetics have enabled the visualization and manipulation of biological phenomena, including cellular activities, in living animals. In the field of neuroscience, detailed neural activity related to brain functions, such as learning and memory, has now been revealed, and it has become feasible to artificially manipulate this activity to express brain functions. However, the conventional evaluation of neural activity by two-photon Ca2+ imaging has the problem of low temporal resolution. In addition, manipulation of neural activity by conventional optogenetics through the optic fiber can only simultaneously regulate the activity of neurons with the same genetic background, making it difficult to control the activity of individual neurons. To solve this issue, we recently developed a microscope with a high spatiotemporal resolution for biological applications by combining optogenetics with digital holographic technology that can modify femtosecond infrared laser beams. Here, we describe protocols for the visualization, evaluation, and manipulation of neural activity, including the preparation of samples and operation of a two-photon holographic microscope (Figure 1). These protocols provide accurate spatiotemporal information on neural activity, which may be useful for elucidating the pathogenesis of neuropsychiatric disorders that lead to abnormalities in neural activity.
2022年09月, Journal of visualized experiments : JoVE, (187) (187), 英語, 国際誌
[査読有り]
研究論文（学術雑誌）

日本の水力発電効率化のための機械学習を用いたダム流入水量予測
吉見圭祐, トリスタンハスクェト, 滝口哲也, 高島遼一, 大石哲
2022年09月, 第21回情報科学技術フォーラム, (O-001) (O-001), 299 - 302
研究論文（その他学術会議資料等）

筋萎縮性側索硬化症者の音声合成を目的としたモデル適応と声質変換の比較評価
吉本拓真, 高島遼一, 佐々木千穂, 滝口哲也
2022年09月, 日本音響学会秋季研究発表会講演論文集, (3-Q-30) (3-Q-30), 1387 - 1390
研究論文（その他学術会議資料等）

wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識
松坂勇樹, 高島遼一, 滝口哲也
2022年09月, 日本音響学会秋季研究発表会講演論文集, (3-Q-4) (3-Q-4), 1317 - 1320
研究論文（その他学術会議資料等）

器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討
冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
2022年09月, 日本音響学会秋季研究発表会講演論文集, (3-Q-3) (3-Q-3), 1313 - 1316
研究論文（その他学術会議資料等）

Towards Natural Emotional Voice Conversion with Novel Attention Module
陳訓泉, 陳金輝, 高島遼一, 滝口哲也
2022年09月, 日本音響学会秋季研究発表会講演論文集, (2-Q-46) (2-Q-46), 1297 - 1300
研究論文（その他学術会議資料等）

構音障害者のための高明瞭度音声合成における HiFi-GAN を用いた品質改善
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2022年09月, 日本音響学会秋季研究発表会講演論文集, (2-Q-39) (2-Q-39), 1277 - 1280
研究論文（その他学術会議資料等）

Attribute Prototype Networkを用いた音響イベントのゼロショット学習
LIN YIHAN, 高島遼一, 滝口哲也
2022年09月, 日本音響学会秋季研究発表会講演論文集, (2-Q-30) (2-Q-30), 1245 - 1248
研究論文（その他学術会議資料等）

自己正確推定損失による DeepPrior を用いた脳磁図の電流源推定
矢野肇, 高島遼一, 滝口哲也, 中川誠司
2022年09月, 日本音響学会秋季研究発表会講演論文集, (1-P-23) (1-P-23), 955 - 958
研究論文（その他学術会議資料等）

基本周波数制御可能なメルスペクトログラム入力型 HiFi-GAN の初期検討
清水聡太, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2022年09月, 日本音響学会秋季研究発表会講演論文集, (1-8-10) (1-8-10), 1137 - 1140
研究論文（その他学術会議資料等）

Harmonic-Net+:高調波入力と Layerwise-Quasi-Periodic 畳み込みを用いた基本周波数制御可能な高速ニューラルボコーダ
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2022年09月, 日本音響学会秋季研究発表会講演論文集, (1-8-9) (1-8-9), 1133 - 1136
研究論文（その他学術会議資料等）

FC-HiFi-GAN:全結合層型アップサンプリングを導入した高速 HiFi-GAN
山下陽生, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒
2022年09月, 日本音響学会秋季研究発表会講演論文集, (1-8-5) (1-8-5), 1121 - 1124
研究論文（その他学術会議資料等）

Highly Intelligible Speech Synthesis for Spinal Muscular Atrophy Patients Based on Model Adaptation
Takuma Yoshimoto, Ryoichi Takashima, Chiho Sasaki, Tetsuya Takiguchi
2022年09月, Proc. 1st Workshop on Speech for Social Good (S4SG), 36 - 40
[査読有り]
研究論文（国際会議プロシーディングス）

Building a Knowledge-Based Dialogue System with Text Infilling
Qiang Xue, Tetsuya Takiguchi, Yasuo Ariki
2022年09月, Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), 237 - 243
[査読有り]
研究論文（国際会議プロシーディングス）

Direction of Arrival Estimation for Indoor Environments Based on Acoustic Composition Model with a Single Microphone
Xuexin Xu, Xunquan Chen, Jinhui Chen, Zhihong Zhang, Tetsuya Takiguchi, Edwin R. Hancock
2022年09月, Pattern Recognition, Volume 129, 108715~, 英語
[査読有り]
研究論文（学術雑誌）

Where do humans build levees? A case study on the contiguous united states
M. Ikegawa, T. Hascoet, V. Pellet, M. Watanabe, X. Zhou, Y. Tanaka, T. Takiguchi, D. Yamazaki
2022年07月, 2765 - 2768
[査読有り]
研究論文（国際会議プロシーディングス）

対話穴埋め：検索・生成ベース雑談対話システムの発話制御手法
薛強, 滝口哲也, 有木康雄
Generation-base dialogue system tends to produce generic response sentences. In order to improve the diversity of response sentences by the generation-base dialogue system, the response text retrieved by the retrieval-base model can be input to the generation-base model as reference response text, so that the generation-base model can generate highly diverse response sentences. However, the prior works show that the generation-base dialogue system often ignores the reference response text, resulting in the response sentences that is unrelated to the reference response text. In this work, we propose the Dialogue-Filling method, which can utilize 100% of the reference response text by masking the response sentences with a text-filling technique. We built variants of Dialogue-Filling method with DialoGPT model. Experiments on the DailyDialog Dataset demonstrate that our Dialogue-Filling method outperforms the baseline method on the dialogue generation task.
一般社団法人人工知能学会, 2022年05月, 人工知能学会論文誌, 37(3) (3), IDS-C_1 - 9, 日本語
[査読有り]

MEG Source Localization Using Deep Prior
Rio Yamana, Hajime Yano, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa
IEEE, 2022年03月, 2022 IEEE 4th Global Conference on Life Sciences and Technologies (LifeTech), 590 - 591
[査読有り]
研究論文（国際会議プロシーディングス）

Adaptation of a Pronunciation Dictionary for Dysarthric Speech Recognition.
Yuya Sawa, Ryoichi Takashima, Tetsuya Takiguchi
IEEE, 2022年03月, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 631 - 635
[査読有り]
研究論文（国際会議プロシーディングス）

Data Augmentation for Dysarthric Speech Recognition Based on Text-to-Speech Synthesis.
Yuki Matsuzaka, Ryoichi Takashima, Chiho Sasaki, Tetsuya Takiguchi
IEEE, 2022年03月, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 399 - 400
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Comparative Evaluation of Neural Vocoders for Speech Synthesis of Operatic Singing.
Sota Shimizu, Keisuke Matsubara, Yuji Adachi, Kiyoto Tai, Ryoichi Takashima, Tetsuya Takiguchi
IEEE, 2022年03月, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 28 - 29
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Comparison of real-time multi-speaker neural vocoders on CPUs
Keisuke Matsubara, Takuma Okamoto, Ryoichi Takashima, Tetsuya Takiguchi, Tomoki Toda, Hisashi Kawai
Acoustical Society of Japan, 2022年03月, Acoustical Science and Technology, 43(2) (2), 121 - 124
[査読有り]
研究論文（学術雑誌）

Speaker-Targeted Audio-Visual Speech Recognition Using a Hybrid CTC/Attention Model with Interference Loss.
Ryota Tsunoda, Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yoshie Imai
2022年, ICASSP, 251 - 255
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Phoneme-Guided Dysarthric Speech Conversion with Non-parallel Data by Joint Training
Xunquan Chen, Atsuki Oshiro, Jinhui Chen, Ryoichi Takashima, Tetsuya Takiguchi
2022年01月, Signal, Image and Video Processing, 1641 - 1648
[査読有り]
研究論文（学術雑誌）

三題噺生成：指定知識による対話システムの応答生成手法
薛強, 滝口哲也, 有木康雄
近年，最先端のTransformerベースの深層学習モデルを用いた生成ベース対話システムが研究開発され，より人間らしい応答文を生成することが報告されている．多くの生成ベース対話システムでは，深層学習モデルの出力分布により，Greedyなどのデコード戦略に基づいて，左から右に逐次的に応答文の単語を生成するという逐次生成手法を用いている．しかし，逐次生成手法により生成する応答文は，最小長と最大長などの応答文パラメータは制御できるが，内容を制御することが困難である．本研究では，生成する応答の内容を制御するために，与えられた三つのお題を使って即興で話をする「三題噺」の作文手法を参考に，指定された知識（お題）の前後の応答を生成する三題噺生成手法を提案する．実験より，提案手法を用いた対話システムは，多様性と正解性評価指標においてベースラインより優れた結果を示した．
一般社団法人人工知能学会, 2022年, 人工知能学会全国大会論文集, JSAI2022, 3Yin221 - 3Yin221, 日本語

Unsupervised domain adaptation for lip reading based on cross-modal knowledge distillation
Yuki Takashima, Ryoichi Takashima, Ryota Tsunoda, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki, Nobuaki Motoyama
2021年12月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2021(1) (1), 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Multimodal fusion for indoor sound source localization
Jinhui Chen, Ryoichi Takashima, Xingchen Guo, Zhihong Zhang, Xuexin Xud, Tetsuya Takiguchi, Edwin R.Hancock
2021年07月, Pattern Recognition, 115, 1 - 12
[査読有り]
研究論文（学術雑誌）

モデル適応に基づく脊髄性筋萎縮症者の高明瞭度音声合成の検討
吉本拓真, 高島遼一, 佐々木千穂, 滝口哲也
2021年06月, 第137回音声言語情報処理研究会, 2021-SLP-137, 1 - 5
研究論文（研究会，シンポジウム資料等）

High-Intelligibility Speech Synthesis for Dysarthric Speakers with LPCNet-Based TTS and CycleVAE-Based VC
松原圭亮, 松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 戸田智基, 志賀芳則, 河井恒
2021年06月, ICASSP, 2021, 7058 - 7062
[査読有り]
研究論文（国際会議プロシーディングス）

CycleVAE型声質変換を用いた構音障害者のための高明瞭度音声合成
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井恒
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 2021, 783 - 786
研究論文（その他学術会議資料等）

マルチモーダル音声認識におけるLocal attentionを用いた音声画像統合方式
角田遼太, 相原龍, 高島遼一, 滝口哲也, 本山信明
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 957 - 960
研究論文（その他学術会議資料等）

口唇口蓋裂者の音声認識のためのデータ拡張方式の検討
冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 2021, 961 - 964
研究論文（その他学術会議資料等）

母音発音と歌唱速度の変化を考慮したアカペラオペラ歌声合成
片平健太, 足立優司, 田井清登, 高島遼一, 滝口哲也
2021年03月, 日本音響学会2021年春季研究発表会講演論文集
研究論文（その他学術会議資料等）

Dysarthric Speech Conversion by Learning Disentangled Representations with Non-parallel Data
陳訓泉, 陳金輝, 高島遼一, 滝口哲也
2021年03月, 1037 - 1040
研究論文（その他学術会議資料等）

自己教師あり学習によるラベル無し自由発話を用いた構音障害者音声認識
澤佑哉, 冨士原健斗, 相原龍, 高島遼一, 滝口哲也, 本山信明
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 1045 - 1048
研究論文（その他学術会議資料等）

Deep Priorを用いた聴覚誘発反応の電流源推定
山名莉央, 矢野肇, 高島遼一, 滝口哲也, 中川誠司
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 2021, 679 - 682
研究論文（その他学術会議資料等）

クロスチャネル言語識別におけるwav2vecを用いた自己教師あり特徴量学習
吉本拓真, 沈鵬, Lu Xugang, 高島遼一, 滝口哲也, 河井恒
2021年03月, 日本音響学会2021年春季研究発表会講演論文集, 915 - 916
研究論文（その他学術会議資料等）

ルールベースと生成ベースを融合した雑談対話の発話生成手法
薛強, 滝口哲也, 有木康雄
2021年03月, 言語処理学会第27回年次大会発表論文集, 1590 - 1592
研究論文（その他学術会議資料等）

Pain induces stable, active microcircuits in the somatosensory cortex that provide a therapeutic target
Takuya Okada, Daisuke Kato, Yuki Nomura, Norihiko Obata, Xiangyu Quan, Akihito Morinaga, Hajime Yano, Zhongtian Guo, Yuki Aoyama, Yoshihisa Tachibana, Andrew J. Moorhouse, Osamu Matoba, Tetsuya Takiguchi, Satoshi Mizobuchi, Hiroaki Wake
2021年02月, Science Advances, 7(12) (12), 1 - 14
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Data Augmentation Based on Frequency Warping for Recognition of Cleft Palate Speech.
Kento Fujiwara, Ryoichi Takashima, Chihiro Sugiyama, Nobukazu Tanaka, Kanji Nohara, Kazunori Nozaki, Tetsuya Takiguchi
IEEE, 2021年, Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 471 - 476
研究論文（国際会議プロシーディングス）

誤り訂正に基づく器質性構音障害者の音声認識精度向上の検討
冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
2021年, 日本音響学会研究発表会講演論文集(CD-ROM), 2021

Investigation of training data size for real-time neural vocoders on CPUs
Keisuke Matsubara, Takuma Okamoto, Ryoichi Takashima, Tetsuya Takiguchi, Tomoki Toda, Yoshinori Shiga, Hisashi Kawai
Acoustical Society of Japan, 2021年01月, Acoustical Science and Technology, 42(1) (1), 65 - 68
研究論文（学術雑誌）

ゲート制御付きSource-Target Attention を用いた複数知識文に基づく応答文の生成
佐良和孝, 滝口哲也, 有木康雄
2020年11月, 人工知能学会言語・音声理解と対話処理研究会, 20 - 23
研究論文（研究会，シンポジウム資料等）

雑談対話モデルの関連性向上のための関連語を優先した応答文生成手法の検討
麻生大聖, 滝口哲也, 有木康雄
2020年11月, 人工知能学会言語・音声理解と対話処理研究会, 42 - 45
研究論文（研究会，シンポジウム資料等）

Dysarthric Speech Recognition Based on Deep Metric Learning
Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2020年10月, Interspeech, 4796 - 4800
[査読有り]
研究論文（国際会議プロシーディングス）

Opera Singing Voice Synthesis Considering Vowel Variations
Kenta Katahira, Yuji Adachi, Kiyoto Tai, Ryoichi Takashima, Tetsuya Takiguchi
2020年10月, IEEE Global Conference on Consumer Electronics, 663 - 664
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Convolutional neural networks Memory Optimization Inference with Splitting Image
Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2020年10月, IEEE Global Conference on Consumer Electronics, 678 - 679
[査読有り]
研究論文（国際会議プロシーディングス）

An Investigation of End-to-End Speech Recognition Using Model Adaptation for Dysarthric Speakers
Yuya Sawa, Ryoichi Takashima, Tetsuya Takiguchi
2020年10月, IEEE Global Conference on Consumer Electronics, 712 - 713
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

Full-band LPCNet：48kHzリアルタイムニューラルボコーダ
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井恒
2020年09月, 日本音響学会2020年秋季研究発表会講演論文集, 2020, 755 - 758
論文集(書籍)内論文

アカペラ歌唱における歌唱速度の変化を考慮した歌声合成に関する検討
片平健太, 足立優司, 田井清登, 高島遼一, 滝口哲也
2020年09月, 日本音響学会2020年秋季研究発表会講演論文集, 875 - 876
論文集(書籍)内論文

構音障害者音声認識における発話辞書適応の検討
澤佑哉, 高島遼一, 滝口哲也, 有木康雄
2020年09月, 日本音響学会2020年秋季研究発表会講演論文集, 805 - 808
論文集(書籍)内論文

構音障害者音声認識における認識モデルの比較評価
高島遼一, 有木康雄, 滝口哲也
2020年09月, 日本音響学会2020年秋季研究発表会講演論文集, 809 - 812
論文集(書籍)内論文

Quantitative Evaluation of Handwriting Skills During Childhood
Yusuke Watanabe, Taro Ohtoshi, Tetsuya Takiguchi, Akira Ishikawa, Satoshi Takada
2020年08月, Kobe Journal of Medical Sciences, 66(2) (2), E49 - E55
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Two-step acoustic model adaptation for dysarthric speech recognition
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2020年05月, 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 6104 - 6108
[査読有り]

Differentiable Programmingを用いた強化学習の最適化
黄伊莎, トリスタンハスクウェト, 高島遼一, 滝口哲也, 有木康雄
機械学習と関数型プログラミングには多くの類似性を持ち、近年それらを結びつけるDifferentiable Programmingというアイデアが新しく出てきた。この方法はパラメータを直接調節して勾配を求められることが今までと大きく違う。これにより物理シミュレーションなど様々な分野に適用できることが期待されている。私たちは強化学習のベンチマークを用いてDQNの手法とDifferentiable Programmingの手法を比較し、Differentiable programmingの効果及び学習ダイナミクスを調査し説明する。
2020年03月, 情報処理学会第82回全国大会講演論文集, 2020(1) (1), 267 - 268, 日本語

深層距離学習に基づく構音障害者音声認識
高島悠樹, 高島遼一, 滝口哲也, 有木康雄
電子情報通信学会, 2020年03月, 電子情報通信学会技術研究報告, 119(440) (440), 181 - 186, 日本語

Spillover effects between energies, gold, and stock: the United States versus China
Xie He, Tetsuya Takiguchi, Tadahiro Nakajima, Shigeyuki Hamori
SAGE Publications, 2020年03月, Energy & Environment, 0958305X2090708 - 0958305X2090708
[査読有り]
研究論文（学術雑誌）

自由な歌唱速度の歌声の合成に関する検討
片平健太, 足立優司, 田井清登, 高島遼一, 滝口哲也
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 1125 - 1126, 日本語
研究論文（その他学術会議資料等）

少量データを用いた構音障害者音声合成の健常者モデルによる明瞭性改善
南坂竜翔, 高島遼一, 滝口哲也
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 1117 - 1120, 日本語
研究論文（その他学術会議資料等）

Hybrid CTC/attentionモデルを用いた構音障害者音声認識の検討
澤佑哉, 高島遼一, 滝口哲也, 有木康雄
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 967 - 970, 日本語
研究論文（その他学術会議資料等）

聴感印象推定のための脳活動特徴量抽出－テンソル分解による機能的結合の低ランク表現の検討－
矢野肇, 高島遼一, 滝口哲也, 中川誠司
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 2020, 431 - 434, 日本語
研究論文（その他学術会議資料等）

クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応
高島悠樹, 相原龍, 高島遼一, 滝口哲也, 有木康雄, 村山修
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 907 - 910, 日本語
研究論文（その他学術会議資料等）

Convolutional Neural Networks を用いた音声想起時の脳磁界データにおける識別的特徴量の検討
矢野彩緒里, 高島遼一, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 2020, 507 - 510, 日本語
研究論文（その他学術会議資料等）

リアルタイムニューラルボコーダにおける学習データ量の影響の調査
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井恒
2020年03月, 日本音響学会2020年春季研究発表会講演論文集, 2020, 1045 - 1048, 日本語
研究論文（その他学術会議資料等）

Transfer Learning to Generate Multiple Sentence Question with Leveraging Difference between Datasets
長谷川公大, 松本剛明, 高島遼一, 滝口哲也, 有木康雄, 三田村照子
2020年03月, 言語処理学会第26回年次大会発表論文集, 1273 - 1276
研究論文（その他学術会議資料等）

発話スタイルに非依存な文章表現を用いたスタイルロバストなSeq2seqモデルの提案
古舞千暁, 滝口哲也, 有木康雄
2020年03月, 言語処理学会第26回年次大会発表論文集, 1348 - 1351
研究論文（その他学術会議資料等）

ニューロンセグメンテーションにおけるマルチドメイン学習による汎化性能の改善
長谷川貴大, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄
脳全体における神経回路のマッピングの研究であるコネクトミクスにおいて、脳の電子顕微鏡画像から各ニューロンを識別することが重要である。深層学習によるニューロンの自動セグメンテーションに際して、データの取得にもアノテーションにも多大なコストがかかるため、転移学習をさせることが有力な選択肢の1つとなる。本稿では、U-Netと呼ばれる深層学習モデルを用いて、複数のドメインの公開データセットで学習させたモデルの汎化性能を検討した。また、それによって、目標となるドメインのデータセットでの転移学習のコストを低減させつつ、精度を向上させることを試みた。
2020年02月, 情報処理学会第82回全国大会講演論文集, 2020(1) (1), 169 - 170, 日本語

Application and evaluation of transfer learning to aquatic insect recognition
Keiichi Tanida, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki, Natsuho Ooe, Takuya Sato
2020年02月, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)
[査読有り]

Optimizing the computational efficiency of 3D segmentation models for connectomics
Weihao Zhuang, Hascoet Tristan, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2020年02月, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)
[査読有り]

Adhesive strength estimation from copper surface images
Xuejiao Deng, Masako Akagi, Tristan Hascoet, Tetsuya Takiguchi, Kiyoto Tai, Yuji Adachi, Ryoichi Takashima, Yasuo Ariki
2020年02月, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)
[査読有り]

FasterRCNN Monitoring of Road Damages: Competition and Deployment.
Tristan Hascoet, Yihao Zhang, Andreas Persch, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
IEEE, 2020年, 2020 IEEE International Conference on Big Data (IEEE BigData 2020), 5545 - 5552
研究論文（国際会議プロシーディングス）

Study on the Language Formation Process of Very-Low-Birth-Weight Infants in Infancy Using a Formant Analysis
Hidetaka Maebayashi, Tetsuya Takiguchi, Satoshi Takada
2019年11月, Kobe Journal of Medical Sciences, 65(2) (2), E59 - E70
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習
高島悠樹, 高島遼一, 滝口哲也, 有木康雄
電子情報通信学会, 2019年10月, 電子情報通信学会技術研究報告, 119(251) (251), 45 - 50, 日本語

Assisting human experts in the interpretation of their visual process: A case study on assessing copper surface adhesive potency
Tristan Hascoet, Xuejiao Deng, Kiyoto Tai, Yuji Adachi, Sachiko Nakamura, Tomoko Hayashi, Mari Sugiyama, Yasuo Ariki, Tetsuya Takiguchi
Institute of Electrical and Electronics Engineers Inc., 2019年10月, Proceedings - 2019 International Conference on Computer Vision Workshop, ICCVW 2019, 4216 - 4225, 英語
研究論文（国際会議プロシーディングス）

Layer-Wise Invertibility for Extreme Memory Cost Reduction of CNN Training
Tristan Hascoet, Quentin Febvre, Weihao Zhuang, Yasuo Ariki, Tetsuya Takiguchi
2019年10月, Neural Architects Workshop (IEEE ICCV Workshop)
[査読有り]
研究論文（国際会議プロシーディングス）

Emotional Voice Conversion Using Dual Supervised Adversarial Networks With Continuous Wavelet Transform F0 Features
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2019年10月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 27(10) (10), 1535 - 1548, 英語
[査読有り]
研究論文（学術雑誌）

構音障害者を対象とした日本語大語彙連続音声認識の検討
高島遼一, 滝口哲也, 有木康雄
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 863 - 866

歌声の母音変化を考慮した歌声合成の検討
片平健太, 足立優司, 田井清登, 高島遼一, 滝口哲也
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 1007 - 1010

構音障害者の少量データを用いた深層学習による音声合成の検討
南坂竜翔, 高島遼一, 滝口哲也, 有木康雄
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 1011 - 1014

Speech-to-Speech Translation using Dual Learning and Prosody Conversion
Zhaojie Luo, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 1037 - 1040

Lip readingのためのクロスモーダルTeacher-Student学習
高島悠樹, 相原龍, 高島遼一, 滝口哲也, 有木康雄, 村山修
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 823 - 826

外部知識を用いた雑談対話システムの汎化性能向上の検討
麻生大聖, 高島遼一, 滝口哲也, 有木康雄
2019年09月, 日本音響学会2019年秋季研究発表会講演論文集, 1053 - 1056

脳磁界データによる音声の識別―想起時と聴取時の比較―
矢野彩緒里, 高島遼一, 滝口哲也, 有木康雄, 添田喜治, 中川誠司, 中川誠司
2019年08月, 日本音響学会研究発表会講演論文集(CD-ROM), 2019, ROMBUNNO.3‐P‐13, 日本語

空間フィルタによる印象関連脳活動の抽出の試み
矢野肇, 矢野肇, 高島遼一, 滝口哲也, 神谷勝, 中川誠司
2019年08月, 日本音響学会研究発表会講演論文集(CD-ROM), 2019, ROMBUNNO.3‐P‐46, 日本語

Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition
Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
Springer, 2019年08月, EURASIP Journal on Audio, Speech, and Music Processing, DOI: 10.1186/s13636-019-0160-1, 1 - 11, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

WordNetを用いた雑談対話システムの汎化性能の向上
麻生大聖, 高島遼一, 滝口哲也, 有木康雄
2019年08月, 電子情報通信学会技術研究報告, 119(188) (188), 19 - 24

Bidirectional Gated Recurrent Units を用いた歌声合成に関する検討
片平健太, 足立優司, 田井清登, 高島遼一, 滝口哲也
2019年07月, 情報処理学会研究報告, 2019-SLP-127(23) (23), 1 - 6

小児期における線描スキルの定量的評価に関する研究
渡邊雄介, 大歳太郎, 滝口哲也, 高田哲
(一社)日本小児精神神経学会, 2019年07月, 小児の精神と神経, 59(2) (2), 191 - 198, 日本語
[査読有り]
研究論文（学術雑誌）

Cortical Patterns for Prediction of Subjective Preference Induced by Chords.
Hajime Yano, Tetsuya Takiguchi, Seiji Nakagawa
To extract an effective feature in prediction of subjective impressions from single-trial neurophysiological recordings, the spatial filter that extracts brain activities related to impressions were constructed using the common spatial pattern (CSP). We focus on subjective preference induced by chords composed of 3 notes with different frequency ratio. Magnetic cortical activities while hearing chords and comparative judgment on pair of them were measured. The predictive model that predicts the scale value of preference was trained using the CSP-based feature for each participant. The result of the evaluation experiment shows that the CSP-based feature improved the mean prediction accuracy in all participants, compared with the other features without spatially filtering. Furthermore, the capability of construction of a spatial filter that extracts cortical activities varying with degree of preference using the comparative judgments was indicated.
IEEE, 2019年07月, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2019, 5168 - 5171, 英語, 国際誌
[査読有り]
研究論文（学術雑誌）

On Zero-Shot Recognition of Generic Objects
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
2019年06月, IEEE CVPR, 9553 - 9561
[査読有り]
研究論文（国際会議プロシーディングス）

End-To-End Dysarthric Speech Recognition Using Multiple Databases
Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
2019年05月, IEEE ICASSP, 6395 - 6399
[査読有り]
研究論文（国際会議プロシーディングス）

Generation of Objections Using Topic and Claim Information in Debate Dialogue System
Kazuaki Furumai, Tetsuya Takiguchi, Yasuo Ariki
2019年04月, International Workshop on Spoken Dialog System Technology
[査読有り]
研究論文（国際会議プロシーディングス）

複数データベースを使用したend-to-end構音障害者音声認識
高島悠樹, 滝口哲也, 有木康雄
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 869 - 872, 日本語
研究論文（その他学術会議資料等）

脳磁界計測を用いた聴感印象推定の試み―比較判断の重み付けによる精度向上の検討―
矢野肇, 滝口哲也, 神谷勝, 中川誠司
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 2019, 499 - 502, 日本語
研究論文（その他学術会議資料等）

深層学習を用いた歌声合成の検討
片平健太, 北村毅, 足立優司, 田井清登, 滝口哲也
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 1091 - 1092, 日本語
研究論文（その他学術会議資料等）

議論システムにおける言語モデルを用いた賛成/反対意見の自動生成手法の検討
古舞千暁, 滝口哲也, 有木康雄
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 957 - 960, 日本語
研究論文（その他学術会議資料等）

音声明瞭度に関連した脳磁界反応の時空間特徴量
嵯峨直樹, 矢野肇, 滝口哲也, 添田喜治, 中川誠司
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 2019, 549 - 552, 日本語
研究論文（その他学術会議資料等）

音響特徴量補正による構音障害者を対象としたDNN音声合成
北村毅, 滝口哲也
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 1095 - 1098, 日本語
研究論文（その他学術会議資料等）

ユーザーの発話意図理解に基づくインタビュー発話の生成
松好祐紀, 滝口哲也, 有木康雄, 瀧和男, 片桐恵子
言語処理学会, 2019年03月, 言語処理学会第25回年次大会発表論文集, 1133 - 1136, 日本語
研究論文（その他学術会議資料等）

ユーザーの発話意図理解に基づくインタビュー発話の生成
松好祐紀, 滝口哲也, 有木康雄
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 963 - 966, 日本語
研究論文（その他学術会議資料等）

マルチタスク学習による雑談対話システムへの知識付与
麻生大聖, 滝口哲也, 有木康雄
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 961 - 962, 日本語
研究論文（その他学術会議資料等）

ゼロショット学習を用いた一般物体セグメンテーション
谷田啓一, Tristan Hascoet, 滝口哲也, 有木康雄
2019年03月, 情報処理学会第81回全国大会講演論文集, 549 - 550, 日本語
研究論文（その他学術会議資料等）

Speech Prosody Conversion using Sequence Generative Adversarial Nets with Continuous Wavelet Transform F0 features
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 1125 - 1128, 英語
研究論文（その他学術会議資料等）

Neutral-to-emotional voice conversion with cross-wavelet transform F0 using generative adversarial networks
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2019年03月, APSIPA TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSING, 8, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張
高島悠樹, 滝口哲也, 有木康雄
2019年03月, 電子情報通信学会技術研究報告, 118(497) (497), 335 - 340, 日本語
研究論文（研究会，シンポジウム資料等）

Affinity graphを用いた神経細胞画像セグメンテーション
小山詠未, Tristan Hascoet, 滝口哲也, 有木康雄
2019年03月, 情報処理学会第81回全国大会講演論文集, 543 - 544, 日本語
研究論文（その他学術会議資料等）

Polar Transformation on Image Features for Orientation-Invariant Representations
Jinhui Chen, Zhaojie Luo, Zhihong Zhang, Faliang Huang, Zhiling Ye, Tetsuya Takiguchi, Edwin R. Hancock
2019年02月, IEEE TRANSACTIONS ON MULTIMEDIA, 21(2) (2), 300 - 313, 英語
[査読有り]
研究論文（学術雑誌）

Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks
Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
2019年02月, International Workshop on Frontiers of Computer Vision, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Entropy policy for supervoxel agglomeration of neurite segmentation
Tristan Hascoet, Baptiste Metge, Tetsuya Takiguchi, Yasuo Ariki
2019年02月, International Workshop on Frontiers of Computer Vision, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Can We Forecast Daily Oil Futures Prices? Experimental Evidence from Convolutional Neural Networks
zhaojie luo, Xiaojing Cai, Katsuyuki Tanaka, Tetsuya Takiguchi, Takuji Kinkyo, Shigeyuki Hamori
2019年01月, Journal of Risk and Financial Management, 12(1) (1), 9 - 9, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Knowledge Transferability Between the Speech Data of Persons With Dysarthria Speaking Different Languages for Dysarthric Speech Recognition
Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers (IEEE), 2019年, IEEE Access, 7, 164320 - 164326
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Polar Transformation on Image Features for Orientation-Invariant Representations.
Jinhui Chen, Zhaojie Luo, Zhihong Zhang, Faliang Huang, Zhiling Ye, Tetsuya Takiguchi, Edwin R. Hancock
2019年, IEEE Trans. Multimedia, 21(2) (2), 300 - 313
[査読有り]
研究論文（学術雑誌）

Semantic embeddings of generic objects for zero-shot learning
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
2019年01月, EURASIP Journal on Image and Video Processing, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Oil Price Forecasting Using Supervised GANs with Continuous Wavelet Transform Features
Zhaojie Luo, Jinhui Chen, Xiao Jing Cai, Katsuyuki Tanaka, Tetsuya Takiguchi, Takuji Kinkyo, Shigeyuki Hamori
2018年11月, Proceedings - International Conference on Pattern Recognition, 2018-August, 830 - 835, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Spatiotemporal Characteristics of Cortical Activities Associated with Articulation of Speech Perception.
Naoki Saga, Hajime Yano, Tetsuya Takiguchi, Yoshiharu Soeta, Seiji Nakagawa
Recently, brain computer interface (BCI) technologies that control external devices with human brain signals have been developed. However, most of the BCI systems, such as P300-speller, can only discriminate among options that have been given in advance. Therefore, the ability to decode the state of a person's perception and recognition, as well as that person's fundamental intention and emotions, from cortical activity is needed to develop a more general-use BCI system. In this study, two experiments were conducted. First, articulations were measured for Japanese monosyllabic utterances masked by several levels of noise. Second, auditory brain magnetic fields evoked by the monosyllable stimuli used in the first experiment were recorded, and neuronal current sources were localized in regions associated with speech perception and recognition - the auditory cortex (BA41), the Wernicke's area (posterior part of BA22), Broca's area (BA22), motor (BA4), and premotor (BA6) areas. Although the source intensity did not systematically change with SNR, the peak latency changed along SNR in the posterior superior temporal gyrus in the right hemisphere. The results suggest that the information associated with articulation is processed in this area.
2018年07月, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2018, 1066 - 1069, 英語, 国際誌
[査読有り]
研究論文（学術雑誌）

小児期における線描スキルの定量的評価に関する研究
渡邊雄介, 大歳太郎, 滝口哲也, 高田哲
(一社)日本小児精神神経学会, 2018年04月, 小児の精神と神経, 58(1) (1), 74 - 75, 日本語
[査読有り]

非負値行列因子分解を用いた脳磁界データから音声の復元
矢野彩緒里, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 305 - 308, 日本語
研究論文（その他学術会議資料等）

非負値タッカー分解によるNMF辞書学習に基づく非パラレル声質変換
高島悠樹, 矢野肇, 中鹿亘, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 211 - 214, 日本語
研究論文（その他学術会議資料等）

単語の分散表現を用いた意味予測に基づく雑談応答生成
古舞千暁, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 169 - 172, 日本語
研究論文（その他学術会議資料等）

構音障害者を対象としたDNN音声合成に関する言語特徴量の検討
北村毅, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 267 - 270, 日本語
研究論文（その他学術会議資料等）

構音障害者の少量学習データによる音声合成の検討
南坂竜翔, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 275 - 278, 日本語
研究論文（その他学術会議資料等）

顔画像特徴量を用いた統計的手法によるF0推定
羅里奈, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 309 - 312, 日本語
研究論文（その他学術会議資料等）

音想起に伴う脳磁界反応：等しいエンベロープをもつ音声と純音の比較
宇澤志保美, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1291 - 1294, 日本語
研究論文（その他学術会議資料等）

音想起に係る脳磁界反応の比較～等しいエンベロープをもつ音声と純音～
宇澤志保美, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2018年03月, 電子情報通信学会技術研究報告, 117(517) (517), 81 - 86, 日本語
研究論文（研究会，シンポジウム資料等）

音声明瞭度に関連した大脳皮質活動の時空間的遷移
嵯峨直樹, 矢野肇, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1329 - 1332, 日本語
研究論文（その他学術会議資料等）

ハイスピード映像からの音源復元のための物体振動抽出手法の検討
安見祐亮, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 597 - 600, 日本語
研究論文（その他学術会議資料等）

ニュース情報検索システム「NetTv」のための議論対話システムー賛否判定と根拠推定に基づく議論ー
丸本理貴人, 田中克幸, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 201 - 204, 日本語
研究論文（その他学術会議資料等）

エアコン音の聴感印象推定のためのコヒーレンス解析に基づく脳活動特徴量抽出
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 755 - 758, 日本語
研究論文（その他学術会議資料等）

Visually grounded word embeddings for zero-shot learning of visual categories
Hascoet Tristan, Yasuo Ariki, Tetsuya Takiguchi
2018年03月, IPSJ SIG-CVIM, 1 - 4, 英語
研究論文（研究会，シンポジウム資料等）

LipNet構造を用いた唇画像から音声への変換
伊藤大貴, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 347 - 350, 日本語
研究論文（その他学術会議資料等）

EMOTIONAL VOICE CONVERSION WITH WAVELET TRANSFORM USING DUAL SUPERVISED ADVERSARIAL NETWORKS
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 365 - 368, 英語
研究論文（その他学術会議資料等）

Convolutional Neural Networksによる物体の微小振動からの音声復元
布施陽平, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 593 - 596, 日本語
研究論文（その他学術会議資料等）

Attention-based LSTMを用いた音声質問応答システムにおけるユーザーの質問意図理解
松好祐紀, 滝口哲也, 有木康雄
2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 173 - 176, 日本語
研究論文（その他学術会議資料等）

Zero-shot learning using dictionary definitions
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Satellite Image Semantic Segmentation Using Fully Convolutional Network
Atsushi Yoshihara, Tristan Hascoet, Tetsuya Takiguchi, Yasuo Ariki
2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Estimation of Object Functions Using Visual Attention
Ryunosuke Azuma, Tetsuya Takiguchi, Yasuo Ariki
2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

An AI-based Approach to Auto-analyzing Historical Handwritten Business Documents: As Applied to the Kanebo Database
CHEN Jinhui, KAMIHIGASHI Takashi, ITOH Munehiko, TAKATSUKI Yasuo, TAKIGUCHI Tetsuya
Springer, 2018年01月, Journal of Computational Social Science, 1(1) (1), 167 - 185, 英語
[査読有り]
研究論文（学術雑誌）

非負値行列因子分解に基づく構音障害者音声の高域付加の検討
高島悠樹, 滝口哲也, 有木康雄
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1309 - 1312, 日本語
研究論文（その他学術会議資料等）

脳磁界データの空間的特徴を考慮した想起音声の識別
矢野彩緒里, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 885 - 888, 日本語
研究論文（その他学術会議資料等）

深層学習を用いた歌声音声の帯域強調の検討
北村毅, 足立優司, 田井清登, 滝口哲也
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1201 - 1204, 日本語
研究論文（その他学術会議資料等）

議論システムにおける賛成／反対意見の生成手法の検討
古舞千暁, 有木康雄, 滝口哲也
2018年, 人工知能学会言語・音声理解と対話処理研究会, 82 - 83, 日本語
研究論文（研究会，シンポジウム資料等）

議論システムにおける賛成/反対意見の生成のための発話のベクトル化手法の検討
古舞千暁, 滝口哲也, 有木康雄
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1033 - 1036, 日本語
研究論文（その他学術会議資料等）

音声明瞭度に関連した脳磁界反応：聴覚野および知覚性言語野の活動解析
嵯峨直樹, 矢野肇, 滝口哲也, 添田喜治, 中川誠司
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 485 - 488, 日本語
研究論文（その他学術会議資料等）

映像中の物体振動モードを利用した音源復元
布施陽平, 安見祐亮, 滝口哲也
2018年, 電子情報通信学会技術研究報告, 118(112) (112), 19 - 24, 日本語
研究論文（研究会，シンポジウム資料等）

ユーザーの発話意図理解に基づくインタビュー発話の生成に向けて
松好祐紀, 滝口哲也, 有木康雄
2018年, 人工知能学会言語・音声理解と対話処理研究会, 84 - 85, 日本語
研究論文（研究会，シンポジウム資料等）

User's Intention Understanding in Question-Answering System Using Attention-based LSTM
Yuki Matsuyoshi, Tetsuya Takiguchi, Yasuo Ariki
2018年, APSIPA, 1752 - 1755, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Spectrum Enhancement of Singing Voice Using Deep Learning
Ryuka Nanzaka, Tsuyoshi Kitamura, Yuji Adachi, Kiyoto Tai, Tetsuya Takiguchi
2018年, IEEE ISM, 167 - 170, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Sound Recovery Using Vibration Modes of the Object in a Video
Yohei Fuse, Yusuke Yasumi, Tetsuya Takiguchi
2018年, APSIPA, 2027 - 2031, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Sound Recovery Considering the Vibration Direction of an Object in a Video
Yohei Fuse, Yusuke Yasumi, Tetsuya Takiguchi
2018年, IEEE ISM, 171 - 174, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition
Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
IEEE, 2018年, IEEE ICASSP, 5294 - 5298, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Neutral-to-Emotional Voice Conversion with Latent Representations of F0 using Generative Adversarial Networks
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1191 - 1194, 日本語
研究論文（その他学術会議資料等）

Multilinear Discriminant Analysisを用いた聴感印象推定のための脳活動特徴量抽出
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 381 - 384, 日本語
研究論文（その他学術会議資料等）

Hybrid Text-to-Speech for Articulation Disorders with a Small Amount of Non-Parallel Data
Ryuka Nanzaka, Tetsuya Takiguchi
2018年, APSIPA, 1761 - 1765, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Debate Dialog for News Question Answering System ‘NetTv’ -Debate Based on Claim and Reason Estimation-
Rikito Marumoto, Katsuyuki Tanaka, Tetsuya Takiguchi, Yasuo Ariki
2018年, International Workshop on Spoken Dialog System Technology, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

CycleGANに基づくノンパラレル声質変換を用いた構音障害者音声合成
南坂竜翔, 滝口哲也, 有木康雄
2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1185 - 1188, 日本語
研究論文（その他学術会議資料等）

Chat Response Generation Based on Semantic Prediction Using Distributed Representations of Words
Kazuaki Furumai, Tetsuya Takiguchi, Yasuo Ariki
2018年, International Workshop on Spoken Dialog System Technology, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Attention-based LSTMを用いた意図理解とキーワード抽出の統合による質問応答システム
松好祐紀, 滝口哲也, 有木康雄
2018年, 電子情報通信学会技術研究報告, 118(198) (198), 9 - 14, 日本語
研究論文（研究会，シンポジウム資料等）

小児期における線描スキルの定量的評価に関する研究
渡邊雄介, 大歳太郎, 山本暁生, 滝口哲也, 高田哲
(一社)日本小児精神神経学会, 2017年11月, 日本小児精神神経学会プログラム・抄録集, 118回, 41 - 41, 日本語

Rotation-reversal invariant HOG cascade for facial expression recognition
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2017年11月, SIGNAL IMAGE AND VIDEO PROCESSING, 11(8) (8), 1485 - 1492, 英語
[査読有り]
研究論文（学術雑誌）

Detecting Abnormal Word Utterances in Children With Autism Spectrum Disorders: Machine-LearningBased Voice Analysis Versus Speech Therapists
Yasushi Nakai, Tetsuya Takiguchi, Gakuyo Matsui, Noriko Yamaoka, Satoshi Takada
2017年10月, PERCEPTUAL AND MOTOR SKILLS, 124(5) (5), 961 - 973, 英語
[査読有り]
研究論文（学術雑誌）

ポスター講演日本語音声想起に伴う脳磁界データの判別と特徴量推定 (音声)
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
電子情報通信学会, 2017年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 117(189) (189), 39 - 43, 日本語
研究論文（研究会，シンポジウム資料等）

Discriminant Non-negative Tensor Factorizationを用いたエアコン音の印象関連脳活動の抽出 (音声) -- (オーガナイズドセッション「音の認知・知覚機能の情報処理」(一般講演))
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
電子情報通信学会, 2017年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 117(189) (189), 61 - 66, 日本語
研究論文（研究会，シンポジウム資料等）

Emotional voice conversion using neural networks with arbitrary scales F0 based on wavelet transform
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2017年08月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2017, 1 - 13, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Spatiotemporal properties of magnetic fields induced by auditory speech sound imagery and perception.
Shihomi Uzawa, Tetsuya Takiguchi, Yasuo Ariki, Seiji Nakagawa
Brain computer interface (BCI) technologies, which enable direct communication between the brain and external devices, have been developed. BCI technology can be utilized in neural prosthetics to restore impaired movement, including speech production. However, most of the BCI systems that have been developed are the "P300-speller" type, which can only detect objects that users direct his/her attention at. To develop more versatile BCI systems that can detect a user's intention or thoughts, the brain responses associated with verbal imagery need to be clarified. In this study, the brain magnetic fields associated with auditory verbal imagery and speech hearing were recorded using magnetoencephalography (MEG) carried out on 8 healthy adults. Although the magnetic fields lagged slightly and were long-lasting, significant deflections were observed even for verbal imagery, in the temporal regions, as well as for actual speech hearing. Also, sources for the deflections were localized in the association auditory cortices. Cross-correlations were calculated between envelopes of the imagined/presented speech sound and the evoked brain responses in the temporal areas. Measurable correlations were obtained for the presented speech sound; however, no significant correlations were observed for the imagined speech sound. These results indicate that auditory verbal imagery undoubtedly activates the auditory cortex, at least, and generates some observable neural responses.
2017年07月, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2017, 2542 - 2545, 英語, 国際誌
[査読有り]
研究論文（学術雑誌）

小児期における書字スキルの定量的評価
渡邊雄介, 大歳太郎, 山本暁生, 滝口哲也, 高田哲
(一社)日本小児神経学会, 2017年05月, 脳と発達, 49(Suppl)(Suppl.) (Suppl.), S469 - S469, 日本語
[査読有り]
研究論文（その他学術会議資料等）

話者性を維持した構音障害者のためのHMM音声合成システム
上田怜奈, 滝口哲也, 有木康雄
電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 301 - 306, 日本語
研究論文（研究会，シンポジウム資料等）

料理アシスト対話システムにおけるユーザ発話のクラス分類
山田燿司, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 159 - 162, 日本語
研究論文（その他学術会議資料等）

脳磁界計測を用いたエアコン音の聴感印象推定の試み ―比較判断を用いた印象予測モデルの学習―
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 539 - 542, 日本語
研究論文（その他学術会議資料等）

脳磁界計測による音声明瞭度に関連した皮質活動の推定
嵯峨直樹, 矢野肇, 滝口哲也, 有木康雄, 添田善治, SOETA Yoshiharu, 中川誠司
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1515 - 1518, 日本語
研究論文（その他学術会議資料等）

適応型Gaussian-Gaussian RBMを用いた構音障害者音声認識
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 95 - 98, 日本語
研究論文（その他学術会議資料等）

声質変換のための音素識別的特徴量
相原龍, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 359 - 362, 日本語
研究論文（その他学術会議資料等）

声質変換における非周期性指標の影響とその評価
伊藤大貴, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 363 - 366, 日本語
研究論文（その他学術会議資料等）

最尤変換による唇動画像からの音声生成
羅里奈, 相原龍, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 373 - 376, 日本語
研究論文（その他学術会議資料等）

構音障害者音声認識のための適応型restricted Boltzmann machineを用いた特徴量抽出
高島悠樹, 滝口哲也, 有木康雄
電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 321 - 326, 日本語
研究論文（研究会，シンポジウム資料等）

構音障害者のための話者性を維持したHMM音声合成システムの提案
上田怜奈, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 267 - 270, 日本語
研究論文（その他学術会議資料等）

構音障害者のためのDurationを含んだ統計的声質変換
相原龍, 滝口哲也, 有木康雄
電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 307 - 312, 日本語
研究論文（研究会，シンポジウム資料等）

音源復元のための映像中の微小振動方向の解析
安見祐亮, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 557 - 558, 日本語
研究論文（その他学術会議資料等）

音の想起に伴う脳磁界反応：想起音の基礎パラメータの影響の検討
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1523 - 1526, 日本語
研究論文（その他学術会議資料等）

ユーザーに対話的なサポートを行うシステム -オセロゲームの場合について-
松好祐紀, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 163 - 166, 日本語
研究論文（その他学術会議資料等）

ニュース情報検索「NetTv」における質問種別の推定
丸本理貴人, 田中克幸, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 155 - 158, 日本語
研究論文（その他学術会議資料等）

DNNを用いた聴覚障害者の音声合成の検討
北村毅, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 285 - 288, 日本語
研究論文（その他学術会議資料等）

Arbitrary-scales continuous wavelet transform for emotional voice conversion
羅兆傑, 滝口哲也, 有木康雄
2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 377 - 380, 英語
研究論文（その他学術会議資料等）

Visual Sound Recovery Using Momentary Phase Variations
Yusuke Yasumi, Tetsuya Takiguchi, Yasuo Ariki
2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Feature Extraction and Classification of Multispectral Imagery by Using Convolutional Neural Network
Atsushi Yoshihara, Tetsuya Takiguchi, Yasuo Ariki
2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Estimation of Object Functions Focusing on Feature of Object Parts
Ryunosuke Azuma, Tetsuya Takiguchi, Yasuo Ariki
2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

脳磁界データによる想起音声の識別－次元数削減による精度向上の検討－
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 337 - 340, 日本語
研究論文（その他学術会議資料等）

人の理解や習熟をサポートする音声質問応答システム
松好祐紀, 滝口哲也, 有木康雄
2017年, 人工知能学会言語・音声理解と対話処理研究会, 90 - 91, 日本語
研究論文（研究会，シンポジウム資料等）

深層学習による位相情報を考慮した音声合成の検討
李権俊, 滝口哲也, 有木康雄
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 281 - 284, 日本語
研究論文（その他学術会議資料等）

重度難聴者音声認識のためのDeep Canonical Correration Analysisを用いた音響特徴量抽出の検討
高島悠樹, 滝口哲也, 有木康雄
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 119 - 122, 日本語
研究論文（その他学術会議資料等）

音声明瞭度に関連した脳磁界計測－聴覚野および運動野における活動源解析－
嵯峨直樹, 矢野肇, 滝口哲也, 有木康雄, 添田喜治, 中川誠司
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 683 - 686, 日本語
研究論文（その他学術会議資料等）

ユーザー支援を目的とした音声質問応答システム
松好祐紀, 滝口哲也, 有木康雄
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 141 - 144, 日本語
研究論文（その他学術会議資料等）

ニュース情報検索システム「NetTv」における議論対話システム実現のためのユーザ主張・根拠の推定
丸本理貴人, 田中克幸, 滝口哲也, 有木康雄
2017年, 人工知能学会言語・音声理解と対話処理研究会, 92 - 93, 日本語
研究論文（研究会，シンポジウム資料等）

エアコン音の聴感印象推定のための比較判断を考慮した脳活動特徴量抽出
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 573 - 576, 日本語
研究論文（その他学術会議資料等）

Visual-to-Speech Conversion Based on Maximum Likelihood Estimation
Rina Ra, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2017年, IAPR International Conference on Machine Vision Applications, 488 - 491, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Semantic Web and Zero-Shot Learning of Large Scale Visual Classes
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
2017年, First International Workshop on Symbolic-Neural Learning, 1 - 6, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Phoneme-discriminative features for dysarthric speech conversion
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
International Speech Communication Association, 2017年, Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2017-, 3374 - 3378, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-Preserving Speech Synthesis System for Hearing Loss Using Deep Neural Networks
Tsuyoshi Kitamura, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
2017年, 1st International Workshop on Challenges in Hearing Assistive Technology, 95 - 99, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Facial Expression Recognition with deep age.
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
IEEE Computer Society, 2017年, The Second Workshop on Human Identification in Multimedia, 657 - 662, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Evaluation of auditory impressions induced by HVAC sound using predictive model
YANO Hajime, TAKIGUCHI Tetsuya, ARIKI Yasuo, KAMIYA Masaru, NAKAGAWA Seiji
The evaluation of subjective impressions induced by environmental sounds using neurophysiological indices has been proposed in recent years. In this paper, we focus on the evaluation of HVAC (heating, ventilation and air conditioning) sounds, and models that predict subjective coolness/preference induced by time-varying HVAC sound from brain activities were constructed. First, magnetoencephalographic (MEG) measurements were carried out to measure brain activities while hearing HVAC sound with paired comparison task. Second, feature vectors representing time-frequency components of brain activities on the whole head were extracted from MEG data using the time-frequency analysis and nonnegative tensor factorization (NTF). And third, two kinds of predictive model were constructed from the brain feature vectors and comparative judgments to pairs of stimuli using a regression model or an SVM-based method. Evaluation experiments show that the SVM-based method is more effective than the regression model.
公益社団法人日本生体医工学会, 2017年, 生体医工学, 55(0) (0), 522 - 523, 英語
研究論文（その他学術会議資料等）

Emotional Voice Conversion with Adaptive Scales F0 based on Wavelet Transform using Limited Amount of Emotional Data
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 227 - 230, 英語
研究論文（その他学術会議資料等）

Emotional Voice Conversion with Adaptive Scales F0 Based on Wavelet Transform Using Limited Amount of Emotional Data.
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
ISCA, 2017年, Interspeech, 3399 - 3403, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

CNN-LSTMを用いた唇画像から音声への変換
伊藤大貴, 滝口哲也, 有木康雄
2017年, 日本音響学会2017年秋季研究発表会講演論文集, 305 - 308, 日本語
研究論文（その他学術会議資料等）

Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis
Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
2017年, 1st International Workshop on Challenges in Hearing Assistive Technology, 71 - 81, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

A Bayesian nonparametric multimodal data modeling framework for video emotion recognition.
Jianfei Xue, Zhaojie Luo, Koji Eguchi, Tetsuya Takiguchi, Tsukasa Omoto
IEEE Computer Society, 2017年, Proceedings of the 2017 IEEE International Conference on Multimedia and Expo (ICME 2017), 601 - 606, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Non-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine
Toru Nakashika, Tetsuya Takiguchi, Yasuhiro Minami
2016年11月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 24(11) (11), 2032 - 2045, 英語
[査読有り]
研究論文（学術雑誌）

話速補正に基づく話者性を維持した構音障害者のための音声合成システム
上田怜奈, 滝口哲也, 有木康雄
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 229 - 232, 日本語
研究論文（その他学術会議資料等）

複素NMFを用いた声質変換の検討
李権俊, 相原龍, 滝口哲也, 有木康雄
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 277 - 280, 日本語
研究論文（その他学術会議資料等）

非負値行列因子分解に基づく声質変換のためのGraph Embeddingを用いたパラレル辞書学習
相原龍, 滝口哲也, 有木康雄
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 155 - 158, 日本語
研究論文（その他学術会議資料等）

非負値行列因子を用いたマルチモーダル声質変換における画像特徴量の検討
羅里奈, 相原龍, 滝口哲也, 有木康雄
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 273 - 276, 日本語
研究論文（その他学術会議資料等）

脳磁界計測を用いたエアコン音の聴感印象推定の試み－非負値テンソル分解による関連脳活動の抽出－
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 673 - 676, 日本語
研究論文（その他学術会議資料等）

脳磁界データからの想起音声の判別に係る特徴量の推定－ウェーブレット変換とSVMによる解析－
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 621 - 624, 日本語
研究論文（その他学術会議資料等）

Factored 3-Way Restricted Boltzmann Machine を用いたマルチモーダル音声認識の検討
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 109 - 112, 日本語
研究論文（その他学術会議資料等）

Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki, Toru Nakashika
2016年09月, ISCA Speech Synthesis Workshop, 153 - 158, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Dysarthric Speech Modification Using Parallel Utterance Based on Non-negative Temporal Decomposition
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2016年09月, Workshop on Speech and Language Processing for Assistive Technologies, 75 - 79, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

ポスター講演非負値テンソル分解を用いたエアコン音の印象関連脳活動の抽出 (音声)
矢野肇, 滝口哲也, 有木康雄, 保手浜拓也, 神谷勝, 中川誠司
電子情報通信学会, 2016年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 116(189) (189), 37 - 40, 日本語
研究論文（研究会，シンポジウム資料等）

SIFT Boosting for Handwriting Recognition
CHEN Jinhui, KAMIHIGASHI Takashi, ITOH Munehiko, TAKATSUKI Yasuo, TAKIGUCHI Tetsuya, ARIKI Yasuo
2016年08月, MIRU 2016, PS2-48, 英語
研究論文（国際会議プロシーディングス）

Non-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine
Toru Nakashika, Tetsuya Takiguchi, Yasuhiro Minami
2016年08月, IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3) (3), 1 - 14, 英語
[査読有り]
研究論文（学術雑誌）

Discriminative Graph-embedded Non-negative Matrix Factorizationを用いた声質変換のためのパラレル辞書学習
相原龍, 滝口哲也, 有木康雄
電子情報通信学会, 2016年08月, 電子情報通信学会技術研究報告, 116(189) (189), 59 - 64, 日本語
研究論文（研究会，シンポジウム資料等）

Multiple Non-Negative Matrix Factorization for Many-to-Many Voice Conversion
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2016年07月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 24(7) (7), 1175 - 1184, 英語
[査読有り]
研究論文（学術雑誌）

音声想起に伴う誘発脳磁界の時空間的特性
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
日本生体磁気学会, 2016年06月, 日本生体磁気学会誌, 29(1) (1), 104 - 105, 日本語
研究論文（その他学術会議資料等）

エアコン音の聴感印象と自発脳磁界のERS/ERDの関係
矢野肇, 滝口哲也, 有木康雄, 保手浜拓也, 神谷勝, 中川誠司
2016年06月, 第31回日本生体磁気学会大会論文集, 29(1) (1), 74 - 75, 日本語, 国際共著していない
研究論文（その他学術会議資料等）

Semi-non-negative matrix factorization using alternating direction method of multipliers for voice conversion
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers Inc., 2016年05月, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2016-(ICASSP) (ICASSP), 5170 - 5174, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Modeling deep bidirectional relationships for image classification and generation
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers Inc., 2016年05月, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2016-(ICASSP) (ICASSP), 1327 - 1331, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

LLC Revisit: Scene Classification with k-Farthest Neighbours
Katsuyuki Tanaka, Tetsuya Takiguchi, Yasuo Ariki
2016年05月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E99D(5) (5), 1375 - 1383, 英語
[査読有り]
研究論文（学術雑誌）

音素選択型スペクトル補正に基づく話者性を維持した構音障害者のための音声合成システム
上田怜奈, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, 日本語
研究論文（その他学術会議資料等）

音声想起による誘発脳磁界の計測
宇澤志保美, 滝口哲也, 有木康雄, 中川誠司
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 2016-3, 531 - 532, 日本語, 国際共著していない
研究論文（その他学術会議資料等）

ハイスピード映像中の物体振動を利用したvisual microphoneの検討
安見祐亮, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 1309 - 1310, 日本語
研究論文（その他学術会議資料等）

タスク指向型対話システムにおける強化学習とニューラルネットワークの比較
山田燿司, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 99 - 102, 日本語
研究論文（その他学術会議資料等）

スパースパラレル学習を用いたマルチモーダル声質変換
真坂健太, 相原龍, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 321 - 324, 日本語
研究論文（その他学術会議資料等）

エアコン音の聴感印象関連領域の探索－脳磁界の時間周波数解析に基づく推定－
矢野肇, 滝口哲也, 有木康雄, 保手浜拓也, 神谷勝, 中川誠司
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 511 - 514, 日本語
研究論文（その他学術会議資料等）

Restricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, 日本語
研究論文（その他学術会議資料等）

Emotional Speech Conversion Using Deep Neural Networks
LUO Zhaojie, TAKIGUCHI Tetsuya, ARIKI Yasuo
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 351 - 354, 英語
研究論文（その他学術会議資料等）

Alternating Direction Method of MultipliersによるNMF声質変換のためのパラレル辞書学習
相原龍, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 325 - 328, 日本語
研究論文（その他学術会議資料等）

ADMMを用いたNMFによる雑音環境下での少量パラレルデータ声質変換
李権俊, 相原龍, 滝口哲也, 有木康雄
2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 333 - 336, 日本語
研究論文（その他学術会議資料等）

Estimation of Object Functions Using Convolutional Neural Network
KITANO Yosuke, TAKIGUCHI Tetsuya, ARIKI Yasuo
2016年02月, Korea-Japan joint Workshop on Frontiers of Computer Vision, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

MODELING DEEP BIDIRECTIONAL RELATIONSHIPS FOR IMAGE CLASSIFICATION AND GENERATION
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2016年, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 1327 - 1331, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SEMI-NON-NEGATIVE MATRIX FACTORIZATION USING ALTERNATING DIRECTION METHOD OF MULTIPLIERS FOR VOICE CONVERSION
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2016年, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 5170 - 5174, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Parallel Dictionary Learning for Multimodal Voice Conversion Using Matrix Factorization
Ryo Aihara, Kenta Masaka, Tetsuya Takiguchi, Yasuo Ariki
2016年, COMPUTER AND INFORMATION SCIENCE, 656, 27 - 40, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Phone Labeling Based on the Probabilistic Representation for Dysarthric Speech Recognition
Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2016年, American Journal of Signal Processing, 6(1) (1), 19 - 23, 英語
[査読有り]
研究論文（学術雑誌）

Selection of an Optimum Random Matrix Using a Genetic Algorithm for Acoustic Feature Extraction
Yuichiro Kataoka, Toru Nakashika, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2016年, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 983 - 988, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Lip Reading Using a Dynamic Feature of Lip Images and Convolutional Neural Networks
Yiting Li, Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
2016年, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 971 - 976, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Emotional voice conversion using deep neural networks with MCC and F0 features.
Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
IEEE Computer Society, 2016年, International Conference on Computer and Information Science, 1 - 5, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Parallel Dictionary Learning for Voice Conversion Using Discriminative Graph-embedded Non-negative Matrix Factorization
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2016年, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 08-12-September-2016, 292 - 296, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Audio-Visual Speech Recognition Using Bimodal-Trained Bottleneck Features for a Person with Severe Hearing Loss
Yuki Takashima, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki, Nobuyuki Mitani, Kiyohiro Omori, Kaoru Nakazono
2016年, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 08-12-September-2016, 277 - 281, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Multithreading cascade of SURF for facial expression recognition.
Jinhui Chen, Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
2016年, EURASIP J. Image and Video Processing, 2016(1) (1), 37 - 37, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Expression Recognition with Ri-HOG Cascade.
Jinhui Chen, Zhaojie Luo, Tetsuya Takiguchi, Yasuo Ariki
Springer, 2016年, Workshop on Computer Vision for Affective Computing, 517 - 530, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Small-parallel exemplar-based voice conversion in noisy environments using affine non-negative matrix factorization
Ryo Aihara, Takao Fujii, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年11月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), 1 - 9, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Multimodal voice conversion based on non-negative matrix factorization
Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2015年09月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Multimodal voice conversion based on non-negative matrix factorization
Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2015年09月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2749 - 2753, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Feature Extraction Using Pre-Trained Convolutive Bottleneck Nets for Dysarthric Speech Recognition
Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年08月, The 23rd European Signal Processing Conference (EUSIPCO), 1426 - 1430, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-preserving voice conversion for articulation disorders using phoneme-categorized exemplars
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
Association for Computing Machinery, 2015年05月, ACM Transactions on Accessible Computing, 6(4) (4), 英語
[査読有り]
研究論文（学術雑誌）

Voice conversion using RNN pre-trained by recurrent temporal restricted boltzmann machines
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers Inc., 2015年03月, IEEE Transactions on Audio, Speech and Language Processing, 23(3) (3), 580 - 587, 英語
[査読有り]
研究論文（学術雑誌）

Voice Conversion Using RNN Pre-Trained by Recurrent Temporal Restricted Boltzmann Machines
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年03月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 23(3) (3), 580 - 587, 英語
[査読有り]
研究論文（学術雑誌）

A robust SVM classification framework using PSM for multi-class recognition
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2015年03月, EURASIP JOURNAL ON IMAGE AND VIDEO PROCESSING, 2015(1) (1), 1 - 12, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

Voice conversion using speaker-dependent conditional restricted Boltzmann machine
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年02月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

A Robust Learning Framework Using PSM and Ameliorated SVMs for Emotional Recognition
Jinhui Chen, Yosuke Kitano, Yiting Li, Tetsuya Takiguchi, Yasuo Ariki
2015年, COMPUTER VISION - ACCV 2014 WORKSHOPS, PT II, 9009, 629 - 643, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

話者適応に基づく日本人英語発話の認識、合成
上田怜奈, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 381 - 382, 日本語
研究論文（その他学術会議資料等）

話者正規化学習に基づく潜在的音韻情報を考慮した音声モデリングによる非パラレル声質変換
中鹿亘, 滝口哲也
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 223 - 236, 日本語
研究論文（その他学術会議資料等）

非負値行列因子分解に基づく唇動画像からの音声生成
真坂健太, 相原龍, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 389 - 392, 日本語
研究論文（その他学術会議資料等）

脳磁界計測を用いたエアコン音の聴感印象推定の試み－線形回帰による関連脳活動の抽出－
矢野肇, 滝口哲也, 有木康雄, 保手浜拓也, 神谷勝, 中川誠司
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 485 - 488, 日本語
研究論文（その他学術会議資料等）

任意話者を対象としたExemplar-based声質変換
相原龍, 滝口哲也, 有木康雄
2015年, 電子情報通信学会技術研究報告, 115(253) (253), 1 - 6, 日本語
研究論文（研究会，シンポジウム資料等）

適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換
中鹿亘, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 279 - 282, 日本語
研究論文（その他学術会議資料等）

制約付きThree-Way Restricted Boltzmann Machineを用いた音響・音韻・話者情報の同時モデリング
中鹿亘, 滝口哲也
2015年, 電子情報通信学会技術研究報告, 115(346) (346), 7 - 12, 日本語
研究論文（研究会，シンポジウム資料等）

状態空間の分割と状態遷移の学習に基づく Parallel POMDPの評価
山田燿司, 滝口哲也, 有木康雄
2015年, 電子情報通信学会技術研究報告, 115(253) (253), 39 - 43, 日本語
研究論文（研究会，シンポジウム資料等）

状態空間の分割と状態遷移の学習に基づくParallel POMDP
山田燿司, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 185 - 188, 日本語
研究論文（その他学術会議資料等）

少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換
藤井貴生, 相原龍, 中鹿亘, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 393 - 396, 日本語
研究論文（その他学術会議資料等）

構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2015年, 電子情報通信学会技術研究報告, 115(99) (99), 71 - 76, 日本語
研究論文（研究会，シンポジウム資料等）

構音障害者音声認識のための確率表現に基づく音素ラベリングの検討
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 1243 - 1246, 日本語
研究論文（その他学術会議資料等）

階層的POMDPを用いた商品検索型音声対話システムの検討
山田耀司, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 193 - 196, 日本語
研究論文（その他学術会議資料等）

β-NMFを用いた唇動画像からの音声生成
真坂健太, 相原龍, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 285 - 288, 日本語
研究論文（その他学術会議資料等）

スペクトル補正に基づく話者性を維持した構音障害者のための音声合成システム
上田怜奈, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 267 - 270, 日本語
研究論文（その他学術会議資料等）

エアコン音の時間変動が主観印象および大脳皮質活動に及ぼす影響
矢野肇, 滝口哲也, 有木康雄, 神谷勝, 保手浜拓也, 中川誠司
2015年, 日本音響学会2015年春季研究発表会講演論文集, 503 - 504, 日本語
研究論文（その他学術会議資料等）

Word-Error Correction of Continuous Speech Recognition based on Normalized Relevance Distance
房安陽平, 田中克幸, 滝口哲也, 有木康雄
2015年, International Joint Conference on Artificial Intelligence, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SPOKEN DIALOGUE SYSTEM FOR PRODUCT RECOMMENDATION USING HIERARCHICAL POMDP
YAMADA Yoji, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年, MLSLP, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SPARSE NONLINEAR REPRESENTATION FOR VOICE CONVERSION
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2015-August, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Rotation-invariant histograms of oriented gradients for local patch robust representation.
Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
IEEE, 2015年, APSIPA, 196 - 199, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Relationships between Subjective Auditory Impression and Brain Cortical Activities for Time-varying HVAC Sound
YANO Hajime, HOTEHAMA Takuya, TAKIGUCHI Tetsuya, ARIKI Yasuo, KAMIYA Masaru, NAKAGAWA Seiji
2015年, IEEE EMBC, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年, MLSLP, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Normalized Similarity Distance を用いた音声認識の謝り訂正
房安陽平, 田中克幸, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 31 - 34, 日本語
研究論文（その他学術会議資料等）

Normalized Relevance Distance を用いた音声認識の誤り訂正
房安陽平, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年秋季研究発表会講演論文集, 163 - 166, 日本語
研究論文（その他学術会議資料等）

NOISE-ROBUST VOICE CONVERSION USING A SMALL PARALLE DATA BASED ON NON-NEGATIVE MATRIX FACTORIZATION
Ryo Aihara, Takao Fujii, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 315 - 319, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

MULTITHREADING ADABOOST FRAMEWORK FOR OBJECT RECOGNITION
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2015-December, 1235 - 1239, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Multiple Non-negative Matrix Factorizationに基づく多対一声質変換
相原龍, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 275 - 278, 日本語
研究論文（その他学術会議資料等）

MANY-TO-ONE VOICE CONVERSION USING EXEMPLAR-BASED SPARSE REPRESENTATION
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA), 英語
[査読有り]
研究論文（国際会議プロシーディングス）

LIP-TO-SPEECH SYNTHESIS USING LOCALITY-CONSTRAINT NON-NEGATIVE MATRIX FACTORIZATION
AIHARA Ryo, MASAKA Kenta, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年, MLSLP, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-Preserving Voice Reconstruction for Articulation Disorders Using Text-to-Speech Synthesis
Reina Ueda, Tetsuya Takiguchi, Yasuo Ariki
2015年, ICMI'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, 343 - 346, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-Preserving Spectrum Modification for Articulation Disorders Using Phone Selective Synthesis
UEDA Reina, AIHARA Ryo, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年, SLPAT, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Home Appliance Control Using Speech Recognition for a Person with an Articulation Disorder
AIHARA Ryo, TAKASHIMA Yuki, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年, ISEM, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

FEATURE EXTRACTION USING PRE-TRAINED CONVOLUTIVE BOTTLENECK NETS FOR DYSARTHRIC SPEECH RECOGNITION
Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 1411 - 1415, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Facial Expression Recognition with Multithreaded Cascade of Rotation-invariant HOG
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII), 636 - 642, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Deep Boltzmann Machine を用いた音素ラベル情報推定
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
2015年, 日本音響学会2015年春季研究発表会講演論文集, 3 - 6, 日本語
研究論文（その他学術会議資料等）

Convolutional Neural Networkを用いた重度難聴者のマルチモーダル音声認識
柿原康博, 滝口哲也, 有木康雄, 三谷信之, 大森清博, 中園薫
2015年, 日本音響学会2015年春季研究発表会講演論文集, 197 - 200, 日本語
研究論文（その他学術会議資料等）

Content-based Image Retrieval Using Rotation-invariant Histograms of Oriented Gradients
Jinhui Chen, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2015年, ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 443 - 446, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Audio-visual speech recognition using convolutive bottleneck networks for a person with severe hearing loss
Yuki Takashima, Yasuhiro Kakihara, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki, Nobuyuki Mitani, Kiyohiro Omori, Kaoru Nakazono
Information Processing Society of Japan, 2015年, IPSJ Transactions on Computer Vision and Applications, 7, 64 - 68, 英語
[査読有り]
研究論文（学術雑誌）

ACTIVITY-MAPPING NON-NEGATIVE MATRIX FACTORIZATION FOR EXEMPLAR-BASED VOICE CONVERSION
Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015-August, 4899 - 4903, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Investigation of Classification Using Pitch Features for Children with Autism Spectrum Disorders and Typically Developing Children
KAKIHARA Yasuhiro, TAKIGUCHI Tetsuya, ARIKI Yasuo
2015年01月, American Journal of Signal Processing, 5(1) (1), 1 - 5, 英語
[査読有り]
研究論文（学術雑誌）

Estimation of Object Functions Using Deformable Part Model
Yosuke Kitano, Tetsuya Takiguchi, Yasuo Ariki
2015年, 2015 21ST KOREA-JAPAN JOINT WORKSHOP ON FRONTIERS OF COMPUTER VISION, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Error Correction of Automatic Speech Recognition Based on Normalized Web Distance
BYAMBAKHISHIG Enkhbolor, TANAKA Katsuyuki, AIHARA Ryo, NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年09月, Proceedings of the 15th Conference of the International Speech Communication Association (Interspeech 2014), 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Voice Conversion Based on Speaker-Dependent Restricted Boltzmann Machines
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2014年06月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1403 - 1410, 英語
[査読有り]
研究論文（学術雑誌）

Noise-Robust Voice Conversion Based on Sparse Spectral Mapping Using Non-negative Matrix Factorization
Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2014年06月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1411 - 1418, 英語
[査読有り]
研究論文（学術雑誌）

Parallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年06月, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, 英語
[査読有り]
研究論文（学術雑誌）

極低出生体重児における共同注意行動の発達とその評価法の検討チェックリストを用いたビデオ映像の観察による評価
山岡紀子, 川崎絵里香, 中塚志麻, 滝口哲也, 中井靖, 高田哲
(一社)日本小児神経学会, 2014年05月, 脳と発達, 46(Suppl.) (Suppl.), S282 - S282, 日本語

話者適応を用いたNMFによる声質変換
藤井貴生, 相原龍, 中鹿亘, 滝口哲也, 有木康雄
本稿では，話者適応を用いたNMFによる声質変換手法を提案する．我々が提案してきた従来のNMFによる声質変換手法では，入力話者と出力話者の同一発話内容のパラレルデータを用いることが前提となっていた．つまり，対応する任意の話者の大量のデータをあらかじめ用意しておかなければならないという問題点があった．そこで，出力話者の少量の音声データのみを辞書適応に用いることで，入力話者辞書から出力話者辞書を生成する手法を提案する．評価実験では，話者適応を用いた本手法の有効性を示す．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 421 - 424, 日本語
研究論文（その他学術会議資料等）

様々なRandom行列を用いた構音障害者の音声特徴量抽出
片岡悠一郎, 吉岡利也, 滝口哲也, 有木康雄
提案手法では，様々な分布から作成したランダム写像行列を用いて音声特徴量を変換することで，認識結果がどのように変化するのかを見る．各々の特徴量を用いて音声認識を行い，各認識結果を投票により統合することで最適な認識結果を得る．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 241 - 242, 日本語
研究論文（その他学術会議資料等）

声質変換のための Restricted Boltzmann Machine を用いたパラレル辞書の学習法
中鹿亘, 滝口哲也, 有木康雄
本稿では，スパース表現に基づく声質変換において，パラレル辞書の作成・選択を統一的な枠組みで行うために，結合型RBM(restricted Boltzmann machine)を用いた声質変換法を提案する．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 415 - 416, 日本語
研究論文（その他学術会議資料等）

辞書選択型ＮＭＦを用いた構音障害者の話者性を維持した声質変換
相原龍, 滝口哲也, 有木康雄
本論文ではアテトーゼ型構音障害者を対象として，辞書選択を用いたNMF声質変換による話者性を維持した声質変換を提案する．出力話者のカテゴリ辞書のうち，子音に関するカテゴリ辞書のみに健常者のスペクトルを用い，母音に関するカテゴリ辞書に障害者のスペクトルを用いることで，障害者の話者性を維持した声質変換を行う．以下，第2章で従来のNMF声質変換手法を説明する．第3章で本稿の提案手法を述べた後，第4章で従来のGMM・NMFによる声質変換手法と比較し，第5章で本稿をまとめる．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 459 - 462, 日本語
研究論文（その他学術会議資料等）

ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別
柿原康博, 滝口哲也, 有木康雄, 中井靖, 高田哲
本研究では，ピッチ特徴量を入力とし，SVMを用いて自閉症スペクトラム障害児と定型発達児の識別を行う．本稿では，ピッチ特徴量として，音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して，12種類の統計量を計算したものを用いて，区間分割による識別実験と単語毎の識別実験を行った．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 467 - 470, 日本語
研究論文（その他学術会議資料等）

Normalized web distanceを用いた音声認識誤り訂正法
エンフボロルビャムバヒシグ, 田中克幸, 滝口哲也, 有木康雄
本稿では，従来のConfusion Networkに基づく音声認識誤り訂正で,ヌル遷移による短距離訂正の劣化と,文脈スコアを計算するためのコーパスの必要性という問題点を指摘し,これらの問題点を解決するために以下の２つのアプローチで認識誤りの削減をねらう.１つ目は,離れた単語も視野に入れ訂正する長距離文脈スコアとしてNormalized Web Distanceを用いる.Normalized Web Distanceは学習コーパスとして, World Wide Web,検索エンジンなど様々なデータベースを利用することができるため,コーパスを用意する必要がなく,計算も簡単にできるというメリットがある.２つ目は,短距離訂正で有効であるN-gram学習において,悪影響を及ぼすヌル遷移をテストデータから効率的に削除することにより,その効果を改善することで音声認
2014年03月, 第8回音声ドキュメント処理ワークショップ, 1 - 7, 日本語
研究論文（研究会，シンポジウム資料等）

NMFに基づく音声と画像情報を用いた雑音下声質変換
真坂健太, 相原龍, 滝口哲也, 有木康雄
本稿では，雑音環境下に強いNMF基づく声質変換に唇画像特徴を組み込んだ手法を提案する．ここでは入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．更に本手法では，入力話者の画像特徴から得られた唇画像辞書を導入することで変換精度をより向上させる．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 417 - 420, 日本語
研究論文（その他学術会議資料等）

Convolutive Bottleneck Network 特徴量を用いた構音障害者の音声認識
吉岡利也, 中鹿亘, 滝口哲也, 有木康雄
本論文では，構音障害者を対象とした音声認識の実現に向けて，障害者音響モデルを用いた認識実験を行う．さらに，筋肉の緊張により発話が変動しやすいという障害者特有の問題に対して，ボトルネックの構成を持つCNN(CBN)を用いた特徴量抽出法を提案する．
日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 237 - 240, 日本語
研究論文（その他学術会議資料等）

Hierarchical Sparse Representation for Object Recognition
NAKASHIKA Toru, OKUMURA Takeshi, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年02月, Transactions on Machine Learning and Artificial Intelligence, 2(1) (1), 46 - 60, 英語
[査読有り]
研究論文（学術雑誌）

A preliminary demonstration of exemplar-based voice conversion for articulation disorders using an individuality-preserving dictionary
Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2014年02月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2014, 英語
[査読有り]
研究論文（学術雑誌）
神戸大学リポジトリ（Kernel）へのリンク

話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討
中鹿亘, 滝口哲也, 有木康雄
2014年, 電子情報通信学会技術研究報告, 114(365) (365), 165 - 170, 日本語
研究論文（研究会，シンポジウム資料等）

話者適応を用いたNMFによる雑音環境下の声質変換
藤井貴生, 相原龍, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 345 - 348, 日本語
研究論文（その他学術会議資料等）

話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換
中鹿亘, 滝口哲也, 有木康雄
日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 219 - 222, 日本語
研究論文（その他学術会議資料等）

発話に不自由のある聴覚障害者の発話音声認識の検討
柿原康博, 滝口哲也, 有木康雄, 三谷信之, 大森清博
2014年, 日本音響学会2014年秋季研究発表会講演論文集, 109 - 110, 日本語
研究論文（その他学術会議資料等）

雑音環境下における特徴重み付マルチモーダル性質変換
真坂健太, 相原龍, 滝口哲也, 有木康雄
2014年, 電子情報通信学会技術研究報告, 114(365) (365), 87 - 92, 日本語
研究論文（研究会，シンポジウム資料等）

遺伝的アルゴリズムを用いた構音障害者の音声特徴量抽出に最適なランダム行列の生成
片岡悠一郎, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 83 - 86, 日本語
研究論文（その他学術会議資料等）

ハイスピードカメラ画像を用いたマルチモーダルNMF声質変換
真坂健太, 相原龍, 滝口哲也, 有木康雄
日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 349 - 352, 日本語
研究論文（その他学術会議資料等）

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘, 滝口哲也, 有木康雄
2014年, 電子情報通信学会技術研究報告, 114(52) (52), 343 - 348, 日本語
研究論文（研究会，シンポジウム資料等）

スパース表現に基づく声質変換と構音障害者への応用
滝口哲也
近年,信号処理の分野においてスパース表現に基づくアプローチが注目され,例えば音声信号処理では,非負値行列因子分解が音源分離や雑音抑圧などに用いられている.本稿では,スパース表現に基づく非負値行列因子分解を用いた声質変換を紹介し,また脳性麻痺構音障害者の音声に適用した研究について述べる.更に近年注目を集めているDeep Learningの基礎技術となるrestricted Boltzmann machineを用いた声質変換を紹介する.
一般社団法人電子情報通信学会, 2014年, 電子情報通信学会技術研究報告, 114(151) (151), 19 - 24, 日本語
[招待有り]
研究論文（研究会，シンポジウム資料等）

スパース辞書学習による構音障害者の話者性を維持した声質変換
相原龍, 滝口哲也, 有木康雄
本研究では,アテトーゼ型脳性麻痺による構音障害者を対象とし,筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す.「自分らしい声で話したい」という障害者のニーズに応えるため,本研究では従来の統計的モデルによる声質変換とは異なる非負値行列因子分解(NMF)を用いたExemplar-based声質変換を用いて,話者性を維持しつつ聞き取りやすい音声に変換する.NMF声質変換では,入力スペクトルは入力話者のexemplarの線形和で表現され,選ばれたexemplarを対応する出力話者のものと置き換えることで変換を行っていた.しかしこれまでのNMF声質変換では,入力話者のexemplarから得られた重み行列をそのまま出力話者の重み行列として用いていた.実際には入力話者の重み行列と出力話者の重み行列は必ずしも一致するわけではなく,この問題が変換音声の劣化を引き起こしていると考えられていた.本研究ではこの問題を解決するため,NMFを用いたスパース辞書学習を行い,入力話者の線形重み行列を出力話者のものに変換するマッピング行列を導入する.提案手法の有効性を評価するため,従来のGaussian Mixture Modelに基づく声質変換,NMF声質変換との比較実験を行った.
一般社団法人電子情報通信学会, 2014年, 電子情報通信学会技術研究報告, 114(91) (91), 39 - 44, 日本語
研究論文（研究会，シンポジウム資料等）

アクティビティマッピングによる非負値行列因子分解を用いた声質変換
相原龍, 滝口哲也, 有木康雄
日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 223 - 226, 日本語
研究論文（その他学術会議資料等）

VOICE CONVERSION IN TIME-INVARIANT SPEAKER-INDEPENDENT SPACE
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.10, 7889 - 7893, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Voice conversion based on Non-negative matrix factorization using phoneme-categorized dictionary
Ryo Aihara, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
Institute of Electrical and Electronics Engineers Inc., 2014年, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2014 Vol.10, 7894 - 7898, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Parallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, 英語
[査読有り]
研究論文（学術雑誌）

Novel Continuous-multi-class Cascade for Real-Time Emotional Recognition
CHEN Jinhui, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年, Workshops CV4AC, 1 - 15, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Normalized Web Distanceを用いた音声認識誤りの訂正法
エンフボロルビャムバヒシグ, 田中克幸, 相原龍, 滝口哲也, 有木康雄
2014年, 第28回人工知能学会全国大会論文集, 1 - 4, 日本語
研究論文（その他学術会議資料等）

Multiple Non-negative Matrix Factorization を用いた多対一声質変換
相原龍, 滝口哲也, 有木康雄
2014年, 電子情報通信学会技術研究報告, 114(365) (365), 75 - 80, 日本語
研究論文（研究会，シンポジウム資料等）

MULTIMODAL VOICE CONVERSION USING NON-NEGATIVE MATRIX FACTORIZATION IN NOISY ENVIRONMENTS
Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.2, 1542 - 1546, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments
Kenta Masaka, Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki
2014年, 15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4, 1159 - 1163, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-preserving Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix Factorization
AIHARA Ryo, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年, SLPAT, 29 - 37, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

High-Order Sequence Modeling Using Speaker-Dependent Recurrent Temporal Restricted Boltzmann Machines for Voice Conversion
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年, Interspeech, 2278 - 2282, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Exemplar-based Emotional Voice Conversion Using Non-negative Matrix Factorization
Ryo Aihara, Reina Ueda, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Dysarthric Speech Recognition Using a Convolutive Bottleneck Network
Toru Nakashika, Toshiya Yoshioka, Tetsuya Takiguchi, Yasuo Ariki, Stefan Duffner, Christophe Garcia
2014年, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 2015-January(October) (October), 505 - 509, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Depth Spatial Pyramid: a Pooling Method for 3D-Object Recognition
NAKASHIKA Toru, HORI Takafumi, TAKIGUCHI Tetsuya, ARIKI Yasuo
2014年, Advances in Computer Science and Engineering, 12(1) (1), 15 - 30, 英語
[査読有り]
研究論文（学術雑誌）

Convolutive Bottleneck Network with Dropout for Dysarthric Speech Recognition
NAKASHIKA Toru, YOSHIOKA Toshiya, TAKIGUCHI Tetsuya, ARIKI Yasuo, DUFFNER Stefan, GARCIA Christophe
2014年, Transactions on Machine Learning and Artificial Intelligence, 2(2) (2), 46 - 60, 英語
[査読有り]
研究論文（学術雑誌）

A Robust Learning Algorithm Based on SURF and PSM for Facial Expression Recognition
Jinhui Chen, Xiaoyan Lin, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 2015-January(October) (October), 1352 - 1357, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

3D-Object Recognition Based on LLC Using Depth Spatial Pyramid
Toru Nakashika, Takafumi Hori, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 4224 - 4228, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

VOICE CONVERSION BASED ON NON-NEGATIVE MATRIX FACTORIZATION USING PHONEME-CATEGORIZED DICTIONARY
Ryo Aihara, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.10, 7894 - 7898, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Probabilistic spectral envelope modeling of musical instruments within the non-negative matrix factorization framework for mixed music analysis
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
Acoustical Society of Japan, 2014年, Acoustical Science and Technology, 35(4) (4), 181 - 191, 英語
[査読有り]
研究論文（学術雑誌）

話者依存型 Conditional Restricted Boltzmann Machine による声質変換
中鹿亘, 滝口哲也, 有木康雄
本研究では，元の音響特徴量空間よりも音韻性や時間変化性を抑え，話者性を強調させることによって，より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として，話者ごとにconditional restricted Boltzmann machine (CRBM)を用いた声質変換法を提案する．提案手法ではまず初めに，話者ごとに用意した学習データ（パラレルデータである必要は無い）を用いて，入力話者，出力話者のCRBMを独立に学習させる．次に，少量のパラレルデータの音響特徴量を，それぞれのCRBMを通して話者依存高次元空間へ写像（CRBMの前方推論）し，その高次特徴量同士をNeural Network (NN)を用いて変換させる．NNの変換で得られた特徴量は，CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である
電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 83 - 88, 日本語
研究論文（研究会，シンポジウム資料等）

辞書選択型非負値行列因子分解による構音障害者の声質変換
相原龍, 滝口哲也, 有木康雄
本研究では，アテトーゼ型脳性麻痺による構音障害者を対象とし，筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す．従来の声質変換手法で最も一般的なのは，混合正規分布モデル(GMM)を用いた統計的手法であった．この手法は主に話者変換を目的として研究されてきたため，GMM声質変換を構音障害者の発話音声に適用し健常者の音声に変換した場合，障害者の話者性は別人のものに置き換わってしまう．「自分らしい声で話したい」という障害者のニーズに答えるため，本研究では従来の統計的モデルによる声質変換とは異なる，非負値行列因子分解（NMF）を用いたExemlpar-based声質変換を用いて，話者性を維持しつつ聞き取りやすい音声に変換する．これまでNMF声質変換では，入力音声フレームと，辞書から選ばれる基底の音素が必ずしも一致しないという問
電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 71 - 76, 日本語
研究論文（研究会，シンポジウム資料等）

雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換
藤井貴生, 相原龍, 滝口哲也, 有木康雄
本報告では，雑音環境下に強いNMFによる声質変換の手法を提案する．ここでは入力話者と出力話者それぞれの同一発話内容の音声特徴量をサンプルとするパラレル辞書を構築する．更に，入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書の線形結合で表現する．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．本手法では，NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる．実験結果より，雑音重畳音声に対して提案手法の有効性が示された．
電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 77 - 82, 日本語
研究論文（研究会，シンポジウム資料等）

ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別
柿原康博, 滝口哲也, 有木康雄, 中井靖, 高田哲
近年，自閉症スペクトラム障害の発生頻度の増加が注目されている．自閉症スペクトラム障害とは，自閉性障害，アスペルガー障害，特定不能の広汎性発達障害の総体である．これらの障害は多様な原因に基づいて発症するため根本的な治療は困難とされているが，この障害に特化した支援による早期療育の効果が報告されている．本研究では，自閉症スペクトラム障害の早期発見を音響的な側面から目指し，ピッチ特徴量をSVMの入力として識別実験を行った．ピッチ特徴量とは，音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して，25，50，75パーセンタイル，25-50と50-75パーセンタイルの差，平均，標準偏差，尖度，歪度，最大値，最小値，レンジという12の統計量を計算したものである．実験として，単語毎の識別，区間分割による識別，特徴分割による識別の３つの識別実験を行った．区
電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 35 - 40, 日本語
研究論文（研究会，シンポジウム資料等）

Exemplar-Based Voice Conversion Using Sparse Representation in Noisy Environments
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年10月, IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES, E96A(10) (10), 1946 - 1953, 英語
[査読有り]
研究論文（学術雑誌）

辞書選択に基づく非負値行列因子分解による声質変換
相原龍, 中鹿亘, 滝口哲也, 有木康雄
本稿では，声質変換においてもっとも一般的な，音声スペクトルを特徴量とした話者変換をタスクとし，NMFを用いた声質変換手法の精度を向上させるため，辞書選択手法の導入を提案する．これまではパラレルデータの全フレームをそのまま辞書の基底として用いており，辞書のサイズが膨大となっていた．そのため，入力音声のフレームと，入力話者辞書から選ばれる基底の音素が必ずしも一致しないといった問題があった．そこで本稿では，入力・出力話者辞書を音素カテゴリに分けた副辞書を作成する．NMFを用いて音素カテゴリ認識を行い，選択した副辞書上でマッピングを行うことで声質変換を行う．
日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 1473 - 1476, 日本語
研究論文（その他学術会議資料等）

時間変化を考慮した Deep Learning を用いた声質変換
中鹿亘, 滝口哲也, 有木康雄
本研究では，Conditional Restricted Boltzmann Machine を用いて音声の時間的変化を捉え，Deep Learningの枠組みで声質変換を行う手法を提案する．
日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 1471 - 1472, 日本語
研究論文（その他学術会議資料等）

セグメント特徴を考慮したNMFを用いた雑音環境下の声質変換
藤井貴生, 相原龍, 滝口哲也, 有木康雄
本稿では，雑音環境下に強いNMFによる声質変換の手法を提案する．ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する．更に，入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．更に本手法では，NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる．実験では雑音重畳音声に対して，提案手法の有効性を示す．
日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 337 - 340, 日本語
研究論文（その他学術会議資料等）

MKL-SVMを用いた自閉症スペクトラム障害児と定型発達児の音響識別
柿原康博, 滝口哲也, 有木康雄, 中井靖, 高田哲
本稿では，自閉症スペクトラム障害の早期発見を音響的な側面から目指し，MKL-SVMを用いて自閉症スペクトラム障害児と定型発達児の音響識別を行う．
日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 397 - 400, 日本語
研究論文（その他学術会議資料等）

Convolutional Neural Networksを用いた構音障害者のための音声認識
吉岡利也, 中鹿亘, 滝口哲也, 有木康雄
提案手法では，音声のスペクトログラムから得られた2次元特徴を入力層，入力層の音素情報を要素として持つベクトルを出力層とするConvolutional Neural Networks (CNN) を構築し，特徴量抽出に用いる．
日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 167 - 168, 日本語
研究論文（その他学術会議資料等）

Speech intonation in children with autism spectrum disorder
Nakai Y, Takiguchi T, Takashima R, Takada S
Speech intonation in children with autism spectrum disorder
Japan Sciety of Child Neurology, 2013年08月, Brain & Development, 2013(13) (13), 英語
[査読有り]
研究論文（学術雑誌）

単眼サッカー映像における時間状況グラフを用いた選手追跡
伊藤拓紀, 滝口哲也, 有木康雄
本研究では，サッカー映像においてオクルージョンにロバストな選手追跡を行うために，時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する．従来のパーティクルフィルタによる選手追跡では，映像のフレーム間で複数選手の位置情報を用いていないため，一度対象を見失うと再度発見するのが困難であるという欠点があった．そこで，複数選手の位置情報を時間状況グラフとして表現しておき，これにガイドされる形でパーティクルフィルタを実行すれば，オクルージョンが生じても選手の誤検出を大幅に減らすことが期待できる．評価実験では，実際の視点固定単眼サッカー映像に対して追跡を行い，時間状況グラフを用いないパーティクルフィルタによる選手追跡（従来手法）と，提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した．その結果，従来手法に比べて提
電子情報通信学会, 2013年08月, 電子情報通信学会論文誌, J96-D(8) (8), 1854 - 1864, 日本語
[査読有り]
研究論文（学術雑誌）

Robust Feature Extraction to Utterance Fluctuation of Articulation Disorders Based on Random Projection
YOSHIOKA Toshiya, TAKIGUCHI Tetsuya, ARIKI Yasuo
We investigated the speech recognition of a person with an articulation disorder resulting from the athetoid type of cerebral palsy. The articulation of the first speech tends to become unstable due to strain on speech-related muscles, and that causes degradation of speech recognition. In this paper, we introduce a robust feature extraction method based on PCA (Principal Compon
2013年08月, 4th Workshop on Speech and Language Processing for Assistive Technologies, 129 - 133, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Noise-Robust Voice Conversion Based on Spectral Mapping on Sparse Space
TAKASHIMA Ryoichi, AIHARA Ryo, TAKIGUCHI Tetsuya, ARIKI Yasuo
This paper presents a voice conversion (VC) technique for noisy environments based on a sparse representation of speech. In our previous work, we discussed an exemplar-based VC technique for noisy environments. In that report, source exemplars and target exemplars are extracted from the parallel training data, having the same texts uttered by the source and target speakers. The
International Speech Communication Association, 2013年08月, 8th Speech Synthesis Workshop, 71 - 75, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Individuality-Preserving Voice Conversion for Articulation Disorders Using Locality-Constrained NMF
AIHARA Ryo, TAKIGUCHI Tetsuya, ARIKI Yasuo
We present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movements of such speakers are limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In this paper, exemplar-based spectral conversion using Non-negative
2013年08月, 4th Workshop on Speech and Language Processing for Assistive Technologies, 3 - 8, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

雑音環境下における非負値行列因子分解を用いた声質変換
藤井貴生, 相原龍, 高島遼一, 滝口哲也, 有木康雄
本稿では，雑音環境下に強いSparse Codingによる声質変換の手法を提案する．ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する．更に，入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．更に本手法では，より出力話者への音声へと近似させるため，ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする．実験では雑音重畳音声に対して，提案手法の有効性を示す．
システム制御情報学会, 2013年05月, システム制御情報学会研究発表講演会講演論文集, (114-5) (114-5), 1 - 6, 日本語
研究論文（その他学術会議資料等）

Unknown Object Identification Using Category Visual Words with Rejection Function
TANAKA Yuto, TAKIGUCHI Tetsuya, ARIKI Yasuo
In this paper, we introduce an identification method for unknown category objects. Most popular conventional methods in object recognition use Bag of Features (BoF) that represents the image as an appearance frequency histogram of common visual words by quantizing SIFT features. However, this method is unable to identify unknown objects because the common visual words cannot re
IAPR, 2013年05月, International Conference on Machine Vision Applications, 375 - 378, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択
石井良, 高島遼一, 滝口哲也, 有木康雄, 中井靖, 高田哲
神戸大学都市安全研究センター, 2013年03月, 神戸大学都市安全研究センター研究報告, (17) (17), 97 - 104, 日本語
[査読有り]
神戸大学リポジトリ（Kernel）へのリンク

非負値行列因子分解による構音障害者の話者性を維持した声質変換
相原龍, 高島遼一, 滝口哲也, 有木康雄
本研究では，脳性麻痺の一種であるアテトーゼ型構音障害者を対象とした話者性を維持した声質変換を提案する．アテトーゼ現象は意図的な動作に緊張状態を発生させるために，障害者の発話，特に子音が不安定になる．本稿では，非負値行列因子分解(Non-negative Matrix Factorization: NMF) を用いたExemplar-basedな声質変換を構音障害者の発話に適用し，不安定な発話音声をより聞き取りやすく変換することを目指す．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 333 - 336, 日本語
研究論文（その他学術会議資料等）

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
石井良, 高島遼一, 滝口哲也, 有木康雄, 中井靖, 高田哲
本論文では，幼稚園児から小学校４年生までの自閉症スペクトラム障害児を対象に，早期発見と早期療育を目指した音響的な側面による識別実験の結果に関して報告する．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 141 - 142, 日本語
研究論文（その他学術会議資料等）

雑音環境下におけるSparse Coding 声質変換
藤井貴生, 相原龍, 高島遼一, 滝口哲也, 有木康雄
本稿では，雑音環境下に強いSparse Codingによる声質変換の手法を提案する．ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する．更に，入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．更に本手法では，より出力話者への音声へと近似させるため，ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする．実験では雑音重畳音声に対して，提案手法の有効性を示す．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 529 - 532, 日本語
研究論文（その他学術会議資料等）

音響モデル合成を用いた単一マイクによる2話者位置推定
高島遼一, 滝口哲也, 有木康雄
本論文では単一マイクを用いた2話者の音源位置推定手法について提案する.我々はこれまで音響伝達特性の識別に基づく,単一マイクによる音源位置推定法を提案してきたが,それは話者が一人のみであることを前提とした手法であった.そこで本論文ではこれまで提案した枠組みを元に,新たに音響モデル合成を用いることで,単一マイクで2話者の音源位置推定を行う手法を提案する.提案手法では位置ごとの観測信号の音響伝達特性をあらかじめ推定し,そのモデルを学習しておく.そして,学習された音響伝達特性モデルと各話者の音響モデルを合成させることで,複数話者のそれぞれの位置における混合音声信号のモデルを作成する.その後,二人の話者が同時に発話した評価音声について,位置の組合せごとに合成された混合信号モデルとのゆう度を比較することでそれぞれの話者の位置を推定する.2話者位置推定の実験により,特に位置ごとの学習データが少量の場合において提案手法の優位性を確認できた.
一般社団法人電子情報通信学会, 2013年03月, 電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition), 96(3) (3), 675 - 685, 日本語
[査読有り]
研究論文（学術雑誌）

ランダムプロジェクションを用いた構音障害音声の認識および誤り単語検出
吉岡利也, 高島遼一, 滝口哲也, 有木康雄
本研究では，アテトーゼ型の脳性麻痺による構音障害者を対象とした音声認識の実現を目指している．彼らは意図的な動作時や緊張状態にある場合に筋肉の制御が難しくなり，アテトーゼと呼ばれる不随意運動を伴う．アテトーゼ型の構音障害者の発話スタイルは健常者と大きく異なり，認識精度が著しく低下する．ランダムプロジェクションとは，空間写像の一手法で，その変換写像行列の各要素がある確率分布に従うランダムな値として定義される点に特徴を持つ．提案手法では，複数のランダム写像行列を用いて音声特徴量を変換する．各々の特徴量を用いて音声認識を行い，各認識結果を投票により統合することで最適な認識結果を得る．さらに，その投票結果に基づく正誤判定手法を紹介する．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 139 - 140, 日本語
研究論文（その他学術会議資料等）

スパース基底空間上のマッピングに基づく声質変換
高島遼一, 滝口哲也, 有木康雄
本稿では，これまでに提案してきた音声のスパース表現に基づく声質変換法において，入力音声と出力音声を同一のアクティビティで表現できるような部分空間を学習するNMFの枠組みを提案し，この空間上でマッピングを行うことで声質変換を行う手法を提案する．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 533 - 536, 日本語
研究論文（その他学術会議資料等）

Syntax情報とContext情報を用いた音声認識誤りの2段階訂正
中谷良平, 滝口哲也, 有木康雄
本稿では，単語ごとに付与した長距離文脈スコアを素性とし，Confusion Network上で音声認識自動誤り訂正を行う手法を提案する．従来，単語ごとに付与された長距離文脈情報を素性として音声認識誤り訂正を行う手法は提案されているが，単語ごとにそれを付与する場合，周辺の認識精度に大きく依存してしまうという問題があった．そのため，認識誤りを多く含む認識結果に対して長距離文脈情報を付与することは，あまり好ましくない．したがって本研究では，長距離文脈情報を誤り訂正の素性として用いるために，始めにN-gram情報を用いた誤り訂正を行い，誤認識を軽減する．その後，長距離文脈スコアを付与し，2段階目の訂正を行うことで，音声認識精度を向上させる手法を提案する．実験により，提案する2段階訂正を行うことで，より効果的に長距離文脈情報を誤り訂正の素性として利用できること
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 221 - 224, 日本語
研究論文（その他学術会議資料等）

Specmurtを利用した調波構造行列による混合楽音解析の検討
西村大樹, 中鹿亘, 滝口哲也, 有木康雄
我々が耳にする楽曲の多くは様々な楽器が同時刻に存在する混合楽音である．しかし，Specmurt法は単一楽器の多重音の解析のみしか行うことができない．そこで我々は従来のSpecmurtを拡張し，複数の楽器の混合楽音から，各楽器に分離された音高を解析する新たな手法を提案する．各楽器に分離された音高を解析する新たな手法を提案する．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 843 - 844, 日本語
研究論文（その他学術会議資料等）

Sparseness Criteria of F0-Frequencies Selection for Specmurt-Based Multi-Pitch Analysis without Modeling Harmonic Structure
NISHIMURA Daiki, NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
This paper introduces a multi-pitch analysis method using specmurt analysis without modeling the common harmonic structure pattern. Specmurt analysis is based on the idea that the fundamental frequency distribution is expressed as a deconvolution of the observed spectrum by the common harmonic structure pattern. To analyze the fundamental frequency distribution, the common harm
Research Institute of Signal Processing, 2013年03月, Journal of Signal Processing, 17(2) (2), 29 - 38, 英語
[査読有り]
研究論文（学術雑誌）

Deep Belief Nets による低次元空間表現を用いた声質変換の検討
中鹿亘, 高島遼一, 滝口哲也, 有木康雄
本稿では，DBNとNNを組み合わせて，話者性の取り除いた低次元空間で非線形変換を行う声質変換法を提案した．主観的・客観的に評価実験を行い，いずれの実験においても高い精度を示した．
日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 517 - 520, 日本語
研究論文（その他学術会議資料等）

距離空間ピラミッドを用いたLLCによる3次元物体認識
堀貴博, 滝口哲也, 有木康雄
近年，高精度なRGB-Dカメラの登場により，高品質な3次元情報（色，奥行き情報）が容易に測定可能となった．これを用いた従来の物体認識手法は，奥行き情報を局所的特徴の抽出にしか使用していない．つまり，奥行き情報を取得することで物体の全体的な形状を把握することが可能であるにも関わらず，部分的な利用に留まっている．そこで，提案手法では，奥行き情報に基づく距離空間ピラミッドによって，全体的な物体形状を表現する手法を提案する．具体的には，距離空間ピラミッドでの特徴点の座標位置によって，奥行きの位相情報を含んだ特徴表現を実現する．また，距離画像から抽出する3次元局所特徴量として，HONV (Histogram of Oriented Normal Vectors)を用い，特徴量のコード化には，特徴空間座標系での近傍制限を利用したLLC (Locality-con
電子情報通信学会, 2013年02月, 電子情報通信学会技術研究報告, 43 - 48, 日本語
研究論文（研究会，シンポジウム資料等）

Dimensional feature weighting utilizing multiple kernel learning for single-channel talker location discrimination using the acoustic transfer function
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年02月, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 133(2) (2), 891 - 901, 英語
[査読有り]
研究論文（学術雑誌）

SPARSE REPRESENTATION FOR OUTLIERS SUPPRESSION IN SEMI-SUPERVISED IMAGE ANNOTATION
Toru Nakashika, Takeshi Okumura, Tetsuya Takiguchi, Yasuo Ariki
2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.3, 2080 - 2083, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Single-channel talker localization based on separation of the acoustic transfer function using hidden Markov model and its classification
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Arikiz
Acoustical Society of Japan, 2013年, Acoustical Science and Technology, 34(3) (3), 176 - 186, 英語
[査読有り]
研究論文（学術雑誌）

PREDICTION OF UNLEARNED POSITION BASED ON LOCAL REGRESSION FOR SINGLE-CHANNEL TALKER LOCALIZATION USING ACOUSTIC TRANSFER FUNCTION
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.6, 4295 - 4299, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

INDIVIDUALITY-PRESERVING VOICE CONVERSION FOR ARTICULATION DISORDERS BASED ON NON-NEGATIVE MATRIX FACTORIZATION
Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.11, 8037 - 8040, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Voice Conversion in High-order Eigen Space Using Deep Belief Nets
Toru Nakashika, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 369 - 372, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Two-step Correction of Speech Recognition Errors Based on N-gram and Long Contextual Information
Ryohei Nakatani, Tetsuya Takiguchi, Yasuo Ariki
2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3714 - 3717, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Exemplar-based Individuality-Preserving Voice Conversion for Articulation Disorders in Noisy Environments
Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3604 - 3608, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Robust facial expressions recognition using 3D average face and ameliorated adaboost
Jinhui Chen, Yasuo Ariki, Tetsuya Takiguchi
ACM, 2013年, MM 2013 - Proceedings of the 2013 ACM Multimedia Conference, 661 - 664, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Voice Conversion based on Non-negative Matrix Factorization in Noisy Environments
Takao Fujii, Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2013年, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 495 - 498, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

High-frequency restoration using deep belief nets for super-resolution
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2013年, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 38 - 42, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Event detection and recognition using HMM with whistle sounds
Hiroki Itoh, Tetsuya Takiguchi, Yasuo Ariki
2013年, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 14 - 21, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Acoustic Feature Selection Utilizing Multiple Kernel Learning for Classification of Children with Autism Spectrum and Typically Developing Children
Yasuhiro Kakihara, Tetsuya Takiguchi, Yasuo Ariki, Yasushi Nakai, Satoshi Takada
2013年, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 490 - 494, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間
高島遼一, 滝口哲也, 有木康雄
我々はこれまで，観測音声の音響伝達特性が話者の位置に依存するという点に着目し，音響伝達特性を識別することにより，単一マイクロホンで音源位置推定を行う手法を提案してきた．しかしこの手法は，事前に想定される音源位置毎に音響伝達特性を学習させる必要があり，学習していない位置の推定が困難であった．そこで本稿では，限られた位置の音響伝達特性を用いて，音響伝達特性から位置への回帰モデルを学習し，その回帰モデルにより未学習位置の推定を行う手法について検討する．回帰モデルとして，線形回帰である重回帰分析，非線形回帰であるGPR (Gaussian Process Regression)，SVR (Support Vector Regression)を用い，さらにその学習方法として，評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し，その性
電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 75 - 80, 日本語
研究論文（研究会，シンポジウム資料等）

シンタックスとセマンティックスに基づく音声認識結果の2段階訂正
中谷良平, 滝口哲也, 有木康雄
本稿では，単語ごとに長距離文脈スコアを付与することで素性とし，Confusion Network上での音声認識自動誤り訂正手法を提案する．従来，単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが，単語ごとにそれを付与する場合，周辺の認識精度に大きく依存してしまうという問題がある．そのため，認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは，あまり好ましくない．したがって本稿では，文脈情報を誤り訂正の素性として用いるために，まずはシンタックスを用いた誤り訂正を行い，誤認識を軽減する．その後，長距離文脈スコアを付与し，2段階目の訂正を行うことで，より音声認識精度を向上させることを目的とする．
電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 149 - 154, 日本語
研究論文（研究会，シンポジウム資料等）

Sparse Coding を用いた唇情報からの音声変換
相原龍, 高島遼一, 滝口哲也, 有木康雄
唇の動きから発話内容を読み取る技術はリップリーディング（読唇）と呼ばれ，聴覚・言語障害者のコミュニケーション手段の一つとして用いられている．本研究では，Sparse Codingを用いて，唇動画像から対応する発話音声へテキスト情報なしで変換を行う．事前に音声を含んだ発話映像から唇情報と音声情報を抽出し，それぞれを基底の集合である辞書として学習する．このとき，二つの辞書行列は同一時系列であり，パラレルなデータである．入力された無音声の映像から抽出された唇情報は，Sparse Codingにより少数の基底の線形和で表される．唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで，音声の基底の線形和として音声が出力される．本稿では，唇情報から識別可能と考えられる母音について変換を行った．
電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 119 - 124, 日本語
研究論文（研究会，シンポジウム資料等）

GMM-Based Emotional Voice Conversion Using Spectrum and Prosody Features
AIHARA Ryo, TAKASHIMA Ryoichi, TAKIGUCHI Tetsuya, ARIKI Yasuo
We propose Gaussian Mixture Model (GMM)-based emotional voice conversion using spectrum and prosody features. In recent years, speech recognition and synthesis techniques have been developed, and an emotional voice conversion technique is required for synthesizing more expressive voices. The common emotional conversion was based on transformation of neutral prosody to emotional
Scientific & Academic Publishing, 2012年10月, American Journal of Signal Processing, 2(5) (5), 134 - 138, 英語
[査読有り]
研究論文（学術雑誌）

非負値行列因子分解による構音障害者の声質変換
相原龍, 高島遼一, 滝口哲也, 有木康雄
近年，情報技術の福祉分野への応用が進んでいる．例えば，画像認識技術の応用による手話認識，文章読み上げシステム，無喉頭音声変換など，その応用領域は幅広い．本研究では，脳性麻痺による構音障害者に焦点をあて，構音障害者の音声を健常者のものに変換することで，より聞き取りやすくすることを目指す．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 331 - 334, 日本語
研究論文（その他学術会議資料等）

重みつきノルム基準によるF0周波数選択を用いたSpecmurtによる多重音解析
西村大樹, 中鹿亘, 滝口哲也, 有木康雄
本稿では共通調波構造をモデル化しないで，重みつきノルムによるスパース性を考慮したSpecmurtによる多重音解析の有効性を示した．この手法は音色の学習を必要とせず，また和音数などといった知識も用いないで多重音の解析ができる．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 781 - 784, 日本語
研究論文（その他学術会議資料等）

構音障害者の音素認識誤りの傾向
吉岡利也, 高島遼一, 滝口哲也, 有木康雄
本稿では，構音障害者の音素体系に注目し，音素認識実験を行いその誤り傾向について検討を行った．構音障害者3名を対象とした音素認識実験により，正解率が低下している音素が，母音，子音ともに類似していることが確認できた．また，正解率が低下している音素において，いくつかの誤り傾向が見られた．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 140 - 141, 日本語
研究論文（その他学術会議資料等）

音響特徴量を用いた自閉症児と定型発達児の識別
石井良, 高島遼一, 滝口哲也, 有木康雄, 中井靖, 高田哲
本論文では，幼稚園児から小学校４年生までの自閉症児を対象に，その早期発見を目指した音響的な側面による識別実験の結果に関して報告する．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 117 - 118, 日本語
研究論文（その他学術会議資料等）

スパース表現を用いた雑音環境下の声質変換
高島遼一, 滝口哲也, 有木康雄
本稿では，入力話者のパラレルデータから構築したパラレル辞書と入力音声から構築した雑音辞書を用いて，雑音が重畳した入力音声を入力話者辞書と雑音辞書のスパース表現にし，入力話者辞書のアクティビティ行列に基づいて出力話者辞書内のサンプルを線形結合することで，出力話者の音声へ変換する手法を提案した．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 213 - 216, 日本語
研究論文（その他学術会議資料等）

CRFを用いた音声認識誤り訂正における素性の検討
中谷良平, 滝口哲也, 有木康雄
我々は，大語彙連続音声認識において，Conditional Random Fields (CRF) を用いて認識結果中の誤りを訂正する手法を提案してきた．素性として，長距離言語情報などを用いたが，あまり大きな効果が得られなかった．そのため，本稿では，長距離言語情報を他の情報と組み合わせ，新たな素性として誤り訂正に用いる．その結果，長距離言語情報を単独で用いた場合と比較して，単語誤り率の改善が見られたので報告する．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 141 - 142, 日本語
研究論文（その他学術会議資料等）

Convolutional Neural Networks を用いた局所特徴統合による自動音楽ジャンル分類
中鹿亘, Garcia Christophe, 滝口哲也, 有木康雄
近年のコンピュータの発展とともに音楽のデジタルコンテンツが爆発的に増大し，web上や個人の情報端末上で音楽データを整理・検索することが困難になってきている．このような背景の中で，類似した音楽を自動的にクラスタリングする自動音楽ジャンル分類の研究が盛んに行われている．本稿では後者のアプローチに基づき，各マップから計算される画像特徴であるGLCM (Gray Level Co-occurrence Matrix)を特徴量とし，Convolutional Neural Networks (ConvNets)を用いて複数のGLCMを統合しつつ音楽ジャンルを識別する手法を提案する．
日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 789 - 790, 日本語
研究論文（その他学術会議資料等）

３次元ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌｓを用いた手形状認識
山下亮, 滝口哲也, 有木康雄
本研究では，高機能ＴＶなどに対するジェスチャー入力として3次元モデルを使用した，複雑な手の形状認識の手法を提案する．従来のジェスチャー認識では，カメラに対して正面に手を向ける必要があり，任意の手の傾きに対応できない問題点がある．そこで，3D Active Appearance Modelsを使用することで，あらゆる方位にも対応できる手の形状追跡を実現する．高精度な距離画像センサーKinectを用いて，対象のＲＧＢ画像と深度情報を取得し，モデルの学習及びテストを行った．複数の3D-AAMを使用することにより，複雑な指の形状を，方向の変化に対して頑健に認識することができた．
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
研究論文（研究会，シンポジウム資料等）

単眼サッカー映像における時間状況グラフを用いた選手追跡
伊藤拓紀, 滝口哲也, 有木康雄
本研究では，サッカー映像においてオクルージョンにロバストな選手追跡を行うために，時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する．従来のパーティクルフィルタによる選手追跡では，映像のフレーム間で複数選手の位置情報を用いていないため，一度対象を見失うと再度発見するのが困難であるという欠点があった．そこで，複数選手の位置情報を時間状況グラフとして表現しておき，これにガイドされる形でパーティクルフィルタを実行すれば，オクルージョンが起こっても選手の誤検出を大幅に減らすことが期待できる．評価実験では，実際の視点固定単眼サッカー映像に対して追跡実験を行い，時間状況グラフを用いないパーティクルフィルタによる選手追跡（従来手法）と，提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した．その結果，従来手法に比
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
[査読有り]
研究論文（研究会，シンポジウム資料等）

自己縮小画像と混合ガウス分布モデルを用いた超解像
小川祐樹, 堀貴博, 滝口哲也, 有木康雄
近年，超解像技術はコンピュータビジョンの分野において活発に研究されている．本稿では，混合正規分布(GMM)を用いた変換関数による超解像を提案する．低解像度画像を高解像度画像に変換する変換関数を，入力画像と入力画像の自己縮小画像を用いた混合正規分布から作成する．入力画像をその変換関数に適用することによって，高解像度画像を得ることができる．さらに，混合正規分布だけでなく，PLS (Partial Least Squares)も用いた変換関数による超解像も提案する．また，入力画像だけを用いているので，従来手法のように大量の学習画像を必要としない．従来手法との比較を行った結果，提案手法(GMMのみ，GMM+PLS)共に，従来手法より評価値が優れ，より鮮明な画像を作成することができ，提案手法の有効性を確認した．
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
研究論文（研究会，シンポジウム資料等）

学習画像の選択に基づくＡＡＭの繰り返し適応
高柳陽平, 滝口哲也, 有木康雄
顔特徴点の取得法として，顔を追跡する方法として適しているActive Appearance Model (AAM)がある．しかし、AAMによって，未知人物を追跡しようとする時，学習データを過剰に用いると，個人の特徴が失われ，多くの局所解が生まれてしまい，追跡精度が低下してしまうので，現状では学習済みの人物でないと顔特徴点を正確に取得できないといった問題がある．そこで本研究では，この問題を解決するため，学習データを人物ごとに分けておき，未知人物に対して学習人物との類似度を，Gaussian Mixture Models(GMM)によって求める．この類似度に応じて，学習人物毎に学習データの枚数を決定し，こうして集められた学習データを基にAAMを構築して特徴点を得る．更に得られた特徴点に対して学習データとの類似度によって，繰り返しAAMを構築することで，未
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
研究論文（研究会，シンポジウム資料等）

ウェブ画像を用いたカテゴリ別Visual Wordsによる未知物体判別
田中雄翔, 滝口哲也, 有木康雄
本論文では，既知の物体と同様に，未知の物体も判別できるカテゴリ別Visual Wordsを提案する．最も広く用いられている物体認識の手法は，Bag of Features (BoF)手法である．これは，SIFT (Scale-Invariant Feature Transform)などの局所特徴を量子化することによって，Visual Wordsと呼ばれるコードブックを作成し，その出現頻度ヒストグラムとして画像を表現する手法である．しかし，この手法には既知の物体にしか適用できないという問題点がある．従って，BoF手法は未知の物体を含む物体認識に適している手法とはいえない．この観点から，本論文は未知のカテゴリの物体も表現することができるカテゴリ別Visual Wordsと，それによる物体認識手法を提案する．10クラスの物体認識において，提案手法は従来のB
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
研究論文（研究会，シンポジウム資料等）

Facial Age Estimation Based on KNN-SVR Regression and AAM Parameters
Songzhu Gao, TAKIGUCHI Tetsuya, ARIKI Yasuo
Age estimation is the determination of a person’s age based on biometric features. It is an important technique to estimate age from facial pictures automatically in Computer Vision. The application using age estimation for interface, robot, and human interaction is expected. In recent years, many approaches for age estimation were proposed while the results were not ideal. To
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 英語
研究論文（研究会，シンポジウム資料等）

AAMを用いた顔方位に依存しない発話認識
駒井祐人, 楊楠, 有木康雄, 滝口哲也
音声情報に唇動画像情報を併用して認識を行うマルチモーダル発話認識は，雑音環境下での認識が可能である．しかし，唇情報は，顔が横を向いてしまうと，認識精度が大きく劣化してしまうため，従来のリップリーディングでは正面顔での発話に限定されていることが多かった．本研究ではActive Appearance Modelを用いて，様々な角度の顔方位を正面に変換してリップリーディングを行う手法を提案する．提案手法では，顔方位に関する回帰モデル式を選択的に扱うことで，正面顔と横顔との変動のミスマッチを抑えつつ，任意の角度で横顔を正面顔に変換することができる．実験では，正面方向の発話のみを学習し，正面，横15度，横30度の3方向の角度において認識を行った結果，3方向全てにおいて，従来手法と比べ認識精度を改善することができた．
情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語
研究論文（研究会，シンポジウム資料等）

Generic Object Recognition Based on CRF Incorporating BoF as Global Features
OKUMURA Takeshi, TAKIGUCHI Tetsuya, ARIKI Yasuo
Generic object recognition using a computer has become a necessity in various fields, such as robot vision and image retrieval in recent years. Conventional methods use conditional random field (CRF) that recognizes the class of each region using the features extracted from the local regions and the class co-occurrence between the adjoining regions. However, there is a problem
2012年06月, Far East Journal of Electronics and Communications, 8(2) (2), 85 - 96, 英語
[査読有り]
研究論文（学術雑誌）

Audio-Visual Speech Recognition Using AAM-Based Visual Features
KOMAI Yuto, TAKIGUCHI Tetsuya, ARIKI Yasuo
As one of the techniques for robust speech recognition under noisy environments, audio-visual speech recognition (AVSR) using lip dynamic scene information together with audio information is attracting attention, and the research has made strides in recent years. However, in visual speech recognition (VSR), when a face turns sideways, the shape of the lip as viewed by the camer
2012年05月, Advances in Computer Science and Engineering, 8(2) (2), 123 - 137, 英語
[査読有り]
研究論文（学術雑誌）

Random Projection を用いた構音障害者の音声認識
高塚智敬, 高島遼一, 滝口哲也, 有木康雄
神戸大学都市安全研究センター, 2012年03月, 神戸大学都市安全研究センター研究報告, (16) (16), 123 - 128, 日本語
[査読有り]
神戸大学リポジトリ（Kernel）へのリンク

Integrated Multimodal Information for Detection of Unknown Objects and Unknown Names
OZASA Yuko, IWAHASHI Naoto, TAKIGUCHI Tetsuya, ARIKI Yasuo, NAKANO Mikio
2012年03月, NCSP, pp. 631-634, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Gaze Estimation Using 3D Active Appearance Models
NAKAMATSU Yukari, TAKIGUCHI Tetsuya, ARIKI Yasuo
2012年03月, NCSP, pp. 112-115, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Towards Domain Independent Why Text Segment Classification Based on Bag of Function Words
田中克幸, 滝口哲也, 有木康雄
2012年, The Australasian Joint Conference on Artificial Intelligence, 469 - 480, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SUPER-RESOLUTION BY GMM BASED CONVERSION USING SELF-REDUCTION IMAGE
Yuki Ogawa, Yasuo Ariki, Tetsuya Takiguchi
2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 1285 - 1288, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

GENERIC OBJECT RECOGNITION BY GRAPH STRUCTURAL EXPRESSION
Takahiro Hori, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 1021 - 1024, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

A NEW MULTIPLE-KERNEL-LEARNING WEIGHTING METHOD FOR LOCALIZING HUMAN BRAIN MAGNETIC ACTIVITY
T. Takiguchi, T. Imada, R. Takashima, Y. Ariki, J. -F. L. Lin, P. K. Kuhl, M. Kawakatsu, M. Kotani
2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 761 - 764, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

ACOUSTIC MODEL TRANSFORMATIONS BASED ON RANDOM PROJECTIONS
Tetsuya Takiguchi, Mariko Yoshii, Yasuo Ariki, Jeff Bilmes
2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.3, 1933 - 1936, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Local-feature-map Integration Using Convolutional Neural Networks for Music Genre Classiﬁcation
NAKASHIKA Toru, GARCIA Christophe, TAKIGUCHI Tetsuya
2012年, Interspeech, 1750 - 1753, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Estimation of Talker’s Head Orientation Based on Discrimination of the Shape of Cross-power Spectrum Phase Coefficients
TAKASHIMA Ryoichi, TAKIGUCHI Tetsuya, ARIKI Yasuo
2012年, Interspeech, 1842 - 1845, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Robust AAM-based audio-visual speech recognition against face direction changes
Yuto Komai, Nan Yang, Tetsuya Takiguchi, Yasuo Ariki
ACM, 2012年, MM 2012 - Proceedings of the 20th ACM International Conference on Multimedia, 1161 - 1164, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

3D Tracking of Soccer Players Using Time-Situation Graph in Monocular Image Sequence
Hiroki Itoh, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012), 2532 - 2536, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Towards domain independent why text segment classification based on bag of function words
Katsuyuki Tanaka, Tetsuya Takiguchi, Yasuo Ariki
2012年, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7691, 469 - 480, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Super-Resolution Using GMM and PLS Regression
Yuki Ogawa, Takahiro Hori, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA (ISM), 298 - 301, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Robust Feature Extraction to Utterance Fluctuations Due to Articulation Disorders Based on Sparse Expression
Toshiya Yoshioka, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

EXEMPLAR-BASED VOICE CONVERSION IN NOISY ENVIRONMENT
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2012), 313 - 317, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Consonant Enhancement for Articulation Disorders Based on Non-negative Matrix Factorization
Ryo Aihara, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

An AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic Activity
T. Takiguchi, R. Takashima, Y. Ariki, T. Imada, J. -F. L. Lin, P. K. Kuhl, M. Kawakatsu, M. Kotani
2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Bag of Grammerを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法
田中克幸, 滝口哲也, 有木康雄
本論文では,non-factoid型質問応答技術の一つであるWhy型質問応答を可能とするための技術として,Whyテキストセグメントを識別する識別器の構築方法を提案する.具体的には,テキストセグメント中の文法情報に着目し,機械学習の一つであるSupport Vector Machineにより,それらの特徴パターンを学習することによって,Whyテキストセグメント識別器を構築する.これにより,どのようなドメインのテキストセグメントに対しても,有効に機能するWhyテキストセグメント識別器が構築でき,WebのようなオープンドメインにおいてWhy型質問応答が可能となる.提案手法によるWhyテキストセグメント識別能力の評価のために,Yahoo!知恵袋の回答集合からなる学習データセットをもとに,Whyテキストセグメント識別器を構築して実験を行った結果,F値=0.661,正解率=63.25%の識別性能を有する識別器を構築することができた.これより,従来のWhy型質問応答の問題点であったルール作成に手間が掛かる,識別器がドメインに依存する,ラベル付けされた学習データの入手が困難である,といった問題が改善され,より識別能力の高いWhyテキストセグメント識別が可能となった.
一般社団法人電子情報通信学会, 2011年12月, 電子情報通信学会論文誌, Vol. J94-D, No. 12, pp. 2047-2(12) (12), 2047 - 2057, 日本語
[査読有り]
研究論文（学術雑誌）

Constrained Spectrum Generation Using A Probabilistic Spectrum Envelope for Mixed Music Analysis
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
2011年10月, ISMIR, pp. 181-184, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Tracking of Multiple Soccer Players Using a 3D Particle Filter Based on Detector Confidence
NISHINO Takuro, TAKIGUCHI Tetsuya, ARIKI Yasuo
2011年02月, Advances in Computer Science and Engineering, Volume 6, Issue 1, pp. 93 - 10, 93 - 104, 英語
[査読有り]
研究論文（学術雑誌）

CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments
Takahiro Fukumori, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Norihide Kitaoka, Takeshi Yamada, Kazumasa Yamamoto, Satoru Tsuge, Masakiyo Fujimoto, Tetsuya Takiguchi, Chiyomi Miyajima, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura
2011年, Acoustical Science and Technology, 32(5) (5), 201 - 210, 英語
[査読有り]
研究論文（学術雑誌）

Gaze Estimation Using Regression Analysis and AAMs Parameters Selected Based on Information Criterion
Manabu Takatani, Yasuo Ariki, Tetsuya Takiguchi
2011年, COMPUTER VISION - ACCV 2010 WORKSHOPS, PT I, 6468, 400 - 409, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Bag of Grammarを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法
田中克幸, 滝口哲也, 有木康雄
2011年, 電子情報通信学会論文誌, J94-D(No.12) (No.12), 2047 - 2057, 日本語
[査読有り]
研究論文（学術雑誌）

Image Annotation with Concept Level Feature Using PLSA plus CCA
Yu Zheng, Tetsuya Takiguchi, Yasuo Ariki
2011年, ADVANCES IN MULTIMEDIA MODELING, PT II, 6524, 454 - 464, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

GENERIC OBJECT RECOGNITION USING AUTOMATIC REGION EXTRACTION AND DIMENSIONAL FEATURE INTEGRATION UTILIZING MULTIPLE KERNEL LEARNING
Toru Nakashika, Akira Suga, Tetsuya Takiguchi, Yasuo Ariki
2011年, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2011 Vol.2, 1229 - 1232, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

FEATURE SELECTION BASED ON MULTIPLE KERNEL LEARNING FOR SINGLE-CHANNEL SOUND SOURCE LOCALIZATION USING THE ACOUSTIC TRANSFER FUNCTION
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2011年, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2011 Vol.4, 2696 - 2699, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Single-channel Head Orientation Estimation Based on Discrimination of Acoustic Transfer Function
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2011年, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 2721-2724, 2732 - 2735, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Probabilistic Spectrum Envelope: Categorized Audio-features Representation for NMF-based Sound Decomposition
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2011年, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 1765-1768, 1776 - 1779, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Audio-Visual Speech Recognition Based on AAM Parameter and Phoneme Analysis of Visual Feature
Yuto Komai, Yasuo Ariki, Tetsuya Takiguchi
2011年, ADVANCES IN IMAGE AND VIDEO TECHNOLOGY, PT I, 7087, 97 - 108, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

3D Human Pose Estimation from a Monocular Image Using Model Fitting in Eigenspaces
BO Geli, ONISHI Katsunori, TAKIGUCHI Tetsuya, ARIKI Yasuo
2010年11月, Journal of Software Engineering and Applications, Volume 3, Number 11, pp. 1060-, 英語
[査読有り]
研究論文（学術雑誌）

Monaural sound-source-direction estimation using the acoustic transfer function of a parabolic reflection board
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2010年02月, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 127(2) (2), 902 - 908, 英語
[査読有り]
研究論文（学術雑誌）

CENSREC-1-AV: an audio-visual corpus for noisy bimodal speech recognition.
Satoshi Tamura, Chiyomi Miyajima, Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Tetsuya Takiguchi, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamur
ISCA, 2010年, Auditory-Visual Speech Processing, AVSP 2010, Hakone, Kanagawa, Japan, September 30 - October 3, 2010, 6
[査読有り]

Human Action Recognition Using HDP by Integrating Motion and Location Information
Yasuo Ariki, Takuya Tonaru, Tetsuya Takiguchi
2010年, COMPUTER VISION - ACCV 2009, PT II, 5995, 291 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

STRUCTURING A GENE NETWORK USING A MULTIRESOLUTION INDEPENDENCE TEST
Takayuki Yamamoto, Tetsuya Takiguchi, Yasuo Ariki
2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.1, 538 - 541, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

HMM-BASED SEPARATION OF ACOUSTIC TRANSFER FUNCTION FOR SINGLE-CHANNEL SOUND SOURCE LOCALIZATION
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.4, 2830 - 2833, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

EVALUATION OF RANDOM-PROJECTION-BASED FEATURE COMBINATION ON SPEECH RECOGNITION
Tetsuya Takiguchi, Jeff Bilmes, Mariko Yoshii, Yasuo Ariki
2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.3, 2150 - 2153, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Generic object recognition by tree conditional random field based on hierarchical segmentation
Takeshi Okumura, Tetsuya Takiguchi, Yasuo Ariki
2010年, Proceedings - International Conference on Pattern Recognition, 3025 - 3028, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Speech Synthesis by Modeling Harmonics Structure with Multiple Function
Toru Nakashika, Ryuki Tachibana, Masafumi Nishimura, Tetsuya Takiguchi, Yasuo Ariki
2010年, 11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, pp. 945-948, 945 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Multimodal speech recognition of a person with articulation disorders using AAM and MAF
Chikoto Miyamoto, Yuto Komai, Tetsuya Takiguchi, Yasuo Ariki, Ichao Li
2010年, 2010 IEEE International Workshop on Multimedia Signal Processing, MMSP2010, 517 - 520, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

3D Human Posture Estimation Based on Linear Regression of HOG Features from Monocular Images
ONISHI Katsunori, TAKIGUCHI Tetsuya, ARIKI Yasuo
2009年11月, Advances in Computer Science and Engineering, Volume 3, Issue 3, pp. 175-186, 英語
[査読有り]
研究論文（学術雑誌）

Echo Canceller for Multi-Loudspeakers Based on Maximum Likelihood Using an Acoustic Model
KOGA Kentaro, TAKIGUCHI Tetsuya, ARIKI Yasuo
2009年10月, Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference, pp. 246-249, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SPEECH FEATURE EXTRACTION USING WEIGHTED HIGHER-ORDER LOCAL AUTO-CORRELATION
ARIKI Yasuo, TAKIGUCHI Tetsuya, MUROI Takashi, TAKASHIMA Ryoichi
2009年08月, Far East Journal of Electronics and Communications, Volume 3, Issue 2, pp. 125 - 1, 英語
[査読有り]
研究論文（学術雑誌）

Situation Recognition Using 3D Positional Information of Ball from Monocular Soccer Image Sequence
NISHINO Takuro, TAKIGUCHI Tetsuya, ARIKI Yasuo
2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 109-112, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Generic Object Recognition using CRF by Incorporating BoF as Global Features
OKUMURA Takeshi, TAKIGUCHI Tetsuya, ARIKI Yasuo
2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 49-52, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Estimation of Ground Surface Displacement from Microwave Radar Images by Using Phase-only Correlation
MIZUNO Yusuke, TAKIGUCHI Tetsuya, ARIKI Yasuo
2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 205-206, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Graph Cuts Segmentation by Using Local Texture Features of Multiresolution Analysis
Keita Fukuda, Tetsuya Takiguchi, Yasuo Ariki
2009年07月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E92D(7) (7), 1453 - 1461, 英語
[査読有り]
研究論文（学術雑誌）

Automatic Segmentation of Object Region Using Graph Cuts Based on Saliency Maps and AdaBoost
Keita Fukuda, Tetsuya Takiguchi, Yasuo Ariki
2009年, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, 412 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Pose Robust and Person Independent Facial Expressions Recognition Using AAM Selection
Tomoko Okada, Tetsuya Takiguchi, Yasuo Ariki
2009年, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, 668 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

CENSREC-1-C: An evaluation framework for voice activity detection under noisy environments
Norihide Kitaoka, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Kazumasa Yamamoto, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shigeki Matsuda, Tetsuji Ogawa, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura
Acoustical Society of Japan, 2009年, Acoustical Science and Technology, 30(5) (5), 363 - 371, 英語
[査読有り]
研究論文（学術雑誌）

Single-Channel Talker Localization Based on Discrimination of Acoustic Transfer Functions
Tetsuya Takiguchi, Yuji Sumida, Ryoichi Takashima, Yasuo Ariki
2009年, EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, 英語
[査読有り]
研究論文（学術雑誌）

Integrated Phoneme Subspace Method for Speech Feature Extraction
Hyunsin Park, Tetsuya Takiguchi, Yasuo Ariki
2009年, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2009, 英語
[査読有り]
研究論文（学術雑誌）

Integration of metamodel and acoustic model for dysarthric speech recognition
Hironori Matsumasa, Tetsuya Takiguchi, Yasuo Ariki, I-Chao Li, Toshitaka Nakabayashi
Academy Publisher, 2009年, Journal of Multimedia, 4(4) (4), 254 - 261, 英語
[査読有り]
研究論文（学術雑誌）

Pose robust and person independent facial expressions recognition using AAM selection
Tomoko Okada, Tetsuya Takiguchi, Yasuo Ariki
2009年, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 13th Vol.2, 637 - 638, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Automatic segmentation of object region using graph cuts based on saliency maps and AdaBoost
Keita Fukuda, Tetsuya Takiguchi, Yasuo Ariki
2009年, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 13th Vol.1, 36 - 37, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Monaural Sound-Source-Direction Estimation Using the Acoustic Transfer Function of an Active Microphone
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2009年, FUSION: 2009 12TH INTERNATIONAL CONFERENCE ON INFORMATION FUSION, VOLS 1-4, pp. 48-53, 48 - 53, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

SINGLE-CHANNEL MULTI-TALKER-LOCALIZATION BASED ON MAXIMUM LIKELIHOOD
Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2009年, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 461 - 464, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

MATHEMATICAL MODELING OF HARMONIC-TIMBRE STRUCTURE WITH MULTI-BETA-DISTRIBUTION
Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
2009年, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 768 - 771, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

System Request Detection in Human Conversation Based on Multi-Resolution Gabor Wavelet Features
Tomoyuki Yamagata, Tetsuya Takiguchi, Yasuo Ariki
2009年, INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5, pp. 256-259, 284 - 287, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Gradient-Based Acoustic Features for Speech Recognition
Takashi Muroi, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2009年, 2009 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ISPACS 2009), 445 - 448, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Improvement of In-Car Speech Recognition by Acoustic Echo Canceller with Maximum Likelihood
Koga Kentaro, Fukuda Shinji, Takiguchi Tetsuya, Ariki Yasuo
2008年11月, 15th World Congress on ITS, CD-ROM, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

顔表情からの関心度推定に基づく映像コンテンツへのタギング
宮原正典, 青木政樹, 滝口哲也, 有木康雄
近年，ユーザが視聴可能な映像コンテンツは莫大な量となってきているため，ユーザが自分の好きな映像コンテンツを探し出すことが困難になりつつある．そこで我々は，映像コンテンツを視聴するユーザを撮影し，その表情から関心度を推定することで映像コンテンツにタギングを行い，番組推薦に役立てるためのシステムを提案する．撮影された顔は，Elastic Bunch Graph Matchingによって，顔特徴点抽出と個人認識が行われ，特定された個人に対して，Support Vector Machinesによって関心のクラスが推定される．関心のクラスは，Neutral，Positive，Negative，Rejectiveの4種類であり，映像コンテンツと同期してフレームごとにタギングが行われる．評価実験の結果，関心クラス推定の平均再現率は86.73% ，平均適合率は86.67%となった．Recently, there are so many videos available for people to choose to watch. To solve this problem, we propose a tagging system for video content based on facial expression that can be used for video content recommendations. Viewer's face captured by a camera is extracted by Elastic Bunch Graph Matching, and Interest class is estimated by Support Vector Machines. The interest classes are Neutral, Positive, Negative and Rejective. They are recorded as “interest tags” in synchronization with video content. Experimental results achieved an averaged recall rate of 86.73%, and averaged precision rate of 86.67%.
情報処理学会, 2008年10月, 情報処理学会論文誌, Vol.49,No.10,pp.3694-3702(10) (10), 3694 - 3702, 日本語
[査読有り]
研究論文（学術雑誌）

Audio-Based Video Editing with Two-Channel Microphone
Takiguchi Tetsuya, Adachi Jun, Ariki Yasuo
2008年07月, International Journal of Hybrid Information Technology, Vol. 1, No. 3, pp. 71-80, 英語
[査読有り]
研究論文（学術雑誌）

マルチセンサとオムニステレオビジョンを用いた人体検出と3次元環境地図の作成
井上淳一, 滝口哲也, 有木康雄
神戸大学都市安全研究センター, 2008年03月, 神戸大学都市安全研究センター研究報告, 12, 91 - 102, 日本語

Multiple Classifier Based on Fuzzy C-Means for a Flower Image Retrieval
FUKUDA Keita, TAKIGUCHI Tetsuya, ARIKI Yasuo
2008年03月, NCSP, pp. 76-79, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Language Modeling using PLSA-Based topic HMM
Atsushi Sako, Tetsuya Takiguchi, Yasuo Ariki
2008年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E91D(3) (3), 522 - 528, 英語
[査読有り]
研究論文（学術雑誌）

パラボラ反射板を用いたアクティブマイクロフォンによる音源方向推定
高島遼一, 滝口哲也, 有木康雄
神戸大学都市安全研究センター, 2008年03月, 神戸大学都市安全研究センター研究報告, pp. 9-12(12) (12), 103 - 108, 日本語
[査読有り]
研究論文（国際会議プロシーディングス）
神戸大学リポジトリ（Kernel）へのリンク

CENSREC-4: Development of Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments
Masato Nakayama, Takanobu Nishiura, Yuki Denda, Norihide Kitaoka, Kazumasa Yamamoto, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Tetsuji Ogawa, Shigeki Matsuda, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura
2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, 968 - +, ウクライナ語
[査読有り]
研究論文（国際会議プロシーディングス）

Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments - Newest Part of the CENSREC Series -
Takanobu Nishiura, Masato Nakayama, Yuki Denda, Norihide Kitaoka, Kazumasa Yamamoto, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura
2008年, SIXTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, LREC 2008, 1828 - 1834, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

AdaBoost/LogitBoostによるWhyテキストセグメント判定と回答抽出の自動化
田中克幸, 滝口哲也, 有木康雄
2008年, 情報処理学会論文誌, 49(6) (6), 2234 - 2242, 日本語
[査読有り]
研究論文（学術雑誌）

Tagging Video Contents with Positive/Negative Interest Based on User’s Facial Expression
MIYAHARA Masanori, AOKI Masaki, TAKIGUCHI Tetsuya, ARIKI Yasuo
2008年, The 14th International Multimedia Modeling Conference, 4903, 210 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Speaker independent phoneme recognition based on Fisher weight map
Takashi Muroi, Tetsuya Takiguchi, Yasuo Ariki
2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 253 - 257, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Human-robot interface using system request utterance detection based on acoustic features
Tetsuya Takiguchi, Tomoyuki Yamagata, Atsushi Sako, Nobuyuki Miyake, Jerome Revaud, Yasuo Ariki
2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 304 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Audio-based video editing with two-channel microphone
Tetsuya Takiguchi, Jun Adachi, Yasuo Ariki
2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 282 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Integration of phoneme-subspaces using ICA for speech feature extraction and recognition
Hyunsin Park, Tetsuya Takiguchi, Yasuo Ariki
2008年, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, 149 - 152, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Active microphone with parabolic reflection board for estimation of sound source direction
Tetsuya Takiguchi, Ryoichi Takashima, Yasuo Ariki
2008年, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, 66 - 69, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

GRAPH CUTS BY USING LOCAL TEXTURE FEATURES OF WAVELET COEFFICIENT FOR IMAGE SEGMENTATION
Keita Fukuda, Tetsuya Takiguchi, Yasuo Ariki
2008年, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, 881 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

DIGITAL CAMERA WORK FOR SOCCER VIDEO PRODUCTION WITH EVENT RECOGNITION AND ACCURATE BALL TRACKING BY SWITCHING SEARCH METHOD
Yasuo Ariki, Tetsuya Takiguchi, Kazuki Yano
2008年, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, 889 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Speaker independent phoneme recognition based on Fisher weight map
Takashi Muroi, Tetsuya Takiguchi, Yasuo Ariki
2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 61-70, 253 - 257, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Human-robot interface using system request utterance detection based on acoustic features
Tetsuya Takiguchi, Tomoyuki Yamagata, Atsushi Sako, Nobuyuki Miyake, Jerome Revaud, Yasuo Ariki
2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 81-90, 304 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Sudden Noise Reduction Based on GMM with Noise Power Estimation
Nobuyuki Miyake, Tetsuya Takiguchi, Yasuo Ariki
2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 403-406, 403 - 406, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Integration of Metamodel and Acoustic Model for Speech Recognition
Hironori Matsumasa, Tetsuya Takiguchi, Yasuo Ariki, Ichao Li, Toshitaka Nakabayashi
2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 2234-2237, 2234 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Object Recognition and Segmentation Using SIFT and Graph Cuts
Akira Suga, Keita Fukuda, Tetsuya Takiguchi, Yasuo Ariki
2008年, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1179 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

3D Human Posture Estimation Using the HOG Features from Monocular Image
Katsunori Onishi, Tetsuya Takiguchi, Yasuo Ariki
2008年, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1466 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Sudden Noise Reduction Based on GMM with Noise Power Estimation
Nobuyuki Miyake, Tetsuya Takiguchi, Yasuo Ariki
2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, Volume 3, Number 4, pp. 341-34, 403 - 406, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

構音障害者の音声認識に関する研究
有木康雄, 滝口哲也, 松政宏典
神戸大学都市安全研究センター, 2007年03月, 神戸大学都市安全研究センター研究報告, 11, 191 - 196, 日本語

Two-channel-based noise reduction in a complex spectrum plane for hands-free communication system
Toshiya Ohkubo, Tetsuya Takiguchi, Yasuo Ariki
2007年03月, Journal of VLSI Signal Processing Systems for Signal, Image, and Video Technology, 46(2-3) (2-3), 123 - 131, 英語
[査読有り]
研究論文（学術雑誌）

Two-channel-based noise reduction in a complex spectrum plane for hands-free communication system
Toshiya Ohkubo, Tetsuya Takiguchi, Yasuo Ariki
2007年03月, JOURNAL OF VLSI SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 46(2-3) (2-3), 123 - 131, 英語
[査読有り]
研究論文（学術雑誌）

Development of vad evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition perfornlance
Norihide Kitaoka, Kazumasa Yamamoto, Tomohiro Kusamizu, Seiichi Nakagawa, Takeshi Yamada, Satoru Tsuge, Chiyomi Miyajima, Takanobu Nishiura, Masato Nakayama, Yuki Denda, Masakiyo Fujimoto, Tetsuya Takiguchi, Satoshi Tamura, Shingo Kuroiwa, Kazuya Takeda, Satoshi Nakamura
2007年, 2007 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, VOLS 1 AND 2, 607 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

PCA-based speech enhancement for distorted speech recognition
Tetsuya Takiguchi, Yasuo Ariki
Academy Publisher, 2007年, Journal of Multimedia, 2(5) (5), 13 - 18, 英語
[査読有り]
研究論文（学術雑誌）

Noise detection and classification in speech signals with boosting
Nobuyuki Miyake, Tetsuya Takiguchi, Yasuo Ariki
2007年, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 778 - 782, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Estimation of room acoustic transfer function using speech model
Tetsuya Takiguchi, Yuji Sumida, Yasuo Ariki
2007年, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 336 - 340, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Voice activity detection by lip shape tracking using EBGM
Masaki Aoki, Ken Masuda, Hiroyoshi Matsuda, Tetsuya Takiguchi, Yasuo Ariki
2007年, Proceedings of the ACM International Multimedia Conference and Exhibition, 561 - 564, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

System Request Detection in Conversation Based on Acoustic and Speaker Alternation Features
Tomoyuki Yamagata, Atsushi Sako, Tetsuya Takiguchi, Yasuo Ariki
2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 2789-2792, 2776 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

PCA-Based Feature Extraction for Fluctuation in Speaking Style of Articulation Disorders
Hironori Matsumasa, Tetsuya Takiguchi, Yasuo Ariki, Ichao Li, Toshitaka Nakabayashi
2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 1150-1153, 1425 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Language Modeling using PLSA-Based Topic HMM
Atsushi Sako, Tetsuya Takiguchi, Yasuo Ariki
2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 606-609, 2924 - +, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Kernel PCAを用いた残響下におけるロバスト特徴量抽出の検討
滝口哲也, 有木康雄
2006年06月, 情報処理学会論文誌, Vol. 47, No. 6, pp. 1767-1773, 日本語
[査読有り]
研究論文（学術雑誌）

騒音下における独立成分分析とスペクトルサブトラクションを用いた雑音除去に関する研究
有木康雄, 滝口哲也, 住田雄司
神戸大学都市安全研究センター, 2006年03月, 神戸大学都市安全研究センター研究報告, 10, 117 - 124, 日本語

Acoustic model adaptation using first-order linear prediction for reverberant speech
T Takiguchi, M Nishimura, Y Ariki
2006年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E89D(3) (3), 908 - 914, 英語
[査読有り]
研究論文（学術雑誌）

Robust feature extraction using kernel PCA
Tetsuya Takiguchi, Yasuo Ariki
2006年, 2006 IEEE International Conference on Acoustics, Speech and Signal Processing, Vols 1-13, pp. 509-512, 509 - 512, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Phoneme Recognition Based on Fisher Weight Map to Higher-Order Local Auto-Correlation
Yasuo Ariki, Shunsuke Kato, Tetsuya Takiguchi
2006年, INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5, pp. 377-380, 377 - 380, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

2chマイクロフォンを用いた複素スペクトル平面上での幾何学的処理による雑音除去
有木康雄, 滝口哲也, 大久保俊也
神戸大学都市安全研究センター, 2005年03月, 神戸大学都市安全研究センター研究報告, 9, 179 - 185, 日本語

Two-channel-based noise reduction in a complex spectrum plane for hands-free communication system
T Ohkubo, T Takiguchi, Y Ariki
2005年, ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2005, PT 2, 3768, 923 - 934, 英語
[査読有り]
研究論文（学術雑誌）

Situation Based Speech Recognition for Structuring Baseball Live Games
SAKO Atsushi, TAKIGUCHI Tetsuya, ARIKI Yasuo
2005年, Interspeech, pp. 3453-3456, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Recognition of hands-free speech and hand pointing action for conversational TV
Yasuo Ariki, Tetsuya Takiguchi, Atsushi Sako
2005年, Proceedings of the 13th ACM International Conference on Multimedia, MM 2005, 355 - 358, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Sound source localization using a profile fitting method with sound reflectors
O Ichikawa, T Takiguchi, M Nishimura
2004年05月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E87D(5) (5), 1138 - 1145, 英語
[査読有り]
研究論文（学術雑誌）

Improved HMM separation for distant-talking speech recognition
T Takiguchi, M Nishimura
2004年05月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E87D(5) (5), 1127 - 1137, 英語
[査読有り]
研究論文（学術雑誌）

Acoustic model adaptation using first order prediction for reverberant speech
T Takiguchi, M Nishimura
2004年, 2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS, 869-872, 869 - 872, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Speech enhancement by profile fitting method
O Ichikawa, T Takiguchi, M Nishimura
2003年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E86D(3) (3), 514 - 521, 英語
[査読有り]
研究論文（学術雑誌）

Sound Source localization using a Pinna-Based Profile Fitting Method
ICHIKAWA O, TAKIGUCHI Tetsuya, NISHIMURA M
2003年, Proc. International Workshop on Acoustic Echo and Noise Control, 263-266, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Reverberant Speech Recognition using First-Order Linear Prediction
TAKIGUCHI Tetsuya, NISHIMURA M
2003年, Proc. International Congress on Acoustics, 2829-2830, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

HMM-separation-based speech recognition for a distant moving speaker
Tetsuya Takiguchi, Satoshi Nakamura, Kiyohiro Shikano
IEEE, 2001年02月, IEEE Transactions on Speech and Audio Processing, 9(2) (2), 127 - 140, 英語
[査読有り]
研究論文（学術雑誌）

Speech recognition for a distant moving speaker based on HMM composition and separation
T. Takiguchi, S. Nahamura, K. Shikano
Institute of Electrical and Electronics Engineers Inc., 2000年, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 3, 1403 - 1406, 英語
[査読有り]
研究論文（国際会議プロシーディングス）

Model adaptation based on HMM decomposition for reverberant speech recognition
Tetsuya Takiguchi, Satoshi Nakamura, Qiang Huo, Kiyohiro Shikano
IEEE, 1997年, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2, 827 - 830, 英語
研究論文（国際会議プロシーディングス）

Noise and room acoustics distorted speech recognition by HMM composition
Satoshi Nakamura, Tetsuya Takiguchi, Kiyohiro Shikano
IEEE, 1996年, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 1, 69 - 72, 英語
研究論文（国際会議プロシーディングス）

■ MISC

戦略的思考の連鎖により気づきを促し悩みの解決を支援する対話システム
伊藤瞭介, 滝口哲也, 平田充宏, 森祐美子, 堀田聰子, 有木康雄
悩み相談において、傾聴者が行う「気づきを促す質問」は、相談者にとって非常に重要な役割を果たす。こうした質問によって、相談者は自らの内面を深く振り返り、新たな視点を得ることで、単に解決策を提供される場合よりも問題の理解が深まり、さらに自主的な行動を促される。しかし、対話システムにこのような気づきを促す機能を持たせることは容易ではない。気づきを引き出すプロセスは、悩みの種類やその原因によって異なり、複雑な思考を必要とするためである。本論文では、大規模言語モデルが生成した戦略的知識に基づいて推論を行う戦略的思考の連鎖（Strategic Chain-of-Thought）を活用する事で多様な悩みを持つ相談者に気づきを促す傾聴対話システムを提案し、この課題に取り組む。実験では、子育てに関する悩みを題材として、この対話システムの有用性を検証する。
一般社団法人人工知能学会, 2024年11月14日, 人工知能学会研究会資料言語・音声理解と対話処理研究会, 102, 80 - 85, 日本語
研究発表ペーパー・要旨（全国大会，その他学術会議）

母音変化とテンポ変化を考慮した未経験者音声からのアカペラオペラ歌唱音声合成
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
2024年06月, 電子情報通信学会技術研究報告, 124(80) (80), 17 - 22
機関テクニカルレポート，技術報告書，プレプリント等

吃音者音声合成のための連発・難発を考慮した合成モデル学習
高島遼一, 高島遼一, 安井美鈴, 滝口哲也
2024年, 日本音響学会研究発表会講演論文集(CD-ROM), 2024

吃音者音声合成のための音声認識を用いたテキストラベル修正
長久保諒, 山下陽生, 高島遼一, 高島遼一, 安井美鈴, 滝口哲也
2024年, 日本音響学会研究発表会講演論文集(CD-ROM), 2024

軽量な畳み込みネットワークを用いたDeep Priorによるリードフィールドと電流源の同時推定
北条直樹, 矢野肇, 高島遼一, 滝口哲也, 中川誠司
2024年, 日本生体磁気学会誌, 37(1) (1)

音声想起時の脳活動識別のためのデータ拡張手法の検討
矢野肇, 高島遼一, 滝口哲也, 中川誠司
2024年, 日本音響学会研究発表会講演論文集(CD-ROM), 2024

読み上げ音声を用いた CycleGAN-VC2 によるオペラ歌唱音声合成
菅原碧斗, 岸本宗真, 足立優司, 田井清登, 高島遼一, 滝口哲也
神戸大学都市安全研究センター, 2023年03月, 神戸大学都市安全研究センター研究報告, 27, 51 - 56, 日本語
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

震災アーカイブにおける言語モデルを用いた視覚探索
富谷竜一, 高島遼一, Tristan Hascoet, 滝口哲也
神戸大学都市安全研究センター, 2023年03月, 神戸大学都市安全研究センター研究報告, 27, 45 - 50, 日本語
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

事前学習済み言語生成モデルを用いた知識グラフ検索に基づく対話システム
佐良和孝, 滝口哲也, 有木康雄
近年，ニューラルネットワークを用いた対話システムに，文書や知識グラフといった，外部知識へのアクセス機能を持たせる研究が盛んに行われている。しかしながら，このような機能を持つ対話システムを実現するためには，通常の応答生成モジュールに加え，知識検索のためのモジュールが複数必要になり，システム全体の学習, 推論が複雑になるといった問題や．システム全体のパラメータ数が多くなるといった問題がある．そこで，本研究では，上記全てのモジュールが事前学習済み言語生成モデルを用いて，Text-to-Textで学習, 推論可能であるフレームワークを提案する。提案手法は, Adapter層を用いたマルチタスク学習を用いることで，システム全体のパラメータ数の削減が可能になる．自動評価を用いた比較の結果，一般的なSeq2Seqで学習された対話システムに比べ、提案手法は優れた応答を生成できることが分かった．．
一般社団法人人工知能学会, 2021年11月20日, 人工知能学会研究会資料言語・音声理解と対話処理研究会, 93, 44 - 49, 日本語

ダイバー同士の水中会話を支援するための深層学習を用いた音声認識手法
土田, 修平, Worachat, Arunothaikrit, Haomin, Mao, 大西, 鮎美, 寺田, 努, 塚本, 昌彦, 滝口, 哲也
ダイバーが水中でコミュニケーションをとることは，安全面や娯楽面などの観点から重要である．水中における即時性・柔軟性に優れたコミュニケーション方法としては，聴覚を介した音声コミュニケーションが挙げられる．しかし．ダイバーは口にレギュレータを装着しているため，口を正しく動かすことができず，正しい発音で話すことができない．そこで本研究では，水中での円滑な音声コミュニケーションの実現を目指し，レギュレータを口で咥えた状態での不明瞭な音声から音素を認識するシステムを提案する．ダイバー用レギュレータに防水マイクを取り付け，水中での音声を録音し，深層学習を用いて音素の推定を試みた．また，発音の際の口の変化に着目し，ダイバー用レギュレータの上面と左面に圧力センサを設置し，推定精度の向上を試みた．その結果，音声のみを用いたデータの場合の方が推定精度が高かったが，特定の音素においては音声と圧力センサ値の混合データを用いた場合の方が推定精度が優れていることがわかった．
情報処理学会, 2021年06月23日, マルチメディア，分散協調とモバイルシンポジウム2021論文集, 2021(1) (1), 317 - 324, 日本語
神戸大学リポジトリ（Kernel）へのリンク

Style Transferを用いた電子顕微鏡画像の合成
中嶋, 彩也香, Xuejiao, Deng, Tristan, Hascoet, 高島, 遼一, 滝口, 哲也
深度画像から計算された勾配の大きさ、曲率と、スタイル変換を用いて調整されたパラメータから電子顕微鏡画像を合成する。
2021年03月04日, 第83回全国大会講演論文集, 2021(1) (1), 117 - 118, 日本語

健常者音声モデルの話者適応に基づく脊髄性筋萎縮症者の高明瞭度音声合成
吉本拓真, 高島遼一, 佐々木千穂, 滝口哲也
脊髄性筋萎縮症(SMA)は脊髄の運動神経細胞の病変によって起こる筋萎縮症で、重度の場合は呼吸不全が見られる。気管切開などによる人工呼吸器の装着、口を動かす筋肉の萎縮などが原因で、彼らの発話は健常者と比較して不明瞭なものとなる。そのためその言葉を聞き取ることが容易でなく、コミュニケーションを円滑にとれないという問題がある。本論文ではこのSMA を抱えた方の発話を分析したうえで、コミュニケーション支援のためのテキスト音声合成システムを提案する。近年は目覚ましい発展を遂げる深層学習を用いた音声合成手法は、高品質で自然な音声を生成することができる。近年ではこれらの技術を利用したコミュニケーション支援のための音声合成アプリケーションも存在するが、そこで生成される音声は学習に用いた人の音声をもとに作成されるため、使用者本人の声とは別人のものとなってしまう。そこで本研究では音声合成システムの作成に健常者音声にて作成したモデルを脊髄性筋萎縮症者へ話者適応するアプローチを提案する。これにより、健常者音声に由来する明瞭性と脊髄性筋萎縮症者音声に由来する本人性を兼ね備えた音声を合成することを目指す。
神戸大学都市安全研究センター, 2021年03月, 神戸大学都市安全研究センター研究報告, 25, 191 - 196, 日本語
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

構音障害者音声認識のための自己教師あり学習とモデル適応の統合方法の検討
澤佑哉, 高島遼一, 滝口哲也, 高田哲
2021年03月, 神戸大学都市安全研究センター研究報告, 25, 139 - 144
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

Deep prior を用いた脳磁図の電流源推定
山名莉央, 矢野肇, 高島遼一, 滝口哲也
脳機能の局在性の解明や脳疾患の診断に応用するため，脳内の電流源の推定が行われてきた．しかし，時間分解能に優れた非侵襲な脳機能計測手法である脳磁図や脳波を用いた脳内の電流分布の推定は，電流源のパラメータ数に対して脳磁図・脳波のセンサの数が少ない劣決定問題であるため，本質的に困難である．電流源推定の代表的な手法では，明示的に電流源の事前分布を与えることでこの問題を解決しているが，実際の電流源の事前分布は不明である．近年，畳み込み構造を持つ深いニューラルネットワークが，未学習であっても自然な画像の事前分布の役割を果たすことが示されている．これはDeep Image Prior と呼ばれ，画像修復，超解像，ノイズ除去といった画像分野の逆問題に有効であることが示されている．また，このような未学習の深いネットワークによる事前分布（Deep Prior）は，様々な分野の逆問題にも応用されてきている．本研究では，Deep Prior を用いて電流源推定を行い，従来手法（MNE，sLORETA）と比較し有効性の検証を行った．このとき，シミュレーションデータと実際のデータを用いた．電流源の推定を行った結果，畳み込みのネットワークが電流源の事前分布を表現可能であることを示した．
神戸大学都市安全研究センター, 2021年03月, 神戸大学都市安全研究センター研究報告, 25, 113 - 118, 日本語
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

「音声コミュニケーションと障がい者」の発刊の意義—Significance of the publication "Speech communication and people with disabilities"—第187回ヒューマンインタフェース学会研究会個々のニーズに立脚した高齢者・障害者支援技術および一般
市川熹, 長嶋祐二, 岡本明, 加藤直人, 酒向慎司, 滝口哲也, 原大介, 幕内充
2021年, ヒューマンインタフェース学会研究報告集, 23, 121 - 124, 日本語

Convolutional Neural Networks with Skeleton Kernel
Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2020年08月, 第23回画像の認識・理解シンポジウム

健常者音素認識モデルを用いた構音障害者音声の明瞭性改善
南坂竜翔, 高島遼一, 滝口哲也
2020年03月, 神戸大学都市安全研究センター研究報告, (24) (24), 105 - 110
速報，短報，研究ノート等（大学，研究機関紀要）
神戸大学リポジトリ（Kernel）へのリンク

ロバストな対話システムのための発話スタイルに非依存なエンコード・デコード手法の提案
古舞千暁, 有木康雄, 滝口哲也
一般社団法人人工知能学会, 2019年11月20日, 人工知能学会研究会資料言語・音声理解と対話処理研究会, 87, 25, 日本語

Reduce GPU Memory Usage of Training Neural Network by CPU Offloading
Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
2019年08月, 第22回画像の認識・理解シンポジウム
研究発表ペーパー・要旨（全国大会，その他学術会議）

生態系モニタリングのための昆虫認識手法に関する検討
谷田啓一, Tristan Hascoet, 高島遼一, 滝口哲也, 有木康雄, 大江夏帆, 佐藤拓哉
2019年08月, 第22回画像の認識・理解シンポジウム
研究発表ペーパー・要旨（全国大会，その他学術会議）

乳幼児期における言語発達形成過程の検討(フォルマント解析を用いて)
前林英貴, 滝口哲也, Hidetaka MAEBAYASHI, Tetsuya TAKIGUCHI
島根県立大学短期大学部松江キャンパス, 2017年, 島根県立大学短期大学部松江キャンパス研究紀要, (56) (56), 21 - 30, 日本語

Alternating Direction Method of Multipliersを用いた声質変換のためのパラレル辞書学習 (音声) -- (第17回音声言語シンポジウム)
相原龍, 滝口哲也, 有木康雄
電子情報通信学会, 2015年12月02日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(346) (346), 13 - 18, 日本語

構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討
高島悠樹, 中鹿亘, 滝口哲也
日本音響学会, 2015年06月18日, 聴覚研究会資料 = Proceedings of the auditory research meeting, 45(4) (4), 275 - 280, 日本語

脳磁界計測によるエアコン音の"涼しさ"の印象評価の試み
矢野肇, 保手浜拓也, 滝口哲也, 有木康雄, 神谷勝, 中川誠司
日本生体磁気学会, 2015年06月, 日本生体磁気学会誌, 28(1) (1), 106 - 107, 日本語

話者適応型Restricted Boltzmann Machineを用いた声質変換の検討
中鹿亘, 滝口哲也, 有木康雄
質変換は，入力した音声を音韻情報などを保ったまま，話者性に関する特定の情報のみを変換する技術であり，話者変換や感情変換，発話支援など様々なタスクへの応用が期待されている．従来の多くの声質変換手法は，同一発話内容の入出力音声対（パラレルデータ）を学習時に必要とするが，予め発話内容を決めておく必要がある，音声間のアライメントを取る必要があるなど，学習データを慎重に用意しなければならないという問題がある．また，変換モデルの利用は学習された話者対のみに限定されてしまう．本研究では，パラレルデータを必要としない任意話者声質変換を実現するため，確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM（Adaptive restricted Boltzmann machine; ARBM）を新たに提案する．適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり，異なる層の素子間には話者によって変化する結合重みが存在する．本稿では，適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する．Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.
一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理（SLP）, 2014(30) (30), 1 - 6, 日本語

雑音環境下における特徴量重み付きマルチモーダル声質変換
真坂健太, 相原龍, 滝口哲也, 有木康雄
声質変換は，入力した音声を音韻情報などは保ったまま，話者性のような特定の情報のみを変換する技術であり，話者変換や感情変換，発話支援など様々なタスクへの応用が期待されている．従来の代表的な手法である GMM を用いた統計的なアプローチ等は，あくまでクリーン音声を用いた評価を行っており，雑音環境下を考慮した定式化はされていない本研究では，雑音環境下での声質変換など，これまでになかったタスクに対応可能な非負値行列因子分解（Non-negative Matrix Factorization：NMF）による声質変換を扱う．我々はこれまで，この NMF に基づいた，音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた．入力話者の特徴量として，音声と画像情報を用いることで変換精度，及びノイズロバスト性の向上を目指した．本論文では，さらに特徴量重みを導入し，新たにコスト関数を提案した．実験結果より，音声情報のみを用いた NMF による声質変換，及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す．Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.
一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理（SLP）, 2014(17) (17), 1 - 6, 日本語

Multiple Non-negative Matrix Factorization を用いた多対一声質変換
相原龍, 滝口哲也, 有木康雄
本報告では，非負値行列因子分解 (NMF) を拡張したMultiple Non-negative Matrix Factorization (Multi-NMF) を提案し，任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う．従来，声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた．声質変換において最も一般的な手法は混合正規分布モデル (GMM) を用いた統計的手法であり，統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて，任意の話者から他の任意の話者への変換へと拡張されている．一方，統計的声質変換に代わる手法としてＮＭＦを用いた Exemplar-based 声質変換がある．この手法は，NMF が有する雑音除去機能と，Exemplar-based 手法がもつ変換音声の自然性保持という利点から研究が進められている．しかしながら，NMF 声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり，これまでは任意話者からの声質変換は不可能であった．そこで本報告では，Multi-NMF による，入力話者の発話データを学習せずども変換できる多対一声質変換を提案する．入力話者の発話スペクトルは，事前に学習された複数の話者の発話スペクトルの線形和で表現され，その結合重み係数を用いて目標話者の発話スペクトルヘと変換される．この手法は，多対多声質変換や，話者性を制御可能な声質変換へと応用可能であると考えられる．Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.
一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理（SLP）, 2014(15) (15), 1 - 6, 日本語

スパース辞書学習による構音障害者の話者性を維持した声質変換
相原龍, 滝口哲也, 有木康雄
日本音響学会, 2014年06月19日, 聴覚研究会資料 = Proceedings of the auditory research meeting, 44(5) (5), 283 - 288, 日本語

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘, 滝口哲也, 有木康雄
近年，声質変換の研究分野において，over-fitting や over-smoothing の生じにくいスパース表現に基づく手法が注目を浴びている．スパース表現に基づく声質変換法では，予め入力話者・出力話者のパラレル辞書を求めておき，スパースな辞書選択重みを用いて適切な辞書を選択することで声質変換を実現するとの手法は主に 2 つのアプローチに分けることができる．1 つ目はパラレル辞書として，学習データの音響特徴量をそのまま辞書として用いるアプローチであり，もう１つは，パラレル辞書そのものを何らかの手法で学習させるアプローチである．本研究では，後者のアプローチに基づき，近年注目を浴びている Deep Learning の基礎技術となる restricted Bolzmann machine(RBM) を用いて，入力話者・出力話者のパラレル辞書を体系的に求める手法を提案する．評価実験では，代表的な手法である Gaussian mixture model(GMM) だけでなく，従来のスパース表現に基づく手法である､non-negative matrix factorization (NMF) による声質変換法に比べて高い精度が得られたことを確認した．In voice conversion, sparse-representation-based methods have recently been garnering attention because they are, relatively speaking, not affected by over-fitting or over-smoothing problems. In these approaches, voice conversion is achieved by estimating a sparse vector that determines which dictionaries of the target speaker should be used, calculated from the matching of the input vector and dictionaries of the source speaker. The sparse-repre sentation-based voice conversion methods can be broadly divided into two approaches: 1) an approach that uses raw acoustic features in the training data as parallel dictionaries, and 2) an approach that trains parallel dictionaries from the training data. Our approach belongs to the latter; we systematically estimate the parallel dictionaries using a restricted Boltzmann machine, a fundamental technology commonly used in deep learning. Through voice-conver sion experiments, we confirmed the high-performance of our method, comparing it with the conventional Gaussian mixture model (GMM)-based approach, and a non-negative matrix factorization (NMF)-based approach, which is based on sparse-representation.
2014年05月17日, 研究報告音楽情報科学（MUS）, 2014(66) (66), 1 - 6, 日本語

話者依存型Conditional Restricted Boltzmann Machineによる声質変換 (音声)
中鹿亘, 滝口哲也, 有木康雄
本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとにconditional restricted Boltzmann machine(CRBM)を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ(パラレルデータである必要は無い)を用いて,入力話者,出力話者のCRBMを独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれのCRBMを通して話者依存高次元空間へ写像(CRBMの前方推論)し,その高次特徴量同士をNeural Network(NN)を用いて変換させる.NNの変換で得られた特徴量は,CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である.評価実験では,従来のGMMやNN,DBNを用いた声質変換法に比べて,主観的にも客観的にも良い精度が得られたことを確認した.
一般社団法人電子情報通信学会, 2013年12月19日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 113(366) (366), 83 - 88, 日本語

辞書選択型非負値行列因子分解による構音障害者の声質変換
相原龍, 滝口哲也, 有木康雄
本研究では，アテトーゼ型脳性麻痒による構音障害者を対象とし，筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す．従来の声質変換手法で最も一般的なのは，混合正規分布モデル (GMM) を用いた統計的手法であった．この手法は主に話者変換を目的として研究されてきたため，GMM 声質変換を構音障害者の発話音声に適用し健常者の音声に変換した場合，障害者の話者性は別人のものに置き換わってしまう．「自分らしい声で話したい」という障害者のニーズに答えるため，本研究では従来の統計的モデルによる声質変換とは異なる，非負値行列因子分解（NMF）を用いた Exemlpar-based 声質変換を用いて，話者性を維持しつつ聞き取りやすい音声に変換する．これまで NMF 声質変換では，入力音声フレームと，辞書から選ばれる基底の音素が必ずしも一致しないという問題があった．本研究では，この問題を解決するため，NMF を用いて音素カテゴリ認識を行い音素カテゴリに分割した副辞書上でマッピングを行うことで声質変換を行う．提案手法の有効性を評価するため，従来の GMM 声質変換，NMF 声質変換との比較実験を行った．We present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movement of such speakers is limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In our previous method, exemplar-based spectral conversion using Non-negative Matrix Factorization (NMF) was applied to a voice with an articulation disorder. To preserve the speaker's individuality, we used a combined dictionary that is con structed from the source speaker's vowels and target speaker's consonants. However, this exemplar-based approach needs to hold all the training exemplars (frames), and it may cause mismatching of phonemes between input signals and selected exemplars. In this paper, in order to reduce the mismatching of phoneme alignment, we propose a phoneme-categorized sub-dictionary and a dictionary selection method using NMF. By using the sub-dictionary, the performance of VC is improved compared to a conventional NMF-based VC. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional Gaussian Mixture Model (GMM)-based method and a conventional NMF-based method.
一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理（SLP）, 2013(12) (12), 1 - 6, 日本語

雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換
藤井貴生, 相原龍, 滝口哲也, 有木康雄
本報告では，雑音環境下に強い NMF による声質変換の手法を提案する．ここでは入力話者と出力話者それぞれの同一発話内容の音声特徴量をサンプルとするパラレル辞書を構築する．更に，入力音声の発話前後の非音声区間から雑音辞書を構築し，入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書の線形結合で表現する．この入力音声と辞書から推定される重み行列のうち，音声辞書に関する重みのみを取り出し，出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる．本手法では，NMF にセグメント特徴を導入することで重み行列の推定の精度をより向上させる．実験結果より，雑音重畳音声に対して提案手法の有効性が示された．This paper presents a voice conversion based on NMF for noisy environments. We prepared parallel exemplars that consist of the source and target exemplars, which have the same texts uttered by the source and target speakers. The input source signal is decomposed into the source exemplars, noise exemplars obtained from the input signal, and their weights. Then, the converted signal is obtained by calculating the linear combination of the target exemplars and the weights which are calculated using the source exemplars. In the proposed method, segment features are used for the voice conversion technique based on NMF in order to improve the accuracy of the weight estimation. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional method.
一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理（SLP）, 2013(13) (13), 1 - 6, 日本語

ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別
柿原康博, 滝口哲也, 有木康雄, 中井靖, 高田哲
近年，自閉症スペクトラム障害の発生頻度の増加が注目されている．自閉症スペクトラム障害とは，自閉性障害，アスペルガー障害，特定不能の広汎性発達障害の総体である．これらの障害は多様な原因に基づいて発症するため根本的な治療は困難とされているが，この障害に特化した支援による早期療育の効果が報告されている．本研究では，自閉症スペクトラム障害の早期発見を音響的な側面から目指し，ピッチ特徴量を SVM の入力として識別実験を行った．ピッチ特徴量とは，音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して，25，50，75 パーセンタイル，25-50 と 50-75 パーセンタイルの差，平均，標準偏差，尖度，歪度，最大値，最小値，レンジという 12 の統計量を計算したものである．実験として，単語毎の識別，区間分割による識別，特徴分割による識別の 3 つの識別実験を行った．区間分割による識別実験では，最も精度が高くなったのは全区間を用いた場合であり，識別精度は 74.9％となった．また，区間の組み合わせを変えて行った実験から，「各区間の識別に対する貢献度」は，第 2 区間や第 3 区間よりも第 1 区間の方が大きいことが示された．Recent investigations have demonstrated that the early support which specialized in autistic spectrum obstacle, such as Picture Exchange Communication System (PECS) Applied Behavier Analysis (ABA) Social Skills Training (SST), is effective. This paper reports the result of a classification experiment carried out using pitch features for children with autism spectrum. Pitch features consist of 24 dimensions, such as 25th, 50th, 75th percentiles, 25-50 percentile difference, 50-75 percentile difference, mean, standard deviation, kurtosis, skewness, maximum, minimum, and range.
一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理（SLP）, 2013(6) (6), 1 - 6, 日本語

話者依存型 Conditional Restricted Boltzmann Machine による声質変換
中鹿亘, 滝口哲也, 有木康雄
本研究では，元の音響特徴量空間よりも音韻性や時間変化性を抑え，話者性を強調させることによって，より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として，話者ごとに conditional restricted Boltzmann machine (CRBM) を用いた声質変換法を提案する．提案手法ではまず初めに，話者ごとに用意した学習データ（パラレルデータである必要は無い）を用いて，入力話者，出力話者の CRBM を独立に学習させる．次に，少量のパラレルデータの音響特徴量を，それぞれの CRBM を通して話者依存高次元空間へ写像 (CRBM の前方推論）し，その高次特徴量同士を Neural Network (NN) を用いて変換させる．NN の変換で得られた特徴量は，CRBM の後方推論によって元の音響特徴量へ逆変換することが可能である．評価実験では，従来の GMM や NN，DBN を用いた声質変換法に比べて，主観的にも客観的にも良い精度が得られたことを確認した．In this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches.
一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理（SLP）, 2013(14) (14), 1 - 6, 日本語

シンタックスとセマンティックスに基づく音声認識結果の２段階訂正
中谷良平, 滝口哲也, 有木康雄
本稿では，単語ごとに長距離文脈スコアを付与することで素性とし， ConfUsion Network 上での音声認識自動誤り訂正手法を提案する．従来，単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが，単語ごとにそれを付与する場合，周辺の認識精度に大きく依存してしまうという問題がある．そのため，認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは，あまり好ましくない．したがって本稿では，文脈情報を誤り訂正の素性として用いるために，まずはシンタックスを用いた誤り訂正を行い，誤認識を軽減する．その後，長距離文脈スコアを付与し， 2 段階目の訂正を行うことで，より音声認識精度を向上させることを目的とする．This paper presents the new method correcting speech recognition errors base on long-distance context. As in the past, the method which corrects recognition errors using long-distance context information given every word has been already proposed However, this method has the problem that a context score every word depends on peripheral recognition errors considerably. So, it is not desirable that long-distance context information is given the recognition result containing a lot of recognition errors. Therefore, in this paper, recognition errors are reduced by error correction adopting features of syntax to use context information as one of the feature. And then after correcting results are given long-distance context score, residual recognition errors are corrected by using that score as the feature.
2012年12月13日, 研究報告音声言語情報処理（SLP）, 2012(26) (26), 1 - 6, 日本語

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間
高島遼一, 滝口哲也, 有木康雄
我々はこれまで，観測音声の音響伝達特性が話者の位置に依存するという点に着目し，音響伝達特性を識別することにより，単一マイクロホンで音源位置推定を行う手法を提案してきた．しかしこの手法は，事前に想定される音源位置毎に音響伝達特性を学習させる必要があり，学習していない位置の推定が困難であった．そこで本稿では，限られた位置の音響伝達特性を用いて，音響伝達特性から位置への回帰モデルを学習し，その回帰モデルにより未学習位置の推定を行う手法について検討する．回帰モデルとして，線形回帰である重回帰分析，非線形回帰である GPR (Gaussian Process Regression)， SVR (Support Vector Regression) を用い，さらにその学習方法として，評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し，その性能を評価した．This paper presents a sound source (talker) localization method using only a single micro phone. In our previous work, we discussed the single-channel sound source localization method based on the discrimination of the acoustic transfer function. However, that method requires to train the acoustic transfer function for each possible position in advance, and it is difficult to estimate the position that have not been pre-trained. In this paper, we discuss a single-channel talker localization method based on a regression model, which predicts the position from the acoustic transfer function. For training the regression models, we use the local regression method that trains the regression model from only training samples being similar to the evaluation data. Considering both of linear and non-linear regression mod els, the effectiveness of this method has been confirmed by talker localization experiments performed in different room environments.
2012年12月13日, 研究報告音声言語情報処理（SLP）, 2012(14) (14), 1 - 6, 日本語

Sparse Coding を用いた唇情報からの音声変換
相原龍, 高島遼一, 滝口哲也, 有木康雄
唇の動きから発話内容を読み取る技術はリップリーディング（読唇）と呼ばれ，聴覚・言語障害者のコミュニケーション手段の一つとして用いられている．本研究では， Sparse Coding を用いて，唇動画像から対応する発話音声へテキスト情報なしで変換を行う．事前に音声を含んだ発話映像から唇情報と音声情報を抽出し，それぞれを基底の集合である辞書として学習する．このとき，二つの辞書行列は同一時系列であり，パラレルなデータである．入力された無音声の映像から抽出された唇情報は， Sparse Coding により少数の基底の線形和で表される．唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで，音声の基底の線形和として音声が出力される．本稿では，唇情報から識別可能と考えられる母音について変換を行った．A technology to recognize speech content from lip motion is called visual speech recognition (VSR). VSR is an important communication method for people who have a handicap with hearing or speaking. In this paper, we propose a sparse-coding-based voice conversion method using lip motion without text information. Lip information and voices are extracted from videos, where they are used to construct lip dictionary and voice dictionary. Input lip information is represented by a linear combination of a small number of bases in the lip dictionary. The bases are replaced to coordinate bases in the voice dictionary, and they are recomposed to voice information. In this paper, we conducted vowel conversion because vowels are able to recognize from lip information.
2012年12月13日, 研究報告音声言語情報処理（SLP）, 2012(21) (21), 1 - 6, 日本語

未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正
中谷良平, 岩橋直人, 中野幹生, 滝口哲也, 有木康雄
本稿では,未知語モデリングを用いた,Confusion Network上での音声認識自動誤り訂正手法を提案する.従来の音声認識には,音声認識器が未知語とその周辺単語を誤認識してしまうという問題がある.そこで,未知語認識を可能にし,同時にその周辺単語の認識誤りを軽減するために,hybrid word/syllable recognitionを行う.そして,音響特徴や言語特徴など,様々な素性を用いて,CRFによる音声認識誤り訂正を行う.この誤り訂正を用いて,未知語の認識誤りだけでなく,未知語周辺の認識誤りも訂正する.
一般社団法人電子情報通信学会, 2011年12月, 電子情報通信学会音声研究会, SP2011-94,No.24,pp.139-144(365) (365), 139 - 144, 日本語
速報，短報，研究ノート等（学術雑誌）

グラフ構造表現による一般物体認識
堀貴博, 滝口哲也, 有木康雄
2011年12月, 電子情報通信学会パターン認識メディア理解研究会, PRMU2011-127,pp.19-24, 日本語
速報，短報，研究ノート等（学術雑誌）

確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討
中鹿亘, 滝口哲也, 有木康雄
従来の代表的な信号解析手法の中に, NMF(非負値行列因子分解)を用いたものがある。特に,事例ベースのNMFが音源分離や信号解析の分野において,解析精度・速度といった観点から注目を浴びている。しかしこうした手法は,可能性のある全ての事例を用意する必要があるので,一般にシステムの実用化は困難である。これまでの我々の研究では,この問題点を解決するため,確率的に生成されるスペクトルを用いて信号を解析する確率スペクトル包絡による手法を提案してきた。しかしながら,この方法では高いスペクトル生成自由度により分離最適解を得ることが困難であった。そこで本研究では,アクティビティ行列要素のスパース性と密集性に着目した新たな制約項を加えることにより,より最適な解に導く信号解析手法を提案する。
一般社団法人電子情報通信学会, 2011年07月, 電子情報通信学会音声研究会, SP2011-50,pp. 51-56(153) (153), 51 - 56, 日本語
速報，短報，研究ノート等（学術雑誌）

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
堀貴博, 滝口哲也, 有木康雄
2011年07月, 画像の認識・理解シンポジウム, pp.387-394, 日本語
速報，短報，研究ノート等（学術雑誌）

CSP係数の識別に基づく話者の頭部方向推定の検討
高島遼一, 滝口哲也, 有木康雄
2011年07月, 電子情報通信学会音声研究会, SP2011-51,pp. 57-62, 日本語
速報，短報，研究ノート等（学術雑誌）

ARCOによる顔検出を併用した人誤検出の棄却について
山下亮, 滝口哲也, 有木康雄
2011年07月, 画像の認識・理解シンポジウム, pp.608-614, 日本語
速報，短報，研究ノート等（学術雑誌）

AAMによる顔方位を考慮した発話認識
駒井祐人, 滝口哲也, 有木康雄
2011年07月, 画像の認識・理解シンポジウム, pp.534-539, 日本語
速報，短報，研究ノート等（学術雑誌）

3次元ActiveAppearanceModel を利用した視線方向推定
中松由香梨, 滝口哲也, 有木康雄
2011年07月, 画像の認識・理解シンポジウム, pp.572-579, 日本語
速報，短報，研究ノート等（学術雑誌）

音響伝達特性の識別に基づく話者の頭部回転方向の推定
高島遼一, 滝口哲也, 有木康雄
我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.
一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. SIP, 信号処理 : IEICE technical report, 111(27) (27), 167 - 172, 日本語

音響伝達特性の識別に基づく話者の頭部回転方向の推定
高島遼一, 滝口哲也, 有木康雄
我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.
一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. EA, 応用音響, 111(26) (26), 167 - 172, 日本語

音響伝達特性の識別に基づく話者の頭部回転方向の推定
高島遼一, 滝口哲也, 有木康雄
我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.
一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. SP, 音声, 111(28) (28), 167 - 172, 日本語

Confusion Networkを用いたCRFによる音声認識誤り訂正
中谷良平, 滝口哲也, 有木康雄
2011年03月, 第5回音声ドキュメント処理ワークショップ, 6 pages, 日本語
速報，短報，研究ノート等（学術雑誌）

確率スペクトル包絡に基づくNMF 基底生成モデルを用いた混合楽音解析
中鹿亘, 滝口哲也, 有木康雄
従来の代表的な楽音解析手法として，NMF （非負値行列因子分解）をベースとしたアプローチが注目を浴びている．これは，予め大量の音源サンプルを用意しておくことで解析を行う教師あり NMF と，学習を用いず何らかの制約条件に基づいて解析を行う教師なし NMF に，大別することができる．しかしながら，前者では，可能性のある全ての基底サンプルを用意する必要があるので，一般にシステムの実用化は困難である．一方後者のアプローチでは，機械的に分解しているに過ぎないので意図しない結果が表れる傾向にある．本研究では，楽器カテゴリごとに共通なスペクトル包絡（確率スペクトル包絡）を統計的に学習し，確率スペクトル包絡が作り出す基底の組み合わせによって観測信号のスペクトルを表現する手法を提案する．提案手法ではまず，ガウシアンプロセスをベースとした手法により，楽器カテゴリごとの確率スペクトル包絡を学習させる．その後教師あり NMF と遺伝アルゴリズムを組み合わせて，包絡に沿って確率的に生成されるランダム基底集合から，最適な基底解を探索する．最後に，得られたアクティビティ行列から楽音を解析する．実験結果から，提案手法が学習データには含まれない未知の音源に対しても頑健であると同時に，複数の音源が混ざっていても解析が可能であることを確かめた．NMF (Non-negative Matrix Factorization) based approaches are garnering much attention in musical signal analysis in recent years. These are roughly classified into two approaches: exemplar-based NMF, in which a large number of samples are used for analyzing a signal, and unsupervised NMF, in which signals are analyzed in some constrains without learning any samples beforehand. However, because the former methods require all the possible samples for the analysis, it is hard to build the practical system of the method. The latter approach should cause unintended results because the method is based on mathematical analysis not perceptual coding. In this paper, we propose a novel method of signal analysis by combining NMF and a probabilistic approach. At the beginning, a common spectram envelope to an instrument, called a probabilistic spectrum envelope (PSE), is learned for each categories using a Gaussian-Process-based approach. On the analyzing stage, basis vectors of NMF are randomly generated from the PSE, and the most befitting vectors can be found by combination of unsupervised NMF and Genetic Algorithm. The experimental results indicated that the method is robust against unknown sound sources, and can properly analyze the signals including multiple sources.
情報処理学会, 2011年02月, 情報処理学会音楽情報科学研究会, Vol.2011-MUS-89,No.18, pp. 1-6(18) (18), 1 - 6, 日本語
速報，短報，研究ノート等（学術雑誌）

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討
高島遼一, 滝口哲也, 有木康雄
我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,位置毎に推定された音響伝達特性のMFCC(Mel-Frequency Cepstral Coefficient)の各次元に対し,MKL(Multiple Kernel Learning)を用いて重みの自動学習を行うことで,音源位置推定精度の向上を試みる.
一般社団法人電子情報通信学会, 2011年01月20日, 電子情報通信学会技術研究報告. SP, 音声, 110(401) (401), 49 - 54, 日本語
速報，短報，研究ノート等（学術雑誌）

基底の反復生成と教師ありNMFを用いた信号解析
中鹿亘, 滝口哲也, 有木康雄
従来の代表的な信号解析手法の中に,NMF(非負値行列因子分解)を用いたものがある.中でも,大量のサンプルを予め学習させることで音源分離やノイズ除去を行う事例ベースNMFが注目を浴びている.しかしながら,こうした手法は,可能性のある全ての基底サンプルを用意する必要があるので,一般にシステムの実用化は困難である.本研究では基底カテゴリ(音素や楽器)ごとに代表基底(確率的スペクトル包絡)を統計的に学習し,確率的スペクトル包絡が作り出す基底の組み合わせによって観測スペクトルを表現する手法を提案する.本研究では,確率的スペクトル包絡の学習に,スペクトル包絡の平均値曲線と分散値曲線を同時に推定することのできるガウシアンプロセスを用いる.解析時には確率的スペクトル包絡からランダムに基底を生成することで,同カテゴリの未知の基底を用いて解析を行うことができる.最後に実験結果によって提案手法の有効性を確かめた.
一般社団法人電子情報通信学会, 2010年12月, 電子情報通信学会音声研究会, SP2010-102,pp. 195-200(356) (356), 195 - 200, 日本語
速報，短報，研究ノート等（学術雑誌）

階層的強化学習を適用したPOMDPによる音声対話制御
岸本康秀, 滝口哲也, 有木康雄
本稿では,不確定な情報に対しても対話を制御させるために,部分観測マルコフ決定過程(POMDP)を用いる.この手法によって,雑音のある状況下等で誤認識が起こった場合でも,自然な対話の中で回復することが可能となる.しかし,POMDPの状態数の増加に伴い,強化学習の計算量が増大するため今まで大きなタスクを扱うことが困難であった.本研究では階層的強化学習を適用することにより,従来のPOMDPよりも大きなタスクを扱うことが可能となった.本稿では,シミュレーション実験を行い,提案手法の有効性を示す.
一般社団法人電子情報通信学会, 2010年12月, 電子情報通信学会音声研究会, SP2010-98,pp. 121-126(356) (356), 121 - 126, 日本語
速報，短報，研究ノート等（学術雑誌）

Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定
田中克幸, 滝口哲也, 有木康雄
本研究では,Why型質問応答を可能とするための技術の1つである,Why型テキストセグメント判定の精度向上を目的としている.特に,従来手法の1つである,Bag of Grammar手法とルールベース手法を融合することにより,Why型テキストセグメント判定の向上を行うことを目的としている.Bag of Grammar手法では欠落していたWhy型名詞特徴を効果的に取り入れることにより,Why型テキストセグメント判定の向上ができることが分かった.
一般社団法人電子情報通信学会, 2010年12月, 電子情報通信学会音声研究会, SP2010-97,pp. 103-108(356) (356), 103 - 108, 日本語
速報，短報，研究ノート等（学術雑誌）

Buried Markov Modelを用いた構音障害者の音声認識の検討
宮本千琴, 駒井祐人, 滝口哲也, 有木康雄, 李義昭
音声認識技術は現在,様々な環境下や場面において使用される機会が増加している.しかし,言語障害などの障害者を対象としたものは非常に少ない.本稿では,アテトーゼ型脳性麻痺による構音障害者の音声認識の検討を行う.アテトーゼ型の構音障害者の場合,筋肉の緊張のため発話が不安定になりやすい.これに対し,本研究では,時間変化による依存関係を考慮することで,不安定な発話に対する音声認識精度の改善を試みる.従来用いられているHMMによる音声認識は,はっきりと発話された音声に対しては高い精度で認識を行うことができるが,複雑な事象を表現するには適しておらず,雑音を含む音声や,連続的に発話された音声を認識する際には,精度が著しく低下する.この問題に対し,過去の観測と現在の観測の間の依存関係を表現できる確率モデルであるBuried Markov Modelを用いた音声認識モデルが,J.Bilmesによって提案された.本研究では,構音障害者の音声認識の実現に向けて,このBuried Markov Modelを用いて時間的依存関係を考慮し,音声認識精度の向上を目指す.
一般社団法人電子情報通信学会, 2010年10月, 電子情報通信学会音声研究会, SP2010-57, pp. 69-74(220) (220), 69 - 74, 日本語
速報，短報，研究ノート等（学術雑誌）

雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹, 小川哲司, 黒岩眞吾, 中村哲
本稿では，音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する．CENSREC-1-AV では，音声・画像データベースおよびベースラインシステムを提供する．音声は学習用クリーンデータのほか，乗用車走行雑音を付与したものを収録した．画像はカラー映像と近赤外線映像を収録し，ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした．ベースラインシステムでは，MFCC と，固有顔ないしはオプティカルフローを特徴量として，マルチストリーム HMM により認識を行った．This paper introduces an evaluation framework for multimodal speech recognition: CENSREC-1-AV. The corpus CENSREC-1-AV provides an audiovisual speech database and a baseline system of multimodal speech recognition. Speech signals were recorded in clean condition for training and in-car noises were overlapped for testing. Color and infrared pictures were captured as training data, and image corruption was conducted for testing using the gamma correction technique. In the baseline system, acoustic MFCC as well as eigenface or optical-flow information are adopted as audio and visual features respectively, then multi-stream HMMs are used as a recognition model.
情報処理学会, 2010年07月15日, 研究報告音声言語情報処理（SLP）, 2010(7) (7), 1 - 6, 日本語

物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識
中鹿亘, 須賀晃, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, OS8-2, pp. 1404-1411, 日本語
速報，短報，研究ノート等（学術雑誌）

複数尤度を用いた3次元パーティクルフィルタによる選手の追跡
西濃拓郎, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS1-39, pp. 307-312, 日本語
速報，短報，研究ノート等（学術雑誌）

地面位置の推定に基づく2次元画像からの擬似3次元復元
石橋薫, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS2-36, pp. 1011-1016, 日本語
速報，短報，研究ノート等（学術雑誌）

唇領域のAAMを用いた発話認識における画像特徴量の音素解析
駒井祐人, 宮本千琴, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS3-31,pp. 1771-1778, 日本語
速報，短報，研究ノート等（学術雑誌）

視点移動カメラにおけるカメラキャリブレーション
曽和知哉, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS2-37,pp.1017-1022, 日本語
速報，短報，研究ノート等（学術雑誌）

高周波強調処理と入力画像の利用による学習型超解像
小川祐樹, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS2-35, pp. 1004-1010, 1004 - 1010, 日本語
速報，短報，研究ノート等（学術雑誌）

固有空間でのモデルフィッティングによる単眼画像からの人体3次元姿勢推定
大西克則, 博格利, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS3-30, pp. 589-594, 日本語
速報，短報，研究ノート等（学術雑誌）

階層的領域分割法に基づく木構造条件付確率場による一般物体認識
奥村健志, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS3-32, pp. 1779-1783, 日本語
速報，短報，研究ノート等（学術雑誌）

階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御
岸本康秀, 有木康雄, 滝口哲也
本稿では,カーナビゲーションシステム(以下カーナビ)における音声インターフェースに対して、部分観測マルコフ決定過程(POMDP)を用いる。この手法は不確定な情報に対しても対話を制御することが出来,雑音状況下で誤認識が起こった場合でも,自然な対話の中で回復することが可能となる.また,本研究ではPOMDPに階層的強化学習を適用することにより,従来のPOMDPよりも大きなタスクを扱うことが可能となった.本稿では,シミュレーション実験を行い,提案手法の有効性を示す.
一般社団法人電子情報通信学会, 2010年07月, 電子情報通信学会音声研究会, SP2010-43, pp. 49-54(143) (143), 49 - 54, 日本語
速報，短報，研究ノート等（学術雑誌）

Image Annotation by Concept Level Search Using PLSA
ZHENG Yu, TAKIGUCHI Tetsuya, ARIKI Yasuo
2010年07月, 画像の認識・理解シンポジウム, IS1-41, pp. 319-324, 日本語
速報，短報，研究ノート等（学術雑誌）

Gaussian Processes for RegressionとAAMパラメータによる視線方向認識
高谷学, 滝口哲也, 有木康雄
2010年07月, 画像の認識・理解シンポジウム, IS-40, pp. 315-318, 日本語
速報，短報，研究ノート等（学術雑誌）

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出
山田馨士朗, 滝口哲也, 有木康雄
2010年06月, 電子情報通信学会音声研究会, SP2010-29,pp. 43-48, 日本語
速報，短報，研究ノート等（学術雑誌）

D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
小川祐樹, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 57 - 57, 日本語

D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
奥村健志, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 181 - 181, 日本語

D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
西濃拓郎, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 202 - 202, 日本語

AAMを用いた唇領域特徴による音声発話認識
駒井祐人, 宮本千琴, 滝口哲也, 有木康雄
2010年01月, 電子情報通信学会技術研究報告, CQ2009-107,PRMU2009-206,SP2009, 日本語
速報，短報，研究ノート等（学術雑誌）

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
中鹿亘, 立花隆輝, 西村雅史, 滝口哲也, 有木康雄
2009年12月, 第11回音声言語シンポジウム, SP2009-93,No. 29,pp. 165-170, 日本語
速報，短報，研究ノート等（学術雑誌）

ランダムプロジェクションを用いた音響モデルの線形変換
吉井麻里子, 滝口哲也, 有木康雄
2009年12月, 第79回音声言語情報処理研究会, 2009-SLP-79,No. 22,pp. 123-128, 日本語
速報，短報，研究ノート等（学術雑誌）

Buried Markov Modelを用いた音声認識モデルの構築法の検討
山本隆之, 滝口哲也, 有木康雄
2009年12月, 電子情報通信学会,音声研究会, 2009-SLP-79,No. 21,pp. 1-6, 日本語
速報，短報，研究ノート等（学術雑誌）

AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識
宮本千琴, 駒井祐人, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
本稿では,アテトーゼ型脳性麻痺による構音障害者の音声認識の検討を行う。アテトーゼ型の構音障害者の場合,筋肉の緊張のため発話が不安定になりやすく,発話時に頭が動いてしまう場合がある.これに対して,音声特徴としてデルタケプストラム係数のセグメント特徴量を用いる.また,発話時の頭部の動きに対しては,Active Appearance Model (AAM)を用いることで画像から顔方位にロバストな唇領域特徴を抽出し,音声特徴と共に用いることで,雑音の影響を受けず発話変動を考慮したマルチモーダル音声認識を検討する.
一般社団法人電子情報通信学会, 2009年12月, 第11回音声言語シンポジウム, SP2009-93,pp. 195-200(356) (356), 195 - 200, 日本語
速報，短報，研究ノート等（学術雑誌）

構音障害者の音声認識における動的特徴量の考察
宮本千琴, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
2009年10月, 電子情報通信学会,音声研究会, SP2009-55,pp.37-42, 日本語
速報，短報，研究ノート等（学術雑誌）

Bottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定
大西克則, 滝口哲也, 有木康雄
2009年09月29日, 平成21年度情報処理学会関西支部支部大会講演論文集, 2009, 日本語

H-011 人物の顔画像情報に基づくコンテンツの解析(画像認識・メディア理解,一般論文)
岡田朋子, 滝口哲也, 有木康雄
FIT(電子情報通信学会・情報処理学会)運営委員会, 2009年08月20日, 情報科学技術フォーラム講演論文集, 8(3) (3), 117 - 118, 日本語

H-006 高精度画像マッチングを用いたSAR衛星画像からの地表変位推定(画像認識・メディア理解,一般論文)
水野雄介, 滝口哲也, 有木康雄
FIT(電子情報通信学会・情報処理学会)運営委員会, 2009年08月20日, 情報科学技術フォーラム講演論文集, 8(3) (3), 107 - 108, 日本語

複数特徴量の重み付け統合による一般物体認識
須賀晃, 滝口哲也, 有木康雄
2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS1-29, pp. 589-594, 日本語
速報，短報，研究ノート等（学術雑誌）

単眼サッカー映像におけるボールの3次元位置情報を用いた状況認識
西濃拓郎, 滝口哲也, 有木康雄
2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS2-61, pp.1269-1276, 日本語
速報，短報，研究ノート等（学術雑誌）

大域的特徴としてBoFを導入したCRFによる一般物体認識
奥村健志, 滝口哲也, 有木康雄
2009年07月, 画像の理解・認識シンポジウム, MIRU2009, OS4-2, pp.95-102, 日本語
[査読有り]
速報，短報，研究ノート等（学術雑誌）

回帰分析とパーティクルフィルタを用いた単眼画像からの人体3次元姿勢推定
大西克則, 滝口哲也, 有木康雄
2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS3-43, pp. 1668-167, 日本語
速報，短報，研究ノート等（学術雑誌）

過学習を考慮したAAMパラメータの選択と回帰分析による顔・視線方向同時推定
高谷学, 滝口哲也, 有木康雄
2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS1-60, pp. 769-776, 日本語
速報，短報，研究ノート等（学術雑誌）

ランダムプロジェクションを用いた音声特徴量変換
吉井麻里子, 滝口哲也, 有木康雄
2009年07月, 電子情報通信学会,音声研究会, SP2009-41,pp. 1-6, 日本語
速報，短報，研究ノート等（学術雑誌）

尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
古賀健太郎, 滝口哲也, 有木康雄
本稿では,マルチスピーカと単一のマイクを前提とした車内環境下で,音声認識システムの認識率を改善する音響エコーキャンセラを提案する.この音響エコーキャンセラでは,マルチスピーカからマイクまでの伝達特性のモデルを用い,尤度最大化基準に基づいたエコー推定によって,最適なキャンセル結果を選択する.単一のマイクに話者の音声とマルチスピーカからの音楽が混入する環境下で,マイクの観測信号をキャンセルした信号に対し,SN,音声認識率を測定する.提案した音響エコーキャンセラによってキャンセルした信号は,学習同定法に基づいた音響エコーキャンセラによってキャンセルした信号よりもSN,音声認識率が改善されていることを示す.
一般社団法人電子情報通信学会, 2009年05月, 電子情報通信学会,音声研究会, SP2009-14,pp. 45-48(57) (57), 45 - 48, 日本語
速報，短報，研究ノート等（学術雑誌）

D-12-23 AAMのモデル選択による方位に頑健な不特定人物の顔表情認識(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
岡田朋子, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 132 - 132, 日本語

D-12-76 複数特徴量の重み付け統合による一般物体認識(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
須賀晃, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 185 - 185, 日本語

D-12-104 単眼動画像におけるボールと選手の3次元位置推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
西濃拓郎, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 213 - 213, 日本語

D-12-122 Bottom-UpとTop-Downアプローチの統合による単眼画像からの人体3次元姿勢推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
大西克則, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 231 - 231, 日本語

D-12-112 AAMと回帰分析による視線,顔方向同時推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
高谷学, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 221 - 221, 日本語

音声強調手法を用いた構音障害者の音声認識
宮本千琴, 滝口哲也, 有木康雄
神戸大学, 2009年03月, 神戸大学都市安全研究センター研究報告, 13, 75 - 80, 日本語

Grammar-gramとGrammarVerb-gramを用いたドメイン非依存型Whyテキストセグメント判定と回答抽出
田中克幸, 滝口哲也, 有木康雄
2009年03月, 第14回 Webインテリジェンスとインタラクション研究会WI2, pp. 89-94, 日本語
速報，短報，研究ノート等（学術雑誌）

音声・状況の同時認識に基づくスポーツ実況中継へのメタ情報付与
佐古淳, 滝口哲也, 有木康雄
近年，多くのマルチメディア・コンテンツの所有が可能となってきた．大量のコンテンツの中から欲しい情報を得るためには，検索のためのメタ情報を付与しておく必要がある．本研究では，マルチメディア・コンテンツの一例としてスポーツ実況中継，特に野球実況中継に注目し，実況中継音声から音声認識を用いてメタ情報を抽出することを目的としている．野球のメタ情報としては，今何が起こっているかを表すイベントと，その積み重ねである状況が存在すると考えられる．まず，現実にイベントや状況が存在し，これを基にアナウンサは実況を行う．本研究では，実況音声から単語列だけを推定する音声認識を拡張し，実況音声から単語列・イベント系列・状況系列すべてを同時に推定する音声認識手法を提案する．定式化により，イベント依存音響モデル，状況遷移モデル，イベント推定モデル，状況依存言語モデルを得る．これらを確率の枠組みで統合的に用いることで，単語列とメタ情報の同時推定を行う．実験により，イベント検出F値0.87，イベント正解率0.86，状況正解率0.77を得た．その他，各モデルの「メタ情報付与性能」への寄与や，音声認識率と「メタ情報付与性能」との関係について考察を行う．Recently a large quantity of multimedia contents are broadcast and accessed. In order to retrieve exactly what we want to know from multimedia database, automatic extraction of meta-information is required. We focused on live speeches, especially baseball commentary speeches as a kind of multimedia contents. The purpose of this study is to provide meta-information based on speech recognition techniques. Events and situations are defined as metainformation. First of all, an event is occured or a situation is changed, then an announcer speaks based on an event and a situation. In this paper, we propose a extended speech recognition technique that estimates not only a word sequence but also a event sequence and a situation sequence concurrently. As a result of formulation, event dependent acoustic model, situation transition model, event estimation model and situation dependent language model are derived. A word sequence and meta-information are estimated based on these models. The experimental results showed that the proposed method provided meta-information with a high degree of accuracy.
情報処理学会, 2009年02月15日, 情報処理学会論文誌, 50(2) (2), 563 - 574, 日本語

音声・状況の同時認識に基づく野球実況中継へのメタ情報付与
佐古淳, 滝口哲也, 有木康雄
2009年02月, 第3回音声ドキュメント処理ワークショップ, pp. 59-64, 日本語
速報，短報，研究ノート等（学術雑誌）

音声認識における頑健性ー音響分析・音響モデル，なにが課題か?ー
北岡教英, 藤本雅清, 滝口哲也, 大淵康成, 中村哲
音声認識実用化に向けて「頑健性」の必要性が叫ばれて久しい．頑健性を指向し，主に音響分析・音響モデルの側面から，いまなにが行われ，なにが課題とされているのかを考えてみたい．Robustness has been thought as very important for a long time to apply speech recognition systems to the real world. Here let us consider what is the 'next step' to improve the robustness from the viewpoints of acoustic analysis and acoustic models.
一般社団法人情報処理学会, 2009年01月30日, 情報処理学会研究報告音声言語情報処理（SLP）, 2009(10) (10), 25 - 25, 日本語

複数の言語情報を用いたCRFによる音声認識誤りの検出
松本智彦, 佐古淳, 滝口哲也, 有木康雄
2009年01月, 電子情報通信学会音声研究会, pp. 7-12(422) (422), 7 - 12, 日本語
速報，短報，研究ノート等（学術雑誌）

単語出現順序を考慮したトピックモデルによる言語モデル適応
佐古淳, 滝口哲也, 有木康雄
人間にとって不可解な認識誤りの低減や，単語の認識だけでなく，意味・内容の理解を行うためには semantics を考慮することが重要であると考えられる．現在， LSA や PLSA のように semantics を考慮するモデルは Bag-of-words に基づく手法であり，文書中の単語出現順序を考慮していないより高度な分析のためには，文書中の単語出現順序を考慮する必要があると考えられる．本研究では，Kernel PCA 及び Dynamic Time Alignment カーネルを用いることにより，単語順序を考慮した Latent Semantic 空間を構築する手法を提案する．予備実験では，右回り／左回りにプロットした時系列データが Latent Semantic 空間においてきれいに分離されることを確認した．また，言語コーパスを用いた評価実験では，パープレキシティの低下を確認することが出来た．It is important to consider semantics for reductions of recognition errors unlike humans or understanding meanings and contents. To accommodate these problems, Latent Semantic Analysis (LSA) or Probabilistic LSA have been proposed. However these methods are based on Bag-of-words techniques. For more sophisticated analysis, it needs to consider a sequence of words in a document. In this paper, we propose the method based on Kernel PCA and Dynamic Time Alignment Kernel in order to consider a sequence of words. Preliminary experimental results shows the proposed method can separete clearly a sequence of right turn/left turn prots data. Moreover, experimental results of language corpus shows the reduction of perplexity.
一般社団法人情報処理学会, 2008年12月02日, 情報処理学会研究報告音声言語情報処理（SLP）, 2008(123) (123), 249 - 254, 日本語

多重解像度独立性検定を用いた遺伝子ネットワークの構築
山本隆之, 滝口哲也, 有木康雄
2008年12月, 情報処理学会バイオ情報学研究会研究報告, pp.115-118, 日本語
速報，短報，研究ノート等（学術雑誌）

制約付き非負行列因子分解を用いた音声特徴抽出の検討
朴玄信, 滝口哲也, 有木康雄
2008年12月, 第10回音声言語シンポジウム, pp.43-48(338) (338), 43 - 48, 日本語
速報，短報，研究ノート等（学術雑誌）

音声の動的特徴のモデルを使った突発性雑音の除去
三宅信之, 滝口哲也, 有木康雄
2008年12月, 第10回音声言語シンポジウム, pp.191-196, 日本語
速報，短報，研究ノート等（学術雑誌）

スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討
室井貴司, 滝口哲也, 有木康雄
2008年12月, 第10回音声言語シンポジウム, pp.161-166, 日本語
速報，短報，研究ノート等（学術雑誌）

雑音下音声認識評価ワーキンググループ活動報告：認識に影響する要因の個別評価環境 (3)
北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲
我々雑音下音声認識評価ワーキンググループは，2001 年 10 月から情報処理学会音声言語情報処理研究会の下に組織され，数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤 CENSREC シリーズの開発・配布を行ってきた．本稿ではその CENSREC シリーズを概観し，また主な音声認識研究の発表の場である日本音響学会全国大会および IEEE ICASSP の発表件数調査を踏まえて，その位置づけを確認する．最後に，今後の展望について述べる．We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.
一般社団法人情報処理学会, 2008年10月17日, 情報処理学会研究報告音声言語情報処理（SLP）, 2008(102) (102), 41 - 46, 日本語

SIFTとGraph Cuts を用いた物体認識及びセグメンテーション
須賀晃, 福田恵太, 滝口哲也, 有木康雄
2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.611-616, 611 - 616, 日本語
速報，短報，研究ノート等（学術雑誌）

PrefixSpan を用いた人物の日常行動抽出
戸成拓也, 滝口哲也, 有木康雄
2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.508-513, 日本語
速報，短報，研究ノート等（学術雑誌）

HOG特徴に基づく単眼画像からの人体3 次元姿勢推定
大西克則, 滝口哲也, 有木康雄
2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.960-965, 960 - 965, 日本語
速報，短報，研究ノート等（学術雑誌）

AdaBoostとSaliency Mapを用いたGraph Cutsによる花弁領域の自動抽出法
福田恵太, 滝口哲也, 有木康雄
2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.796-801, 日本語
速報，短報，研究ノート等（学術雑誌）

メタモデルと音響モデルの統合による構音障害者の音声認識
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
2008年05月, 電子情報通信学会技術研究報告WIT2008, pp. 37-42, 日本語
速報，短報，研究ノート等（学術雑誌）

NetTv: Cross-Platform Video Retrieval and QA System with Speech Interface
Tanaka Katsuyuki, Takiguchi Tetsuya, Ariki Yasuo
The objective of this research is to construct a video searching mechanism and speech interface on the multimedia crossplatform, namely TV and Internet, which requires the capability to deal with dynamic contents. Current NetTv enables users to search both recorded TV contents and news on the Internet by simply speaking keywords as a query; hence the videos related to the keyword spoken are retrieved. Also, the system provides a simple keyword based QA system to answer various questions that may occur to users whilst watching retrieved videos. In this way, NetTv improves the usability of video searching and viewing in a hands free way.
一般社団法人電子情報通信学会, 2008年05月, 電子情報通信学会技術研究報告SP2008, pp.31-36(67) (67), 31 - 36, 日本語
速報，短報，研究ノート等（学術雑誌）

D-12-5 PrefixSpanを用いた映像における人物の日常行動抽出(D-12. パターン認識・メディア理解,一般セッション)
戸成拓也, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 136 - 136, 日本語

D-12-121 Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
福田恵太, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 252 - 252, 日本語

D-12-122 SIFTとGraph Cutsを用いた物体認識及びセグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
須賀晃, 福田恵太, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 253 - 253, 日本語

ニュース検索タスクにおけるシステム要求と雑談の判別
佐古淳, 田中克幸, 滝口哲也, 有木康雄
2008年02月, 第2回音声ドキュメント処理ワークショップ, pp. 67-72, 日本語
速報，短報，研究ノート等（学術雑誌）

2-102 プログラミング相談室((2)専門科目の講義・演習-I,口頭発表論文): 全員の基礎スキルレベルアップのために
江口浩二, 安村禎明, 中村匡秀, 滝口哲也, 太田能, 羅志偉
公益社団法人日本工学教育協会, 2008年, 工学・工業教育研究講演会講演論文集, 2008, 22 - 23, 日本語

雑音下音声認識評価ワーキンググループ活動報告：認識に影響する要因の個別評価環境(2)
北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲
音声認識実用化において，雑音下の音声認識の性能向上が叫ばれている．現在も多くの研究が行われているが，これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる．我々は 2001 年 10 月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し，標準評価基盤 CENSREC シリーズを構築・配布している．これまでの CENSREC シリーズを概観し，さらに今年度新たに配付する残響下音声認識評価基盤 CENSREC-4 の概要を述べる．そして，ワーキンググループ最終年度に向けて，今後どのような方針で評価基盤を設計・構築・配付していくのかを述べる．Performance improvement of noisy speech recognition is urgent for practical use of speech recognition and methods for this purpose should be compared on common evaluation frameworks. We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan, to develop evaluation frameworks of noisy speech recognition to compare many methods for processing of noisy speech. In this paper, we review the series of CENSREC series and then introduce the reverberant speech recognition evaluation framework CENSREC-4, the newest CENSREC. Finally we describe the road-maps of future CENSRECs.
一般社団法人情報処理学会, 2007年12月20日, 情報処理学会研究報告音声言語情報処理（SLP）, 2007(129) (129), 1 - 6, 日本語

弱識別器にSVMを用いたAdaBoostの検討
松田博義, 滝口哲也, 有木康雄
2007年12月, 第9回音声言語シンポジウム, SP2007-120, pp.109-114, 日本語
速報，短報，研究ノート等（学術雑誌）

顔表情からの関心度推定に基づく映像コンテンツへのタギング
宮原正典, 青木政樹, 滝口哲也, 有木康雄
近年,ユーザが視聴可能な映像コンテンツは莫大な量となってきているため,ユーザが自分の好きな映像コンテンツを探し出すことが困難になりつつある.そこで我々は,映像コンテンツを視聴するユーザを撮影し,その表情から関心度を推定することで映像コンテンツにタギングを行い,番組推薦に役立てるためのシステムを提案する.撮影された顔は,Elastic Bunch Graph Matchingによって,顔特徴点抽出と個人認識が行われ,特定された個人に対して,Support Vector Machinesによって関心のクラスが推定される.関心のクラスは,Neutral,Positive,Negative,Rejectiveの4種類であり,映像コンテンツと同期してフレームごとにタギングが行われる.評価実験の結果,関心クラス推定の平均再現率は87.61%,平均適合率は88.03%となった.
一般社団法人電子情報通信学会, 2007年12月, 電子情報通信学会技術研究報告, PRMU2007-137, pp. 13-18(384) (384), 13 - 18, 日本語
速報，短報，研究ノート等（学術雑誌）

画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴量を用いたGraph Cuts
福田恵太, 滝口哲也, 有木康雄
2007年12月, 電子情報通信学会技術研究報告, PRMU2007-138, pp. 19-24, 日本語
速報，短報，研究ノート等（学術雑誌）

音素部分空間の統合による音声特徴量抽出の検討
朴玄信, 滝口哲也, 有木康雄
本稿では，事前学習による音声特徴量抽出の枠組みの中で，音素部分空間の統合により，得られた空間へ観測ベクトルを線形射影する特徴量抽出法を提案する．近年，音声認識システムで最も使われている特徴量空間は MFCC (Mel-Hequency Cepstrum Coefficient) 空間である．MFCC 空間は対数メルフィルタバンク出力に離散コサイン変換を適用することにより得られる空間であるが，この射影軸は対象とする音声データの音響特徴に依存することなく一意に決まる．音声認識システムの実用化のためには，実環境で収録された音声データに潜在する音素情報以外の情報を除去する必要がある．MFCC は様々なノイズ抑制手法と組み合わせて使われているが，想定できないノイズが混入すると性能の劣化は避けられない．そこで本研究では，対象データに対し事前学習を行い，観測データから音素情報だけを抽出する部分空間（射影行列）を推定する．具体的には各音素データに対して主成分分析や判別分析を用い特定音素情報を抽出する部分空間を求め，さらに各音素部分空間へ射影された全てのデータに対して主成分分析を行い各音素部分空間を統合する．この統合された部分空間は対象とする音声の音素情報が含まれる空間になり，観測データから音素情報だけ抽出することができる．評価実験としては提案する特徴量を用い，音素 HMM (Hidden Markov Model) を学習し，クリーン音声と残響音声の孤立単語認識を行った．評価実験の結果，提案手法の有効性が確かめられた．In this paper, we propose a speech feature extraction method that is estimating each phoneme-subspace and integrate each subspace within a framework of feature extraction by pre-learning. The most commonly used speech feature for speech recognition is MFCC that is computed applying DCT to the mel-scale filter bank output. This feature space dose not depend on target speech data set and is decided by uniquely. To make speech recognition system fit for practical use, noise that is latent in observed data and useless for recognition must be removed. MFCC is uesd combined with other removing noise methods but performance degradation is inescapable if unexpected noises are mixed in observed data. Consequently, subspaces (projection matrix) that only extract phonemic information are estimated by pre-learning with observed data. Specifically, PCA or LDA are applied to each phoneme data set and each phoneme-subspace were estimated. Additionally, all phoneme-subspaces are integrated by PCA. This integrated subspace will have phonemic information of target speech data set and extract only that information. In evaluation experiment, we modeled phoneme HMM by proposed feature and carried out isolated word recognition experiments. The experiment results showed that the proposed method is effective compared to conventional methods.
一般社団法人情報処理学会, 2007年12月, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294(129) (129), 241 - 246, 日本語
速報，短報，研究ノート等（学術雑誌）

音声認識との統合によるシステム要求検出
佐古淳, 山形知行, 滝口哲也, 有木康雄
2007年12月, 第9回音声言語シンポジウム, SP2007-120, pp. 143-148, 日本語
速報，短報，研究ノート等（学術雑誌）

音声GMMと雑音重み推定を用いた雑音除去
三宅信之, 滝口哲也, 有木康雄
2007年12月, 第9回音声言語シンポジウム, SP2007-100, pp. 25-30, 日本語
速報，短報，研究ノート等（学術雑誌）

韻律及び話者交代情報を用いたシステム要求検出
山形知行, 佐古淳, 滝口哲也, 有木康雄
2007年12月, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294, 日本語
速報，短報，研究ノート等（学術雑誌）

J-002 ユーザの表情に基づく映像コンテンツへのタギング(J分野:ヒューマンコミュニケーション&インタラクション)
宮原正典, 青木政樹, 滝口哲也, 有木康雄
FIT(電子情報通信学会・情報処理学会)運営委員会, 2007年08月22日, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 389 - 390, 日本語

H-015 PCA相関フィルタによる目領域の探索(H分野:画像認識・メディア理解)
鈴木亜紀子, 滝口哲也, 有木康雄
FIT(電子情報通信学会・情報処理学会)運営委員会, 2007年08月22日, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 37 - 38, 日本語

探索手法の切り替えを用いたサッカー映像におけるボール追跡システム
矢野一樹, 滝口哲也, 有木康雄
2007年08月, 画像の認識・理解シンポジウム, MIRU2007, IS-3-22, pp. 1052-10, 日本語
速報，短報，研究ノート等（学術雑誌）

固定カメラ映像からの音声・画像情報を用いた映像コンテンツの生成
足立順, 滝口哲也, 有木康雄
2007年08月, 画像認識・理解シンポジウム, MIRU2007, IS2-08, pp. 750-755, 日本語
速報，短報，研究ノート等（学術雑誌）

マルチ識別器を用いた画像検索による花図鑑システム
福田恵太, 滝口哲也, 有木康雄
2007年08月, 画像認識・理解シンポジウム, MIRU2007, IS-5-21, pp. 1498-15, 日本語
速報，短報，研究ノート等（学術雑誌）

EBGMを用いた唇の形状抽出による発話区間の検出
増田健, 青木政樹, 松田博義, 有木康雄, 滝口哲也
2007年08月, 画像の認識・理解シンポジウム, MIRU2007, IS-4-08, pp. 1189-11, 日本語
速報，短報，研究ノート等（学術雑誌）

情報家電操作における脳性麻痺構音障害者の音声認識評価
松政宏典, 田中克幸, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
2007年05月, 電子情報通信学会技術研究報告WIT, WIT2007-7, pp. 33-38, 日本語
速報，短報，研究ノート等（学術雑誌）

音素PCAを用いた残響下における音声特徴量抽出
朴玄信, 滝口哲也, 有木康雄
2007年05月, 電子情報通信学会技術研究報告, SP2007-1, pp. 1-6, 日本語
速報，短報，研究ノート等（学術雑誌）

D-12-18 マルチ識別器を用いた花画像検索システムの構築(D-12.パターン認識・メディア理解,一般講演)
福田恵太, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 134 - 134, 日本語

D-11-86 赤外線映像におけるドライバの顔方位判定(D-11.画像工学D(画像処理・計測),一般講演)
井上淳一, 滝口哲也, 有木康雄, 古賀健太郎
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 86 - 86, 日本語

D-12-88 マルチテンプレート型二次元CSPによる高速目領域検索(D-12.パターン認識・メディア理解,一般講演)
鈴木亜紀子, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 204 - 204, 日本語

D-12-40 自動映像生成のためのパーティクルフィルタによるボールの追跡(D-12.パターン認識・メディア理解,一般講演)
矢野一樹, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 156 - 156, 日本語

D-12-80 顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識(D-12.パターン認識・メディア理解,一般講演)
宮原正典, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 196 - 196, 日本語

D-14-17 固定カメラ映像からの音声情報を用いた映像コンテンツ生成(D-14.音声・聴覚,一般講演)
足立順, 滝口哲也, 有木康雄
一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(1) (1), 153 - 153, 日本語

ブースティングを用いた野球実況中継に対するメタデータの作成
佐古淳, 滝口哲也, 有木康雄
[豊橋技術科学大学メディア科学リサーチセンター], 2007年02月, 第1回音声ドキュメント処理ワークショップ, pp. 121-126, 121 - 126, 日本語
速報，短報，研究ノート等（学術雑誌）

トピックモデルとタスクの知識を用いた言語モデルによる野球実況中継の構造化
佐古淳, 滝口哲也, 有木康雄
2007年02月, 第1回音声ドキュメント処理ワークショップ, pp. 115-120, 日本語
速報，短報，研究ノート等（学術雑誌）

構音障害者の音声認識の検討
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
2007年01月, 電子情報通信学会技術研究報告, WIT2006-75,pp13-18, 日本語
速報，短報，研究ノート等（学術雑誌）

NetTv:NetNewsとテレビ放送のクロスプラットホームにおける動画のインデキシングと音声検索
田中克幸, 滝口哲也, 有木康雄
2007年01月, 情報処理学会データベースシステム研究会研究報告, 2007-DBS-141, pp.59-66, 59 - 66, 日本語
速報，短報，研究ノート等（学術雑誌）

Multi-class AdaBoost を用いた雑音検出
三宅信之, 滝口哲也, 有木康雄
雑音が混入することで音声認識率は低下してしまう。そのため雑音抑圧を行うことが重要であるが、雑音抑圧には雑音を推定する必要がある。しかしながら、発話中に突如雑音が発生する場合、雑音を推定するのは困難であり抑圧も行いにくい。本稿では発話中に突如発生したような雑音（突発性雑音）をMulti-class AdaBoostで検出し、同時に雑音の種類を識別する方法を提案する。評価実験の結果、音声に重畳した信号対雑音比（SNR）5dB?-5dBの継続時間が200ms程度の雑音を高い精度で検出、識別できることを確認した。A noise signal decreases speech recognition rate. Therefore, noise reduction is important, and it needs to estimate the noise signal. However, estimating noise is difficult when the noise happens suddenly in a speech. We proposed the method for detecting and identifying the noise in a speech, where it happens suddenly. Its effectiveness is confirined at SNR -5 縲鰀 5dB for the noise duration time 200 ms.
一般社団法人情報処理学会, 2006年12月21日, 情報処理学会研究報告音声言語情報処理（SLP）, 2006(136) (136), 7 - 12, 日本語

雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境
北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 黒岩眞吾, 武田一哉, 中村哲
雑音下の音声認識の性能向上は音声認識実用化のために急務である.これまでに数多くの研究が行われてきており,これらの手法を客観的に比較評価できる標準評価基盤の構築を目的として,2001年10月,情報処理学会告声言語情報処理研究会の下に雑音下音声認識評価ワーキンググループを組織した.本稿ではこれまでの標準評価基盤CENSRECシリーズを振り返り,今年度新たに配付したCENSREC-1-Cの概要と位置づけを述べる.さらに,今後どのような方針で新たな評価基盤を設計・構築・配付するのかについての考えを述べる.
一般社団法人電子情報通信学会, 2006年12月14日, 電子情報通信学会技術研究報告. SP, 音声, 106(443) (443), 1 - 6, 日本語

Multi-class AdaBoost を用いた雑音検出
三宅信之, 滝口哲也, 有木康雄
雑音が混入することで音声認識率は低下してしまう.そのため雑音抑圧を行うことが重要であるが,雑音抑圧には雑音を推定する必要がある.しかしながら,発話中に突如雑音が発生する場合,雑音を推定するのは困難であり抑圧も行いにくい.本稿では発話中に突如発生したような雑音(突発性雑音)をMulti-class AdaBoostで検出し,同時に雑音の種類を識別する方法を提案する.評価実験の結果,音声に重畳した信号対雑音比(SNR)5dB〜-5dBの継続時間が200ms程度の雑音を高い精度で検出,識別できることを確認した.
一般社団法人電子情報通信学会, 2006年12月14日, 電子情報通信学会技術研究報告. SP, 音声, 106(443) (443), 7 - 12, 日本語

局所特徴量によるフィッシャー重みマップに基づく音素認識
加藤俊祐, 滝口哲也, 有木康雄
本稿では,高次局所自己相関(HLAC)とフィッシャー重みマップ(FWM)に基づく新しい音声特徴抽出法について提案する.現在,音響・音声認識分野では,MFCCが広く用いられているが,時間特徴が表現できていないという問題がある.この問題を解決するために,時間-周波数平面上の3x3局所領域において,35種類の局所パターンに対する局所自己相関特徴を計算し,これを局所特徴量とする.ある一定の時間幅を持つ時間-周波数平面(フレーム)において,35種類の局所パターンごとに,識別効果の高い領域の局所特徴量に重みを付けて加算し,音声特徴ベクトル(35次元)を形成する.この重みをフィッシャー重みマップと呼ぶ・音素認識において,HLACとFWMの有効性を確認した.
一般社団法人電子情報通信学会, 2006年12月, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24(444) (444), 19 - 24, 日本語
速報，短報，研究ノート等（学術雑誌）

音響モデルを利用したシングルチャネルによる音源方向推定
住田雄司, 滝口哲也, 有木康雄
本稿では,音響モデルを利用することにより,単一マイクロホンで音源方向を推定する方法を検討する.あらかじめクリーン音声の音響モデルを作成しておき,各方向から到来する数単語の音声を用いて,EMアルゴリズムに基づきクリーン音声モデルと音響伝達特性の分離を行う.また本稿では,音響伝達特性のモデルとしてGMM(Gaussian Mixture Model)を用いる事により,短時間分析における音響伝達特性のばらつきの影響に対処する方法も検討する.
一般社団法人電子情報通信学会, 2006年12月, 電子情報通信学会技術研究報告, EA2006-90, pp. 7-11(432) (432), 7 - 11, 日本語
速報，短報，研究ノート等（学術雑誌）

AdaBoostを用いたシステムへの問い合わせと雑談の判別
佐古淳, 滝口哲也, 有木康雄
2006年12月, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24, 日本語
速報，短報，研究ノート等（学術雑誌）

3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討
松田博義, 滝口哲也, 有木康雄
2006年12月, 電子情報通信学会技術研究報告, SP2006-85, pp. 89-94, 日本語
速報，短報，研究ノート等（学術雑誌）

CENSREC-1-C:雑音下音声区間検出評価基盤の構築
北岡教英, 山田武志, 柘植覚, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 山本一公, 滝口哲也, 黒岩眞吾, 武田一哉, 中村哲
雑音下における音声認識音声強調音声符号化などの音声処理で重要な役割を果たす音声区間検出(Voice Activity Detection;VAD)手法を評価するための基盤としてCENSREC-LCを構築した．これは，雑音下で発声された連続数字音声データとＶＡＤ結果の評価を行うツール群からなる．評価方法としては一般的なフレームベースの検出性能評価尺度と音声認識を指向した発話単位の評価尺度を定義した．そして，音声パワーに基づくベースライン手法による川の結果をこれら２つの評価尺度で評価した結果を示した．Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environment. We developed a evaluation framework for VAD under noisy environments, named CENSREC-1-C. This framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We defined two evaluation measures, one for frame-level detection performance and the other for utterance-level detection perfromance. We showed the evaluation results of a baseline power-based VAD method.
一般社団法人情報処理学会, 2006年10月20日, 情報処理学会研究報告音声言語情報処理（SLP）, 2006(107) (107), 1 - 6, 日本語

3次キュムラント音声特徴を用いた音声区間検出
松田博義, 滝口哲也, 有木康雄
雑音下において音声認識を行う際,音声非音声の判定により音声区間検出(VAD: Voice Activity Detection)を行う必要がある.静かな状況ではゼロクロッシング法などにより区間検出を行うことが可能である.しかし雑音下,特に音声の大部分が雑音に埋もれてしまっているような状況においては,従来の手法では十分な結果を得ることができない.本稿では,雑音に対するロバストな音声区間検出の手法として,音声特徴に高次統計量として知られているキュムラント(Cumulant)を用いること,および,MFCC(Mel Frequency Cepstrum Coefficient)との初期統合を行う方法を提案する.実データを用いた実験により,提案手法の有効性を検証する.
一般社団法人電子情報通信学会, 2006年09月, 電子情報通信学会技術研究報告, SIP, pp. 37-42(263) (263), 37 - 42, 日本語
速報，短報，研究ノート等（学術雑誌）

I_022 二次元CSPによる目領域探索の高速化(I分野:画像認識・メディア理解)
鈴木亜紀子, 滝口哲也, 有木康雄
FIT(電子情報通信学会・情報処理学会)運営委員会, 2006年08月21日, 情報科学技術フォーラム一般講演論文集, 5(3) (3), 49 - 50, 日本語

唇領域の動静判定と音声・雑音判定の統合に基づく発話区間の検出
増田健, 松田博義, 井上淳一, 有木康雄, 滝口哲也
2006年07月, 画像認識・理解シンポジウム, pp. 934-939, 日本語
速報，短報，研究ノート等（学術雑誌）

D-14-7 AdaBoostと音声・唇GMMによる発話区間検出(D-14.音声・聴覚,一般講演)
松田博義, 増田健, 滝口哲也, 有木康雄, 神谷昌宏
一般社団法人電子情報通信学会, 2006年03月08日, 電子情報通信学会総合大会講演論文集, 2006(1) (1), 131 - 131, 日本語

SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹, 滝口哲也
現在の音声認識は, 実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため, これまで数々の研究が行われてきた.しかしながら, 異なるタスク, 異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため, 情報処理学会音声言語情報処理研究会の下に雑音下音声認識評価のワーキンググループを2001年10月に組織し、評価用標準コーパス、標準バックエンドの作成、配布を行ってきた。本稿では, 本活動の現状と今後の予定, 狙いについて述べる.
一般社団法人電子情報通信学会, 2005年12月22日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 105(494) (494), 49 - 54, 日本語

SLP雑音下音声認識評価WG活動報告－評価用データと評価手法について－
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳9, 宮島千代美, 藤本雅清, 遠藤俊樹, 滝口哲也
現在の音声認識は，実使用環境に存在する雑音などの外的要因により性能劣化を免れない．このため，これまで数々の研究が行われてきた．しかしながら，異なるタスク，異なる評価データが用いられてきたため性能の比較が非常に困難であった．このため，情報処理学会音声言語情報処理研究会の下に雑音下音声認識評価のワーキンググループを2001年10月に組織し、評価用標準コーパス、標準バックエンドの作成、配布を行ってきた。本稿では，本活動の現状と今後の予定，狙いについて述べる．Performance degradation by environmental interference such as noise and reverberation is inevitable for the current state of the art speech recognition. So far there have been many researches to overcome this problem. However, it has been very difficult to know actual improvements and compare those methods since those methods were developed for individual tasks and on different corpus. To overcome these problems, we organized a working group under Information Processing Society of Japan. This paper introduces current activities and a future road-map of a common standardized framework for noisy speech recognition by the working group organized by the authors.
一般社団法人情報処理学会, 2005年12月22日, 情報処理学会研究報告音声言語情報処理（SLP）, 2005(127) (127), 139 - 144, 日本語

複素スペクトル平面での2chマイクロフォンを用いた雑音除去
大久保俊也, 滝口哲也, 有木康雄
2005年03月08日, 日本音響学会研究発表会講演論文集, 2005(1) (1), 123 - 124, 日本語

単語共起に注目した野球実況中継の構造化
佐古淳, 滝口哲也, 有木康雄
2005年03月08日, 日本音響学会研究発表会講演論文集, 2005(1) (1), 149 - 150, 日本語

コンテキストアウェアネスに基づく対話型テレビの検討
滝口哲也, 有木康雄, 佐古淳
2005年, 音声言語情報処理研究会, SLP2005-58, pp. 25-30, 日本語
速報，短報，研究ノート等（学術雑誌）

Kernel PCAを用いたロバスト特徴量抽出の検討
滝口哲也, 有木康雄
2005年, 音声言語情報処理研究会, SLP-59, pp. 175-180, 日本語
速報，短報，研究ノート等（学術雑誌）

Improved HMM Separation for Distant-Talking Speech Recognition
TAKIGUCHI Tetsuya, NISHIMURA Masafumi
In distant-talking speech recognition, the recognition accuracy is seriously degraded by reverberation and environmental noise. A robust speech recognition technique in such environments, HMM separation and composition, has been described in [1]. HMM separation estimates the model parameters of the acoustic transfer function using adaptation data uttered from an unknown position in noisy and reverberant environments, and HMM composition builds an HMM of noisy and reverberant speech, using the acoustic transfer function estimated by HMM separation. Previously, HMM separation has been applied to the acoustic transfer function based on a single Gaussian distribution. However the improvement was smaller than expected for the impulse response with long reverberations. This is because the variance of the acoustic transfer function in each frame increases, since the length of the impulse response of the room reverberation is longer than that of the spectral analysis window. In this paper, HMM separation is extended to estimate the acoustic transfer function based on the Gaussian mixture components in order to compensate for the greater variability of the acoustic transfer function, and the re-estimation formulae are derived. In addition, this paper introduces a technique to adapt the noise weight for each mel-spaced frequency in order to improve the performance of the HMM separation in the linear-spectral domain, since the use of the HMM separation in the linear-spectral domain sometimes causes a negative mean output due to the subtraction operation. The extended HMM separation is evaluated on distant-talking speech recognition tasks. The results of the experiments clarify the effectiveness of the proposed method.
一般社団法人電子情報通信学会, 2004年05月01日, IEICE transactions on information and systems, 87(5) (5), 1127 - 1137, 英語

ハンズフリー音声認識におけるHMM分離法の改良
滝口哲也, 西村雅史
2003年03月18日, 日本音響学会研究発表会講演論文集, 2003(1) (1), 45 - 46, 日本語

残響下音声認識におけるHMM分離法の改良
滝口哲也, 西村雅史
2003年, 情報処理学会音声言語情報処理研究会, SLP45-3, 日本語
[査読有り]
その他

雑音・残響下音声認識におけるHMM分離・合成法の改良
滝口哲也, 西村雅史
2003年, 電子情報通信学会応用音響研究会, EA2003-2, 日本語
[査読有り]
その他

プロファイルフィッティング法による雑音抑圧処理
市川治, 滝口哲也, 西村雅史
本報告では,マイクロフォンアレイの指向性をいろいろな方向に向けて観測される角度別の音声パワー分布の形状(プロファイル)に注目した雑音抑圧法を提案する.観測されたプロファイルを既知のプロファイルに成分分解することにより,目的方向外から到来する雑音成分を排除し,目的方向の音声のみを抽出することができることを示す.本手法は,特に小規模のマイクロフォンアレイにおいて効果的であり,例えばわずか左右2本のマイクロフォンを使用した場合でも,雑音環境下の音声認識精度を大幅に改善することができる.音声認識実験により,従来の2チャンネルスペクトルサブトラクション型ビームフォーマよりも高い音声認識率が得られることを示す.
一般社団法人電子情報通信学会, 2002年05月23日, 電子情報通信学会技術研究報告. SP, 音声, 102(107) (107), 19 - 23, 日本語

ビーム形状に注目した音声強調処理
市川治, 滝口哲也, 西村雅史
2002年03月18日, 日本音響学会研究発表会講演論文集, 2002(1) (1), 69 - 70, 日本語

フレーム単位でのモデル選択による突発性雑音下での音声認識
滝口哲也, 西村雅史
2002年03月18日, 日本音響学会研究発表会講演論文集, 2002(1) (1), 57 - 58, 日本語

調波構造と音源方向を利用した音声強調手法の検討
滝口哲也, 阪本正治, 西村雅史
2002年03月18日, 日本音響学会研究発表会講演論文集, 2002(1) (1), 179 - 180, 日本語

車内音声認識におけるマルチスタイル学習法の効果について
滝口哲也, 西村雅史
2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 155 - 156, 日本語

構造を仮定しない文解釈の一手法
伊東伸泰, 荻野紫穂, 滝口哲也, 西村雅史
2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 49 - 50, 日本語

声を認識する
滝口哲也
一般社団法人日本機械学会, 2001年06月05日, 日本機械学会誌, 104(991) (991), 360 - 361, 日本語

HMM 合成と遅延和アレーの統合による混合音声の認識
滝口哲也, 西村雅史
2001年03月01日, 日本音響学会研究発表会講演論文集, 2001(1) (1), 181 - 182, 日本語

HMM合成法を用いた混合音声の認識
滝口哲也, 西村雅史
2000年09月01日, 日本音響学会研究発表会講演論文集, 2000(2) (2), 113 - 114, 日本語

フレーム間の関係を考慮した残響音声認識の検討
杉村耕司, 滝口哲也, 中村哲, 鹿野清宏
1999年03月01日, 日本音響学会研究発表会講演論文集, 1999(1) (1), 127 - 128, 日本語

伝達特性Ergodic-HMMを用いたHMM合成法に基づく移動話者の音声認識
滝口哲也, 中村哲, 鹿野清宏
1999年03月01日, 日本音響学会研究発表会講演論文集, 1999(1) (1), 27 - 28, 日本語

雑音・残響環境下でのHMM分解・合成法によるモデル適応化
滝口哲也, 中村哲, 鹿野清宏
ユーザがマイクロホンから離れて発話した場合のハンズフリー音声認識に対しては, 残響環境下において認識精度が劣化してしまう.なぜなら, その音声は, 周囲の雑音および残響の影響を受けてしまい, 学習データと観測データとの間にミスマッチが生じてしまうためである.それらの影響に対処するために, 筆者らは, これまでに音響伝達特性HMMを作成し, HMM合成法による音声認識法を提案した[1], [2].しかし, その方法では認識を行う前に, あらかじめ各場所からの音声伝達特性を測定する必要があった.本論文では, 音響伝達特性HMMの推定を, 観測信号より行う方法を提案する.この方法では, 話者の場所が既知である必要はなく, 任意の場所から発話された適応データを用いて, 最ゆう推定に基づき, HMMを一つの既知HMMともう一つのHMMに分解し, モデルパラメータの推定を行う.音素を単位にした500単語認識実験の結果, 特定話者認識率が77.2%から91.2%に, 不特定話者認識率は54.4%から66.2%に改善され, 提案方法の有効性が示された.
電子情報通信学会, 1998年10月, 電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理, 81(10) (10), 2231 - 2238, 日本語

電話音声認識におけるHMM分解・合成法の性能評価
滝口哲也, 中村哲, 鹿野清宏, 森島昌俊, 磯部俊洋
本稿では、著者らがこれまでに提案したHMM分解・合成法を有線・コドレスハンドセットから受音し一般公衆回線を経由して収録した電話音声に対して適用した。このHMM分解法は、尤度最大化にもとづいて、合成HMMをある既知HMMともう一方の未知HMMに分解する方法である。HMM分解法では、雑音HMMをパワースクトラム領域において分解し、ケプストラム領域において回線特性HMMを分解する。10機種の有線・コードレスハンドセットから受音し一般公衆回線を経由した音声に対する実験の結果、有線電話音声の認識率が60.9%、コードレス電話音声の認識率が19.6%から、HMM分解・合成法を適用することにより、78.1%、43.2%へ改善された。
一般社団法人電子情報通信学会, 1998年06月12日, 電子情報通信学会技術研究報告. SP, 音声, 98(106) (106), 39 - 44, 日本語

短区間スペクトル分析における残響補正に関する検討
中村哲, 滝口哲也, 鹿野清宏
実環境下における音声の認識、特にマイクロホンから離れて音声を入力するハンズフリーの音声認識では、環境に存在する雑音および部屋の残響が大きな性能劣化をもたらしてしまう。これまでに著者らは、比較的残響時間の短い部屋内を移動する話者の音声認識を実現するため、モデル適応化の立場からHMM分解・合成法を提案し有効性を示してきている。しかしながら、HMM分解・合成法の処理は短区間フレーム分析によるケプストラムに基づいているため、長い残響に対しては充分な効果を得ることが難しかった。本稿では、この問題を解決することを目的に、分析フレーム長より長い残響時間を有するインパルス応答の影響を短区間スペクトル分析に基づいて対処するための基礎検討について述べる。
一般社団法人電子情報通信学会, 1998年06月12日, 電子情報通信学会技術研究報告. SP, 音声, 98(106) (106), 17 - 22, 日本語

電話音声の話者認識における雑音とハンドセットの影響
宮本宗易, 滝口哲也, 中村哲, 鹿野清宏
1998年03月17日, 全国大会講演論文集, 56, 82 - 83, 日本語

短区間スペクトル分析における残響補正に関する検討
中村哲, 滝口哲也, 鹿野清宏
1998年03月01日, 日本音響学会研究発表会講演論文集, 1998(1) (1), 103 - 104, 日本語

雑音・残響環境下でのHMM分解・合成法によるハンズフリー音声認識
滝口哲也, 中村哲, 鹿野清宏
ユーザがマイクロホンから離れて発話した場合のハンズフリー音声認識では，周囲の雑音及び残響の影響を受けてしまい，認識精度が劣化してしまう．それらの影響に対処するために，本稿では，観測信号に対する尤度最大化にもとづいた，音響伝達特性HMMの推定方法を提案する．提案するHMM分解法は，雑音・残響環境下では2回適用される．まず，周波数領域において，雑音HMMからの分解をML推定にもとづいて行なう．更に，領域変換を行ない，ケプスドラム領域において，音響伝達特性HMMをML推定にもとづいて分解する．また，この領域変換の際には，特徴パラメータを直接取り扱うのではなく，モデルパラメータを用いる．音素を単位にした500単語認識実験の結果，特定話者認識率が77．2%から91．2%に，不特定話者認識率は54．4%から66．2%に改善され，提案方法の有効性が示された．This paper proposes a new method to estimate HMM parameters of an acoustical transfer function based on HMM decomposition for hands-free speech recognition. This method is able to estimate the model parameters by maximizing a likelihood (ML) of noisy reverberant speech data in the model domain. The proposed HMM decomposition method is applied twice to noisy reverberant speech. Firstly, the HMM decomposition method is applied in the liner spectral domain to estimate the distorted speech HMMs by ML estimation. The obtained distorted speech HMMs are converted to the cepstral domain. Then the HMM decomposition method is applied again in the cepstral domain to estimate the acoustical transfer function HMM by ML estimation. The speaker dependent and independent recognition rates for distant-talking 500 words are improved from 77.2% to 91.2% and from 54.4% to 66.2%, respectively.
一般社団法人情報処理学会, 1998年02月05日, 情報処理学会研究報告音声言語情報処理（SLP）, 1998(12) (12), 87 - 94, 日本語

HMM分解によるモデル適応化法の実環境評価
滝口哲也, 中村哲, 鹿野清宏
1997年09月01日, 日本音響学会研究発表会講演論文集, 1997(2) (2), 157 - 158, 日本語

HMM分解に基づいたモデル適応化法による雑音・残響環境下での音声認識
滝口哲也, 中村哲, HUO Qiang, 鹿野清宏
1997年03月01日, 日本音響学会研究発表会講演論文集, 1997(1) (1), 39 - 40, 日本語

HMM分解に基づいたパラメータ適応化法による残響環境下での音声認識
滝口哲也, 中村哲, Huo Qiang, 鹿野清宏
ハンズフリー音声認識に対しては、残響環境下において認識精度が劣化してしまう。本稿では、認識精度を劣化させる要因の一つである音響伝達特性HMMの推定法を提案する。この方法では、話者の場所が既知である必要はなく、任意の場所から発話された適応データを用いて、パラメータの推定を行なう。我々がこれまでに提案した方法では、認識を行なう前にあらかじめ各場所からの音響伝達特性を測定する必要がある。しかしながら実際の環境において、あらかじめ音響伝達特性を測定しておくのは不便である。提案方法のHMM分解は、HMM合成の逆の過程により導かれ、任意の場所から発話された観測データを用いて音響伝達特性を推定することが可能である。500単語認識実験の結果、特定話者認識率が79.8%から87.6%まで改善され、不特定話者認識率は、66.5%から70.1%まで改善され、これらの結果より提案方法の有効性を示す。
一般社団法人電子情報通信学会, 1997年01月16日, 電子情報通信学会技術研究報告. SP, 音声, 96(448) (448), 7 - 12, 日本語

雑音と残響のある環境下でのHMM合成によるハンズフリー音声認識法
滝口哲也, 中村哲, 鹿野清宏
実環境においては,加法性雑音だけでなく,残響も認識精度を劣化させる要因となる.本論文では,そのような環境における音声認識法としてHMM合成法に基づく手法を提案する.この手法により,話者はマイクロホンの位置を意識せずに発話することが可能になり,ユーザインタフェースの向上が実現される.HMM合成法は,加法性雑音の対処方法として提案されている[1], [2].本提案手法では,従来の雑音のHMMによるモデル化に加えて,音響伝達特性のHMMによるモデル化を試みる.このHMMの各状態を音源位置に対応させることにより,話者が自由に動いても対処することが可能になる.雑音と残響のある環境下での音声モデルを,この音響伝達特性HMM,雑音HMM,クリーン音声HMMを合成することで作成し,認識は,最ゆう法により行われる.本提案手法により,雑音と残響により影響を受けた音声に対して,特定話者認識では,4.8%から67.2%へ,不特定話者認識では,18.7%から57.2%への認識率の改善が得られた.
電子情報通信学会, 1996年12月25日, 電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理, 79(12) (12), 2047 - 2053, 日本語

残響環境下でのHMM合成・分割を用いたモデルパラメータ適応
滝口哲也, 中村哲, 鹿野清宏
1996年09月01日, 日本音響学会研究発表会講演論文集, 1996(2) (2), 147 - 148, 日本語

マイクロホンアレーとHMM合成による実環境における音声認識実験
青木二寛, 山田武志, 滝口哲也, 中村哲, 鹿野清宏
1996年09月01日, 日本音響学会研究発表会講演論文集, 1996(2) (2), 133 - 134, 日本語

HMM合成を用いた音声認識における残響時間の影響の検討
滝口哲也, 中村哲, 鹿野清宏
1996年03月01日, 日本音響学会研究発表会講演論文集, 1996(1) (1), 43 - 44, 日本語

加法性雑音、伝達特性による歪みを受けた音声のHMM合成による認識
滝口哲也, 中村哲, 鹿野清宏
実環境において認識精度を劣化させる要因として、様々な背景雑音が存在する。また話者がマイクロホンの位置を意識せずに発話した際、音声は部屋の伝達特性による歪みの影響を受け、認識精度が劣化する。本稿では、雑音HMMによるモデル化に加えて伝達特性のHMMによるモデル化を試みる。この伝達特性HMMの状態を音源位置に対応させることにより、話者は自由に動いてもモデル側でそれを対処することが可能になる。さらに伝達特性の影響により歪んだ雑音重畳音声を認識するために、音声、雑音、伝達特性の合成HMMを作成する方法を提案する。500単語認識実験の結果、伝達特性により歪んだ雑音重畳音声に対し、クリーン音声で学習したHMMでの認識率は23・6%、雑音に対して適応した合成モデルでは78.6%、さらに雑音と伝達特性に対して適応した合成HMMを使用することにより80.6%の性能となり、本方法により57.0%の改善ができることが明らかとなった。
一般社団法人電子情報通信学会, 1995年10月20日, 電子情報通信学会技術研究報告. SP, 音声, 95(319) (319), 41 - 46, 日本語

■ 書籍等出版物

Evaluation of an Active Microphone with a Parabolic Reflection Board for Monaural Sound-Source-Direction Estimation (Chapter on Soundscape Semiotics - Localisation and Categorisation. Book edited by Hervé Glotin)
TAKIGUCHI Tetsuya, TAKASHIMA Ryoichi, ARIKI Yasuo
共編者(共編著者), I-Tech Education and Publishing, 2014年02月, 英語, In this chapter, we introduce the concept of an active microphone that achieves a good combination of active-operation and signal processing. The active microphone has a parabolic reﬂection board, which is extremely simple in construction. The reﬂector and its associated microphone rotate together, perform signal processing, and seek to locate the direction of the sound source., ISBN: 9789535112266
学術書

ディジタル信号処理
有木康雄, 滝口哲也, 梶川嘉延, 坂野秀樹, 間野一則, 高橋正信
共著, オーム社, 2013年01月, 日本語, ISBN: 9784274213052
教科書・概説・概論

Single-Channel Sound Source Localization Based on Discrimination of Acoustic Transfer Functions, Chapter on "Advances in Sound Localization" Book edited by Powel Strumillo
TAKASHIMA Ryoichi, TAKIGUCHI Tetsuya, ARIKI Yasuo
共著, Intech Open Publisher, 2011年03月, 英語
学術書

Video Editing Based on Situation Awareness from Voice Information and Face Emotion, Chapter on "Digital Video." Book edited by Floriano De Rango.
TAKIGUCHI Tetsuya, ADACHI Jun, ARIKI Yasuo
共著, I-Tech Education and Publishing, 2010年02月, 英語
学術書

3D Human Posture Estimation Using HOG Features of Monocular Images, Chapter on "Pattern Recognition." Book edited by Peng-Yeng Yin.
ONISHI Katsunori, TAKIGUCHI Tetsuya, ARIKI Yasuo
共著, I-Tech Education and Publishing, 2009年10月, 英語
学術書

System Request Utterance Detection Based on Acoustic and Linguistic Features
Takiguchi Tetsuya, Sako Atsushi, Yamagata Tomoyuki, Ariki Yasuo
共著, I-Tech Education and Publishing, 2008年11月, 英語
学術書

Voice and Noise Detection with AdaBoost
TAKIGUCHI Tetsuya, MIYAKE Nobuyuki, MATSUDA Hiroyoshi, ARIKI Yasuo
共著, I-Tech Education and Publishing, 2007年, 英語
学術書

■ 講演・口頭発表等

表情認知における注意欠如多動症傾向とスキャニングパターンの関連
出水志緒梨, 北条直樹, 滝口哲也, 中井靖
電子情報通信学会総合大会, 2024年03月
ポスター発表

ラベルなし音声を用いた自己教師あり学習による器質性構音障害者の音声認識
北条直樹, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
電子情報通信学会総合大会, 2024年03月
ポスター発表

Human-in-the-LoopとVision & Languageモデルを用いた道路損傷検出のための効率的なアノテーション
富谷竜一, Tristan Hascoe, 高島遼一, 滝口哲也
電子情報通信学会総合大会, 2024年03月
ポスター発表

物体振動を用いた畳み込みニューラルネットワークによる音源復元
布施陽平, 滝口哲也, 有木康雄
第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議
ポスター発表

ハイスピードカメラ画像を用いた唇動画像からの音声生成
高島悠樹, 滝口哲也, 有木康雄
第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議
ポスター発表

Knowledge graph embeddings for Zero-Shot Learning
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議
ポスター発表

災害応急対策支援を目的とした衛星画像の被覆分類精度向上について
吉原篤, 滝口哲也, 有木康雄
第20回画像の認識・理解シンポジウム, 2017年, 日本語, 国内会議
ポスター発表

Automation of hospital patients’ leftover food quantity estimation
Tristan Hascoet, Yasuo Ariki, Tetsuya Takiguchi
第20回画像の認識・理解シンポジウム, 2017年, 英語, 国内会議
ポスター発表

衛星画像解析と地図情報の統合による被害状況地図の作成
吉原篤, 笹島敬介, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議
ポスター発表

映像中の変動の大きな物体に対する音源復元のための物体振動抽出手法の検討
安見祐亮, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議
ポスター発表

SIFT Boosting for Handwriting Recognition
CHEN Jinhui, KAMIHIGASHI Takashi, ITOH Munehiko, TAKATSUKI Yasuo, TAKIGUCHI Tetsuya, ARIKI Yasuo
画像の認識・理解シンポジウム, 2016年08月, 英語, 国内会議
ポスター発表

Object-Based Geo-Eye Satellite Image Segmentation for Tsunami Disaster Map Preparation
Mohammad Reza Poursaber, Yasuo Ariki, Tetsuya Takiguchi, Atsushi Yoshihara, Mohammad Safi
画像の認識・理解シンポジウム, 2016年08月, 英語, 国内会議
ポスター発表

Convolutional Neural Networksを用いた物体の機能推定
東龍之介, 北野陽祐, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議
ポスター発表

適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議
口頭発表（一般）

少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換
藤井貴生, 相原龍, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議
口頭発表（一般）

Deep Boltzmann Machine を用いた音素ラベル情報推定
高島悠樹, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議
口頭発表（一般）

Modeling Deep Bidirectional Relationships for Image Classification and Generation
NAKASHIKA Toru, Tetsuya Takiguchi, Yasuo Ariki
画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議
ポスター発表

Deformable Part Modelを用いた物体の機能推定
北野陽祐, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議
ポスター発表

Convolutional Bottleneck Networks を用いた重度難聴者のマルチモーダル音声認識
高島悠樹, 柿原康博, 相原龍, 滝口哲也, 有木康雄, 三谷信之, 大森清博, 中園薫
画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議
ポスター発表

A Robust Multi-classification Algorithm Using Learning SURF Cascade for Emotional Recognition
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
画像の認識・理解シンポジウム, 2015年, 英語, 国内会議
ポスター発表

話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2014年秋季研電子情報通信学会技術研究報告究発表会, 2014年12月, 日本語, 国内会議
口頭発表（一般）

話者適応を用いたNMFによる雑音環境下の声質変換
藤井貴生, 相原龍, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議
口頭発表（一般）

話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議
口頭発表（一般）

遺伝的アルゴリズムを用いた構音障害者の音声特徴量抽出に最適なランダム行列の生成
片岡悠一郎, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議
口頭発表（一般）

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘, 滝口哲也, 有木康雄
電子情報通信学会技術研究報告, 2014年05月, 日本語, 国内会議
口頭発表（一般）

物体の機能発現を可能とする属性情報の抽出
北野陽祐, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議
ポスター発表

ボールと選手のHMMを統合したサッカー映像のイベント認識
王鶴錦, 伊藤拓紀, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議
ポスター発表

A Robust Learning Algorithm Based on SURF and PSM for Facial Expressions Recognition
Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki
画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議
ポスター発表

AAMによる顔方位に依存しない連続発話認識
LI Yiting, 楊楠, 滝口哲也, 有木康雄
画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議
ポスター発表

物体の機能に基づく認識
田中雄翔, 滝口哲也, 有木康雄
第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では，物体の画像パターン認識ではなく，物体の機能に基づいた認識について研究を行う．, 国内会議
ポスター発表

サッカー映像におけるホイッスル音声情報を利用したイベント検出
伊藤拓紀, 滝口哲也, 有木康雄
第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では，世界的に人気のあるスポーツであるサッカーにおけるイベント検出手法を提案する．ここでのイベントとは，サッカーの試合における，ゴールキックやコーナーキック，ゴールといったアウトオブプレーを指す．, 国内会議
ポスター発表

RGB-D based 3D-Object Recognition by LLC using Depth Spatial Pyramid
NAKASHIKA Toru, HORI Takahiro, TAKIGUCHI Tetsuya, ARIKI Yasuo
第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In our proposed approach, the overall object shape is captured by the depth spatial pyramid based on depth information. In more detail, multiple features within each sub-region of the depth spatial pyramid are pooled. As a result, the feature representation including the depth topological information is constructed. We use not only SIFT, but also histograms of oriented normal v, 国内会議
ポスター発表

Image Classification Based on CodeBook on CodeBooks
TANAKA Katsuyuki, TAKIGUCHI Tetsuya, ARIKI Yasuo
第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel image classification approach, Locality-constrained Linear Coding with codebook on codebooks. The fl ow of our proposed method is, i) generate a class codebook from each class using local descriptors of the class, ii) generate a global codebook based on class codebooks, and iii) encode local descriptors to codes with LLC based on the global cod, 国内会議
ポスター発表

Human Emotions Estimation Using Combination of 3D Average Face and LUT-AdaBoost
CHEN Jinhui, ARIKI Yasuo, TAKIGUCHI Tetsuya
第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, One of the most crucial techniques associated with Computer Vision is technology that deals with facial recognition, especially, the automatic estimation of human emotions. However, in real-time facial expression recognition, when a face turns sideways, the expressional feature extraction becomes difficult as the view of camera changes and recognition accuracy degrades signific, 国内会議
ポスター発表

High-frequency Restoration using Deep Belief Nets for Super-resolution
NAKASHIKA Toru, TAKIGUCHI Tetsuya, ARIKI Yasuo
第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel super-resolution method using DBNs to restore the missing high-frequencies, motivated by the above-mentioned characteristics of DBNs. In our approach, a low-resolved image is first scaled up to the prescribed size by using bicubic interpolation, and the high-frequency information is estimated by inference of trained DBNs. The networks are train, 国内会議
ポスター発表

AAMを用いた音声・画像による連続発話認識への構想
楊楠, 滝口哲也, 有木康雄
第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では，マルチモーダル連続発話音声認識において，AAMパラメータを用いた画像特徴量抽出手法を提案する．, 国内会議
ポスター発表

音声解析を用いた言語発達評価 -先天性難聴児への応用-
前林英貴, 高田哲, 滝口哲也
第55回日本小児神経学会学術集会, 2013年06月, 日本語, 日本小児神経学会, 大分, 国内会議
ポスター発表

プロソディの音声解析による自閉症スペクトラム障碍児と定型発達児の識別精度
中井靖, 滝口哲也, 松井学洋, 石岡由紀, 高田哲
第116回日本小児科学会学術集会, 2013年04月, 日本語, 日本小児科学会, 広島, 国内会議
口頭発表（一般）

プロソディの音声解析による自閉症スペクトラム障害児と定型発達児の識別精度
中井靖, 滝口哲也, 高田哲
第108回日本小児精神神経学会, 2012年12月, 日本語, 神戸, 国内会議
口頭発表（一般）

言語の質的側面からの自閉症児と定型発達児の識別
中井靖, 滝口哲也, 松井学洋, 石岡由紀, 高田哲
第115回日本小児科学会学術総会, 2012年04月, 日本語, 日本小児科学会, 福岡, 国内会議
口頭発表（一般）

単眼サッカー映像における時間状況グラフを用いた選手の3次元追跡
伊藤拓紀, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

視点移動カメラで撮影したサッカー映像中のボール追跡とイベント検出
曽和知哉, 有木康雄, 滝口哲也
電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

使用履歴に基づくユーザー嗜好を考慮した POMDPによる音声対話システム
藤川賢至, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
ポスター発表

構音障害者を対象としたSSMを用いた音声認識の検討
石井良, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
ポスター発表

学習画像の選択に基づくAAMの繰り返し適応
高柳陽平, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討
古賀健太郎, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
口頭発表（一般）

音響伝達特性を用いたシングルチャネル音源位置推定における未学習位置の推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
口頭発表（一般）

スペクトルと韻律を特徴量とした GMMによる感情音声変換
相原龍, 高島遼一, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
口頭発表（一般）

スパース表現に基づく構音障害者の発話スタイル変動にロバストな特徴量抽出
吉岡利也, 高島遼一, 滝口哲也, 有木康雄
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
ポスター発表

Web画像を用いたカテゴリ別Visual Wordsによる一般物体認識
田中雄翔, 有木康雄, 滝口哲也
電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

Random Projection を用いた構音障害者の音声認識
高塚智敬, 滝口哲也, 有木康雄, 李義昭
日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議
ポスター発表

Human Emotions Estimation by Adaboost Based on User's Facial Expression and Average Face from Different Directions
CHEN Jinhui, TAKIGUCHI Tetsuya, ARIKI Yasuo
電子情報通信学会総合大会, 2012年03月, 英語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

An AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic Activity
TAKASHIMA Ryoichi, TAKIGUCHI Tetsuya, ARIKI Yasuo, KAWAKATSU Masaki, KOTANI Makoto
日本音響学会2012年春季研究発表会, 2012年03月, 英語, 日本音響学会, 神奈川, 国内会議
口頭発表（一般）

Age Estimation Based on Gaussian Process Regression of AAM Parameters Using Hollywood Database
Songzhu Gao, 有木康雄, 滝口哲也
電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議
ポスター発表

音声の質的側面からの自閉症児と定型発達児の識別 ‐音声識別プログラムと言語聴覚士の識別精度の比較‐
中井靖, 高田哲, 松井学洋, 石岡由紀, 滝口哲也
第50回日本小児神経学会近畿地方会, 2011年10月, 日本語, 日本小児神経学会, 大阪, 国内会議
口頭発表（一般）

尤度最大化に基づくエコー推定を用いたマルチスピーカ音響エコーキャンセラの検討
古賀健太郎, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
ポスター発表

未知語モデルを用いたCRFに基づく音声認識誤り訂正
中谷良平, 岩橋直人, 中野幹生, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
口頭発表（一般）

文脈特徴を用いたCRFによる音声認識誤り訂正
中谷良平, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
ポスター発表

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
石井良, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
ポスター発表

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
口頭発表（一般）

スパース性基準によるF0 周波数選択を用いたSpecmurt による多重音解析
西村大樹, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
口頭発表（一般）

2ch マイクによるCSP 係数の識別に基づく話者の頭部方向の推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議
口頭発表（一般）

言語の質的側面からの自閉症と定型発達児の識別 ―識別器と言語聴覚士の比較―
中井靖, 滝口哲也, 松井学洋, 石岡由紀, 高田哲
第114回日本小児科学会, 2011年08月, 日本語, 日本, 東京, 国内会議
口頭発表（一般）

固有空間法による構音障害者の母音声質変換の検討
石井良, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議
その他

確率スペクトルを用いた基底生成モデルとNMFによる混合楽音解析
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

音響伝達特性の判別に基づく単一チャネル音源位置推定におけるMKL-SVMを用いた特徴量重みの自動学習
高島遼一, 滝口哲也, 有木康雄
日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

スパース性を考慮したSpecmurtによる多重音解析
西村大樹, 中鹿亘, 滝口哲也, 有木康雄
日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
堀貴博, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議
その他

CRFとConfusion Networkを用いた音声認識誤り訂正
中谷良平, 滝口哲也, 有木康雄
日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

ARCOを特徴量とする顔検出の併用による人誤検出の棄却
山下亮, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議
その他

2+3次元Active Appearance Modelを用いた視線方向推定
中松由香梨, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議
その他

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討
高島遼一, 滝口哲也, 有木康雄
日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議
口頭発表（一般）

バイラテラルフィルタによる雑音重畳音声の認識効果に関する検討
山田馨士朗, 有木康雄, 滝口哲也
日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議
ポスター発表

NMFと基底モデルを用いた多重楽音解析
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議
ポスター発表

MKLによる構音障害者の音声特徴量評価
高塚智敬, 滝口哲也, 有木康雄, 李義昭
日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議
ポスター発表

Buried Markov Modelを用いた構音障害者の音声認識の検討
宮本千琴, 駒井祐人, 滝口哲也, 有木康雄, 李義昭
日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議
ポスター発表

プロソディの音声解析による乳幼児期の言語発達
中井靖, 滝口哲也, 松井学洋, 石岡由紀, 高田哲
第113回日本小児科学会, 2010年04月, 日本語, 日本小児科学会, 盛岡, 国内会議
口頭発表（一般）

部分観測マルコフ決定過程を用いたカーナビゲーションシステムにおける音声対話
岸本康秀, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成
中鹿亘, 立花隆輝, 西村雅史, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

識別的言語モデルに基づくConfusion Network上での音声認識誤り訂正
松本智彦, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

残響適応パラメータを用いた単一チャネル音源位置推定の検討
高島遼一, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

雑音環境下音声認識のためのバイラテラルフィルタを用いた音声特徴量抽出
山田馨士朗, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

階層的領域分割法に基づく木構造条件付確率場による一般物体認識
奥村健志, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議
口頭発表（一般）

ランダムプロジェクションを用いた音響モデルの線形変換
吉井麻里子, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

ウェーブレット変換を用いた学習型の超解像
小川祐樹, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議
口頭発表（一般）

PLSA による構音障害者の音素体系構築の検討
高塚智敬, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

Buried Markov Model の構造構築における独立性検定法の検討
山本隆之, 滝口哲也, 有木康雄
日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

3次元パーティクルフィルタとEMDを用いた選手の追跡
西濃拓郎, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議
口頭発表（一般）

複数特徴量の重み付け統合による一般物体認識
須賀晃, 滝口哲也, 有木康雄
情報処理学会平成21年度関西支部大会, 2009年09月, 日本語, 情報処理学会関西支部, 神戸, 国内会議
口頭発表（一般）

多重ベータ分布を用いた音色形状の数理モデリングによる楽器音生成
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議
ポスター発表

人物の顔画像情報に基づくコンテンツの解析
岡田朋子, 滝口哲也, 有木康雄
第8回情報科学技術フォーラム, 2009年09月, 日本語, 情報処理学会など, 仙台, 国内会議
口頭発表（一般）

高精度画像マッチングを用いたSAR衛星画像からの地表変位推定
水野雄介, 滝口哲也, 有木康雄
第8回情報科学技術フォーラム, 2009年09月, 日本語, 情報処理学会など, 仙台, 国内会議
口頭発表（一般）

局所特徴量を用いた構音障害者の音声認識の検討
宮本千琴, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議
ポスター発表

Random Projection を用いた音声特徴量抽出におけるRandom Matrix の統合
吉井麻里子, 滝口哲也, 有木康雄
日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議
ポスター発表

HMMを用いた音響伝達特性の推定と音源位置推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議
ポスター発表

Buried Markov Model を用いた音声認識モデルの検討
山本隆之, 滝口哲也, 有木康雄
日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議
ポスター発表

Bottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定
大西克則, 滝口哲也, 有木康雄
情報処理学会平成21年度関西支部大会, 2009年09月, 日本語, 情報処理学会関西支部, 神戸, 国内会議
口頭発表（一般）

尤度最大化基準を用いたエコー推定に基づく車室内マルチスピーカ音響エコーキャンセラの検討
古賀健太郎, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

複数特徴量の重み付け統合による一般物体認識
須賀晃, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

複数の言語情報を用いたCRFによる音声認識誤りの検出
松本智彦, 佐古淳, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

単眼動画像におけるボールと選手の3次元位置推定
西濃拓郎, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

多重ベータ分布による音色形状モデルを用いた多重楽音の解析
中鹿亘, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

雑談中の潜在的話題遷移を考慮したユーザーの意図推定の検討
佐古淳, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

構音障害者の連続音声認識の検討
宮本千琴, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

勾配ヒストグラムに基づく時間-周波数特徴を用いた単語認識
室井貴司, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討
高島遼一, 住田雄司, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

位相限定相関法を用いたマイクロ波レーダからの地表変位推定
水野雄介, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

ランダムプロジェクションを用いた音声特徴量抽出
吉井麻里子, 滝口哲也, 有木康雄, Jeff Bilmes
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

パラボラ反射板による音響伝達特性の変化を用いたシングルチャネル音源方向推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議
ポスター発表

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定
大西克則, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

AAMのモデル選択による方位に頑健な不特定人物の顔表情認識
岡田朋子, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

AAMと回帰分析による視線、顔方向同時推定
高谷学, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議
口頭発表（一般）

顔表情クラスタリングによる映像コンテンツへのタギング
宮原正典, 青木政樹, 滝口哲也, 有木康雄
情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議
口頭発表（一般）

SIFTとGraph Cuts を用いた物体認識及びセグメンテーション
須賀晃, 福田恵太, 滝口哲也, 有木康雄
情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議
口頭発表（一般）

HOG特徴に基づく単眼画像からの人体3次元姿勢推定
大西克則, 滝口哲也, 有木康雄
情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議
口頭発表（一般）

AdaBoostとSaliency Mapを用いたGraph Cutsによる物体領域の自動抽出法
福田恵太, 滝口哲也, 有木康雄
情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議
口頭発表（一般）

勾配に基づく特徴量を用いた音声認識の検討
室井貴司, 滝口哲也, 有木康雄
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

メタモデルと音響モデルの統合による構音障害者の音声認識
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

アクティブマイクロフォンによる音響伝達特性を用いたシングルチャネル音源方向推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

MDL基準とICAを用いた統合音素部分空間による音声特徴量抽出の検討
朴玄信, 滝口哲也, 有木康雄
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

GMMに基づく音声特徴量の時間変動を考慮した突発性雑音の除去
三宅信之, 滝口哲也, 有木康雄
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

DP-Kernel PCAを用いた発話系列への意図ラベリングの検討
佐古淳, 滝口哲也, 有木康雄
日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議
ポスター発表

話者正規化に基づく構音障害者の音声認識
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討
古賀健太郎, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

動的計画法に基づく文脈の変化を考慮したLSAの検討
佐古淳, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定
住田雄司, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

音声特徴量抽出のための音素部分空間統合法の検討
朴玄信, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

パラボラ反射板を用いたアクティブマイクロフォンによる音源方向推定
高島遼一, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
福田恵太, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議
口頭発表（一般）

SVMとCARTの組み合わせによるAdaBoostを用いた音声区間検出
松田博義, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション
須賀晃, 福田恵太, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議
口頭発表（一般）

PrefixSpanを用いた映像における人物の日常行動抽出
戸成拓也, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議
口頭発表（一般）

LSAに基づくOne-Class SVMを用いた音声認識仮説の検証
松本智彦, 佐古淳, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

FBANKとGabor Waveletを用いたシステムへの問い合わせと雑談の判別
山形知行, 佐古淳, 滝口哲也, 有木康雄
日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議
ポスター発表

被災家屋内の人の検出と救助の為の3次元環境地図作成に関する考察
井上淳一, 滝口哲也, 有木康雄
電気関係学会関西支部連合大会, 2007年11月, 日本語, 電気学会, 神戸市, 国内会議
口頭発表（一般）

話者交替を考慮したシステムへの問い合わせと雑談の判別
山形知行, 佐古淳, 滝口哲也, 有木康雄
日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議
ポスター発表

音声区間検出を用いた音響エコーキャンセラにおける音声歪み低減の試み
古賀健太郎, 滝口哲也, 有木康雄
日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議
ポスター発表

フィッシャー重みマップに基づく音声特徴量のロバストネスに関する考察
室井貴司, 滝口哲也, 有木康雄
日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議
ポスター発表

PCA相関フィルタによる目領域の探索
鈴木亜紀子, 滝口哲也, 有木康雄
第6回情報科学技術フォーラム, 2007年09月, 日本語, 情報処理学会, 豊田市, 国内会議
口頭発表（一般）

PCAを用いた音素ベクトルによる音声特徴量抽出の検討
朴玄信, 滝口哲也, 有木康雄
日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議
ポスター発表

3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
松田博義, 滝口哲也, 有木康雄
日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議
ポスター発表

赤外線映像におけるドライバの方位判定
井上淳一, 滝口哲也, 有木康雄, 古賀健太郎
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

自動映像生成のためのパーティクルフィルタによるボールの追跡
矢野一樹, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

構音障害者の音声認識の検討
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

固定カメラ映像からの音声情報を用いた映像コンテンツ生成
足立順, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
宮原正典, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

マルチ識別器を用いた花画像検索システムの構築
福田恵太, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

マルチテンプレート型二次元CSPによる高速目領域探索
鈴木亜紀子, 滝口哲也, 有木康雄
電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議
口頭発表（一般）

ブースティングとキーワードフィルタリングによるシステム要求検出
佐古淳, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

フィッシャー重みマップに基づく不特定話者音素認識の検討
加藤俊祐, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

SVMを用いたシステムへの問い合わせと雑談の判別
山形知行, 佐古淳, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

NetTv:NetNewsとテレビ放送のクロスプラットホームにおける音声検索
田中克幸, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

AdaBoostを用いた雑音の検出と識別
三宅信之, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

3次キュムラントのバイスペクトラムとPCAによる音声区間検出
松田博義, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

2ch マイクロフォン間の振幅補正を考慮した複素スペクトル平面上での雑音除去
大久保俊也, 滝口哲也, 有木康雄
日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議
口頭発表（一般）

構音障害者の音声認識の検討
松政宏典, 滝口哲也, 有木康雄, 李義昭, 中林稔堯
電子情報通信学会第34回福祉情報工学研究会, 2007年01月, 日本語, 立命館大学びわこ・くさつキャンパス, 国内会議
口頭発表（一般）

二次元CSPによる目領域探索の高速化
鈴木亜紀子, 滝口哲也, 有木康雄
第5回情報科学技術フォーラム, 2006年09月, 日本語, 情報処理学会, 福岡, 国内会議
口頭発表（一般）

二次の射影法とスペクトルサブトラクションを用いた音響エコー抑圧
大久保俊也, 滝口哲也, 有木康雄
日本音響学会2006年秋季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議
口頭発表（一般）

音響モデルを利用したシングルチャネルによる音源方向推定の検討
住田雄司, 滝口哲也, 有木康雄
日本音響学会2006年春季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議
口頭発表（一般）

Real Adaboostによる音声区間検出
松田博義, 滝口哲也, 有木康雄
日本音響学会2006年秋季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議
口頭発表（一般）

対判別フィッシャー重みマップを利用した局所特徴量による音素認識
加藤俊祐, 滝口哲也, 有木康雄
日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

車内状況アウェアネスのための感情音データベースの設計と評価
滝口哲也, 有木康雄
日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議
口頭発表（一般）

PLSAに基づくトピックHMMを用いた言語モデル構築の検討
佐古淳, 滝口哲也, 有木康雄
日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

Adaboostと音声･唇GMMによる発話区間検出
松田博義, 増田健, 滝口哲也, 有木康雄, 神谷昌宏
電子情報通信学会総合大会, 2006年, 日本語, 電子情報通信学会, 東京, 国内会議
口頭発表（一般）

実環境における2chマイクロフォンを用いた複素スペクトル平面での雑音除去に関する検討
大久保俊也, 滝口哲也, 有木康雄
日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

フレーズに基づく状態推定音声認識の検討
佐古淳, 滝口哲也, 有木康雄
日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

フィッシャー重みマップを利用した高次局所自己相関特徴による音素認識
加藤俊祐, 滝口哲也, 有木康雄
日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

Kernel PCAを用いた残響下音声認識の検討
滝口哲也, 有木康雄
日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議
ポスター発表

■ 所属学協会

言語処理学会
2019年01月 - 現在

日本音声言語医学会

日本小児精神神経学会

日本小児神経学会

日本小児科学会

IEEE

電子情報通信学会

情報処理学会

日本音響学会

■ 共同研究・競争的資金等の研究課題

視線の文法化による脳機能・脳内病理の推定手法
長松隆, 竹村憲太郎, 中山実, 滝口哲也, 古和久朋
日本学術振興会, 科学研究費助成事業挑戦的研究(開拓), 挑戦的研究(開拓), 神戸大学, 2022年06月30日 - 2026年03月31日

口腔がん者の個人最適化音声コミュニケーション支援技術
滝口哲也
科学技術振興機構, 産学が連携した研究開発成果の展開/研究成果展開事業/研究成果最適展開支援プログラム(A-STEP)/ステージI(育成フェーズ), 2024年 - 2026年
口腔がん（術後）当事者の発話を聞き取ることは容易ではなく、「話をしても通じない」という不自由さを感じながら日常生活を送られている。本研究グループでは、そのような人々を取り残すような社会ではなく、これまでの研究成果をもとに口腔がん当事者の音声認識に関する基盤技術の研究を通して、「生きがいのあるコミュニケーション社会」の構築を目指している。本研究グループが独自に構築した日本語発話困難者音声データベースを利用した自己教師あり学習および音声合成によるデータ拡張による新たな口腔がん当事者の個人最適化音声認識を提案し、口腔がん当事者の音声コミュニケーション支援技術の社会実装を実現する。

音声想起の脳波解析に基づく発話支援の基礎研究
滝口哲也
日本学術振興会, 科学研究費助成事業, 挑戦的研究(萌芽), 神戸大学, 2022年06月30日 - 2025年03月31日
本研究課題では，音声を頭の中で想起することにより誘発された脳活動データを用いて，音声想起の脳活動パターン識別に関する手法について探索研究を行う．R4年度では，音声想起時の脳磁図(magneto-encephalography: MEG)を調査し，複雑な識別関数を学習可能な畳み込みニューラルネットワークを用いて，個人ごとに脳活動パターンの識別を行った．しかし学習パラメータ数が多く，実用に耐えうる高い精度を持つ識別器を個人ごとの少ないMEG データを用いて安定して学習することは容易ではない．R5年度では，個人ごとに少量のデータしか利用できない条件下で想起音声の分類精度を向上させるため，変分自己符号化器（variational autoencoder: VAE）を用いて複数人の音声想起時MEGの特徴表現を学習し，想起音声の分類モデルの学習に利用した．具体的には，学習したVAEのエンコーダーの重みを転移させて，新たな個人（VAEの学習時にデータを用いていない人）の想起時のMEGを分類する畳み込みニューラルネットワークの学習を行った．さらにConditional VAEを用いて新たな被験者の想起時のMEGデータを生成し，拡張したデータセットを用いて想起音声の分類モデルを学習し，提案手法の有効性を確認した．また，マルチセンサ脳計測で観測される脳信号の共分散行列は脳活動の空間的特徴を含んでおり，音声想起時の脳磁界データの特徴抽出に有効である可能性がある．本研究では，共分散行列の集合がリーマン多様体となることを利用して，音声想起時脳磁界データの共分散行列に対して接空間写像を適用し特徴量抽出を行った．識別実験により有効性を確認した．

国際的に活用できる尿路感染症の適正治療に向けた薬剤耐性菌のAI診断システムの開発
重村克巳, 滝口哲也, 大澤佳代, 宮良高維, 高島遼一
日本学術振興会, 科学研究費助成事業, 基盤研究(C), 神戸大学, 2022年04月01日 - 2025年03月31日

構音障がい者のカスタマイズドコミュニケーション基盤技術の創出
滝口哲也, 中井靖, HASCOET TRISTAN
日本学術振興会, 科学研究費助成事業, 基盤研究(B), 神戸大学, 2021年04月01日 - 2025年03月31日
昨年度の研究成果をもとに構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案，および実証実験をさまざまな観点から行い，それらの有効性を確認した．主な内容は以下のとおりである．器質性構音障がい者のテキストなし音声を用いた自己教師あり学習による音声認識について検討した．事前に大規模な健常者音声を用いて自己教師あり学習を行い，次にその学習済みモデルを初期値として，器質性構音障がい者のテキストなし音声を用いて自己教師あり学習フェーズにおけるfine-tuningを行った．器質性構音障がい者のテキストなし音声で自己教師あり学習を行った場合は，行わない場合と比べて音声認識率が改善されることが示された．また音声変換においては（主に以下の3つの課題について検討），実応用面でのリアルタイム処理を実現するため，End-to-End系列変換型声質変換への高速ニューラル波形生成モデルの導入を検討し，高品質な音質を維持したまま高速化が可能であることを確認した．また音声変換において入力話者と出力話者における音素継続長の違いや，同じ音が全く別の音のように発音されるといった問題が発生し，音声変換精度に影響を与えている．この問題の一つの対応策として柔軟なアライメントを生成可能な方法も検討し，声質変換において有効性を確認した．また言葉の繰り返しや発話が困難な場合がある吃音当事者のコミュニケーション支援として，吃音者本人の声質でかつ流暢な音声を合成可能な音声合成システムも検討した．吃音当事者の発話においては，難発に伴い（本来無いはずの）無音声区間が長く生じることがある．この難発の影響を軽減するために，健常者の音素継続長を用いて音声合成システムの学習をする方法を提案し，有効性を確認した．

構音障がい者のカスタマイズドコミュニケーション基盤技術の創出
滝口哲也, HASCOET TRISTAN, 中井靖
日本学術振興会, 科学研究費助成事業, 基盤研究(B), 神戸大学, 2021年04月01日 - 2025年03月31日
今年度は，構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案，および実証実験において有効性を確認した．概要は以下のとおりである． (1) ラベル無し発話データを用いた音響モデル学習法：本研究では，日常生活の場面等における自由発話音声を音声認識に活用することを検討する．自由発話音声の録音は，台本の読み上げによる収録と比較して構音障がい者にとって身体への負担が小さいため，比較的容易に多くのデータを収集できると考えられる．しかし，構音障がい者の発話スタイルは健常者とは異なり，人手により発話内容を認識し文字起こしを行うことは困難であるため，ラベルの無い音声データの活用方法が求められている．ラベルの無い音声データを音声認識に活用するアプローチとしては，音声認識によりラベル無し音声にラベルを付与する擬似ラベリング手法や，ラベル無し音声のみで学習できるタスクにより特徴表現学習を行い，その後ラベル付き音声でファインチューニングを行う手法などがある．本研究では，構音障がい者音声認識において擬似ラベリングと特徴表現学習を使用する場合の音声認識性能の比較を行い，さらに両方の手法を併用することで音声認識性能を向上させることを試みた． (2) 非パラレル学習による声質変換：構音障がい者の発話音声では，音素境界が曖昧となるため，声質変換モデル学習に必要となるパラレル音声学習データの作成が困難な場合がある．本研究では，パラレル音声学習データを必要としないDisentangled representationに基づく言語特徴，話者特徴による声質変換手法を提案し，構音障がい者の声質変換において有効性を確認した．

大規模生体データを用いたAIによる個人・集団レベルの創造性に関する実証研究
原田勉, 平野光俊, 松嶋登, 小池耕彦, 滝口哲也, 陳金輝, 古和久朋, 日置孝一, 鈴木竜太, 伊藤宗彦, 小川進, 松本陽一
日本学術振興会, 科学研究費助成事業, 基盤研究(A), 神戸大学, 2019年04月01日 - 2024年03月31日
2021年度は、主に２つの実験を実施した。第一に、神戸大学の学部学生を対象とした大規模実験を実施した。具体的には、2020年度と同様、Psytoolkitでプログラムした心理実験（２腕バンディット）を、個人、ダイアド（２名のグループ）、トライアド（３名のグループ）に対して実施した。それに加え、今年度はAUT（alternative use test）テストを実施した。これは拡散思考、創造性を測定するテストであり、このテストによって、これらの個人、集団の創造性のパフォーマンスについても測定した。その結果、昨年度の研究では明らかにすることができなかったグループレベルでの学習特性が創造性パフォーマンスにどのような影響を与えているのかについて分析することができた。データ分析の結果、個人、グループの創造性のパフォーマンスは、リスク愛好度や探索志向性に大きく影響されることが明らかになった。また、創造性のパフォーマンスはダイアドが最も低く、個人、トライアドが高いパフォーマンスを示すことがわかった。これは昨年度に実施した認知課題に対しるパフォーマンスの個人、ダイアド、トライアド、テトラッド間での比較分析結果と整合的なものであった。第二に、生理学研究所の協力を得て、2019年度、2020年度に個人を対象に実施したfMRI検査に対し、そのデータ解析を進めた。これらの年度では２つのfMRI実験を実施し、そのデータ解析の概要は得られている。それらの結果を１つの論文にまとめるため、検討を続けている。それに加え、今年度は２名のコミュニケーション活動を取り入れたうえで、同様のfMRI実験を実施した。ただし、実験実施時においてコロナ感染状況が悪化したため、当初予定していた被験者数を集めることができず、次年度に追試を実施していく予定である。

Deep Priorを用いた教師無し深層学習による脳内電流源推定
滝口哲也
日本学術振興会, 科学研究費助成事業, 学術変革領域研究(A), 神戸大学, 2021年09月10日 - 2023年03月31日
本研究の目的は，未学習のDeep ニューラルネットワークにより表現される暗黙的な事前分布に着目し，頭の外側のセンサで非侵襲に測定したノイズを含む観測信号から，脳内電流源を予測する逆問題を解くことである．この問題は脳内の散乱現象の透視化に関係しているといえる．今年度は下記内容について研究を遂行した． (1)Deep Decoderによる電流源推定：これまでのDeep Priorを用いて推定された解は，ネットワークの初期値や学習回数により大きく変化し，安定しないことがあった．そこで今年度はパラメータ数が少ないDeep Decoderを用いて逆問題を解く手法を提案した．シミュレーションデータによる電流源の推定結果から，電流源の事前分布を表現可能であることが示された． (2)深さ重みを考慮した電流源推定：電流源推定の精度を向上させるため，電流源の深さ重みを考慮した解法を提案した．電流源推定の代表的な手法であるMinimum Norm Estimationは脳の表面付近に解が推定されやすいということが知られており，深さ重みを利用した偏りの補正が行われている．Deep Priorを用いた手法によって得られる解も何らかの偏りを持つと考えられ，深さ重みを考慮することによって位置推定の精度が向上することが期待される．提案手法の有効性を検証するため，右1次聴覚野および右1次視覚野における単一電流源の脳磁図データを合成し，深さ重みによる正則化を用いたときの電流源位置の推定誤差を評価した．その結果，適切な正則化パラメータを設定することで，位置の推定誤差が減少し，真の位置のまわりに電流源を推定できることが示された．

構音シミュレーターと医療情報を用いた構音障害の物理的病理の推定
野崎一徳, 野原幹司, 坂本尚久, 吉永司, 和田成生, 山田朋美, 笹井正思, 阪井丘芳, 滝口哲也
日本学術振興会, 科学研究費助成事業, 基盤研究(B), 大阪大学, 2019年04月01日 - 2022年03月31日
舌先端付近の挙上を再現する[s]構音単純モデルを用いて、[s]を含む音節調音時に総音圧レベルと舌挙上速度との間にヒステリシスが存在することを突き止めた。[s]や[sh]の音響スペクトル特性の個人差は、上顎中切歯と上顎前方の舌との狭窄の距離から生じることを発見した。臨床的な意義として、上顎総義歯中切歯の歯軸傾斜角度の違いによる[s]音への影響を、数値解析し、角度が大きいと8~12kHzの周波数帯域が減少するメカニズムを突き止めた。また口唇口蓋裂や舌癌既往の患者に関して、ニューラルネットワークを用いた自己教師あり学習を行い、患者の音声特性を反映した音声認識の実現可能性に関して有効性が確かめられた。

プロソディの音声解析による自閉症スペクトラム障害児の就学前診断ツールの開発と検証
中井靖, 高田哲, 滝口哲也
日本学術振興会, 科学研究費助成事業, 若手研究(B), 2013年04月01日 - 2016年03月31日
イントネーション、リズム、アクセントといった話し言葉の質的側面をプロソディという。多くの主観的研究の結果により、自閉スペクトラム症児（ASD）のプロソディ異常は支持されている。そこで、本研究では、独自の音声解析プログラムを開発し、ASDのプロソディ異常を定量的に分析した。ASD、定型発達児（TD）の発話音声を収録した。本プログラムを用い、就学前と就学後のプロソディを比較した。その結果、ASDのプロソディ異常は就学後に顕著となることが明らかになった。また、発話の中でも特に序盤に、ASDとTDの識別点が存在する可能性が示唆された。

音声解析を用いた極低出生体重児の表出性言語発達の評価に関する研究
高田哲, 滝口哲也
日本学術振興会, 科学研究費助成事業, 基盤研究(C), 神戸大学, 2013年04月01日 - 2016年03月31日
超低出生体重児（ELBW）、極低出生体重児（VLBW）における共同注意行動の発達に関して研究し、（1）ELBW、VLBWにおいては、大きな周産期リスクを持たなくとも共同注意行動の発達が正体重児（NBW）に比べて遅れること、（2）新しく開発した共同注意行動観察法は、M-CHATでの結果とよく一致し、健診場面での有用なツールとなりうることを明らかとした。さらに、音声解析により、ELVW、VLBWにおける表出性言語の発達の特徴を定量的に解析してきており、これらの解析結果と2歳前後での共同注意行動との関連性を明らかにできれば、自閉症児の早期支援に役立つと考えている。

自閉症者・知的障がい者の音声・画像処理による個人適応型支援機器の開発
滝口哲也
科学技術振興機構, 産学が連携した研究開発成果の展開/研究成果展開事業/地域事業/地域イノベーション創出総合支援事業/シーズ発掘試験, 2009年 - 2009年
障がい者においては、筋肉の緊張により不随意運動が生じ、発話スタイルの変動が大きく、発話内容を健常者が聞き取る事は困難な場合がある。本試験研究では、代表研究者がこれまでに研究してきた音声特徴量抽出法、唇画像抽出法を基にして、多様な障がい特性に対応可能な個人の音韻特性を表現する音素部分空間法を実現し、及び画像処理による顔追跡手法との統合を実現し、その有効性を支援機器にて評価するものである。

実世界劣化音声コーパスに基づく音声強調法の研究
武田一哉, 北岡教英, 山田武志, 西浦敬信, 宮島千代美, 田村哲嗣, 中村哲, 黒岩眞吾, 柘植覚, 滝口哲也, 山本一公, 小川哲司, 中山雅人, 滝口哲也, 山本一公
日本学術振興会, 科学研究費助成事業, 基盤研究(B), 名古屋大学, 2007年 - 2009年
実世界で雑音などにより劣化した音声の認識を目指し以下のことを行った。(1)劣化音声コーパスを整備し、CENSRECという名称で一般に利用可能とした、(2)劣化音声の認識率への影響度を測る指標を検討し、加法性・乗法性雑音に対して高精度に認識性能を予測できた、(3)劣化音声の劣化要因とその認識手法を体系化した、(4)劣化音声の認識手法を研究した。

リップリーディングの統合による脳性麻痺発話障害者の話し言葉の認識
滝口哲也
科学技術振興機構, 産学が連携した研究開発成果の展開/研究成果展開事業/地域事業/地域イノベーション創出総合支援事業/シーズ発掘試験, 2008年 - 2008年
脳性麻痺障害者は、筋肉の緊張により不随意運動が生じ発話スタイルの変動が大きく、発話内容を健常者が聞き取る事は非常に困難である。本試験研究では、代表研究者がこれまでに研究してきた発話障害者の音声特徴量抽出法を基にして、自由な話し言葉の認識を実現するために画像処理によるリップリーディング手法との統合を実現し、実際に発話障害者における音声コミュニケーションツールとしての有効性を評価するものである。

研究シーズ

■ 研究シーズ

音声言語・脳信号処理に関する研究
シーズカテゴリ：ライフサイエンス
研究キーワード：音声処理, 言語処理, コンピュータビジョン, 脳信号解析, 機械学習
研究内容：機械学習法とそのメディア情報への応用研究を行っています。具体的には人とコンピュータのコミュニケーションを支援する多様な技術として雑音下音声認識、音声合成、オペラ歌声合成、対話研究などを行っています。また人間のインタラクション・感性・音声想起・聴覚などに関する脳活動計測の研究や、情報学・医学の融合として神経細胞などを対象としたコンピュータビジョンに関する研究も進めています。

研究者紹介：https://kuid-rm-web.ofc.kobe-u.ac.jp/search/detail?systemId=b3ec2a1710d8267b520e17560c007669

SEARCH

滝口 哲也都市安全研究センター教授

研究者基本情報

研究活動情報

研究シーズ

滝口哲也
都市安全研究センター
教授