SEARCH
検索詳細
有木 康雄都市安全研究センター研究員
研究者基本情報
■ 学位■ 研究キーワード
■ 研究分野
■ 委員歴
- 2001年04月 - 2016年03月, 日本音響学会, 評議員
- 2000年04月 - 2016年03月, 電子情報通信学会, 教科書委員会委員
- 2012年04月 - 2013年03月, 日本音響学会, 関西支部支部長
- 2011年04月 - 2012年03月, 日本音響学会, 関西支部副支部長
- 2008年04月 - 2010年03月, 電子情報通信学会, 音声研究会委員長
- 1994年04月 - 2003年09月, 情報処理学会, 音声言語情報処理研究連絡会連絡委員
- 1998年05月 - 2000年04月, 電子情報通信学会, 音声研究会副委員長
- 1996年05月 - 2000年04月, 電子情報通信学会, 論文誌D2編集委員
- 1996年05月 - 1999年04月, 電子情報通信学会, パターン認識・メディア理解研究会専門委員
- 1993年05月 - 1998年04月, 電子情報通信学会, 音声研究会専門委員
- 1995年04月 - 1997年03月, 画像電子学会, 地方理事
- 1992年04月 - 1994年03月, 日本音響学会, 関西支部評議委員
- 1991年04月 - 1993年03月, 情報処理学会, 関西支部幹事
研究活動情報
■ 受賞- 2015年 電子情報通信学会, 電子情報通信学会 PRMU研究会ポスター賞, 視覚障碍者のための一人称ビジョンを用いた交差点上の自己位置・進行方向推定国内学会・会議・シンポジウム等の賞
- 2014年02月 電子情報通信学会, 電子情報通信学会 PRMU研究会ポスター賞, コンテクストに基づくChannel特徴を用いた歩行者検出国内学会・会議・シンポジウム等の賞
- 2009年11月 電子情報通信学会, フェロー, 音声・画像情報の融合処理に関する先駆的研究
- 2009年08月 International Conference on Multimedia, Information Technology and its Applications, Distinguished Paper Award, Generic Object Recognition using CRF by Incorporating BoF as Global Features
- 2008年06月 IEEE ICME, IEEE ICME 2008 The Best Paper Award, GRAPH CUTS BY USING LOCAL TEXTURE FEATURES OF WAVELET COEFFICIENT FOR IMAGE SEGMENTATION
- 2002年05月 電子情報通信学会オフィス研究会, オフィス研究賞, アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定日本国国内学会・会議・シンポジウム等の賞
- 悩み相談において、傾聴者が行う「気づきを促す質問」は、相談者にとって非常に重要な役割を果たす。こうした質問によって、相談者は自らの内面を深く振り返り、新たな視点を得ることで、単に解決策を提供される場合よりも問題の理解が深まり、さらに自主的な行動を促される。しかし、対話システムにこのような気づきを促す機能を持たせることは容易ではない。気づきを引き出すプロセスは、悩みの種類やその原因によって異なり、複雑な思考を必要とするためである。本論文では、大規模言語モデルが生成した戦略的知識に基づいて推論を行う戦略的思考の連鎖(Strategic Chain-of-Thought)を活用する事で多様な悩みを持つ相談者に気づきを促す傾聴対話システムを提案し、この課題に取り組む。実験では、子育てに関する悩みを題材として、この対話システムの有用性を検証する。一般社団法人 人工知能学会, 2024年11月, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 102, 80 - 85, 日本語
- Now Publishers, 2023年, APSIPA Transactions on Signal and Information Processing, 12(1) (1)研究論文(学術雑誌)
- 2023年, EURASIP J. Image Video Process., 2023(1) (1), 1 - 1研究論文(学術雑誌)
- Generation-base dialogue system tends to produce generic response sentences. In order to improve the diversity of response sentences by the generation-base dialogue system, the response text retrieved by the retrieval-base model can be input to the generation-base model as reference response text, so that the generation-base model can generate highly diverse response sentences. However, the prior works show that the generation-base dialogue system often ignores the reference response text, resulting in the response sentences that is unrelated to the reference response text. In this work, we propose the Dialogue-Filling method, which can utilize 100% of the reference response text by masking the response sentences with a text-filling technique. We built variants of Dialogue-Filling method with DialoGPT model. Experiments on the DailyDialog Dataset demonstrate that our Dialogue-Filling method outperforms the baseline method on the dialogue generation task.一般社団法人 人工知能学会, 2022年05月, 人工知能学会論文誌, 37(3) (3), IDS-C_1 - 9, 日本語
- 近年,最先端のTransformerベースの深層学習モデルを用いた生成ベース対話システムが研究開発され,より人間らしい応答文を生成することが報告されている.多くの生成ベース対話システムでは,深層学習モデルの出力分布により,Greedyなどのデコード戦略に基づいて,左から右に逐次的に応答文の単語を生成するという逐次生成手法を用いている.しかし,逐次生成手法により生成する応答文は,最小長と最大長などの応答文パラメータは制御できるが,内容を制御することが困難である.本研究では,生成する応答の内容を制御するために,与えられた三つのお題を使って即興で話をする「三題噺」の作文手法を参考に,指定された知識(お題)の前後の応答を生成する三題噺生成手法を提案する.実験より,提案手法を用いた対話システムは,多様性と正解性評価指標においてベースラインより優れた結果を示した.一般社団法人 人工知能学会, 2022年, 人工知能学会全国大会論文集, JSAI2022, 3Yin221 - 3Yin221, 日本語
- 2021年12月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2021(1) (1), 英語研究論文(学術雑誌)
- 近年,ニューラルネットワークを用いた対話システムに,文書や知識グラフといった,外部知識へのアクセス機能を持たせる研究が盛んに行われている。しかしながら,このような機能を持つ対話システムを実現するためには,通常の応答生成モジュールに加え,知識検索のためのモジュールが複数必要になり,システム全体の学習, 推論が複雑になるといった問題や.システム全体のパラメータ数が多くなるといった問題がある.そこで,本研究では,上記全てのモジュールが事前学習済み言語生成モデルを用いて,Text-to-Textで学習, 推論可能であるフレームワークを提案する。提案手法は, Adapter層を用いたマルチタスク学習を用いることで,システム全体のパラメータ数の削減が可能になる.自動評価を用いた比較の結果,一般的なSeq2Seqで学習された対話システムに比べ、提案手法は優れた応答を生成できることが分かった..一般社団法人 人工知能学会, 2021年11月, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 93, 44 - 49, 日本語
- Springer Science and Business Media Deutschland GmbH, 2021年, Lecture Notes in Electrical Engineering, 714, 267 - 275, 英語論文集(書籍)内論文
- 一般社団法人 人工知能学会, 2020年11月, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 90, 11, 日本語
- 一般社団法人 人工知能学会, 2020年11月, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 90, 06, 日本語
- Institute of Electrical and Electronics Engineers Inc., 2020年10月, 2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020, 893 - 894, 英語研究論文(国際会議プロシーディングス)
- Institute of Electrical and Electronics Engineers Inc., 2020年05月, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-, 6104 - 6108, 英語研究論文(国際会議プロシーディングス)
- International Speech Communication Association, 2020年, Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2020-, 4796 - 4800, 英語研究論文(国際会議プロシーディングス)
- IEEE, 2020年, 2020 IEEE International Conference on Big Data (IEEE BigData 2020), 5545 - 5552研究論文(国際会議プロシーディングス)
- 一般社団法人 人工知能学会, 2019年11月, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 87, 25, 日本語
- Institute of Electrical and Electronics Engineers Inc., 2019年10月, Proceedings - 2019 International Conference on Computer Vision Workshop, ICCVW 2019, 4216 - 4225, 英語研究論文(国際会議プロシーディングス)
- Institute of Electrical and Electronics Engineers Inc., 2019年10月, Proceedings - 2019 International Conference on Computer Vision Workshop, ICCVW 2019, 2049 - 2052, 英語研究論文(国際会議プロシーディングス)
- 2019年10月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 27(10) (10), 1535 - 1548, 英語[査読有り]研究論文(学術雑誌)
- Springer, 2019年08月, EURASIP Journal on Audio, Speech, and Music Processing, DOI: 10.1186/s13636-019-0160-1, 1 - 11, 英語[査読有り]研究論文(学術雑誌)
- IEEE Computer Society, 2019年06月, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2019-, 9545 - 9553, 英語研究論文(国際会議プロシーディングス)
- Institute of Electrical and Electronics Engineers Inc., 2019年05月, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2019-, 6395 - 6399, 英語研究論文(国際会議プロシーディングス)
- 言語処理学会, 2019年03月, 言語処理学会 第25回年次大会 発表論文集, 1133 - 1136, 日本語[査読有り]研究論文(学術雑誌)
- 2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 869 - 872, 日本語複数データベースを使用したend-to-end構音障害者音声認識研究論文(その他学術会議資料等)
- 2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 957 - 960, 日本語議論システムにおける言語モデルを用いた賛成/反対意見の自動生成手法の検討研究論文(その他学術会議資料等)
- 2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 963 - 966, 日本語ユーザーの発話意図理解に基づくインタビュー発話の生成研究論文(その他学術会議資料等)
- 2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 961 - 962, 日本語マルチタスク学習による雑談対話システムへの知識付与研究論文(その他学術会議資料等)
- 2019年03月, 情報処理学会第81回全国大会講演論文集, 549 - 550, 日本語ゼロショット学習を用いた一般物体セグメンテーション研究論文(その他学術会議資料等)
- 2019年03月, 日本音響学会2019年春季研究発表会講演論文集, 1125 - 1128, 英語Speech Prosody Conversion using Sequence Generative Adversarial Nets with Continuous Wavelet Transform F0 features研究論文(その他学術会議資料等)
- 2019年03月, APSIPA TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSING, 8, 英語[査読有り]研究論文(学術雑誌)
- 2019年03月, 電子情報通信学会技術研究報告, 118(497) (497), 335 - 340, 日本語End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張研究論文(研究会,シンポジウム資料等)
- 2019年03月, 情報処理学会第81回全国大会講演論文集, 543 - 544, 日本語Affinity graphを用いた神経細胞画像セグメンテーション研究論文(その他学術会議資料等)
- 2019年02月, International Workshop on Frontiers of Computer Vision, 英語Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks[査読有り]研究論文(国際会議プロシーディングス)
- 2019年02月, International Workshop on Frontiers of Computer Vision, 英語Entropy policy for supervoxel agglomeration of neurite segmentation[査読有り]研究論文(国際会議プロシーディングス)
- Institute of Electrical and Electronics Engineers (IEEE), 2019年, IEEE Access, 7, 164320 - 164326[査読有り]研究論文(学術雑誌)
- 2019年, IEEE ACM Trans. Audio Speech Lang. Process., 27(10) (10), 1535 - 1548[査読有り]研究論文(学術雑誌)
- 2019年01月, EURASIP Journal on Image and Video Processing, 英語Semantic embeddings of generic objects for zero-shot learning[査読有り]研究論文(学術雑誌)
- 電子情報通信学会, 2018年03月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 117(517) (517), 81 - 86, 日本語ポスター講演 音想起に係る脳磁界反応の比較 : 等しいエンベロープをもつ音声と純音 (音声)研究論文(研究会,シンポジウム資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 211 - 214, 日本語非負値タッカー分解によるNMF辞書学習に基づく非パラレル声質変換研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 305 - 308, 日本語非負値行列因子分解を用いた脳磁界データから音声の復元研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 169 - 172, 日本語単語の分散表現を用いた意味予測に基づく雑談応答生成研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 267 - 270, 日本語構音障害者を対象としたDNN音声合成に関する言語特徴量の検討研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 275 - 278, 日本語構音障害者の少量学習データによる音声合成の検討研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 309 - 312, 日本語顔画像特徴量を用いた統計的手法によるF0推定研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1291 - 1294, 日本語音想起に伴う脳磁界反応:等しいエンベロープをもつ音声と純音の比較研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1329 - 1332, 日本語音声明瞭度に関連した大脳皮質活動の時空間的遷移研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 597 - 600, 日本語ハイスピード映像からの音源復元のための物体振動抽出手法の検討研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 201 - 204, 日本語ニュース情報検索システム「NetTv」のための議論対話システムー賛否判定と根拠推定に基づく議論ー研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 2018, 755 - 758, 日本語エアコン音の聴感印象推定のためのコヒーレンス解析に基づく脳活動特徴量抽出研究論文(その他学術会議資料等)
- 2018年03月, IPSJ SIG-CVIM, 1 - 4, 英語Visually grounded word embeddings for zero-shot learning of visual categories研究論文(研究会,シンポジウム資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 347 - 350, 日本語LipNet構造を用いた唇画像から音声への変換研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 365 - 368, 英語EMOTIONAL VOICE CONVERSION WITH WAVELET TRANSFORM USING DUAL SUPERVISED ADVERSARIAL NETWORKS研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 593 - 596, 日本語Convolutional Neural Networksによる物体の微小振動からの音声復元研究論文(その他学術会議資料等)
- 2018年03月, 日本音響学会2018年春季研究発表会講演論文集, 173 - 176, 日本語Attention-based LSTMを用いた音声質問応答システムにおけるユーザーの質問意図理解研究論文(その他学術会議資料等)
- 2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語Zero-shot learning using dictionary definitions[査読有り]研究論文(国際会議プロシーディングス)
- 2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語Satellite Image Semantic Segmentation Using Fully Convolutional Network[査読有り]研究論文(国際会議プロシーディングス)
- 2018年02月, International Workshop on Frontiers of Computer Vision, 4 pages, 英語Estimation of Object Functions Using Visual Attention[査読有り]研究論文(国際会議プロシーディングス)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1309 - 1312, 日本語非負値行列因子分解に基づく構音障害者音声の高域付加の検討研究論文(その他学術会議資料等)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 885 - 888, 日本語脳磁界データの空間的特徴を考慮した想起音声の識別研究論文(その他学術会議資料等)
- 2018年, 人工知能学会 言語・音声理解と対話処理研究会, 82 - 83, 日本語議論システムにおける賛成/反対意見の生成手法の検討研究論文(研究会,シンポジウム資料等)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1033 - 1036, 日本語議論システムにおける賛成/反対意見の生成のための発話のベクトル化手法の検討研究論文(その他学術会議資料等)
- 2018年, 人工知能学会 言語・音声理解と対話処理研究会, 84 - 85, 日本語ユーザーの発話意図理解に基づくインタビュー発話の 生成に向けて研究論文(研究会,シンポジウム資料等)
- 2018年, APSIPA, 1752 - 1755, 英語User's Intention Understanding in Question-Answering System Using Attention-based LSTM[査読有り]研究論文(国際会議プロシーディングス)
- IEEE, 2018年, IEEE ICASSP, 5294 - 5298, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1191 - 1194, 日本語Neutral-to-Emotional Voice Conversion with Latent Representations of F0 using Generative Adversarial Networks研究論文(その他学術会議資料等)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 381 - 384, 日本語Multilinear Discriminant Analysisを用いた聴感印象推定のための脳活動特徴量抽出研究論文(その他学術会議資料等)
- 2018年, International Workshop on Spoken Dialog System Technology, 英語Debate Dialog for News Question Answering System ‘NetTv’ -Debate Based on Claim and Reason Estimation-[査読有り]研究論文(国際会議プロシーディングス)
- 2018年, 日本音響学会2018年秋季研究発表会講演論文集, 1185 - 1188, 日本語CycleGANに基づくノンパラレル声質変換を用いた構音障害者音声合成研究論文(その他学術会議資料等)
- 2018年, International Workshop on Spoken Dialog System Technology, 英語Chat Response Generation Based on Semantic Prediction Using Distributed Representations of Words[査読有り]研究論文(国際会議プロシーディングス)
- 2018年, 電子情報通信学会技術研究報告, 118(198) (198), 9 - 14, 日本語Attention-based LSTMを用いた意図理解とキーワード抽出の統合による質問応答システム研究論文(研究会,シンポジウム資料等)
- 2017年11月, SIGNAL IMAGE AND VIDEO PROCESSING, 11(8) (8), 1485 - 1492, 英語[査読有り]研究論文(学術雑誌)
- 電子情報通信学会, 2017年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 117(189) (189), 39 - 43, 日本語ポスター講演 日本語音声想起に伴う脳磁界データの判別と特徴量推定 (音声)研究論文(研究会,シンポジウム資料等)
- 電子情報通信学会, 2017年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 117(189) (189), 61 - 66, 日本語Discriminant Non-negative Tensor Factorizationを用いたエアコン音の印象関連脳活動の抽出 (音声) -- (オーガナイズドセッション「音の認知・知覚機能の情報処理」(一般講演))研究論文(研究会,シンポジウム資料等)
- 2017年08月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2017, 1 - 13, 英語[査読有り]研究論文(学術雑誌)
- Brain computer interface (BCI) technologies, which enable direct communication between the brain and external devices, have been developed. BCI technology can be utilized in neural prosthetics to restore impaired movement, including speech production. However, most of the BCI systems that have been developed are the "P300-speller" type, which can only detect objects that users direct his/her attention at. To develop more versatile BCI systems that can detect a user's intention or thoughts, the brain responses associated with verbal imagery need to be clarified. In this study, the brain magnetic fields associated with auditory verbal imagery and speech hearing were recorded using magnetoencephalography (MEG) carried out on 8 healthy adults. Although the magnetic fields lagged slightly and were long-lasting, significant deflections were observed even for verbal imagery, in the temporal regions, as well as for actual speech hearing. Also, sources for the deflections were localized in the association auditory cortices. Cross-correlations were calculated between envelopes of the imagined/presented speech sound and the evoked brain responses in the temporal areas. Measurable correlations were obtained for the presented speech sound; however, no significant correlations were observed for the imagined speech sound. These results indicate that auditory verbal imagery undoubtedly activates the auditory cortex, at least, and generates some observable neural responses.2017年07月, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2017, 2542 - 2545, 英語, 国際誌[査読有り]研究論文(国際会議プロシーディングス)
- 電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 301 - 306, 日本語話者性を維持した構音障害者のためのHMM音声合成システム研究論文(研究会,シンポジウム資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 159 - 162, 日本語料理アシスト対話システムにおけるユーザ発話のクラス分類研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 539 - 542, 日本語脳磁界計測を用いたエアコン音の聴感印象推定の試み ―比較判断を用いた印象予測モデルの学習―研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1515 - 1518, 日本語脳磁界計測による音声明瞭度に関連した皮質活動の推定研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 95 - 98, 日本語適応型Gaussian-Gaussian RBMを用いた構音障害者音声認識研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 359 - 362, 日本語声質変換のための音素識別的特徴量研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 363 - 366, 日本語声質変換における非周期性指標の影響とその評価研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 373 - 376, 日本語最尤変換による唇動画像からの音声生成研究論文(その他学術会議資料等)
- 電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 321 - 326, 日本語構音障害者音声認識のための適応型restricted Boltzmann machineを用いた特徴量抽出研究論文(研究会,シンポジウム資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 267 - 270, 日本語構音障害者のための話者性を維持したHMM音声合成システムの提案研究論文(その他学術会議資料等)
- 電子情報通信学会, 2017年03月, 電子情報通信学会技術研究報告, 116(477) (477), 307 - 312, 日本語構音障害者のためのDurationを含んだ統計的声質変換研究論文(研究会,シンポジウム資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 557 - 558, 日本語音源復元のための映像中の微小振動方向の解析研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1523 - 1526, 日本語音の想起に伴う脳磁界反応:想起音の基礎パラメータの影響の検討研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 163 - 166, 日本語ユーザーに対話的なサポートを行うシステム -オセロゲームの場合について-研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 155 - 158, 日本語ニュース情報検索「NetTv」における質問種別の推定研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 285 - 288, 日本語DNNを用いた聴覚障害者の音声合成の検討研究論文(その他学術会議資料等)
- 2017年03月, 日本音響学会2017年春季研究発表会講演論文集, 377 - 380, 英語Arbitrary-scales continuous wavelet transform for emotional voice conversion研究論文(その他学術会議資料等)
- 2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語Visual Sound Recovery Using Momentary Phase Variations[査読有り]研究論文(国際会議プロシーディングス)
- 2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語Feature Extraction and Classification of Multispectral Imagery by Using Convolutional Neural Network[査読有り]研究論文(国際会議プロシーディングス)
- 2017年02月, International Workshop on Frontiers of Computer Vision, 1 - 4, 英語Estimation of Object Functions Focusing on Feature of Object Parts[査読有り]研究論文(国際会議プロシーディングス)
- 2017年, COMPUTER VISION - ACCV 2016 WORKSHOPS, PT III, 10118, 517 - 530, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 337 - 340, 日本語脳磁界データによる想起音声の識別 -次元数削減による精度向上の検討-研究論文(その他学術会議資料等)
- 2017年, 人工知能学会 言語・音声理解と対話処理研究会, 90 - 91, 日本語人の理解や習熟をサポートする音声質問応答システム研究論文(研究会,シンポジウム資料等)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 281 - 284, 日本語深層学習による位相情報を考慮した音声合成の検討研究論文(その他学術会議資料等)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 119 - 122, 日本語重度難聴者音声認識のためのDeep Canonical Correration Analysisを用いた音響特徴量抽出の検討研究論文(その他学術会議資料等)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 683 - 686, 日本語音声明瞭度に関連した脳磁界計測 -聴覚野および運動野における活動源解析-研究論文(その他学術会議資料等)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 141 - 144, 日本語ユーザー支援を目的とした音声質問応答システム研究論文(その他学術会議資料等)
- 2017年, 人工知能学会 言語・音声理解と対話処理研究会, 92 - 93, 日本語ニュース情報検索システム「NetTv」における議論対話システム実現のためのユーザ主張・根拠の推定研究論文(研究会,シンポジウム資料等)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 573 - 576, 日本語エアコン音の聴感印象推定のための比較判断を考慮した脳活動特徴量抽出研究論文(その他学術会議資料等)
- 2017年, IAPR International Conference on Machine Vision Applications, 488 - 491, 英語Visual-to-Speech Conversion Based on Maximum Likelihood Estimation[査読有り]研究論文(国際会議プロシーディングス)
- 2017年, First International Workshop on Symbolic-Neural Learning, 1 - 6, 英語Semantic Web and Zero-Shot Learning of Large Scale Visual Classes[査読有り]研究論文(国際会議プロシーディングス)
- International Speech Communication Association, 2017年, Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2017-, 3374 - 3378, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2017年, 1st International Workshop on Challenges in Hearing Assistive Technology, 95 - 99, 英語Individuality-Preserving Speech Synthesis System for Hearing Loss Using Deep Neural Networks[査読有り]研究論文(国際会議プロシーディングス)
- 2017年, The Second Workshop on Human Identification in Multimedia, 657 - 662, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 公益社団法人 日本生体医工学会, 2017年, 生体医工学, 55(0) (0), 522 - 523, 英語
The evaluation of subjective impressions induced by environmental sounds using neurophysiological indices has been proposed in recent years. In this paper, we focus on the evaluation of HVAC (heating, ventilation and air conditioning) sounds, and models that predict subjective coolness/preference induced by time-varying HVAC sound from brain activities were constructed. First, magnetoencephalographic (MEG) measurements were carried out to measure brain activities while hearing HVAC sound with paired comparison task. Second, feature vectors representing time-frequency components of brain activities on the whole head were extracted from MEG data using the time-frequency analysis and nonnegative tensor factorization (NTF). And third, two kinds of predictive model were constructed from the brain feature vectors and comparative judgments to pairs of stimuli using a regression model or an SVM-based method. Evaluation experiments show that the SVM-based method is more effective than the regression model.
研究論文(その他学術会議資料等) - 2017年, Interspeech, 3399 - 3403, 英語Emotional Voice Conversion with Adaptive Scales F0 Based on Wavelet Transform Using Limited Amount of Emotional Data.[査読有り]研究論文(国際会議プロシーディングス)
- ISCA, 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 3399 - 3403, 英語Emotional Voice Conversion with Adaptive Scales F0 Based on Wavelet Transform Using Limited Amount of Emotional Data.研究論文(国際会議プロシーディングス)
- 2017年, 日本音響学会2017年秋季研究発表会講演論文集, 305 - 308, 日本語CNN-LSTMを用いた唇画像から音声への変換研究論文(その他学術会議資料等)
- 2017年, 1st International Workshop on Challenges in Hearing Assistive Technology, 71 - 81, 英語Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis[査読有り]研究論文(国際会議プロシーディングス)
- 2016年11月, Workshop on Computer Vision for Affective Computing, 1 - 14, 英語Expression Recognition with Ri-HOG Cascade[査読有り]研究論文(国際会議プロシーディングス)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 229 - 232, 日本語話速補正に基づく話者性を維持した構音障害者のための音声合成システム研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 277 - 280, 日本語複素NMFを用いた声質変換の検討研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 155 - 158, 日本語非負値行列因子分解に基づく声質変換のためのGraph Embeddingを用いたパラレル辞書学習研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 273 - 276, 日本語非負値行列因子を用いたマルチモーダル声質変換における画像特徴量の検討研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 673 - 676, 日本語脳磁界計測を用いたエアコン音の聴感印象推定の試み -非負値テンソル分解による関連脳活動の抽出-研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 621 - 624, 日本語脳磁界データからの想起音声の判別に係る特徴量の推定 -ウェーブレット変換とSVMによる解析-研究論文(その他学術会議資料等)
- 2016年09月, 日本音響学会2016年秋季研究発表会講演論文集, 109 - 112, 日本語Factored 3-Way Restricted Boltzmann Machine を用いたマルチモーダル音声認識の検討研究論文(その他学術会議資料等)
- 2016年09月, Workshop on Speech and Language Processing for Assistive Technologies, 75 - 79, 英語Dysarthric Speech Modification Using Parallel Utterance Based on Non-negative Temporal Decomposition[査読有り]研究論文(国際会議プロシーディングス)
- 電子情報通信学会, 2016年08月, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 116(189) (189), 37 - 40, 日本語ポスター講演 非負値テンソル分解を用いたエアコン音の印象関連脳活動の抽出 (音声)研究論文(研究会,シンポジウム資料等)
- 2016年08月, MIRU 2016, PS2-48, 英語SIFT Boosting for Handwriting Recognition研究論文(国際会議プロシーディングス)
- 電子情報通信学会, 2016年08月, 電子情報通信学会技術研究報告, 116(189) (189), 59 - 64, 日本語Discriminative Graph-embedded Non-negative Matrix Factorizationを用いた声質変換のためのパラレル辞書学習研究論文(研究会,シンポジウム資料等)
- 2016年07月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 24(7) (7), 1175 - 1184, 英語[査読有り]研究論文(学術雑誌)
- 日本生体磁気学会, 2016年06月, 日本生体磁気学会誌, 29(1) (1), 104 - 105, 日本語音声想起に伴う誘発脳磁界の時空間的特性研究論文(その他学術会議資料等)
- 2016年06月, 第31回日本生体磁気学会大会論文集, 29(1) (1), 74 - 75, 日本語エアコン音の聴感印象と自発脳磁界のERS/ERDの関係研究論文(その他学術会議資料等)
- 2016年05月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E99D(5) (5), 1375 - 1383, 英語[査読有り]研究論文(学術雑誌)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, 日本語音素選択型スペクトル補正に基づく話者性を維持した構音障害者のための音声合成システム研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 531 - 532, 日本語音声想起による誘発脳磁界の計測研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 1309 - 1310, 日本語ハイスピード映像中の物体振動を利用したvisual microphoneの検討研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 99 - 102, 日本語タスク指向型対話システムにおける強化学習とニューラルネットワークの比較研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 321 - 324, 日本語スパースパラレル学習を用いたマルチモーダル声質変換研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 511 - 514, 日本語エアコン音の聴感印象関連領域の探索 -脳磁界の時間周波数解析に基づく推定-研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, 日本語Restricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 351 - 354, 英語Emotional Speech Conversion Using Deep Neural Networks研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 325 - 328, 日本語Alternating Direction Method of MultipliersによるNMF声質変換のためのパラレル辞書学習研究論文(その他学術会議資料等)
- 2016年03月, 日本音響学会2016年春季研究発表会講演論文集, 333 - 336, 日本語ADMMを用いたNMFによる雑音環境下での少量パラレルデータ声質変換研究論文(その他学術会議資料等)
- 2016年02月, Korea-Japan joint Workshop on Frontiers of Computer Vision, 英語Estimation of Object Functions Using Convolutional Neural Network[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, COMPUTER AND INFORMATION SCIENCE, 656, 27 - 40, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 家庭用ロボットにとって,人に発話指示された物体を特定し,把持することは必要なタスクのひとつである.人が物体を指示する際,人は物体名称や色など様々な属性を用いて物体を特定する.物体特定を達成するためには,人が発話した音声を認識し,音声認識結果に基づいて物体認識を行い,音声と対応する物体を選択する必要がある.このタスクを達成するため,本論文では,音声と画像のマルチモーダル情報を用いた色名称と物体名称に基づく物体特定手法を提案する.一般社団法人 画像電子学会, 2016年, 画像電子学会誌, 45(1) (1), 105 - 111, 日本語[査読有り]研究論文(学術雑誌)
- 2016年, American Journal of Signal Processing, 6(1) (1), 19 - 23, 英語Phone Labeling Based on the Probabilistic Representation for Dysarthric Speech Recognition[査読有り]研究論文(学術雑誌)
- 2016年, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 5170 - 5174, 英語SEMI-NON-NEGATIVE MATRIX FACTORIZATION USING ALTERNATING DIRECTION METHOD OF MULTIPLIERS FOR VOICE CONVERSION[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 1327 - 1331, 英語MODELING DEEP BIDIRECTIONAL RELATIONSHIPS FOR IMAGE CLASSIFICATION AND GENERATION[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 983 - 988, 英語Selection of an Optimum Random Matrix Using a Genetic Algorithm for Acoustic Feature Extraction[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 971 - 976, 英語Lip Reading Using a Dynamic Feature of Lip Images and Convolutional Neural Networks[査読有り]研究論文(国際会議プロシーディングス)
- IEEE Computer Society, 2016年, International Conference on Computer and Information Science, 1 - 5, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 292 - 296, 英語[査読有り]研究論文(国際会議プロシーディングス)
- ISCA, 2016年, ISCA Speech Synthesis Workshop, 140 - 145, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 277 - 281, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2016年, EURASIP J. Image and Video Processing, 2016, 37 - 37, 英語[査読有り]研究論文(学術雑誌)
- 2015年11月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 英語[査読有り]研究論文(学術雑誌)
- 2015年09月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 英語[査読有り]研究論文(学術雑誌)
- 2015年09月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2749 - 2753, 英語[査読有り]研究論文(学術雑誌)
- Association for Computing Machinery, 2015年05月, ACM Transactions on Accessible Computing, 6(4) (4), 1 - 17, 英語[査読有り]研究論文(学術雑誌)
- Institute of Electrical and Electronics Engineers Inc., 2015年03月, IEEE Transactions on Audio, Speech and Language Processing, 23(3) (3), 580 - 587, 英語[査読有り]研究論文(学術雑誌)
- 2015年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E98D(3) (3), 704 - 711, 英語[査読有り]研究論文(学術雑誌)
- 2015年03月, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 23(3) (3), 580 - 587, 英語[査読有り]研究論文(学術雑誌)
- 2015年03月, EURASIP JOURNAL ON IMAGE AND VIDEO PROCESSING, 1 - 12, 英語[査読有り]研究論文(学術雑誌)
- 2015年02月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 1 - 12, 英語[査読有り]研究論文(学術雑誌)
- 2015年, COMPUTER VISION - ACCV 2014 WORKSHOPS, PT II, 9009, 629 - 643, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2749 - 2753, 英語Many-to-many Voice Conversion Based on Multiple Non-negative Matrix Factorization[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 英語SPARSE NONLINEAR REPRESENTATION FOR VOICE CONVERSION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 1411 - 1415, 英語FEATURE EXTRACTION USING PRE-TRAINED CONVOLUTIVE BOTTLENECK NETS FOR DYSARTHRIC SPEECH RECOGNITION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, COMPUTER VISION - ACCV 2014 WORKSHOPS, PT II, 9009, 658 - 671, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 381 - 382, 日本語話者適応に基づく日本人英語発話の認識、合成研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 389 - 392, 日本語非負値行列因子分解に基づく唇動画像からの音声生成研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 485 - 488, 日本語脳磁界計測を用いたエアコン音の聴感印象推定の試み -線形回帰による関連脳活動の抽出-研究論文(その他学術会議資料等)
- 2015年, 電子情報通信学会技術研究報告, 115(253) (253), 1 - 6, 日本語任意話者を対象としたExemplar-based声質変換研究論文(研究会,シンポジウム資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 279 - 282, 日本語適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換研究論文(その他学術会議資料等)
- 2015年, 電子情報通信学会技術研究報告, 115(253) (253), 39 - 43, 日本語状態空間の分割と状態遷移の学習に基づく Parallel POMDPの評価研究論文(研究会,シンポジウム資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 185 - 188, 日本語状態空間の分割と状態遷移の学習に基づくParallel POMDP研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 393 - 396, 日本語少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換研究論文(その他学術会議資料等)
- 2015年, 電子情報通信学会技術研究報告, 日本語視覚障碍者のための一人称ビジョンを用いた交差点上の自己位置・進行方向推定研究論文(研究会,シンポジウム資料等)
- 2015年, 電子情報通信学会技術研究報告, 115(99) (99), 71 - 76, 日本語構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討研究論文(研究会,シンポジウム資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 1243 - 1246, 日本語構音障害者音声認識のための確率表現に基づく音素ラベリングの検討研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 193 - 196, 日本語階層的POMDPを用いた商品検索型音声対話システムの検討研究論文(その他学術会議資料等)
- 2015年, 電子情報通信学会技術研究報告, 日本語音楽経験の分析に基づく演奏映像における視覚的顕著性マップモデル研究論文(研究会,シンポジウム資料等)
- 2015年, 電子情報通信学会論文誌, J98-D(9) (9), 1265 - 1276, 日本語一般物体認識に基づく音声で指示された物体の選択法[査読有り]研究論文(学術雑誌)
- 2015年, 情報処理学会技術研究報告, 日本語一人称ビジョンを用いた視覚障碍者道路横断支援システムの検討研究論文(研究会,シンポジウム資料等)
- 2015年, 電子情報通信学会技術研究報告, 日本語π-CAVEを用いた歩行時の下視野測定システムの開発研究論文(研究会,シンポジウム資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 285 - 288, 日本語β-NMFを用いた唇動画像からの音声生成研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 267 - 270, 日本語スペクトル補正に基づく話者性を維持した構音障害者のための音声合成システム研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 503 - 504, 日本語エアコン音の時間変動が主観印象および大脳皮質活動に及ぼす影響研究論文(その他学術会議資料等)
- 2015年, International Joint Conference on Artificial Intelligence, 英語Word-Error Correction of Continuous Speech Recognition based on Normalized Relevance Distance[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, Korea-Japan joint Workshop on Frontiers of Computer Vision, 英語Top-Down Feature Extraction from Musical Score for Visual Attention in Music Videos[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, MLSLP, 英語SPOKEN DIALOGUE SYSTEM FOR PRODUCT RECOMMENDATION USING HIERARCHICAL POMDP[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, IEEE ICME, 英語Sparse Nonlinear Representation for Voice Conversion[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, APSIPA, 196 - 199, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, IEEE EMBC, 37-6LB2, 1 - 4, 英語, 国際共著していないRelationships between Subjective Auditory Impression and Brain Cortical Activities for Time-varying HVAC Sound[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, MLSLP, 英語Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 31 - 34, 日本語Normalized Similarity Distance を用いた音声認識の謝り訂正研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 163 - 166, 日本語Normalized Relevance Distance を用いた音声認識の誤り訂正研究論文(その他学術会議資料等)
- 2015年, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 315 - 319, 英語NOISE-ROBUST VOICE CONVERSION USING A SMALL PARALLE DATA BASED ON NON-NEGATIVE MATRIX FACTORIZATION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 1235 - 1239, 英語MULTITHREADING ADABOOST FRAMEWORK FOR OBJECT RECOGNITION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 日本音響学会2015年秋季研究発表会講演論文集, 227 - 230, 日本語Multiple Non-negative Matrix Factorizationに基づく多対多声質変換研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 275 - 278, 日本語Multiple Non-negative Matrix Factorizationに基づく多対一声質変換研究論文(その他学術会議資料等)
- 2015年, 2015 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA), 英語MANY-TO-ONE VOICE CONVERSION USING EXEMPLAR-BASED SPARSE REPRESENTATION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, MLSLP, 英語LIP-TO-SPEECH SYNTHESIS USING LOCALITY-CONSTRAINT NON-NEGATIVE MATRIX FACTORIZATION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, Journal of Geographic Information System, 英語Integrated GIS, Remote Sensing and Survey Data for Damage Assessment of Buildings in Tsunami Event, Ishinomaki City, Japan[査読有り]研究論文(学術雑誌)
- 2015年, ICMI'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, 343 - 346, 英語Individuality-Preserving Voice Reconstruction for Articulation Disorders Using Text-to-Speech Synthesis[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, SLPAT, 英語Individuality-Preserving Spectrum Modification for Articulation Disorders Using Phone Selective Synthesis[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, ISEM, 英語Home Appliance Control Using Speech Recognition for a Person with an Articulation Disorder[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, EUSIPCO, 1426 - 1430, 英語FEATURE EXTRACTION USING PRE-TRAINED CONVOLUTIVE BOTTLENECK NETS FOR DYSARTHRIC SPEECH RECOGNITION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII), 636 - 642, 英語Facial Expression Recognition with Multithreaded Cascade of Rotation-invariant HOG[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, Open Access Library Journal, 英語Estimation of Tsunami Hazard Vulnerability Factors by Integrating Remote Sensing, GIS and AHP based Assessment[査読有り]研究論文(学術雑誌)
- 2015年, 2015 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 192 - 195, 英語Detection of Facial Parts via Deformable Part Model Using Part Annotation[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 電子情報通信学会技術研究報告, 日本語Deformable Part Modelを用いた顔部品検出研究論文(研究会,シンポジウム資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 3 - 6, 日本語Deep Boltzmann Machine を用いた音素ラベル情報推定研究論文(その他学術会議資料等)
- 2015年, 日本音響学会2015年春季研究発表会講演論文集, 197 - 200, 日本語Convolutional Neural Networkを用いた重度難聴者のマルチモーダル音声認識研究論文(その他学術会議資料等)
- 2015年, ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 443 - 446, 英語[査読有り]研究論文(国際会議プロシーディングス)
- Information Processing Society of Japan, 2015年, IPSJ Transactions on Computer Vision and Applications, 7, 64 - 68, 英語[査読有り]研究論文(学術雑誌)
- 2015年, 電子情報通信学会技術研究報告, 115(346) (346), 13 - 18, 英語研究論文(学術雑誌)
- 2015年, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 4899 - 4903, 英語ACTIVITY-MAPPING NON-NEGATIVE MATRIX FACTORIZATION FOR EXEMPLAR-BASED VOICE CONVERSION[査読有り]研究論文(国際会議プロシーディングス)
- 2015年01月, American Journal of Signal Processing, 5(1) (1), 1 - 5, 英語Investigation of Classification Using Pitch Features for Children with Autism Spectrum Disorders and Typically Developing Children[査読有り]研究論文(学術雑誌)
- 2015年, 2015 21ST KOREA-JAPAN JOINT WORKSHOP ON FRONTIERS OF COMPUTER VISION, 英語Estimation of Object Functions Using Deformable Part Model[査読有り]研究論文(国際会議プロシーディングス)
- 2015年, 2015 21ST KOREA-JAPAN JOINT WORKSHOP ON FRONTIERS OF COMPUTER VISION, 英語Color Saliency for Object Identification[査読有り]研究論文(国際会議プロシーディングス)
- 2014年09月, Proceedings of the 15th Conference of the International Speech Communication Association (Interspeech 2014), 英語Error Correction of Automatic Speech Recognition Based on Normalized Web Distance[査読有り]研究論文(国際会議プロシーディングス)
- 2014年06月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1403 - 1410, 英語[査読有り]研究論文(学術雑誌)
- 2014年06月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1411 - 1418, 英語[査読有り]研究論文(学術雑誌)
- 2014年06月, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, 英語Parallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion[査読有り]研究論文(学術雑誌)
- 話者適応を用いたNMFによる声質変換本稿では,話者適応を用いたNMFによる声質変換手法を提案する.我々が提案してきた従来のNMFによる声質変換手法では,入力話者と出力話者の同一発話内容のパラレルデータを用いることが前提となっていた.つまり,対応する任意の話者の大量のデータをあらかじめ用意しておかなければならないという問題点があった.そこで,出力話者の少量の音声データのみを辞書適応に用いることで,入力話者辞書から出力話者辞書を生成する手法を提案する.評価実験では,話者適応を用いた本手法の有効性を示す.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 421 - 424, 日本語研究論文(その他学術会議資料等)
- 様々なRandom行列を用いた構音障害者の音声特徴量抽出提案手法では,様々な分布から作成したランダム写像行列を用いて音声特徴量を変換することで,認識結果がどのように変化するのかを見る.各々の特徴量を用いて音声認識を行い,各認識結果を投票により統合することで最適な認識結果を得る.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 241 - 242, 日本語研究論文(その他学術会議資料等)
- 声質変換のための Restricted Boltzmann Machine を用いた パラレル辞書の学習法本稿では,スパース表現に基づく声質変換において,パラレル辞書の作成・選択を統一的な枠組みで行うために,結合型RBM(restricted Boltzmann machine)を用いた声質変換法を提案する.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 415 - 416, 日本語研究論文(その他学術会議資料等)
- 辞書選択型NMFを用いた構音障害者の話者性を維持した声質変換本論文ではアテトーゼ型構音障害者を対象として,辞書選択を用いたNMF声質変換による話者性を維持した声質変換を提案する.出力話者のカテゴリ辞書のうち,子音に関するカテゴリ辞書のみに健常者のスペクトルを用い,母音に関するカテゴリ辞書に障害者のスペクトルを用いることで,障害者の話者性を維持した声質変換を行う.以下,第2章で従来のNMF声質変換手法を説明する.第3章で本稿の提案手法を述べた後,第4章で従来のGMM・NMFによる声質変換手法と比較し,第5章で本稿をまとめる.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 459 - 462, 日本語研究論文(その他学術会議資料等)
- ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別本研究では,ピッチ特徴量を入力とし,SVMを用いて自閉症スペクトラム障害児と定型発達児の識別を行う.本稿では,ピッチ特徴量として,音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して,12種類の統計量を計算したものを用いて,区間分割による識別実験と単語毎の識別実験を行った.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 467 - 470, 日本語研究論文(その他学術会議資料等)
- Normalized web distanceを用いた音声認識誤り訂正法本稿では,従来のConfusion Networkに基づく音声認識誤り訂正で,ヌル遷移による短距離訂正の劣化と,文脈スコアを計算するためのコーパスの必要性という問題点を指摘し,これらの問題点を解決するために以下の2つのアプローチで認識誤りの削減をねらう.1つ目は,離れた単語も視野に入れ訂正する長距離文脈スコアとしてNormalized Web Distanceを用いる.Normalized Web Distanceは学習コーパスとして, World Wide Web,検索エンジンなど様々なデータベースを利用することができるため,コーパスを用意する必要がなく,計算も簡単にできるというメリットがある.2つ目は,短距離訂正で有効であるN-gram学習において,悪影響を及ぼすヌル遷移をテストデータから効率的に削除することにより,その効果を改善することで音声認2014年03月, 第8回音声ドキュメント処理ワークショップ, 1 - 7, 日本語研究論文(研究会,シンポジウム資料等)
- NMFに基づく音声と画像情報を用いた雑音下声質変換本稿では,雑音環境下に強いNMF基づく声質変換に唇画像特徴を組み込んだ手法を提案する.ここでは入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,入力話者の画像特徴から得られた唇画像辞書を導入することで変換精度をより向上させる.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 417 - 420, 日本語研究論文(その他学術会議資料等)
- Convolutive Bottleneck Network 特徴量を用いた構音障害者の音声認識本論文では,構音障害者を対象とした音声認識の実現に向けて,障害者音響モデルを用いた認識実験を行う.さらに,筋肉の緊張により発話が変動しやすいという障害者特有の問題に対して,ボトルネックの構成を持つCNN(CBN)を用いた特徴量抽出法を提案する.日本音響学会, 2014年03月, 日本音響学会2014年春季研究発表会講演論文集, 237 - 240, 日本語研究論文(その他学術会議資料等)
- 演奏視聴時における演奏熟練者と非熟練者の視線情報の分析業支援のためには作業者の熟練度の正確な推定が重要である.この際,熟練度に対する客観的指標が必要となるが,楽器演奏などの技術だけではなく感性が関わる作業の客観的指標の設定は困難である.2014年02月, 電子情報通信学会,信学技報,, 113(431) (431), 93 - 94, 日本語
本稿では,人の思考過程や心理状態と相関がある視線情報から,ピアノ演奏の熟練度を推定することを目的とし,熟練者と非熟練者の演奏視聴時の視線情報を分析することで,熟練度の客観的指標の検討と識別手法を提案する.研究論文(研究会,シンポジウム資料等) - 一人称カメラと街並画像データベースの対応付けによる交差点上の歩行者位置・進行方向推定本稿では歩行者支援のための交差点上における歩行者の位置,進行方向の推定手法を提案する.GPSの測位誤差のため,歩行者が交差点上の歩行者の交差点上位置・進行方向の推定は困難である.そこで本稿では,Google Street View から生成された建物の壁面パノラマ画像と,歩行時に一人称カメラ画像から生成される建物2014年02月, 電子情報通信学会,信学技報,, 113(431) (431), 91 - 92, 日本語
壁面パノラマ画像をマッチングすることで,交差点上における歩行者位置を推定する.進行方向および,画像補正にStructure-from-Motionを用いて取得したカメラ姿勢情報を用いる.実環境下で撮影された一人称カメラ画像を用いた実験により,提案手法の有効性を示す.研究論文(研究会,シンポジウム資料等) - コンテクストに基づくChannel特徴を用いた歩行者検出本稿では,歩行者と背景とのコンテクストモデルに基づく識別器学習による歩行者検出手法を提案する.2014年02月, 電子情報通信学会,信学技報,, 113(431) (431), 103 - 104, 日本語
既存の歩行者検出手法では,複数特徴量から識別器学習を行うことで精度向上を実現するが,検出コストが増加するという問題がある.
本稿では,歩行者と背景とのコンテクストモデルを顕著性マップにより構築し,カスケード型Adaboostによる識別器構築時の重み推定に用いる.これにより,背景や歩行者の姿勢に依存しない弱識別器候補の歩行者尤度を推定可能とする.
INRIA Pedestrian Datasetを用いた実験により,従来法と比較して検出速度を低下させることなく,検出率を向上できることを示す.研究論文(研究会,シンポジウム資料等) - 2014年02月, Transactions on Machine Learning and Artificial Intelligence, 2(1) (1), 46 - 60, 英語Hierarchical Sparse Representation for Object Recognition[査読有り]研究論文(学術雑誌)
- 2014年02月, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2014(5) (5), 1 - 10, 英語[査読有り]研究論文(学術雑誌)
- In this paper, we propose a method to estimate a flow of each lane and vehicle position in the lane from images by car mounted stereo camera for active navigation. The effectiveness is evaluated with the Karlsruhe dataset of images captured by the car-mounted stereo cameras in real environments.一般社団法人 映像情報メディア学会, 2014年, 映像情報メディア学会年次大会講演予稿集, 2014(0) (0), 3 - 2-1_-_3-2-2_, 日本語[査読有り]
- 2014年, 電子情報通信学会技術研究報告, 114(365) (365), 165 - 170, 日本語話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討研究論文(研究会,シンポジウム資料等)
- 日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 345 - 348, 日本語話者適応を用いたNMFによる雑音環境下の声質変換研究論文(その他学術会議資料等)
- 日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 219 - 222, 日本語話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換研究論文(その他学術会議資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(230) (230), 19 - 24, 日本語物体特定のための顕著性研究論文(研究会,シンポジウム資料等)
- 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 109 - 110, 日本語発話に不自由のある聴覚障害者の発話音声認識の検討研究論文(その他学術会議資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(356) (356), 79 - 83, 日本語色属性による物体特定のための顕著性研究論文(研究会,シンポジウム資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(365) (365), 87 - 92, 日本語雑音環境下における特徴重み付マルチモーダル性質変換研究論文(研究会,シンポジウム資料等)
- 日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 83 - 86, 日本語遺伝的アルゴリズムを用いた 構音障害者の音声特徴量抽出に最適なランダム行列の生成研究論文(その他学術会議資料等)
- 日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 349 - 352, 日本語ハイスピードカメラ画像を用いたマルチモーダルNMF声質変換研究論文(その他学術会議資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(52) (52), 343 - 348, 日本語スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine研究論文(研究会,シンポジウム資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(91) (91), 39 - 44, 日本語スパース辞書学習による構音障害者の話者性を維持した声質変換研究論文(研究会,シンポジウム資料等)
- 日本音響学会, 2014年, 日本音響学会2014年秋季研究発表会講演論文集, 223 - 226, 日本語アクティビティマッピングによる非負値行列因子分解を用いた声質変換研究論文(その他学術会議資料等)
- 2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 7939 - 7943, 英語VOICE CONVERSION IN TIME-INVARIANT SPEAKER-INDEPENDENT SPACE[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 7944 - 7948, 英語VOICE CONVERSION BASED ON NON-NEGATIVE MATRIX FACTORIZATION USING PHONEME-CATEGORIZED DICTIONARY[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, LAND SURFACE REMOTE SENSING II, 9260, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 477 - 482, 英語[査読有り]研究論文(国際会議プロシーディングス)
- ACM, 2014年, Workshop on Multimodal, Multi-Party, Real-World Human-Robot Interaction, 23 - 24, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, EARTH RESOURCES AND ENVIRONMENTAL REMOTE SENSING/GIS APPLICATIONS V, 9245, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, 英語Parallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion[査読有り]研究論文(学術雑誌)
- 2014年, Workshops CV4AC, 1 - 15, 英語Novel Continuous-multi-class Cascade for Real-Time Emotional Recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 第28回人工知能学会全国大会論文集, 1 - 4, 日本語Normalized Web Distanceを用いた音声認識誤りの訂正法研究論文(その他学術会議資料等)
- 2014年, 電子情報通信学会技術研究報告, 114(365) (365), 75 - 80, 日本語Multiple Non-negative Matrix Factorization を用いた多対一声質変換研究論文(研究会,シンポジウム資料等)
- 2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 1561 - 1565, 英語MULTIMODAL VOICE CONVERSION USING NON-NEGATIVE MATRIX FACTORIZATION IN NOISY ENVIRONMENTS[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4, 1159 - 1163, 英語Multimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, SLPAT, 29 - 37, 英語Individuality-preserving Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix Factorization[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, Interspeech, 2278 - 2282, 英語High-Order Sequence Modeling Using Speaker-Dependent Recurrent Temporal Restricted Boltzmann Machines for Voice Conversion[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 1 - 4, 英語Exemplar-based Emotional Voice Conversion Using Non-negative Matrix Factorization[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 505 - 509, 英語Dysarthric Speech Recognition Using a Convolutive Bottleneck Network[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, Advances in Computer Science and Engineering, 12(1) (1), 15 - 30, 英語Depth Spatial Pyramid: a Pooling Method for 3D-Object Recognition[査読有り]研究論文(学術雑誌)
- 2014年, Transactions on Machine Learning and Artificial Intelligence, 2(2) (2), 46 - 60, 英語Convolutive Bottleneck Network with Dropout for Dysarthric Speech Recognition[査読有り]研究論文(学術雑誌)
- 2014年, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 1352 - 1357, 英語A Robust Learning Algorithm Based on SURF and PSM for Facial Expression Recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 4224 - 4228, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2014年, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 7894 - 7898, 英語VOICE CONVERSION BASED ON NON-NEGATIVE MATRIX FACTORIZATION USING PHONEME-CATEGORIZED DICTIONARY[査読有り]研究論文(国際会議プロシーディングス)
- Acoustical Society of Japan, 2014年, Acoustical Science and Technology, 35(4) (4), 181 - 191, 英語[査読有り]研究論文(学術雑誌)
- 話者依存型 Conditional Restricted Boltzmann Machine による声質変換本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとにconditional restricted Boltzmann machine (CRBM)を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ(パラレルデータである必要は無い)を用いて,入力話者,出力話者のCRBMを独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれのCRBMを通して話者依存高次元空間へ写像(CRBMの前方推論)し,その高次特徴量同士をNeural Network (NN)を用いて変換させる.NNの変換で得られた特徴量は,CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 83 - 88, 日本語研究論文(研究会,シンポジウム資料等)
- 辞書選択型非負値行列因子分解による構音障害者の声質変換本研究では,アテトーゼ型脳性麻痺による構音障害者を対象とし,筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す.従来の声質変換手法で最も一般的なのは,混合正規分布モデル(GMM)を用いた統計的手法であった.この手法は主に話者変換を目的として研究されてきたため,GMM声質変換を構音障害者の発話音声に適用し健常者の音声に変換した場合,障害者の話者性は別人のものに置き換わってしまう.「自分らしい声で話したい」という障害者のニーズに答えるため,本研究では従来の統計的モデルによる声質変換とは異なる,非負値行列因子分解(NMF)を用いたExemlpar-based声質変換を用いて,話者性を維持しつつ聞き取りやすい音声に変換する.これまでNMF声質変換では,入力音声フレームと,辞書から選ばれる基底の音素が必ずしも一致しないという問電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 71 - 76, 日本語研究論文(研究会,シンポジウム資料等)
- 雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換本報告では,雑音環境下に強いNMFによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書の線形結合で表現する.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.本手法では,NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる.実験結果より,雑音重畳音声に対して提案手法の有効性が示された.電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 77 - 82, 日本語研究論文(研究会,シンポジウム資料等)
- ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別近年,自閉症スペクトラム障害の発生頻度の増加が注目されている.自閉症スペクトラム障害とは,自閉性障害,アスペルガー障害,特定不能の広汎性発達障害の総体である.これらの障害は多様な原因に基づいて発症するため根本的な治療は困難とされているが,この障害に特化した支援による早期療育の効果が報告されている.本研究では,自閉症スペクトラム障害の早期発見を音響的な側面から目指し,ピッチ特徴量をSVMの入力として識別実験を行った.ピッチ特徴量とは,音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して,25,50,75パーセンタイル,25-50と50-75パーセンタイルの差,平均,標準偏差,尖度,歪度,最大値,最小値,レンジという12の統計量を計算したものである.実験として,単語毎の識別,区間分割による識別,特徴分割による識別の3つの識別実験を行った.区電子情報通信学会, 2013年12月, 電子情報通信学会技術研究報告, 113(366) (366), 35 - 40, 日本語研究論文(研究会,シンポジウム資料等)
- 2013年10月, IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES, E96A(10) (10), 1946 - 1953, 英語[査読有り]研究論文(学術雑誌)
- 辞書選択に基づく非負値行列因子分解による声質変換本稿では,声質変換においてもっとも一般的な,音声スペクトルを特徴量とした話者変換をタスクとし,NMFを用いた声質変換手法の精度を向上させるため,辞書選択手法の導入を提案する.これまではパラレルデータの全フレームをそのまま辞書の基底として用いており,辞書のサイズが膨大となっていた.そのため,入力音声のフレームと,入力話者辞書から選ばれる基底の音素が必ずしも一致しないといった問題があった.そこで本稿では,入力・出力話者辞書を音素カテゴリに分けた副辞書を作成する.NMFを用いて音素カテゴリ認識を行い,選択した副辞書上でマッピングを行うことで声質変換を行う.日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 1473 - 1476, 日本語研究論文(その他学術会議資料等)
- 時間変化を考慮した Deep Learning を用いた声質変換本研究では,Conditional Restricted Boltzmann Machine を用いて音声の時間的変化を捉え,Deep Learningの枠組みで声質変換を行う手法を提案する.日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 1471 - 1472, 日本語研究論文(その他学術会議資料等)
- セグメント特徴を考慮したNMFを用いた雑音環境下の声質変換本稿では,雑音環境下に強いNMFによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる.実験では雑音重畳音声に対して,提案手法の有効性を示す.日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 337 - 340, 日本語研究論文(その他学術会議資料等)
- MKL-SVMを用いた自閉症スペクトラム障害児と定型発達児の音響識別本稿では,自閉症スペクトラム障害の早期発見を音響的な側面から目指し,MKL-SVMを用いて自閉症スペクトラム障害児と定型発達児の音響識別を行う.日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 397 - 400, 日本語研究論文(その他学術会議資料等)
- Convolutional Neural Networksを用いた構音障害者のための音声認識提案手法では,音声のスペクトログラムから得られた2次元特徴を入力層,入力層の音素情報を要素として持つベクトルを出力層とするConvolutional Neural Networks (CNN) を構築し,特徴量抽出に用いる.日本音響学会, 2013年09月, 日本音響学会2013年秋季研究発表会講演論文集, 167 - 168, 日本語研究論文(その他学術会議資料等)
- 単眼サッカー映像における時間状況グラフを用いた選手追跡本研究では,サッカー映像においてオクルージョンにロバストな選手追跡を行うために,時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する.従来のパーティクルフィルタによる選手追跡では,映像のフレーム間で複数選手の位置情報を用いていないため,一度対象を見失うと再度発見するのが困難であるという欠点があった.そこで,複数選手の位置情報を時間状況グラフとして表現しておき,これにガイドされる形でパーティクルフィルタを実行すれば,オクルージョンが生じても選手の誤検出を大幅に減らすことが期待できる.評価実験では,実際の視点固定単眼サッカー映像に対して追跡を行い,時間状況グラフを用いないパーティクルフィルタによる選手追跡(従来手法)と,提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した.その結果,従来手法に比べて提電子情報通信学会, 2013年08月, 電子情報通信学会論文誌, J96-D(8) (8), 1854 - 1864, 日本語[査読有り]研究論文(学術雑誌)
- Robust Feature Extraction to Utterance Fluctuation of Articulation Disorders Based on Random ProjectionWe investigated the speech recognition of a person with an articulation disorder resulting from the athetoid type of cerebral palsy. The articulation of the first speech tends to become unstable due to strain on speech-related muscles, and that causes degradation of speech recognition. In this paper, we introduce a robust feature extraction method based on PCA (Principal Compon2013年08月, 4th Workshop on Speech and Language Processing for Assistive Technologies, 129 - 133, 英語[査読有り]研究論文(国際会議プロシーディングス)
- Noise-Robust Voice Conversion Based on Spectral Mapping on Sparse SpaceThis paper presents a voice conversion (VC) technique for noisy environments based on a sparse representation of speech. In our previous work, we discussed an exemplar-based VC technique for noisy environments. In that report, source exemplars and target exemplars are extracted from the parallel training data, having the same texts uttered by the source and target speakers. TheInternational Speech Communication Association, 2013年08月, 8th Speech Synthesis Workshop, 71 - 75, 英語[査読有り]研究論文(国際会議プロシーディングス)
- Individuality-Preserving Voice Conversion for Articulation Disorders Using Locality-Constrained NMFWe present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movements of such speakers are limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In this paper, exemplar-based spectral conversion using Non-negative2013年08月, 4th Workshop on Speech and Language Processing for Assistive Technologies, 3 - 8, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 雑音環境下における非負値行列因子分解を用いた声質変換本稿では,雑音環境下に強いSparse Codingによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,より出力話者への音声へと近似させるため,ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする.実験では雑音重畳音声に対して,提案手法の有効性を示す.システム制御情報学会, 2013年05月, システム制御情報学会研究発表講演会講演論文集, (114-5) (114-5), 1 - 6, 日本語研究論文(その他学術会議資料等)
- Unknown Object Identification Using Category Visual Words with Rejection FunctionIn this paper, we introduce an identification method for unknown category objects. Most popular conventional methods in object recognition use Bag of Features (BoF) that represents the image as an appearance frequency histogram of common visual words by quantizing SIFT features. However, this method is unable to identify unknown objects because the common visual words cannot reIAPR, 2013年05月, International Conference on Machine Vision Applications, 375 - 378, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 神戸大学都市安全研究センター, 2013年03月, 神戸大学都市安全研究センター研究報告, (17) (17), 97 - 104, 日本語[査読有り]
- 非負値行列因子分解による構音障害者の話者性を維持した声質変換本研究では,脳性麻痺の一種であるアテトーゼ型構音障害者を対象とした話者性を維持した声質変換を提案する.アテトーゼ現象は意図的な動作に緊張状態を発生させるために,障害者の発話,特に子音が不安定になる.本稿では,非負値行列因子分解(Non-negative Matrix Factorization: NMF) を用いたExemplar-basedな声質変換を構音障害者の発話に適用し,不安定な発話音声をより聞き取りやすく変換することを目指す.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 333 - 336, 日本語研究論文(その他学術会議資料等)
- 自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討本論文では,幼稚園児から小学校4年生までの自閉症スペクトラム障害児を対象に,早期発見と早期療育を目指した音響的な側面による識別実験の結果に関して報告する.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 141 - 142, 日本語研究論文(その他学術会議資料等)
- 雑音環境下におけるSparse Coding 声質変換本稿では,雑音環境下に強いSparse Codingによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,より出力話者への音声へと近似させるため,ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする.実験では雑音重畳音声に対して,提案手法の有効性を示す.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 529 - 532, 日本語研究論文(その他学術会議資料等)
- 音響モデル合成を用いた単一マイクによる2話者位置推定本論文では単一マイクを用いた2話者の音源位置推定手法について提案する.我々はこれまで音響伝達特性の識別に基づく,単一マイクによる音源位置推定法を提案してきたが,それは話者が一人のみであることを前提とした手法であった.そこで本論文ではこれまで提案した枠組みを元に,新たに音響モデル合成を用いることで,単一マイクで2話者の音源位置推定を行う手法を提案する.提案手法では位置ごとの観測信号の音響伝達特性をあらかじめ推定し,そのモデルを学習しておく.そして,学習された音響伝達特性モデルと各話者の音響モデルを合成させることで,複数話者のそれぞれの位置における混合音声信号のモデルを作成する.その後,二人の話者が同時に発話した評価音声について,位置の組合せごとに合成された混合信号モデルとのゆう度を比較することでそれぞれの話者の位置を推定する.2話者位置推定の実験により,特に位置ごとの学習データが少量の場合において提案手法の優位性を確認できた.一般社団法人電子情報通信学会, 2013年03月, 電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition), 96(3) (3), 675 - 685, 日本語[査読有り]研究論文(学術雑誌)
- ランダムプロジェクションを用いた構音障害音声の認識および誤り単語検出本研究では,アテトーゼ型の脳性麻痺による構音障害者を対象とした音声認識の実現を目指している.彼らは意図的な動作時や緊張状態にある場合に筋肉の制御が難しくなり,アテトーゼと呼ばれる不随意運動を伴う.アテトーゼ型の構音障害者の発話スタイルは健常者と大きく異なり,認識精度が著しく低下する.ランダムプロジェクションとは,空間写像の一手法で,その変換写像行列の各要素がある確率分布に従うランダムな値として定義される点に特徴を持つ.提案手法では,複数のランダム写像行列を用いて音声特徴量を変換する.各々の特徴量を用いて音声認識を行い,各認識結果を投票により統合することで最適な認識結果を得る.さらに,その投票結果に基づく正誤判定手法を紹介する.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 139 - 140, 日本語研究論文(その他学術会議資料等)
- スパース基底空間上のマッピングに基づく声質変換本稿では,これまでに提案してきた音声のスパース表現に基づく声質変換法において,入力音声と出力音声を同一のアクティビティで表現できるような部分空間を学習するNMFの枠組みを提案し,この空間上でマッピングを行うことで声質変換を行う手法を提案する.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 533 - 536, 日本語研究論文(その他学術会議資料等)
- Web画像を用いたマルチモーダル情報による物体認識ロボットが生活環境下で作業を行う際,ユーザに指示された物体を把持する物体把持タスクを達成することは最低限必要である.小篠らにより,物体把持タスクのための物体認識手法として音声情報と画像情報を統合した手法が提案されている.小篠らの手法では物体認識を行う際,画像モデルと音声モデルの両モデルが必要であるという問題があった.この問題解決のため,Web画像を用いたマルチモーダル情報による物体認識手法を提案する.本手法では大語彙辞書の発達により音声モデルは既に保持していると考え,認識に必要な画像モデルをWebにより補完する.電子情報通信学会, 2013年03月, 電子情報通信学会総合大会, 日本語研究論文(その他学術会議資料等)
- Syntax情報とContext情報を用いた音声認識誤りの2段階訂正本稿では,単語ごとに付与した長距離文脈スコアを素性とし,Confusion Network上で音声認識自動誤り訂正を行う手法を提案する.従来,単語ごとに付与された長距離文脈情報を素性として音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題があった.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与することは,あまり好ましくない.したがって本研究では,長距離文脈情報を誤り訂正の素性として用いるために,始めにN-gram情報を用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し,2段階目の訂正を行うことで,音声認識精度を向上させる手法を提案する.実験により,提案する2段階訂正を行うことで,より効果的に長距離文脈情報を誤り訂正の素性として利用できること日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 221 - 224, 日本語研究論文(その他学術会議資料等)
- Specmurtを利用した調波構造行列による混合楽音解析の検討我々が耳にする楽曲の多くは様々な楽器が同時刻に存在する混合楽音である.しかし,Specmurt法は単一楽器の多重音の解析のみしか行うことができない.そこで我々は従来のSpecmurtを拡張し,複数の楽器の混合楽音から,各楽器に分離された音高を解析する新たな手法を提案する.各楽器に分離された音高を解析する新たな手法を提案する.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 843 - 844, 日本語研究論文(その他学術会議資料等)
- Sparseness Criteria of F0-Frequencies Selection for Specmurt-Based Multi-Pitch Analysis without Modeling Harmonic StructureThis paper introduces a multi-pitch analysis method using specmurt analysis without modeling the common harmonic structure pattern. Specmurt analysis is based on the idea that the fundamental frequency distribution is expressed as a deconvolution of the observed spectrum by the common harmonic structure pattern. To analyze the fundamental frequency distribution, the common harmResearch Institute of Signal Processing, 2013年03月, Journal of Signal Processing, 17(2) (2), 29 - 38, 英語[査読有り]研究論文(学術雑誌)
- Deep Belief Nets による低次元空間表現を用いた声質変換の検討本稿では,DBNとNNを組み合わせて,話者性の取り除いた低次元空間で非線形変換を行う声質変換法を提案した.主観的・客観的に評価実験を行い,いずれの実験においても高い精度を示した.日本音響学会, 2013年03月, 日本音響学会2013年春季研究発表会, 517 - 520, 日本語研究論文(その他学術会議資料等)
- 距離空間ピラミッドを用いたLLCによる3次元物体認識近年,高精度なRGB-Dカメラの登場により,高品質な3次元情報(色,奥行き情報)が容易に測定可能となった.これを用いた従来の物体認識手法は,奥行き情報を局所的特徴の抽出にしか使用していない.つまり,奥行き情報を取得することで物体の全体的な形状を把握することが可能であるにも関わらず,部分的な利用に留まっている.そこで,提案手法では,奥行き情報に基づく距離空間ピラミッドによって,全体的な物体形状を表現する手法を提案する.具体的には,距離空間ピラミッドでの特徴点の座標位置によって,奥行きの位相情報を含んだ特徴表現を実現する.また,距離画像から抽出する3次元局所特徴量として,HONV (Histogram of Oriented Normal Vectors)を用い,特徴量のコード化には,特徴空間座標系での近傍制限を利用したLLC (Locality-con電子情報通信学会, 2013年02月, 電子情報通信学会技術研究報告, 43 - 48, 日本語研究論文(研究会,シンポジウム資料等)
- 2013年02月, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 133(2) (2), 891 - 901, 英語[査読有り]研究論文(学術雑誌)
- 人検出のための動的顕著性マップモデルの構築未学習背景下での動画像からの人検出精度向上のため,電子情報通信学会, 2013年01月, 電子情報通信学会技術研究報告, 日本語
動的顕著性マップモデルの構築手法を提案する.
顕著性マップは画像中における人の視覚的注意を引く領域を抽出するが,対象のシーンにより有効な顕著性モデルは異なる.
本研究では,静的特徴マップに加えて形状変化量を動的特徴量として抽出し,動的特徴マップから人検出に適した動的顕著性マップモデルを表現する.
次に,Adaboostによってアピアランス特徴であるHOG特徴と動的顕著性マップからそれぞれ識別器を構築し,顕著性の高い特徴量を選択を可能とする.
提案手法の有効性を確認するため,未学習背景下の動画像を用いて,従来の顕著性モデルとの比較を行った.研究論文(研究会,シンポジウム資料等) - 2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2080 - 2083, 英語SPARSE REPRESENTATION FOR OUTLIERS SUPPRESSION IN SEMI-SUPERVISED IMAGE ANNOTATION[査読有り]研究論文(国際会議プロシーディングス)
- Acoustical Society of Japan, 2013年, Acoustical Science and Technology, 34(3) (3), 176 - 186, 英語[査読有り]研究論文(学術雑誌)
- 2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 4295 - 4299, 英語PREDICTION OF UNLEARNED POSITION BASED ON LOCAL REGRESSION FOR SINGLE-CHANNEL TALKER LOCALIZATION USING ACOUSTIC TRANSFER FUNCTION[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 8037 - 8040, 英語INDIVIDUALITY-PRESERVING VOICE CONVERSION FOR ARTICULATION DISORDERS BASED ON NON-NEGATIVE MATRIX FACTORIZATION[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 369 - 372, 英語Voice Conversion in High-order Eigen Space Using Deep Belief Nets[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3714 - 3717, 英語Two-step Correction of Speech Recognition Errors Based on N-gram and Long Contextual Information[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3604 - 3608, 英語Exemplar-based Individuality-Preserving Voice Conversion for Articulation Disorders in Noisy Environments[査読有り]研究論文(国際会議プロシーディングス)
- ACM, 2013年, MM 2013 - Proceedings of the 2013 ACM Multimedia Conference, 661 - 664, 英語[査読有り]研究論文(国際会議プロシーディングス)
- It is an important task for a robot to bring objects requested by human via voice. In order to achieve the task, object recognition using speech and images is needed. Ozasa et al. has proposed the method for the object recognition by integrating speech and image information. Although this method requires both speech (word) and image models, the speech models are automatically cIAPR, 2013年, Asian Conference on Pattern Recognition, 657 - 661, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 495 - 498, 英語Voice Conversion based on Non-negative Matrix Factorization in Noisy Environments[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 38 - 42, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 14 - 21, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2013年, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 490 - 494, 英語Acoustic Feature Selection Utilizing Multiple Kernel Learning for Classification of Children with Autism Spectrum and Typically Developing Children[査読有り]研究論文(国際会議プロシーディングス)
- 音声・画像情報の融合処理を目指して文書、画像、映像、音声を対象としたマルチメディアの処理研究と、視覚、聴覚といったモダリティを統合するマルチモーダル処理研究に関して、筆者の研究内容の概要を述べる。次に、複数のメディアやモダリティから得られるデータ・情報を基に、場の状況認識や人の意図認識を行う研究について述べる。最後に、音声と画像間で、同じ手法を用いることから得られる新たな処理内容についても述べる。電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 27 - 32, 日本語[招待有り]研究論文(研究会,シンポジウム資料等)
- 音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより,単一マイクロホンで音源位置推定を行う手法を提案してきた.しかしこの手法は,事前に想定される音源位置毎に音響伝達特性を学習させる必要があり,学習していない位置の推定が困難であった.そこで本稿では,限られた位置の音響伝達特性を用いて,音響伝達特性から位置への回帰モデルを学習し,その回帰モデルにより未学習位置の推定を行う手法について検討する.回帰モデルとして,線形回帰である重回帰分析,非線形回帰であるGPR (Gaussian Process Regression),SVR (Support Vector Regression)を用い,さらにその学習方法として,評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し,その性電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 75 - 80, 日本語研究論文(研究会,シンポジウム資料等)
- シンタックスとセマンティックスに基づく音声認識結果の2段階訂正本稿では,単語ごとに長距離文脈スコアを付与することで素性とし,Confusion Network上での音声認識自動誤り訂正手法を提案する.従来,単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題がある.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは,あまり好ましくない.したがって本稿では,文脈情報を誤り訂正の素性として用いるために,まずはシンタックスを用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し,2段階目の訂正を行うことで,より音声認識精度を向上させることを目的とする.電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 149 - 154, 日本語研究論文(研究会,シンポジウム資料等)
- Towards Domain Independent Why Text Segment Classification Based on Bag of Function WordsIncreased attention has been focused on question answering (QA) technology as next generation search since it improves the usability of information acquisition from web. However, not much research has been conducted on “non-factoid-QA”, especially on Why Question Answering (Why-QA). In this paper, we introduce a machine learning approach to automatically construct a classifier2012年12月, Australasian Joint Conference on Artificial Intelligence, 英語[査読有り]研究論文(国際会議プロシーディングス)
- Sparse Coding を用いた唇情報からの音声変換唇の動きから発話内容を読み取る技術はリップリーディング(読唇)と呼ばれ,聴覚・言語障害者のコミュニケーション手段の一つとして用いられている.本研究では,Sparse Codingを用いて,唇動画像から対応する発話音声へテキスト情報なしで変換を行う.事前に音声を含んだ発話映像から唇情報と音声情報を抽出し,それぞれを基底の集合である辞書として学習する.このとき,二つの辞書行列は同一時系列であり,パラレルなデータである.入力された無音声の映像から抽出された唇情報は,Sparse Codingにより少数の基底の線形和で表される.唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで,音声の基底の線形和として音声が出力される.本稿では,唇情報から識別可能と考えられる母音について変換を行った.電子情報通信学会, 2012年12月, 電子情報通信学会技術研究報告, 112(369) (369), 119 - 124, 日本語研究論文(研究会,シンポジウム資料等)
- GMM-Based Emotional Voice Conversion Using Spectrum and Prosody FeaturesWe propose Gaussian Mixture Model (GMM)-based emotional voice conversion using spectrum and prosody features. In recent years, speech recognition and synthesis techniques have been developed, and an emotional voice conversion technique is required for synthesizing more expressive voices. The common emotional conversion was based on transformation of neutral prosody to emotionalScientific & Academic Publishing, 2012年10月, American Journal of Signal Processing, 2(5) (5), 134 - 138, 英語[査読有り]研究論文(学術雑誌)
- 非負値行列因子分解による構音障害者の声質変換近年,情報技術の福祉分野への応用が進んでいる.例えば,画像認識技術の応用による手話認識,文章読み上げシステム,無喉頭音声変換など,その応用領域は幅広い.本研究では,脳性麻痺による構音障害者に焦点をあて,構音障害者の音声を健常者のものに変換することで,より聞き取りやすくすることを目指す.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 331 - 334, 日本語研究論文(その他学術会議資料等)
- 重みつきノルム基準によるF0周波数選択を用いたSpecmurtによる多重音解析本稿では共通調波構造をモデル化しないで,重みつきノルムによるスパース性を考慮したSpecmurtによる多重音解析の有効性を示した.この手法は音色の学習を必要とせず,また和音数などといった知識も用いないで多重音の解析ができる.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 781 - 784, 日本語研究論文(その他学術会議資料等)
- 構音障害者の音素認識誤りの傾向本稿では,構音障害者の音素体系に注目し,音素認識実験を行いその誤り傾向について検討を行った.構音障害者3名を対象とした音素認識実験により,正解率が低下している音素が,母音,子音ともに類似していることが確認できた.また,正解率が低下している音素において,いくつかの誤り傾向が見られた.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 140 - 141, 日本語研究論文(その他学術会議資料等)
- 音響特徴量を用いた自閉症児と定型発達児の識別本論文では,幼稚園児から小学校4年生までの自閉症児を対象に,その早期発見を目指した音響的な側面による識別実験の結果に関して報告する.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 117 - 118, 日本語研究論文(その他学術会議資料等)
- スパース表現を用いた雑音環境下の声質変換本稿では,入力話者のパラレルデータから構築したパラレル辞書と入力音声から構築した雑音辞書を用いて,雑音が重畳した入力音声を入力話者辞書と雑音辞書のスパース表現にし,入力話者辞書のアクティビティ行列に基づいて出力話者辞書内のサンプルを線形結合することで,出力話者の音声へ変換する手法を提案した.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 213 - 216, 日本語研究論文(その他学術会議資料等)
- CRFを用いた音声認識誤り訂正における素性の検討我々は,大語彙連続音声認識において,Conditional Random Fields (CRF) を用いて認識結果中の誤りを訂正する手法を提案してきた.素性として,長距離言語情報などを用いたが,あまり大きな効果が得られなかった.そのため,本稿では,長距離言語情報を他の情報と組み合わせ,新たな素性として誤り訂正に用いる.その結果,長距離言語情報を単独で用いた場合と比較して,単語誤り率の改善が見られたので報告する.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 141 - 142, 日本語研究論文(その他学術会議資料等)
- Convolutional Neural Networks を用いた局所特徴統合による 自動音楽ジャンル分類近年のコンピュータの発展とともに音楽のデジタルコンテンツが爆発的に増大し,web上や個人の情報端末上で音楽データを整理・検索することが困難になってきている.このような背景の中で,類似した音楽を自動的にクラスタリングする自動音楽ジャンル分類の研究が盛んに行われている.本稿では後者のアプローチに基づき,各マップから計算される画像特徴であるGLCM (Gray Level Co-occurrence Matrix)を特徴量とし,Convolutional Neural Networks (ConvNets)を用いて複数のGLCMを統合しつつ音楽ジャンルを識別する手法を提案する.日本音響学会, 2012年09月, 日本音響学会2012年秋季研究発表会, 789 - 790, 日本語研究論文(その他学術会議資料等)
- 3次元Active Appearance Modelsを用いた手形状認識本研究では,高機能TVなどに対するジェスチャー入力として3次元モデルを使用した,複雑な手の形状認識の手法を提案する.従来のジェスチャー認識では,カメラに対して正面に手を向ける必要があり,任意の手の傾きに対応できない問題点がある.そこで,3D Active Appearance Modelsを使用することで,あらゆる方位にも対応できる手の形状追跡を実現する.高精度な距離画像センサーKinectを用いて,対象のRGB画像と深度情報を取得し,モデルの学習及びテストを行った.複数の3D-AAMを使用することにより,複雑な指の形状を,方向の変化に対して頑健に認識することができた.情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語研究論文(研究会,シンポジウム資料等)
- 連続DPを用いた動作間の共起性に基づく挨拶動作の検出本論文では,動作間の共起性を用いた挨拶動作の検出手法を提案する.既存の動作認識では決められた動作を学習し動作モデルを作成することで動作認識を実現してきたが,発話を伴うコミュニケーション動作は個人差が大きく,コンテキストにより意味や動作が異なるため,動作モデルを同定することは困難である.そこでコミュニ2012年08月, 第15回画像の認識・理解シンポジウム, 日本語
ケーション時には動作間に共起性が存在することに注目し,挨拶動作が生じるタイミングにも共起性が存在すると仮定する.さらに動作の挨拶動作との相関性を示す尺度として挨拶動作強度を定義する.この挨拶動作強度は距離画像からHOG特徴量により算出した人の形状の変化量から算出される.そして,挨拶動作強度時系列データ間を連続マッチングによりマッチングすることで,挨拶動作強度が高く共起性のある挨拶動作が生じている地点を検出する.
本論文では,複数の挨拶動作と挨拶動作以外の研究論文(研究会,シンポジウム資料等) - 単眼サッカー映像における時間状況グラフを用いた選手追跡本研究では,サッカー映像においてオクルージョンにロバストな選手追跡を行うために,時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する.従来のパーティクルフィルタによる選手追跡では,映像のフレーム間で複数選手の位置情報を用いていないため,一度対象を見失うと再度発見するのが困難であるという欠点があった.そこで,複数選手の位置情報を時間状況グラフとして表現しておき,これにガイドされる形でパーティクルフィルタを実行すれば,オクルージョンが起こっても選手の誤検出を大幅に減らすことが期待できる.評価実験では,実際の視点固定単眼サッカー映像に対して追跡実験を行い,時間状況グラフを用いないパーティクルフィルタによる選手追跡(従来手法)と,提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した.その結果,従来手法に比情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語[査読有り]研究論文(研究会,シンポジウム資料等)
- 自己縮小画像と混合ガウス分布モデルを用いた超解像近年,超解像技術はコンピュータビジョンの分野において活発に研究されている.本稿では,混合正規分布(GMM)を用いた変換関数による超解像を提案する.低解像度画像を高解像度画像に変換する変換関数を,入力画像と入力画像の自己縮小画像を用いた混合正規分布から作成する.入力画像をその変換関数に適用することによって,高解像度画像を得ることができる.さらに,混合正規分布だけでなく,PLS (Partial Least Squares)も用いた変換関数による超解像も提案する.また,入力画像だけを用いているので,従来手法のように大量の学習画像を必要としない.従来手法との比較を行った結果,提案手法(GMMのみ,GMM+PLS)共に,従来手法より評価値が優れ,より鮮明な画像を作成することができ,提案手法の有効性を確認した.情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語研究論文(研究会,シンポジウム資料等)
- 学習画像の選択に基づくAAMの繰り返し適応顔特徴点の取得法として,顔を追跡する方法として適しているActive Appearance Model (AAM)がある.しかし、AAMによって,未知人物を追跡しようとする時,学習データを過剰に用いると,個人の特徴が失われ,多くの局所解が生まれてしまい,追跡精度が低下してしまうので,現状では学習済みの人物でないと顔特徴点を正確に取得できないといった問題がある.そこで本研究では,この問題を解決するため,学習データを人物ごとに分けておき,未知人物に対して学習人物との類似度を,Gaussian Mixture Models(GMM)によって求める.この類似度に応じて,学習人物毎に学習データの枚数を決定し,こうして集められた学習データを基にAAMを構築して特徴点を得る.更に得られた特徴点に対して学習データとの類似度によって,繰り返しAAMを構築することで,未情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語研究論文(研究会,シンポジウム資料等)
- マルチモーダル情報を用いた未知物体学習のための 未知物体判別手法本論文では未知物体の学習のためのマルチモーダル情報を用いた未知物体判別手法を提案する.提案手法により,ロボットがユーザに指示されたと同時に未知もしくは既知であるかを判別し,未知物体を学習できる可能性を示す.2012年08月, ロボット学会学術講演会, 日本語研究論文(研究会,シンポジウム資料等)
- ウェブ画像を用いたカテゴリ別Visual Wordsによる未知物体判別本論文では,既知の物体と同様に,未知の物体も判別できるカテゴリ別Visual Wordsを提案する.最も広く用いられている物体認識の手法は,Bag of Features (BoF)手法である.これは,SIFT (Scale-Invariant Feature Transform)などの局所特徴を量子化することによって,Visual Wordsと呼ばれるコードブックを作成し,その出現頻度ヒストグラムとして画像を表現する手法である.しかし,この手法には既知の物体にしか適用できないという問題点がある.従って,BoF手法は未知の物体を含む物体認識に適している手法とはいえない.この観点から,本論文は未知のカテゴリの物体も表現することができるカテゴリ別Visual Wordsと,それによる物体認識手法を提案する.10クラスの物体認識において,提案手法は従来のB情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語研究論文(研究会,シンポジウム資料等)
- Unknown Object Detection Using Multimodal Information Integrated by Kernel Logistic RegressionThis paper presents a new method to detect unknown objects and their unknown names in object manipulation through man-robot dialog. In the method, the detection is carried out by using the information of object images and user’s speech in an integrated way. Originality of the method is to use kernel logistic regression and multiclass logistic regression for the discrimination b2012年08月, 画像の認識・理解シンポジウム, 英語研究論文(研究会,シンポジウム資料等)
- Facial Age Estimation Based on KNN-SVR Regression and AAM ParametersAge estimation is the determination of a person’s age based on biometric features. It is an important technique to estimate age from facial pictures automatically in Computer Vision. The application using age estimation for interface, robot, and human interaction is expected. In recent years, many approaches for age estimation were proposed while the results were not ideal. To情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 英語研究論文(研究会,シンポジウム資料等)
- AAMを用いた顔方位に依存しない発話認識音声情報に唇動画像情報を併用して認識を行うマルチモーダル発話認識は,雑音環境下での認識が可能である.しかし,唇情報は,顔が横を向いてしまうと,認識精度が大きく劣化してしまうため,従来のリップリーディングでは正面顔での発話に限定されていることが多かった.本研究ではActive Appearance Modelを用いて,様々な角度の顔方位を正面に変換してリップリーディングを行う手法を提案する.提案手法では,顔方位に関する回帰モデル式を選択的に扱うことで,正面顔と横顔との変動のミスマッチを抑えつつ,任意の角度で横顔を正面顔に変換することができる.実験では,正面方向の発話のみを学習し,正面,横15度,横30度の3方向の角度において認識を行った結果,3方向全てにおいて,従来手法と比べ認識精度を改善することができた.情報処理学会, 2012年08月, 画像の認識・理解シンポジウム, 日本語研究論文(研究会,シンポジウム資料等)
- Generic Object Recognition Based on CRF Incorporating BoF as Global FeaturesGeneric object recognition using a computer has become a necessity in various fields, such as robot vision and image retrieval in recent years. Conventional methods use conditional random field (CRF) that recognizes the class of each region using the features extracted from the local regions and the class co-occurrence between the adjoining regions. However, there is a problem2012年06月, Far East Journal of Electronics and Communications, 8(2) (2), 85 - 96, 英語[査読有り]研究論文(学術雑誌)
- Audio-Visual Speech Recognition Using AAM-Based Visual FeaturesAs one of the techniques for robust speech recognition under noisy environments, audio-visual speech recognition (AVSR) using lip dynamic scene information together with audio information is attracting attention, and the research has made strides in recent years. However, in visual speech recognition (VSR), when a face turns sideways, the shape of the lip as viewed by the camer2012年05月, Advances in Computer Science and Engineering, 8(2) (2), 123 - 137, 英語[査読有り]研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2012年03月, 神戸大学都市安全研究センター研究報告, (16) (16), 123 - 128, 日本語[査読有り]
- 2012年03月, NCSP, pp. 631-634, 英語Integrated Multimodal Information for Detection of Unknown Objects and Unknown Names[査読有り]研究論文(国際会議プロシーディングス)
- 2012年03月, NCSP, pp. 112-115, 英語Gaze Estimation Using 3D Active Appearance Models[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, The Australasian Joint Conference on Artificial Intelligence, 469 - 480, 英語Towards Domain Independent Why Text Segment Classification Based on Bag of Function Words[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pp. 1285--1288, 1285 - 1288, 英語SUPER-RESOLUTION BY GMM BASED CONVERSION USING SELF-REDUCTION IMAGE[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pp. 1021--1024, 1021 - 1024, 英語GENERIC OBJECT RECOGNITION BY GRAPH STRUCTURAL EXPRESSION[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pp. 761--764, 761 - 764, 英語A NEW MULTIPLE-KERNEL-LEARNING WEIGHTING METHOD FOR LOCALIZING HUMAN BRAIN MAGNETIC ACTIVITY[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pp. 1933--1936, 1933 - 1936, 英語ACOUSTIC MODEL TRANSFORMATIONS BASED ON RANDOM PROJECTIONS[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, EARTH RESOURCES AND ENVIRONMENTAL REMOTE SENSING/GIS APPLICATIONS III, 8538, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, Interspeech, 1842 - 1845, 英語Estimation of Talker’s Head Orientation Based on Discrimination of the Shape of Cross-power Spectrum Phase Coefficients[査読有り]研究論文(国際会議プロシーディングス)
- ACM, 2012年, MM 2012 - Proceedings of the 20th ACM International Conference on Multimedia, 1161 - 1164, 英語[査読有り]研究論文(国際会議プロシーディングス)
- This paper presents a new method to detect unknown objects and their unknown names in object manipulation through man-robot dialog. In the method, the detection is carried out by using the information of object images and user's speech in an integrated way. Originality of the method is to use logistic regression for the discrimination between unknown and known objects. The accuSpringer, 2012年, ACCV, 85 - 96, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012), 2532 - 2536, 英語3D Tracking of Soccer Players Using Time-Situation Graph in Monocular Image Sequence[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA (ISM), 298 - 301, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語Robust Feature Extraction to Utterance Fluctuations Due to Articulation Disorders Based on Sparse Expression[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2012), 313 - 317, 英語EXEMPLAR-BASED VOICE CONVERSION IN NOISY ENVIRONMENT[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語Consonant Enhancement for Articulation Disorders Based on Non-negative Matrix Factorization[査読有り]研究論文(国際会議プロシーディングス)
- 2012年, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, 英語An AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic Activity[査読有り]研究論文(国際会議プロシーディングス)
- Bag of Grammerを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法本論文では,non-factoid型質問応答技術の一つであるWhy型質問応答を可能とするための技術として,Whyテキストセグメントを識別する識別器の構築方法を提案する.具体的には,テキストセグメント中の文法情報に着目し,機械学習の一つであるSupport Vector Machineにより,それらの特徴パターンを学習することによって,Whyテキストセグメント識別器を構築する.これにより,どのようなドメインのテキストセグメントに対しても,有効に機能するWhyテキストセグメント識別器が構築でき,WebのようなオープンドメインにおいてWhy型質問応答が可能となる.提案手法によるWhyテキストセグメント識別能力の評価のために,Yahoo!知恵袋の回答集合からなる学習データセットをもとに,Whyテキストセグメント識別器を構築して実験を行った結果,F値=0.661,正解率=63.25%の識別性能を有する識別器を構築することができた.これより,従来のWhy型質問応答の問題点であったルール作成に手間が掛かる,識別器がドメインに依存する,ラベル付けされた学習データの入手が困難である,といった問題が改善され,より識別能力の高いWhyテキストセグメント識別が可能となった.一般社団法人電子情報通信学会, 2011年12月, 電子情報通信学会論文誌, Vol. J94-D, No. 12, pp. 2047-2(12) (12), 2047 - 2057, 日本語[査読有り]研究論文(学術雑誌)
- 2011年10月, ISMIR, pp. 181-184, 英語Constrained Spectrum Generation Using A Probabilistic Spectrum Envelope for Mixed Music Analysis[査読有り]研究論文(国際会議プロシーディングス)
- 2011年04月, IEICE TRANSACTIONS ON ELECTRONICS, E94C(4) (4), 448 - 457, 英語[査読有り]研究論文(学術雑誌)
- 2011年02月, Advances in Computer Science and Engineering, Volume 6, Issue 1, pp. 93 - 10, 英語Tracking of Multiple Soccer Players Using a 3D Particle Filter Based on Detector Confidence[査読有り]研究論文(学術雑誌)
- 2011年02月, Computer Speech and Language, Vol. 25, Issue2, pp. 440–461, 英語Topic tracking language model for speech recognition[査読有り]研究論文(学術雑誌)
- 2011年, COMPUTER VISION - ACCV 2010 WORKSHOPS, PT I, 6468, 400 - 409, 英語Gaze Estimation Using Regression Analysis and AAMs Parameters Selected Based on Information Criterion[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, 電子情報通信学会論文誌, J94-D(No.12) (No.12), 2047 - 2057, 日本語Bag of Grammarを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法[査読有り]研究論文(学術雑誌)
- 2011年, ADVANCES IN MULTIMEDIA MODELING, PT II, 6524, 454 - 464, 英語Image Annotation with Concept Level Feature Using PLSA plus CCA[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, pp. 1229-1232, 1229 - 1232, 英語GENERIC OBJECT RECOGNITION USING AUTOMATIC REGION EXTRACTION AND DIMENSIONAL FEATURE INTEGRATION UTILIZING MULTIPLE KERNEL LEARNING[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, pp. 2696-2699, 2696 - 2699, 英語FEATURE SELECTION BASED ON MULTIPLE KERNEL LEARNING FOR SINGLE-CHANNEL SOUND SOURCE LOCALIZATION USING THE ACOUSTIC TRANSFER FUNCTION[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 2721-2724, 2732 - 2735, 英語Single-channel Head Orientation Estimation Based on Discrimination of Acoustic Transfer Function[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 1765-1768, 1776 - 1779, 英語Probabilistic Spectrum Envelope: Categorized Audio-features Representation for NMF-based Sound Decomposition[査読有り]研究論文(国際会議プロシーディングス)
- 2011年, ADVANCES IN IMAGE AND VIDEO TECHNOLOGY, PT I, 7087, 97 - 108, 英語Audio-Visual Speech Recognition Based on AAM Parameter and Phoneme Analysis of Visual Feature[査読有り]研究論文(国際会議プロシーディングス)
- 2010年11月, Journal of Software Engineering and Applications, Volume 3, Number 11, pp. 1060-, 英語3D Human Pose Estimation from a Monocular Image Using Model Fitting in Eigenspaces[査読有り]研究論文(学術雑誌)
- 2010年09月, Interspeech2010, pp. 945-948, 英語Speech Synthesis by Modeling Harmonics Structure with Multiple Function[査読有り]研究論文(国際会議プロシーディングス)
- 2010年04月, Journal of Software Engineering and Applications, Volume 3, Number 4, pp. 341-34, 英語Sudden Noise Reduction Based on GMM with Noise Power Estimation[査読有り]研究論文(学術雑誌)
- 2010年02月, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 127(2) (2), 902 - 908, 英語[査読有り]研究論文(学術雑誌)
- Institute of Electrical and Electronics Engineers Inc., 2010年, Proceedings - International Conference on Pattern Recognition, 754 - 757, 英語研究論文(国際会議プロシーディングス)
- 2010年, COMPUTER VISION - ACCV 2009, PT II, 5995, 291 - +, 英語Human Action Recognition Using HDP by Integrating Motion and Location Information[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, pp. 538-541, 538 - 541, 英語STRUCTURING A GENE NETWORK USING A MULTIRESOLUTION INDEPENDENCE TEST[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, pp. 2830-2833, 2830 - 2833, 英語HMM-BASED SEPARATION OF ACOUSTIC TRANSFER FUNCTION FOR SINGLE-CHANNEL SOUND SOURCE LOCALIZATION[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, pp. 2150-2153, 2150 - 2153, 英語EVALUATION OF RANDOM-PROJECTION-BASED FEATURE COMBINATION ON SPEECH RECOGNITION[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, Proceedings - International Conference on Pattern Recognition, pp. 3025-3028, 3025 - 3028, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, DISCOVERY SCIENCE, DS 2010, 6332, 87 - 101, 英語Why Text Segment Classification Based on Part of Speech Feature Selection[査読有り]研究論文(国際会議プロシーディングス)
- 2010年, 2010 IEEE International Workshop on Multimedia Signal Processing, MMSP2010, pp. 517-520, 517 - 520, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2009年11月, Advances in Computer Science and Engineering, Volume 3, Issue 3, pp. 175-186, 英語3D Human Posture Estimation Based on Linear Regression of HOG Features from Monocular Images[査読有り]研究論文(学術雑誌)
- 2009年10月, Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference, pp. 246-249, 英語Echo Canceller for Multi-Loudspeakers Based on Maximum Likelihood Using an Acoustic Model[査読有り]研究論文(国際会議プロシーディングス)
- 2009年08月, Far East Journal of Electronics and Communications, Volume 3, Issue 2, pp. 125 - 1, 英語SPEECH FEATURE EXTRACTION USING WEIGHTED HIGHER-ORDER LOCAL AUTO-CORRELATION[査読有り]研究論文(学術雑誌)
- 2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 109-112, 英語Situation Recognition Using 3D Positional Information of Ball from Monocular Soccer Image Sequence[査読有り]研究論文(国際会議プロシーディングス)
- 2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 49-52, 英語Generic Object Recognition using CRF by Incorporating BoF as Global Features[査読有り]研究論文(国際会議プロシーディングス)
- 2009年08月, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 205-206, 英語Estimation of Ground Surface Displacement from Microwave Radar Images by Using Phase-only Correlation[査読有り]研究論文(国際会議プロシーディングス)
- 2009年07月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E92D(7) (7), 1453 - 1461, 英語[査読有り]研究論文(学術雑誌)
- 2009年, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 36 - 37, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 637 - 638, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, Volume 2009 (2009), Article ID, 英語[査読有り]研究論文(学術雑誌)
- 2009年, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, Volume 2009 (2009), Article ID, 英語[査読有り]研究論文(学術雑誌)
- Academy Publisher, 2009年, Journal of Multimedia, 4(4) (4), 254 - 261, 英語[査読有り]研究論文(学術雑誌)
- 2009年, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, pp. 637-638, 668 - +, 英語Pose Robust and Person Independent Facial Expressions Recognition Using AAM Selection[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, pp. 36-37, 412 - +, 英語Automatic Segmentation of Object Region Using Graph Cuts Based on Saliency Maps and AdaBoost[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, FUSION: 2009 12TH INTERNATIONAL CONFERENCE ON INFORMATION FUSION, VOLS 1-4, pp. 48-53, 48 - 53, 英語Monaural Sound-Source-Direction Estimation Using the Acoustic Transfer Function of an Active Microphone[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, pp. 461-464, 461 - 464, 英語SINGLE-CHANNEL MULTI-TALKER-LOCALIZATION BASED ON MAXIMUM LIKELIHOOD[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, pp. 769-772, 768 - 771, 英語MATHEMATICAL MODELING OF HARMONIC-TIMBRE STRUCTURE WITH MULTI-BETA-DISTRIBUTION[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5, pp. 256-259, 284 - 287, 英語System Request Detection in Human Conversation Based on Multi-Resolution Gabor Wavelet Features[査読有り]研究論文(国際会議プロシーディングス)
- 2009年, 2009 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ISPACS 2009), pp. 445-448, 445 - 448, 英語Gradient-Based Acoustic Features for Speech Recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2008年11月, 15th World Congress on ITS, CD-ROM, 英語Improvement of In-Car Speech Recognition by Acoustic Echo Canceller with Maximum Likelihood[査読有り]研究論文(国際会議プロシーディングス)
- 顔表情からの関心度推定に基づく映像コンテンツへのタギング近年,ユーザが視聴可能な映像コンテンツは莫大な量となってきているため,ユーザが自分の好きな映像コンテンツを探し出すことが困難になりつつある.そこで我々は,映像コンテンツを視聴するユーザを撮影し,その表情から関心度を推定することで映像コンテンツにタギングを行い,番組推薦に役立てるためのシステムを提案する.撮影された顔は,Elastic Bunch Graph Matchingによって,顔特徴点抽出と個人認識が行われ,特定された個人に対して,Support Vector Machinesによって関心のクラスが推定される.関心のクラスは,Neutral,Positive,Negative,Rejectiveの4種類であり,映像コンテンツと同期してフレームごとにタギングが行われる.評価実験の結果,関心クラス推定の平均再現率は86.73% ,平均適合率は86.67%となった.Recently, there are so many videos available for people to choose to watch. To solve this problem, we propose a tagging system for video content based on facial expression that can be used for video content recommendations. Viewer's face captured by a camera is extracted by Elastic Bunch Graph Matching, and Interest class is estimated by Support Vector Machines. The interest classes are Neutral, Positive, Negative and Rejective. They are recorded as “interest tags” in synchronization with video content. Experimental results achieved an averaged recall rate of 86.73%, and averaged precision rate of 86.67%.情報処理学会, 2008年10月, 情報処理学会論文誌, Vol.49,No.10,pp.3694-3702(10) (10), 3694 - 3702, 日本語[査読有り]研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2008年03月, 神戸大学都市安全研究センター研究報告, 12, 91 - 102, 日本語
- 2008年03月, NCSP, pp. 76-79, 英語Multiple Classifier Based on Fuzzy C-Means for a Flower Image Retrieval[査読有り]研究論文(国際会議プロシーディングス)
- 2008年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E91D(3) (3), 522 - 528, 英語[査読有り]研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2008年03月, 神戸大学都市安全研究センター研究報告, pp. 9-12(12) (12), 103 - 108, 日本語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 15th World Congress on Intelligent Transport Systems and ITS America Annual Meeting 2008, 5, 3316 - 3319, 英語Research center for urban safety and security kobe university研究論文(国際会議プロシーディングス)
- AdaBoost/LogitBoostによるWhyテキストセグメント判定と回答抽出の自動化従来の質問応答システムは,What,Where,Who を扱った質問に対して,事実に関係する回答を行う研究,つまりFactoid 型質問応答システムが主流である."~はなぜ?" のように原因を求めるWhy 型や,"どのように~できる?" のような方法を探究するHow 型の質問に対応した研究例は多いとはいえない.そこで,本研究では,インターネット上にあるテキスト文書中のテキストセグメントのWhy 判定と,セグメント内の事実文と理由文の位置関係によりCase に分けた回答文の特定を,機械学習によって自動的に行う方法を提案する.Why 判定ではF 値約80%で判別可能となった.回答部分の抽出でも各クラスのF 値を向上させることができた.Typical question-answering systems deal with factoid types, such as ‘what’, ‘where’, and ‘who’. These types of QA systems are concerned mainly with finding facts from corpus, and are thus unable to answer questions asking for reasons for some events or things. This paper presents the algorithm to find ‘Why-based’ answers from the internet. The main focus of this paper is to classify Why-based text segments and extractWhy-based answers from the segment with Cases, which are differentiated automatically by the position of the fact and reason sentence within a segment, using machine learning. The experiment showed improvement on differentiating Why-based segments from text. Also, this method enabled enhancement of F-measurement of answer extraction.情報処理学会, 2008年, 情報処理学会論文誌, 49(6) (6), 2234 - 2242, 日本語[査読有り]研究論文(学術雑誌)
- 2008年, The 14th International Multimedia Modeling Conference, 4903, 210 - +, 英語Tagging Video Contents with Positive/Negative Interest Based on User’s Facial Expression[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, pp. 253-257, 253 - 257, 英語Speaker independent phoneme recognition based on Fisher weight map[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, pp. 304-309, 304 - +, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, pp. 282-287, 282 - +, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, pp. 148-151, 149 - 152, 英語Integration of phoneme-subspaces using ICA for speech feature extraction and recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, pp. 65-68, 66 - 69, 英語Active microphone with parabolic reflection board for estimation of sound source direction[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, pp. 881-884, 881 - +, 英語GRAPH CUTS BY USING LOCAL TEXTURE FEATURES OF WAVELET COEFFICIENT FOR IMAGE SEGMENTATION[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, pp. 889-892, 889 - +, 英語DIGITAL CAMERA WORK FOR SOCCER VIDEO PRODUCTION WITH EVENT RECOGNITION AND ACCURATE BALL TRACKING BY SWITCHING SEARCH METHOD[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, Proceedings - 2008 International Conference on Multimedia and Ubiquitous Engineering, MUE 2008, Vol. 1, No. 3, pp. 61-70, 253 - 257, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 81-90, 304 - +, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 71-80, 282 - +, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 403-406, 403 - 406, 英語Sudden Noise Reduction Based on GMM with Noise Power Estimation[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 2234-2237, 2234 - +, 英語Integration of Metamodel and Acoustic Model for Speech Recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1179 - +, 英語Object Recognition and Segmentation Using SIFT and Graph Cuts[査読有り]研究論文(国際会議プロシーディングス)
- 2008年, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1466 - +, 英語3D Human Posture Estimation Using the HOG Features from Monocular Image[査読有り]研究論文(国際会議プロシーディングス)
- 2007年08月, 映像情報メディア学会誌, Vol.61,No.8,pp.1159-1167, 日本語輝度投影相関と二分化テンソルヒストグラムを併用したオンライン処理向けカメラワーク解析法の精度向上[査読有り]研究論文(学術雑誌)
- 2007年03月, Systems and Computers in Japan, 38(3) (3), 23 - 38, 英語研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2007年03月, 神戸大学都市安全研究センター研究報告, 11, 191 - 196, 日本語
- 2007年03月, Journal of VLSI Signal Processing Systems for Signal, Image, and Video Technology, 46(2-3) (2-3), 123 - 131, 英語[査読有り]研究論文(学術雑誌)
- 2007年03月, JOURNAL OF VLSI SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 46(2-3) (2-3), 123 - 131, 英語[査読有り]研究論文(学術雑誌)
- 2007年, 映像情報メディア学会誌, Vol.61, No.8, pp.1150-1158(8) (8), 1150 - 1158, 日本語実時間カメラワーク評価に基づく単一ショット訓練指向型オンライン映像処理ナビゲーションシステム ~映像文法を背景とした映像撮影学習システムに向けて~[査読有り]研究論文(学術雑誌)
- 2007年, 映像情報メディア学会誌, Vol.61, No.8, pp.1159-1167, 日本語輝度投影相関と二分化テンソルヒストグラムを併用したオンライン処理向けカメラワーク解析法の精度向上 ~訓練指向型オンライン映像撮影ナビゲーションシステム~[査読有り]研究論文(学術雑誌)
- Academy Publisher, 2007年, Journal of Multimedia, 2(5) (5), 13 - 18, 英語[査読有り]研究論文(学術雑誌)
- Inst. of Image Information and Television Engineers, 2007年, 映像情報メディア学会誌, 61(8) (8), 1159 - 1167, 日本語[査読有り]研究論文(学術雑誌)
- 2007年, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, pp. 778-782, 778 - 782, 英語Noise detection and classification in speech signals with boosting[査読有り]研究論文(国際会議プロシーディングス)
- 2007年, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, pp. 336-340, 336 - 340, 英語Estimation of room acoustic transfer function using speech model[査読有り]研究論文(国際会議プロシーディングス)
- 2007年, Proceedings of the ACM International Multimedia Conference and Exhibition, pp. 561-564, 561 - 564, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 2789-2792, 2776 - +, 英語System Request Detection in Conversation Based on Acoustic and Speaker Alternation Features[査読有り]研究論文(国際会議プロシーディングス)
- 2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 1150-1153, 1425 - +, 英語PCA-Based Feature Extraction for Fluctuation in Speaking Style of Articulation Disorders[査読有り]研究論文(国際会議プロシーディングス)
- 2007年, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 606-609, 2924 - +, 英語Language Modeling using PLSA-Based Topic HMM[査読有り]研究論文(国際会議プロシーディングス)
- 2006年06月, 情報処理学会論文誌, Vol. 47, No. 6, pp. 1767-1773, 日本語Kernel PCAを用いた残響下におけるロバスト特徴量抽出の検討[査読有り]研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2006年03月, 神戸大学都市安全研究センター研究報告, 10, 117 - 124, 日本語
- 2006年03月, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E89D(3) (3), 908 - 914, 英語[査読有り]研究論文(学術雑誌)
- 2006年, 電子情報通信学会論文誌, Vol. J89-DII, No. 2, pp. 292-3, 日本語音声情報と画像情報の統合による商品紹介映像のセグメンテーション[査読有り]研究論文(学術雑誌)
- 2006年, 日本音響学会論文誌, Vol. 62, No. 3, pp. 182-192, 日本語マルチモーダルインタラクションによる映像中の人物検索[査読有り]研究論文(学術雑誌)
- 2006年, 2006 IEEE International Conference on Acoustics, Speech and Signal Processing, Vols 1-13, pp. 509-512, 509 - 512, 英語Robust feature extraction using kernel PCA[査読有り]研究論文(国際会議プロシーディングス)
- 2006年, 2006 IEEE International Conference on Multimedia and Expo - ICME 2006, Vols 1-5, Proceedings, CD-ROM, pp.1281-1284, 1281 - 1284, 英語Online training-oriented video shooting navigation system based on real-time camerawork evaluation[査読有り]研究論文(国際会議プロシーディングス)
- 2006年, INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5, pp. 377-380, 377 - 380, 英語Phoneme Recognition Based on Fisher Weight Map to Higher-Order Local Auto-Correlation[査読有り]研究論文(国際会議プロシーディングス)
- 2006年, ISM 2006: EIGHTH IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA, PROCEEDINGS, pp.851-858, 851 - 858, 英語Automatic production system of soccer sports video by digital camera work based on situation recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2005年07月, Systems and Computers in Japan, 36(8) (8), 40 - 48, 英語研究論文(学術雑誌)
- 神戸大学都市安全研究センター, 2005年03月, 神戸大学都市安全研究センター研究報告, 9, 179 - 185, 日本語
- Inst. of Image Information and Television Engineers, 2005年, Kyokai Joho Imeji Zasshi/Journal of the Institute of Image Information and Television Engineers, 59(2) (2), 271 - 278, 日本語研究論文(学術雑誌)
- To replay baseball highlight scenes in live broadcasts to baseball fans outside, image processing, such as analysis, meta information extraction, and automatic editing, has to be performed in real time. This paper proposes high-speed image processing that automatically extracts PC (Pitcher and Catcher) scenes from live broadcasts of a baseball game in real time using a feature mining technique as a part of baseball highlight scene delivery. This method achieves an F-measure of 97.2% and a processing speed 30 times faster than actual time.一般社団法人映像情報メディア学会, 2005年, 映像情報メディア学会誌, 59, 1, 77-84(1) (1), 77 - 84, 日本語[査読有り]研究論文(学術雑誌)
- 2005年, 映像情報メディア学会誌, 59, 2, 271-278, 日本語ボールと選手に着目したディジタルカメラワークの実現法 -ディジタルシューティングによるサッカー解説映像生成システムに向けて-[査読有り]研究論文(学術雑誌)
- 2005年, 2005 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5, 1049-1052, 1049 - 1052, 英語Structuring baseball live games based on speech recognition using task dependent knowledge and emotion state recognition[査読有り]研究論文(国際会議プロシーディングス)
- 2005年, Interspeech, pp. 3453-3456, 英語Situation Based Speech Recognition for Structuring Baseball Live Games[査読有り]研究論文(国際会議プロシーディングス)
- 2005年, Proceedings of the 13th ACM International Conference on Multimedia, MM 2005, pp.355-358, 355 - 358, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2005年, 電子情報通信学会論文誌, J88-D-11, 2, 250-265, 日本語GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識[査読有り]研究論文(学術雑誌)
- 2005年, 電子情報通信学会論文誌, Vol. J88-DII, No. 7, pp. 1093-, 日本語GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧[査読有り]研究論文(学術雑誌)
- 2005年, ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2005, PT 2, 3768, 923 - 934, 英語Two-channel-based noise reduction in a complex spectrum plane for hands-free communication system[査読有り]研究論文(学術雑誌)
- John Wiley and Sons Inc., 2004年, Systems and Computers in Japan, 35(3) (3), 46 - 57, 英語研究論文(学術雑誌)
- 2004年, 電子情報通信学会論文誌, J87-D-11, 6, 1208-1215, 日本語音響・言語モデルの適応処理によるスポーツ実況中継の音声認識[査読有り]研究論文(学術雑誌)
- 2004年, 2004 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXP (ICME), VOLS 1-3, CD-ROM, 583 - 586, 英語Video shooting navigation system by real-time useful shot discrimination based on video grammar[査読有り]研究論文(国際会議プロシーディングス)
- 2004年, Interspeech 2004 ICSLP, 446-449, 英語Structuring of Baseball Live Games Based on Speech Recognition Using Task Dependent Knowledge[査読有り]研究論文(学術雑誌)
- 2004年, 2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS, I-941-I-944, 941 - 944, 英語Robust speech recognition in additive and channel noise environments using GMM and EM algorithm[査読有り]研究論文(国際会議プロシーディングス)
- 2004年, 2004 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXP (ICME), VOLS 1-3, CD-ROM, 277 - 280, 英語Automatic extraction of PC scenes based on feature mining for a real time delivery system of baseball highlight scenes[査読有り]研究論文(国際会議プロシーディングス)
- 2004年, ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2004, PT 3, PROCEEDINGS, 3333, 466 - 473, 英語A method of digital camera work focused on players and a ball - Toward automatic contents production system of commentar soccer video by digital shooting[査読有り]研究論文(学術雑誌)
- Association for Computing Machinery, Inc, 2003年11月, Proceedings of the 5th ACM SIGMM International Workshop on Multimedia Information Retrieval, MIR 2003, 未記入, 209 - 214, 英語[査読有り]研究論文(国際会議プロシーディングス)
- 2003年11月, Acoustical Science and Technology, 24(6) (6), 379 - 381, 英語[査読有り]研究論文(学術雑誌)
- Inst. of Image Information and Television Engineers, 2003年, Kyokai Joho Imeji Zasshi/Journal of the Institute of Image Information and Television Engineers, 57(7) (7), 829 - 839, 日本語研究論文(学術雑誌)
- 2003年, 電子情報通信学会論文誌, Vol.J86-D-II No.11 1523-1530(11) (11), 1523 - 1530, 日本語日本語話し言葉音声認識のための音節に基づく音響モデリング[査読有り]研究論文(学術雑誌)
- 2003年, 情報処理学会論文誌, 44(03) 915-924(3) (3), 915 - 924, 日本語映像文法に基づく映像編集支援システム[査読有り]研究論文(学術雑誌)
- 2003年, 映像メディア学会誌, Vol.57 No.7 829-839, 日本語映像文法に基づいた映像編集支援システムのための使用可能なショット区間の自動抽出[査読有り]研究論文(学術雑誌)
- 2003年, 人工知能学会誌, Vol.18,No.3,pp.307-316, 日本語マルチメディア情報の高次処理[査読有り]研究論文(学術雑誌)
- 2003年, EuroSpeech2003, 961-964, 英語Topic Segmentation and Retrieval System for Lecture Videos Based on Spontaneous Speech Recognition[査読有り]研究論文(学術雑誌)
- 2003年, EuroSpeech2003, 2513-2516, 2513 - 2516, 英語Syllable-Based Acoustic Modeling for Japanese Spontaneous Speech Recognition[査読有り]研究論文(学術雑誌)
- 2003年, 2003 ISCA Workshop on Multilingual Spoken Document Retrieval(MSDR2003), 61-66, 英語Speaker Naming System by Associating Speech and Speaker Recognition Results[査読有り]研究論文(学術雑誌)
- 2003年, EuroSpeech2003, 1453-1456, 英語Live Speech Recognition in Sports Games by Adaptation of Acoustic Model and Language Model[査読有り]研究論文(学術雑誌)
- 2003年, HCI International 2003, Vol.II 586-590, 英語Human Information Retrieval Based on Face Recognition in Video Image through Multi-modal Interaction Using Speech and Hand Pointing Action[査読有り]研究論文(学術雑誌)
- 2003年, 3th-International Workshop on Content-Based Multimedia Indexing(CBMI'03), 35-40, 英語Full Automatic Segmentation of Goods Catalog Video into Individual Goods Section by Integrating Speech and Image Information[査読有り]研究論文(学術雑誌)
- 2003年, EuroSpeech2003, 1781-1784, 英語Combination of Temporal Domain SVD Based Speech Enhancement and GMM Based Speech Estimation for ASR in Noise - Evaluation on the AURORA2 Task -[査読有り]研究論文(学術雑誌)
- 2003年, 3th-International Workshop on Content-Based Multimedia Indexing(CBMI'03), 57-62, 英語AUTOMATIC SHOT SIZE INDEXING FOR A VIDEO EDITING SUPPORT SYSTEM[査読有り]研究論文(学術雑誌)
- 2003年, ELECTRONICS AND COMMUNICATIONS IN JAPAN PART II-ELECTRONICS, 86(11) (11), 61 - 71, 英語[査読有り]研究論文(学術雑誌)
- 2002年03月, 日本語映像文法のためのカット先読み機構を備えた自動ダイジェスト生成システム研究論文(大学,研究機関等紀要)
- International Speech Communication Association, 2002年, 7th International Conference on Spoken Language Processing, ICSLP 2002, 465 - 468, 英語Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks研究論文(国際会議プロシーディングス)
- Institute of Electrical and Electronics Engineers Inc., 2002年, Proceedings of 2002 IEEE Workshop on Multimedia Signal Processing, MMSP 2002, 268 - 271, 英語研究論文(国際会議プロシーディングス)
- 2002年, Proceedings - International Conference on Pattern Recognition, 16(2) (2), 1031 - 1036, 英語Video editing support system based on video grammar and content analysis研究論文(国際会議プロシーディングス)
- 2001年07月, 英語An Advanced Multimedia Content Processing for the Broadband Internet Services[招待有り]研究論文(その他学術会議資料等)
- International Speech Communication Association, 2001年, EUROSPEECH 2001 - SCANDINAVIA - 7th European Conference on Speech Communication and Technology, 1879 - 1882, 英語Speech recognition under musical environments using kalman filter and iterative MLLR adaptation研究論文(国際会議プロシーディングス)
- 2001年, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 1, 297 - 300, 英語Continuous speech recognition under non-stationary musical environments based on speech state transition model研究論文(国際会議プロシーディングス)
- 【工学部論文データから移行】2000年09月, Proceedings of ADBIS-DASFAA Symposium on Advances in Databases and Information Systems, J. Stuller, et al., Eds.: Lecture Notes in Computer Science 1884, Springer, 英語[招待有り]研究論文(国際会議プロシーディングス)
- 2000年, NEW GENERATION COMPUTING, 18(4) (4), 341 - 357, 英語Multimedia technologies for structuring and retrieval of TV news[査読有り]研究論文(学術雑誌)
- 2000年, 2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS, VOLS I-VI, 1727 - 1730, 英語Noisy speech recognition using noise reduction method based on Kalman filter[査読有り]研究論文(国際会議プロシーディングス)
- 一般社団法人映像情報メディア学会, 1999年01月, 映像情報メディア学会誌 : 映像情報メディア = The journal of the Institute of Image Information and Television Engineers, 53(1) (1), 34 - 40, 日本語
- 電子情報通信学会, 2020年03月02日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 119(439) (439), 181 - 186, 日本語深層距離学習に基づく構音障害者音声認識 (応用音響)
- 電子情報通信学会, 2020年03月02日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 119(440) (440), 181 - 186, 日本語深層距離学習に基づく構音障害者音声認識 (信号処理)
- Differentiable Programmingを用いた強化学習の最適化機械学習と関数型プログラミングには多くの類似性を持ち、近年それらを結びつけるDifferentiable Programmingというアイデアが新しく出てきた。この方法はパラメータを直接調節して勾配を求められることが今までと大きく違う。これにより物理シミュレーションなど様々な分野に適用できることが期待されている。私たちは強化学習のベンチマークを用いてDQNの手法とDifferentiable Programmingの手法を比較し、Differentiable programmingの効果及び学習ダイナミクスを調査し説明する。2020年02月20日, 第82回全国大会講演論文集, 2020(1) (1), 267 - 268, 日本語
- ニューロンセグメンテーションにおけるマルチドメイン学習による汎化性能の改善脳全体における神経回路のマッピングの研究であるコネクトミクスにおいて、脳の電子顕微鏡画像から各ニューロンを識別することが重要である。深層学習によるニューロンの自動セグメンテーションに際して、データの取得にもアノテーションにも多大なコストがかかるため、転移学習をさせることが有力な選択肢の1つとなる。本稿では、U-Netと呼ばれる深層学習モデルを用いて、複数のドメインの公開データセットで学習させたモデルの汎化性能を検討した。また、それによって、目標となるドメインのデータセットでの転移学習のコストを低減させつつ、精度を向上させることを試みた。2020年02月20日, 第82回全国大会講演論文集, 2020(1) (1), 169 - 170, 日本語
- 2020年, 日本音響学会研究発表会講演論文集(CD-ROM), 2020Convolutional Neural Networksを用いた音声想起時の脳磁界データにおける識別的特徴量の検討
- 電子情報通信学会, 2019年10月26日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 119(251) (251), 45 - 50, 日本語構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習 (福祉情報工学)
- 2019年08月21日, 日本音響学会研究発表会講演論文集(CD-ROM), 2019, ROMBUNNO.3‐P‐13, 日本語脳磁界データによる音声の識別―想起時と聴取時の比較―
- 音声明瞭度に関連した脳磁界反応:聴覚野および知覚性言語野における解析脳磁界計測による知覚する音声の明瞭性に関わる反応を聴覚野と知覚性言語野に注目して調べた.2018年09月, 日本音響学会2018年秋季研究発表会講演論文集, 485 - 488, 日本語
背景雑音として50 dBの白色雑音を用い,雑音の音圧レベルに対し,SN比が0, 6, 12, 18, 24 dBになるように日本語の単音節の音圧レベルを調整した.これらの刺激音を用い,明瞭度試験と脳磁界計測を行った.誘発脳磁界データからの脳内活動源推定を行い,聴覚野や知覚性言語野における活動強度の変化を調べた.右半球の上側頭回後方において潜時250〜500 msにおける言語性情報の処理の可能性が示唆された.研究発表ペーパー・要旨(全国大会,その他学術会議) - 電子情報通信学会, 2015年12月02日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(346) (346), 13 - 18, 日本語Alternating Direction Method of Multipliersを用いた声質変換のためのパラレル辞書学習 (音声) -- (第17回音声言語シンポジウム)
- 日本音響学会, 2015年06月18日, 聴覚研究会資料 = Proceedings of the auditory research meeting, 45(4) (4), 211 - 216, 日本語Deformable Part Modelを用いた顔部品検出
- 電子情報通信学会, 2015年06月18日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(100) (100), 7 - 12, 日本語Deformable Part Modelを用いた顔部品検出 (福祉情報工学)
- 電子情報通信学会, 2015年06月18日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(99) (99), 7 - 12, 日本語Deformable Part Modelを用いた顔部品検出 (音声)
- 電子情報通信学会, 2015年06月18日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(98) (98), 7 - 12, 日本語Deformable Part Modelを用いた顔部品検出 (パターン認識・メディア理解)
- 日本生体磁気学会, 2015年06月, 日本生体磁気学会誌, 28(1) (1), 106 - 107, 日本語脳磁界計測によるエアコン音の"涼しさ"の印象評価の試み
- 話者適応型Restricted Boltzmann Machineを用いた声質変換の検討質変換は,入力した音声を音韻情報などを保ったまま,話者性に関する特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の多くの声質変換手法は,同一発話内容の入出力音声対 (パラレルデータ) を学習時に必要とするが,予め発話内容を決めておく必要がある,音声間のアライメントを取る必要があるなど,学習データを慎重に用意しなければならないという問題がある.また,変換モデルの利用は学習された話者対のみに限定されてしまう.本研究では,パラレルデータを必要としない任意話者声質変換を実現するため,確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM(Adaptive restricted Boltzmann machine; ARBM) を新たに提案する.適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり,異なる層の素子間には話者によって変化する結合重みが存在する.本稿では,適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する.Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理(SLP), 2014(30) (30), 1 - 6, 日本語
- 雑音環境下における特徴量重み付きマルチモーダル声質変換声質変換は,入力した音声を音韻情報などは保ったまま,話者性のような特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の代表的な手法である GMM を用いた統計的なアプローチ等は,あくまでクリーン音声を用いた評価を行っており,雑音環境下を考慮した定式化はされていない本研究では,雑音環境下での声質変換など,これまでになかったタスクに対応可能な非負値行列因子分解 (Non-negative Matrix Factorization:NMF) による声質変換を扱う.我々はこれまで,この NMF に基づいた,音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた.入力話者の特徴量として,音声と画像情報を用いることで変換精度,及びノイズロバスト性の向上を目指した.本論文では,さらに特徴量重みを導入し,新たにコスト関数を提案した.実験結果より,音声情報のみを用いた NMF による声質変換,及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す.Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理(SLP), 2014(17) (17), 1 - 6, 日本語
- Multiple Non-negative Matrix Factorization を用いた多対一声質変換本報告では,非負値行列因子分解 (NMF) を拡張したMultiple Non-negative Matrix Factorization (Multi-NMF) を提案し,任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う.従来,声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた.声質変換において最も一般的な手法は混合正規分布モデル (GMM) を用いた統計的手法であり,統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて,任意の話者から他の任意の話者への変換へと拡張されている.一方,統計的声質変換に代わる手法として NMF を用いた Exemplar-based 声質変換がある.この手法は,NMF が有する雑音除去機能と,Exemplar-based 手法がもつ変換音声の自然性保持という利点から研究が進められている.しかしながら,NMF 声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり,これまでは任意話者からの声質変換は不可能であった.そこで本報告では,Multi-NMF による,入力話者の発話データを学習せずども変換できる多対一声質変換を提案する.入力話者の発話スペクトルは,事前に学習された複数の話者の発話スペクトルの線形和で表現され,その結合重み係数を用いて目標話者の発話スペクトルヘと変換される.この手法は,多対多声質変換や,話者性を制御可能な声質変換へと応用可能であると考えられる.Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.一般社団法人情報処理学会, 2014年12月08日, 研究報告音声言語情報処理(SLP), 2014(15) (15), 1 - 6, 日本語
- 日本音響学会, 2014年06月19日, 聴覚研究会資料 = Proceedings of the auditory research meeting, 44(5) (5), 283 - 288, 日本語スパース辞書学習による構音障害者の話者性を維持した声質変換
- スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine近年,声質変換の研究分野において,over-fitting や over-smoothing の生じにくいスパース表現に基づく手法が注目を浴びている.スパース表現に基づく声質変換法では,予め入力話者・出力話者のパラレル辞書を求めておき,スパースな辞書選択重みを用いて適切な辞書を選択することで声質変換を実現するとの手法は主に 2 つのアプローチに分けることができる.1 つ目はパラレル辞書として,学習データの音響特徴量をそのまま辞書として用いるアプローチであり,もう 1 つは,パラレル辞書そのものを何らかの手法で学習させるアプローチである.本研究では,後者のアプローチに基づき,近年注目を浴びている Deep Learning の基礎技術となる restricted Bolzmann machine(RBM) を用いて,入力話者・出力話者のパラレル辞書を体系的に求める手法を提案する.評価実験では,代表的な手法である Gaussian mixture model(GMM) だけでなく,従来のスパース表現に基づく手法である、non-negative matrix factorization (NMF) による声質変換法に比べて高い精度が得られたことを確認した.In voice conversion, sparse-representation-based methods have recently been garnering attention because they are, relatively speaking, not affected by over-fitting or over-smoothing problems. In these approaches, voice conversion is achieved by estimating a sparse vector that determines which dictionaries of the target speaker should be used, calculated from the matching of the input vector and dictionaries of the source speaker. The sparse-repre sentation-based voice conversion methods can be broadly divided into two approaches: 1) an approach that uses raw acoustic features in the training data as parallel dictionaries, and 2) an approach that trains parallel dictionaries from the training data. Our approach belongs to the latter; we systematically estimate the parallel dictionaries using a restricted Boltzmann machine, a fundamental technology commonly used in deep learning. Through voice-conver sion experiments, we confirmed the high-performance of our method, comparing it with the conventional Gaussian mixture model (GMM)-based approach, and a non-negative matrix factorization (NMF)-based approach, which is based on sparse-representation.2014年05月17日, 研究報告音楽情報科学(MUS), 2014(66) (66), 1 - 6, 日本語
- 話者依存型Conditional Restricted Boltzmann Machineによる声質変換 (音声)本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとにconditional restricted Boltzmann machine(CRBM)を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ(パラレルデータである必要は無い)を用いて,入力話者,出力話者のCRBMを独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれのCRBMを通して話者依存高次元空間へ写像(CRBMの前方推論)し,その高次特徴量同士をNeural Network(NN)を用いて変換させる.NNの変換で得られた特徴量は,CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である.評価実験では,従来のGMMやNN,DBNを用いた声質変換法に比べて,主観的にも客観的にも良い精度が得られたことを確認した.一般社団法人電子情報通信学会, 2013年12月19日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 113(366) (366), 83 - 88, 日本語
- 辞書選択型非負値行列因子分解による構音障害者の声質変換本研究では,アテトーゼ型脳性麻痒による構音障害者を対象とし,筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す.従来の声質変換手法で最も一般的なのは,混合正規分布モデル (GMM) を用いた統計的手法であった.この手法は主に話者変換を目的として研究されてきたため,GMM 声質変換を構音障害者の発話音声に適用し健常者の音声に変換した場合,障害者の話者性は別人のものに置き換わってしまう.「自分らしい声で話したい」 という障害者のニーズに答えるため,本研究では従来の統計的モデルによる声質変換とは異なる,非負値行列因子分解 (NMF) を用いた Exemlpar-based 声質変換を用いて,話者性を維持しつつ聞き取りやすい音声に変換する.これまで NMF 声質変換では,入力音声フレームと,辞書から選ばれる基底の音素が必ずしも一致しないという問題があった.本研究では,この問題を解決するため,NMF を用いて音素カテゴリ認識を行い音素カテゴリに分割した副辞書上でマッピングを行うことで声質変換を行う.提案手法の有効性を評価するため,従来の GMM 声質変換,NMF 声質変換との比較実験を行った.We present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movement of such speakers is limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In our previous method, exemplar-based spectral conversion using Non-negative Matrix Factorization (NMF) was applied to a voice with an articulation disorder. To preserve the speaker's individuality, we used a combined dictionary that is con structed from the source speaker's vowels and target speaker's consonants. However, this exemplar-based approach needs to hold all the training exemplars (frames), and it may cause mismatching of phonemes between input signals and selected exemplars. In this paper, in order to reduce the mismatching of phoneme alignment, we propose a phoneme-categorized sub-dictionary and a dictionary selection method using NMF. By using the sub-dictionary, the performance of VC is improved compared to a conventional NMF-based VC. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional Gaussian Mixture Model (GMM)-based method and a conventional NMF-based method.一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理(SLP), 2013(12) (12), 1 - 6, 日本語
- 雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換本報告では,雑音環境下に強い NMF による声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書の線形結合で表現する.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.本手法では,NMF にセグメント特徴を導入することで重み行列の推定の精度をより向上させる.実験結果より,雑音重畳音声に対して提案手法の有効性が示された.This paper presents a voice conversion based on NMF for noisy environments. We prepared parallel exemplars that consist of the source and target exemplars, which have the same texts uttered by the source and target speakers. The input source signal is decomposed into the source exemplars, noise exemplars obtained from the input signal, and their weights. Then, the converted signal is obtained by calculating the linear combination of the target exemplars and the weights which are calculated using the source exemplars. In the proposed method, segment features are used for the voice conversion technique based on NMF in order to improve the accuracy of the weight estimation. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional method.一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理(SLP), 2013(13) (13), 1 - 6, 日本語
- ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別近年,自閉症スペクトラム障害の発生頻度の増加が注目されている.自閉症スペクトラム障害とは,自閉性障害,アスペルガー障害,特定不能の広汎性発達障害の総体である.これらの障害は多様な原因に基づいて発症するため根本的な治療は困難とされているが,この障害に特化した支援による早期療育の効果が報告されている.本研究では,自閉症スペクトラム障害の早期発見を音響的な側面から目指し,ピッチ特徴量を SVM の入力として識別実験を行った.ピッチ特徴量とは,音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して,25,50,75 パーセンタイル,25-50 と 50-75 パーセンタイルの差,平均,標準偏差,尖度,歪度,最大値,最小値,レンジという 12 の統計量を計算したものである.実験として,単語毎の識別,区間分割による識別,特徴分割による識別の 3 つの識別実験を行った.区間分割による識別実験では,最も精度が高くなったのは全区間を用いた場合であり,識別精度は 74.9% となった.また,区間の組み合わせを変えて行った実験から,「各区間の識別に対する貢献度」 は,第 2 区間や第 3 区間よりも第 1 区間の方が大きいことが示された.Recent investigations have demonstrated that the early support which specialized in autistic spectrum obstacle, such as Picture Exchange Communication System (PECS) Applied Behavier Analysis (ABA) Social Skills Training (SST), is effective. This paper reports the result of a classification experiment carried out using pitch features for children with autism spectrum. Pitch features consist of 24 dimensions, such as 25th, 50th, 75th percentiles, 25-50 percentile difference, 50-75 percentile difference, mean, standard deviation, kurtosis, skewness, maximum, minimum, and range.一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理(SLP), 2013(6) (6), 1 - 6, 日本語
- 話者依存型 Conditional Restricted Boltzmann Machine による声質変換本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとに conditional restricted Boltzmann machine (CRBM) を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ (パラレルデータである必要は無い) を用いて,入力話者,出力話者の CRBM を独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれの CRBM を通して話者依存高次元空間へ写像 (CRBM の前方推論) し,その高次特徴量同士を Neural Network (NN) を用いて変換させる.NN の変換で得られた特徴量は,CRBM の後方推論によって元の音響特徴量へ逆変換することが可能である.評価実験では,従来の GMM や NN,DBN を用いた声質変換法に比べて,主観的にも客観的にも良い精度が得られたことを確認した.In this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches.一般社団法人情報処理学会, 2013年12月12日, 研究報告音声言語情報処理(SLP), 2013(14) (14), 1 - 6, 日本語
- 神戸大学都市安全研究センター, 2013年03月, 神戸大学都市安全研究センター研究報告, (17) (17), 269 - 278, 日本語無線センサネットワークのための耐故障性を考慮した迂回マルチパス型情報収集プロトコルの提案と評価
- シンタックスとセマンティックスに基づく音声認識結果の2段階訂正本稿では,単語ごとに長距離文脈スコアを付与することで素性とし, ConfUsion Network 上での音声認識自動誤り訂正手法を提案する.従来,単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題がある.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは,あまり好ましくない.したがって本稿では,文脈情報を誤り訂正の素性として用いるために,まずはシンタックスを用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し, 2 段階目の訂正を行うことで,より音声認識精度を向上させることを目的とする.This paper presents the new method correcting speech recognition errors base on long-distance context. As in the past, the method which corrects recognition errors using long-distance context information given every word has been already proposed However, this method has the problem that a context score every word depends on peripheral recognition errors considerably. So, it is not desirable that long-distance context information is given the recognition result containing a lot of recognition errors. Therefore, in this paper, recognition errors are reduced by error correction adopting features of syntax to use context information as one of the feature. And then after correcting results are given long-distance context score, residual recognition errors are corrected by using that score as the feature.2012年12月13日, 研究報告音声言語情報処理(SLP), 2012(26) (26), 1 - 6, 日本語
- 音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより,単一マイクロホンで音源位置推定を行う手法を提案してきた.しかしこの手法は,事前に想定される音源位置毎に音響伝達特性を学習させる必要があり,学習していない位置の推定が困難であった.そこで本稿では,限られた位置の音響伝達特性を用いて,音響伝達特性から位置への回帰モデルを学習し,その回帰モデルにより未学習位置の推定を行う手法について検討する.回帰モデルとして,線形回帰である重回帰分析,非線形回帰である GPR (Gaussian Process Regression), SVR (Support Vector Regression) を用い,さらにその学習方法として,評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し,その性能を評価した.This paper presents a sound source (talker) localization method using only a single micro phone. In our previous work, we discussed the single-channel sound source localization method based on the discrimination of the acoustic transfer function. However, that method requires to train the acoustic transfer function for each possible position in advance, and it is difficult to estimate the position that have not been pre-trained. In this paper, we discuss a single-channel talker localization method based on a regression model, which predicts the position from the acoustic transfer function. For training the regression models, we use the local regression method that trains the regression model from only training samples being similar to the evaluation data. Considering both of linear and non-linear regression mod els, the effectiveness of this method has been confirmed by talker localization experiments performed in different room environments.2012年12月13日, 研究報告音声言語情報処理(SLP), 2012(14) (14), 1 - 6, 日本語
- Sparse Coding を用いた唇情報からの音声変換唇の動きから発話内容を読み取る技術はリップリーディング (読唇) と呼ばれ,聴覚・言語障害者のコミュニケーション手段の一つとして用いられている.本研究では, Sparse Coding を用いて,唇動画像から対応する発話音声へテキスト情報なしで変換を行う.事前に音声を含んだ発話映像から唇情報と音声情報を抽出し,それぞれを基底の集合である辞書として学習する.このとき,二つの辞書行列は同一時系列であり,パラレルなデータである.入力された無音声の映像から抽出された唇情報は, Sparse Coding により少数の基底の線形和で表される.唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで,音声の基底の線形和として音声が出力される.本稿では,唇情報から識別可能と考えられる母音について変換を行った.A technology to recognize speech content from lip motion is called visual speech recognition (VSR). VSR is an important communication method for people who have a handicap with hearing or speaking. In this paper, we propose a sparse-coding-based voice conversion method using lip motion without text information. Lip information and voices are extracted from videos, where they are used to construct lip dictionary and voice dictionary. Input lip information is represented by a linear combination of a small number of bases in the lip dictionary. The bases are replaced to coordinate bases in the voice dictionary, and they are recomposed to voice information. In this paper, we conducted vowel conversion because vowels are able to recognize from lip information.2012年12月13日, 研究報告音声言語情報処理(SLP), 2012(21) (21), 1 - 6, 日本語
- 2012年03月, 電子情報通信学会パターン認識メディア理解研究会, pp. 247-252, 英語Discrimination of Unknown Objects from Known Objects Using Multimodal Information速報,短報,研究ノート等(学術雑誌)
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正本稿では,未知語モデリングを用いた,Confusion Network上での音声認識自動誤り訂正手法を提案する.従来の音声認識には,音声認識器が未知語とその周辺単語を誤認識してしまうという問題がある.そこで,未知語認識を可能にし,同時にその周辺単語の認識誤りを軽減するために,hybrid word/syllable recognitionを行う.そして,音響特徴や言語特徴など,様々な素性を用いて,CRFによる音声認識誤り訂正を行う.この誤り訂正を用いて,未知語の認識誤りだけでなく,未知語周辺の認識誤りも訂正する.一般社団法人電子情報通信学会, 2011年12月, 電子情報通信学会音声研究会, SP2011-94,No.24,pp.139-144(365) (365), 139 - 144, 日本語速報,短報,研究ノート等(学術雑誌)
- 2011年12月, 電子情報通信学会パターン認識メディア理解研究会, PRMU2011-127,pp.19-24, 日本語グラフ構造表現による一般物体認識速報,短報,研究ノート等(学術雑誌)
- 2011年12月, 第12回計測自動制御学会 システムインテグレーション部門講演会, pp. 1629-1639, 英語Detecting Unknown Objects and Unknown Names Using Multimodal Information速報,短報,研究ノート等(学術雑誌)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2011年09月07日, 情報科学技術フォーラム講演論文集, 10(3) (3), 131 - 132, 日本語H-013 3次元特徴量を用いた構造表現による一般物体認識(一般物体認識,H分野:画像認識・メディア理解)
- 確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討従来の代表的な信号解析手法の中に, NMF(非負値行列因子分解)を用いたものがある。特に,事例ベースのNMFが音源分離や信号解析の分野において,解析精度・速度といった観点から注目を浴びている。しかしこうした手法は,可能性のある全ての事例を用意する必要があるので,一般にシステムの実用化は困難である。これまでの我々の研究では,この問題点を解決するため,確率的に生成されるスペクトルを用いて信号を解析する確率スペクトル包絡による手法を提案してきた。しかしながら,この方法では高いスペクトル生成自由度により分離最適解を得ることが困難であった。そこで本研究では,アクティビティ行列要素のスパース性と密集性に着目した新たな制約項を加えることにより,より最適な解に導く信号解析手法を提案する。一般社団法人電子情報通信学会, 2011年07月, 電子情報通信学会音声研究会, SP2011-50,pp. 51-56(153) (153), 51 - 56, 日本語速報,短報,研究ノート等(学術雑誌)
- 2011年07月, 画像の認識・理解シンポジウム, pp.387-394, 日本語グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識速報,短報,研究ノート等(学術雑誌)
- 2011年07月, 電子情報通信学会音声研究会, SP2011-51,pp. 57-62, 日本語CSP係数の識別に基づく話者の頭部方向推定の検討速報,短報,研究ノート等(学術雑誌)
- 2011年07月, 画像の認識・理解シンポジウム, pp.608-614, 日本語ARCOによる顔検出を併用した人誤検出の棄却について速報,短報,研究ノート等(学術雑誌)
- 2011年07月, 画像の認識・理解シンポジウム, pp.534-539, 日本語AAMによる顔方位を考慮した発話認識速報,短報,研究ノート等(学術雑誌)
- 2011年07月, 画像の認識・理解シンポジウム, pp.572-579, 日本語3次元ActiveAppearanceModel を利用した視線方向推定速報,短報,研究ノート等(学術雑誌)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. SIP, 信号処理 : IEICE technical report, 111(27) (27), 167 - 172, 日本語
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. EA, 応用音響, 111(26) (26), 167 - 172, 日本語
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,観測信号の音響伝達特性が話者の位置だけでなく,頭部の回転方向にも依存する点にも着目し,音源位置と頭部回転方向の推定について,提案手法の有効性を評価する.一般社団法人電子情報通信学会, 2011年05月05日, 電子情報通信学会技術研究報告. SP, 音声, 111(28) (28), 167 - 172, 日本語
- 2011年03月, 第5回音声ドキュメント処理ワークショップ, 6 pages, 日本語Confusion Networkを用いたCRFによる音声認識誤り訂正速報,短報,研究ノート等(学術雑誌)
- 確率スペクトル包絡に基づくNMF 基底生成モデルを用いた混合楽音解析従来の代表的な楽音解析手法として,NMF (非負値行列因子分解) をベースとしたアプローチが注目を浴びている.これは,予め大量の音源サンプルを用意しておくことで解析を行う教師あり NMF と,学習を用いず何らかの制約条件に基づいて解析を行う教師なし NMF に,大別することができる.しかしながら,前者では,可能性のある全ての基底サンプルを用意する必要があるので,一般にシステムの実用化は困難である.一方後者のアプローチでは,機械的に分解しているに過ぎないので意図しない結果が表れる傾向にある.本研究では,楽器カテゴリごとに共通なスペクトル包絡 (確率スペクトル包絡) を統計的に学習し,確率スペクトル包絡が作り出す基底の組み合わせによって観測信号のスペクトルを表現する手法を提案する.提案手法ではまず,ガウシアンプロセスをベースとした手法により,楽器カテゴリごとの確率スペクトル包絡を学習させる.その後教師あり NMF と遺伝アルゴリズムを組み合わせて,包絡に沿って確率的に生成されるランダム基底集合から,最適な基底解を探索する.最後に,得られたアクティビティ行列から楽音を解析する.実験結果から,提案手法が学習データには含まれない未知の音源に対しても頑健であると同時に,複数の音源が混ざっていても解析が可能であることを確かめた.NMF (Non-negative Matrix Factorization) based approaches are garnering much attention in musical signal analysis in recent years. These are roughly classified into two approaches: exemplar-based NMF, in which a large number of samples are used for analyzing a signal, and unsupervised NMF, in which signals are analyzed in some constrains without learning any samples beforehand. However, because the former methods require all the possible samples for the analysis, it is hard to build the practical system of the method. The latter approach should cause unintended results because the method is based on mathematical analysis not perceptual coding. In this paper, we propose a novel method of signal analysis by combining NMF and a probabilistic approach. At the beginning, a common spectram envelope to an instrument, called a probabilistic spectrum envelope (PSE), is learned for each categories using a Gaussian-Process-based approach. On the analyzing stage, basis vectors of NMF are randomly generated from the PSE, and the most befitting vectors can be found by combination of unsupervised NMF and Genetic Algorithm. The experimental results indicated that the method is robust against unknown sound sources, and can properly analyze the signals including multiple sources.情報処理学会, 2011年02月, 情報処理学会音楽情報科学研究会, Vol.2011-MUS-89,No.18, pp. 1-6(18) (18), 1 - 6, 日本語速報,短報,研究ノート等(学術雑誌)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより単一マイクロホンで音源位置推定を行う手法を提案してきた.この手法では,ある位置から発話された音声からその音響伝達特性を,特定話者HMM(Hidden Markov Model)を用いて推定し,それらを学習・識別することで音源位置を推定している.本稿では,位置毎に推定された音響伝達特性のMFCC(Mel-Frequency Cepstral Coefficient)の各次元に対し,MKL(Multiple Kernel Learning)を用いて重みの自動学習を行うことで,音源位置推定精度の向上を試みる.一般社団法人電子情報通信学会, 2011年01月20日, 電子情報通信学会技術研究報告. SP, 音声, 110(401) (401), 49 - 54, 日本語速報,短報,研究ノート等(学術雑誌)
- 情報処理学会, 2011年01月15日, 情報処理, 52(1) (1), 87 - 94, 日本語音声・映像認識連携への取り組み : 3.画像と音声情報を統合した発話認識
- 2010年12月, 電子情報通信学会音声研究会, SP2010-102,pp. 195-200, 日本語基底の反復生成と教師ありNMFを用いた信号解析速報,短報,研究ノート等(学術雑誌)
- 2010年12月, 電子情報通信学会音声研究会, SP2010-98,pp. 121-126, 日本語階層的強化学習を適用したPOMDPによる音声対話制御速報,短報,研究ノート等(学術雑誌)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定本研究では,Why型質問応答を可能とするための技術の1つである,Why型テキストセグメント判定の精度向上を目的としている.特に,従来手法の1つである,Bag of Grammar手法とルールベース手法を融合することにより,Why型テキストセグメント判定の向上を行うことを目的としている.Bag of Grammar手法では欠落していたWhy型名詞特徴を効果的に取り入れることにより,Why型テキストセグメント判定の向上ができることが分かった.一般社団法人電子情報通信学会, 2010年12月, 電子情報通信学会音声研究会, SP2010-97,pp. 103-108(356) (356), 103 - 108, 日本語速報,短報,研究ノート等(学術雑誌)
- Buried Markov Modelを用いた構音障害者の音声認識の検討音声認識技術は現在,様々な環境下や場面において使用される機会が増加している.しかし,言語障害などの障害者を対象としたものは非常に少ない.本稿では,アテトーゼ型脳性麻痺による構音障害者の音声認識の検討を行う.アテトーゼ型の構音障害者の場合,筋肉の緊張のため発話が不安定になりやすい.これに対し,本研究では,時間変化による依存関係を考慮することで,不安定な発話に対する音声認識精度の改善を試みる.従来用いられているHMMによる音声認識は,はっきりと発話された音声に対しては高い精度で認識を行うことができるが,複雑な事象を表現するには適しておらず,雑音を含む音声や,連続的に発話された音声を認識する際には,精度が著しく低下する.この問題に対し,過去の観測と現在の観測の間の依存関係を表現できる確率モデルであるBuried Markov Modelを用いた音声認識モデルが,J.Bilmesによって提案された.本研究では,構音障害者の音声認識の実現に向けて,このBuried Markov Modelを用いて時間的依存関係を考慮し,音声認識精度の向上を目指す.一般社団法人電子情報通信学会, 2010年10月, 電子情報通信学会音声研究会, SP2010-57, pp. 69-74(220) (220), 69 - 74, 日本語速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, OS8-2, pp. 1404-1411, 日本語物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS1-39, pp. 307-312, 日本語複数尤度を用いた3次元パーティクルフィルタによる選手の追跡速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS2-36, pp. 1011-1016, 日本語地面位置の推定に基づく2次元画像からの擬似3次元復元速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS3-31,pp. 1771-1778, 日本語唇領域のAAMを用いた発話認識における画像特徴量の音素解析速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS2-37,pp.1017-1022, 日本語視点移動カメラにおけるカメラキャリブレーション速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS2-35, pp. 1004-1010, 日本語高周波強調処理と入力画像の利用による学習型超解像速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS3-30, pp. 589-594, 日本語固有空間でのモデルフィッティングによる単眼画像からの人体3次元姿勢推定速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS3-32, pp. 1779-1783, 日本語階層的領域分割法に基づく木構造条件付確率場による一般物体認識速報,短報,研究ノート等(学術雑誌)
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御本稿では,カーナビゲーションシステム(以下カーナビ)における音声インターフェースに対して、部分観測マルコフ決定過程(POMDP)を用いる。この手法は不確定な情報に対しても対話を制御することが出来,雑音状況下で誤認識が起こった場合でも,自然な対話の中で回復することが可能となる.また,本研究ではPOMDPに階層的強化学習を適用することにより,従来のPOMDPよりも大きなタスクを扱うことが可能となった.本稿では,シミュレーション実験を行い,提案手法の有効性を示す.一般社団法人電子情報通信学会, 2010年07月, 電子情報通信学会音声研究会, SP2010-43, pp. 49-54(143) (143), 49 - 54, 日本語速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS1-41, pp. 319-324, 日本語Image Annotation by Concept Level Search Using PLSA速報,短報,研究ノート等(学術雑誌)
- 2010年07月, 画像の認識・理解シンポジウム, IS-40, pp. 315-318, 日本語Gaussian Processes for RegressionとAAMパラメータによる視線方向認識速報,短報,研究ノート等(学術雑誌)
- 2010年06月, 電子情報通信学会音声研究会, SP2010-29,pp. 43-48, 日本語バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 57 - 57, 日本語D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
- 一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 181 - 181, 日本語D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
- 一般社団法人電子情報通信学会, 2010年03月02日, 電子情報通信学会総合大会講演論文集, 2010(2) (2), 202 - 202, 日本語D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
- 2010年01月, 電子情報通信学会技術研究報告, CQ2009-107,PRMU2009-206,SP2009, 日本語AAMを用いた唇領域特徴による音声発話認識速報,短報,研究ノート等(学術雑誌)
- 一般社団法人日本音響学会, 2009年12月25日, 日本音響学会誌, 66(1) (1), 13 - 17, 日本語音声認識のフロントエンド
- 2009年12月, 第11回音声言語シンポジウム, SP2009-93,No. 29,pp. 165-170, 日本語多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討速報,短報,研究ノート等(学術雑誌)
- 2009年12月, 第79回音声言語情報処理研究会, 2009-SLP-79,No. 22,pp. 123-128, 日本語ランダムプロジェクションを用いた音響モデルの線形変換速報,短報,研究ノート等(学術雑誌)
- 2009年12月, 電子情報通信学会,音声研究会, 2009-SLP-79,No. 21,pp. 1-6, 日本語Buried Markov Modelを用いた音声認識モデルの構築法の検討速報,短報,研究ノート等(学術雑誌)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識本稿では,アテトーゼ型脳性麻痺による構音障害者の音声認識の検討を行う。アテトーゼ型の構音障害者の場合,筋肉の緊張のため発話が不安定になりやすく,発話時に頭が動いてしまう場合がある.これに対して,音声特徴としてデルタケプストラム係数のセグメント特徴量を用いる.また,発話時の頭部の動きに対しては,Active Appearance Model (AAM)を用いることで画像から顔方位にロバストな唇領域特徴を抽出し,音声特徴と共に用いることで,雑音の影響を受けず発話変動を考慮したマルチモーダル音声認識を検討する.一般社団法人電子情報通信学会, 2009年12月, 第11回音声言語シンポジウム, SP2009-93,pp. 195-200(356) (356), 195 - 200, 日本語速報,短報,研究ノート等(学術雑誌)
- 2009年10月, 電子情報通信学会,音声研究会, SP2009-55,pp.37-42, 日本語構音障害者の音声認識における動的特徴量の考察速報,短報,研究ノート等(学術雑誌)
- 2009年09月29日, 平成21年度情報処理学会関西支部支部大会講演論文集, 2009, 日本語Bottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2009年08月20日, 情報科学技術フォーラム講演論文集, 8(3) (3), 117 - 118, 日本語H-011 人物の顔画像情報に基づくコンテンツの解析(画像認識・メディア理解,一般論文)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2009年08月20日, 情報科学技術フォーラム講演論文集, 8(3) (3), 107 - 108, 日本語H-006 高精度画像マッチングを用いたSAR衛星画像からの地表変位推定(画像認識・メディア理解,一般論文)
- 2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS1-29, pp. 589-594, 日本語複数特徴量の重み付け統合による一般物体認識速報,短報,研究ノート等(学術雑誌)
- 2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS2-61, pp.1269-1276, 日本語単眼サッカー映像におけるボールの3次元位置情報を用いた状況認識速報,短報,研究ノート等(学術雑誌)
- 2009年07月, 画像の理解・認識シンポジウム, MIRU2009, OS4-2, pp.95-102, 95 - 102, 日本語大域的特徴としてBoFを導入したCRFによる一般物体認識[査読有り]速報,短報,研究ノート等(学術雑誌)
- 2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS3-43, pp. 1668-167, 日本語回帰分析とパーティクルフィルタを用いた単眼画像からの人体3次元姿勢推定速報,短報,研究ノート等(学術雑誌)
- 2009年07月, 画像の理解・認識シンポジウム, MIRU2009, IS1-60, pp. 769-776, 日本語過学習を考慮したAAMパラメータの選択と回帰分析による顔・視線方向同時推定速報,短報,研究ノート等(学術雑誌)
- 2009年07月, 電子情報通信学会,音声研究会, SP2009-41,pp. 1-6, 日本語ランダムプロジェクションを用いた音声特徴量変換速報,短報,研究ノート等(学術雑誌)
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討本稿では,マルチスピーカと単一のマイクを前提とした車内環境下で,音声認識システムの認識率を改善する音響エコーキャンセラを提案する.この音響エコーキャンセラでは,マルチスピーカからマイクまでの伝達特性のモデルを用い,尤度最大化基準に基づいたエコー推定によって,最適なキャンセル結果を選択する.単一のマイクに話者の音声とマルチスピーカからの音楽が混入する環境下で,マイクの観測信号をキャンセルした信号に対し,SN,音声認識率を測定する.提案した音響エコーキャンセラによってキャンセルした信号は,学習同定法に基づいた音響エコーキャンセラによってキャンセルした信号よりもSN,音声認識率が改善されていることを示す.一般社団法人電子情報通信学会, 2009年05月, 電子情報通信学会,音声研究会, SP2009-14,pp. 45-48(57) (57), 45 - 48, 日本語速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 132 - 132, 日本語D-12-23 AAMのモデル選択による方位に頑健な不特定人物の顔表情認識(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
- 一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 185 - 185, 日本語D-12-76 複数特徴量の重み付け統合による一般物体認識(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 213 - 213, 日本語D-12-104 単眼動画像におけるボールと選手の3次元位置推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 231 - 231, 日本語D-12-122 Bottom-UpとTop-Downアプローチの統合による単眼画像からの人体3次元姿勢推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 一般社団法人電子情報通信学会, 2009年03月04日, 電子情報通信学会総合大会講演論文集, 2009(2) (2), 221 - 221, 日本語D-12-112 AAMと回帰分析による視線,顔方向同時推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 神戸大学, 2009年03月, 神戸大学都市安全研究センター研究報告, 13, 75 - 80, 日本語音声強調手法を用いた構音障害者の音声認識
- 2009年03月, 第14回 Webインテリジェンスとインタラクション研究会WI2, pp. 89-94, 日本語Grammar-gramとGrammarVerb-gramを用いたドメイン非依存型Whyテキストセグメント判定と回答抽出速報,短報,研究ノート等(学術雑誌)
- 音声・状況の同時認識に基づくスポーツ実況中継へのメタ情報付与近年,多くのマルチメディア・コンテンツの所有が可能となってきた.大量のコンテンツの中から欲しい情報を得るためには,検索のためのメタ情報を付与しておく必要がある.本研究では,マルチメディア・コンテンツの一例としてスポーツ実況中継,特に野球実況中継に注目し,実況中継音声から音声認識を用いてメタ情報を抽出することを目的としている.野球のメタ情報としては,今何が起こっているかを表すイベントと,その積み重ねである状況が存在すると考えられる.まず,現実にイベントや状況が存在し,これを基にアナウンサは実況を行う.本研究では,実況音声から単語列だけを推定する音声認識を拡張し,実況音声から単語列・イベント系列・状況系列すべてを同時に推定する音声認識手法を提案する.定式化により,イベント依存音響モデル,状況遷移モデル,イベント推定モデル,状況依存言語モデルを得る.これらを確率の枠組みで統合的に用いることで,単語列とメタ情報の同時推定を行う.実験により,イベント検出F値0.87,イベント正解率0.86,状況正解率0.77を得た.その他,各モデルの「メタ情報付与性能」への寄与や,音声認識率と「メタ情報付与性能」との関係について考察を行う.Recently a large quantity of multimedia contents are broadcast and accessed. In order to retrieve exactly what we want to know from multimedia database, automatic extraction of meta-information is required. We focused on live speeches, especially baseball commentary speeches as a kind of multimedia contents. The purpose of this study is to provide meta-information based on speech recognition techniques. Events and situations are defined as metainformation. First of all, an event is occured or a situation is changed, then an announcer speaks based on an event and a situation. In this paper, we propose a extended speech recognition technique that estimates not only a word sequence but also a event sequence and a situation sequence concurrently. As a result of formulation, event dependent acoustic model, situation transition model, event estimation model and situation dependent language model are derived. A word sequence and meta-information are estimated based on these models. The experimental results showed that the proposed method provided meta-information with a high degree of accuracy.情報処理学会, 2009年02月15日, 情報処理学会論文誌, 50(2) (2), 563 - 574, 日本語
- 2009年02月, 第3回音声ドキュメント処理ワークショップ, pp. 59-64, 日本語音声・状況の同時認識に基づく野球実況中継へのメタ情報付与速報,短報,研究ノート等(学術雑誌)
- 2009年, 第8回音声言語シンポジウム, 2(3) (3), 349 - 360, 英語Multi-class AdaBoostを用いた雑音検出速報,短報,研究ノート等(学術雑誌)
- 2009年01月, 電子情報通信学会音声研究会, pp. 7-12, 日本語複数の言語情報を用いたCRFによる音声認識誤りの検出速報,短報,研究ノート等(学術雑誌)
- 単語出現順序を考慮したトピックモデルによる言語モデル適応人間にとって不可解な認識誤りの低減や,単語の認識だけでなく,意味・内容の理解を行うためには semantics を考慮することが重要であると考えられる.現在, LSA や PLSA のように semantics を考慮するモデルは Bag-of-words に基づく手法であり,文書中の単語出現順序を考慮していないより高度な分析のためには,文書中の単語出現順序を考慮する必要があると考えられる.本研究では,Kernel PCA 及び Dynamic Time Alignment カーネルを用いることにより,単語順序を考慮した Latent Semantic 空間を構築する手法を提案する.予備実験では,右回り/左回りにプロットした時系列データが Latent Semantic 空間においてきれいに分離されることを確認した.また,言語コーパスを用いた評価実験では,パープレキシティの低下を確認することが出来た.It is important to consider semantics for reductions of recognition errors unlike humans or understanding meanings and contents. To accommodate these problems, Latent Semantic Analysis (LSA) or Probabilistic LSA have been proposed. However these methods are based on Bag-of-words techniques. For more sophisticated analysis, it needs to consider a sequence of words in a document. In this paper, we propose the method based on Kernel PCA and Dynamic Time Alignment Kernel in order to consider a sequence of words. Preliminary experimental results shows the proposed method can separete clearly a sequence of right turn/left turn prots data. Moreover, experimental results of language corpus shows the reduction of perplexity.一般社団法人情報処理学会, 2008年12月02日, 情報処理学会研究報告音声言語情報処理(SLP), 2008(123) (123), 249 - 254, 日本語
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識本稿では,話題の連続/不連続変化を考慮したトピックモデルを提案し, MIT 講義音声コーパスを用いて行った評価実験について述べる.実環境においては,話者交代や話し方,話題の変化などにより音響的・言語的特徴が時々刻々と変化する.このような変化に対応するため,発話単位で環境適応を行う逐次追従型音声認識が注目されている.本研究では,言語的な変化に着目し,話題の連続的な変化を考慮するモデルとして Online Topic Model を用いた言語モデル適応,及び話題の不連続な変化を考慮するモデルとしてIbpicHMMを用いた言語モデル適応を提案する.評価実験により,これらのトピックモデルを用いることで単語誤り率 (WER) を改善出来ることを確認した.また,刻々と変化する話題を追跡することで,認識結果全体を用いた言語モデルのバッチ適応よりも良好な結果を得ることが出来た.In this paper, we propose topic models with continuous/discontinuous topic changes, and describe experiments using MIT Open Course Ware corpus. In a real environment, acoustic and language features vary momentarily depending on speakers, speaking styles or topic changes. To accommodate these changes, speech recognition with incremental tracking of changing environments has attracted attention. We propose a language model adaptation technique by Online Topic Model for continuous topic changes, and a technique by Topic HMM for discontinuous topic changes. The experimental results showed the improvements of Word Error Rate with these topic models. Moreover, the proposed methods outperformed the batch adaptation of language model using whole speech recognition results by tracking temporal changes of topics.一般社団法人情報処理学会, 2008年12月02日, 情報処理学会研究報告音声言語情報処理(SLP), 2008(123) (123), 55 - 60, 日本語
- 単語出現順序を考慮したトピックモデルによる言語モデル適応人間にとって不可解な認識誤りの低減や,単語の認識だけでなく,意味・内容の理解を行うためにはsemanticsを考慮することが重要であると考えられる.現在,LSAやPLSAのようにsemanticsを考慮するモデルはBag-of-wordsに基づく手法であり,文書中の単語出現頂序を考慮していない.より高度な分析のためには,文書中の単語出現順序を考慮する必要があると考えられる.本研究では,Kernel PCA及びDynamic Time Alignmentカーネルを用いることにより,単語順序を考慮したLatent Semantic空間を構築する手法を提案する.予備実験では,右回り/左回りにプロットした時系列データがLatent Semantic空間においてきれいに分離されることを確認した.また,言語コーパスを用いた評価実験では,パープレキシティの低下を確認することが出来た.一般社団法人電子情報通信学会, 2008年12月02日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 108(337) (337), 249 - 254, 日本語
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識本稿では,話題の連続/不連続変化を考慮したトピックモデルを提案し,MIT講義音声コーパスを用いて行った評価実験について述べる.実環境においては,話者交代や話し方,話題の変化などにより音響的・言語的特徴が時々刻々と変化する.このような変化に対応するため,発話単位で環境適応を行う逐次追従型音声認識が注目されている.本研究では,言語的な変化に着目し,話題の連続的な変化を考慮するモデルとしてOnline Topic Modelを用いた言語モデル適応,及び話題の不連続な変化を考慮するモデルとしてTopic HMMを用いた言語モデル適応を提案する.評価実験により,これらのトピックモデルを用いることで単語誤り率(WER)を改善出来ることを確認した.また,刻々と変化する話題を追跡することで,認識結果全体を用いた言語モデルのバッチ適応よりも良好な結果を得ることが出来た.一般社団法人電子情報通信学会, 2008年12月02日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 108(337) (337), 55 - 60, 日本語
- 2008年12月, 情報処理学会バイオ情報学研究会研究報告, pp.115-118, 日本語多重解像度独立性検定を用いた遺伝子ネットワークの構築速報,短報,研究ノート等(学術雑誌)
- 2008年12月, 第10回音声言語シンポジウム, pp.43-48, 日本語制約付き非負行列因子分解を用いた音声特徴抽出の検討速報,短報,研究ノート等(学術雑誌)
- 2008年12月, 第10回音声言語シンポジウム, pp.191-196, 日本語音声の動的特徴のモデルを使った突発性雑音の除去速報,短報,研究ノート等(学術雑誌)
- 2008年12月, 第10回音声言語シンポジウム, pp.161-166, 日本語スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討速報,短報,研究ノート等(学術雑誌)
- 2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.611-616, 611 - 616, 日本語SIFTとGraph Cuts を用いた物体認識及びセグメンテーション速報,短報,研究ノート等(学術雑誌)
- 2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.508-513, 日本語PrefixSpan を用いた人物の日常行動抽出速報,短報,研究ノート等(学術雑誌)
- 2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.960-965, 960 - 965, 日本語HOG特徴に基づく単眼画像からの人体3 次元姿勢推定速報,短報,研究ノート等(学術雑誌)
- 2008年07月, 画像の認識・理解シンポジウムMIRU2008, pp.796-801, 796 - 801, 日本語AdaBoostとSaliency Mapを用いたGraph Cutsによる花弁領域の自動抽出法速報,短報,研究ノート等(学術雑誌)
- 2008年05月, 電子情報通信学会技術研究報告WIT2008, pp. 37-42, 日本語メタモデルと音響モデルの統合による構音障害者の音声認識速報,短報,研究ノート等(学術雑誌)
- NetTv: Cross-Platform Video Retrieval and QA System with Speech InterfaceThe objective of this research is to construct a video searching mechanism and speech interface on the multimedia crossplatform, namely TV and Internet, which requires the capability to deal with dynamic contents. Current NetTv enables users to search both recorded TV contents and news on the Internet by simply speaking keywords as a query; hence the videos related to the keyword spoken are retrieved. Also, the system provides a simple keyword based QA system to answer various questions that may occur to users whilst watching retrieved videos. In this way, NetTv improves the usability of video searching and viewing in a hands free way.一般社団法人電子情報通信学会, 2008年05月, 電子情報通信学会技術研究報告SP2008, pp.31-36(67) (67), 31 - 36, 日本語速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 136 - 136, 日本語D-12-5 PrefixSpanを用いた映像における人物の日常行動抽出(D-12. パターン認識・メディア理解,一般セッション)
- 一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 252 - 252, 日本語D-12-121 Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
- 一般社団法人電子情報通信学会, 2008年03月05日, 電子情報通信学会総合大会講演論文集, 2008(2) (2), 253 - 253, 日本語D-12-122 SIFTとGraph Cutsを用いた物体認識及びセグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
- 2008年02月, 第2回音声ドキュメント処理ワークショップ, pp. 67-72, 日本語ニュース検索タスクにおけるシステム要求と雑談の判別速報,短報,研究ノート等(学術雑誌)
- 弱識別器にSVMを用いたAdaBoostの検討雑音が重畳されている音声から,音声・非音声の識別を行ない,音声区間のみを検出する,音声区間検出 (VAD: Voice Activity Detection) を行なうことは,音声認識を行なううえで非常に重要である.本研究では,音声区間検出法において,音声・非音声の識別を行なう識別器に,SVM を弱識別器とした AdaBoost を提案する.AdaBoost とは弱識別器を線形結合する事により,より高い識別率をもつ強識別器を構成する手法である.その弱識別器に,カーネルトリックやマージン最大化により高度な識別を行うことができる SVM を用いることにより,SVM のもつ汎化能力を保ったまま,より高度な識別を行なうことが期待できる.提案手法と,単一で SVM を用いた場合,CART を弱識別器とした AdaBoost を用いた場合とを,区間検出評価用データベース CENSREC-1-C 上で評価し報告する.VAD (Voice Activity Detection) by separating of speech and non-speech from noisy speech is an important probrem for speech recognition. The proposed method constructs AdaBoost using SVM as weak learners for separation of speech and non-speech. AdaBoost is an iterative algorithm that combines simple classification rules to produce a highly accurate classification rule. Though AdaBoost generally takes CART as weak learners, the proposed method takes SVM, which can make an good assumption through the miximizing margin and the kernel method, as weak learners. Because of this, we can expect to do more sophisticated classification, while keeping SVM's generalizing capability. We report the experimental results that compared single SVM, AdaBoost with CART and the proposed method on VAD database of CENSREC-1-C.一般社団法人情報処理学会, 2007年12月, 第9回音声言語シンポジウム, SP2007-120, pp.109-114(129) (129), 109 - 114, 日本語速報,短報,研究ノート等(学術雑誌)
- 顔表情からの関心度推定に基づく映像コンテンツへのタギング近年,ユーザが視聴可能な映像コンテンツは莫大な量となってきているため,ユーザが自分の好きな映像コンテンツを探し出すことが困難になりつつある.そこで我々は,映像コンテンツを視聴するユーザを撮影し,その表情から関心度を推定することで映像コンテンツにタギングを行い,番組推薦に役立てるためのシステムを提案する.撮影された顔は,Elastic Bunch Graph Matchingによって,顔特徴点抽出と個人認識が行われ,特定された個人に対して,Support Vector Machinesによって関心のクラスが推定される.関心のクラスは,Neutral,Positive,Negative,Rejectiveの4種類であり,映像コンテンツと同期してフレームごとにタギングが行われる.評価実験の結果,関心クラス推定の平均再現率は87.61%,平均適合率は88.03%となった.一般社団法人電子情報通信学会, 2007年12月, 電子情報通信学会技術研究報告, PRMU2007-137, pp. 13-18(384) (384), 13 - 18, 日本語速報,短報,研究ノート等(学術雑誌)
- 2007年12月, 電子情報通信学会技術研究報告, PRMU2007-138, pp. 19-24(384) (384), 19 - 24, 日本語画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴量を用いたGraph Cuts速報,短報,研究ノート等(学術雑誌)
- 音素部分空間の統合による音声特徴量抽出の検討本稿では,事前学習による音声特徴量抽出の枠組みの中で,音素部分空間の統合により,得られた空間へ観測ベクトルを線形射影する特徴量抽出法を提案する.近年,音声認識システムで最も使われている特徴量空間は MFCC (Mel-Hequency Cepstrum Coefficient) 空間である.MFCC 空間は対数メルフィルタバンク出力に離散コサイン変換を適用することにより得られる空間であるが,この射影軸は対象とする音声データの音響特徴に依存することなく一意に決まる.音声認識システムの実用化のためには,実環境で収録された音声データに潜在する音素情報以外の情報を除去する必要がある.MFCC は様々なノイズ抑制手法と組み合わせて使われているが,想定できないノイズが混入すると性能の劣化は避けられない.そこで本研究では,対象データに対し事前学習を行い,観測データから音素情報だけを抽出する部分空間(射影行列)を推定する.具体的には各音素データに対して主成分分析や判別分析を用い特定音素情報を抽出する部分空間を求め,さらに各音素部分空間へ射影された全てのデータに対して主成分分析を行い各音素部分空間を統合する.この統合された部分空間は対象とする音声の音素情報が含まれる空間になり,観測データから音素情報だけ抽出することができる.評価実験としては提案する特徴量を用い,音素 HMM (Hidden Markov Model) を学習し,クリーン音声と残響音声の孤立単語認識を行った.評価実験の結果,提案手法の有効性が確かめられた.In this paper, we propose a speech feature extraction method that is estimating each phoneme-subspace and integrate each subspace within a framework of feature extraction by pre-learning. The most commonly used speech feature for speech recognition is MFCC that is computed applying DCT to the mel-scale filter bank output. This feature space dose not depend on target speech data set and is decided by uniquely. To make speech recognition system fit for practical use, noise that is latent in observed data and useless for recognition must be removed. MFCC is uesd combined with other removing noise methods but performance degradation is inescapable if unexpected noises are mixed in observed data. Consequently, subspaces (projection matrix) that only extract phonemic information are estimated by pre-learning with observed data. Specifically, PCA or LDA are applied to each phoneme data set and each phoneme-subspace were estimated. Additionally, all phoneme-subspaces are integrated by PCA. This integrated subspace will have phonemic information of target speech data set and extract only that information. In evaluation experiment, we modeled phoneme HMM by proposed feature and carried out isolated word recognition experiments. The experiment results showed that the proposed method is effective compared to conventional methods.一般社団法人情報処理学会, 2007年12月, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294(129) (129), 241 - 246, 日本語速報,短報,研究ノート等(学術雑誌)
- 2007年12月, 第9回音声言語シンポジウム, SP2007-120, pp. 143-148, 日本語音声認識との統合によるシステム要求検出速報,短報,研究ノート等(学術雑誌)
- 2007年12月, 第9回音声言語シンポジウム, SP2007-100, pp. 25-30(129) (129), 25 - 30, 日本語音声GMMと雑音重み推定を用いた雑音除去速報,短報,研究ノート等(学術雑誌)
- 2007年12月, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294, 日本語韻律及び話者交代情報を用いたシステム要求検出速報,短報,研究ノート等(学術雑誌)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2007年08月22日, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 389 - 390, 日本語J-002 ユーザの表情に基づく映像コンテンツへのタギング(J分野:ヒューマンコミュニケーション&インタラクション)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2007年08月22日, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 37 - 38, 日本語H-015 PCA相関フィルタによる目領域の探索(H分野:画像認識・メディア理解)
- 2007年08月, 画像の認識・理解シンポジウム, MIRU2007, IS-3-22, pp. 1052-10, 日本語探索手法の切り替えを用いたサッカー映像におけるボール追跡システム速報,短報,研究ノート等(学術雑誌)
- 2007年08月, 画像認識・理解シンポジウム, MIRU2007, IS2-08, pp. 750-755, 日本語固定カメラ映像からの音声・画像情報を用いた映像コンテンツの生成速報,短報,研究ノート等(学術雑誌)
- 2007年08月, 画像認識・理解シンポジウム, MIRU2007, IS-5-21, pp. 1498-15, 日本語マルチ識別器を用いた画像検索による花図鑑システム速報,短報,研究ノート等(学術雑誌)
- 2007年08月, 画像の認識・理解シンポジウム, MIRU2007, IS-4-08, pp. 1189-11, 1189 - 1194, 日本語EBGMを用いた唇の形状抽出による発話区間の検出速報,短報,研究ノート等(学術雑誌)
- 2007年05月, 電子情報通信学会技術研究報告WIT, WIT2007-7, pp. 33-38, 日本語情報家電操作における脳性麻痺構音障害者の音声認識評価速報,短報,研究ノート等(学術雑誌)
- 2007年05月, 電子情報通信学会技術研究報告, SP2007-1, pp. 1-6, 日本語音素PCAを用いた残響下における音声特徴量抽出速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 134 - 134, 日本語D-12-18 マルチ識別器を用いた花画像検索システムの構築(D-12.パターン認識・メディア理解,一般講演)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 86 - 86, 日本語D-11-86 赤外線映像におけるドライバの顔方位判定(D-11.画像工学D(画像処理・計測),一般講演)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 204 - 204, 日本語D-12-88 マルチテンプレート型二次元CSPによる高速目領域検索(D-12.パターン認識・メディア理解,一般講演)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 156 - 156, 日本語D-12-40 自動映像生成のためのパーティクルフィルタによるボールの追跡(D-12.パターン認識・メディア理解,一般講演)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 196 - 196, 日本語D-12-80 顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識(D-12.パターン認識・メディア理解,一般講演)
- 一般社団法人電子情報通信学会, 2007年03月07日, 電子情報通信学会総合大会講演論文集, 2007(1) (1), 153 - 153, 日本語D-14-17 固定カメラ映像からの音声情報を用いた映像コンテンツ生成(D-14.音声・聴覚,一般講演)
- 2007年02月, 第1回音声ドキュメント処理ワークショップ, pp.41-46, 日本語音声を中心とするマルチメディアのメタデータ化記事・総説・解説・論説等(学術雑誌)
- 2007年02月, 第1回音声ドキュメント処理ワークショップ, pp. 121-126, 115 - 120, 日本語ブースティングを用いた野球実況中継に対するメタデータの作成速報,短報,研究ノート等(学術雑誌)
- 2007年02月, 第1回音声ドキュメント処理ワークショップ, pp. 115-120, 日本語トピックモデルとタスクの知識を用いた言語モデルによる野球実況中継の構造化速報,短報,研究ノート等(学術雑誌)
- 2007年01月, 電子情報通信学会技術研究報告, WIT2006-75,pp13-18, 日本語構音障害者の音声認識の検討速報,短報,研究ノート等(学術雑誌)
- 2007年01月, 情報処理学会データベースシステム研究会研究報告, 2007-DBS-141, pp.59-66, 59 - 66, 日本語NetTv:NetNewsとテレビ放送のクロスプラットホームにおける動画のインデキシングと音声検索速報,短報,研究ノート等(学術雑誌)
- Multi-class AdaBoost を用いた雑音検出雑音が混入することで音声認識率は低下してしまう。そのため雑音抑圧を行うことが重要であるが、雑音抑圧には雑音を推定する必要がある。しかしながら、発話中に突如雑音が発生する場合、雑音を推定するのは困難であり抑圧も行いにくい。本稿では発話中に突如発生したような雑音(突発性雑音)をMulti-class AdaBoostで検出し、同時に雑音の種類を識別する方法を提案する。評価実験の結果、音声に重畳した信号対雑音比(SNR)5dB?-5dBの継続時間が200ms程度の雑音を高い精度で検出、識別できることを確認した。A noise signal decreases speech recognition rate. Therefore, noise reduction is important, and it needs to estimate the noise signal. However, estimating noise is difficult when the noise happens suddenly in a speech. We proposed the method for detecting and identifying the noise in a speech, where it happens suddenly. Its effectiveness is confirined at SNR -5 縲鰀 5dB for the noise duration time 200 ms.一般社団法人情報処理学会, 2006年12月21日, 情報処理学会研究報告音声言語情報処理(SLP), 2006(136) (136), 7 - 12, 日本語
- Multi-class AdaBoost を用いた雑音検出雑音が混入することで音声認識率は低下してしまう.そのため雑音抑圧を行うことが重要であるが,雑音抑圧には雑音を推定する必要がある.しかしながら,発話中に突如雑音が発生する場合,雑音を推定するのは困難であり抑圧も行いにくい.本稿では発話中に突如発生したような雑音(突発性雑音)をMulti-class AdaBoostで検出し,同時に雑音の種類を識別する方法を提案する.評価実験の結果,音声に重畳した信号対雑音比(SNR)5dB〜-5dBの継続時間が200ms程度の雑音を高い精度で検出,識別できることを確認した.一般社団法人電子情報通信学会, 2006年12月14日, 電子情報通信学会技術研究報告. SP, 音声, 106(443) (443), 7 - 12, 日本語
- 局所特徴量によるフィッシャー重みマップに基づく音素認識本稿では,高次局所自己相関(HLAC)とフィッシャー重みマップ(FWM)に基づく新しい音声特徴抽出法について提案する.現在,音響・音声認識分野では,MFCCが広く用いられているが,時間特徴が表現できていないという問題がある.この問題を解決するために,時間-周波数平面上の3x3局所領域において,35種類の局所パターンに対する局所自己相関特徴を計算し,これを局所特徴量とする.ある一定の時間幅を持つ時間-周波数平面(フレーム)において,35種類の局所パターンごとに,識別効果の高い領域の局所特徴量に重みを付けて加算し,音声特徴ベクトル(35次元)を形成する.この重みをフィッシャー重みマップと呼ぶ・音素認識において,HLACとFWMの有効性を確認した.一般社団法人電子情報通信学会, 2006年12月, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24(444) (444), 19 - 24, 日本語速報,短報,研究ノート等(学術雑誌)
- 音響モデルを利用したシングルチャネルによる音源方向推定本稿では,音響モデルを利用することにより,単一マイクロホンで音源方向を推定する方法を検討する.あらかじめクリーン音声の音響モデルを作成しておき,各方向から到来する数単語の音声を用いて,EMアルゴリズムに基づきクリーン音声モデルと音響伝達特性の分離を行う.また本稿では,音響伝達特性のモデルとしてGMM(Gaussian Mixture Model)を用いる事により,短時間分析における音響伝達特性のばらつきの影響に対処する方法も検討する.一般社団法人電子情報通信学会, 2006年12月, 電子情報通信学会技術研究報告, EA2006-90, pp. 7-11(432) (432), 7 - 11, 日本語速報,短報,研究ノート等(学術雑誌)
- 2006年12月, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24, 日本語AdaBoostを用いたシステムへの問い合わせと雑談の判別速報,短報,研究ノート等(学術雑誌)
- 2006年12月, 電子情報通信学会技術研究報告, SP2006-85, pp. 89-94, 日本語3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討速報,短報,研究ノート等(学術雑誌)
- 3次キュムラント音声特徴を用いた音声区間検出雑音下において音声認識を行う際,音声非音声の判定により音声区間検出(VAD: Voice Activity Detection)を行う必要がある.静かな状況ではゼロクロッシング法などにより区間検出を行うことが可能である.しかし雑音下,特に音声の大部分が雑音に埋もれてしまっているような状況においては,従来の手法では十分な結果を得ることができない.本稿では,雑音に対するロバストな音声区間検出の手法として,音声特徴に高次統計量として知られているキュムラント(Cumulant)を用いること,および,MFCC(Mel Frequency Cepstrum Coefficient)との初期統合を行う方法を提案する.実データを用いた実験により,提案手法の有効性を検証する.一般社団法人電子情報通信学会, 2006年09月, 電子情報通信学会技術研究報告, SIP, pp. 37-42(263) (263), 37 - 42, 日本語速報,短報,研究ノート等(学術雑誌)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2006年08月21日, 情報科学技術フォーラム一般講演論文集, 5(3) (3), 49 - 50, 日本語I_022 二次元CSPによる目領域探索の高速化(I分野:画像認識・メディア理解)
- 2006年07月, 画像認識・理解シンポジウム, pp. 934-939, 日本語唇領域の動静判定と音声・雑音判定の統合に基づく発話区間の検出速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2006年03月08日, 電子情報通信学会総合大会講演論文集, 2006(1) (1), 131 - 131, 日本語D-14-7 AdaBoostと音声・唇GMMによる発話区間検出(D-14.音声・聴覚,一般講演)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2005年08月22日, 情報科学技術フォーラム一般講演論文集, 4(3) (3), 199 - 202, 日本語J-012 個人適応型サッカー映像の自動生成技術(J分野:グラフィクス・画像)
- 2005年07月, 画像の認識・理解シンポジウム, IS3-117, pp. 1145-1151, 日本語ディジタルカメラワークを用いたボールと選手の状況認識に基づくサッカー映像の自動生成[査読有り]速報,短報,研究ノート等(学術雑誌)
- 2005年03月08日, 日本音響学会研究発表会講演論文集, 2005(1) (1), 123 - 124, 日本語複素スペクトル平面での2chマイクロフォンを用いた雑音除去
- 2005年03月08日, 日本音響学会研究発表会講演論文集, 2005(1) (1), 149 - 150, 日本語単語共起に注目した野球実況中継の構造化
- 2005年, 電子情報通信学会技術研究報告, PRMU2005-115, pp. 7-12, 日本語嗜好分類に基づく個人適応型サッカー映像の自動生成技術速報,短報,研究ノート等(学術雑誌)
- 2005年, 音声言語情報処理研究会, SLP2005-58, pp. 25-30, 日本語コンテキストアウェアネスに基づく対話型テレビの検討速報,短報,研究ノート等(学術雑誌)
- 2005年, 音声言語情報処理研究会, SLP-59, pp. 175-180, 日本語Kernel PCAを用いたロバスト特徴量抽出の検討速報,短報,研究ノート等(学術雑誌)
- 一般社団法人電子情報通信学会, 2004年03月08日, 電子情報通信学会総合大会講演論文集, 2004(2) (2), 336 - 336, 日本語D-12-170 選手とボールに着目したディジタルカメラワーク実現法の検討 : HD映像からのサッカー映像自動生成に向けて(D-12. パターン認識・メディア理解B)
- 神戸大学, 2004年03月, 神戸大学都市安全研究センター研究報告, 8, 205 - 211, 日本語災害に対する都市情報システムの調査と考察
- 2004年, 第6回音声言語シンポジウム SP2004, 136, 85-90, 日本語知識を用いた音声認識による野球実況中継の構造化[査読有り]その他
- 映像文法に基づいた実時間使用可能ショット識別による撮影ナビゲーションシステム本論文では,編集を意識した映像撮影を支援,教示することを目的として,映像文法を背景とするリアルタイムカメラワーク判定に基づいた撮影ナビゲーションシステムを提案する.カメラワークの解析法についてはいくつかの研究が行われているが,本システムでは,カメラワーク解析のリアルタイム性が要求されるため,処理速度が速く,また,手ぶれやカメラワークの安定性を十分に検証できる方法として投影法を用いた手法を採用した.カメラワーク解析により出力された結果からショット検出を行い,ショットを14通りの状態に分類し,編集には使用できない使用不能区間の表示,また,映像文法に従って編集に最も適した映像区間の表示を行う.これにより,撮影者は効率的に取り直しの作業を行うことができ,また,撮影した映像で編集に適した部分を瞬時に把握することが可能となる.一般社団法人電子情報通信学会, 2004年, 電子情報通信学会技術研究報告, PRMU, パターン認識・メディア理解, 104, 369, 1-6(369) (369), 1 - 6, 日本語[査読有り]その他
- 2004年, 画像の認識・理解シンポジウム(MIRU2004), SUP-C1-12, Ⅱ-341-Ⅱ-346, 日本語ボールと選手に着目したディジタルカメラワークの実現法 -ディジタルシューティングによるサッカー解説映像生成システムに向けて-[査読有り]その他
- 啓学出版, 2003年03月18日, 日本音響学会研究発表会講演論文集, 2003(1) (1), 9 - 10, 日本語発音変形と音響的誤り傾向を考慮した話し言葉音声認識の検討
- 2003年03月18日, 日本音響学会研究発表会講演論文集, 2003(1) (1), 189 - 190, 日本語音声認識を用いたスポーツ実況中継におけるハイライトシーン検出
- 2003年, 電子情報通信学会,パターン認識・メディア理解, PRMU2003-18 27-34, 日本語野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出その他
- 2003年, 情報処理学会研究報告, SLP-45-2 7-12, 日本語時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識その他
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 ~ハイライトシーン検出への応用~本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正解精度で約13%の改善が得られた。それぞれの適応を統合することにより、単語正解精度で約38%の改善が得られた。一般社団法人電子情報通信学会, 2003年, 電子情報通信学会,音声研究会, SP2003-166 33-40(618) (618), 33 - 40, 日本語その他
- 2003年, 情報処理学会研究報告, SLP-47-16 83-88, 日本語GMMに基づく音声信号推定法の改良と、実走行車内音声による評価その他
- 2003年, 電子情報通信学会,音声研究会, SP2003-117 25-30, 日本語GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧その他
- GMMに基づく音声信号推定法を用いた雑音下音声認識本研究では,時間領域SVDとGMMに基づく音声信号推定法を用いた雑音に頑健な音声認識手法を提案する.本手法の主となる部分には,GMMに基づく音声信号推定法を用いている.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDによる音声協調手法をGMMに基づく音声信号推定法の前処理として用いた.さらに,時間領域SVD法において,雑音の影響をより多く取り除くために,雑音成分の減算制御係数を導入し,この値を適応的に決定することについても検討した.提案手法をAURORA2データベースを用いて評価した結果,全ての雑音環境で大幅な音声認識率の改善が得られた.In this paper, a noise robust speech recognition method is proposed, by combining temporal domain singular value decomposition (SVD) based speech enhancement and Gaussian mixture model (GMM) based speech estimation. The critical neck of the GMM based approach is the noise estimation problem. For this noise estimation problem, we investigated the adaptive noise estimation in the GMM based approach. Furthermore, in order to obtain higher recognition accuracy, we employed a temporal domain SVD based speech enhancement method as the pre-processing module of the GMM based approach. In addition, to reduce more influence of the noise included in the noisy speech, we introduce an adaptive over subtraction factor into the temporal domain SVD based speech enhancement. In evaluation on the AURORA2 tasks, our method showed the significant improvement in the recognition accuracy at all the noise conditions.一般社団法人情報処理学会, 2002年12月16日, 情報処理学会研究報告音声言語情報処理(SLP), 2002(121) (121), 25 - 30, 日本語
- GMMに基づく音声信号推定法を用いた雑音下音声認識本研究では,時間領域SVDとGMMに基づく音声信号推定法を用いた雑音に頑健な音声認識手法を提案する.本手法の主となる部分には,GMMに基づく音声信号推定法を用いている.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDによる音声強調手法をGMMに基づく音声信号推定法の前処理として用いた.さらに,時間領域SVD法において,雑音の影響をより多く取り除くために,雑音成分の減算制御係数を導入し,この値を適応的に決定することについても検討した.提案手法をAURORA2データベースを用いて評価した結果,全ての雑音環境で大幅な音声認識率の改善が得られた.一般社団法人電子情報通信学会, 2002年12月12日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 102(527) (527), 25 - 30, 日本語
- 一般社団法人電子情報通信学会, 2002年12月01日, 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-II, 85(12) (12), 1771 - 1780, 日本語音素誤り最小化デコーディングに基づく音響モデルの教師なし適応化
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2002年09月13日, 情報科学技術フォーラム一般講演論文集, 2002(3) (3), 189 - 190, 日本語I-95 分割テンプレートを用いた正規化相関に基づくサッカー映像中の選手の追跡(映像・拡張現実感,I.画像認識・メディア理解)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2002年09月13日, 情報科学技術フォーラム一般講演論文集, 2002(3) (3), 487 - 488, 日本語K-60 ニュース映像に対する発話内容と人物問い合わせシステム(ヒューマンインタフェース(HI)3,K.ヒューマンコミュニケーション&インタラクション)
- FIT(電子情報通信学会・情報処理学会)運営委員会, 2002年09月13日, 情報科学技術フォーラム一般講演論文集, 2002(3) (3), 93 - 94, 日本語I-47 映像文法に基づいた映像編集支援システムのための使用可能ショット区間自動抽出と索引付け(画像応用,I.画像認識・メディア理解)
- 音声認識と話者認識を統合した話者の人名付与システム本研究では,「クリントン大統領が,情報スーパーハイウェイについて話しているシーンを見たい」といった,特定の話者がある話題について話しているシーンの検索を目指している.このような話者と発話内容を同時検索するには,話者の交替を検出し,発話区間に対して話者の名前を付与し,重要語を検出する必要がある.そこで,本研究では,まず話者セグメンテーションにより話者の交替を検出し,話者モデルを自動構築する.次に,大語彙連続音声認識とワードスポッティングにより,ニュース音声中から人名および話者の交替を促すフレーズ(キーフレーズ)を抽出する.抽出された人名およびキーフレーズを利用して,自動構築された話者モデルに話者の名前を付与する.この人名インデキシングと,大語彙連続音声認識による重要語検出により,話者と発話内容を同時検索することが可能となる.The purpose of this study is to retrieve a video clipwhere a specific speaker talks about some topics, for example,``I would like to watch a video clip where President Clinton talksabout information super highway''. In order to retrieve the speakername and the spoken contents simultaneously, it is required to detectspeaker changes, index the speaker name to the obtained speakersection and extract important words. In this study, the speakerchanges are detected by performing the speaker segmentation anda speaker model is automatically constructed. A phrase suggestingthe speaker change as well as the speaker name in a news speech datais extracted by large vocabulary continuous speech recognition andword spotting technique. Thus, the extracted speaker names areautomatically indexed to the speaker section obtained by thespeaker segmentation. Therefore, we can simultaneously retrieve thespeaker name and the spoken contents based on the speaker nameindexing and the important words extracted by the large vocabularycontinuous speech recognition.一般社団法人情報処理学会, 2002年07月15日, 情報処理学会論文誌, 43(7) (7), 2205 - 2213, 日本語
- トピックセグメンテーションに基づく講義ビデオの構造化の検討本研究では,講義ビデオの構造化を目的として,連続した一連の講義音声を個々のトピックに自動的に分割する(トピックセグメンテーション)システムの検討を行った.講義は,話題の移り変わりが少なく,話題の境界を判断することが難しい.そこで,講義音声を目次をベースに講義テキストと対応づけることにより,平均93.7%と高精度にトピックセグメンテーションを行うことができた.これを基にして,目次から対応する講義の部分を見ることができ,また索引語からその語に関する部分の講義を見ることができる学習支援システムを構築した.In this paper, we study on a segmentation method of continuous lecture speech into topics. A lecture has a few changes of subject and it is difficult to judge their boundaries. To solve this problem, we matched a lecture speech with the lecture text based on the table of contents, and obtained the high performance of the topic segmentation with an average of 93.7%. Incorporating this method, we constructed a system where we can see a part of lecture concerning a table of contents, by specifying the chapters or sections, as well as index words by specifying them.一般社団法人情報処理学会, 2002年07月12日, 情報処理学会研究報告音声言語情報処理(SLP), 2002(65) (65), 59 - 64, 日本語
- 雑音除去とモデル適応を併用した雑音下音声認識 -AURORA2タスクでの評価-本研究では,雑音除去法と音響モデル適応法を併用した,雑音に頑健な音声認識法を提案し,AURORA2タスクでの評価を行った.雑音除去手法には二つの方法を用いており,一つは短時間フレーム及び周波数帯域ごとに雑音スペクトルの減算量を変化させる,帯域分割型適応スペクトルサブトラクション(ASBSS)法であり,もう一方はASBSS法により得られた音声スペクトルをカルマンフィルタにより再推定する方法である.本研究では,これら二つの方法を併用することにより,精度良く音声スペクトルを推定することについて検討を行った.また,一般に雑音除去を行うと,推定誤差等による残差雑音が生じてしまい,音声認識率に影響を与えるという問題がある.この問題を解決するために,本研究では教師無しMLLR適応を用いることにより,残差雑音により生じるスペクトル歪みに音響モデルを適応させた.本手法をAURORA2データベースを用いて評価した結果,Clean TrainingCondition,Multi Training Conditionともに大幅な認識率の改善が得られた.In this paper, we have evaluated a noisy speech recognition method based on noise reduction and acoustic model adaptation, on the AURORA2 tasks. For noise reduction method, we employed two noise reduction methods. One is an Adaptive Sub-Band Spectral Subtraction (ASBSS) method which can optimize the noise subtraction rate according to the SNR in frequency bands at each frame. The other is a Kalman filtering estimation method which re-estimates the accurate speech spectra from those estimated by ASBSS. The accurate speech spectra was estimated by combining these two methods. Usually, a noise reduction method has a problem that it degrades the recognition rate because of spectral distortion caused by residual noise occurred through noise reduction and over estimation. To solve the problem in the noise reduction method, adaptation of the acoustic models is employed by using an unsupervised MLLR adaptation to the spectral distortion. In evaluation on the AURORA2 tasks, our method showed the significant improvement in recognition accuracy for both clean training condition and multi training condition.一般社団法人情報処理学会, 2002年07月12日, 情報処理学会研究報告音声言語情報処理(SLP), 2002(65) (65), 71 - 76, 日本語
- 映像編集支援システムのためのショットサイズ自動付与ディジタル時代の到来により,映像コンテンツの不足が問題となっている.この問題を解決するためには,映像コンテンツの制作において最も時間を必要とする編集作業の効率化が必要である.一般に,放送用の映像は,映像内容を一意に伝えるための普遍的な規則である映像文法に従って表現されている。したがって,編集作業を効率良く行うためには,この映像文法を反映した映像編集支援システムを開発する必要がある.この映像編集支援システムを実現するためには,映像文法が適用できるように,カメラマンが撮影した素材映像に対して,あらかじめ索引情報を付与しておく必要がある.映像文法の中で特に重要な規則は,ショットの接続に関する規則である.この点から論文では,映像文法に基づく映像編集支援システムを提案するとともに,ショットサイズを自動付与する手法を提案する.一般社団法人電子情報通信学会, 2002年07月01日, 電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-I, 85(7) (7), 592 - 602, 日本語
- 映像編集支援システムのための使用可能ショット自動抽出ディジタル時代の到来により,映像コンテンツの不足が問題となっている。この問題を解決するためには,映像コンテンツの制作において最も時間を必要とする編集作業の効率化が必要である.編集を行うためには,カメラマンが撮影した素材映像から放送映像に使用可能なショット区間を抽出する必要がある.この作業は,編集作業の中で大半を占める非効率的な部分である.そこで、本論文では,素材映像から放送用に使用できる映像の区間を推定し,ショット区間を自動抽出する方法を検討する。一般社団法人電子情報通信学会, 2002年06月21日, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, 102(156) (156), 1 - 8, 日本語
- 分割テンプレートを用いた正規化相関法によるサッカー映像中のボールと選手の追跡動画像において内容検索を行うためには,映像の内容を記述する必要がある.特に,映像中の移動物体の位置情報は,映像の内容記述において重要な意味を持つ.従来,正規化相関法を移動物体の追跡に用いる場合には,テンプレート全体を用いるため,局所的な輝度の変化や一部隠蔽などが生じた場合,正確に追跡することは難しかった.これを解決するため,本稿では,分割テンプレートを用いた正規化相関法によって,選手とボールを精度よく追跡する手法を提案する.一般社団法人電子情報通信学会, 2002年06月20日, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, 102(155) (155), 51 - 56, 日本語
- 人工知能学会, 2002年06月07日, 言語・音声理解と対話処理研究会, 35, 7 - 13, 日本語マルチモーダルインタラクションによるニュース映像中の人物認識と検索 (テーマ:一般)
- マイクロフォンアレイとカルマンフィルタを用いたノイズロバストなハンズフリー音声認識の検討本研究では,対話型テレビのフロントエンドシステムとして,ハンズフリー音声認識システムを検討した.対話型テレビとは,機械との対話システムの一つであり,ニュース放送等において,ユーザーが興味のある情報をテレビに向かって問い合わせることにより,情報検索を行うことのできるシステムである.機械との自然な対話を行うためには,マイクロフォンを意識しない,ハンズフリー音声認識が必要となる.本研究におけるシステムでは,マイクロフォンアレイによって話者方向を推定し,ビームフォーミング孝行っている.また,入力音声信号は,常時観測されており,連続して観測された信号から,音声区間を自動的に抽出している.さらに, ビームフォーミングにより強調された音声信号に対して,雑音除去,雑音適応を行うことにより,精度良く音声認識を行っている.一般社団法人電子情報通信学会, 2002年04月19日, 電子情報通信学会技術研究報告. EA, 応用音響, 102(33) (33), 13 - 18, 日本語
- 2002年03月18日, 日本音響学会研究発表会講演論文集, 2002(1) (1), 143 - 144, 日本語音声認識と文字認識の統合に基づく商品紹介ビデオの区間分割と索引付け
- 2002年03月18日, 日本音響学会研究発表会講演論文集, 2002(1) (1), 137 - 138, 日本語単語・音素事後確率によるデコーディングに基づく音響モデルの教師なし適応化
- ユーザー発話のセグメンテーションと発話評価機能をもつ英語学習支援システム外国語によるコミュニケーションの学習においては,対象となる外国語発話の聞き取り能力,自己の発話能力,そして文作成能力を養う必要がある。それら3つの能力の習得を支援するComputer-Assisted Language Learning(以下CALL)システムの構築には,学習者の発話に対する評価と,適切な誤り部分の教示が重要な要素となる。本報告では,音声認識技術を利用したCALLシステムにおける学習機能として主に3つの機能(セグメンテーション機能,フレージング機能,ディクテーション機能)を提案し,その原理と実装方法について述べる。実験として,実際に10人の学習者にシステムを利用してもらい,アンケートの結果から評価を行った。In communication learning of second language, three abilities have to be improved; listening, speaking and writing ability. In this sence, it is important to evaluate user's pronunciation ability and to detect mispronunciations in CALL (Computer-Assisted Language Learning) systems. In this paper, we propose three functions (segmentation, phrasing and dictation) in CALL system using speech recognition technology. As experiments, the system was evaluated from the result of a questionnaire to ten learning.一般社団法人情報処理学会, 2002年02月01日, 情報処理学会研究報告音声言語情報処理(SLP), 2002(10) (10), 7 - 12, 日本語
- キーワードスポッティングを用いた情報検索システムにおける拡張辞書の効果音声入力により放送ニュースに対して情報検索を行うシステムについて検討している.その前処理として, 比較的自由度の高いユーザの問い合わせに対して, 頑健な音声認識が可能なシステムを目指している.ユーザの語彙辞書の作成方法としてニュース音声の書き起こし結果を利用している.本研究では, まず学習データと評価データの時期差の問題を解決するために, 最新のWebのニュース記事からN-gram言語モデルを作成し, 評価データに適応した.また未知語を補う方法として情報検索で広く使われている単純類似度法やLSI法を用いて検討した.これにより, 未知語に対して若干の効果を確認することができた.次に, キーワードスポッティングのシミュレーション実験を行い, システムの有効性を示した.一般社団法人電子情報通信学会, 2002年01月18日, 電子情報通信学会技術研究報告. SP, 音声, 101(604) (604), 41 - 46, 日本語
- カルマンフィルタに基づく音声信号推定法を用いた雑音環境下での音声認識本研究では, 雑音環境下における音声認識の前処理として, カルマンフィルタによる音声信号推定法を提案する.従来, カルマンフィルタは膨大な計算量を要するため, 実時間向けの処理には不向きであった.そこで本研究では, カルマンフィルタの計算量を削減して, 高速演算することにより, 実時間向けの音声信号推定法を提案する.提案手法の評価のために雑音重畳音声から抽出された音声信号を用いて単語認識実験を行い, 従来のSpectral Subtraction法及びParallel Model Combination法と単語認識精度の比較を行った.また, フィルタパラメータを話者, 雑音の種類, SNRなどの条件に応じて人手で変更を行うことなく, 自動で種々の定常雑音に対処できることを示すために, 提案手法の雑音補償範囲についても評価を行った.その結果, 従来手法では認識率が低くなる雑音においても, 提案手法により高い単語認識率が得られた.特に, 提案手法は低SNRにおいて有効であることが確認できた.一般社団法人電子情報通信学会, 2002年01月01日, 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-II, 85(1) (1), 1 - 11, 日本語
- 雑音除去音声に対する特徴量抽出とMLLR適応の統合による雑音に頑健な音声認識本研究では,我々がこれまでに提案した雑音に頑健な音声認識手法(カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応の併用)に加えて,頑健な特徴量を導入することについて検討を行った。雑音に頑健な特徴量として,Root Cepstrum係数を用いており,音声認識に従来用いられてきたMFCCとの音声認識結果の比較を行った。また,本研究では,MLLR適応を行う際の音素クラスタ数の選択についても検討を行った。提案手法の評価は,3種類の音楽が重畳した音声を用いた大語彙連続音声認識により行っており,提案手法により単語正確精度の改善が得られた。In this paper, we investigate a noise robust acoustic in our proposed noise robust speech recognition method using Kalman filtering for speech signal estimation and iterative unsupervised MLLR adaptation. For the noise robust acoustic feature, we employed root cepstral coefficients and compared the results with conventionally used MFCCs at speech recognition accuracy. Furthermore, we investigate the number of phoneme clusters in MLLR adaptation. In order to evaluate the proposed method, we carried out large vocabulary continuous speech recognition experiments under 3 types of music. As a result, the proposed method showed the significant improvement in word accuracy.一般社団法人情報処理学会, 2001年12月20日, 情報処理学会研究報告音声言語情報処理(SLP), 2001(123) (123), 57 - 62, 日本語
- 音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化自由発話音声を対象とした, 音響モデルの高精度な教師なし適応化について報告する.教師なし適応化においては, 自動的に生成した不完全ラベルを用いるため, 教師ありの場合に比べて適応精度が劣化してしまう.そこで, 認識結果の信頼度(Confidence Measure)を用いたデータ選択により, 認識精度の劣化を制御する.本報告では, 教師なし適応の精度向上を目的として, 音素誤り最小化デコーディングを提案し, 音素レベルの事後確率に基づいた信頼度による教師なし適応化について検討した.実験の結果, 適応に用いる音素ラベルの精度を向上させることができ, それに伴って適応の精度も向上させることができた.また, 事後確率に基づく信頼度を用いたデータ選択により, さらに適応の精度を向上させることができた.一般社団法人電子情報通信学会, 2001年12月14日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 101(521) (521), 19 - 24, 日本語
- 雑音除去音声に対する特徴量抽出とMLLR適応の統合による雑音に頑健な音声認識本研究では, 我々がこれまでに提案した雑音に頑健な音声認識手法(カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応の併用)に加えて, 頑健な特徴量を導入することについて検討を行った.雑音に頑健な特徴量として, Root Cepstrum係数を用いており, 音声認識に従来用いられてきたMFCCとの音声認識結果の比較を行った.また, 本研究では, MLLR適応を行う際の音素クラスタ数の選択についても検討を行った.提案手法の評価は, 3種類の音楽が重畳した音声を用いた大語彙連続音声認識により行っており, 提案手法により単語正解精度の改善が得られた.一般社団法人電子情報通信学会, 2001年12月13日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 101(520) (520), 57 - 62, 日本語
- 大語彙連続音声認識における最ゆう単語 back-off 接続を用いた効率的な N-best 探索法本論文では, 大語彙(い)連続音声認識のための高速なN-best探索手法を提案する.大語彙連続音声認識で一般的に用いられているlexical tree searchは効率的な探索アルゴリズムであるが, bigram確率のfactorizationを行う際, その必要メモリ量と処理時間の観点で問題があった.本論文ではまず, bigram言語モデルのback-off接続制約を考慮した探索ネットワークを用いることで, bigram factorizationにおける必要メモリ量を大幅に抑え, 全体の処理時間に影響を与えることなく認識可能であることを確認した.そして, 大語彙連続音声認識の高速化を目的とし, 上記の探索ネットワークを発展させた, 最ゆう単語back-off接続という方法を提案する.本手法は, あるフレーム中で最大のゆう度をもつ単語にのみback-off接続を行うという方法である.提案手法を用いることで, 認識率をほとんど落とすことなく, 全体の処理時間を半分以下にできることを実験により確認した.一般社団法人電子情報通信学会, 2001年12月01日, 電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理, 84(12) (12), 2489 - 2500, 日本語
- 画像電子学会, 2001年11月22日, 研究会講演予稿, 190, 9 - 14, 日本語テロップ文字認識に基づく商品紹介ビデオの区間分割 (セッション1 2次元画像技術と応用)
- 2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 191 - 192, 日本語講義音声を対象としたトピックセグメンテーションの検討
- 2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 93 - 94, 日本語音響モデルの教師なし適応における信頼度の検討
- 2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 97 - 98, 日本語講演音声認識における最尤単語back-off接続を用いたN-best探索法の効果
- 2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 35 - 36, 日本語モデル適応と雑音除去の併用による非定常雑音下での音声認識
- 2001年10月01日, 日本音響学会研究発表会講演論文集, 2001(2) (2), 61 - 62, 日本語自動拡張辞書を用いたキーワードスポッティングによる音声対話型情報検索
- アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定放送用の映像には, 映像内容を一意に伝えるための普遍的な規則として映像文法が存在する.映像文法における最小の単位はショットであるが, ショットには対象を遠くから撮影したルーズショット、近くで撮影したミドルショット, より対象に接近したタイトショットといった3種類の相対的関係を示すショットサイズが存在する.本研究ではアクティブ探索法を用いてショットサイズの自動判定を行う手法について研究を行った.一般社団法人電子情報通信学会, 2001年09月13日, 電子情報通信学会技術研究報告, 101(298) (298), 31 - 38, 日本語
- 一般社団法人電子情報通信学会, 2001年08月29日, 電子情報通信学会ソサイエティ大会講演論文集, 2001, 195 - 195, 日本語D-12-20 アクティブ探索を用いた映像編集支援のためのショットサイズ判定
- 一般社団法人電子情報通信学会, 2001年08月29日, 電子情報通信学会ソサイエティ大会講演論文集, 2001, 244 - 244, 日本語D-14-14 音声情報と画像情報の統合による商品紹介映像の商品区間への分割方法
- クロスメディア・パッセージ検索 - テロップやCGフリップ文字列を検索質問とした発話文書に対する検索方式 -近年,放送の多チャネル化等により大量のニュース映像情報が生成され始めたため,視聴者側には興味のあるニュース番組だけを見たいという要求が生じている.そのため,ニュースの検索システムや,ニュースに適切なインデックスを付与することが必要となってきている.そこで本研究では,ニュース映像に出現するテロップやCGフリップ文字列がニュース番組の内容を要約している点に着目し,このテロップやCGフリツプ文字列をインデックスとしてニュース映像に付与するシステムの構築を行った.映像にインデックスを付与する場合,インデックスを付与する時間区間の長さをどう定義するかが問題となる.記事が長かったり,複数のトピックが1記事に含まれている場合には,記事を単位としてインデックスを付与することは好ましくない.したがって本研究では,記事という単位に対してインデックスを付与するのではなく,パッセージという内容の表現単位に対してインデックスを付与している.一般社団法人電子情報通信学会, 2001年08月01日, 電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理, 84(8) (8), 1809 - 1816, 日本語
- 講義データを対象とした音声認識と構造化の検討本研究では,講義データの構造化を目的として,連続した一連の講義音声を個々のトピックに自動的に分割する(トピックセグメンテーション)システムの検討を行った.トピックセグメンテーションを精度良く行うためには,トピックの内容を表すキーワードを抽出することが重要となる.講義テキストの索引キーワードリストを,事前に用意した言語モデルの未知語カテゴリに登録することで,高精度にトピック内容を表すキーワードを抽出することができた.実際に,ある講義に対して,トピックセグメンテーションを行ったところ,F-measureは最大で49.7であった.In this paper, we study on a segmentation method of continuous lecture speech into the topics. In the topic segmentation, extraction of topic words (keywords) is important. We selected the keywords from indices of lecture text and added them as a category of unknown-word in language model.As a result, the keywords were recognized accuratelly and we achived a F-measure of 49.7% in the topic segmentation experiments.一般社団法人情報処理学会, 2001年07月13日, 情報処理学会研究報告音声言語情報処理(SLP), 2001(68) (68), 79 - 84, 日本語
- キーワードスポッティングによる 商品紹介映像の商品区間への分割方法の検討本研究では,社内で製作された商品の紹介映像を個々の商品区間へ分割(トピックセグメンテーション)し,商品名をインデックスとして付与するシステムの検討を行った.本研究におけるシステムでは,商品紹介映像の音声から音楽などの雑音を除去した後にキーワードスポッティングを行い,抽出された商品名を用いてトピックセグメンテーションを行っている.また,キーワードスポッティングにより商品名を抽出するためには,商品名辞書が必要となるが,本研究では,商品名辞書が事前に存在していない場合に,映像中のテロップ文字を利用して,オンラインで自動生成する手法についても検討を行った.実験の結果,商品名辞書が事前に存在している場合で約82%,商品名辞書を自動生成した場合で約60%の精度で区間分割を行うことができた.In this paper, we propose a method to segment goods catalog video into individual sections and index them. Our proposing method uses the keyword spotting which extract the keywords from noise reduced speech signal within the goods catalog video. In order to extract the keywords by using keyword spotting, the goods name dictionary is required. In this paper, we study a method to generate the goods name dictionary automatically, by using the video captions within the goods catalog video. As the experimental result, the proposed method could segment the individual goods sections with approximately 82% accuracy when the goods name dictionary is available, and with approximately 60% accuracy when goods name dictionary is generated automatically.一般社団法人情報処理学会, 2001年07月13日, 情報処理学会研究報告音声言語情報処理(SLP), 2001(68) (68), 49 - 54, 日本語
- カルマンフィルタと繰り返しMLLR適応を用いた非定常雑音下での音声認識本研究では,カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応を用いた,非定常雑音下での音声認識手法を提案する.提案手法では,音声の時間変化モデルをカルマンフィルタによる推定問題に適用することにより,音楽等のような非定常雑音が重畳した音声から,クリーンな音声信号を推定している.音声の時間変化モデルは,雑音重畳音声におけるクリーン音声の時間変動を,Taylor展開を用いることにより表現したモデルであり,モデルの構成に必要なパラメータの1つである雑音の変動成分は,線形予測法により推定を行っている.また,より高い音声認識精度を得るために,繰り返し教師無しMLLR適応により,音響モデルをカルマンフィルタによる推定誤差と残差雑音によるスペクトル歪みに適応させることを試みた.提案手法の評価は,3種類の音楽が重畳した音声を用いた大語棄連続音声認識により行っており,結果として提案手法により,単語正解精度の大幅な改善が得られた.一般社団法人電子情報通信学会, 2001年06月21日, 電子情報通信学会技術研究報告. SP, 音声, 101(155) (155), 7 - 14, 日本語
- 部分空間と混合分布モデルを用いた声質変換声質変換では、音声中に含まれている音韻性と話者性を分離することができれば、読者性を変換することで目的話者に近い音声が得られると考えられる。本研究では、部分空間法によって話者毎に話者空間と音韻空間を設計し、元話者と目的話者の闇で話者空間を人れ替える。次に音韻空間に対しては、元話者の音韻空間を用いることで元話者から目的話者に変換を行う。この提案手法の評価のために、混合分布モデルのみを用いた変換法と比較を行った。その結果、提案手法は、混合分布モデルを用いた変換法よりもよい主観評価を得ることができた。一般社団法人電子情報通信学会, 2001年05月17日, 電子情報通信学会技術研究報告. SP, 音声, 101(86) (86), 1 - 6, 日本語
- 一般社団法人電子情報通信学会, 2001年03月07日, 電子情報通信学会総合大会講演論文集, 2001(1) (1), 277 - 278, 日本語SD-3-4 テレビ放送を対象としたキーワードスポッティングによる音声対話型情報検索
- 一般社団法人電子情報通信学会, 2001年03月07日, 電子情報通信学会総合大会講演論文集, 2001(2) (2), 363 - 364, 日本語SD-5-7 映像文法と映像解析に基づく編集支援システムの検討
- 2001年03月01日, 日本音響学会研究発表会講演論文集, 2001(1) (1), 15 - 16, 日本語音声認識精度向上のための信頼度尺度の比較
- 2001年03月01日, 日本音響学会研究発表会講演論文集, 2001(1) (1), 151 - 152, 日本語日本語 ・ 英語HMMを用いた発声評価と単語発声の誤り検出
- 2001年03月01日, 日本音響学会研究発表会講演論文集, 2001(1) (1), 73 - 74, 日本語非定常雑音下での連続音声認識を目的とした音声信号の時間推移の推定に基づく雑音除去法の検討
- 英語学習における発音評価と単語発声誤りの検出について外国語によるコミュニケーションの学習においては, 対象となる外国語発話の聞き取り能力, 自己の発話能力, そして文作成能力を養う必要がある.それらの3つの能力の習得を支援するComputer-Assisted Language Learning(以下CALL)システムの構築には, 学習者の発話に対する評価と, 適切な誤り部分の教示が重要な要素となる.本研究では, 英語学習者がシステム誘導の下で英語を発声した際に, 英語文としての発声評価を行い, 発声文中の誤り部分を指摘し, 学習者に返す手法について検討する.具体的には, 日本語・英語の各音素HMMを組み合わせて混在HMMを作成し, forced alignmentを行って単語区間を切り出し、得られた単語区間の音響尤度をネイティブの発声と比較することで誤り部分を推定する.一般社団法人電子情報通信学会, 2001年01月19日, 電子情報通信学会技術研究報告. SP, 音声, 100(595) (595), 49 - 56, 日本語
- 一般社団法人電子情報通信学会, 2001年, 信学総大, 305, 305 - 305, 日本語映像編集支援システムのための人物に関するインデキシング
- 一般社団法人電子情報通信学会, 2001年, 電子情報通信学会総合大会, 2001, 361 - 362, 日本語テロップ文字認識による商品紹介映像の商品区間への分割方法
- アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定放送用の映像には, 映像内容を一意に伝えるための普遍的な規則として映像文法が存在する.映像文法における最小の単位はショットであるが, ショットには対象を遠くから撮影したルーズショット、近くで撮影したミドルショット, より対象に接近したタイトショットといった3種類の相対的関係を示すショットサイズが存在する.本研究ではアクティブ探索法を用いてショットサイズの自動判定を行う手法について研究を行った.一般社団法人 映像情報メディア学会, 2001年, 映像情報メディア学会技術報告, 25(0) (0), 31 - 38, 日本語
- 音声の時間変化モデルに基づく音声信号推定法を用いた 非定常雑音下での音声認識本研究では,音声の時間変化モデルに基づいた非定常雑音に対する雑音除去法を提案する.提案手法では,音声の時間変化モデルをカルマンフィルタによる推定問題に適用することにより,音楽等のような非定常雑音が重畳した音声から,クリーンな音声信号を推定している.音声の時間変化モデルは,雑音重畳音声におけるクリーン音声の時間変動を,Taylor展開を用いることにより表現したモデルである.モデルの構成に必要なパラメータの1つである雑音の変動成分は,線形予測法により推定を行っている.提案手法の評価のために,3種類の音楽が重畳した音声を用いて大語棄連続音声認識を行ない,単語正解精度において,従来法であるParallel Model Combination(PMC)法と比較を行った.その結果,提案手法により,PMC法よりも高い単語正解精度が得られた.In this paper, we propose a non-stationary noise reduction method based on speech state transition model. Our proposed method estimates the speech signal under non-stationary noisy environments such as musical background by applying speech state transition model to Kalman filtering estimation. The speech state transition model represents the state transition of speech component in non-stationary noisy speech and is modeled by using Taylor expansion. In this model, the state transition of noise component is estimated by using linear predictive estimation. In order to evaluate the proposed method, we carried out large vocabulary continuous speech recognition experiments under 3 types of musics and compared the results with conventionally used Parallel Model Combination(PMC) method in word accuracy rate. As a result, the proposed method obtained word accuracy rate superior to PMC.一般社団法人情報処理学会, 2000年12月21日, 情報処理学会研究報告音声言語情報処理(SLP), 2000(119) (119), 19 - 24, 日本語
- 音声認識精度向上のための信頼度尺度の比較本報告では,高精度な音声認識を目的とし,ワードグラフから算出される種々の信頼度尺度(Confidence Measure)について比較検討を行った.信頼度尺度の算出法としては,ワードグラフ中の候補数に基づくものや,単語事後確率に基づくものについて検討した.本研究では,信頼度とワードグラフの再構築を行う繰り返しデコーディング法においてそれらを実装し,新聞記事読み上げディクテーションタスクにて評価を行った.In this paper, we investigate some confidence measures calculated from word graphs for improved speech recognition. In confidence estimation, mainly two methods are compared; one is based on number of hypothoesis in word graphs and the other is based on word posterior probabilities. We implemented them in an iterative decoding method based on the confidence estimation and the word graph re-construction, and evaluated them in LVCSR task.一般社団法人情報処理学会, 2000年12月21日, 情報処理学会研究報告音声言語情報処理(SLP), 2000(119) (119), 113 - 118, 日本語
- 音声の時間変化モデルに基づく音声信号推定法を用いた非定常雑音下での音声認識本研究では, 音声の時間変化モデルに基づいた非定常雑音に対する雑音除去法を提案する.提案手法では, 音声の時間変化モデルをカルマンフィルタによる推定問題に適用することにより, 音楽等のような非定常雑音が重畳した音声から, クリーンな音声信号を推定している.音声の時間変化モデルは, 雑音重畳音声におけるクリーン音声の時間変動を, Taylor展開を用いることにより表現したモデルである.モデルの構成に必要なパラメータの1つである雑音の変動成分は, 線形予測法により推定を行っている.提案手法の評価のために, 3種類の音楽が重畳した音声を用いて大語彙連続音声認識を行ない, 単語正解精度において, 従来法であるParallel Model Combination (PMC)法と比較を行った.その結果, 提案手法により, PMC法よりも高い単語正解精度が得られた.一般社団法人電子情報通信学会, 2000年12月14日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 100(520) (520), 19 - 24, 日本語
- 音声認識精度向上のための信頼度尺度の比較本報告では, 高精度な音声認識を目的とし, ワードグラフから算出される種々の信頼度尺度(Confidence Measure)について比較検討を行った.信頼度尺度の算出法としては, ワードグラフ中の候補数に基づくものや, 単語事後確率に基づくものについて検討した.本研究では, 信頼度とワードグラフの再構築を行う繰り返しデコーディング法においてそれらを実装し, 新聞記事読み上げディクテーションタスクにて評価を行った.一般社団法人電子情報通信学会, 2000年12月14日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 100(520) (520), 113 - 118, 日本語
- 2000年09月01日, 日本音響学会研究発表会講演論文集, 2000(2) (2), 119 - 120, 日本語実環境下での話者認識におけるPMC法の効果について
- 2000年09月01日, 日本音響学会研究発表会講演論文集, 2000(2) (2), 123 - 124, 日本語雑音の時間変動を考慮にいれた雑音除去法の検討
- 2000年09月01日, 日本音響学会研究発表会講演論文集, 2000(2) (2), 139 - 140, 日本語ニュース音声に対するパッセージ検索法の比較
- 2000年09月01日, 日本音響学会研究発表会講演論文集, 2000(2) (2), 71 - 72, 日本語信頼度に基づく繰り返しデコーディングによる音声認識
- 文字と音声メディアの統合によるビデオ映像の構造化ビデオ映像データベースを構造化するためには、予めビデオ映像を内容毎に分割(トピックセグメンテーション)しておく必要がある。そこで、本報告ではトピックセグメンテーションに対する検討を行った。従来のトピックセグメンテーションでは、予め大量の学習データが必要であった。しかし、ニュースデータは時々刻々と変化しているため、テストデータと学習データの時期差の問題やトピックの分布差の問題が生じ、精度が悪くなるという問題点があった。本研究では、それらの問題点を解決するために、テロップ文字が出現した区間の情報と、音声をトランスクリプションした結果の情報を統合することによって、テストデータから直接、異なる単語間の距離を学習する方法を提案する。更に、計算した単語間の距離を基に、トピックセグメンテーションを行うことにより、その有効性を確認した。Video image must be beforehand segmented into indivisual topic for its organization. In this paper, we study on automatic topic segmentation. Conventional topic segmentation techniques require large amount of training data changing everyday. But this is really impossible, because time difference and topic distribution difference occur between training data and test data. To solve these problems, we propose a method of word space learning by integrating the information of telop appearing sections with speech transcription in this paper. Its effectiveness was shown by carrying out topic segmentation based on the method of word space learning.一般社団法人情報処理学会, 2000年07月26日, 情報処理学会研究報告データベースシステム(DBS), 2000(69) (69), 377 - 382, 日本語
- 文字と音声メディアの統合によるビデオ映像の構造化ビデオ映像データベースを構造化するためには、予めビデオ映像を内容毎に分割(トピックセグメンテーション)しておく必要がある。そこで、本報告ではトピックセグメンテーションに対する検討を行った。従来のトピックセグメンテーションでは、予め大量の学習データが必要であった。しかし、ニュースデータは時々刻々と変化しているため、テストデータと学習データの時期差の問題やトピックの分布差の問題が生じ、精度が悪くなるという問題点があった。本研究では、それらの問題点を解決するために、テロップ文字が出現した区間の情報と、音声をトランスクリプションした結果の情報を統合することによって、テストデータから直接、異なる単語間の距離を学習する方法を提案する。更に、計算した単語間の距離を基に、トピックセグメンテーションを行うことにより、その有効性を確認した。一般社団法人電子情報通信学会, 2000年07月21日, 電子情報通信学会技術研究報告. DE, データ工学, 100(228) (228), 1 - 6, 日本語
- 信頼度を組み込んだデコーディングによる音声認識の検討本報告では,高精度な音声認識を目指し,単語レベルの信頼度(Confidence Measure)を組み込んだデコーディング法について検討し,その評価を行う.ベースとなるデコーダーは2パスの構成をとっており,中間結果としてワードグラフを出力する.信頼度は,ワードグラフをもとに算出し,ワードグラフのリスコアリングによってその効果を調べた.また,本研究では,信頼度を組み込んだ探索法,及びワードグラフの再構築を行う繰り返しデコーディング法を提案する.提案する繰り返しデコーディング法を,新聞記事読み上げディクテーションタスクにて評価を行い,その有効性を確認した.In this paper, we study on a confidence based decoding method for improved speech recognition, and evaluate it. A word graph is constructed as an intermediate result in our 2-pass decoder. Confidence values are calculated from the word graph, and evaluated in word graph rescoring. In this study, we propose an iterative decoding method incorporating a confidence based search and word graph reconstruction. We evaluated the proposed method in LVCSR task. As a result, a slight improvement was observed in terms of the word accuracy compared to the standard 2-pass method.一般社団法人情報処理学会, 2000年07月14日, 情報処理学会研究報告音声言語情報処理(SLP), 2000(64) (64), 1 - 6, 日本語
- 映像の時空間分割とネットワーク表現による動物体抽出システムの検討本稿では動物体が時空間上に持つ連続性に着目した新しい動物体抽出法を提案する。ここでは、従来の動物体の抽出法では解決が困難とされている次の三点の問題、(1)オブジェクトのモデルを持たずに、動きのまとまりとして一貫性のある物体を抽出すること、(2)実用的な計算量であること、(3)動物体の重なりによって生じる隠蔽を検出し、その状況下でも頑健に追跡・抽出すること、の解決を目標としている。本方式は、まずヒストグラム特徴を累積しつつビンクラスタリングのモデルを動的に更新することで入力画像に適応した等色線情報を抽出する。次に、その等色線によって分割される時空間的に連続した各領域を、動きベクトルをキーとして統合することにより、動物体を抽出・追跡しようとするものである。一般社団法人電子情報通信学会, 2000年07月07日, 電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎, 100(184) (184), 61 - 66, 日本語
- ニュース音声記事データベースにおける観点の自動抽出と構造化近年、放送の多チャンネル化により、多くのニュース番組が放映されるようになった。このような状況においては、視聴者側には興味のあるニュースだけを見たいという要求が生じてくる。この要求を満たすためには、視聴者が見たいと思う内容に関連するニュースを検索するシステムが必要である。従来の研究では、視聴者の検索質問に対して、適切と思われるニュース記事の集合を提示する検索方法だけが研究されてきた。従って、視聴者が明確な言葉で検索質問を与えられない場合には、興味のあるニュースを効率よく検索することが困難であった。この問題点を解決するために、本研究では、ニュース音声記事集合から観点を自動抽出し、抽出された観点によってデータベースを自動分類することでデータベースを構造化し、ニュース内容を視聴者にわかりやすい形で提示することのできるシステムの提案を行う。実験の結果、視聴者が検索質問を明確な言葉で表現できないときの検索支援システムとして有効であることがわかった。一般社団法人電子情報通信学会, 2000年05月02日, 電子情報通信学会技術研究報告. DE, データ工学, 100(31) (31), 89 - 96, 日本語
- 2000年03月01日, 日本音響学会研究発表会講演論文集, 2000(1) (1), 43 - 44, 日本語back-off接続を考慮した大語彙連続音声認識の高速化
- 2000年03月01日, 日本音響学会研究発表会講演論文集, 2000(1) (1), 61 - 62, 日本語音声ディクテーションの誤りを考慮した検索方式の検討
- 2000年03月01日, 日本音響学会研究発表会講演論文集, 2000(1) (1), 97 - 98, 日本語部分空間法を用いた話者照合における動的・静的特徴統合 -部分空間次元数の事前設定の検討-
- 2000年03月01日, 日本音響学会研究発表会講演論文集, 2000(1) (1), 5 - 6, 日本語雑音環境下での音声認識を目的とした高速カルマンフィルタによる雑音除去法の提案
- Lexical tree search における探索ネットワーク構造の検討本報告では、大語彙連続音声認識における探索アルゴリズムであるLexical tree searchにおいてより効率的なネットワーク構造を提案し、比較実験を通してその評価を行う。まず、Lexical tree searchにおける問題点を、処理時間やメモリー量の点から述べ、それを解決する方法について検討する。また、探索中において、あるフレーム中で最大スコアを持つ単語にのみback-off接続を行うという方法を提案し、その有効性を示す。実験結果として、提案手法により、通常のback-off接続の場合より認識精度を落すことなく、全体の処理時間を半分以下にすることができた。一般社団法人電子情報通信学会, 2000年01月21日, 電子情報通信学会技術研究報告. SP, 音声, 99(577) (577), 35 - 40, 日本語
- カルマンフィルタによる雑音除去法を用いた 雑音環境下での音声認識本報告では、雑音環境下音声認識の前処理を想定したカルマンフィルタによる雑音除去法を提案する。従来、カルマンフィルタは膨大な計算量を要するため、実時間向けの処理にはあまり使用されていなかった。そこで本研究では、大幅に計算量を削減した高速カルマンフィルタを用いることにより、ほとんど精度を低下させることなく実時間の1.5∼2.0倍での処理を実現した。提案手法の評価のために雑音重畳音声から抽出されたクリーン音声を用いて単語認識実験を行い、従来のSpectral Subtraction法及びParallel Model Combination(PMC)法との単語認識精度の比較を行った。その結果、提案手法により雑音によってはPMC法と同等かそれ以上の単語認識精度を得ることができた。In this paper, we propose a noise reduction method based on Kalman filter for noisy speech recognition. Since Kalman filter needs a huge quantity of computation, it was never used for real time processing. We propose a noise reduction method using fast Kalman filter which can reduce a large quantity of computation and achieve processing in 1.5∼2.0 times of real time, without loosing the accuracy. In order to evaluate the proposed method, we carried out experiments to extract clean speech signal from noisy speech and compared the results by our method with conventional Spectral Subtraction and Parallel Model Combination (PMC) in word recognition accuracy. As a result, the proposed method obtained word recognition rate equal or superior to PMC.一般社団法人情報処理学会, 1999年12月20日, 情報処理学会研究報告音声言語情報処理(SLP), 1999(108) (108), 73 - 78, 日本語
- ニュース音声に対する検索方法の比較近年、放送の多チャンネル化により、多くのニュース番組が放映されるようになった。これを受けて、視聴者側には知りたいニュースだけを見たいという要求が生じている。この要求に対応するには、トピックセグメンテーションや検索などの機能を持つ、ニュースデータベースを構築する必要がある。本研究では、その中からニュース音声に対する記事検索について検討を行った。ニュース音声を対象とする場合、音声認識における単語の湧き出しや欠落が問題となり、従来の単語重要度決定方法やベクトル空間法では対処することができない。この問題点を解決するために本研究では、単語重要度決定方法ではTF-IDFを考慮した相互情報量、ベクトル空間法では単語空間に基づく方法を提案し、良好な結果を得たので報告する。一般社団法人電子情報通信学会, 1999年12月20日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 99(523) (523), 97 - 102, 日本語
- メディア解析から見たパターン認識ディジタル化によって,今後膨大なマルチメディア情報が配信される.人間が知的活動を行うためには,このディジタル化されたマルチメディア情報に,高速にアクセスしたい.このためには,音声や音響信号,文字,映像といったメディアを解析する技術を集結し,マルチメディア情報を構造化して,索引付けしておく必要がある.本稿では,音声に対してディクテーションを行い,トピックを検出する方法,話者や楽曲を検索する手法,音響信号を高速に検索する手法について,それが必要とされる状況を中心に述べる.また,映像に対して,カット検出やカメラワークにより構造化する手法,動作認識やイベント検出を行う方法,映像を要約したりハンドリングする手法についても,それが必要とされる状況を中心に述べる.一般社団法人電子情報通信学会, 1999年12月16日, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, 99(514) (514), 43 - 50, 日本語
- 1999年09月01日, 日本音響学会研究発表会講演論文集, 1999(2) (2), 31 - 32, 日本語カルマンフィルターを用いた雑音環境下における音声認識の検討
- アナウンサー発話の自動抽出とディクテーションによるニュース記事分類ビデオ・オン・デマンドを目指したニュースデータベースを構築するには ニュース記事を分類しておく必要がある. 本論文では ニュース音声に対してディクテーションを行い キーワードを抽出することにより 自動的に記事分類を行う手法を提案している. ニュース記事を分類するには 記事中のキーワードと分類分野との関係をもとに分類を行う. このためχ^2法によりキーワードを自動選択し キーワードと分類分野との関連度を求め 記事分類を行っている. 記事を分類するうえでは アナウンサーの発話区間のみをディクテーションすれば十分であり 処理時間の短縮につながる. しかし 人手でニュース音声中からアナウンサーの発話区間を切り出すのは現実的ではない. そこで 本論文では 話者照合に基づきアナウンサーの発話区間のみを自動的に抽出する方法を提案している. NHK5分間のニュース48記事に対して アナウンサーの発話区間を自動抽出し この区間に対してディクテーションして 記事を自動的に分類する実験を行った. その結果 分類精度を下げることなく処理時間を短縮できることを確認した.In order to construct a news database with a function of video on demand (VOD), it is required to classify news articles into topics. In this paper, we propose a system which can automatically dictate news speech, extract keywords and classify news articles into topics based on the extracted keywords. We employed χ^2 method to select keywords and to compute the association degree between keywords and topics. We also propose to dictate only the announcer utterance for classifying the news articles because it contributes to save the dictation time. In order to segment the announcer speech section from other speakers, we propose a speaker verification method based on subspace method. For 48 NHK news articles, we carried out the extraction of announcer utterance, speech dictation and article classification. As a result, we reduced the dictation time by restricting the dictation to the announcer utterance without losing the classification accuracy.一般社団法人情報処理学会, 1999年04月15日, 情報処理学会論文誌, 40(4) (4), 1482 - 1490, 日本語
- 一般社団法人電子情報通信学会, 1999年03月08日, 電子情報通信学会総合大会講演論文集, 1999(1) (1), 255 - 255, 日本語D-14-34 改良HMM合成法を用いた雑音重畳音声の認識における性能向上について
- 1999年03月01日, 日本音響学会研究発表会講演論文集, 1999(1) (1), 171 - 172, 日本語ニュース音声に対する教師なしトピックセグメンテーションにおける単語重要度決定方法の比較
- Organization and Retrieval of Video DataThis paper focuses on the problems how to organize and retrieve video data in an effective manner. First we identify several issues to be solved for the problems. Next, we overview our current research results together with a brief survey in the research area of video databases. We especially describe the following research results obtained by the the Japanese Ministry of Education under Grant-in-Aid for Scientific Research on Priority Area: "Advanced Databases" concerned with organization and retrieval of video data: Instance-Based Video Annotation Models, Self-Organization of Video Data, and A Query Model for Fragmentally Indexed Video.一般社団法人電子情報通信学会, 1999年01月25日, IEICE transactions on information and systems, 82(1) (1), 34 - 44, 英語
- 音声単語スポッティングに基づくテレビニュース記事の自動分類多くのテレビニュース番組の中から, 最も知りたいニュースだけを見たいといった要求を満たすためには, ニュース記事からキーワードを抽出し, これをもとに, ニュース記事を政治や経済といったトピックに分類することのできるニュースデータベースが必要である. 本論文では, ニュースキャスタの音声に対して単語スポッティングを適用し, 記事内容に関するキーワードを自動抽出して, テレビニュース記事をトピックに自動分類する方法を提案している. 音声からキーワードを抽出する方法としては, これまでに提案されているいくつかの音声単語スポッティングの方法を理論的に比較するとともに比較実験を行い, わき出しが少なくかつ処理時間の短い方法を採用した. 記事分類では, キーワードとトピックの関係を記述した「分類表索引」を用いて, キーワードのトピックに対する寄与率を計算しておく. これと音声単語スポッティングで求めたキーワードの存在確率を掛け合わせることで, 記事の分類確率を計算し, 最大の分類確率をもつトピックに分類している. NHKニュース26日分に本手法を適用し, 記事分類の有効性を確認した.一般社団法人電子情報通信学会, 1999年01月, 電子情報通信学会論文誌. D-1, 情報・システム 1-コンピュータ, 82(1) (1), 223 - 233, 日本語
- KL変換に基づく音声特徴抽出の検討HMMを用いた音声認識システムでは、音声特徴量としてスペクトラムやケプストラム等の静的な特徴量が広く用いられている。この静的特徴量は、スペクトル包絡に音韻性があると考える音声認識の根底をなすものである。しかしこれまで、スペクトル包絡の情報のみを特徴量とし、スペクトラムの時間的な遷移の表現を全てHMMに委ねるアプローチには、自ずと限界がある事が指摘され続けてきた。そのため、静的特徴量だけでなく、その特徴量の時間的変化を直接表現しようとする動的特徴量が広く用いられているが、静的特徴量と動的特徴量の様々な組合せがもつ長所と短所については、十分に議論されてきたとは言い難い。本報告では、スペクトル領域でのデルタ拡張とKL変換による新しい音声特徴抽出を提案するとともに、音声特徴量を動的特徴量の視点から再検討し、それらの特徴量を、音素認識と大語粟連続音声認識における認識性能で比較することで、提案手法の有効性を実験的に示した。This paper presents a new feature extraction method of speech recognition based on KLT. We examined a new feature extraction method and some other feature extraction methods classified into "dynamic feature extraction method". In this study, we found to improve the recognition performance with our new feature extraction method.一般社団法人情報処理学会, 1998年12月10日, 情報処理学会研究報告音声言語情報処理(SLP), 1998(114) (114), 159 - 166, 日本語
- ニュース音声に対するトピックセグメンテーションと分類ビデオ・オン・デマンドを目指したニュースデータベースを構築するには、ニュース記事を話題(トピック)毎に分類する必要がある。しかし、従来の記事分類方法は、予め、記事内容毎に分割された記事を対象に行っていた。このため、ニュース記事のように複数の記事が連続していく、その記事境界が未知である場合には、そのままでは適用することができなかった。そこで、本研究では、連続ニュース音声におけるトピック分類手法(トピックセグメンテーション)を提案する。一般社団法人電子情報通信学会, 1998年12月10日, 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション, 98(460) (460), 55 - 62, 日本語
- 多重部分空間法に基づくテレビスポーツニュース映像の自動分類スポーツニュースのような映像では, カメラ位置の制約などから, 画像内に映る対象の位置などに制約がある.従って, 特定のスポーツを特徴づける代表的な画像が存在し, それをもとにスポーツニュースの記事を, テニスや野球といったスポーツカテゴリーに分類することができる.本研究では, 画像上の物理的なオブジェクトを明確に認識することなく, シーンの構図に関する全体的な特徴をもとに, スポーツニュース記事を分類する手法を提案している.分類手法として多重部分空間法を用い, 98.6%の記事分類率を得た.一般社団法人電子情報通信学会, 1998年09月, 電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理, 81(9) (9), 2112 - 2119, 日本語
- 1998年09月01日, 日本音響学会研究発表会講演論文集, 1998(2) (2), 157 - 158, 日本語ニュース音声に対するトピックセグメンテーションの検討
- 1998年09月01日, 日本音響学会研究発表会講演論文集, 1998(2) (2), 121 - 122, 日本語統計的スペクトル分析による音声特徴抽出の検討
- 1998年09月01日, 日本音響学会研究発表会講演論文集, 1998(2) (2), 111 - 112, 日本語部分空間法による話者照合
- ニュース音声の記事分類における キーワード選択法の比較ビデオ・オン・デマンドを目指したニュースデータベースを構築するには、ニュース記事を話題(トピック)毎に分類する必要がある。本研究ではニュースを分類する際に必要となるキーワードについて、代表的なキーワード選択法であるχ^2値、相互情報量、TF-IDF等について特質を比較した。また、得られたキーワードを分類の際にどう使えば分類率が良くなるかについても比較、検討を行った。In order to construct a news database with a function of video on demand (VOD), it is required to classify a news articles into topics. In this study, we implemented and compared keyword selection methods such as χ^2, mutual information and TF-IDF. These selected keywords are used to classify the articles after news speech dictation. Further more we compared the classification methods which use the selected keywords.一般社団法人情報処理学会, 1998年07月24日, 情報処理学会研究報告音声言語情報処理(SLP), 1998(68) (68), 75 - 82, 日本語
- ニュース記事分類におけるディクテーションとワードスポッティングの比較ビデオ・オン・デマンドを目指したニュースデータベースを構築するには、ニュース記事を話題(トピック)毎に分類する必要がある。ニュースは、内容を伝える音声、内容をまとめる文字、状況を伝える映像といったメディアで構成されているので、記事を分類するには、キーワードを抽出する処理が必要不可欠である。ここでは、抽出したキーワードの存在確率と、トピックに対する寄与率を基に記事分類を行なう。本報告では、ニュース音声からキーワードを抽出する手法として、ディクテーションとワードスポッティングの2つの手法を実装し、磁気分類の精度について比較する。一般社団法人電子情報通信学会, 1998年06月12日, 電子情報通信学会技術研究報告. SP, 音声, 98(106) (106), 67 - 72, 日本語
- 自動抽出されたアナウンサー発話に対する ニュースディクテーションと記事分類ビデオ・オン・デマンドを目指したニュースデータベースを構築するには、ニュース記事を分類しておく必要がある。本研究では、ニュース音声に対してディクテーションを行ない、キーワードを抽出することにより、自動的に記事の分類を行なう。記事を分類する上では、アナウンサーの発話区間のみをディクテーションすれば十分であり、処理の短縮にもつながる。しかし、人手でニュース音声中からアナウンサーの発話区間を切り出すのは現実的ではない。そこで、本研究では、アナウンサーの発話区間のみを自動的に抽出した場合と、レポータなどを含めた場合に対するディクテーションを行ない、記事の分類精度の比較を行なう。In order to construct a news database with a function of video on demand (VOD), it is required to classify a news articles into topics. In this study, we describe a system which can dictate news speech, extract keywords and classify news articles based on the extracted keywords. We propose that it is sufficient to dictate only the announcer utterance for classifying the news articles and it contributes to reduce the processing time and increases the classification accuracy. As an experiment, we compared the classification performance of news articles between in two cases; in the case of dictating only the announcer utterances which are automatically extracted and in a case of dictating a whole speech which includes reporter or interviewer utterances.一般社団法人情報処理学会, 1998年05月28日, 情報処理学会研究報告音声言語情報処理(SLP), 1998(49) (49), 55 - 60, 日本語
- 一般社団法人電子情報通信学会, 1998年03月06日, 電子情報通信学会総合大会講演論文集, 1998(2) (2), 236 - 236, 日本語文字切り出しの改善によるテロップ文字認識の精度向上
- 一般社団法人電子情報通信学会, 1998年03月06日, 電子情報通信学会総合大会講演論文集, 1998(2) (2), 338 - 338, 日本語方位に依存しない複数顔切り出しにおける精度向上
- 1998年03月01日, 日本音響学会研究発表会講演論文集, 1998(1) (1), 151 - 152, 日本語単語bigramを用いた日本語ニュースディクテーションによる記事分類
- 1998年, ACCV 97Human information retrieval by face extraction and recognition on TV news images by subspace method
- 部分空間射影による顔領域の追跡と学習大量の映像に対して索引付けを行うには, できるだけ人手を介すことなく自動的に行えることが望ましい. 映像データベースの中でも, 人物が写っている映像を対象とした場合, 映像中に現れる人物の情報を索引として付与することは, 内容検索をする際に重要である. 本研究では, 索引付けしたい人物の顔モデルを, 与えられた映像から自動的に構築するために, 映像中の顔領域を追跡しながら学習に最適なフレームを選択する手法を提案する.一般社団法人電子情報通信学会, 1997年11月21日, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, 97(387) (387), 77 - 82, 日本語
- DCT特徴のクラスタリングに基づくニュース映像のカット検出と記事切出し本論文では, ニュース映像から個々の記事を自動的に切り出す方法を提案している. ニュース映像の各フレームを, 離散余弦変換(DCT)で圧縮し, このとき得られるDCT特徴でシーンカットを検出する. カット検出の従来法では, 隣接するフレーム間の差分をもとにしているため, 画像の一部または全体の明るさが変化する場合に, 誤検出が生じていた. 本研究では, 同一シーン中の連続するフレームは類似しているという性質に基づいて, ニュース映像中のフレームをクラスタリングすることによって, この問題を解決している. ニュース映像は「スタジオから現場に移りスタジオに戻る」というシンタックス上の構造をもっている. この構造は, 検出したカット点フレーム集合においては, ループとして観測されるため, ループ検出によってスタジオを推定し, 記事を切り出している. NHKのニュース30日分に対して実験を行い, カット検出率87.9%, 記事切出し率99.2%を得た. また, 民放3社のニュース10日分に対して, 記事切出し実験を行いその有効性を示した.一般社団法人電子情報通信学会, 1997年09月25日, 電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理, 80(9) (9), 2421 - 2427, 日本語
- 話者部分空間の入れ替えによる声質変換本論文では, 音声に含まれる話者性と音韻性を分離し, その結果得られる話者部分空間を, 他者の話者部分空間と入れ替えることにより, 自由な発話に対する声質変換の手法を提案する. 基準となる話者と入力話者の部分空間は, 正準相関分析により軸相関が最大となるように構成する. このとき, 話者部分空間の入れ替えにより音声が合成されるよう, 入力話者の部分空間の各軸を直交化しておく. すなわち, 直交正準相関分析を行っている. 音声の分析系では, スペクトルの極零特性を忠実に表現するパワースペクトル包絡(PSE)特性分析法を用い, 音声の合成系では, インパルス応答波形重畳合成法を用いることにより, 変換音声の音質向上をはかっている.一般社団法人電子情報通信学会, 1997年06月19日, 電子情報通信学会技術研究報告. SP, 音声, 97(114) (114), 17 - 24, 日本語
- サイエンス社, 1997年05月, Computer today, 14(3) (3), 34 - 39, 日本語動画像デ-タベ-ス:内容記述とコンテンツによる構造化 (特集 デ-タベ-ス研究最前線--高度デ-タベ-スプロジェクト)
- 1997年03月01日, 日本音響学会研究発表会講演論文集, 1997(1) (1), 265 - 266, 日本語話者空間の変換による声質変換
- 1997年03月01日, 日本音響学会研究発表会講演論文集, 1997(1) (1), 23 - 26, 日本語部分空間射影による話者正規化と認識
- 正規化複数特徴部分空間法による顔認識と話者認識の統合本論文では、部分空間法の古典的な手法であるCLAFIC法を改良した修正CLAFIC法を提案している。この修正CLAFIC法は部分空間の原点を全データの平均位置に移動するため、データのばらつきをよく表現できるようになり、部分空間の分離が期待できる。この手法により顔及び話者認識を行ない、その有効性を示した。また、顔及び話者認識を正規化複数特徴部分空間法により統合した。この手法は、特徴量をベクトルという形で表すことができれば、各特徴量を独立に扱うことができる。正規化複数特徴部分空間法による統合実験により、この手法の有効性を確認した。一般社団法人電子情報通信学会, 1996年06月28日, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, 96(141) (141), 31 - 38, 日本語
- 部分空間法を用いた向きによらない顔の切り出しと認識本論文では部分空間法を用いることにより、顔の向きによらず顔認識を行なう手法について述べる。これは、顔画像集合をKL展開して固有ベクトルを求め、この固有ベクトルが張る部分空間により個人の顔画像を表現する方法である。個人ごとの顔部分空間の学習には、右横顔から左横顔まで180度の範囲で撮影した顔画像を用いる。この際、撮影の角度幅を5度おき、 10度おき、 15度おきと変化させて実験を行ない、学習に必要な顔画像の枚数と認識率の関係を調べた。また、学習する部分空間の数を1つ(全方向)、 3つ(右、正面、左)設定した場合について顔の認識率を比較した。この顔部分空間を用いて顔領域の切り出しを行ない、顔領域の切り出しと認識を統合して評価した。一般社団法人電子情報通信学会, 1996年, 信学技報, 95, 7 - 14, 日本語
- 手書き漢字文字認識のための多重部分空間法について手書き文字認識では、今までに統計的手法やニューラルネットを用いた手法などが提案されている。ニューラルネットを用いた手法では、分類カテゴリー数が多くなると学習に時間がかかるといった問題点がある。本研究では、学習時間や学習の収束性を気にしなくてよい部分空間法を手書き文字の認識に適用している。従来、部分空間法では各カテゴリーに一つの部分空間を設定していた。今回、1カテゴリーあたりの部分空間を複数個に設定することにより、分類能力を上げることができたのでその結果を報告する。本稿では、一つのカテゴリーに複数個の部分空間を設定するという意味で、本手法を多重部分空間法と呼んでいる。一般社団法人電子情報通信学会, 1994年, 信学'94秋大, 312, 312 - 312, 日本語
- 1994年, ICSLP94Speaker Recognition based on Subspace Methods
- Japan Acoustical Society of Japan, 1993年, Journal of the Acoustical Society of Japan (E), 14(4) (4), 279 - 280, 英語二段階遷移混合分布型HMM
- INSTITUTION FOR PHONETIC SCIENCES UNIVERSITY OF KYOTO, 1993年, 音声科学研究 = Studia phonologica, 27, 55 - 65, 英語Phoneme Recognition Improvement in Concatenated HMM Training
- 電子情報通信学会情報・システムソサイエティ, 1992年12月25日, 電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers, 75(12) (12), 1933 - 2001, 日本語HMMを用いた英語の音素認識による継続時間長の効果
- 共編者(共編著者), I-Tech Education and Publishing, 2014年02月, 英語, In this chapter, we introduce the concept of an active microphone that achieves a good combination of active-operation and signal processing. The active microphone has a parabolic reflection board, which is extremely simple in construction. The reflector and its associated microphone rotate together, perform signal processing, and seek to locate the direction of the sound source., ISBN: 9789535112266Evaluation of an Active Microphone with a Parabolic Reflection Board for Monaural Sound-Source-Direction Estimation (Chapter on Soundscape Semiotics - Localisation and Categorisation. Book edited by Hervé Glotin)学術書
- 共著, オーム社, 2013年01月, 日本語, ISBN: 9784274213052ディジタル信号処理教科書・概説・概論
- 共著, Intech Open Publisher, 2011年03月, 英語Single-Channel Sound Source Localization Based on Discrimination of Acoustic Transfer Functions, Chapter on "Advances in Sound Localization" Book edited by Powel Strumillo学術書
- 共著, I-Tech Education and Publishing, 2010年02月, 英語Video Editing Based on Situation Awareness from Voice Information and Face Emotion, Chapter on "Digital Video." Book edited by Floriano De Rango.学術書
- 共著, I-Tech Education and Publishing, 2009年10月, 英語3D Human Posture Estimation Using HOG Features of Monocular Images, Chapter on "Pattern Recognition." Book edited by Peng-Yeng Yin.学術書
- 共著, I-Tech Education and Publishing, 2008年11月, 英語System Request Utterance Detection Based on Acoustic and Linguistic Features学術書
- 共著, I-Tech Education and Publishing, 2007年, 英語Voice and Noise Detection with AdaBoost学術書
- 共著, Ohmsha, 2005年, 英語Spoken Language Systems学術書
- 共著, 岩波書店, 2000年03月, 日本語, ISBN: 4000109685情報の構造化と検索 (岩波講座マルチメディア情報学; 第8巻)学術書
- 共著, オーム社, 1999年06月, 日本語, ISBN: 427413184X情報メディア工学教科書・概説・概論
- 共著, 電子情報通信学会, 1994年03月, 日本語, ISBN: 488552119Xパターン認識・理解の新しい展開に向けて学術書
- 共著, Edinburgh University Press, 1990年09月, 英語Hidden Markov Models for Speech Recognition学術書
- 第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議物体振動を用いた畳み込みニューラルネットワークによる音源復元ポスター発表
- 第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議ハイスピードカメラ画像を用いた唇動画像からの音声生成ポスター発表
- 第21回画像の認識・理解シンポジウム, 2018年, 日本語, 国内会議Knowledge graph embeddings for Zero-Shot Learningポスター発表
- 第20回画像の認識・理解シンポジウム, 2017年, 日本語, 国内会議災害応急対策支援を目的とした衛星画像の被覆分類精度向上についてポスター発表
- 第20回画像の認識・理解シンポジウム, 2017年, 英語, 国内会議Automation of hospital patients’ leftover food quantity estimationポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 日本語, 電子情報通信学会, 浜松, 国内会議没入型バーチャルリアリティ空間における足元知覚の計測システムの開発ポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議衛星画像解析と地図情報の統合による被害状況地図の作成ポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議映像中の変動の大きな物体に対する音源復元のための物体振動抽出手法の検討ポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 英語, 国内会議SIFT Boosting for Handwriting Recognitionポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 英語, 国内会議Object-Based Geo-Eye Satellite Image Segmentation for Tsunami Disaster Map Preparationポスター発表
- 画像の認識・理解シンポジウム, 2016年08月, 日本語, 国内会議Convolutional Neural Networksを用いた物体の機能推定ポスター発表
- 日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換口頭発表(一般)
- 日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換口頭発表(一般)
- 日本音響学会2015年春季研究発表会, 2015年03月, 日本語, 国内会議Deep Boltzmann Machine を用いた音素ラベル情報推定口頭発表(一般)
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議色名顕著性による物体特定ポスター発表
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議色特徴を用いた追い抜き車両の特定ポスター発表
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議アノテーションに基づくDeformable Part Modelによる顔部品検出ポスター発表
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議Modeling Deep Bidirectional Relationships for Image Classification and Generationポスター発表
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議Deformable Part Modelを用いた物体の機能推定ポスター発表
- 画像の認識・理解シンポジウム, 2015年, 日本語, 国内会議Convolutional Bottleneck Networks を用いた重度難聴者のマルチモーダル音声認識ポスター発表
- 画像の認識・理解シンポジウム, 2015年, 英語, 国内会議A Robust Multi-classification Algorithm Using Learning SURF Cascade for Emotional Recognitionポスター発表
- 日本音響学会2014年秋季研電子情報通信学会技術研究報告究発表会, 2014年12月, 日本語, 国内会議話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討口頭発表(一般)
- 日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議話者適応を用いたNMFによる雑音環境下の声質変換口頭発表(一般)
- 日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換口頭発表(一般)
- 日本音響学会2014年秋季研究発表会, 2014年09月, 日本語, 国内会議遺伝的アルゴリズムを用いた 構音障害者の音声特徴量抽出に最適なランダム行列の生成口頭発表(一般)
- 電子情報通信学会技術研究報告, 2014年05月, 日本語, 国内会議スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine口頭発表(一般)
- 情報処理学会東海支部主催講演会, 2014年03月, 日本語, 情報処理学会東海支部, 豊橋, 音声・画像処理の共通点と統合・変換処理について述べる., 国内会議音声・画像処理の共通点と統合・変換処理について[招待有り]口頭発表(招待・特別)
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議物体の機能発現を可能とする属性情報の抽出ポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議視覚障碍者の歩行支援のための交差点上の歩行者位置・進行方向推定ポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議ボールと選手のHMMを統合したサッカー映像のイベント認識ポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議Web画像を用いた一般物体認識と指示発話の音声認識を統合した物体選択法ポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議The Level of Skill Model for Piano Performance:Analyzing Gaze on Music Videosポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議Modeling Context of Pedestrian and Background in Pedestrian Detectionポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議A Robust Learning Algorithm Based on SURF and PSM for Facial Expressions Recognitionポスター発表
- 画像の認識・理解シンポジウム, 2014年, 日本語, 国内会議AAMによる顔方位に依存しない連続発話認識ポスター発表
- 画像の認識・理解シンポジウム, 2013年08月, 日本語, 国内会議人検出のためのDifference of Gaussianに基づくHOG特徴量選択ポスター発表
- 画像の認識・理解シンポジウム, 2013年08月, 日本語, 国内会議Accurate Vehicle Localization using Flow Estimation for Navigation Systemポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では,物体の画像パターン認識ではなく,物体の機能に基づいた認識について研究を行う., 国内会議物体の機能に基づく認識ポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では,世界的に人気のあるスポーツであるサッカーにおけるイベント検出手法を提案する.ここでのイベントとは,サッカーの試合における,ゴールキックやコーナーキック,ゴールといったアウトオブプレーを指す., 国内会議サッカー映像におけるホイッスル音声情報を利用した イベント検出ポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In our proposed approach, the overall object shape is captured by the depth spatial pyramid based on depth information. In more detail, multiple features within each sub-region of the depth spatial pyramid are pooled. As a result, the feature representation including the depth topological information is constructed. We use not only SIFT, but also histograms of oriented normal v, 国内会議RGB-D based 3D-Object Recognition by LLC using Depth Spatial Pyramidポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In this paper, instead of the manual construction, we propose an automatic image model construction method for object recognition using Web images. The effectiveness of the proposed method is verified in the object recognition by integrating speech and image features., 国内会議Object Recognition by Integrated Information Using Speech and Web Imagesポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel image classification approach, Locality-constrained Linear Coding with codebook on codebooks. The fl ow of our proposed method is, i) generate a class codebook from each class using local descriptors of the class, ii) generate a global codebook based on class codebooks, and iii) encode local descriptors to codes with LLC based on the global cod, 国内会議Image Classification Based on CodeBook on CodeBooksポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, One of the most crucial techniques associated with Computer Vision is technology that deals with facial recognition, especially, the automatic estimation of human emotions. However, in real-time facial expression recognition, when a face turns sideways, the expressional feature extraction becomes difficult as the view of camera changes and recognition accuracy degrades signific, 国内会議Human Emotions Estimation Using Combination of 3D Average Face and LUT-AdaBoostポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 英語, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel super-resolution method using DBNs to restore the missing high-frequencies, motivated by the above-mentioned characteristics of DBNs. In our approach, a low-resolved image is first scaled up to the prescribed size by using bicubic interpolation, and the high-frequency information is estimated by inference of trained DBNs. The networks are train, 国内会議High-frequency Restoration using Deep Belief Nets for Super-resolutionポスター発表
- 第16回画像の認識・理解シンポジウム, 2013年07月, 日本語, 情報処理学会CVIM研究会, 東京, 本研究では,マルチモーダル連続発話音声認識において,AAMパラメータを用いた画像特徴量抽出手法を提案する., 国内会議AAMを用いた音声・画像による連続発話認識への構想ポスター発表
- 電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議単眼サッカー映像における時間状況グラフを用いた選手の3次元追跡ポスター発表
- 電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議視点移動カメラで撮影したサッカー映像中のボール追跡とイベント検出ポスター発表
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議使用履歴に基づくユーザー嗜好を考慮した POMDPによる音声対話システムポスター発表
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議構音障害者を対象としたSSMを用いた音声認識の検討ポスター発表
- 電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議学習画像の選択に基づくAAMの繰り返し適応ポスター発表
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討口頭発表(一般)
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議音響伝達特性を用いたシングルチャネル音源位置推定における未学習位置の推定口頭発表(一般)
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議スペクトルと韻律を特徴量とした GMMによる感情音声変換口頭発表(一般)
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議スパース表現に基づく構音障害者の発話スタイル変動にロバストな特徴量抽出ポスター発表
- 電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議Web画像を用いたカテゴリ別Visual Wordsによる一般物体認識ポスター発表
- 日本音響学会2012年春季研究発表会, 2012年03月, 日本語, 日本音響学会, 神奈川, 国内会議Random Projection を用いた構音障害者の音声認識ポスター発表
- 電子情報通信学会総合大会, 2012年03月, 英語, 電子情報通信学会, 岡山, 国内会議Human Emotions Estimation by Adaboost Based on User's Facial Expression and Average Face from Different Directionsポスター発表
- 日本音響学会2012年春季研究発表会, 2012年03月, 英語, 日本音響学会, 神奈川, 国内会議An AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic Activity口頭発表(一般)
- 電子情報通信学会総合大会, 2012年03月, 日本語, 電子情報通信学会, 岡山, 国内会議Age Estimation Based on Gaussian Process Regression of AAM Parameters Using Hollywood Databaseポスター発表
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議尤度最大化に基づくエコー推定を用いたマルチスピーカ音響エコーキャンセラの検討ポスター発表
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議未知語モデルを用いたCRFに基づく音声認識誤り訂正口頭発表(一般)
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議文脈特徴を用いたCRFによる音声認識誤り訂正ポスター発表
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究ポスター発表
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定口頭発表(一般)
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議スパース性基準によるF0 周波数選択を用いたSpecmurt による多重音解析口頭発表(一般)
- 第10回情報科学技術フォーラム, 2011年09月, 日本語, 情報処理学会, 函館, 国内会議3次元特徴量を用いた構造表現による一般物体認識口頭発表(一般)
- 日本音響学会2011年秋季研究発表会, 2011年09月, 日本語, 日本音響学会, 島根, 国内会議2ch マイクによるCSP 係数の識別に基づく話者の頭部方向の推定口頭発表(一般)
- 電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議固有空間法による構音障害者の母音声質変換の検討その他
- 日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議確率スペクトルを用いた基底生成モデルとNMFによる混合楽音解析ポスター発表
- 日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議音響伝達特性の判別に基づく単一チャネル音源位置推定におけるMKL-SVMを用いた特徴量重みの自動学習ポスター発表
- 日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議スパース性を考慮したSpecmurtによる多重音解析ポスター発表
- 電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識その他
- 日本音響学会2011年春季研究発表会, 2011年03月, 日本語, 日本音響学会, 東京, 国内会議CRFとConfusion Networkを用いた音声認識誤り訂正ポスター発表
- 電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議ARCOを特徴量とする顔検出の併用による人誤検出の棄却その他
- 電子情報通信学会総合大会, 2011年03月, 日本語, 電子情報通信学会, 東京, 国内会議2+3次元Active Appearance Modelを用いた視線方向推定その他
- 日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討口頭発表(一般)
- 日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議バイラテラルフィルタによる 雑音重畳音声の認識効果に関する検討ポスター発表
- 日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議NMFと基底モデルを用いた多重楽音解析ポスター発表
- 日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議MKLによる構音障害者の音声特徴量評価ポスター発表
- 日本音響学会2010年秋季研究発表会, 2010年09月, 日本語, 日本音響学会, 大阪, 国内会議Buried Markov Modelを用いた構音障害者の音声認識の検討ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議部分観測マルコフ決定過程を用いたカーナビゲーションシステムにおける音声対話ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議多重関数を用いた調波時間スペクトル形状のモデル化による音声合成ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議識別的言語モデルに基づくConfusion Network上での音声認識誤り訂正ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議残響適応パラメータを用いた単一チャネル音源位置推定の検討ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議雑音環境下音声認識のためのバイラテラルフィルタを用いた音声特徴量抽出ポスター発表
- 電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議階層的領域分割法に基づく木構造条件付確率場による一般物体認識口頭発表(一般)
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議ランダムプロジェクションを用いた音響モデルの線形変換ポスター発表
- 電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議ウェーブレット変換を用いた学習型の超解像口頭発表(一般)
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議PLSA による構音障害者の音素体系構築の検討ポスター発表
- 日本音響学会2010年春季研究発表会, 2010年03月, 日本語, 日本音響学会, 東京, 国内会議Buried Markov Model の構造構築における独立性検定法の検討ポスター発表
- 電子情報通信学会総合大会, 2010年03月, 日本語, 電子情報通信学会, 仙台, 国内会議3次元パーティクルフィルタとEMDを用いた選手の追跡口頭発表(一般)
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議話題追従型言語モデルについての考察口頭発表(一般)
- 情報処理学会平成21年度関西支部大会, 2009年09月, 日本語, 情報処理学会関西支部, 神戸, 国内会議複数特徴量の重み付け統合による一般物体認識口頭発表(一般)
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議多重ベータ分布を用いた音色形状の数理モデリングによる楽器音生成ポスター発表
- 第8回情報科学技術フォーラム, 2009年09月, 日本語, 情報処理学会など, 仙台, 国内会議人物の顔画像情報に基づくコンテンツの解析口頭発表(一般)
- 第8回情報科学技術フォーラム, 2009年09月, 日本語, 情報処理学会など, 仙台, 国内会議高精度画像マッチングを用いたSAR衛星画像からの地表変位推定口頭発表(一般)
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議局所特徴量を用いた構音障害者の音声認識の検討ポスター発表
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議Random Projection を用いた音声特徴量抽出におけるRandom Matrix の統合ポスター発表
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議HMMを用いた音響伝達特性の推定と音源位置推定ポスター発表
- 日本音響学会2009年秋季研究発表会, 2009年09月, 日本語, 日本音響学会, 郡山, 国内会議Buried Markov Model を用いた音声認識モデルの検討ポスター発表
- 情報処理学会平成21年度関西支部大会, 2009年09月, 日本語, 情報処理学会関西支部, 神戸, 国内会議Bottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定口頭発表(一般)
- 第60回全国水道研究発表会講演集, 2009年05月, 日本語, 社団法人 日本水道協会, 埼玉, 国内会議震災時の用水確保に向けた水道事業体と地域社会との協同のあり方~「緊急時の用水確保に対する研究会」の活動~口頭発表(一般)
- 第60回全国水道研究発表会, 2009年05月, 日本語, 日本水道協会, 埼玉, 国内会議震災時の用水確保に向けた水道事業体と地域社会との共同のあり方-「緊急時の用水確保に対する研究会」の活動-口頭発表(一般)
- 第60回全国水道研究発表会, 2009年05月, 日本語, 日本水道協会, 埼玉, 国内会議官民協働による緊急時の用水確保に向けた取り組み事例報告 ―「緊急時の用水確保に対する研究会」における実践的事例―口頭発表(一般)
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議尤度最大化基準を用いたエコー推定に基づく車室内マルチスピーカ音響エコーキャンセラの検討ポスター発表
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議複数特徴量の重み付け統合による一般物体認識口頭発表(一般)
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議複数の言語情報を用いたCRFによる音声認識誤りの検出ポスター発表
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議単眼動画像におけるボールと選手の3次元位置推定口頭発表(一般)
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議多重ベータ分布による音色形状モデルを用いた 多重楽音の解析ポスター発表
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議雑談中の潜在的話題遷移を考慮したユーザーの意図推定の検討ポスター発表
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議構音障害者の連続音声認識の検討ポスター発表
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議勾配ヒストグラムに基づく時間-周波数特徴を用いた単語認識ポスター発表
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討ポスター発表
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議位相限定相関法を用いたマイクロ波レーダからの地表変位推定口頭発表(一般)
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議ランダムプロジェクションを用いた音声特徴量抽出ポスター発表
- 日本音響学会2009年春季研究発表会, 2009年03月, 日本語, 日本音響学会, 東京, 国内会議パラボラ反射板による音響伝達特性の変化を用いたシングルチャネル音源方向推定ポスター発表
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定口頭発表(一般)
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議AAMのモデル選択による方位に頑健な不特定人物の顔表情認識口頭発表(一般)
- 電子情報通信学会総合大会, 2009年03月, 日本語, 電子情報通信学会, 松山市, 国内会議AAMと回帰分析による視線、顔方向同時推定口頭発表(一般)
- 情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議顔表情クラスタリングによる映像コンテンツへのタギング口頭発表(一般)
- 情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議SIFTとGraph Cuts を用いた物体認識及びセグメンテーション口頭発表(一般)
- 情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議HOG特徴に基づく単眼画像からの人体3次元姿勢推定口頭発表(一般)
- 情報処理学会平成20年度関西支部大会, 2008年10月, 日本語, 情報処理学会, 京都, 国内会議AdaBoostとSaliency Mapを用いたGraph Cutsによる物体領域の自動抽出法口頭発表(一般)
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議勾配に基づく特徴量を用いた音声認識の検討ポスター発表
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議メタモデルと音響モデルの統合による構音障害者の音声認識ポスター発表
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議アクティブマイクロフォンによる音響伝達特性を用いたシングルチャネル音源方向推定ポスター発表
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議MDL基準とICAを用いた統合音素部分空間による音声特徴量抽出の検討ポスター発表
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議GMMに基づく音声特徴量の時間変動を考慮した突発性雑音の除去ポスター発表
- 日本音響学会2008年秋季研究発表会, 2008年09月, 日本語, 日本音響学会, 福岡, 国内会議DP-Kernel PCAを用いた発話系列への意図ラベリングの検討ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議話者正規化に基づく構音障害者の音声認識ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議動的計画法に基づく文脈の変化を考慮したLSAの検討ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議音声特徴量抽出のための音素部分空間統合法の検討ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議パラボラ反射板を用いたアクティブマイクロフォンによる音源方向推定ポスター発表
- 電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション口頭発表(一般)
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議SVMとCARTの組み合わせによるAdaBoostを用いた音声区間検出ポスター発表
- 電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議SIFTとGraph Cutsを用いた物体認識及びセグメンテーション口頭発表(一般)
- 電子情報通信学会総合大会, 2008年03月, 日本語, 電子情報通信学会, 北九州, 国内会議PrefixSpanを用いた映像における人物の日常行動抽出口頭発表(一般)
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議LSAに基づくOne-Class SVMを用いた音声認識仮説の検証ポスター発表
- 日本音響学会2008年春季研究発表会, 2008年03月, 日本語, 日本音響学会, 千葉, 国内会議FBANKとGabor Waveletを用いたシステムへの問い合わせと雑談の判別ポスター発表
- 電気関係学会関西支部連合大会, 2007年11月, 日本語, 電気学会, 神戸市, 国内会議被災家屋内の人の検出と救助の為の3次元環境地図作成に関する考察口頭発表(一般)
- 日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議話者交替を考慮したシステムへの問い合わせと雑談の判別ポスター発表
- 日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議音声区間検出を用いた音響エコーキャンセラにおける音声歪み低減の試みポスター発表
- 日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議フィッシャー重みマップに基づく音声特徴量のロバストネスに関する考察ポスター発表
- 第6回情報科学技術フォーラム, 2007年09月, 日本語, 情報処理学会, 豊田市, 国内会議PCA相関フィルタによる目領域の探索口頭発表(一般)
- 日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議PCAを用いた音素ベクトルによる音声特徴量抽出の検討ポスター発表
- 日本音響学会2007年秋季研究発表会, 2007年09月, 日本語, 日本音響学会, 甲府市, 国内会議3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出ポスター発表
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議赤外線映像におけるドライバの方位判定口頭発表(一般)
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議自動映像生成のためのパーティクルフィルタによるボールの追跡口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議構音障害者の音声認識の検討口頭発表(一般)
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議固定カメラ映像からの音声情報を用いた映像コンテンツ生成口頭発表(一般)
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識口頭発表(一般)
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議マルチ識別器を用いた花画像検索システムの構築口頭発表(一般)
- 電子情報通信学会総合大会, 2007年03月, 日本語, 電子情報通信学会, 名古屋, 国内会議マルチテンプレート型二次元CSPによる高速目領域探索口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議ブースティングとキーワードフィルタリングによるシステム要求検出口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議フィッシャー重みマップに基づく不特定話者音素認識の検討口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議SVMを用いたシステムへの問い合わせと雑談の判別口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議NetTv:NetNewsとテレビ放送のクロスプラットホームにおける音声検索口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議AdaBoostを用いた雑音の検出と識別口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議3次キュムラントのバイスペクトラムとPCAによる音声区間検出口頭発表(一般)
- 日本音響学会2007年春季研究発表会, 2007年03月, 日本語, 日本音響学会, 東京, 国内会議2ch マイクロフォン間の振幅補正を考慮した複素スペクトル平面上での雑音除去口頭発表(一般)
- 電子情報通信学会 第34回福祉情報工学研究会, 2007年01月, 日本語, 立命館大学 びわこ・くさつキャンパス, 国内会議構音障害者の音声認識の検討口頭発表(一般)
- 第5回情報科学技術フォーラム, 2006年09月, 日本語, 情報処理学会, 福岡, 国内会議二次元CSPによる目領域探索の高速化口頭発表(一般)
- 日本音響学会2006年秋季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議二次の射影法とスペクトルサブトラクションを用いた音響エコー抑圧口頭発表(一般)
- 日本音響学会2006年春季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議音響モデルを利用したシングルチャネルによる音源方向推定の検討口頭発表(一般)
- 日本音響学会2006年秋季研究発表会, 2006年09月, 日本語, 日本音響学会, 金沢市, 国内会議Real Adaboostによる音声区間検出口頭発表(一般)
- 日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議対判別フィッシャー重みマップを利用した局所特徴量による音素認識ポスター発表
- 日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議車内状況アウェアネスのための感情音データベースの設計と評価口頭発表(一般)
- 日本音響学会春季研究発表会, 2006年, 日本語, 日本音響学会, 日本, 国内会議PLSAに基づくトピックHMMを用いた言語モデル構築の検討ポスター発表
- 電子情報通信学会総合大会, 2006年, 日本語, 電子情報通信学会, 東京, 国内会議Adaboostと音声・唇GMMによる発話区間検出口頭発表(一般)
- 日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議実環境における2chマイクロフォンを用いた複素スペクトル平面での雑音除去に関する検討ポスター発表
- 第4回情報科学技術フォーラムFIT, 2005年, 日本語, 情報処理学会, 東京, 国内会議個人適応型サッカー映像の自動生成技術口頭発表(一般)
- 日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議フレーズに基づく状態推定音声認識の検討ポスター発表
- 日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議フィッシャー重みマップを利用した高次局所自己相関特徴による音素認識ポスター発表
- 日本音響学会秋季研究発表会, 2005年, 日本語, 日本音響学会, 日本, 国内会議Kernel PCAを用いた残響下音声認識の検討ポスター発表
- FIT(情報科学技術フォーラム)2003, 2003年, 日本語, 情報処理学会, 未記入, 国内会議野球中継におけるハイライトシーン・リアルタイム配信システムのためのPCショット判定領域自動設定法口頭発表(一般)
- 日本音響学会,2003年春季研究発表会, 2003年, 日本語, 日本音響学会, 未記入, 国内会議発音変形と音響的誤り傾向を考慮した話し言葉音声認識の検討口頭発表(一般)
- 第2回情報科学技術フォーラム, 2003年, 日本語, 情報処理学会, 未記入, 国内会議指先追跡による人物ポインティングを用いた実時間情報検索~マルチモーダル対話型TVに向けて~口頭発表(一般)
- 日本音響学会,2003年春季研究発表会, 2003年, 日本語, 日本音響学会, 未記入, 国内会議雑音に頑健な音声認識のための時間領域SVD とGMM に基づく音声信号推定口頭発表(一般)
- 第2回情報科学技術フォーラム, 2003年, 日本語, 情報処理学会, 未記入, 国内会議改良型GMM Based Wiener Filterを用いた実走行車内音声の認識口頭発表(一般)
- 日本音響学会,2003年春季研究発表会, 2003年, 日本語, 日本音響学会, 未記入, 国内会議音声情報処理を用いたスポーツ実況中継におけるハイライトシーン検出口頭発表(一般)
- 電子情報通信学会,総合大会, 2003年, 日本語, 電子情報通信学会, 未記入, 国内会議マルチメディア教材を目指した英語リスニング学習システムの開発口頭発表(一般)
- 日本音響学会,平成15年度秋季研究発表会, 2003年, 日本語, 日本音響学会, 未記入, 国内会議GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みに頑健な音声認識 - 実走行車内音声(AURORA3)データベースによる評価 -口頭発表(一般)
- 電子情報通信学会第13回データ工学ワークショップ, 2002年03月, 日本語, 電子情報通信学会データ工学研究専門委員会, 倉敷国際ホテル, 国内会議映像文法のためのカット先読み機構を備えた自動ダイジェスト生成システム口頭発表(一般)
- 言語処理学会2022年02月 - 現在
- IEEE1987年01月 - 現在
- 人工知能学会1986年04月 - 現在
- 日本音響学会1980年04月 - 現在
- 情報処理学会1976年10月 - 現在
- 電子情報通信学会1976年04月 - 現在
- 日本データベース学会2002年04月 - 2016年03月
- 映像情報メディア学会2000年04月 - 2016年03月
- 画像電子学会1993年04月 - 2016年03月
- 科学研究費補助金/基盤研究(A), 2017年04月 - 2021年03月競争的資金
- 学術研究助成基金助成金/基盤研究(C), 2017年04月 - 2020年03月, 研究代表者競争的資金
- 学術研究助成基金助成金/挑戦的研究(萌芽), 2017年06月 - 2019年03月競争的資金
- 科学研究費一部基金/基盤研究(B), 2014年04月 - 2017年03月, 研究代表者競争的資金
- 科学研究費一部基金/基盤研究(B)特設, 2013年04月 - 2017年03月競争的資金
- 学術研究助成基金助成金/基盤研究(C), 2013年04月 - 2016年03月競争的資金
- 科学研究費補助金/萌芽研究, 2012年04月 - 2015年03月, 研究代表者競争的資金
- 頭脳循環を活性化する若手研究者海外派遣プログラム, 2012年, 研究代表者頭脳循環「健常者・障がい者の意図認識によるユニバーサルコミュニケーションの研究」競争的資金
- 頭脳循環を活性化する若手研究者海外派遣プログラム, 2011年, 研究代表者頭脳循環「健常者・障がい者の意図認識によるユニバーサルコミュニケーションの研究」競争的資金
- 新たな社会的ニーズに対応した学生支援プログラム, 2011年, 研究代表者学生支援GP「地域に根ざし人に学ぶ共生的人間力」競争的資金
- 頭脳循環を活性化する若手研究者海外派遣プログラム, 2010年, 研究代表者頭脳循環「健常者・障がい者の意図認識によるユニバーサルコミュニケーションの研究」競争的資金
- 2010年, 研究代表者学生支援GP「地域に根ざし人に学ぶ共生的人間力」競争的資金
- 2009年, 研究代表者学生支援GP「地域に根ざし人に学ぶ共生的人間力」競争的資金
- 2008年, 研究代表者学生支援GP「地域に根ざし人に学ぶ共生的人間力」競争的資金
- 科学研究費補助金/萌芽研究, 2006年, 研究代表者競争的資金
- 科学研究費補助金/基盤研究(A), 2006年競争的資金
- 日本学術振興会, 科学研究費助成事業, 重点領域研究, 龍谷大学, 1995年 - 1995年音素・単語・フレーズの同時スポッティングによる対話音声の解析評価人間が音声を聞き取り内容を理解する場合には、文のレベルで常に聞いているのではなく、音素、単語、フレーズ、文といった階層を選択していると考えられる。人間と機械の音声対話においても、文レベルで完全に解析するのではなく、解析できるところだけを解析して繋ぎ合わせ意味を補完する方法は、対話の文法が完全ではないので、有効でありかつ実現可能な方法と考えられる。解析可能な単位としては、単語、フレーズ、部分文を考えることができるが、本研究では、単語・フレーズに限定して連続音声からこれを抽出(スポッティング)し、対話音声を評価することを目的としている。ワードスポッティングの技術は連続音声から既知語と未知語を判定しながら、既知語のみを抽出する技術である。平成6年度までの研究により、既知語と未知語の判別処理は、「連続音声のある時刻で既知語が終結するという事象の事後確率」を求める処理と等価であることを明らかにしてきた。この事後確率は、連続音声がすべて入力されてから計算されるため、実時間の処理が難しい。本研究では、発話の終了を待つことなく、フレーム同期で既知語の事後確率を計算してワードスポッティングを行う方式について研究した。この方式では、前向き尤度を利用できるため実時間向きのアルゴリズムを実現できる可能性がある。この提案手法を、平成6年度までに研究した方式と比較し、対話音声の解析手法を評価した。また、従来の代表的なワードスポッティング手法であるAT&T, BBN, NECの方式とも比較評価した。
- 日本学術振興会, 科学研究費助成事業, 試験研究, 京都大学, 1985年 - 1986年図面の翻訳・自動変換・清書プロセッサの開発研究本研究は、図面中の単語または句(英語または日本語など)を別の言語系の単語または句に翻訳し、その単語の長さや、人間の好む図面の大きさ並びに文字フォント・サイズ,図面の線の太さなどの指示に従って、ファクシミリあるいはブックスキャナより入力された原図面を自動的に変換して、目的語の図面として清書出力するようなパターン理解,図面処理アルゴリズム,VLSIを使用したイメージプロセッサの開発研究である。この研究には、図面内での構成要素(文字部分,図面シンボル,結線)の分離抽出とラベル付け、原図面のトポロジーに忠実という条件下での図面の良質・自動的な編集や清書が内容的には含まれている。 60年度では、図面の翻訳・自動変換・清書を行うプロセッサの初版を試作しているので、本年度は次の点において試作機を実用に供する程度に改良・強化を行なった。 1.入力装置の解像度や、入力図面自身の低画質のため、入力した図面の品質に劣化が生じると、文字と線が接触したり、本来1本であるべき線がとぎれるなど、図面の構造解析に誤りが生じる。この問題を解決するために、線や文字、点線や矢印に関する知識を試作機に付与し、知識ベースで図面の構造を解析するソフトウェアを開発した。 2.解析された図面をCADと整合し、高品質の図面として生成できるソフトウェアを開発した。これにより品質の悪い図面に対しても正しく構造を解析するとともに、グラフィックスで清書して見やすい形で出力することが可能となった。 3.図面中の低品質の漢字については、CADの手法を用いて単純に整形することが困難なため、低品質文字の構造解析とサブパターンの認識手法を研究した。
- 物体認識システム及び物体認識方法14/190,539, 2014年02月26日, 大学長, 9508019, 2016年11月29日特許権
- 物体分類装置、物体分類方法、物体認識装置及び物体認識方法特願2011-282103, 2011年12月22日, 大学長, 特許5828552, 2015年10月30日特許権
- 物体分類装置、物体分類方法、物体認識装置及び物体認識方法(アメリカ)13/724,220, 2012年12月21日, 大学長, US8873868, 2014年10月28日特許権
- 雑音検出装置および雑音検出方法特願2006-336336, 2006年12月13日, 大学長, 特許4787979, 2011年07月29日特許権