SEARCH
Search DetailsTAKIGUCHI TetsuyaResearch Center for Urban Safety and SecurityProfessor
Researcher basic information
■ Research news■ Research Keyword
■ Research Areas
Research activity information
■ Award- Jan. 2015 21st Japan-Korea joint Workshop on Frontiers of Computer Vision, Excellence Paper Award, "Estimation of Object Functions Using Deformable Part Model"
- Aug. 2009 International Conference on Multimedia, Information Technology and its Applications, Distinguished Paper Award, "Generic Object Recognition using CRF by Incorporating BoF as Global Features"
- Jun. 2008 IEEE ICME, The Best Paper Award, "GRAPH CUTS BY USING LOCAL TEXTURE FEATURES OF WAVELET COEFFICIENT FOR IMAGE SEGMENTATION"
- 悩み相談において、傾聴者が行う「気づきを促す質問」は、相談者にとって非常に重要な役割を果たす。こうした質問によって、相談者は自らの内面を深く振り返り、新たな視点を得ることで、単に解決策を提供される場合よりも問題の理解が深まり、さらに自主的な行動を促される。しかし、対話システムにこのような気づきを促す機能を持たせることは容易ではない。気づきを引き出すプロセスは、悩みの種類やその原因によって異なり、複雑な思考を必要とするためである。本論文では、大規模言語モデルが生成した戦略的知識に基づいて推論を行う戦略的思考の連鎖(Strategic Chain-of-Thought)を活用する事で多様な悩みを持つ相談者に気づきを促す傾聴対話システムを提案し、この課題に取り組む。実験では、子育てに関する悩みを題材として、この対話システムの有用性を検証する。The Japanese Society for Artificial Intelligence, Nov. 2024, JSAI Technical Report, SIG-SLUD, 102, 80 - 85, Japanese
- IEEE, Jul. 2024, 2024 16th IIAI International Congress on Advanced Applied Informatics (IIAI-AAI), 541 - 544International conference proceedings
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 1031 - 1034歌声合成と変換を用いた未経験者音声からのオペラ歌唱音声合成Research society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 983 - 986日本語フォント文字の印象評価と感情字幕生成への応用Research society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 919 - 922吃音者向けTTSシステムのための健常者音素継続長を反映したVITSの学習手法の提案Research society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 873 - 876wav2vec 2.0と疑似ラベリングを活用した脳性麻痺者の音声認識Research society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 793 - 796EdenVC : 音素継続長とアライメントの協調学習を用いた系列長変換型声質変換モデルResearch society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 785 - 788正弦波入力型ニューラルボコーダを用いたTTSモデルによる歌声合成Research society
- Mar. 2024, 日本音響学会2024年春季研究発表会講演論文集, 645 - 648想起音声識別のための変分自己符号化器に基づく表現学習Research society
- Mar. 2024, 第28回情報処理学会シンポジウム INTERACTION 2024, 1390 - 1392対話ロボットを用いた演奏学習支援システムの開発Research society
- Mar. 2024, 言語処理学会第30回年次大会発表論文集, 1975 - 1979, JapaneseEnhancing Economic Time Series Prediction with News Text Data and Numerical Data: A Transformer-Based ApproachResearch society
- Mar. 2024, 言語処理学会第30回年次大会発表論文集, 2976 - 2981知識グラフに基づくルールベースよるFact Verificationとその拡張手法の考察Research society
- Mar. 2024, 言語処理学会第30回年次大会発表論文集, 1453 - 1457知識グラフの対話システムへの記憶化:学習アプローチの探究Research society
- Mar. 2024, Proceedings of the 14th International Workshop on Spoken Dialogue Systems TechnologyJudgerToken: A Single-Token Method for Reducing Repetition in Dialogue System[Refereed]International conference proceedings
- Mar. 2024, IEEE Access, 12, 36990 - 36999[Refereed]Scientific journal
- Feb. 2024, International Workshop on Frontiers of Computer VisionIterative Annotation for Road Damage Detection Using Human-in-the-Loop with a Vision and Language Model[Refereed]International conference proceedings
- Feb. 2024, IEEE Access, 12, 31409 - 31421[Refereed]Scientific journal
- ACM, 2024, The 26th International ACM SIGACCESS Conference on Computers and Accessibility(ASSETS), 99 - 5International conference proceedings
- IEEE, 2024, 32nd European Signal Processing Conference(EUSIPCO), 1546 - 1550Representation Learning Based on Variational Autoencoders for Imagined Speech Classification.International conference proceedings
- 2024, IEEE Access, 12, 36990 - 36999Scientific journal
- 2024, IEEE Access, 12, 31409 - 31421Scientific journal
- Evapotranspiration (E) is one of the most uncertain components of the global water cycle (WC). Improving global E estimates is necessary to improve our understanding of climate and its impact on available surface water resources. This work presents a methodology for deriving monthly corrections to global E datasets at 0.25∘ resolution. A principled approach is proposed to firstly use indirect information from the other water components to correct E estimates at the catchment level, and secondly to extend this sparse catchment-level information to global pixel-level corrections using machine learning (ML). Several E satellite products are available, each with its own errors (both random and systematic). Four such global E datasets are used to validate the proposed approach and highlight its ability to extract seasonal and regional systematic biases. The resulting E corrections are shown to accurately generalize WC closure constraints to unseen catchments. With an average deviation of 14% from the original E datasets, the proposed method achieves up to 20% WC residual reduction on the most favorable dataset.MDPI AG, Dec. 2023, Remote Sensing, 16(1) (1), 170 - 170[Refereed]Scientific journal
- Dec. 2023, 人工知能学会 言語・音声理解と対話処理研究会, 51 - 55知識グラフを活用したルールベースによるFact VerificationSymposium
- Dec. 2023, 人工知能学会 言語・音声理解と対話処理研究会, 19 - 24対話データに基づく重複文負例の作成と重複を抑制する言語モデルの提案Symposium
- Dec. 2023, The 12th International Joint Conference on Knowledge GraphsRule-based Fact Verification Utilizing Knowledge Graphs[Refereed]International conference proceedings
- (一社)日本医療情報学会, Nov. 2023, 医療情報学連合大会論文集, 43回, 390 - 391, Japanese歯科医療情報共有化と異分野融合によるデータ駆動型時代の歯科医療 発話困難者の音声コミュニケーションを支援する音声認識技術
- The impressions of heating, ventilation, and air conditioning (HVAC) sounds are important for the comfort people experience in their living spaces. Revealing neural substrates of the impressions induced by HVAC sounds can help to develop neurophysiological indices of the comfort of HVAC sounds. There have been numerous studies on the brain activities associated with the pleasantness of sounds, but few on the brain activities associated with the thermal impressions of HVAC sounds. Seven time-varying HVAC sounds were synthesized as stimuli using amplitude modulation. Six participants took part in subjective evaluation tests and MEG measurements. Subjective coolness of the HVAC sounds was measured using the paired comparison method. Magnetoencephalographic (MEG) measurements were carried out while participants listened to and compared the time-varying HVAC sounds. Time-frequency analysis and cluster-based analysis were performed on the MEG data. The subjective evaluation tests showed that the subjective coolness of the amplitude-modulated HVAC sounds was affected by the modulation frequency, and that there was individual difference in subjective coolness. A cluster-based analysis of the MEG data revealed that the brain activities of two participants significantly differed when they listened to cooler or less cool HVAC sounds. The frontal low-theta (4–5 Hz) and the temporal alpha (8–13 Hz) activities were observed. The frontal low-theta and the temporal alpha activities may be associated with the coolness of HVAC sound. This result suggests that the comfort level of HVAC sound can be evaluated and individually designed using neurophysiological measurements.Ovid Technologies (Wolters Kluwer Health), Oct. 2023, NeuroReport, 35(1) (1), 1 - 8[Refereed]Scientific journal
- Sep. 2023, 日本音響学会2023年秋季研究発表会講演論文集, 1333 - 1336単語埋め込み表現を用いた感情音声からの字幕画像生成手法の検討Research society
- Sep. 2023, 日本音響学会2023年秋季研究発表会講演論文集, 1325 - 1328吃音者の音声認識における連発ラベル導入による連発箇所の検出Research society
- Sep. 2023, 日本音響学会2023年秋季研究発表会講演論文集, 1295 - 1298End-to-End 系列変換型声質変換への高速ニューラル波形生成モデル導入の検討Research society
- Sep. 2023, 日本音響学会2023年秋季研究発表会講演論文集, 1283 - 1286Diff-SVCを用いたオペラ歌唱音声合成における中高域強調ネットワークの検討Research society
- Sep. 2023, 日本音響学会2023年秋季研究発表会講演論文集, 1041 - 1044F0予測・波形生成ネットワークの一貫学習によるメルスペクトログラム入力型F0制御可能ニューラルボコーダResearch society
- Now Publishers, Sep. 2023, APSIPA Transactions on Signal and Information Processing, 12(1) (1)[Refereed]Scientific journal
- IEEE, Jun. 2023, 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), 1 - 5[Refereed]International conference proceedings
- Jun. 2023, 電子情報通信学会技術研究報告, 123(88) (88), 73 - 78全結合層型アップサンプリングを導入した高速ニューラル波形生成モデルSymposium
- Jun. 2023, 電子情報通信学会技術研究報告, 123(88) (88), 54 - 59発話音声の感情情報に基づく色つき字幕画像生成の検討Symposium
- Jun. 2023, 電子情報通信学会技術研究報告, 123(88) (88), 30 - 35Diff-SVCを用いたオペラ歌唱音声合成Symposium
- Jun. 2023, 電子情報通信学会技術研究報告, 123(88) (88), 20 - 25MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較Symposium
- May 2023, IEEE Transactions on Audio, Speech, and Language Processing, 31, 1902 - 1915[Refereed]Scientific journal
- Mar. 2023, 電子情報通信学会技術研究報告, 122(389) (389), 7 - 12Multi-stream FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデルResearch society
- Mar. 2023, 電子情報通信学会技術研究報告, 122(389) (389), 1 - 6基本周波数制御可能な高速ニューラル波形生成モデルの比較Research society
- Mar. 2023, 言語処理学会第29回年次大会発表論文集, 2007 - 2012知識グラフに基づく応答文生成における記号化されたエンティティの利用Research society
- Mar. 2023, 言語処理学会第29回年次大会発表論文集, 1969 - 1973生成・分類言語モデルに基づく対話システムの構築Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (3-4P-3) (3-4P-3), 517 - 520EEGNetを用いた脳磁界データによる想起時の音声識別の検討Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (2-3Q-4) (2-3Q-4), 887 - 890発話音声の感情を反映したテロップ画像の自動生成手法の検討Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (2002/3/4) (2002/3/4), 717 - 720Harmonic-Net++: 基本周波数制御可能なメルスペクトログラム入力型高速ニューラルボコーダResearch society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-4P-16) (1-4P-16), 509 - 512自己正確推定損失を用いたDeep Priorに基づく複数の脳内電流源の推定Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-4P-15) (1-4P-15), 505 - 508Deep Priorを用いた脳波からのForward modelと電流源の同時推定Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3Q-8) (1-3Q-8), 831 - 834Emotional Voice Conversion with a Novel Content-Style Fusion BlockResearch society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3Q-6) (1-3Q-6), 825 - 828脊髄性筋萎縮症者音声合成における明瞭性および話者性を考慮した適応手法の検討Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3Q-2) (1-3Q-2), 811 - 814器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3P-10) (1-3P-10), 799 - 802Towards Expressive Speech Conversion based on StarGANv2Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3P-9) (1-3P-9), 795 - 798発話音声を用いたオペラ歌唱音声合成の初期検討Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-3P-2) (1-3P-2), 773 - 776wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (1-1P-4) (1-1P-4), 213 - 216音響イベントのゼロショット学習における属性情報の拡張Research society
- Mar. 2023, 日本音響学会春季研究発表会講演論文集, (2001/3/13) (2001/3/13), 699 - 702End-to-End系列変換型声質変換の高速化およびノンネイティブ話者変換の検討Research society
- Mar. 2023, International Workshop on Nonlinear Circuits and Signal Processing, 502 - 505EEG Current Source Localization Using Deep Prior[Refereed]International conference proceedings
- Mar. 2023, International Workshop on Nonlinear Circuits and Signal Processing, 340 - 343Visual Archive Search Using Vision-language Object Detection Models[Refereed]International conference proceedings
- 2023, ICASSP, 1 - 5[Refereed]International conference proceedings
- Now Publishers, Jan. 2023, APSIPA Transactions on Signal and Information Processing, 12(1) (1), 1 - 20[Refereed]Scientific journal
- Jan. 2023, EURASIP J. Image Video Process., 2023(1) (1), 1 - 30[Refereed]Scientific journal
- Dec. 2022, NeurIPS 2022 Workshop on Tackling Climate Change with Machine Learning, 1 - 5[Refereed]International conference proceedings
- Dec. 2022, NeurIPS 2022 Workshop on Tackling Climate Change with Machine Learning, 1 - 5[Refereed]International conference proceedings
- IEEE, Nov. 2022, 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)[Refereed]International conference proceedings
- Nov. 2022, IEEE Transactions on Multimedia[Refereed]Scientific journal
- Oct. 2022, IEEE GCCE, 13 - 14[Refereed]International conference proceedings
- Recent advances in optical bioimaging and optogenetics have enabled the visualization and manipulation of biological phenomena, including cellular activities, in living animals. In the field of neuroscience, detailed neural activity related to brain functions, such as learning and memory, has now been revealed, and it has become feasible to artificially manipulate this activity to express brain functions. However, the conventional evaluation of neural activity by two-photon Ca2+ imaging has the problem of low temporal resolution. In addition, manipulation of neural activity by conventional optogenetics through the optic fiber can only simultaneously regulate the activity of neurons with the same genetic background, making it difficult to control the activity of individual neurons. To solve this issue, we recently developed a microscope with a high spatiotemporal resolution for biological applications by combining optogenetics with digital holographic technology that can modify femtosecond infrared laser beams. Here, we describe protocols for the visualization, evaluation, and manipulation of neural activity, including the preparation of samples and operation of a two-photon holographic microscope (Figure 1). These protocols provide accurate spatiotemporal information on neural activity, which may be useful for elucidating the pathogenesis of neuropsychiatric disorders that lead to abnormalities in neural activity.Sep. 2022, Journal of visualized experiments : JoVE, (187) (187), English, International magazine[Refereed]Scientific journal
- Sep. 2022, 第21回情報科学技術フォーラム, (O-001) (O-001), 299 - 302日本の水力発電効率化のための機械学習を用いたダム流入水量予測Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (3-Q-30) (3-Q-30), 1387 - 1390筋萎縮性側索硬化症者の音声合成を目的としたモデル適応と声質変換の比較評価Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (3-Q-4) (3-Q-4), 1317 - 1320wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (3-Q-3) (3-Q-3), 1313 - 1316器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (2-Q-46) (2-Q-46), 1297 - 1300Towards Natural Emotional Voice Conversion with Novel Attention ModuleResearch society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (2-Q-39) (2-Q-39), 1277 - 1280構音障害者のための高明瞭度音声合成における HiFi-GAN を用いた品質改善Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (2-Q-30) (2-Q-30), 1245 - 1248Attribute Prototype Networkを用いた音響イベントのゼロショット学習Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (1-P-23) (1-P-23), 955 - 958自己正確推定損失による DeepPrior を用いた脳磁図の電流源推定Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (1-8-10) (1-8-10), 1137 - 1140基本周波数制御可能なメルスペクトログラム入力型 HiFi-GAN の初期検討Research society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (1-8-9) (1-8-9), 1133 - 1136Harmonic-Net+:高調波入力と Layerwise-Quasi-Periodic 畳み込みを用いた基本周波数制御可能な高速ニューラルボコーダResearch society
- Sep. 2022, 日本音響学会秋季研究発表会講演論文集, (1-8-5) (1-8-5), 1121 - 1124FC-HiFi-GAN:全結合層型アップサンプリングを導入した高速 HiFi-GANResearch society
- Sep. 2022, Proc. 1st Workshop on Speech for Social Good (S4SG), 36 - 40[Refereed]International conference proceedings
- Sep. 2022, Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), 237 - 243[Refereed]International conference proceedings
- Sep. 2022, Pattern Recognition, Volume 129, 108715~, English[Refereed]Scientific journal
- Jul. 2022, 2765 - 2768Where do humans build levees? A case study on the contiguous united states[Refereed]International conference proceedings
- Generation-base dialogue system tends to produce generic response sentences. In order to improve the diversity of response sentences by the generation-base dialogue system, the response text retrieved by the retrieval-base model can be input to the generation-base model as reference response text, so that the generation-base model can generate highly diverse response sentences. However, the prior works show that the generation-base dialogue system often ignores the reference response text, resulting in the response sentences that is unrelated to the reference response text. In this work, we propose the Dialogue-Filling method, which can utilize 100% of the reference response text by masking the response sentences with a text-filling technique. We built variants of Dialogue-Filling method with DialoGPT model. Experiments on the DailyDialog Dataset demonstrate that our Dialogue-Filling method outperforms the baseline method on the dialogue generation task.The Japanese Society for Artificial Intelligence, May 2022, Transactions of the Japanese Society for Artificial Intelligence, 37(3) (3), IDS-C_1 - 9, Japanese[Refereed]
- IEEE, Mar. 2022, 2022 IEEE 4th Global Conference on Life Sciences and Technologies (LifeTech), 590 - 591[Refereed]International conference proceedings
- IEEE, Mar. 2022, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 631 - 635[Refereed]International conference proceedings
- IEEE, Mar. 2022, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 399 - 400[Refereed]International conference proceedings
- IEEE, Mar. 2022, 4th IEEE Global Conference on Life Sciences and Technologies(LifeTech), 28 - 29[Refereed]International conference proceedings
- Acoustical Society of Japan, Mar. 2022, Acoustical Science and Technology, 43(2) (2), 121 - 124[Refereed]Scientific journal
- 2022, ICASSP, 251 - 255[Refereed]International conference proceedings
- Jan. 2022, Signal, Image and Video Processing, 1641 - 1648[Refereed]Scientific journal
- In the recent years, generation-based dialogue systems using state-of-the-art (SoTA) transformer-based models have demonstrated impressive performance in simulating human-like conversations. Many generation-based dialogue systems use the sequential generation method, which generates response words sequentially from left to right according to the output distribution of model, based on decoding strategies such as Greedy. However, it is difficult to control the content of the responses generated by the sequential generation method, although the parameters such as minimum and maximum length can be controlled. To address this, inspired by the Three Topics Talk, which is an impromptu storytelling using three given topics, we propose a new responses generation method which generates responses preceding and following the specified knowledge (topic). The dialogue system using our proposed method has been validated to generate significantly more diverse and correct responses than baseline approaches.The Japanese Society for Artificial Intelligence, 2022, Proceedings of the Annual Conference of JSAI, JSAI2022, 3Yin221 - 3Yin221, Japanese
- Dec. 2021, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2021(1) (1), English[Refereed]Scientific journal
- Jul. 2021, Pattern Recognition, 115, 1 - 12Multimodal fusion for indoor sound source localization[Refereed]Scientific journal
- Jun. 2021, 第137回 音声言語情報処理研究会, 2021-SLP-137, 1 - 5モデル適応に基づく脊髄性筋萎縮症者の高明瞭度音声合成の検討Symposium
- Jun. 2021, 日本音響学会研究発表会講演論文集(CD-ROM), 2021, 7058 - 7062High-Intelligibility Speech Synthesis for Dysarthric Speakers with LPCNet-Based TTS and CycleVAE-Based VC[Refereed]International conference proceedings
- Mar. 2021, 日本音響学会研究発表会講演論文集(CD-ROM), 2021, 783 - 786High-Intelligibility speech synthesis for dysarthric speakers with CycleVAE-based voice conversionResearch society
- Mar. 2021, 日本音響学会2021年春季研究発表会講演論文集, 957 - 960マルチモーダル音声認識におけるLocal attentionを用いた音声画像統合方式Research society
- Mar. 2021, 日本音響学会研究発表会講演論文集(CD-ROM), 2021, 961 - 964An investigation of data augmentation method for speech recognition of cleft lip and cleft palateResearch society
- Mar. 2021, 日本音響学会2021年春季研究発表会講演論文集母音発音と歌唱速度の変化を考慮したアカペラオペラ歌声合成Research society
- Mar. 2021, 1037 - 1040Dysarthric Speech Conversion by Learning Disentangled Representations with Non-parallel DataResearch society
- Mar. 2021, 日本音響学会2021年春季研究発表会講演論文集, 1045 - 1048自己教師あり学習によるラベル無し自由発話を用いた構音障害者音声認識Research society
- Mar. 2021, 日本音響学会研究発表会講演論文集(CD-ROM), 2021, 679 - 682Current source estimation of auditory evoked response using deep priorResearch society
- Mar. 2021, 日本音響学会2021年春季研究発表会講演論文集, 915 - 916クロスチャネル言語識別におけるwav2vecを用いた自己教師あり特徴量学習Research society
- Mar. 2021, 言語処理学会第27回年次大会発表論文集, 1590 - 1592ルールベースと生成ベースを融合した雑談対話の発話生成手法Research society
- Feb. 2021, Science Advances, 7(12) (12), 1 - 14Pain induces stable, active microcircuits in the somatosensory cortex that provide a therapeutic target[Refereed]Scientific journal
- IEEE, 2021, Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 471 - 476Data Augmentation Based on Frequency Warping for Recognition of Cleft Palate Speech.International conference proceedings
- 2021, 日本音響学会研究発表会講演論文集(CD-ROM), 2021An investigation of error correction method for improving speech recognition of organic dysarthria
- Acoustical Society of Japan, Jan. 2021, Acoustical Science and Technology, 42(1) (1), 65 - 68Scientific journal
- Nov. 2020, 人工知能学会 言語・音声理解と対話処理研究会, 20 - 23ゲート制御付きSource-Target Attention を用いた複数知識文に基づく応答文の生成Symposium
- Nov. 2020, 人工知能学会 言語・音声理解と対話処理研究会, 42 - 45雑談対話モデルの関連性向上のための関連語を優先した応答文生成手法の検討Symposium
- Oct. 2020, Interspeech, 4796 - 4800Dysarthric Speech Recognition Based on Deep Metric Learning[Refereed]International conference proceedings
- Oct. 2020, IEEE Global Conference on Consumer Electronics, 663 - 664Opera Singing Voice Synthesis Considering Vowel Variations[Refereed]International conference proceedings
- Oct. 2020, IEEE Global Conference on Consumer Electronics, 678 - 679Convolutional neural networks Memory Optimization Inference with Splitting Image[Refereed]International conference proceedings
- Oct. 2020, IEEE Global Conference on Consumer Electronics, 712 - 713An Investigation of End-to-End Speech Recognition Using Model Adaptation for Dysarthric Speakers[Refereed]International conference proceedings
- Sep. 2020, 日本音響学会研究発表会講演論文集(CD-ROM), 2020, 755 - 758Full-band LPCNet: A real-time neural vocoder for 48 kHz audioIn book
- Sep. 2020, 日本音響学会2020年秋季研究発表会講演論文集, 875 - 876アカペラ歌唱における歌唱速度の変化を考慮した歌声合成に関する検討In book
- Sep. 2020, 日本音響学会2020年秋季研究発表会講演論文集, 805 - 808構音障害者音声認識における発話辞書適応の検討In book
- Sep. 2020, 日本音響学会2020年秋季研究発表会講演論文集, 809 - 812構音障害者音声認識における認識モデルの比較評価In book
- Aug. 2020, Kobe Journal of Medical Sciences, 66(2) (2), E49 - E55Quantitative Evaluation of Handwriting Skills During Childhood[Refereed]Scientific journal
- May 2020, 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 6104 - 6108Two-step acoustic model adaptation for dysarthric speech recognition[Refereed]
- 機械学習と関数型プログラミングには多くの類似性を持ち、近年それらを結びつけるDifferentiable Programmingというアイデアが新しく出てきた。この方法はパラメータを直接調節して勾配を求められることが今までと大きく違う。これにより物理シミュレーションなど様々な分野に適用できることが期待されている。私たちは強化学習のベンチマークを用いてDQNの手法とDifferentiable Programmingの手法を比較し、Differentiable programmingの効果及び学習ダイナミクスを調査し説明する。Mar. 2020, 情報処理学会第82回全国大会講演論文集, 2020(1) (1), 267 - 268, Japanese
- 電子情報通信学会, Mar. 2020, 電子情報通信学会技術研究報告, 119(440) (440), 181 - 186, JapaneseDysarthric Speech Recognition Based on Deep Metric Learning
- SAGE Publications, Mar. 2020, Energy & Environment, 0958305X2090708 - 0958305X2090708[Refereed]Scientific journal
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 1125 - 1126, Japanese自由な歌唱速度の歌声の合成に関する検討Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 1117 - 1120, Japanese少量データを用いた構音障害者音声合成の健常者モデルによる明瞭性改善Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 967 - 970, JapaneseHybrid CTC/attentionモデルを用いた構音障害者音声認識の検討Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 2020, 431 - 434, Japanese聴感印象推定のための脳活動特徴量抽出-テンソル分解による機能的結合の低ランク表現の検討-Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 907 - 910, Japaneseクロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 2020, 507 - 510, JapaneseConvolutional Neural Networks を用いた音声想起時の脳磁界データにおける識別的特徴量の検討Research society
- Mar. 2020, 日本音響学会2020年春季研究発表会講演論文集, 2020, 1045 - 1048, Japaneseリアルタイムニューラルボコーダにおける学習データ量の影響の調査Research society
- Mar. 2020, 言語処理学会第26回年次大会発表論文集, 1273 - 1276Transfer Learning to Generate Multiple Sentence Question with Leveraging Difference between DatasetsResearch society
- Mar. 2020, 言語処理学会第26回年次大会発表論文集, 1348 - 1351発話スタイルに非依存な文章表現を用いたスタイルロバストなSeq2seqモデルの提案Research society
- ニューロンセグメンテーションにおけるマルチドメイン学習による汎化性能の改善脳全体における神経回路のマッピングの研究であるコネクトミクスにおいて、脳の電子顕微鏡画像から各ニューロンを識別することが重要である。深層学習によるニューロンの自動セグメンテーションに際して、データの取得にもアノテーションにも多大なコストがかかるため、転移学習をさせることが有力な選択肢の1つとなる。本稿では、U-Netと呼ばれる深層学習モデルを用いて、複数のドメインの公開データセットで学習させたモデルの汎化性能を検討した。また、それによって、目標となるドメインのデータセットでの転移学習のコストを低減させつつ、精度を向上させることを試みた。Feb. 2020, 情報処理学会第82回全国大会講演論文集, 2020(1) (1), 169 - 170, Japanese
- Feb. 2020, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)Application and evaluation of transfer learning to aquatic insect recognition[Refereed]
- Feb. 2020, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)Optimizing the computational efficiency of 3D segmentation models for connectomics[Refereed]
- Feb. 2020, The 26th Internatioal Workshop on Frontiers of Computer Vision (IW-FCV 2020)Adhesive strength estimation from copper surface images[Refereed]
- IEEE, 2020, 2020 IEEE International Conference on Big Data (IEEE BigData 2020), 5545 - 5552International conference proceedings
- Nov. 2019, Kobe Journal of Medical Sciences, 65(2) (2), E59 - E70Study on the Language Formation Process of Very-Low-Birth-Weight Infants in Infancy Using a Formant Analysis[Refereed]Scientific journal
- 電子情報通信学会, Oct. 2019, 電子情報通信学会技術研究報告, 119(251) (251), 45 - 50, JapaneseTransfer Learning Using the Speech Data of Persons with Dysarthria Speaking Different Languages for Dysarthric Speech Recognition
- Institute of Electrical and Electronics Engineers Inc., Oct. 2019, Proceedings - 2019 International Conference on Computer Vision Workshop, ICCVW 2019, 4216 - 4225, EnglishInternational conference proceedings
- Oct. 2019, Neural Architects Workshop (IEEE ICCV Workshop)Layer-Wise Invertibility for Extreme Memory Cost Reduction of CNN Training[Refereed]International conference proceedings
- Oct. 2019, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 27(10) (10), 1535 - 1548, English[Refereed]Scientific journal
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 863 - 866構音障害者を対象とした日本語大語彙連続音声認識の検討
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 1007 - 1010歌声の母音変化を考慮した歌声合成の検討
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 1011 - 1014構音障害者の少量データを用いた深層学習による音声合成の検討
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 1037 - 1040Speech-to-Speech Translation using Dual Learning and Prosody Conversion
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 823 - 826Lip readingのためのクロスモーダルTeacher-Student学習
- Sep. 2019, 日本音響学会2019年秋季研究発表会講演論文集, 1053 - 1056外部知識を用いた雑談対話システムの汎化性能向上の検討
- Aug. 2019, 日本音響学会研究発表会講演論文集(CD-ROM), 2019, ROMBUNNO.3‐P‐13, Japanese脳磁界データによる音声の識別―想起時と聴取時の比較―
- Aug. 2019, 日本音響学会研究発表会講演論文集(CD-ROM), 2019, ROMBUNNO.3‐P‐46, Japanese空間フィルタによる印象関連脳活動の抽出の試み
- Springer, Aug. 2019, EURASIP Journal on Audio, Speech, and Music Processing, DOI: 10.1186/s13636-019-0160-1, 1 - 11, English[Refereed]Scientific journal
- Aug. 2019, 電子情報通信学会技術研究報告, 119(188) (188), 19 - 24WordNetを用いた雑談対話システムの汎化性能の向上
- Jul. 2019, 情報処理学会研究報告, 2019-SLP-127(23) (23), 1 - 6Bidirectional Gated Recurrent Units を用いた歌声合成に関する検討
- (一社)日本小児精神神経学会, Jul. 2019, 小児の精神と神経, 59(2) (2), 191 - 198, Japanese小児期における線描スキルの定量的評価に関する研究[Refereed]Scientific journal
- To extract an effective feature in prediction of subjective impressions from single-trial neurophysiological recordings, the spatial filter that extracts brain activities related to impressions were constructed using the common spatial pattern (CSP). We focus on subjective preference induced by chords composed of 3 notes with different frequency ratio. Magnetic cortical activities while hearing chords and comparative judgment on pair of them were measured. The predictive model that predicts the scale value of preference was trained using the CSP-based feature for each participant. The result of the evaluation experiment shows that the CSP-based feature improved the mean prediction accuracy in all participants, compared with the other features without spatially filtering. Furthermore, the capability of construction of a spatial filter that extracts cortical activities varying with degree of preference using the comparative judgments was indicated.IEEE, Jul. 2019, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2019, 5168 - 5171, English, International magazine[Refereed]Scientific journal
- Jun. 2019, IEEE CVPR, 9553 - 9561On Zero-Shot Recognition of Generic Objects[Refereed]International conference proceedings
- May 2019, IEEE ICASSP, 6395 - 6399End-To-End Dysarthric Speech Recognition Using Multiple Databases[Refereed]International conference proceedings
- Apr. 2019, International Workshop on Spoken Dialog System TechnologyGeneration of Objections Using Topic and Claim Information in Debate Dialogue System[Refereed]International conference proceedings
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 869 - 872, Japanese複数データベースを使用したend-to-end構音障害者音声認識Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 2019, 499 - 502, Japanese脳磁界計測を用いた聴感印象推定の試み―比較判断の重み付けによる精度向上の検討―Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 1091 - 1092, Japanese深層学習を用いた歌声合成の検討Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 957 - 960, Japanese議論システムにおける言語モデルを用いた賛成/反対意見の自動生成手法の検討Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 2019, 549 - 552, Japanese音声明瞭度に関連した脳磁界反応の時空間特徴量Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 1095 - 1098, Japanese音響特徴量補正による構音障害者を対象としたDNN音声合成Research society
- 言語処理学会, Mar. 2019, 言語処理学会 第25回年次大会 発表論文集, 1133 - 1136, JapaneseResearch society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 963 - 966, Japaneseユーザーの発話意図理解に基づくインタビュー発話の生成Research society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 961 - 962, Japaneseマルチタスク学習による雑談対話システムへの知識付与Research society
- Mar. 2019, 情報処理学会第81回全国大会講演論文集, 549 - 550, Japaneseゼロショット学習を用いた一般物体セグメンテーションResearch society
- Mar. 2019, 日本音響学会2019年春季研究発表会講演論文集, 1125 - 1128, EnglishSpeech Prosody Conversion using Sequence Generative Adversarial Nets with Continuous Wavelet Transform F0 featuresResearch society
- Mar. 2019, APSIPA TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSING, 8, English[Refereed]Scientific journal
- Mar. 2019, 電子情報通信学会技術研究報告, 118(497) (497), 335 - 340, JapaneseEnd-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張Symposium
- Mar. 2019, 情報処理学会第81回全国大会講演論文集, 543 - 544, JapaneseAffinity graphを用いた神経細胞画像セグメンテーションResearch society
- Feb. 2019, IEEE TRANSACTIONS ON MULTIMEDIA, 21(2) (2), 300 - 313, English[Refereed]Scientific journal
- Feb. 2019, International Workshop on Frontiers of Computer Vision, EnglishExemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks[Refereed]International conference proceedings
- Feb. 2019, International Workshop on Frontiers of Computer Vision, EnglishEntropy policy for supervoxel agglomeration of neurite segmentation[Refereed]International conference proceedings
- Jan. 2019, Journal of Risk and Financial Management, 12(1) (1), 9 - 9, English[Refereed]Scientific journal
- Institute of Electrical and Electronics Engineers (IEEE), 2019, IEEE Access, 7, 164320 - 164326[Refereed]Scientific journal
- 2019, IEEE Trans. Multimedia, 21(2) (2), 300 - 313[Refereed]Scientific journal
- Jan. 2019, EURASIP Journal on Image and Video Processing, EnglishSemantic embeddings of generic objects for zero-shot learning[Refereed]Scientific journal
- Nov. 2018, Proceedings - International Conference on Pattern Recognition, 2018-August, 830 - 835, English[Refereed]International conference proceedings
- Recently, brain computer interface (BCI) technologies that control external devices with human brain signals have been developed. However, most of the BCI systems, such as P300-speller, can only discriminate among options that have been given in advance. Therefore, the ability to decode the state of a person's perception and recognition, as well as that person's fundamental intention and emotions, from cortical activity is needed to develop a more general-use BCI system. In this study, two experiments were conducted. First, articulations were measured for Japanese monosyllabic utterances masked by several levels of noise. Second, auditory brain magnetic fields evoked by the monosyllable stimuli used in the first experiment were recorded, and neuronal current sources were localized in regions associated with speech perception and recognition - the auditory cortex (BA41), the Wernicke's area (posterior part of BA22), Broca's area (BA22), motor (BA4), and premotor (BA6) areas. Although the source intensity did not systematically change with SNR, the peak latency changed along SNR in the posterior superior temporal gyrus in the right hemisphere. The results suggest that the information associated with articulation is processed in this area.Jul. 2018, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2018, 1066 - 1069, English, International magazine[Refereed]Scientific journal
- (一社)日本小児精神神経学会, Apr. 2018, 小児の精神と神経, 58(1) (1), 74 - 75, Japanese小児期における線描スキルの定量的評価に関する研究[Refereed]
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 2018, 305 - 308, Japanese非負値行列因子分解を用いた脳磁界データから音声の復元Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 211 - 214, Japanese非負値タッカー分解によるNMF辞書学習に基づく非パラレル声質変換Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 169 - 172, Japanese単語の分散表現を用いた意味予測に基づく雑談応答生成Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 267 - 270, Japanese構音障害者を対象としたDNN音声合成に関する言語特徴量の検討Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 275 - 278, Japanese構音障害者の少量学習データによる音声合成の検討Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 309 - 312, Japanese顔画像特徴量を用いた統計的手法によるF0推定Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1291 - 1294, Japanese音想起に伴う脳磁界反応:等しいエンベロープをもつ音声と純音の比較Research society
- Mar. 2018, 電子情報通信学会技術研究報告, 117(517) (517), 81 - 86, Japanese音想起に係る脳磁界反応の比較 ~ 等しいエンベロープをもつ音声と純音 ~Symposium
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 2018, 1329 - 1332, Japanese音声明瞭度に関連した大脳皮質活動の時空間的遷移Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 597 - 600, Japaneseハイスピード映像からの音源復元のための物体振動抽出手法の検討Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 201 - 204, Japaneseニュース情報検索システム「NetTv」のための議論対話システムー賛否判定と根拠推定に基づく議論ーResearch society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 2018, 755 - 758, Japaneseエアコン音の聴感印象推定のためのコヒーレンス解析に基づく脳活動特徴量抽出Research society
- Mar. 2018, IPSJ SIG-CVIM, 1 - 4, EnglishVisually grounded word embeddings for zero-shot learning of visual categoriesSymposium
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 347 - 350, JapaneseLipNet構造を用いた唇画像から音声への変換Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 365 - 368, EnglishEMOTIONAL VOICE CONVERSION WITH WAVELET TRANSFORM USING DUAL SUPERVISED ADVERSARIAL NETWORKSResearch society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 593 - 596, JapaneseConvolutional Neural Networksによる物体の微小振動からの音声復元Research society
- Mar. 2018, 日本音響学会2018年春季研究発表会講演論文集, 173 - 176, JapaneseAttention-based LSTMを用いた音声質問応答システムにおけるユーザーの質問意図理解Research society
- Feb. 2018, International Workshop on Frontiers of Computer Vision, 4 pages, EnglishZero-shot learning using dictionary definitions[Refereed]International conference proceedings
- Feb. 2018, International Workshop on Frontiers of Computer Vision, 4 pages, EnglishSatellite Image Semantic Segmentation Using Fully Convolutional Network[Refereed]International conference proceedings
- Feb. 2018, International Workshop on Frontiers of Computer Vision, 4 pages, EnglishEstimation of Object Functions Using Visual Attention[Refereed]International conference proceedings
- Springer, Jan. 2018, Journal of Computational Social Science, 1(1) (1), 167 - 185, English[Refereed]Scientific journal
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 1309 - 1312, Japanese非負値行列因子分解に基づく構音障害者音声の高域付加の検討Research society
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 885 - 888, Japanese脳磁界データの空間的特徴を考慮した想起音声の識別Research society
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 1201 - 1204, Japanese深層学習を用いた歌声音声の帯域強調の検討Research society
- 2018, 人工知能学会 言語・音声理解と対話処理研究会, 82 - 83, Japanese議論システムにおける賛成/反対意見の生成手法の検討Symposium
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 1033 - 1036, Japanese議論システムにおける賛成/反対意見の生成のための発話のベクトル化手法の検討Research society
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 485 - 488, Japanese音声明瞭度に関連した脳磁界反応:聴覚野および知覚性言語野の活動解析Research society
- 2018, 電子情報通信学会技術研究報告, 118(112) (112), 19 - 24, Japanese映像中の物体振動モードを利用した音源復元Symposium
- 2018, 人工知能学会 言語・音声理解と対話処理研究会, 84 - 85, Japaneseユーザーの発話意図理解に基づくインタビュー発話の 生成に向けてSymposium
- 2018, APSIPA, 1752 - 1755, EnglishUser's Intention Understanding in Question-Answering System Using Attention-based LSTM[Refereed]International conference proceedings
- 2018, IEEE ISM, 167 - 170, EnglishSpectrum Enhancement of Singing Voice Using Deep Learning[Refereed]International conference proceedings
- 2018, APSIPA, 2027 - 2031, EnglishSound Recovery Using Vibration Modes of the Object in a Video[Refereed]International conference proceedings
- 2018, IEEE ISM, 171 - 174, EnglishSound Recovery Considering the Vibration Direction of an Object in a Video[Refereed]International conference proceedings
- IEEE, 2018, IEEE ICASSP, 5294 - 5298, English[Refereed]International conference proceedings
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 1191 - 1194, JapaneseNeutral-to-Emotional Voice Conversion with Latent Representations of F0 using Generative Adversarial NetworksResearch society
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 2018, 381 - 384, JapaneseMultilinear Discriminant Analysisを用いた聴感印象推定のための脳活動特徴量抽出Research society
- 2018, APSIPA, 1761 - 1765, EnglishHybrid Text-to-Speech for Articulation Disorders with a Small Amount of Non-Parallel Data[Refereed]International conference proceedings
- 2018, International Workshop on Spoken Dialog System Technology, EnglishDebate Dialog for News Question Answering System ‘NetTv’ -Debate Based on Claim and Reason Estimation-[Refereed]International conference proceedings
- 2018, 日本音響学会2018年秋季研究発表会講演論文集, 1185 - 1188, JapaneseCycleGANに基づくノンパラレル声質変換を用いた構音障害者音声合成Research society
- 2018, International Workshop on Spoken Dialog System Technology, EnglishChat Response Generation Based on Semantic Prediction Using Distributed Representations of Words[Refereed]International conference proceedings
- 2018, 電子情報通信学会技術研究報告, 118(198) (198), 9 - 14, JapaneseAttention-based LSTMを用いた意図理解とキーワード抽出の統合による質問応答システムSymposium
- (一社)日本小児精神神経学会, Nov. 2017, 日本小児精神神経学会プログラム・抄録集, 118回, 41 - 41, Japanese小児期における線描スキルの定量的評価に関する研究
- Nov. 2017, SIGNAL IMAGE AND VIDEO PROCESSING, 11(8) (8), 1485 - 1492, English[Refereed]Scientific journal
- Oct. 2017, PERCEPTUAL AND MOTOR SKILLS, 124(5) (5), 961 - 973, English[Refereed]Scientific journal
- 電子情報通信学会, Aug. 2017, 電子情報通信学会技術研究報告, 117(189) (189), 39 - 43, JapaneseDiscrimination and Feature Estimation of Brain Magnetic Field Data Associated with Japanese Speech Sound ImagerySymposium
- 電子情報通信学会, Aug. 2017, 電子情報通信学会技術研究報告, 117(189) (189), 61 - 66, JapaneseExtraction of brain activities related to impressions induced by HVAC sound using discriminant non-negative tensor factorizationSymposium
- Aug. 2017, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2017, 1 - 13, English[Refereed]Scientific journal
- Brain computer interface (BCI) technologies, which enable direct communication between the brain and external devices, have been developed. BCI technology can be utilized in neural prosthetics to restore impaired movement, including speech production. However, most of the BCI systems that have been developed are the "P300-speller" type, which can only detect objects that users direct his/her attention at. To develop more versatile BCI systems that can detect a user's intention or thoughts, the brain responses associated with verbal imagery need to be clarified. In this study, the brain magnetic fields associated with auditory verbal imagery and speech hearing were recorded using magnetoencephalography (MEG) carried out on 8 healthy adults. Although the magnetic fields lagged slightly and were long-lasting, significant deflections were observed even for verbal imagery, in the temporal regions, as well as for actual speech hearing. Also, sources for the deflections were localized in the association auditory cortices. Cross-correlations were calculated between envelopes of the imagined/presented speech sound and the evoked brain responses in the temporal areas. Measurable correlations were obtained for the presented speech sound; however, no significant correlations were observed for the imagined speech sound. These results indicate that auditory verbal imagery undoubtedly activates the auditory cortex, at least, and generates some observable neural responses.Jul. 2017, Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, 2017, 2542 - 2545, English, International magazine[Refereed]Scientific journal
- (一社)日本小児神経学会, May 2017, 脳と発達, 49(Suppl)(Suppl.) (Suppl.), S469 - S469, Japanese[Refereed]Research society
- 電子情報通信学会, Mar. 2017, 電子情報通信学会技術研究報告, 116(477) (477), 301 - 306, Japanese話者性を維持した構音障害者のためのHMM音声合成システムSymposium
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 159 - 162, Japanese料理アシスト対話システムにおけるユーザ発話のクラス分類Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 2017, 539 - 542, Japanese脳磁界計測を用いたエアコン音の聴感印象推定の試み ―比較判断を用いた印象予測モデルの学習―Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1515 - 1518, Japanese脳磁界計測による音声明瞭度に関連した皮質活動の推定Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 95 - 98, Japanese適応型Gaussian-Gaussian RBMを用いた構音障害者音声認識Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 359 - 362, Japanese声質変換のための音素識別的特徴量Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 363 - 366, Japanese声質変換における非周期性指標の影響とその評価Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 373 - 376, Japanese最尤変換による唇動画像からの音声生成Research society
- 電子情報通信学会, Mar. 2017, 電子情報通信学会技術研究報告, 116(477) (477), 321 - 326, Japanese構音障害者音声認識のための適応型restricted Boltzmann machineを用いた特徴量抽出Symposium
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 267 - 270, Japanese構音障害者のための話者性を維持したHMM音声合成システムの提案Research society
- 電子情報通信学会, Mar. 2017, 電子情報通信学会技術研究報告, 116(477) (477), 307 - 312, Japanese構音障害者のためのDurationを含んだ統計的声質変換Symposium
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 557 - 558, Japanese音源復元のための映像中の微小振動方向の解析Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 2017, 1523 - 1526, Japanese音の想起に伴う脳磁界反応:想起音の基礎パラメータの影響の検討Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 163 - 166, Japaneseユーザーに対話的なサポートを行うシステム -オセロゲームの場合について-Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 155 - 158, Japaneseニュース情報検索「NetTv」における質問種別の推定Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 285 - 288, JapaneseDNNを用いた聴覚障害者の音声合成の検討Research society
- Mar. 2017, 日本音響学会2017年春季研究発表会講演論文集, 377 - 380, EnglishArbitrary-scales continuous wavelet transform for emotional voice conversionResearch society
- Feb. 2017, International Workshop on Frontiers of Computer Vision, 1 - 4, EnglishVisual Sound Recovery Using Momentary Phase Variations[Refereed]International conference proceedings
- Feb. 2017, International Workshop on Frontiers of Computer Vision, 1 - 4, EnglishFeature Extraction and Classification of Multispectral Imagery by Using Convolutional Neural Network[Refereed]International conference proceedings
- Feb. 2017, International Workshop on Frontiers of Computer Vision, 1 - 4, EnglishEstimation of Object Functions Focusing on Feature of Object Parts[Refereed]International conference proceedings
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 337 - 340, Japanese脳磁界データによる想起音声の識別 -次元数削減による精度向上の検討-Research society
- 2017, 人工知能学会 言語・音声理解と対話処理研究会, 90 - 91, Japanese人の理解や習熟をサポートする音声質問応答システムSymposium
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 281 - 284, Japanese深層学習による位相情報を考慮した音声合成の検討Research society
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 119 - 122, Japanese重度難聴者音声認識のためのDeep Canonical Correration Analysisを用いた音響特徴量抽出の検討Research society
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 683 - 686, Japanese音声明瞭度に関連した脳磁界計測 -聴覚野および運動野における活動源解析-Research society
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 141 - 144, Japaneseユーザー支援を目的とした音声質問応答システムResearch society
- 2017, 人工知能学会 言語・音声理解と対話処理研究会, 92 - 93, Japaneseニュース情報検索システム「NetTv」における議論対話システム実現のためのユーザ主張・根拠の推定Symposium
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 2017, 573 - 576, Japaneseエアコン音の聴感印象推定のための比較判断を考慮した脳活動特徴量抽出Research society
- 2017, IAPR International Conference on Machine Vision Applications, 488 - 491, EnglishVisual-to-Speech Conversion Based on Maximum Likelihood Estimation[Refereed]International conference proceedings
- 2017, First International Workshop on Symbolic-Neural Learning, 1 - 6, EnglishSemantic Web and Zero-Shot Learning of Large Scale Visual Classes[Refereed]International conference proceedings
- International Speech Communication Association, 2017, Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2017-, 3374 - 3378, English[Refereed]International conference proceedings
- 2017, 1st International Workshop on Challenges in Hearing Assistive Technology, 95 - 99, EnglishIndividuality-Preserving Speech Synthesis System for Hearing Loss Using Deep Neural Networks[Refereed]International conference proceedings
- IEEE Computer Society, 2017, The Second Workshop on Human Identification in Multimedia, 657 - 662, English[Refereed]International conference proceedings
- Japanese Society for Medical and Biological Engineering, 2017, Transactions of Japanese Society for Medical and Biological Engineering, 55(0) (0), 522 - 523, English
The evaluation of subjective impressions induced by environmental sounds using neurophysiological indices has been proposed in recent years. In this paper, we focus on the evaluation of HVAC (heating, ventilation and air conditioning) sounds, and models that predict subjective coolness/preference induced by time-varying HVAC sound from brain activities were constructed. First, magnetoencephalographic (MEG) measurements were carried out to measure brain activities while hearing HVAC sound with paired comparison task. Second, feature vectors representing time-frequency components of brain activities on the whole head were extracted from MEG data using the time-frequency analysis and nonnegative tensor factorization (NTF). And third, two kinds of predictive model were constructed from the brain feature vectors and comparative judgments to pairs of stimuli using a regression model or an SVM-based method. Evaluation experiments show that the SVM-based method is more effective than the regression model.
Research society - 2017, 日本音響学会2017年秋季研究発表会講演論文集, 227 - 230, EnglishEmotional Voice Conversion with Adaptive Scales F0 based on Wavelet Transform using Limited Amount of Emotional DataResearch society
- ISCA, 2017, Interspeech, 3399 - 3403, EnglishEmotional Voice Conversion with Adaptive Scales F0 Based on Wavelet Transform Using Limited Amount of Emotional Data.[Refereed]International conference proceedings
- 2017, 日本音響学会2017年秋季研究発表会講演論文集, 305 - 308, JapaneseCNN-LSTMを用いた唇画像から音声への変換Research society
- 2017, 1st International Workshop on Challenges in Hearing Assistive Technology, 71 - 81, EnglishAudio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis[Refereed]International conference proceedings
- IEEE Computer Society, 2017, Proceedings of the 2017 IEEE International Conference on Multimedia and Expo (ICME 2017), 601 - 606, English[Refereed]International conference proceedings
- Nov. 2016, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 24(11) (11), 2032 - 2045, English[Refereed]Scientific journal
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 229 - 232, Japanese話速補正に基づく話者性を維持した構音障害者のための音声合成システムResearch society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 277 - 280, Japanese複素NMFを用いた声質変換の検討Research society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 155 - 158, Japanese非負値行列因子分解に基づく声質変換のためのGraph Embeddingを用いたパラレル辞書学習Research society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 273 - 276, Japanese非負値行列因子を用いたマルチモーダル声質変換における画像特徴量の検討Research society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 673 - 676, Japanese脳磁界計測を用いたエアコン音の聴感印象推定の試み -非負値テンソル分解による関連脳活動の抽出-Research society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 2016, 621 - 624, Japanese脳磁界データからの想起音声の判別に係る特徴量の推定 -ウェーブレット変換とSVMによる解析-Research society
- Sep. 2016, 日本音響学会2016年秋季研究発表会講演論文集, 109 - 112, JapaneseFactored 3-Way Restricted Boltzmann Machine を用いたマルチモーダル音声認識の検討Research society
- Sep. 2016, ISCA Speech Synthesis Workshop, 153 - 158, EnglishEmotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform[Refereed]International conference proceedings
- Sep. 2016, Workshop on Speech and Language Processing for Assistive Technologies, 75 - 79, EnglishDysarthric Speech Modification Using Parallel Utterance Based on Non-negative Temporal Decomposition[Refereed]International conference proceedings
- 電子情報通信学会, Aug. 2016, 電子情報通信学会技術研究報告, 116(189) (189), 37 - 40, JapaneseExtraction of brain activity related to auditory impressions induced by HVAC sound using non-negative tensor decompositionSymposium
- Aug. 2016, MIRU 2016, PS2-48, EnglishSIFT Boosting for Handwriting RecognitionInternational conference proceedings
- Aug. 2016, IEEE/ACM Transactions on Audio, Speech and Language Processing, 23(3) (3), 1 - 14, EnglishNon-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine[Refereed]Scientific journal
- 電子情報通信学会, Aug. 2016, 電子情報通信学会技術研究報告, 116(189) (189), 59 - 64, JapaneseDiscriminative Graph-embedded Non-negative Matrix Factorizationを用いた声質変換のためのパラレル辞書学習Symposium
- Jul. 2016, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 24(7) (7), 1175 - 1184, English[Refereed]Scientific journal
- 日本生体磁気学会, Jun. 2016, 第31回日本生体磁気学会大会論文集, 29(1) (1), 104 - 105, Japanese音声想起に伴う誘発脳磁界の時空間的特性Research society
- Jun. 2016, 第31回日本生体磁気学会大会論文集, 29(1) (1), 74 - 75, Japaneseエアコン音の聴感印象と自発脳磁界のERS/ERDの関係Research society
- Institute of Electrical and Electronics Engineers Inc., May 2016, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2016-(ICASSP) (ICASSP), 5170 - 5174, English[Refereed]International conference proceedings
- Institute of Electrical and Electronics Engineers Inc., May 2016, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2016-(ICASSP) (ICASSP), 1327 - 1331, English[Refereed]International conference proceedings
- May 2016, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E99D(5) (5), 1375 - 1383, English[Refereed]Scientific journal
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, Japanese音素選択型スペクトル補正に基づく話者性を維持した構音障害者のための音声合成システムResearch society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 2016-3, 531 - 532, Japanese音声想起による誘発脳磁界の計測Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 1309 - 1310, Japaneseハイスピード映像中の物体振動を利用したvisual microphoneの検討Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 99 - 102, Japaneseタスク指向型対話システムにおける強化学習とニューラルネットワークの比較Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 321 - 324, Japaneseスパースパラレル学習を用いたマルチモーダル声質変換Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 511 - 514, Japaneseエアコン音の聴感印象関連領域の探索 -脳磁界の時間周波数解析に基づく推定-Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 299 - 302, JapaneseRestricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 351 - 354, EnglishEmotional Speech Conversion Using Deep Neural NetworksResearch society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 325 - 328, JapaneseAlternating Direction Method of MultipliersによるNMF声質変換のためのパラレル辞書学習Research society
- Mar. 2016, 日本音響学会2016年春季研究発表会講演論文集, 333 - 336, JapaneseADMMを用いたNMFによる雑音環境下での少量パラレルデータ声質変換Research society
- Feb. 2016, Korea-Japan joint Workshop on Frontiers of Computer Vision, EnglishEstimation of Object Functions Using Convolutional Neural Network[Refereed]International conference proceedings
- 2016, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 1327 - 1331, EnglishMODELING DEEP BIDIRECTIONAL RELATIONSHIPS FOR IMAGE CLASSIFICATION AND GENERATION[Refereed]International conference proceedings
- 2016, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 5170 - 5174, EnglishSEMI-NON-NEGATIVE MATRIX FACTORIZATION USING ALTERNATING DIRECTION METHOD OF MULTIPLIERS FOR VOICE CONVERSION[Refereed]International conference proceedings
- 2016, COMPUTER AND INFORMATION SCIENCE, 656, 27 - 40, English[Refereed]International conference proceedings
- 2016, American Journal of Signal Processing, 6(1) (1), 19 - 23, EnglishPhone Labeling Based on the Probabilistic Representation for Dysarthric Speech Recognition[Refereed]Scientific journal
- 2016, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 983 - 988, English[Refereed]International conference proceedings
- 2016, 2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 971 - 976, English[Refereed]International conference proceedings
- IEEE Computer Society, 2016, International Conference on Computer and Information Science, 1 - 5, English[Refereed]International conference proceedings
- 2016, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 08-12-September-2016, 292 - 296, English[Refereed]International conference proceedings
- 2016, 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 08-12-September-2016, 277 - 281, English[Refereed]International conference proceedings
- 2016, EURASIP J. Image and Video Processing, 2016(1) (1), 37 - 37, English[Refereed]Scientific journal
- Springer, 2016, Workshop on Computer Vision for Affective Computing, 517 - 530, English[Refereed]International conference proceedings
- Nov. 2015, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), 1 - 9, English[Refereed]Scientific journal
- Sep. 2015, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), English[Refereed]Scientific journal
- Sep. 2015, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2749 - 2753, English[Refereed]Scientific journal
- Aug. 2015, The 23rd European Signal Processing Conference (EUSIPCO), 1426 - 1430, EnglishFeature Extraction Using Pre-Trained Convolutive Bottleneck Nets for Dysarthric Speech Recognition[Refereed]International conference proceedings
- Association for Computing Machinery, May 2015, ACM Transactions on Accessible Computing, 6(4) (4), English[Refereed]Scientific journal
- Institute of Electrical and Electronics Engineers Inc., Mar. 2015, IEEE Transactions on Audio, Speech and Language Processing, 23(3) (3), 580 - 587, English[Refereed]Scientific journal
- Mar. 2015, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 23(3) (3), 580 - 587, English[Refereed]Scientific journal
- Mar. 2015, EURASIP JOURNAL ON IMAGE AND VIDEO PROCESSING, 2015(1) (1), 1 - 12, English[Refereed]Scientific journal
- Feb. 2015, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015(1) (1), English[Refereed]Scientific journal
- 2015, COMPUTER VISION - ACCV 2014 WORKSHOPS, PT II, 9009, 629 - 643, English[Refereed]International conference proceedings
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 381 - 382, Japanese話者適応に基づく日本人英語発話の認識、合成Research society
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 223 - 236, Japanese話者正規化学習に基づく潜在的音韻情報を考慮した音声モデリングによる非パラレル声質変換Research society
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 389 - 392, Japanese非負値行列因子分解に基づく唇動画像からの音声生成Research society
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 485 - 488, Japanese脳磁界計測を用いたエアコン音の聴感印象推定の試み -線形回帰による関連脳活動の抽出-Research society
- 2015, 電子情報通信学会技術研究報告, 115(253) (253), 1 - 6, Japanese任意話者を対象としたExemplar-based声質変換Symposium
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 279 - 282, Japanese適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換Research society
- 2015, 電子情報通信学会技術研究報告, 115(346) (346), 7 - 12, Japanese制約付きThree-Way Restricted Boltzmann Machineを用いた音響・音韻・話者情報の同時モデリングSymposium
- 2015, 電子情報通信学会技術研究報告, 115(253) (253), 39 - 43, Japanese状態空間の分割と状態遷移の学習に基づく Parallel POMDPの評価Symposium
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 185 - 188, Japanese状態空間の分割と状態遷移の学習に基づくParallel POMDPResearch society
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 393 - 396, Japanese少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換Research society
- 2015, 電子情報通信学会技術研究報告, 115(99) (99), 71 - 76, Japanese構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討Symposium
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 1243 - 1246, Japanese構音障害者音声認識のための確率表現に基づく音素ラベリングの検討Research society
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 193 - 196, Japanese階層的POMDPを用いた商品検索型音声対話システムの検討Research society
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 285 - 288, Japaneseβ-NMFを用いた唇動画像からの音声生成Research society
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 267 - 270, Japaneseスペクトル補正に基づく話者性を維持した構音障害者のための音声合成システムResearch society
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 503 - 504, Japaneseエアコン音の時間変動が主観印象および大脳皮質活動に及ぼす影響Research society
- 2015, International Joint Conference on Artificial Intelligence, EnglishWord-Error Correction of Continuous Speech Recognition based on Normalized Relevance Distance[Refereed]International conference proceedings
- 2015, MLSLP, EnglishSPOKEN DIALOGUE SYSTEM FOR PRODUCT RECOMMENDATION USING HIERARCHICAL POMDP[Refereed]International conference proceedings
- 2015, 2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 2015-August, English[Refereed]International conference proceedings
- IEEE, 2015, APSIPA, 196 - 199, English[Refereed]International conference proceedings
- 2015, IEEE EMBC, EnglishRelationships between Subjective Auditory Impression and Brain Cortical Activities for Time-varying HVAC Sound[Refereed]International conference proceedings
- 2015, MLSLP, EnglishParallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine[Refereed]International conference proceedings
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 31 - 34, JapaneseNormalized Similarity Distance を用いた音声認識の謝り訂正Research society
- 2015, 日本音響学会2015年秋季研究発表会講演論文集, 163 - 166, JapaneseNormalized Relevance Distance を用いた音声認識の誤り訂正Research society
- 2015, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 315 - 319, English[Refereed]International conference proceedings
- 2015, 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 2015-December, 1235 - 1239, English[Refereed]International conference proceedings
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 275 - 278, JapaneseMultiple Non-negative Matrix Factorizationに基づく多対一声質変換Research society
- 2015, 2015 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA), English[Refereed]International conference proceedings
- 2015, MLSLP, EnglishLIP-TO-SPEECH SYNTHESIS USING LOCALITY-CONSTRAINT NON-NEGATIVE MATRIX FACTORIZATION[Refereed]International conference proceedings
- 2015, ICMI'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, 343 - 346, English[Refereed]International conference proceedings
- 2015, SLPAT, EnglishIndividuality-Preserving Spectrum Modification for Articulation Disorders Using Phone Selective Synthesis[Refereed]International conference proceedings
- 2015, ISEM, EnglishHome Appliance Control Using Speech Recognition for a Person with an Articulation Disorder[Refereed]International conference proceedings
- 2015, 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 1411 - 1415, English[Refereed]International conference proceedings
- 2015, 2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII), 636 - 642, English[Refereed]International conference proceedings
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 3 - 6, JapaneseDeep Boltzmann Machine を用いた音素ラベル情報推定Research society
- 2015, 日本音響学会2015年春季研究発表会講演論文集, 197 - 200, JapaneseConvolutional Neural Networkを用いた重度難聴者のマルチモーダル音声認識Research society
- 2015, ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 443 - 446, English[Refereed]International conference proceedings
- Information Processing Society of Japan, 2015, IPSJ Transactions on Computer Vision and Applications, 7, 64 - 68, English[Refereed]Scientific journal
- 2015, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015-August, 4899 - 4903, English[Refereed]International conference proceedings
- Jan. 2015, American Journal of Signal Processing, 5(1) (1), 1 - 5, EnglishInvestigation of Classification Using Pitch Features for Children with Autism Spectrum Disorders and Typically Developing Children[Refereed]Scientific journal
- 2015, 2015 21ST KOREA-JAPAN JOINT WORKSHOP ON FRONTIERS OF COMPUTER VISION, English[Refereed]International conference proceedings
- Sep. 2014, Proceedings of the 15th Conference of the International Speech Communication Association (Interspeech 2014), EnglishError Correction of Automatic Speech Recognition Based on Normalized Web Distance[Refereed]International conference proceedings
- Jun. 2014, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1403 - 1410, English[Refereed]Scientific journal
- Jun. 2014, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D(6) (6), 1411 - 1418, English[Refereed]Scientific journal
- Jun. 2014, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, EnglishParallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion[Refereed]Scientific journal
- (一社)日本小児神経学会, May 2014, 脳と発達, 46(Suppl.) (Suppl.), S282 - S282, Japanese
- 話者適応を用いたNMFによる声質変換本稿では,話者適応を用いたNMFによる声質変換手法を提案する.我々が提案してきた従来のNMFによる声質変換手法では,入力話者と出力話者の同一発話内容のパラレルデータを用いることが前提となっていた.つまり,対応する任意の話者の大量のデータをあらかじめ用意しておかなければならないという問題点があった.そこで,出力話者の少量の音声データのみを辞書適応に用いることで,入力話者辞書から出力話者辞書を生成する手法を提案する.評価実験では,話者適応を用いた本手法の有効性を示す.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 421 - 424, JapaneseResearch society
- 様々なRandom行列を用いた構音障害者の音声特徴量抽出提案手法では,様々な分布から作成したランダム写像行列を用いて音声特徴量を変換することで,認識結果がどのように変化するのかを見る.各々の特徴量を用いて音声認識を行い,各認識結果を投票により統合することで最適な認識結果を得る.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 241 - 242, JapaneseResearch society
- 声質変換のための Restricted Boltzmann Machine を用いた パラレル辞書の学習法本稿では,スパース表現に基づく声質変換において,パラレル辞書の作成・選択を統一的な枠組みで行うために,結合型RBM(restricted Boltzmann machine)を用いた声質変換法を提案する.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 415 - 416, JapaneseResearch society
- 辞書選択型NMFを用いた構音障害者の話者性を維持した声質変換本論文ではアテトーゼ型構音障害者を対象として,辞書選択を用いたNMF声質変換による話者性を維持した声質変換を提案する.出力話者のカテゴリ辞書のうち,子音に関するカテゴリ辞書のみに健常者のスペクトルを用い,母音に関するカテゴリ辞書に障害者のスペクトルを用いることで,障害者の話者性を維持した声質変換を行う.以下,第2章で従来のNMF声質変換手法を説明する.第3章で本稿の提案手法を述べた後,第4章で従来のGMM・NMFによる声質変換手法と比較し,第5章で本稿をまとめる.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 459 - 462, JapaneseResearch society
- ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別本研究では,ピッチ特徴量を入力とし,SVMを用いて自閉症スペクトラム障害児と定型発達児の識別を行う.本稿では,ピッチ特徴量として,音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して,12種類の統計量を計算したものを用いて,区間分割による識別実験と単語毎の識別実験を行った.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 467 - 470, JapaneseResearch society
- Normalized web distanceを用いた音声認識誤り訂正法本稿では,従来のConfusion Networkに基づく音声認識誤り訂正で,ヌル遷移による短距離訂正の劣化と,文脈スコアを計算するためのコーパスの必要性という問題点を指摘し,これらの問題点を解決するために以下の2つのアプローチで認識誤りの削減をねらう.1つ目は,離れた単語も視野に入れ訂正する長距離文脈スコアとしてNormalized Web Distanceを用いる.Normalized Web Distanceは学習コーパスとして, World Wide Web,検索エンジンなど様々なデータベースを利用することができるため,コーパスを用意する必要がなく,計算も簡単にできるというメリットがある.2つ目は,短距離訂正で有効であるN-gram学習において,悪影響を及ぼすヌル遷移をテストデータから効率的に削除することにより,その効果を改善することで音声認Mar. 2014, 第8回音声ドキュメント処理ワークショップ, 1 - 7, JapaneseSymposium
- NMFに基づく音声と画像情報を用いた雑音下声質変換本稿では,雑音環境下に強いNMF基づく声質変換に唇画像特徴を組み込んだ手法を提案する.ここでは入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,入力話者の画像特徴から得られた唇画像辞書を導入することで変換精度をより向上させる.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 417 - 420, JapaneseResearch society
- Convolutive Bottleneck Network 特徴量を用いた構音障害者の音声認識本論文では,構音障害者を対象とした音声認識の実現に向けて,障害者音響モデルを用いた認識実験を行う.さらに,筋肉の緊張により発話が変動しやすいという障害者特有の問題に対して,ボトルネックの構成を持つCNN(CBN)を用いた特徴量抽出法を提案する.日本音響学会, Mar. 2014, 日本音響学会2014年春季研究発表会講演論文集, 237 - 240, JapaneseResearch society
- Feb. 2014, Transactions on Machine Learning and Artificial Intelligence, 2(1) (1), 46 - 60, EnglishHierarchical Sparse Representation for Object Recognition[Refereed]Scientific journal
- Feb. 2014, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2014, English[Refereed]Scientific journal
- 2014, 電子情報通信学会技術研究報告, 114(365) (365), 165 - 170, Japanese話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討Symposium
- 日本音響学会, 2014, 日本音響学会2014年秋季研究発表会講演論文集, 345 - 348, Japanese話者適応を用いたNMFによる雑音環境下の声質変換Research society
- 日本音響学会, 2014, 日本音響学会2014年秋季研究発表会講演論文集, 219 - 222, Japanese話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換Research society
- 2014, 日本音響学会2014年秋季研究発表会講演論文集, 109 - 110, Japanese発話に不自由のある聴覚障害者の発話音声認識の検討Research society
- 2014, 電子情報通信学会技術研究報告, 114(365) (365), 87 - 92, Japanese雑音環境下における特徴重み付マルチモーダル性質変換Symposium
- 日本音響学会, 2014, 日本音響学会2014年秋季研究発表会講演論文集, 83 - 86, Japanese遺伝的アルゴリズムを用いた 構音障害者の音声特徴量抽出に最適なランダム行列の生成Research society
- 日本音響学会, 2014, 日本音響学会2014年秋季研究発表会講演論文集, 349 - 352, Japaneseハイスピードカメラ画像を用いたマルチモーダルNMF声質変換Research society
- 2014, 電子情報通信学会技術研究報告, 114(52) (52), 343 - 348, Japaneseスパース表現に基づく声質変換のための結合型 restricted Boltzmann machineSymposium
- スパース表現に基づく声質変換と構音障害者への応用In recent years, approaches based on sparse representations have gained interest in a broad range of signal processing. For example, Non-negative Matrix Factorization (NMF) is a well-known sparse-based approach for source separation and speech enhancement. In this paper, a voice conversion technique based on a sparse representation of speech using NMF is introduced, and it is applied to a person with an articulation disorder resulting from athetoid cerebral palsy. Also, in this paper, a voice conversion method using restricted Boltzmann machine, which is an important technique for deep learning, is introduced.The Institute of Electronics, Information and Communication Engineers, 2014, 電子情報通信学会技術研究報告, 114(151) (151), 19 - 24, Japanese[Invited]Symposium
- スパース辞書学習による構音障害者の話者性を維持した声質変換We present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movement of such speakers is limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In our previous method, exemplar-based spectral conversion using Non-negative Matrix Factorization (NMF) was applied to a voice with an articulation disorder. To preserve the speaker's individuality, we used a combined dictionary that is constructed from the source speaker's vowels and target speaker's consonants. However, in this exemplar-based approach, source speaker's activity matrix which is estimated from input spectra and source speaker's exemplars are used as target speaker's. In this paper, we propose a sparse dictionary learning method for exemplar-based VC and estimate a mapping matrix between source speaker's activity and target speaker's activity. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional Gaussian Mixture Model (GMM)-based method and a conventional NMF-based method.The Institute of Electronics, Information and Communication Engineers, 2014, 電子情報通信学会技術研究報告, 114(91) (91), 39 - 44, JapaneseSymposium
- 日本音響学会, 2014, 日本音響学会2014年秋季研究発表会講演論文集, 223 - 226, Japaneseアクティビティマッピングによる非負値行列因子分解を用いた声質変換Research society
- 2014, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.10, 7889 - 7893, English[Refereed]International conference proceedings
- Institute of Electrical and Electronics Engineers Inc., 2014, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2014 Vol.10, 7894 - 7898, English[Refereed]International conference proceedings
- 2014, Advances in Computer Science and Engineering, 12(2) (2), 101 - 117, EnglishParallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion[Refereed]Scientific journal
- 2014, Workshops CV4AC, 1 - 15, EnglishNovel Continuous-multi-class Cascade for Real-Time Emotional Recognition[Refereed]International conference proceedings
- 2014, 第28回人工知能学会全国大会論文集, 1 - 4, JapaneseNormalized Web Distanceを用いた音声認識誤りの訂正法Research society
- 2014, 電子情報通信学会技術研究報告, 114(365) (365), 75 - 80, JapaneseMultiple Non-negative Matrix Factorization を用いた多対一声質変換Symposium
- 2014, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.2, 1542 - 1546, English[Refereed]International conference proceedings
- 2014, 15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4, 1159 - 1163, EnglishMultimodal Exemplar-based Voice Conversion using Lip Features in Noisy Environments[Refereed]International conference proceedings
- 2014, SLPAT, 29 - 37, EnglishIndividuality-preserving Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix Factorization[Refereed]International conference proceedings
- 2014, Interspeech, 2278 - 2282, EnglishHigh-Order Sequence Modeling Using Speaker-Dependent Recurrent Temporal Restricted Boltzmann Machines for Voice Conversion[Refereed]International conference proceedings
- 2014, 2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), English[Refereed]International conference proceedings
- 2014, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 2015-January(October) (October), 505 - 509, English[Refereed]International conference proceedings
- 2014, Advances in Computer Science and Engineering, 12(1) (1), 15 - 30, EnglishDepth Spatial Pyramid: a Pooling Method for 3D-Object Recognition[Refereed]Scientific journal
- 2014, Transactions on Machine Learning and Artificial Intelligence, 2(2) (2), 46 - 60, EnglishConvolutive Bottleneck Network with Dropout for Dysarthric Speech Recognition[Refereed]Scientific journal
- 2014, 2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 2015-January(October) (October), 1352 - 1357, English[Refereed]International conference proceedings
- 2014, 2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 4224 - 4228, English[Refereed]International conference proceedings
- 2014, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 Vol.10, 7894 - 7898, English[Refereed]International conference proceedings
- Acoustical Society of Japan, 2014, Acoustical Science and Technology, 35(4) (4), 181 - 191, English[Refereed]Scientific journal
- 話者依存型 Conditional Restricted Boltzmann Machine による声質変換本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとにconditional restricted Boltzmann machine (CRBM)を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ(パラレルデータである必要は無い)を用いて,入力話者,出力話者のCRBMを独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれのCRBMを通して話者依存高次元空間へ写像(CRBMの前方推論)し,その高次特徴量同士をNeural Network (NN)を用いて変換させる.NNの変換で得られた特徴量は,CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である電子情報通信学会, Dec. 2013, 電子情報通信学会技術研究報告, 113(366) (366), 83 - 88, JapaneseSymposium
- 辞書選択型非負値行列因子分解による構音障害者の声質変換本研究では,アテトーゼ型脳性麻痺による構音障害者を対象とし,筋肉の不随意運動を原因とする障害者の不安定な発話を聞き取りやすく変換することを目指す.従来の声質変換手法で最も一般的なのは,混合正規分布モデル(GMM)を用いた統計的手法であった.この手法は主に話者変換を目的として研究されてきたため,GMM声質変換を構音障害者の発話音声に適用し健常者の音声に変換した場合,障害者の話者性は別人のものに置き換わってしまう.「自分らしい声で話したい」という障害者のニーズに答えるため,本研究では従来の統計的モデルによる声質変換とは異なる,非負値行列因子分解(NMF)を用いたExemlpar-based声質変換を用いて,話者性を維持しつつ聞き取りやすい音声に変換する.これまでNMF声質変換では,入力音声フレームと,辞書から選ばれる基底の音素が必ずしも一致しないという問電子情報通信学会, Dec. 2013, 電子情報通信学会技術研究報告, 113(366) (366), 71 - 76, JapaneseSymposium
- 雑音環境下におけるセグメント特徴を考慮したNMFによる声質変換本報告では,雑音環境下に強いNMFによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書の線形結合で表現する.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.本手法では,NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる.実験結果より,雑音重畳音声に対して提案手法の有効性が示された.電子情報通信学会, Dec. 2013, 電子情報通信学会技術研究報告, 113(366) (366), 77 - 82, JapaneseSymposium
- ピッチ特徴量を用いた自閉症スペクトラム障害児と定型発達児の識別近年,自閉症スペクトラム障害の発生頻度の増加が注目されている.自閉症スペクトラム障害とは,自閉性障害,アスペルガー障害,特定不能の広汎性発達障害の総体である.これらの障害は多様な原因に基づいて発症するため根本的な治療は困難とされているが,この障害に特化した支援による早期療育の効果が報告されている.本研究では,自閉症スペクトラム障害の早期発見を音響的な側面から目指し,ピッチ特徴量をSVMの入力として識別実験を行った.ピッチ特徴量とは,音声データから得られたピッチ系列とそのデルタ系列のそれぞれに対して,25,50,75パーセンタイル,25-50と50-75パーセンタイルの差,平均,標準偏差,尖度,歪度,最大値,最小値,レンジという12の統計量を計算したものである.実験として,単語毎の識別,区間分割による識別,特徴分割による識別の3つの識別実験を行った.区電子情報通信学会, Dec. 2013, 電子情報通信学会技術研究報告, 113(366) (366), 35 - 40, JapaneseSymposium
- Oct. 2013, IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES, E96A(10) (10), 1946 - 1953, English[Refereed]Scientific journal
- 辞書選択に基づく非負値行列因子分解による声質変換本稿では,声質変換においてもっとも一般的な,音声スペクトルを特徴量とした話者変換をタスクとし,NMFを用いた声質変換手法の精度を向上させるため,辞書選択手法の導入を提案する.これまではパラレルデータの全フレームをそのまま辞書の基底として用いており,辞書のサイズが膨大となっていた.そのため,入力音声のフレームと,入力話者辞書から選ばれる基底の音素が必ずしも一致しないといった問題があった.そこで本稿では,入力・出力話者辞書を音素カテゴリに分けた副辞書を作成する.NMFを用いて音素カテゴリ認識を行い,選択した副辞書上でマッピングを行うことで声質変換を行う.日本音響学会, Sep. 2013, 日本音響学会2013年秋季研究発表会講演論文集, 1473 - 1476, JapaneseResearch society
- 時間変化を考慮した Deep Learning を用いた声質変換本研究では,Conditional Restricted Boltzmann Machine を用いて音声の時間的変化を捉え,Deep Learningの枠組みで声質変換を行う手法を提案する.日本音響学会, Sep. 2013, 日本音響学会2013年秋季研究発表会講演論文集, 1471 - 1472, JapaneseResearch society
- セグメント特徴を考慮したNMFを用いた雑音環境下の声質変換本稿では,雑音環境下に強いNMFによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,NMFにセグメント特徴を導入することで重み行列の推定の精度をより向上させる.実験では雑音重畳音声に対して,提案手法の有効性を示す.日本音響学会, Sep. 2013, 日本音響学会2013年秋季研究発表会講演論文集, 337 - 340, JapaneseResearch society
- MKL-SVMを用いた自閉症スペクトラム障害児と定型発達児の音響識別本稿では,自閉症スペクトラム障害の早期発見を音響的な側面から目指し,MKL-SVMを用いて自閉症スペクトラム障害児と定型発達児の音響識別を行う.日本音響学会, Sep. 2013, 日本音響学会2013年秋季研究発表会講演論文集, 397 - 400, JapaneseResearch society
- Convolutional Neural Networksを用いた構音障害者のための音声認識提案手法では,音声のスペクトログラムから得られた2次元特徴を入力層,入力層の音素情報を要素として持つベクトルを出力層とするConvolutional Neural Networks (CNN) を構築し,特徴量抽出に用いる.日本音響学会, Sep. 2013, 日本音響学会2013年秋季研究発表会講演論文集, 167 - 168, JapaneseResearch society
- Speech intonation in children with autism spectrum disorderSpeech intonation in children with autism spectrum disorderJapan Sciety of Child Neurology, Aug. 2013, Brain & Development, 2013(13) (13), English[Refereed]Scientific journal
- 単眼サッカー映像における時間状況グラフを用いた選手追跡本研究では,サッカー映像においてオクルージョンにロバストな選手追跡を行うために,時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する.従来のパーティクルフィルタによる選手追跡では,映像のフレーム間で複数選手の位置情報を用いていないため,一度対象を見失うと再度発見するのが困難であるという欠点があった.そこで,複数選手の位置情報を時間状況グラフとして表現しておき,これにガイドされる形でパーティクルフィルタを実行すれば,オクルージョンが生じても選手の誤検出を大幅に減らすことが期待できる.評価実験では,実際の視点固定単眼サッカー映像に対して追跡を行い,時間状況グラフを用いないパーティクルフィルタによる選手追跡(従来手法)と,提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した.その結果,従来手法に比べて提電子情報通信学会, Aug. 2013, 電子情報通信学会論文誌, J96-D(8) (8), 1854 - 1864, Japanese[Refereed]Scientific journal
- Robust Feature Extraction to Utterance Fluctuation of Articulation Disorders Based on Random ProjectionWe investigated the speech recognition of a person with an articulation disorder resulting from the athetoid type of cerebral palsy. The articulation of the first speech tends to become unstable due to strain on speech-related muscles, and that causes degradation of speech recognition. In this paper, we introduce a robust feature extraction method based on PCA (Principal ComponAug. 2013, 4th Workshop on Speech and Language Processing for Assistive Technologies, 129 - 133, English[Refereed]International conference proceedings
- Noise-Robust Voice Conversion Based on Spectral Mapping on Sparse SpaceThis paper presents a voice conversion (VC) technique for noisy environments based on a sparse representation of speech. In our previous work, we discussed an exemplar-based VC technique for noisy environments. In that report, source exemplars and target exemplars are extracted from the parallel training data, having the same texts uttered by the source and target speakers. TheInternational Speech Communication Association, Aug. 2013, 8th Speech Synthesis Workshop, 71 - 75, English[Refereed]International conference proceedings
- Individuality-Preserving Voice Conversion for Articulation Disorders Using Locality-Constrained NMFWe present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movements of such speakers are limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In this paper, exemplar-based spectral conversion using Non-negativeAug. 2013, 4th Workshop on Speech and Language Processing for Assistive Technologies, 3 - 8, English[Refereed]International conference proceedings
- 雑音環境下における非負値行列因子分解を用いた声質変換本稿では,雑音環境下に強いSparse Codingによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,より出力話者への音声へと近似させるため,ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする.実験では雑音重畳音声に対して,提案手法の有効性を示す.システム制御情報学会, May 2013, システム制御情報学会研究発表講演会講演論文集, (114-5) (114-5), 1 - 6, JapaneseResearch society
- Unknown Object Identification Using Category Visual Words with Rejection FunctionIn this paper, we introduce an identification method for unknown category objects. Most popular conventional methods in object recognition use Bag of Features (BoF) that represents the image as an appearance frequency histogram of common visual words by quantizing SIFT features. However, this method is unable to identify unknown objects because the common visual words cannot reIAPR, May 2013, International Conference on Machine Vision Applications, 375 - 378, English[Refereed]International conference proceedings
- 神戸大学都市安全研究センター, Mar. 2013, 神戸大学都市安全研究センター研究報告, (17) (17), 97 - 104, Japanese[Refereed]
- 非負値行列因子分解による構音障害者の話者性を維持した声質変換本研究では,脳性麻痺の一種であるアテトーゼ型構音障害者を対象とした話者性を維持した声質変換を提案する.アテトーゼ現象は意図的な動作に緊張状態を発生させるために,障害者の発話,特に子音が不安定になる.本稿では,非負値行列因子分解(Non-negative Matrix Factorization: NMF) を用いたExemplar-basedな声質変換を構音障害者の発話に適用し,不安定な発話音声をより聞き取りやすく変換することを目指す.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 333 - 336, JapaneseResearch society
- 自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討本論文では,幼稚園児から小学校4年生までの自閉症スペクトラム障害児を対象に,早期発見と早期療育を目指した音響的な側面による識別実験の結果に関して報告する.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 141 - 142, JapaneseResearch society
- 雑音環境下におけるSparse Coding 声質変換本稿では,雑音環境下に強いSparse Codingによる声質変換の手法を提案する.ここでは入力話者と出力話者それぞれの同一発話内容の音声の特徴量をサンプルとするパラレル辞書を構築する.更に,入力音声の発話前後の非音声区間から雑音辞書を構築し,入力として与えられる雑音重畳音声を入力音声辞書と雑音辞書のスパースな表現にする.この入力音声と辞書から推定される重み行列のうち,音声辞書に関する重みのみを取り出し,出力話者の音声サンプルから構築した出力音声辞書との線形結合をとる.更に本手法では,より出力話者への音声へと近似させるため,ここで得られる特徴量に対してGMM変換を適用することで出力話者の変換音声とする.実験では雑音重畳音声に対して,提案手法の有効性を示す.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 529 - 532, JapaneseResearch society
- Single-Channel Two-Talker Localization Using Model Composition本論文では単一マイクを用いた2話者の音源位置推定手法について提案する.我々はこれまで音響伝達特性の識別に基づく,単一マイクによる音源位置推定法を提案してきたが,それは話者が一人のみであることを前提とした手法であった.そこで本論文ではこれまで提案した枠組みを元に,新たに音響モデル合成を用いることで,単一マイクで2話者の音源位置推定を行う手法を提案する.提案手法では位置ごとの観測信号の音響伝達特性をあらかじめ推定し,そのモデルを学習しておく.そして,学習された音響伝達特性モデルと各話者の音響モデルを合成させることで,複数話者のそれぞれの位置における混合音声信号のモデルを作成する.その後,二人の話者が同時に発話した評価音声について,位置の組合せごとに合成された混合信号モデルとのゆう度を比較することでそれぞれの話者の位置を推定する.2話者位置推定の実験によりThe Institute of Electronics, Information and Communication Engineers, Mar. 2013, The IEICE transactions on information and systems (Japanese edetion), 96(3) (3), 675 - 685, Japanese[Refereed]Scientific journal
- ランダムプロジェクションを用いた構音障害音声の認識および誤り単語検出本研究では,アテトーゼ型の脳性麻痺による構音障害者を対象とした音声認識の実現を目指している.彼らは意図的な動作時や緊張状態にある場合に筋肉の制御が難しくなり,アテトーゼと呼ばれる不随意運動を伴う.アテトーゼ型の構音障害者の発話スタイルは健常者と大きく異なり,認識精度が著しく低下する.ランダムプロジェクションとは,空間写像の一手法で,その変換写像行列の各要素がある確率分布に従うランダムな値として定義される点に特徴を持つ.提案手法では,複数のランダム写像行列を用いて音声特徴量を変換する.各々の特徴量を用いて音声認識を行い,各認識結果を投票により統合することで最適な認識結果を得る.さらに,その投票結果に基づく正誤判定手法を紹介する.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 139 - 140, JapaneseResearch society
- スパース基底空間上のマッピングに基づく声質変換本稿では,これまでに提案してきた音声のスパース表現に基づく声質変換法において,入力音声と出力音声を同一のアクティビティで表現できるような部分空間を学習するNMFの枠組みを提案し,この空間上でマッピングを行うことで声質変換を行う手法を提案する.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 533 - 536, JapaneseResearch society
- Syntax情報とContext情報を用いた音声認識誤りの2段階訂正本稿では,単語ごとに付与した長距離文脈スコアを素性とし,Confusion Network上で音声認識自動誤り訂正を行う手法を提案する.従来,単語ごとに付与された長距離文脈情報を素性として音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題があった.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与することは,あまり好ましくない.したがって本研究では,長距離文脈情報を誤り訂正の素性として用いるために,始めにN-gram情報を用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し,2段階目の訂正を行うことで,音声認識精度を向上させる手法を提案する.実験により,提案する2段階訂正を行うことで,より効果的に長距離文脈情報を誤り訂正の素性として利用できること日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 221 - 224, JapaneseResearch society
- Specmurtを利用した調波構造行列による混合楽音解析の検討我々が耳にする楽曲の多くは様々な楽器が同時刻に存在する混合楽音である.しかし,Specmurt法は単一楽器の多重音の解析のみしか行うことができない.そこで我々は従来のSpecmurtを拡張し,複数の楽器の混合楽音から,各楽器に分離された音高を解析する新たな手法を提案する.各楽器に分離された音高を解析する新たな手法を提案する.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 843 - 844, JapaneseResearch society
- This paper introduces a multi-pitch analysis method using specmurt analysis without modeling the common harmonic structure pattern. Specmurt analysis is based on the idea that the fundamental frequency distribution is expressed as a deconvolution of the observed spectrum by the common harmonic structure pattern. To analyze the fundamental frequency distribution, the common harmResearch Institute of Signal Processing, Mar. 2013, Journal of Signal Processing, 17(2) (2), 29 - 38, English[Refereed]Scientific journal
- Deep Belief Nets による低次元空間表現を用いた声質変換の検討本稿では,DBNとNNを組み合わせて,話者性の取り除いた低次元空間で非線形変換を行う声質変換法を提案した.主観的・客観的に評価実験を行い,いずれの実験においても高い精度を示した.日本音響学会, Mar. 2013, 日本音響学会2013年春季研究発表会, 517 - 520, JapaneseResearch society
- 距離空間ピラミッドを用いたLLCによる3次元物体認識近年,高精度なRGB-Dカメラの登場により,高品質な3次元情報(色,奥行き情報)が容易に測定可能となった.これを用いた従来の物体認識手法は,奥行き情報を局所的特徴の抽出にしか使用していない.つまり,奥行き情報を取得することで物体の全体的な形状を把握することが可能であるにも関わらず,部分的な利用に留まっている.そこで,提案手法では,奥行き情報に基づく距離空間ピラミッドによって,全体的な物体形状を表現する手法を提案する.具体的には,距離空間ピラミッドでの特徴点の座標位置によって,奥行きの位相情報を含んだ特徴表現を実現する.また,距離画像から抽出する3次元局所特徴量として,HONV (Histogram of Oriented Normal Vectors)を用い,特徴量のコード化には,特徴空間座標系での近傍制限を利用したLLC (Locality-con電子情報通信学会, Feb. 2013, 電子情報通信学会技術研究報告, 43 - 48, JapaneseSymposium
- Feb. 2013, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 133(2) (2), 891 - 901, English[Refereed]Scientific journal
- 2013, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.3, 2080 - 2083, English[Refereed]International conference proceedings
- Acoustical Society of Japan, 2013, Acoustical Science and Technology, 34(3) (3), 176 - 186, English[Refereed]Scientific journal
- 2013, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.6, 4295 - 4299, English[Refereed]International conference proceedings
- 2013, 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 Vol.11, 8037 - 8040, English[Refereed]International conference proceedings
- 2013, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 369 - 372, EnglishVoice Conversion in High-order Eigen Space Using Deep Belief Nets[Refereed]International conference proceedings
- 2013, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3714 - 3717, EnglishTwo-step Correction of Speech Recognition Errors Based on N-gram and Long Contextual Information[Refereed]International conference proceedings
- 2013, 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 3604 - 3608, EnglishExemplar-based Individuality-Preserving Voice Conversion for Articulation Disorders in Noisy Environments[Refereed]International conference proceedings
- ACM, 2013, MM 2013 - Proceedings of the 2013 ACM Multimedia Conference, 661 - 664, English[Refereed]International conference proceedings
- 2013, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 495 - 498, EnglishVoice Conversion based on Non-negative Matrix Factorization in Noisy Environments[Refereed]International conference proceedings
- 2013, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 38 - 42, English[Refereed]International conference proceedings
- 2013, Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 14 - 21, English[Refereed]International conference proceedings
- 2013, 2013 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII), 490 - 494, EnglishAcoustic Feature Selection Utilizing Multiple Kernel Learning for Classification of Children with Autism Spectrum and Typically Developing Children[Refereed]International conference proceedings
- 音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより,単一マイクロホンで音源位置推定を行う手法を提案してきた.しかしこの手法は,事前に想定される音源位置毎に音響伝達特性を学習させる必要があり,学習していない位置の推定が困難であった.そこで本稿では,限られた位置の音響伝達特性を用いて,音響伝達特性から位置への回帰モデルを学習し,その回帰モデルにより未学習位置の推定を行う手法について検討する.回帰モデルとして,線形回帰である重回帰分析,非線形回帰であるGPR (Gaussian Process Regression),SVR (Support Vector Regression)を用い,さらにその学習方法として,評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し,その性電子情報通信学会, Dec. 2012, 電子情報通信学会技術研究報告, 112(369) (369), 75 - 80, JapaneseSymposium
- シンタックスとセマンティックスに基づく音声認識結果の2段階訂正本稿では,単語ごとに長距離文脈スコアを付与することで素性とし,Confusion Network上での音声認識自動誤り訂正手法を提案する.従来,単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題がある.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは,あまり好ましくない.したがって本稿では,文脈情報を誤り訂正の素性として用いるために,まずはシンタックスを用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し,2段階目の訂正を行うことで,より音声認識精度を向上させることを目的とする.電子情報通信学会, Dec. 2012, 電子情報通信学会技術研究報告, 112(369) (369), 149 - 154, JapaneseSymposium
- Sparse Coding を用いた唇情報からの音声変換唇の動きから発話内容を読み取る技術はリップリーディング(読唇)と呼ばれ,聴覚・言語障害者のコミュニケーション手段の一つとして用いられている.本研究では,Sparse Codingを用いて,唇動画像から対応する発話音声へテキスト情報なしで変換を行う.事前に音声を含んだ発話映像から唇情報と音声情報を抽出し,それぞれを基底の集合である辞書として学習する.このとき,二つの辞書行列は同一時系列であり,パラレルなデータである.入力された無音声の映像から抽出された唇情報は,Sparse Codingにより少数の基底の線形和で表される.唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで,音声の基底の線形和として音声が出力される.本稿では,唇情報から識別可能と考えられる母音について変換を行った.電子情報通信学会, Dec. 2012, 電子情報通信学会技術研究報告, 112(369) (369), 119 - 124, JapaneseSymposium
- GMM-Based Emotional Voice Conversion Using Spectrum and Prosody FeaturesWe propose Gaussian Mixture Model (GMM)-based emotional voice conversion using spectrum and prosody features. In recent years, speech recognition and synthesis techniques have been developed, and an emotional voice conversion technique is required for synthesizing more expressive voices. The common emotional conversion was based on transformation of neutral prosody to emotionalScientific & Academic Publishing, Oct. 2012, American Journal of Signal Processing, 2(5) (5), 134 - 138, English[Refereed]Scientific journal
- 非負値行列因子分解による構音障害者の声質変換近年,情報技術の福祉分野への応用が進んでいる.例えば,画像認識技術の応用による手話認識,文章読み上げシステム,無喉頭音声変換など,その応用領域は幅広い.本研究では,脳性麻痺による構音障害者に焦点をあて,構音障害者の音声を健常者のものに変換することで,より聞き取りやすくすることを目指す.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 331 - 334, JapaneseResearch society
- 重みつきノルム基準によるF0周波数選択を用いたSpecmurtによる多重音解析本稿では共通調波構造をモデル化しないで,重みつきノルムによるスパース性を考慮したSpecmurtによる多重音解析の有効性を示した.この手法は音色の学習を必要とせず,また和音数などといった知識も用いないで多重音の解析ができる.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 781 - 784, JapaneseResearch society
- 構音障害者の音素認識誤りの傾向本稿では,構音障害者の音素体系に注目し,音素認識実験を行いその誤り傾向について検討を行った.構音障害者3名を対象とした音素認識実験により,正解率が低下している音素が,母音,子音ともに類似していることが確認できた.また,正解率が低下している音素において,いくつかの誤り傾向が見られた.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 140 - 141, JapaneseResearch society
- 音響特徴量を用いた自閉症児と定型発達児の識別本論文では,幼稚園児から小学校4年生までの自閉症児を対象に,その早期発見を目指した音響的な側面による識別実験の結果に関して報告する.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 117 - 118, JapaneseResearch society
- スパース表現を用いた雑音環境下の声質変換本稿では,入力話者のパラレルデータから構築したパラレル辞書と入力音声から構築した雑音辞書を用いて,雑音が重畳した入力音声を入力話者辞書と雑音辞書のスパース表現にし,入力話者辞書のアクティビティ行列に基づいて出力話者辞書内のサンプルを線形結合することで,出力話者の音声へ変換する手法を提案した.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 213 - 216, JapaneseResearch society
- CRFを用いた音声認識誤り訂正における素性の検討我々は,大語彙連続音声認識において,Conditional Random Fields (CRF) を用いて認識結果中の誤りを訂正する手法を提案してきた.素性として,長距離言語情報などを用いたが,あまり大きな効果が得られなかった.そのため,本稿では,長距離言語情報を他の情報と組み合わせ,新たな素性として誤り訂正に用いる.その結果,長距離言語情報を単独で用いた場合と比較して,単語誤り率の改善が見られたので報告する.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 141 - 142, JapaneseResearch society
- Convolutional Neural Networks を用いた局所特徴統合による 自動音楽ジャンル分類近年のコンピュータの発展とともに音楽のデジタルコンテンツが爆発的に増大し,web上や個人の情報端末上で音楽データを整理・検索することが困難になってきている.このような背景の中で,類似した音楽を自動的にクラスタリングする自動音楽ジャンル分類の研究が盛んに行われている.本稿では後者のアプローチに基づき,各マップから計算される画像特徴であるGLCM (Gray Level Co-occurrence Matrix)を特徴量とし,Convolutional Neural Networks (ConvNets)を用いて複数のGLCMを統合しつつ音楽ジャンルを識別する手法を提案する.日本音響学会, Sep. 2012, 日本音響学会2012年秋季研究発表会, 789 - 790, JapaneseResearch society
- 3次元Active Appearance Modelsを用いた手形状認識本研究では,高機能TVなどに対するジェスチャー入力として3次元モデルを使用した,複雑な手の形状認識の手法を提案する.従来のジェスチャー認識では,カメラに対して正面に手を向ける必要があり,任意の手の傾きに対応できない問題点がある.そこで,3D Active Appearance Modelsを使用することで,あらゆる方位にも対応できる手の形状追跡を実現する.高精度な距離画像センサーKinectを用いて,対象のRGB画像と深度情報を取得し,モデルの学習及びテストを行った.複数の3D-AAMを使用することにより,複雑な指の形状を,方向の変化に対して頑健に認識することができた.情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, JapaneseSymposium
- 単眼サッカー映像における時間状況グラフを用いた選手追跡本研究では,サッカー映像においてオクルージョンにロバストな選手追跡を行うために,時間状況グラフにガイドされたパーティクルフィルタによる新しい選手追跡手法を提案する.従来のパーティクルフィルタによる選手追跡では,映像のフレーム間で複数選手の位置情報を用いていないため,一度対象を見失うと再度発見するのが困難であるという欠点があった.そこで,複数選手の位置情報を時間状況グラフとして表現しておき,これにガイドされる形でパーティクルフィルタを実行すれば,オクルージョンが起こっても選手の誤検出を大幅に減らすことが期待できる.評価実験では,実際の視点固定単眼サッカー映像に対して追跡実験を行い,時間状況グラフを用いないパーティクルフィルタによる選手追跡(従来手法)と,提案手法の時間状況グラフを用いたパーティクルフィルタによる選手追跡を比較した.その結果,従来手法に比情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, Japanese[Refereed]Symposium
- 自己縮小画像と混合ガウス分布モデルを用いた超解像近年,超解像技術はコンピュータビジョンの分野において活発に研究されている.本稿では,混合正規分布(GMM)を用いた変換関数による超解像を提案する.低解像度画像を高解像度画像に変換する変換関数を,入力画像と入力画像の自己縮小画像を用いた混合正規分布から作成する.入力画像をその変換関数に適用することによって,高解像度画像を得ることができる.さらに,混合正規分布だけでなく,PLS (Partial Least Squares)も用いた変換関数による超解像も提案する.また,入力画像だけを用いているので,従来手法のように大量の学習画像を必要としない.従来手法との比較を行った結果,提案手法(GMMのみ,GMM+PLS)共に,従来手法より評価値が優れ,より鮮明な画像を作成することができ,提案手法の有効性を確認した.情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, JapaneseSymposium
- 学習画像の選択に基づくAAMの繰り返し適応顔特徴点の取得法として,顔を追跡する方法として適しているActive Appearance Model (AAM)がある.しかし、AAMによって,未知人物を追跡しようとする時,学習データを過剰に用いると,個人の特徴が失われ,多くの局所解が生まれてしまい,追跡精度が低下してしまうので,現状では学習済みの人物でないと顔特徴点を正確に取得できないといった問題がある.そこで本研究では,この問題を解決するため,学習データを人物ごとに分けておき,未知人物に対して学習人物との類似度を,Gaussian Mixture Models(GMM)によって求める.この類似度に応じて,学習人物毎に学習データの枚数を決定し,こうして集められた学習データを基にAAMを構築して特徴点を得る.更に得られた特徴点に対して学習データとの類似度によって,繰り返しAAMを構築することで,未情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, JapaneseSymposium
- ウェブ画像を用いたカテゴリ別Visual Wordsによる未知物体判別本論文では,既知の物体と同様に,未知の物体も判別できるカテゴリ別Visual Wordsを提案する.最も広く用いられている物体認識の手法は,Bag of Features (BoF)手法である.これは,SIFT (Scale-Invariant Feature Transform)などの局所特徴を量子化することによって,Visual Wordsと呼ばれるコードブックを作成し,その出現頻度ヒストグラムとして画像を表現する手法である.しかし,この手法には既知の物体にしか適用できないという問題点がある.従って,BoF手法は未知の物体を含む物体認識に適している手法とはいえない.この観点から,本論文は未知のカテゴリの物体も表現することができるカテゴリ別Visual Wordsと,それによる物体認識手法を提案する.10クラスの物体認識において,提案手法は従来のB情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, JapaneseSymposium
- Facial Age Estimation Based on KNN-SVR Regression and AAM ParametersAge estimation is the determination of a person’s age based on biometric features. It is an important technique to estimate age from facial pictures automatically in Computer Vision. The application using age estimation for interface, robot, and human interaction is expected. In recent years, many approaches for age estimation were proposed while the results were not ideal. To情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, EnglishSymposium
- AAMを用いた顔方位に依存しない発話認識音声情報に唇動画像情報を併用して認識を行うマルチモーダル発話認識は,雑音環境下での認識が可能である.しかし,唇情報は,顔が横を向いてしまうと,認識精度が大きく劣化してしまうため,従来のリップリーディングでは正面顔での発話に限定されていることが多かった.本研究ではActive Appearance Modelを用いて,様々な角度の顔方位を正面に変換してリップリーディングを行う手法を提案する.提案手法では,顔方位に関する回帰モデル式を選択的に扱うことで,正面顔と横顔との変動のミスマッチを抑えつつ,任意の角度で横顔を正面顔に変換することができる.実験では,正面方向の発話のみを学習し,正面,横15度,横30度の3方向の角度において認識を行った結果,3方向全てにおいて,従来手法と比べ認識精度を改善することができた.情報処理学会, Aug. 2012, 画像の認識・理解シンポジウム, JapaneseSymposium
- Generic Object Recognition Based on CRF Incorporating BoF as Global FeaturesGeneric object recognition using a computer has become a necessity in various fields, such as robot vision and image retrieval in recent years. Conventional methods use conditional random field (CRF) that recognizes the class of each region using the features extracted from the local regions and the class co-occurrence between the adjoining regions. However, there is a problemJun. 2012, Far East Journal of Electronics and Communications, 8(2) (2), 85 - 96, English[Refereed]Scientific journal
- Audio-Visual Speech Recognition Using AAM-Based Visual FeaturesAs one of the techniques for robust speech recognition under noisy environments, audio-visual speech recognition (AVSR) using lip dynamic scene information together with audio information is attracting attention, and the research has made strides in recent years. However, in visual speech recognition (VSR), when a face turns sideways, the shape of the lip as viewed by the camerMay 2012, Advances in Computer Science and Engineering, 8(2) (2), 123 - 137, English[Refereed]Scientific journal
- 神戸大学都市安全研究センター, Mar. 2012, 神戸大学都市安全研究センター研究報告, (16) (16), 123 - 128, Japanese[Refereed]
- Mar. 2012, NCSP, pp. 631-634, EnglishIntegrated Multimodal Information for Detection of Unknown Objects and Unknown Names[Refereed]International conference proceedings
- Mar. 2012, NCSP, pp. 112-115, EnglishGaze Estimation Using 3D Active Appearance Models[Refereed]International conference proceedings
- 2012, The Australasian Joint Conference on Artificial Intelligence, 469 - 480, EnglishTowards Domain Independent Why Text Segment Classification Based on Bag of Function Words[Refereed]International conference proceedings
- 2012, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 1285 - 1288, English[Refereed]International conference proceedings
- 2012, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 1021 - 1024, English[Refereed]International conference proceedings
- 2012, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.2, 761 - 764, English[Refereed]International conference proceedings
- 2012, 2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 Vol.3, 1933 - 1936, English[Refereed]International conference proceedings
- 2012, 13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3, 1750 - 1753, EnglishLocal-feature-map Integration Using Convolutional Neural Networks for Music Genre Classification[Refereed]International conference proceedings
- 2012, 13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3, 1842 - 1845, EnglishEstimation of Talker's Head Orientation Based on Discrimination of the Shape of Cross-power Spectrum Phase Coefficients[Refereed]International conference proceedings
- ACM, 2012, MM 2012 - Proceedings of the 20th ACM International Conference on Multimedia, 1161 - 1164, English[Refereed]International conference proceedings
- 2012, 2012 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012), 2532 - 2536, English3D Tracking of Soccer Players Using Time-Situation Graph in Monocular Image Sequence[Refereed]International conference proceedings
- 2012, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7691, 469 - 480, English[Refereed]International conference proceedings
- 2012, 2012 IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA (ISM), 298 - 301, English[Refereed]International conference proceedings
- 2012, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, EnglishRobust Feature Extraction to Utterance Fluctuations Due to Articulation Disorders Based on Sparse Expression[Refereed]International conference proceedings
- 2012, 2012 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2012), 313 - 317, English[Refereed]International conference proceedings
- 2012, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, EnglishConsonant Enhancement for Articulation Disorders Based on Non-negative Matrix Factorization[Refereed]International conference proceedings
- 2012, 2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 4 pages, EnglishAn AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic Activity[Refereed]International conference proceedings
- Towards Domein Independent Why Text Segment Classification by Bag of Grammar本論文では,non-factoid型質問応答技術の一つであるWhy型質問応答を可能とするための技術として,Whyテキストセグメントを識別する識別器の構築方法を提案する.具体的には,テキストセグメント中の文法情報に着目し,機械学習の一つであるSupport Vector Machineにより,それらの特徴パターンを学習することによって,Whyテキストセグメント識別器を構築する.これにより,どのようなドメインのテキストセグメントに対しても,有効に機能するWhyテキストセグメント識別器が構築でき,WebのようなオープンドメインにおいてWhy型質問応答が可能となる.提案手法によるWhyテキストセグメント識別能力の評価のために,Yahoo!知恵袋の回答集合からなる学習データセットをもとに,Whyテキストセグメント識別器を構築して実験を行った結果,F値=0.661,正解率=63.25%の識別性能を有する識別器を構築することができた.これより,従来のWhy型質問応答の問題点であったルール作成に手間が掛かる,識別器がドメインに依存する,ラベル付けされた学習データの入手が困難である,といった問題が改善され,より識別能力の高いWhyテキストセグメント識別が可能となった.The Institute of Electronics, Information and Communication Engineers, Dec. 2011, Transactions of the Institute of Electronics, Information and Communication Engineers, Vol. J94-D, No. 12, pp. 2047-2(12) (12), 2047 - 2057, Japanese[Refereed]Scientific journal
- Oct. 2011, ISMIR, pp. 181-184, EnglishConstrained Spectrum Generation Using A Probabilistic Spectrum Envelope for Mixed Music Analysis[Refereed]International conference proceedings
- Feb. 2011, Advances in Computer Science and Engineering, Volume 6, Issue 1, pp. 93 - 10, 93 - 104, EnglishTracking of Multiple Soccer Players Using a 3D Particle Filter Based on Detector Confidence[Refereed]Scientific journal
- 2011, Acoustical Science and Technology, 32(5) (5), 201 - 210, English[Refereed]Scientific journal
- 2011, COMPUTER VISION - ACCV 2010 WORKSHOPS, PT I, 6468, 400 - 409, EnglishGaze Estimation Using Regression Analysis and AAMs Parameters Selected Based on Information Criterion[Refereed]International conference proceedings
- 2011, 電子情報通信学会論文誌, J94-D(No.12) (No.12), 2047 - 2057, JapaneseBag of Grammarを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法[Refereed]Scientific journal
- 2011, ADVANCES IN MULTIMEDIA MODELING, PT II, 6524, 454 - 464, EnglishImage Annotation with Concept Level Feature Using PLSA plus CCA[Refereed]International conference proceedings
- 2011, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2011 Vol.2, 1229 - 1232, English[Refereed]International conference proceedings
- 2011, 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2011 Vol.4, 2696 - 2699, English[Refereed]International conference proceedings
- 2011, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 2721-2724, 2732 - 2735, EnglishSingle-channel Head Orientation Estimation Based on Discrimination of Acoustic Transfer Function[Refereed]International conference proceedings
- 2011, 12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, pp. 1765-1768, 1776 - 1779, EnglishProbabilistic Spectrum Envelope: Categorized Audio-features Representation for NMF-based Sound Decomposition[Refereed]International conference proceedings
- 2011, ADVANCES IN IMAGE AND VIDEO TECHNOLOGY, PT I, 7087, 97 - 108, English[Refereed]International conference proceedings
- Nov. 2010, Journal of Software Engineering and Applications, Volume 3, Number 11, pp. 1060-, English3D Human Pose Estimation from a Monocular Image Using Model Fitting in Eigenspaces[Refereed]Scientific journal
- Feb. 2010, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 127(2) (2), 902 - 908, English[Refereed]Scientific journal
- ISCA, 2010, Auditory-Visual Speech Processing, AVSP 2010, Hakone, Kanagawa, Japan, September 30 - October 3, 2010, 6CENSREC-1-AV: an audio-visual corpus for noisy bimodal speech recognition.[Refereed]
- 2010, COMPUTER VISION - ACCV 2009, PT II, 5995, 291 - +, EnglishHuman Action Recognition Using HDP by Integrating Motion and Location Information[Refereed]International conference proceedings
- 2010, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.1, 538 - 541, English[Refereed]International conference proceedings
- 2010, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.4, 2830 - 2833, English[Refereed]International conference proceedings
- 2010, 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010 Vol.3, 2150 - 2153, English[Refereed]International conference proceedings
- 2010, Proceedings - International Conference on Pattern Recognition, 3025 - 3028, English[Refereed]International conference proceedings
- 2010, 11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, pp. 945-948, 945 - +, EnglishSpeech Synthesis by Modeling Harmonics Structure with Multiple Function[Refereed]International conference proceedings
- 2010, 2010 IEEE International Workshop on Multimedia Signal Processing, MMSP2010, 517 - 520, English[Refereed]International conference proceedings
- Nov. 2009, Advances in Computer Science and Engineering, Volume 3, Issue 3, pp. 175-186, English3D Human Posture Estimation Based on Linear Regression of HOG Features from Monocular Images[Refereed]Scientific journal
- Oct. 2009, Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference, pp. 246-249, EnglishEcho Canceller for Multi-Loudspeakers Based on Maximum Likelihood Using an Acoustic Model[Refereed]International conference proceedings
- Aug. 2009, Far East Journal of Electronics and Communications, Volume 3, Issue 2, pp. 125 - 1, EnglishSPEECH FEATURE EXTRACTION USING WEIGHTED HIGHER-ORDER LOCAL AUTO-CORRELATION[Refereed]Scientific journal
- Aug. 2009, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 109-112, EnglishSituation Recognition Using 3D Positional Information of Ball from Monocular Soccer Image Sequence[Refereed]International conference proceedings
- Aug. 2009, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 49-52, EnglishGeneric Object Recognition using CRF by Incorporating BoF as Global Features[Refereed]International conference proceedings
- Aug. 2009, The 2009 International Conference on Multimedia, Information Technology and its Applications, pp. 205-206, EnglishEstimation of Ground Surface Displacement from Microwave Radar Images by Using Phase-only Correlation[Refereed]International conference proceedings
- Jul. 2009, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E92D(7) (7), 1453 - 1461, English[Refereed]Scientific journal
- 2009, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, 412 - +, EnglishAutomatic Segmentation of Object Region Using Graph Cuts Based on Saliency Maps and AdaBoost[Refereed]International conference proceedings
- 2009, ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2, 668 - +, EnglishPose Robust and Person Independent Facial Expressions Recognition Using AAM Selection[Refereed]International conference proceedings
- Acoustical Society of Japan, 2009, Acoustical Science and Technology, 30(5) (5), 363 - 371, English[Refereed]Scientific journal
- 2009, EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, English[Refereed]Scientific journal
- 2009, EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2009, English[Refereed]Scientific journal
- Academy Publisher, 2009, Journal of Multimedia, 4(4) (4), 254 - 261, English[Refereed]Scientific journal
- 2009, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 13th Vol.2, 637 - 638, English[Refereed]International conference proceedings
- 2009, Digest of Technical Papers - IEEE International Conference on Consumer Electronics, 13th Vol.1, 36 - 37, English[Refereed]International conference proceedings
- 2009, FUSION: 2009 12TH INTERNATIONAL CONFERENCE ON INFORMATION FUSION, VOLS 1-4, pp. 48-53, 48 - 53, EnglishMonaural Sound-Source-Direction Estimation Using the Acoustic Transfer Function of an Active Microphone[Refereed]International conference proceedings
- 2009, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 461 - 464, English[Refereed]International conference proceedings
- 2009, 2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 768 - 771, English[Refereed]International conference proceedings
- 2009, INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5, pp. 256-259, 284 - 287, EnglishSystem Request Detection in Human Conversation Based on Multi-Resolution Gabor Wavelet Features[Refereed]International conference proceedings
- 2009, 2009 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ISPACS 2009), 445 - 448, English[Refereed]International conference proceedings
- Nov. 2008, 15th World Congress on ITS, CD-ROM, EnglishImprovement of In-Car Speech Recognition by Acoustic Echo Canceller with Maximum Likelihood[Refereed]International conference proceedings
- Tagging Video Contents Based on Interest Estimation from Facial Expression近年,ユーザが視聴可能な映像コンテンツは莫大な量となってきているため,ユーザが自分の好きな映像コンテンツを探し出すことが困難になりつつある.そこで我々は,映像コンテンツを視聴するユーザを撮影し,その表情から関心度を推定することで映像コンテンツにタギングを行い,番組推薦に役立てるためのシステムを提案する.撮影された顔は,Elastic Bunch Graph Matchingによって,顔特徴点抽出と個人認識が行われ,特定された個人に対して,Support Vector Machinesによって関心のクラスが推定される.関心のクラスは,Neutral,Positive,Negative,Rejectiveの4種類であり,映像コンテンツと同期してフレームごとにタギングが行われる.評価実験の結果,関心クラス推定の平均再現率は86.73% ,平均適合率は86.67%となった.Recently, there are so many videos available for people to choose to watch. To solve this problem, we propose a tagging system for video content based on facial expression that can be used for video content recommendations. Viewer's face captured by a camera is extracted by Elastic Bunch Graph Matching, and Interest class is estimated by Support Vector Machines. The interest classes are Neutral, Positive, Negative and Rejective. They are recorded as “interest tags” in synchronization with video content. Experimental results achieved an averaged recall rate of 86.73%, and averaged precision rate of 86.67%.情報処理学会, Oct. 2008, Journal of Information Processing Society of Japan, Vol.49,No.10,pp.3694-3702(10) (10), 3694 - 3702, Japanese[Refereed]Scientific journal
- Jul. 2008, International Journal of Hybrid Information Technology, Vol. 1, No. 3, pp. 71-80, EnglishAudio-Based Video Editing with Two-Channel Microphone[Refereed]Scientific journal
- 神戸大学都市安全研究センター, Mar. 2008, 神戸大学都市安全研究センター研究報告, 12, 91 - 102, Japanese
- Mar. 2008, NCSP, pp. 76-79, EnglishMultiple Classifier Based on Fuzzy C-Means for a Flower Image Retrieval[Refereed]International conference proceedings
- Mar. 2008, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E91D(3) (3), 522 - 528, English[Refereed]Scientific journal
- 神戸大学都市安全研究センター, Mar. 2008, NCSP, pp. 9-12(12) (12), 103 - 108, Japanese[Refereed]International conference proceedings
- 2008, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, 968 - +, UkrainianCENSREC-4: Development of Evaluation Framework for Distant-talking Speech Recognition under Reverberant Environments[Refereed]International conference proceedings
- 2008, SIXTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, LREC 2008, 1828 - 1834, EnglishEvaluation Framework for Distant-talking Speech Recognition under Reverberant Environments - Newest Part of the CENSREC Series -[Refereed]International conference proceedings
- 2008, 情報処理学会論文誌, 49(6) (6), 2234 - 2242, JapaneseAdaBoost/LogitBoostによるWhyテキストセグメント判定と回答抽出の自動化[Refereed]Scientific journal
- 2008, ADVANCES IN MULTIMEDIA MODELING, PROCEEDINGS, 4903, 210 - +, EnglishTagging video contents with positive/negative interest based on user's facial expression[Refereed]International conference proceedings
- 2008, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 253 - 257, English[Refereed]International conference proceedings
- 2008, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 304 - +, English[Refereed]International conference proceedings
- 2008, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, 282 - +, English[Refereed]International conference proceedings
- 2008, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, 149 - 152, English[Refereed]International conference proceedings
- 2008, 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, 66 - 69, English[Refereed]International conference proceedings
- 2008, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, 881 - +, English[Refereed]International conference proceedings
- 2008, 2008 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOLS 1-4, 889 - +, English[Refereed]International conference proceedings
- 2008, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 61-70, 253 - 257, EnglishSpeaker independent phoneme recognition based on Fisher weight map[Refereed]International conference proceedings
- 2008, MUE: 2008 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND UBIQUITOUS ENGINEERING, PROCEEDINGS, Vol. 1, No. 3, pp. 81-90, 304 - +, English[Refereed]International conference proceedings
- 2008, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 403-406, 403 - 406, EnglishSudden Noise Reduction Based on GMM with Noise Power Estimation[Refereed]International conference proceedings
- 2008, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, pp. 2234-2237, 2234 - +, EnglishIntegration of Metamodel and Acoustic Model for Speech Recognition[Refereed]International conference proceedings
- 2008, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1179 - +, EnglishObject Recognition and Segmentation Using SIFT and Graph Cuts[Refereed]International conference proceedings
- 2008, 19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, VOLS 1-6, CD-ROM, 1466 - +, English3D Human Posture Estimation Using the HOG Features from Monocular Image[Refereed]International conference proceedings
- 2008, INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, Volume 3, Number 4, pp. 341-34, 403 - 406, EnglishSudden Noise Reduction Based on GMM with Noise Power Estimation[Refereed]International conference proceedings
- 神戸大学都市安全研究センター, Mar. 2007, 神戸大学都市安全研究センター研究報告, 11, 191 - 196, Japanese
- Mar. 2007, Journal of VLSI Signal Processing Systems for Signal, Image, and Video Technology, 46(2-3) (2-3), 123 - 131, English[Refereed]Scientific journal
- Mar. 2007, JOURNAL OF VLSI SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 46(2-3) (2-3), 123 - 131, English[Refereed]Scientific journal
- 2007, 2007 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, VOLS 1 AND 2, 607 - +, EnglishDevelopment of vad evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition perfornlance[Refereed]International conference proceedings
- Academy Publisher, 2007, Journal of Multimedia, 2(5) (5), 13 - 18, English[Refereed]Scientific journal
- 2007, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 778 - 782, English[Refereed]International conference proceedings
- 2007, 2007 IEEE/SP 14TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 336 - 340, English[Refereed]International conference proceedings
- 2007, Proceedings of the ACM International Multimedia Conference and Exhibition, 561 - 564, English[Refereed]International conference proceedings
- 2007, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 2789-2792, 2776 - +, EnglishSystem Request Detection in Conversation Based on Acoustic and Speaker Alternation Features[Refereed]International conference proceedings
- 2007, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 1150-1153, 1425 - +, EnglishPCA-Based Feature Extraction for Fluctuation in Speaking Style of Articulation Disorders[Refereed]International conference proceedings
- 2007, INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, pp. 606-609, 2924 - +, EnglishLanguage Modeling using PLSA-Based Topic HMM[Refereed]International conference proceedings
- Jun. 2006, IPSJ Transactions, Vol. 47, No. 6, pp. 1767-1773, JapaneseA study on robust feature extraction using kernel PCA in reverberant environments[Refereed]Scientific journal
- 神戸大学都市安全研究センター, Mar. 2006, 神戸大学都市安全研究センター研究報告, 10, 117 - 124, Japanese
- Mar. 2006, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E89D(3) (3), 908 - 914, English[Refereed]Scientific journal
- 2006, 2006 IEEE International Conference on Acoustics, Speech and Signal Processing, Vols 1-13, pp. 509-512, 509 - 512, EnglishRobust feature extraction using kernel PCA[Refereed]International conference proceedings
- 2006, INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5, pp. 377-380, 377 - 380, EnglishPhoneme Recognition Based on Fisher Weight Map to Higher-Order Local Auto-Correlation[Refereed]International conference proceedings
- 神戸大学都市安全研究センター, Mar. 2005, 神戸大学都市安全研究センター研究報告, 9, 179 - 185, Japanese
- 2005, ADVANCES IN MULTIMEDIA INFORMATION PROCESSING - PCM 2005, PT 2, 3768, 923 - 934, English[Refereed]Scientific journal
- 2005, Interspeech, pp. 3453-3456, EnglishSituation Based Speech Recognition for Structuring Baseball Live Games[Refereed]International conference proceedings
- 2005, Proceedings of the 13th ACM International Conference on Multimedia, MM 2005, 355 - 358, English[Refereed]International conference proceedings
- May 2004, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E87D(5) (5), 1138 - 1145, EnglishSound source localization using a profile fitting method with sound reflectors[Refereed]Scientific journal
- May 2004, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E87D(5) (5), 1127 - 1137, EnglishImproved HMM separation for distant-talking speech recognition[Refereed]Scientific journal
- 2004, 2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS, 869-872, 869 - 872, EnglishAcoustic model adaptation using first order prediction for reverberant speech[Refereed]International conference proceedings
- Mar. 2003, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E86D(3) (3), 514 - 521, EnglishSpeech enhancement by profile fitting method[Refereed]Scientific journal
- 2003, Proc. International Workshop on Acoustic Echo and Noise Control, 263-266, EnglishSound Source localization using a Pinna-Based Profile Fitting Method[Refereed]International conference proceedings
- 2003, Proc. International Congress on Acoustics, 2829-2830, EnglishReverberant Speech Recognition using First-Order Linear Prediction[Refereed]International conference proceedings
- IEEE, Feb. 2001, IEEE Transactions on Speech and Audio Processing, 9(2) (2), 127 - 140, English[Refereed]Scientific journal
- Institute of Electrical and Electronics Engineers Inc., 2000, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 3, 1403 - 1406, English[Refereed]International conference proceedings
- IEEE, 1997, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2, 827 - 830, EnglishModel adaptation based on HMM decomposition for reverberant speech recognitionInternational conference proceedings
- IEEE, 1996, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 1, 69 - 72, EnglishNoise and room acoustics distorted speech recognition by HMM compositionInternational conference proceedings
- 2024, 日本生体磁気学会誌, 37(1) (1)Simultaneous estimation of a lead field and current sources of EEG using Deep Prior with lightweight convolutional networks structures
- 2024, 日本音響学会研究発表会講演論文集(CD-ROM), 2024Data augmentation for imagined speech classification.
- 神戸大学都市安全研究センター, Mar. 2023, 神戸大学都市安全研究センター研究報告, 27, 51 - 56, JapaneseReport research institution
- 神戸大学都市安全研究センター, Mar. 2023, 神戸大学都市安全研究センター研究報告, 27, 45 - 50, JapaneseReport research institution
- 近年,ニューラルネットワークを用いた対話システムに,文書や知識グラフといった,外部知識へのアクセス機能を持たせる研究が盛んに行われている。しかしながら,このような機能を持つ対話システムを実現するためには,通常の応答生成モジュールに加え,知識検索のためのモジュールが複数必要になり,システム全体の学習, 推論が複雑になるといった問題や.システム全体のパラメータ数が多くなるといった問題がある.そこで,本研究では,上記全てのモジュールが事前学習済み言語生成モデルを用いて,Text-to-Textで学習, 推論可能であるフレームワークを提案する。提案手法は, Adapter層を用いたマルチタスク学習を用いることで,システム全体のパラメータ数の削減が可能になる.自動評価を用いた比較の結果,一般的なSeq2Seqで学習された対話システムに比べ、提案手法は優れた応答を生成できることが分かった..一般社団法人 人工知能学会, 20 Nov. 2021, 人工知能学会研究会資料 言語・音声理解と対話処理研究会, 93, 44 - 49, Japanese
- ダイバー同士の水中会話を支援するための深層学習を用いた音声認識手法ダイバーが水中でコミュニケーションをとることは,安全面や娯楽面などの観点から重要である.水中における即時性・柔軟性に優れたコミュニケーション方法としては,聴覚を介した音声コミュニケーションが挙げられる.しかし.ダイバーは口にレギュレータを装着しているため,口を正しく動かすことができず,正しい発音で話すことができない.そこで本研究では,水中での円滑な音声コミュニケーションの実現を目指し,レギュレータを口で咥えた状態での不明瞭な音声から音素を認識するシステムを提案する.ダイバー用レギュレータに防水マイクを取り付け,水中での音声を録音し,深層学習を用いて音素の推定を試みた.また,発音の際の口の変化に着目し,ダイバー用レギュレータの上面と左面に圧力センサを設置し,推定精度の向上を試みた.その結果,音声のみを用いたデータの場合の方が推定精度が高かったが,特定の音素においては音声と圧力センサ値の混合データを用いた場合の方が推定精度が優れていることがわかった.情報処理学会, 23 Jun. 2021, マルチメディア,分散協調とモバイルシンポジウム2021論文集, 2021(1) (1), 317 - 324, Japanese
- Style Transferを用いた電子顕微鏡画像の合成深度画像から計算された勾配の大きさ、曲率と、スタイル変換を用いて調整されたパラメータから電子顕微鏡画像を合成する。04 Mar. 2021, 第83回全国大会講演論文集, 2021(1) (1), 117 - 118, Japanese
- 脊髄性筋萎縮症(SMA)は脊髄の運動神経細胞の病変によって起こる筋萎縮症で、重度の場合は呼吸不全が見られる。気管切開などによる人工呼吸器の装着、口を動かす筋肉の萎縮などが原因で、彼らの発話は健常者と比較して不明瞭なものとなる。そのためその言葉を聞き取ることが容易でなく、コミュニケーションを円滑にとれないという問題がある。本論文ではこのSMA を抱えた方の発話を分析したうえで、コミュニケーション支援のためのテキスト音声合成システムを提案する。近年は目覚ましい発展を遂げる深層学習を用いた音声合成手法は、高品質で自然な音声を生成することができる。近年ではこれらの技術を利用したコミュニケーション支援のための音声合成アプリケーションも存在するが、そこで生成される音声は学習に用いた人の音声をもとに作成されるため、使用者本人の声とは別人のものとなってしまう。そこで本研究では音声合成システムの作成に健常者音声にて作成したモデルを脊髄性筋萎縮症者へ話者適応するアプローチを提案する。これにより、健常者音声に由来する明瞭性と脊髄性筋萎縮症者音声に由来する本人性を兼ね備えた音声を合成することを目指す。神戸大学都市安全研究センター, Mar. 2021, 神戸大学都市安全研究センター研究報告, 25, 191 - 196, JapaneseReport research institution
- Mar. 2021, 神戸大学都市安全研究センター研究報告, 25, 139 - 144構音障害者音声認識のための自己教師あり学習とモデル適応の統合方法の検討Report research institution
- 脳機能の局在性の解明や脳疾患の診断に応用するため,脳内の電流源の推定が行われてきた.しかし,時間分解能に優れた非侵襲な脳機能計測手法である脳磁図や脳波を用いた脳内の電流分布の推定は,電流源のパラメータ数に対して脳磁図・脳波のセンサの数が少ない劣決定問題であるため,本質的に困難である.電流源推定の代表的な手法では,明示的に電流源の事前分布を与えることでこの問題を解決しているが,実際の電流源の事前分布は不明である.近年,畳み込み構造を持つ深いニューラルネットワークが,未学習であっても自然な画像の事前分布の役割を果たすことが示されている.これはDeep Image Prior と呼ばれ,画像修復,超解像,ノイズ除去といった画像分野の逆問題に有効であることが示されている.また,このような未学習の深いネットワークによる事前分布(Deep Prior)は,様々な分野の逆問題にも応用されてきている.本研究では,Deep Prior を用いて電流源推定を行い,従来手法(MNE,sLORETA)と比較し有効性の検証を行った.このとき,シミュレーションデータと実際のデータを用いた.電流源の推定を行った結果,畳み込みのネットワークが電流源の事前分布を表現可能であることを示した.神戸大学都市安全研究センター, Mar. 2021, 神戸大学都市安全研究センター研究報告, 25, 113 - 118, JapaneseReport research institution
- 2021, ヒューマンインタフェース学会研究報告集, 23, 121 - 124, Japanese「音声コミュニケーションと障がい者」の発刊の意義—Significance of the publication "Speech communication and people with disabilities"—第187回 ヒューマンインタフェース学会研究会 個々のニーズに立脚した高齢者・障害者支援技術および一般
- Aug. 2020, 第23回画像の認識・理解シンポジウムConvolutional Neural Networks with Skeleton Kernel
- Mar. 2020, 神戸大学都市安全研究センター研究報告, (24) (24), 105 - 110Improving clarity of speech synthesis for dysarthric persons using a phoneme recognition model for physically unimpaired personsReport research institution
- The Japanese Society for Artificial Intelligence, 20 Nov. 2019, JSAI Technical Report, SIG-SLUD, 87, 25, Japanese
- Aug. 2019, 第22回画像の認識・理解シンポジウムReduce GPU Memory Usage of Training Neural Network by CPU OffloadingSummary national conference
- Aug. 2019, 第22回画像の認識・理解シンポジウム生態系モニタリングのための昆虫認識手法に関する検討Summary national conference
- 島根県立大学短期大学部松江キャンパス, 2017, 島根県立大学短期大学部松江キャンパス研究紀要, (56) (56), 21 - 30, JapaneseA Study on the Process of Infant Language Development using Formant Analysis
- 電子情報通信学会, 02 Dec. 2015, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 115(346) (346), 13 - 18, JapaneseAlternating Direction Method of Multipliersを用いた声質変換のためのパラレル辞書学習 (音声) -- (第17回音声言語シンポジウム)
- 日本音響学会, 18 Jun. 2015, 聴覚研究会資料 = Proceedings of the auditory research meeting, 45(4) (4), 275 - 280, JapanesePhone Labeling Based on Gaussian Mixture Model for Dysarthric Speech Recognition
- 日本生体磁気学会, Jun. 2015, 日本生体磁気学会誌, 28(1) (1), 106 - 107, Japanese脳磁界計測によるエアコン音の"涼しさ"の印象評価の試み
- Voice Conversion Using Speaker Adaptive Restricted Boltzmann MachineVoice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data?pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.Information Processing Society of Japan (IPSJ), 08 Dec. 2014, IPSJ SIG Notes, 2014(30) (30), 1 - 6, Japanese
- Multimodal Voice Conversion using Weighted Features in Noisy EnvironmentsVoice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.Information Processing Society of Japan (IPSJ), 08 Dec. 2014, IPSJ SIG Notes, 2014(17) (17), 1 - 6, Japanese
- Many-to-one Voice Conversion using Multiple Non-negative Matrix FactorizationVoice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.Information Processing Society of Japan (IPSJ), 08 Dec. 2014, IPSJ SIG Notes, 2014(15) (15), 1 - 6, Japanese
- 日本音響学会, 19 Jun. 2014, 聴覚研究会資料 = Proceedings of the auditory research meeting, 44(5) (5), 283 - 288, JapaneseIndividuality-preserving Voice Conversion for Articulation Disorders Using Sparse Dictionary Learning
- A joint restricted Boltzmann machine for dictionary learning in sparse-representation-based voice conversion近年,声質変換の研究分野において,over-fitting や over-smoothing の生じにくいスパース表現に基づく手法が注目を浴びている.スパース表現に基づく声質変換法では,予め入力話者・出力話者のパラレル辞書を求めておき,スパースな辞書選択重みを用いて適切な辞書を選択することで声質変換を実現するとの手法は主に 2 つのアプローチに分けることができる.1 つ目はパラレル辞書として,学習データの音響特徴量をそのまま辞書として用いるアプローチであり,もう 1 つは,パラレル辞書そのものを何らかの手法で学習させるアプローチである.本研究では,後者のアプローチに基づき,近年注目を浴びている Deep Learning の基礎技術となる restricted Bolzmann machine(RBM) を用いて,入力話者・出力話者のパラレル辞書を体系的に求める手法を提案する.評価実験では,代表的な手法である Gaussian mixture model(GMM) だけでなく,従来のスパース表現に基づく手法である、non-negative matrix factorization (NMF) による声質変換法に比べて高い精度が得られたことを確認した.In voice conversion, sparse-representation-based methods have recently been garnering attention because they are, relatively speaking, not affected by over-fitting or over-smoothing problems. In these approaches, voice conversion is achieved by estimating a sparse vector that determines which dictionaries of the target speaker should be used, calculated from the matching of the input vector and dictionaries of the source speaker. The sparse-repre sentation-based voice conversion methods can be broadly divided into two approaches: 1) an approach that uses raw acoustic features in the training data as parallel dictionaries, and 2) an approach that trains parallel dictionaries from the training data. Our approach belongs to the latter; we systematically estimate the parallel dictionaries using a restricted Boltzmann machine, a fundamental technology commonly used in deep learning. Through voice-conver sion experiments, we confirmed the high-performance of our method, comparing it with the conventional Gaussian mixture model (GMM)-based approach, and a non-negative matrix factorization (NMF)-based approach, which is based on sparse-representation.17 May 2014, 研究報告音楽情報科学(MUS), 2014(66) (66), 1 - 6, Japanese
- Speaker-dependent conditional restricted Boltzmann machine for voice conversionIn this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches.The Institute of Electronics, Information and Communication Engineers, 19 Dec. 2013, IEICE technical report. Speech, 113(366) (366), 83 - 88, Japanese
- Voice Conversion for Articulation Disorders Using Dictionary Selective Non-negative Matrix FactorizationWe present in this paper a voice conversion (VC) method for a person with an articulation disorder resulting from athetoid cerebral palsy. The movement of such speakers is limited by their athetoid symptoms, and their consonants are often unstable or unclear, which makes it difficult for them to communicate. In our previous method, exemplar-based spectral conversion using Non-negative Matrix Factorization (NMF) was applied to a voice with an articulation disorder. To preserve the speaker's individuality, we used a combined dictionary that is con structed from the source speaker's vowels and target speaker's consonants. However, this exemplar-based approach needs to hold all the training exemplars (frames), and it may cause mismatching of phonemes between input signals and selected exemplars. In this paper, in order to reduce the mismatching of phoneme alignment, we propose a phoneme-categorized sub-dictionary and a dictionary selection method using NMF. By using the sub-dictionary, the performance of VC is improved compared to a conventional NMF-based VC. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional Gaussian Mixture Model (GMM)-based method and a conventional NMF-based method.Information Processing Society of Japan (IPSJ), 12 Dec. 2013, IPSJ SIG Notes, 2013(12) (12), 1 - 6, Japanese
- Voice Conversion based on Non-negative Matrix Factorization with Segment Features in Noisy EnvironmentsThis paper presents a voice conversion based on NMF for noisy environments. We prepared parallel exemplars that consist of the source and target exemplars, which have the same texts uttered by the source and target speakers. The input source signal is decomposed into the source exemplars, noise exemplars obtained from the input signal, and their weights. Then, the converted signal is obtained by calculating the linear combination of the target exemplars and the weights which are calculated using the source exemplars. In the proposed method, segment features are used for the voice conversion technique based on NMF in order to improve the accuracy of the weight estimation. The effectiveness of this method was confirmed by comparing its effectiveness with that of a conventional method.Information Processing Society of Japan (IPSJ), 12 Dec. 2013, IPSJ SIG Notes, 2013(13) (13), 1 - 6, Japanese
- Classification of Children with Autism Spectrum and Typically Developing Children Using Pitch FeaturesRecent investigations have demonstrated that the early support which specialized in autistic spectrum obstacle, such as Picture Exchange Communication System (PECS) Applied Behavier Analysis (ABA) Social Skills Training (SST), is effective. This paper reports the result of a classification experiment carried out using pitch features for children with autism spectrum. Pitch features consist of 24 dimensions, such as 25th, 50th, 75th percentiles, 25-50 percentile difference, 50-75 percentile difference, mean, standard deviation, kurtosis, skewness, maximum, minimum, and range.Information Processing Society of Japan (IPSJ), 12 Dec. 2013, IPSJ SIG Notes, 2013(6) (6), 1 - 6, Japanese
- Speaker-dependent conditionl restricted Boltzmann machine for voice conversionIn this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches.Information Processing Society of Japan (IPSJ), 12 Dec. 2013, IPSJ SIG Notes, 2013(14) (14), 1 - 6, Japanese
- Two-step Correction of the Speech Recognition Result based on Syntax and Semantics本稿では,単語ごとに長距離文脈スコアを付与することで素性とし, ConfUsion Network 上での音声認識自動誤り訂正手法を提案する.従来,単語ごとの長距離文脈情報を素性に音声認識誤り訂正を行う手法は提案されているが,単語ごとにそれを付与する場合,周辺の認識精度に大きく依存してしまうという問題がある.そのため,認識誤りを多く含む認識結果に対して長距離文脈情報を付与するのは,あまり好ましくない.したがって本稿では,文脈情報を誤り訂正の素性として用いるために,まずはシンタックスを用いた誤り訂正を行い,誤認識を軽減する.その後,長距離文脈スコアを付与し, 2 段階目の訂正を行うことで,より音声認識精度を向上させることを目的とする.This paper presents the new method correcting speech recognition errors base on long-distance context. As in the past, the method which corrects recognition errors using long-distance context information given every word has been already proposed However, this method has the problem that a context score every word depends on peripheral recognition errors considerably. So, it is not desirable that long-distance context information is given the recognition result containing a lot of recognition errors. Therefore, in this paper, recognition errors are reduced by error correction adopting features of syntax to use context information as one of the feature. And then after correcting results are given long-distance context score, residual recognition errors are corrected by using that score as the feature.13 Dec. 2012, 研究報告音声言語情報処理(SLP), 2012(26) (26), 1 - 6, Japanese
- Interpolation of unlearned position based on local regression for single-channel talker localization using acoustic transfer function我々はこれまで,観測音声の音響伝達特性が話者の位置に依存するという点に着目し,音響伝達特性を識別することにより,単一マイクロホンで音源位置推定を行う手法を提案してきた.しかしこの手法は,事前に想定される音源位置毎に音響伝達特性を学習させる必要があり,学習していない位置の推定が困難であった.そこで本稿では,限られた位置の音響伝達特性を用いて,音響伝達特性から位置への回帰モデルを学習し,その回帰モデルにより未学習位置の推定を行う手法について検討する.回帰モデルとして,線形回帰である重回帰分析,非線形回帰である GPR (Gaussian Process Regression), SVR (Support Vector Regression) を用い,さらにその学習方法として,評価データに類似した学習サンプルのみから回帰モデルを学習する局所的回帰を検討し,その性能を評価した.This paper presents a sound source (talker) localization method using only a single micro phone. In our previous work, we discussed the single-channel sound source localization method based on the discrimination of the acoustic transfer function. However, that method requires to train the acoustic transfer function for each possible position in advance, and it is difficult to estimate the position that have not been pre-trained. In this paper, we discuss a single-channel talker localization method based on a regression model, which predicts the position from the acoustic transfer function. For training the regression models, we use the local regression method that trains the regression model from only training samples being similar to the evaluation data. Considering both of linear and non-linear regression mod els, the effectiveness of this method has been confirmed by talker localization experiments performed in different room environments.13 Dec. 2012, 研究報告音声言語情報処理(SLP), 2012(14) (14), 1 - 6, Japanese
- Sparse Coding-Based Voice Conversion from Lip Information唇の動きから発話内容を読み取る技術はリップリーディング (読唇) と呼ばれ,聴覚・言語障害者のコミュニケーション手段の一つとして用いられている.本研究では, Sparse Coding を用いて,唇動画像から対応する発話音声へテキスト情報なしで変換を行う.事前に音声を含んだ発話映像から唇情報と音声情報を抽出し,それぞれを基底の集合である辞書として学習する.このとき,二つの辞書行列は同一時系列であり,パラレルなデータである.入力された無音声の映像から抽出された唇情報は, Sparse Coding により少数の基底の線形和で表される.唇辞書行列から選ばれた基底を対応する音声辞書の基底と取り換えることで,音声の基底の線形和として音声が出力される.本稿では,唇情報から識別可能と考えられる母音について変換を行った.A technology to recognize speech content from lip motion is called visual speech recognition (VSR). VSR is an important communication method for people who have a handicap with hearing or speaking. In this paper, we propose a sparse-coding-based voice conversion method using lip motion without text information. Lip information and voices are extracted from videos, where they are used to construct lip dictionary and voice dictionary. Input lip information is represented by a linear combination of a small number of bases in the lip dictionary. The bases are replaced to coordinate bases in the voice dictionary, and they are recomposed to voice information. In this paper, we conducted vowel conversion because vowels are able to recognize from lip information.13 Dec. 2012, 研究報告音声言語情報処理(SLP), 2012(21) (21), 1 - 6, Japanese
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正This paper presents a fully automatic word-error correction on a confusion network by employing out-of-vocabulary word modeling. In usual speech recognition, there is a problem that speech recognition systems incorrectly recognize OOV words and their neighboring words. In this paper, we add hybrid word/syllable recognition to the speech recognizer in order to make it recognize OOV words and to reduce the recognition error around OOV words. Then, we propose a CRF-based word-error correction method using acoustic and linguistic features. The proposed method can not only recognize OOV words but also correct the words neighboring OOV words.The Institute of Electronics, Information and Communication Engineers, Dec. 2011, IEICE Speech Committee, SP2011-94,No.24,pp.139-144(365) (365), 139 - 144, JapaneseReport scientific journal
- Dec. 2011, PRMU, PRMU2011-127,pp.19-24, Japaneseグラフ構造表現による一般物体認識Report scientific journal
- 確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討NMF (Non-negative matrix factorization) has been one of the most widely-used techniques for signal analysis in recent years. In particular, the supervised type of NMF is garnering much attention in source separation or signal analysis with respect to the analysis accuracy and speed. Because such methods require all the possible samples for the analysis, it is hard to build a practical analysis system. To analyze signals properly even when short of samples, we proposed a probabilistic approach called PSE (probabilistic spectrum envelope) so far, in which spectrum envelopes belonging to an auditory category are randomly generated, and the spectrum is used as a part of supervised basis matrix of NMF. However, this method has a difficulty in obtaining the optimum solution due to a lot of flexibility. In this paper, we propose a new PSE method with sparseness and density constraints which efficiently lead to the more appropriate solution.The Institute of Electronics, Information and Communication Engineers, Jul. 2011, IEICE Speech Committee, SP2011-50,pp. 51-56(153) (153), 51 - 56, JapaneseReport scientific journal
- Jul. 2011, MIRU, pp.387-394, Japaneseグラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識Report scientific journal
- Jul. 2011, IEICE Speech Committee, SP2011-51,pp. 57-62, JapaneseCSP係数の識別に基づく話者の頭部方向推定の検討Report scientific journal
- Jul. 2011, MIRU, pp.608-614, JapaneseARCOによる顔検出を併用した人誤検出の棄却についてReport scientific journal
- Jul. 2011, MIRU, pp.534-539, JapaneseAAMによる顔方位を考慮した発話認識Report scientific journal
- Jul. 2011, MIRU, pp.572-579, Japanese3次元ActiveAppearanceModel を利用した視線方向推定Report scientific journal
- Estimation of Head Orientation Based on Discrimination of Acoustic Transfer FunctionsThis paper presents a talker's head orientation estimation method using only a single microphone, where phoneme HMMs (Hidden Markov Models) of clean speech are introduced to separate the acoustic transfer function at the user's position and head orientation. The frame sequence of the acoustic transfer function is estimated by maximizing the likelihood of training data uttered from a given position with a given head orientation. Using the separated frame sequence data, the user's position and the head orientation are trained by Support Vector Machine (SVM) in advance. Then, for each test utterance, the frame sequence of the acoustic transfer function is separated based on the maximum likelihood estimation using the label sequence obtained from the phoneme recognition, and the user's position and head orientation are estimated by discriminating the separated acoustic transfer function using SVM. The effectiveness of this method has been confirmed by talker localization and head orientation estimation experiments performed in a real environment.The Institute of Electronics, Information and Communication Engineers, 05 May 2011, IEICE technical report, 111(27) (27), 167 - 172, Japanese
- Estimation of Head Orientation Based on Discrimination of Acoustic Transfer FunctionsThis paper presents a talker's head orientation estimation method using only a single microphone, where phoneme HMMs (Hidden Markov Models) of clean speech are introduced to separate the acoustic transfer function at the user's position and head orientation. The frame sequence of the acoustic transfer function is estimated by maximizing the likelihood of training data uttered from a given position with a given head orientation. Using the separated frame sequence data, the user's position and the head orientation are trained by Support Vector Machine (SVM) in advance. Then, for each test utterance, the frame sequence of the acoustic transfer function is separated based on the maximum likelihood estimation using the label sequence obtained from the phoneme recognition, and the user's position and head orientation are estimated by discriminating the separated acoustic transfer function using SVM. The effectiveness of this method has been confirmed by talker localization and head orientation estimation experiments performed in a real environment.The Institute of Electronics, Information and Communication Engineers, 05 May 2011, IEICE technical report, 111(26) (26), 167 - 172, Japanese
- Estimation of Head Orientation Based on Discrimination of Acoustic Transfer FunctionsThis paper presents a talker's head orientation estimation method using only a single microphone, where phoneme HMMs (Hidden Markov Models) of clean speech are introduced to separate the acoustic transfer function at the user's position and head orientation. The frame sequence of the acoustic transfer function is estimated by maximizing the likelihood of training data uttered from a given position with a given head orientation. Using the separated frame sequence data, the user's position and the head orientation are trained by Support Vector Machine (SVM) in advance. Then, for each test utterance, the frame sequence of the acoustic transfer function is separated based on the maximum likelihood estimation using the label sequence obtained from the phoneme recognition, and the user's position and head orientation are estimated by discriminating the separated acoustic transfer function using SVM. The effectiveness of this method has been confirmed by talker localization and head orientation estimation experiments performed in a real environment.The Institute of Electronics, Information and Communication Engineers, 05 May 2011, IEICE technical report, 111(28) (28), 167 - 172, Japanese
- Mar. 2011, SDPW2011, 6 pages, JapaneseConfusion Networkを用いたCRFによる音声認識誤り訂正Report scientific journal
- 確率スペクトル包絡に基づくNMF 基底生成モデルを用いた混合楽音解析従来の代表的な楽音解析手法として,NMF (非負値行列因子分解) をベースとしたアプローチが注目を浴びている.これは,予め大量の音源サンプルを用意しておくことで解析を行う教師あり NMF と,学習を用いず何らかの制約条件に基づいて解析を行う教師なし NMF に,大別することができる.しかしながら,前者では,可能性のある全ての基底サンプルを用意する必要があるので,一般にシステムの実用化は困難である.一方後者のアプローチでは,機械的に分解しているに過ぎないので意図しない結果が表れる傾向にある.本研究では,楽器カテゴリごとに共通なスペクトル包絡 (確率スペクトル包絡) を統計的に学習し,確率スペクトル包絡が作り出す基底の組み合わせによって観測信号のスペクトルを表現する手法を提案する.提案手法ではまず,ガウシアンプロセスをベースとした手法により,楽器カテゴリごとの確率スペクトル包絡を学習させる.その後教師あり NMF と遺伝アルゴリズムを組み合わせて,包絡に沿って確率的に生成されるランダム基底集合から,最適な基底解を探索する.最後に,得られたアクティビティ行列から楽音を解析する.実験結果から,提案手法が学習データには含まれない未知の音源に対しても頑健であると同時に,複数の音源が混ざっていても解析が可能であることを確かめた.NMF (Non-negative Matrix Factorization) based approaches are garnering much attention in musical signal analysis in recent years. These are roughly classified into two approaches: exemplar-based NMF, in which a large number of samples are used for analyzing a signal, and unsupervised NMF, in which signals are analyzed in some constrains without learning any samples beforehand. However, because the former methods require all the possible samples for the analysis, it is hard to build the practical system of the method. The latter approach should cause unintended results because the method is based on mathematical analysis not perceptual coding. In this paper, we propose a novel method of signal analysis by combining NMF and a probabilistic approach. At the beginning, a common spectram envelope to an instrument, called a probabilistic spectrum envelope (PSE), is learned for each categories using a Gaussian-Process-based approach. On the analyzing stage, basis vectors of NMF are randomly generated from the PSE, and the most befitting vectors can be found by combination of unsupervised NMF and Genetic Algorithm. The experimental results indicated that the method is robust against unknown sound sources, and can properly analyze the signals including multiple sources.情報処理学会, Feb. 2011, IPSJ-SIGMUS, Vol.2011-MUS-89,No.18, pp. 1-6(18) (18), 1 - 6, JapaneseReport scientific journal
- Feature selection for single-channel sound source localization using the acoustic transfer functionThis paper presents a sound source (talker) localization method using only a single microphone. In our previous work, we discussed the single-channel sound source localization method, where the acoustic transfer function from a user's position is estimated by using a Hidden Markov Model (HMM) of clean speech in the cepstral domain. In this paper, each cepstral dimension of the acoustic transfer function is newly selected in order to select the cepstral dimensions having information that is useful for classifying the user's position. Then, we propose a feature selection method for the cepstral parameter using Multiple Kernel Learning (MKL) to define the base kernels for each cepstral dimension (scalar) of the acoustic transfer function.The Institute of Electronics, Information and Communication Engineers, 20 Jan. 2011, IEICE technical report, 110(401) (401), 49 - 54, JapaneseReport scientific journal
- 基底の反復生成と教師ありNMFを用いた信号解析NMF (Non-negative Matrix Factorization) has been one of the most useful techniques for signal analysis in recent years. In particular, exemplar-based NMF, in which a large number of samples are used for analyzing a signal, is garnering much attention in sound source separation or noise reduction research. However, because such methods require all the possible samples for the analysis, it is hard to build the practical system of the method. In this paper, we propose a novel method of signal analysis by combining NMF and probabilistic approach. At the beginning, a representative basis vector, called a probabilistic spectrum envelope, is learned for each categories by use of Gaussian Process. On the analyzing stage, basis vectors of NMF are randomly generated from the probabilistic spectrum envelope. Experimental results indicated the validity of the proposed method.The Institute of Electronics, Information and Communication Engineers, Dec. 2010, IEICE Speech Committee, SP2010-102,pp. 195-200(356) (356), 195 - 200, JapaneseReport scientific journal
- 階層的強化学習を適用したPOMDPによる音声対話制御In this paper, we propose a dialogue manager using Partially Observable Markov Decision Processes (POMDP) that can treat ambiguous information. It can recover from the recognition error while naturally dialogue. However, a dialogue manager produced with a POMDP has been limited to artificial small tasks because calculation of reinforcement learning becomes complicated as the number of state variables increases. We also propose a variation of the classic POMDP incorporating hierarchical reinforcement learning. It can deal with large task than traditional system. The results show the effectiveness of proposed method.The Institute of Electronics, Information and Communication Engineers, Dec. 2010, IEICE Speech Committee, SP2010-98,pp. 121-126(356) (356), 121 - 126, JapaneseReport scientific journal
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定The main focus of this research is to improve Why Text Segments Classification accuracy for Bag of Grammar method by making use of why-type keywords rules, which extracted manual to construct rule based dictionary, in Rule Based method. The idea behind the usage of Rule Based method is so that it can be supplement the why-type rules that are not covered by Bag of Grammar. We examined two different methods of exploiting Rule Based method to build better Why Text Segments Classification. These methods are differed by the way of combing the Rule Based method into Bag of Grammar method. First model is simply combining features used in Bag of Grammar and Rule Based method to build one feature space to build classifier based on this feature space. Second model explored the schemes of combing different classifiers built by each method to boost the classification accuracy. The experiments showed that some of combing methods provide effective way of constructing more accurate Why Text Segments Classification classifier.The Institute of Electronics, Information and Communication Engineers, Dec. 2010, IEICE Speech Committee, SP2010-97,pp. 103-108(356) (356), 103 - 108, JapaneseReport scientific journal
- Buried Markov Modelを用いた構音障害者の音声認識の検討Recently, the accuracy of speaker-independent speech recognition has been remarkably improved by use of stochastic modeling of speech. However, there has been very little research on orally-challenged people, such as those with speech impediments. Therefore we have tried to build the acoustic model for a person with articulation disorders. The articulation of speech tends to become unstable due to strain on speech-related muscles, and that causes degradation of speech recognition. Therefore, we consider temporal dependence to solve this problem. Though HMM makes it possible to recognize clear utterance with high accuracy, the speech including the noise or the continuous utterance causes degradation of speech recognition. To solve this problem, J. Bilmes proposed buried Markov model which contains the conditional independence between the observation nodes. In this paper, we perform phone recognition experiments using buried Markov model.The Institute of Electronics, Information and Communication Engineers, Oct. 2010, IEICE Speech Committee, SP2010-57, pp. 69-74(220) (220), 69 - 74, JapaneseReport scientific journal
- CENSREC-1-AV An evaluation framework for multimodal speech recognition本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った.This paper introduces an evaluation framework for multimodal speech recognition: CENSREC-1-AV. The corpus CENSREC-1-AV provides an audiovisual speech database and a baseline system of multimodal speech recognition. Speech signals were recorded in clean condition for training and in-car noises were overlapped for testing. Color and infrared pictures were captured as training data, and image corruption was conducted for testing using the gamma correction technique. In the baseline system, acoustic MFCC as well as eigenface or optical-flow information are adopted as audio and visual features respectively, then multi-stream HMMs are used as a recognition model.情報処理学会, 15 Jul. 2010, 研究報告音声言語情報処理(SLP), 2010(7) (7), 1 - 6, Japanese
- Jul. 2010, MIRU, OS8-2, pp. 1404-1411, Japanese物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識Report scientific journal
- Jul. 2010, MIRU, IS1-39, pp. 307-312, Japanese複数尤度を用いた3次元パーティクルフィルタによる選手の追跡Report scientific journal
- Jul. 2010, MIRU, IS2-36, pp. 1011-1016, Japanese地面位置の推定に基づく2次元画像からの擬似3次元復元Report scientific journal
- Jul. 2010, MIRU, IS3-31,pp. 1771-1778, Japanese唇領域のAAMを用いた発話認識における画像特徴量の音素解析Report scientific journal
- Jul. 2010, MIRU, IS2-37,pp.1017-1022, Japanese視点移動カメラにおけるカメラキャリブレーションReport scientific journal
- Jul. 2010, MIRU, IS2-35, pp. 1004-1010, 1004 - 1010, Japanese高周波強調処理と入力画像の利用による学習型超解像Report scientific journal
- Jul. 2010, MIRU, IS3-30, pp. 589-594, Japanese固有空間でのモデルフィッティングによる単眼画像からの人体3次元姿勢推定Report scientific journal
- Jul. 2010, MIRU, IS3-32, pp. 1779-1783, Japanese階層的領域分割法に基づく木構造条件付確率場による一般物体認識Report scientific journal
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御In this paper, we propose a dialogue manager in a car navigation systems using Partially Observable Markov Decision Processes (POMDP) that can treat ambiguous information. Even when it occurs speech recognition errors are caused by car indoor noises, it can manage the dialogue. we also propose a variation of the classic POMDP by incorporating hierarchical reinforcement learning. It can deal with large task than traditional system. The results confirms that the proposed method outperforms a handcrafted dialogue manager.The Institute of Electronics, Information and Communication Engineers, Jul. 2010, IEICE Speech Committee, SP2010-43, pp. 49-54(143) (143), 49 - 54, JapaneseReport scientific journal
- Jul. 2010, MIRU, IS1-41, pp. 319-324, JapaneseImage Annotation by Concept Level Search Using PLSAReport scientific journal
- Jul. 2010, MIRU, IS-40, pp. 315-318, JapaneseGaussian Processes for RegressionとAAMパラメータによる視線方向認識Report scientific journal
- Jun. 2010, IEICE Speech Committee, SP2010-29,pp. 43-48, Japaneseバイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出Report scientific journal
- The Institute of Electronics, Information and Communication Engineers, 02 Mar. 2010, Proceedings of the IEICE General Conference, 2010(2) (2), 57 - 57, JapaneseD-11-57 Learning-Based Super-Resolution Using Wavelet Transform
- The Institute of Electronics, Information and Communication Engineers, 02 Mar. 2010, Proceedings of the IEICE General Conference, 2010(2) (2), 181 - 181, JapaneseD-12-70 Generic Object Recognition by Tree Conditional Random Field based on Hierarchical Segmentation
- The Institute of Electronics, Information and Communication Engineers, 02 Mar. 2010, Proceedings of the IEICE General Conference, 2010(2) (2), 202 - 202, JapaneseD-12-91 Soccer Player Tracking Using 3D Particle Filter and Earth Mover's Distance
- Jan. 2010, 電子情報通信学会技術研究報告, CQ2009-107,PRMU2009-206,SP2009, JapaneseAAMを用いた唇領域特徴による音声発話認識Report scientific journal
- Dec. 2009, 第11回音声言語シンポジウム, SP2009-93,No. 29,pp. 165-170, Japanese多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討Report scientific journal
- Dec. 2009, 第79回音声言語情報処理研究会, 2009-SLP-79,No. 22,pp. 123-128, Japaneseランダムプロジェクションを用いた音響モデルの線形変換Report scientific journal
- Dec. 2009, 電子情報通信学会,音声研究会, 2009-SLP-79,No. 21,pp. 1-6, JapaneseBuried Markov Modelを用いた音声認識モデルの構築法の検討Report scientific journal
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識We investigated the speech recognition of a person with articulation disorders resulting from athetoid cerebral palsy. The articulation of speech tends to become unstable due to strain on speech-related muscles, and that causes degradation of speech recognition. Therefore, we use multiple acoustic frames as an acoustic feature to solve this problem. Further, in a real environment, the speech recognition systems do not have sufficient performance due to noise influence. In addition to acoustic features, visual features are used to increase noise robustness in a real environment. However, there is a recognition problem due to the tendency of his/her unsettling head movement. We investigate a pose-robust audio-visual speech recognition method using Active Appearance Model (AAM) to solve this problem.The Institute of Electronics, Information and Communication Engineers, Dec. 2009, 第11回音声言語シンポジウム, SP2009-93,pp. 195-200(356) (356), 195 - 200, JapaneseReport scientific journal
- Oct. 2009, 電子情報通信学会,音声研究会, SP2009-55,pp.37-42, Japanese構音障害者の音声認識における動的特徴量の考察Report scientific journal
- 29 Sep. 2009, 平成21年度情報処理学会関西支部支部大会講演論文集, 2009, JapaneseBottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定
- Forum on Information Technology, 20 Aug. 2009, 情報科学技術フォーラム講演論文集, 8(3) (3), 117 - 118, JapaneseH-011 Content Analysis based on Human Face Images
- Forum on Information Technology, 20 Aug. 2009, 情報科学技術フォーラム講演論文集, 8(3) (3), 107 - 108, JapaneseH-006 Estimation of Ground Surface Displacement from SAR Satellite Image Using High-Accuracy Image Matching
- Jul. 2009, 画像の理解・認識シンポジウム, MIRU2009, IS1-29, pp. 589-594, Japanese複数特徴量の重み付け統合による一般物体認識Report scientific journal
- Jul. 2009, 画像の理解・認識シンポジウム, MIRU2009, IS2-61, pp.1269-1276, Japanese単眼サッカー映像におけるボールの3次元位置情報を用いた状況認識Report scientific journal
- Jul. 2009, 画像の理解・認識シンポジウム, MIRU2009, OS4-2, pp.95-102, Japanese大域的特徴としてBoFを導入したCRFによる一般物体認識[Refereed]Report scientific journal
- Jul. 2009, 画像の理解・認識シンポジウム, MIRU2009, IS3-43, pp. 1668-167, Japanese回帰分析とパーティクルフィルタを用いた単眼画像からの人体3次元姿勢推定Report scientific journal
- Jul. 2009, 画像の理解・認識シンポジウム, MIRU2009, IS1-60, pp. 769-776, Japanese過学習を考慮したAAMパラメータの選択と回帰分析による顔・視線方向同時推定Report scientific journal
- Jul. 2009, 電子情報通信学会,音声研究会, SP2009-41,pp. 1-6, Japaneseランダムプロジェクションを用いた音声特徴量変換Report scientific journal
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討In this paper, as a key technology for improvement of speech recognition system in car environments, we propose a single-microphone-based acoustic echo canceller that selects an optimum cancellation result based on the echo estimation with maximum likelihood using an acoustic model for signals from multi-loudspeakers. The results of experiments conducted to speech superimposed on music show that the proposed canceller can improve S/N ratio and speech recognition rate, compared to the canceller based on the algorithm of NLMS, where the signals from multi-loudspeakers are measured by a single microphone.The Institute of Electronics, Information and Communication Engineers, May 2009, 電子情報通信学会,音声研究会, SP2009-14,pp. 45-48(57) (57), 45 - 48, JapaneseReport scientific journal
- The Institute of Electronics, Information and Communication Engineers, 04 Mar. 2009, Proceedings of the IEICE General Conference, 2009(2) (2), 132 - 132, JapaneseD-12-23 Pose Robust and Person Independent Facial Expressions Recognition using AAM Model Selection
- The Institute of Electronics, Information and Communication Engineers, 04 Mar. 2009, Proceedings of the IEICE General Conference, 2009(2) (2), 185 - 185, JapaneseD-12-76 GENERIC OBJECT RECOGNITION BASED ON WEIGHTED INTEGRATION OF MULTIPLE FEATURE
- The Institute of Electronics, Information and Communication Engineers, 04 Mar. 2009, Proceedings of the IEICE General Conference, 2009(2) (2), 213 - 213, JapaneseD-12-104 Ball and Player Positional Estimation in 3D from Monocular Image Sequence
- The Institute of Electronics, Information and Communication Engineers, 04 Mar. 2009, Proceedings of the IEICE General Conference, 2009(2) (2), 231 - 231, JapaneseD-12-122 3D Human Pose Estimation Integrating Bottom-Up and Top-Down Approach from Monocular Image
- The Institute of Electronics, Information and Communication Engineers, 04 Mar. 2009, Proceedings of the IEICE General Conference, 2009(2) (2), 221 - 221, JapaneseD-12-112 FACE AND GAZE ANGLE ESTIMATION USING AAM AND REGRESSION
- Kobe University, Mar. 2009, Report of Research Center for Urban Safety and Security Kobe University, 13, 75 - 80, JapaneseDysarthric speech recognition using speech enhancement
- Mar. 2009, 第14回 Webインテリジェンスとインタラクション研究会WI2, pp. 89-94, JapaneseGrammar-gramとGrammarVerb-gramを用いたドメイン非依存型Whyテキストセグメント判定と回答抽出Report scientific journal
- Extracting Meta-information for Sports Live Games Based on Speech and Situation Recognition近年,多くのマルチメディア・コンテンツの所有が可能となってきた.大量のコンテンツの中から欲しい情報を得るためには,検索のためのメタ情報を付与しておく必要がある.本研究では,マルチメディア・コンテンツの一例としてスポーツ実況中継,特に野球実況中継に注目し,実況中継音声から音声認識を用いてメタ情報を抽出することを目的としている.野球のメタ情報としては,今何が起こっているかを表すイベントと,その積み重ねである状況が存在すると考えられる.まず,現実にイベントや状況が存在し,これを基にアナウンサは実況を行う.本研究では,実況音声から単語列だけを推定する音声認識を拡張し,実況音声から単語列・イベント系列・状況系列すべてを同時に推定する音声認識手法を提案する.定式化により,イベント依存音響モデル,状況遷移モデル,イベント推定モデル,状況依存言語モデルを得る.これらを確率の枠組みで統合的に用いることで,単語列とメタ情報の同時推定を行う.実験により,イベント検出F値0.87,イベント正解率0.86,状況正解率0.77を得た.その他,各モデルの「メタ情報付与性能」への寄与や,音声認識率と「メタ情報付与性能」との関係について考察を行う.Recently a large quantity of multimedia contents are broadcast and accessed. In order to retrieve exactly what we want to know from multimedia database, automatic extraction of meta-information is required. We focused on live speeches, especially baseball commentary speeches as a kind of multimedia contents. The purpose of this study is to provide meta-information based on speech recognition techniques. Events and situations are defined as metainformation. First of all, an event is occured or a situation is changed, then an announcer speaks based on an event and a situation. In this paper, we propose a extended speech recognition technique that estimates not only a word sequence but also a event sequence and a situation sequence concurrently. As a result of formulation, event dependent acoustic model, situation transition model, event estimation model and situation dependent language model are derived. A word sequence and meta-information are estimated based on these models. The experimental results showed that the proposed method provided meta-information with a high degree of accuracy.情報処理学会, 15 Feb. 2009, 情報処理学会論文誌, 50(2) (2), 563 - 574, Japanese
- Feb. 2009, 第3回音声ドキュメント処理ワークショップ, pp. 59-64, Japanese音声・状況の同時認識に基づく野球実況中継へのメタ情報付与Report scientific journal
- Robustness in Speech Recognition - What is needed ? -Robustness has been thought as very important for a long time to apply speech recognition systems to the real world. Here let us consider what is the 'next step' to improve the robustness from the viewpoints of acoustic analysis and acoustic models.Information Processing Society of Japan (IPSJ), 30 Jan. 2009, IPSJ SIG Notes, 2009(10) (10), 25 - 25, Japanese
- Jan. 2009, 電子情報通信学会音声研究会, pp. 7-12(422) (422), 7 - 12, Japanese複数の言語情報を用いたCRFによる音声認識誤りの検出Report scientific journal
- Language Model Adaptation by Topic Model Based on Sequence of WordsIt is important to consider semantics for reductions of recognition errors unlike humans or understanding meanings and contents. To accommodate these problems, Latent Semantic Analysis (LSA) or Probabilistic LSA have been proposed. However these methods are based on Bag-of-words techniques. For more sophisticated analysis, it needs to consider a sequence of words in a document. In this paper, we propose the method based on Kernel PCA and Dynamic Time Alignment Kernel in order to consider a sequence of words. Preliminary experimental results shows the proposed method can separete clearly a sequence of right turn/left turn prots data. Moreover, experimental results of language corpus shows the reduction of perplexity.Information Processing Society of Japan (IPSJ), 02 Dec. 2008, IPSJ SIG Notes, 2008(123) (123), 249 - 254, Japanese
- Dec. 2008, 情報処理学会バイオ情報学研究会研究報告, pp.115-118, Japanese多重解像度独立性検定を用いた遺伝子ネットワークの構築Report scientific journal
- Dec. 2008, 第10回音声言語シンポジウム, pp.43-48(338) (338), 43 - 48, Japanese制約付き非負行列因子分解を用いた音声特徴抽出の検討Report scientific journal
- Dec. 2008, 第10回音声言語シンポジウム, pp.191-196, Japanese音声の動的特徴のモデルを使った突発性雑音の除去Report scientific journal
- Dec. 2008, 第10回音声言語シンポジウム, pp.161-166, Japaneseスペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討Report scientific journal
- Progress Report of SLP Noisy Speech Recognition Evaluation WG : Individual evaluation framework for each factor affecting recognition performance (3)We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.Information Processing Society of Japan (IPSJ), 17 Oct. 2008, IPSJ SIG Notes, 2008(102) (102), 41 - 46, Japanese
- Jul. 2008, 画像の認識・理解シンポジウムMIRU2008, pp.611-616, 611 - 616, JapaneseSIFTとGraph Cuts を用いた物体認識及びセグメンテーションReport scientific journal
- Jul. 2008, 画像の認識・理解シンポジウムMIRU2008, pp.508-513, JapanesePrefixSpan を用いた人物の日常行動抽出Report scientific journal
- Jul. 2008, 画像の認識・理解シンポジウムMIRU2008, pp.960-965, 960 - 965, JapaneseHOG特徴に基づく単眼画像からの人体3 次元姿勢推定Report scientific journal
- Jul. 2008, 画像の認識・理解シンポジウムMIRU2008, pp.796-801, JapaneseAdaBoostとSaliency Mapを用いたGraph Cutsによる花弁領域の自動抽出法Report scientific journal
- May 2008, 電子情報通信学会技術研究報告WIT2008, pp. 37-42, Japaneseメタモデルと音響モデルの統合による構音障害者の音声認識Report scientific journal
- NetTv: Cross-Platform Video Retrieval and QA System with Speech InterfaceThe objective of this research is to construct a video searching mechanism and speech interface on the multimedia crossplatform, namely TV and Internet, which requires the capability to deal with dynamic contents. Current NetTv enables users to search both recorded TV contents and news on the Internet by simply speaking keywords as a query; hence the videos related to the keyword spoken are retrieved. Also, the system provides a simple keyword based QA system to answer various questions that may occur to users whilst watching retrieved videos. In this way, NetTv improves the usability of video searching and viewing in a hands free way.The Institute of Electronics, Information and Communication Engineers, May 2008, 電子情報通信学会技術研究報告SP2008, pp.31-36(67) (67), 31 - 36, JapaneseReport scientific journal
- The Institute of Electronics, Information and Communication Engineers, 05 Mar. 2008, Proceedings of the IEICE General Conference, 2008(2) (2), 136 - 136, JapaneseD-12-5 Extraction of Human Daily Activities from videos as Action Sequences using PrefixSpan
- The Institute of Electronics, Information and Communication Engineers, 05 Mar. 2008, Proceedings of the IEICE General Conference, 2008(2) (2), 252 - 252, JapaneseD-12-121 Graph Cuts by using Local Texture Features of Wavelet Coefficient for Image Segmentation
- The Institute of Electronics, Information and Communication Engineers, 05 Mar. 2008, Proceedings of the IEICE General Conference, 2008(2) (2), 253 - 253, JapaneseD-12-122 OBJECT RECOGNITION AND SEGMENTATION USING SIFT AND GRAPH CUTS
- Feb. 2008, 第2回音声ドキュメント処理ワークショップ, pp. 67-72, Japaneseニュース検索タスクにおけるシステム要求と雑談の判別Report scientific journal
- Japanese Society for Engineering Education, 2008, Proceedings of Annual Conference of Japanese Society for Engineering Education, 2008, 22 - 23, Japanese
- Progress Report of SLP Noisy Speech Recognition Evaluation WG : Individual evaluation framework for each factor affecting recognition performance (2)Performance improvement of noisy speech recognition is urgent for practical use of speech recognition and methods for this purpose should be compared on common evaluation frameworks. We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan, to develop evaluation frameworks of noisy speech recognition to compare many methods for processing of noisy speech. In this paper, we review the series of CENSREC series and then introduce the reverberant speech recognition evaluation framework CENSREC-4, the newest CENSREC. Finally we describe the road-maps of future CENSRECs.Information Processing Society of Japan (IPSJ), 20 Dec. 2007, IPSJ SIG Notes, 2007(129) (129), 1 - 6, Japanese
- Dec. 2007, 第9回音声言語シンポジウム, SP2007-120, pp.109-114, Japanese弱識別器にSVMを用いたAdaBoostの検討Report scientific journal
- 顔表情からの関心度推定に基づく映像コンテンツへのタギングRecently, there are so many videos available for people to choose to watch. To solve this problem, we propose a tagging system for video content based on facial expression that can be used for video content recommendations. Viewer's face captured by a camera is extracted by Elastic Bunch Graph Matching, and Interest class is estimated by Support Vector Machines. The interest classes are Neutral, Positive, Negative and Rejective. They are recorded as "interest tags" in synchronization with video content. Experimental results achieved an averaged recall rate of 87.61%, and averaged precision rate of 88.03%.The Institute of Electronics, Information and Communication Engineers, Dec. 2007, 電子情報通信学会技術研究報告, PRMU2007-137, pp. 13-18(384) (384), 13 - 18, JapaneseReport scientific journal
- Dec. 2007, 電子情報通信学会技術研究報告, PRMU2007-138, pp. 19-24, Japanese画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴量を用いたGraph CutsReport scientific journal
- 音素部分空間の統合による音声特徴量抽出の検討In this paper, we propose a speech feature extraction method that is estimating each phoneme-subspace and integrate each subspace within a framework of feature extraction by pre-learning. The most commonly used speech feature for speech recognition is MFCC that is computed applying DCT to the mel-scale filter bank output. This feature space dose not depend on target speech data set and is decided by uniquely. To make speech recognition system fit for practical use, noise that is latent in observed data and useless for recognition must be removed. MFCC is uesd combined with other removing noise methods but performance degradation is inescapable if unexpected noises are mixed in observed data. Consequently, subspaces (projection matrix) that only extract phonemic information are estimated by pre-learning with observed data. Specifically, PCA or LDA are applied to each phoneme data set and each phoneme-subspace were estimated. Additionally, all phoneme-subspaces are integrated by PCA. This integrated subspace will have phonemic information of target speech data set and extract only that information. In evaluation experiment, we modeled phoneme HMM by proposed feature and carried out isolated word recognition experiments. The experiment results showed that the proposed method is effective compared to conventional methods.Information Processing Society of Japan (IPSJ), Dec. 2007, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294(129) (129), 241 - 246, JapaneseReport scientific journal
- Dec. 2007, 第9回音声言語シンポジウム, SP2007-120, pp. 143-148, Japanese音声認識との統合によるシステム要求検出Report scientific journal
- Dec. 2007, 第9回音声言語シンポジウム, SP2007-100, pp. 25-30, Japanese音声GMMと雑音重み推定を用いた雑音除去Report scientific journal
- Dec. 2007, 第9回音声言語シンポジウム, SP2007-145, pp. 289-294, Japanese韻律及び話者交代情報を用いたシステム要求検出Report scientific journal
- Forum on Information Technology, 22 Aug. 2007, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 389 - 390, JapaneseJ-002 Tagging for Video Contents Based on User's Facial Expression
- Forum on Information Technology, 22 Aug. 2007, 情報科学技術フォーラム一般講演論文集, 6(3) (3), 37 - 38, JapaneseH-015 Eye Detection Using PCA Correlation Filter.
- Aug. 2007, 画像の認識・理解シンポジウム, MIRU2007, IS-3-22, pp. 1052-10, Japanese探索手法の切り替えを用いたサッカー映像におけるボール追跡システムReport scientific journal
- Aug. 2007, 画像認識・理解シンポジウム, MIRU2007, IS2-08, pp. 750-755, Japanese固定カメラ映像からの音声・画像情報を用いた映像コンテンツの生成Report scientific journal
- Aug. 2007, 画像認識・理解シンポジウム, MIRU2007, IS-5-21, pp. 1498-15, Japaneseマルチ識別器を用いた画像検索による花図鑑システムReport scientific journal
- Aug. 2007, 画像の認識・理解シンポジウム, MIRU2007, IS-4-08, pp. 1189-11, JapaneseEBGMを用いた唇の形状抽出による発話区間の検出Report scientific journal
- May 2007, 電子情報通信学会技術研究報告WIT, WIT2007-7, pp. 33-38, Japanese情報家電操作における脳性麻痺構音障害者の音声認識評価Report scientific journal
- May 2007, 電子情報通信学会技術研究報告, SP2007-1, pp. 1-6, Japanese音素PCAを用いた残響下における音声特徴量抽出Report scientific journal
- The Institute of Electronics, Information and Communication Engineers, 07 Mar. 2007, Proceedings of the IEICE General Conference, 2007(2) (2), 134 - 134, JapaneseD-12-18 Construction of the Flower Image Search System Using Multi Classifier
- The Institute of Electronics, Information and Communication Engineers, 07 Mar. 2007, Proceedings of the IEICE General Conference, 2007(2) (2), 86 - 86, JapaneseD-11-86 Driver's Face Azimuth Judgment in Infrared Image
- The Institute of Electronics, Information and Communication Engineers, 07 Mar. 2007, Proceedings of the IEICE General Conference, 2007(2) (2), 204 - 204, JapaneseD-12-88 A Fast Algorithm for Eye Detection Using Two-Dimensional CSP with Multitemplates
- 一般社団法人電子情報通信学会, 07 Mar. 2007, 電子情報通信学会総合大会講演論文集, 2007(2) (2), 156 - 156, JapaneseD-12-40 自動映像生成のためのパーティクルフィルタによるボールの追跡(D-12.パターン認識・メディア理解,一般講演)
- The Institute of Electronics, Information and Communication Engineers, 07 Mar. 2007, Proceedings of the IEICE General Conference, 2007(2) (2), 196 - 196, JapaneseD-12-80 Facial Expressions Recognition based on Combination of Movement and Distance Variation between Facial Feature Points
- The Institute of Electronics, Information and Communication Engineers, 07 Mar. 2007, Proceedings of the IEICE General Conference, 2007(1) (1), 153 - 153, JapaneseD-14-17 Image Content Gneration Using Voice Information from Fixed Camera
- [豊橋技術科学大学メディア科学リサーチセンター], Feb. 2007, 第1回音声ドキュメント処理ワークショップ, pp. 121-126, 121 - 126, Japaneseブースティングを用いた野球実況中継に対するメタデータの作成Report scientific journal
- Feb. 2007, 第1回音声ドキュメント処理ワークショップ, pp. 115-120, Japaneseトピックモデルとタスクの知識を用いた言語モデルによる野球実況中継の構造化Report scientific journal
- Jan. 2007, 電子情報通信学会技術研究報告, WIT2006-75,pp13-18, Japanese構音障害者の音声認識の検討Report scientific journal
- Jan. 2007, 情報処理学会データベースシステム研究会研究報告, 2007-DBS-141, pp.59-66, 59 - 66, JapaneseNetTv:NetNewsとテレビ放送のクロスプラットホームにおける動画のインデキシングと音声検索Report scientific journal
- Noise Detection with Multi-class AdaBoostA noise signal decreases speech recognition rate. Therefore, noise reduction is important, and it needs to estimate the noise signal. However, estimating noise is difficult when the noise happens suddenly in a speech. We proposed the method for detecting and identifying the noise in a speech, where it happens suddenly. Its effectiveness is confirmed at SNR -5〜5dB for the noise duration time 200 ms.Information Processing Society of Japan (IPSJ), 21 Dec. 2006, IPSJ SIG Notes, 2006(136) (136), 7 - 12, Japanese
- Progress Report of SLP Noisy Speech Recognition Evaluation WG : Individual evaluation framework for each factor affecting recognition performancePerformance improvement of noisy speech recognition is urgent for practical use of speech recognition. Many researchers have been tryin to overcome this problem. We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan, to develop evaluation frameworks of noisy speech recognition to compare many methods for processing of noisy speech. In this paper, we first review the series of CENSREC (Corppus and Environment of Noisy Speech RECognition) and then introduce the CENSREC-1-C, the newest CENSREC. Finally we describe the road-maps of future CENSRECs.The Institute of Electronics, Information and Communication Engineers, 14 Dec. 2006, IEICE technical report, 106(443) (443), 1 - 6, Japanese
- Noise Detection with Multi-class AdaBoostA noise signal decreases speech recognition rate. Therefore, noise reduction is important, and it needs to estimate the noise signal. However, estimating noise is difficult when the noise happens suddenly in a speech. We proposed the method for detecting and identifying the noise in a speech, where it happens suddenly. Its effectiveness is confirmed at SNR -5〜5dB for the noise duration time 200ms.The Institute of Electronics, Information and Communication Engineers, 14 Dec. 2006, IEICE technical report, 106(443) (443), 7 - 12, Japanese
- 局所特徴量によるフィッシャー重みマップに基づく音素認識In this paper, we propose a new feature extraction method based on higher-order local auto-correlation (HLAC) and Fisher weight map (FWM). Widely used MFCC features lack temporal dynamics. To solve this problem, 35 types of local auto-correlation features are computed within two-dimensional local regions. These local features are accumulated over more global regions by weighting high scores on the discriminative areas where the typical features among all phonemes are well expressed. This score map is called Fisher weight map. We verified the effectiveness of the HLAC and FWM through total phoneme recognition.The Institute of Electronics, Information and Communication Engineers, Dec. 2006, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24(444) (444), 19 - 24, JapaneseReport scientific journal
- 音響モデルを利用したシングルチャネルによる音源方向推定This paper presents a voice localization method using only a single microphone, where the GMM (Gaussian Mixture Model) of clean speech is introduced to estimate the acoustic transfer function from any user's position. The sequence of the acoustic transfer function is estimated by maximizing the likelihood of train data (only several words) uttered from an unknown position, where the cepstral parameters are used due to effectively represent useful clean speech information. Using the sequence data of the acoustic transfer function, the GMM of the acoustic transfer function is created to deal with the influence of a long impulse response. Its effectiveness is confirmed by voice (talker) direction experiments in a room environment.The Institute of Electronics, Information and Communication Engineers, Dec. 2006, 電子情報通信学会技術研究報告, EA2006-90, pp. 7-11(432) (432), 7 - 11, JapaneseReport scientific journal
- Dec. 2006, 第8回音声言語シンポジウム, SIG-SLP64, pp. 19-24, JapaneseAdaBoostを用いたシステムへの問い合わせと雑談の判別Report scientific journal
- Dec. 2006, 電子情報通信学会技術研究報告, SP2006-85, pp. 89-94, Japanese3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討Report scientific journal
- CENSREC-1-C: Development of evaluation framework for voice activity detection under noisy environmentVoice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environment. We developed a evaluation framework for VAD under noisy environments, named CENSREC-1-C. This framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We defined two evaluation measures, one for frame-level detection performance and the other for utterance-level detection perfromance. We showed the evaluation results of a baseline power-based VAD method.Information Processing Society of Japan (IPSJ), 20 Oct. 2006, IPSJ SIG Notes, 2006(107) (107), 1 - 6, Japanese
- 3次キュムラント音声特徴を用いた音声区間検出The separation of speech and non-speech events is an important problem for speech recognition. In clean conditions, energy or zero-crossing features work well. However, a traditional voice activity detection (VAD) is not robust to noisy conditions where speech signal is seriously contaminated by noise. A robust VAD algorithm based on the determination of the speech/non-speech bispectra of the third order auto-cumulants has been proposed. In this paper, we investigate the effectiveness of the integration between MFCC and the bispectra of the third order auto-cumulants. Experimental results show the proposed algorithm effective.The Institute of Electronics, Information and Communication Engineers, Sep. 2006, 電子情報通信学会技術研究報告, SIP, pp. 37-42(263) (263), 37 - 42, JapaneseReport scientific journal
- Forum on Information Technology, 21 Aug. 2006, 情報科学技術フォーラム一般講演論文集, 5(3) (3), 49 - 50, JapaneseI_022 A Fast Algorithm for Eye Detection Using Two-Dimensional CSP
- Jul. 2006, 画像認識・理解シンポジウム, pp. 934-939, Japanese唇領域の動静判定と音声・雑音判定の統合に基づく発話区間の検出Report scientific journal
- 一般社団法人電子情報通信学会, 08 Mar. 2006, 電子情報通信学会総合大会講演論文集, 2006(1) (1), 131 - 131, JapaneseD-14-7 AdaBoostと音声・唇GMMによる発話区間検出(D-14.音声・聴覚,一般講演)
- A Report of SLP Speech Recognition Evaluation WGPerformance degradation by environmental interference such as noise and reverberation is inevitable for the current state of the art speech recognition. So far there have been many researches to overcome this problem. However, it has been very difficult to know actual improvements and compare those methods since those methods were developed for individual tasks and on different corpus. To ovecome these problems, we organized a working group under Information Processing Society of Japan. This paper introduces current activities and a future road-map of a common standardized framework for noisy speech recognition by the working group organized by the authors.The Institute of Electronics, Information and Communication Engineers, 22 Dec. 2005, IEICE technical report, 105(494) (494), 49 - 54, Japanese
- A Report of SLP Speech Recognition Evaluation WGPerformance degradation by environmental interference such as noise and reverberation is inevitable for the current state of the art speech recognition. So far there have been many researches to overcome this problem. However, it has been very difficult to know actual improvements and compare those methods since those methods were developed for individual tasks and on different corpus. To ovecome these problems, we organized a working group under Information Processing Society of Japan. This paper introduces current activities and a future road-map of a common standardized framework for noisy speech recognition by the working group organized by the authors.Information Processing Society of Japan (IPSJ), 22 Dec. 2005, IPSJ SIG Notes, 2005(127) (127), 139 - 144, Japanese
- 08 Mar. 2005, 日本音響学会研究発表会講演論文集, 2005(1) (1), 123 - 124, JapaneseNoise reduction using 2-channel microphone in complex spectrum plane
- 08 Mar. 2005, 日本音響学会研究発表会講演論文集, 2005(1) (1), 149 - 150, JapaneseStructuring the Baseball Game Based on Word Cooccurrences after Speech Recognition
- 2005, 音声言語情報処理研究会, SLP2005-58, pp. 25-30, JapaneseA Study on Conversational TV with Contextual AwarenessReport scientific journal
- 2005, 音声言語情報処理研究会, SLP-59, pp. 175-180, JapaneseA Study on Robust Feature Extraction using Kernel PCAReport scientific journal
- Improved HMM Separation for Distant-Talking Speech RecognitionIn distant-talking speech recognition, the recognition accuracy is seriously degraded by reverberation and environmental noise. A robust speech recognition technique in such environments, HMM separation and composition, has been described in [1]. HMM separation estimates the model parameters of the acoustic transfer function using adaptation data uttered from an unknown position in noisy and reverberant environments, and HMM composition builds an HMM of noisy and reverberant speech, using the acoustic transfer function estimated by HMM separation. Previously, HMM separation has been applied to the acoustic transfer function based on a single Gaussian distribution. However the improvement was smaller than expected for the impulse response with long reverberations. This is because the variance of the acoustic transfer function in each frame increases, since the length of the impulse response of the room reverberation is longer than that of the spectral analysis window. In this paper, HMM separation is extended to estimate the acoustic transfer function based on the Gaussian mixture components in order to compensate for the greater variability of the acoustic transfer function, and the re-estimation formulae are derived. In addition, this paper introduces a technique to adapt the noise weight for each mel-spaced frequency in order to improve the performance of the HMM separation in the linear-spectral domain, since the use of the HMM separation in the linear-spectral domain sometimes causes a negative mean output due to the subtraction operation. The extended HMM separation is evaluated on distant-talking speech recognition tasks. The results of the experiments clarify the effectiveness of the proposed method.The Institute of Electronics, Information and Communication Engineers, 01 May 2004, IEICE transactions on information and systems, 87(5) (5), 1127 - 1137, English
- 18 Mar. 2003, 日本音響学会研究発表会講演論文集, 2003(1) (1), 45 - 46, JapaneseAn improvement of HMM separation for hands-free speech recognition
- 2003, 情報処理学会音声言語情報処理研究会, SLP45-3, Japanese残響下音声認識におけるHMM分離法の改良[Refereed]Others
- 2003, 電子情報通信学会応用音響研究会, EA2003-2, Japanese雑音・残響下音声認識におけるHMM分離・合成法の改良[Refereed]Others
- Noise Reduction by Profile Fitting MethodThis paper presents a novel method of microphone array beamforming based on decomposition of power distribution profile. Our objective is to improve the performance of distant talking speech recognition configured with two microphones (left and right). In order to achieve high performance in noisy environment using limited numbers of microphones, we focused on the profile of power distribution depending on a beamforming direction. An observed profile can be decomposed into known profiles for directional sound sources and a non-directional background sound source. Evaluations confirmed this method achieved higher recognition accuracy than the conventional 2channel spectral subtraction beamformer.The Institute of Electronics, Information and Communication Engineers, 23 May 2002, IEICE technical report. Speech, 102(107) (107), 19 - 23, Japanese
- 18 Mar. 2002, 日本音響学会研究発表会講演論文集, 2002(1) (1), 69 - 70, JapaneseSpeech Emphasis by Profile Fitting
- 18 Mar. 2002, 日本音響学会研究発表会講演論文集, 2002(1) (1), 57 - 58, JapaneseRobust speech recognition based on the frame-wise model selection
- 18 Mar. 2002, 日本音響学会研究発表会講演論文集, 2002(1) (1), 179 - 180, JapaneseEmphasizing speech by using harmonic structure and source direction
- 01 Oct. 2001, 日本音響学会研究発表会講演論文集, 2001(2) (2), 155 - 156, JapaneseHands-free speech recognition based on multi-style training in car environments
- 01 Oct. 2001, 日本音響学会研究発表会講演論文集, 2001(2) (2), 49 - 50, JapaneseA Method for Interpreting an Utterance without Considering Sentence Structure
- The Japan Society of Mechanical Engineers, 05 Jun. 2001, Journal of the Japan Society of Mechanical Engineers, 104(991) (991), 360 - 361, JapaneseSpeech Recognition
- 01 Mar. 2001, 日本音響学会研究発表会講演論文集, 2001(1) (1), 181 - 182, JapaneseIntegration of HMM composition and microphone array for overlapping speech recognition
- 01 Sep. 2000, 日本音響学会研究発表会講演論文集, 2000(2) (2), 113 - 114, JapaneseRecognition overlapping speech by using HMM composition
- 01 Mar. 1999, 日本音響学会研究発表会講演論文集, 1999(1) (1), 127 - 128, JapaneseA study of speech recognition in a reverberation environment with interframe correlation
- 01 Mar. 1999, 日本音響学会研究発表会講演論文集, 1999(1) (1), 27 - 28, JapaneseSpeech recognition of a distant-moving talker based on the HMM composition by an ergodic-HMM of acoustic transfer functions
- Model Adaptation by HMM Decomposition and Composition in Noisy Reverberant Environmentsユーザがマイクロホンから離れて発話した場合のハンズフリー音声認識に対しては, 残響環境下において認識精度が劣化してしまう.なぜなら, その音声は, 周囲の雑音および残響の影響を受けてしまい, 学習データと観測データとの間にミスマッチが生じてしまうためである.それらの影響に対処するために, 筆者らは, これまでに音響伝達特性HMMを作成し, HMM合成法による音声認識法を提案した[1], [2].しかし, その方法では認識を行う前に, あらかじめ各場所からの音声伝達特性を測定する必要があった.本論文では, 音響伝達特性HMMの推定を, 観測信号より行う方法を提案する.この方法では, 話者の場所が既知である必要はなく, 任意の場所から発話された適応データを用いて, 最ゆう推定に基づき, HMMを一つの既知HMMともう一つのHMMに分解し, モデルパラメータの推定を行う.音素を単位にした500単語認識実験の結果, 特定話者認識率が77.2%から91.2%に, 不特定話者認識率は54.4%から66.2%に改善され, 提案方法の有効性が示された.The Institute of Electronics, Information and Communication Engineers, Oct. 1998, The Transactions of the Institute of Electronics,Information and Communication Engineers., 81(10) (10), 2231 - 2238, Japanese
- Evaluation of Model Adaptation by HMM Decomposition on Telephone Speech RecognitionIn this paper, we evaluate a performance of model adaptation by the previously proposed HMM decomposition method [1] on telephone speech recognition. The HMM decomposition separates a composed HMM into a known HMM and an unknown HMM by operations of HMM model parameters based on maximum likelihood (ML) estimation. The telephone channel HMM is estimated using the noisy adaptation data by applying the HMM decomposition twice in the linear spectral domain and the cepstral domain. The average recognition accuracies for wire and wireless hand sets with clean speech HMMs are 60.9% and 19.6%, respectively. By the HMM decomposition method, the average recognition accuracies for wire and wireless hand sets are improved to 78.1% and 43.2%, respectively.The Institute of Electronics, Information and Communication Engineers, 12 Jun. 1998, IEICE technical report. Speech, 98(106) (106), 39 - 44, Japanese
- A Method of Reverberation Compensation based on Short Time Spectral AnalysisThe distant talking speech in real environments is distorted by noise and reverberation of the room. We have proposed a model adaptation method, HMM de / composition, which realizes recognition of the moving talker's speech in a real room with relatively short reverberations. However, the improvement was smaller than expected for the impulse response with long reverberations, because the method is based on short time spectral analysis. This paper investigates a method which can deal with the inpulse response with long reverberations beyond window length of short time spectral analysis.The Institute of Electronics, Information and Communication Engineers, 12 Jun. 1998, IEICE technical report. Speech, 98(106) (106), 17 - 22, Japanese
- 17 Mar. 1998, 全国大会講演論文集, 56, 82 - 83, JapaneseEffects by noise and handsets in speaker recognition of telephone speech
- 01 Mar. 1998, 日本音響学会研究発表会講演論文集, 1998(1) (1), 103 - 104, JapaneseA method of reverberation compensation based on short time spectral analysis
- Hands - free Speech Recognition by HMM De - Composition in Noisy Reverberant EnvironmentsThis paper proposes a new method to estimate HMM parameters of an acoustical transfer function based on HMM decomposition for hands-free speech recognition. This method is able to estimate the model parameters by maximizing a likelihood (ML) of noisy reverberant speech data in the model domain. The proposed HMM decomposition method is applied twice to noisy reverberant speech. Firstly, the HMM decomposition method is applied in the liner spectral domain to estimate the distorted speech HMMs by ML estimation. The obtained distorted speech HMMs are converted to the cepstral domain. Then the HMM decomposition method is applied again in the cepstral domain to estimate the acoustical transfer function HMM by ML estimation. The speaker dependent and independent recognition rates for distant-talking 500 words are improved from 77.2% to 91.2% and from 54.4% to 66.2%, respectively.Information Processing Society of Japan (IPSJ), 05 Feb. 1998, IPSJ SIG Notes, 1998(12) (12), 87 - 94, Japanese
- 01 Sep. 1997, 日本音響学会研究発表会講演論文集, 1997(2) (2), 157 - 158, JapaneseEvaluation of Model Adaptation by HMM Decomposition in Real Environments
- 01 Mar. 1997, 日本音響学会研究発表会講演論文集, 1997(1) (1), 39 - 40, JapaneseSpeech Recognition by Adaptation of Model Parameters based on HMM Decomposition in Noisy Reverberant Environments
- Speech Recognition by Adaptation of Model Parameters based on HMM Decomposition in Reverberant EnvironmentsThe performance of a speech recognizer is degraded drastically in reverberant environments. This paper presents a new method to estimate HMM parameters of an acoustic transfer function from some adaptation data from user's position by using an HMM decomposition algorithm. HMM decomposition is an inverse process of the HMM composition. In our previous paper, we measured real impulse responses of training positions in an experiment room. It is inconvenient and unrealistic to measure impulse responses for every possible new experiment room. 500 word recognition results indicate that the proposed methods improve the speaker dependent recognition rate from 79.8% to 87.6%, and the speaker independent recognition rate from 66.5% to 70.1% for reverberant speech by using 5 adaptation words.The Institute of Electronics, Information and Communication Engineers, 16 Jan. 1997, IEICE technical report. Speech, 96(448) (448), 7 - 12, Japanese
- Hands-Free Speech Recognition by HMM Composition in Noisy Reverberant実環境においては,加法性雑音だけでなく,残響も認識精度を劣化させる要因となる.本論文では,そのような環境における音声認識法としてHMM合成法に基づく手法を提案する.この手法により,話者はマイクロホンの位置を意識せずに発話することが可能になり,ユーザインタフェースの向上が実現される.HMM合成法は,加法性雑音の対処方法として提案されている[1], [2].本提案手法では,従来の雑音のHMMによるモデル化に加えて,音響伝達特性のHMMによるモデル化を試みる.このHMMの各状態を音源位置に対応させることにより,話者が自由に動いても対処することが可能になる.雑音と残響のある環境下での音声モデルを,この音響伝達特性HMM,雑音HMM,クリーン音声HMMを合成することで作成し,認識は,最ゆう法により行われる.本提案手法により,雑音と残響により影響を受けた音声に対して,特定話者認識では,4.8%から67.2%へ,不特定話者認識では,18.7%から57.2%への認識率の改善が得られた.The Institute of Electronics, Information and Communication Engineers, 25 Dec. 1996, The Transactions of the Institute of Electronics,Information and Communication Engineers., 79(12) (12), 2047 - 2053, Japanese
- 01 Sep. 1996, 日本音響学会研究発表会講演論文集, 1996(2) (2), 147 - 148, JapaneseAdaptation of model parameter by HMM composition and decomposition in reverberant environments speech recognition
- 01 Sep. 1996, 日本音響学会研究発表会講演論文集, 1996(2) (2), 133 - 134, JapaneseSpeech Recognition Experiments in Real Environments using a Microphone Array and HMM Composition
- 01 Mar. 1996, 日本音響学会研究発表会講演論文集, 1996(1) (1), 43 - 44, JapaneseEffects of the reverberation time on HMM composition for speech recognition
- Speech Recognition in Additive Noise and Room Acoustics Distortion by HMM CompositionAll kinds of noises cause a degradation of speech recognition rates in a real environment. When a speaker utters from distance, the speech would be suffered from room acoustics distortion. The room acoustics distortion also causes a degradation of speech recognition rates. To compensate this degradation, the HMM composition method is adapted to not only an additive noise, but also the room acoustics distortion. A HMM attempts to model the room acoustics distortion. A state of the room acoustics distortion HMM corresponds to a position of sound sources. This HMM can estimate the position of sound sources, even the speaker moves. Further this paper proposed a method which combines a speech HMM, a noise HMM and a room acoustics distortion HMM to recognize the noisy distorted speech. Results of 500 words recognition experiments were 23.6%, 78.6% and 80.6%, by the clean speech HMM, the speech and noise HMM, and the speech, noise and room acoustics distortion HMM, respectively. The improvement of 57.0% clarified the effectiveness of the proposed method.The Institute of Electronics, Information and Communication Engineers, 20 Oct. 1995, IEICE technical report. Speech, 95(319) (319), 41 - 46, Japanese
- Joint editor, I-Tech Education and Publishing, Feb. 2014, English, In this chapter, we introduce the concept of an active microphone that achieves a good combination of active-operation and signal processing. The active microphone has a parabolic reflection board, which is extremely simple in construction. The reflector and its associated microphone rotate together, perform signal processing, and seek to locate the direction of the sound source., ISBN: 9789535112266Evaluation of an Active Microphone with a Parabolic Reflection Board for Monaural Sound-Source-Direction Estimation (Chapter on Soundscape Semiotics - Localisation and Categorisation. Book edited by Hervé Glotin)Scholarly book
- Joint work, オーム社, Jan. 2013, Japanese, ISBN: 9784274213052ディジタル信号処理Textbook
- Joint work, Intech Open Publisher, Mar. 2011, EnglishSingle-Channel Sound Source Localization Based on Discrimination of Acoustic Transfer Functions, Chapter on "Advances in Sound Localization" Book edited by Powel StrumilloScholarly book
- Joint work, I-Tech Education and Publishing, Feb. 2010, EnglishVideo Editing Based on Situation Awareness from Voice Information and Face Emotion, Chapter on "Digital Video." Book edited by Floriano De Rango.Scholarly book
- Joint work, I-Tech Education and Publishing, Oct. 2009, English3D Human Posture Estimation Using HOG Features of Monocular Images, Chapter on "Pattern Recognition." Book edited by Peng-Yeng Yin.Scholarly book
- Joint work, I-Tech Education and Publishing, Nov. 2008, EnglishSystem Request Utterance Detection Based on Acoustic and Linguistic FeaturesScholarly book
- Joint work, I-Tech Education and Publishing, 2007, EnglishVoice and Noise Detection with AdaBoostScholarly book
- 電子情報通信学会総合大会, Mar. 2024表情認知における注意欠如多動症傾向とスキャニングパターンの関連Poster presentation
- 電子情報通信学会総合大会, Mar. 2024ラベルなし音声を用いた自己教師あり学習による器質性構音障害者の音声認識Poster presentation
- 電子情報通信学会総合大会, Mar. 2024Human-in-the-LoopとVision & Languageモデルを用いた道路損傷検出のための効率的なアノテーションPoster presentation
- 第21回画像の認識・理解シンポジウム, 2018, Japanese, Domestic conference物体振動を用いた畳み込みニューラルネットワークによる音源復元Poster presentation
- 第21回画像の認識・理解シンポジウム, 2018, Japanese, Domestic conferenceハイスピードカメラ画像を用いた唇動画像からの音声生成Poster presentation
- 第21回画像の認識・理解シンポジウム, 2018, Japanese, Domestic conferenceKnowledge graph embeddings for Zero-Shot LearningPoster presentation
- 第20回画像の認識・理解シンポジウム, 2017, Japanese, Domestic conference災害応急対策支援を目的とした衛星画像の被覆分類精度向上についてPoster presentation
- 第20回画像の認識・理解シンポジウム, 2017, English, Domestic conferenceAutomation of hospital patients’ leftover food quantity estimationPoster presentation
- 画像の認識・理解シンポジウム, Aug. 2016, Japanese, Domestic conference衛星画像解析と地図情報の統合による被害状況地図の作成Poster presentation
- 画像の認識・理解シンポジウム, Aug. 2016, Japanese, Domestic conference映像中の変動の大きな物体に対する音源復元のための物体振動抽出手法の検討Poster presentation
- 画像の認識・理解シンポジウム, Aug. 2016, English, Domestic conferenceSIFT Boosting for Handwriting RecognitionPoster presentation
- 画像の認識・理解シンポジウム, Aug. 2016, English, Domestic conferenceObject-Based Geo-Eye Satellite Image Segmentation for Tsunami Disaster Map PreparationPoster presentation
- 画像の認識・理解シンポジウム, Aug. 2016, Japanese, Domestic conferenceConvolutional Neural Networksを用いた物体の機能推定Poster presentation
- 日本音響学会2015年春季研究発表会, Mar. 2015, Japanese, Domestic conference適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換Oral presentation
- 日本音響学会2015年春季研究発表会, Mar. 2015, Japanese, Domestic conference少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換Oral presentation
- 日本音響学会2015年春季研究発表会, Mar. 2015, Japanese, Domestic conferenceDeep Boltzmann Machine を用いた音素ラベル情報推定Oral presentation
- 画像の認識・理解シンポジウム, 2015, Japanese, Domestic conferenceModeling Deep Bidirectional Relationships for Image Classification and GenerationPoster presentation
- 画像の認識・理解シンポジウム, 2015, Japanese, Domestic conferenceDeformable Part Modelを用いた物体の機能推定Poster presentation
- 画像の認識・理解シンポジウム, 2015, Japanese, Domestic conferenceConvolutional Bottleneck Networks を用いた重度難聴者のマルチモーダル音声認識Poster presentation
- 画像の認識・理解シンポジウム, 2015, English, Domestic conferenceA Robust Multi-classification Algorithm Using Learning SURF Cascade for Emotional RecognitionPoster presentation
- 日本音響学会2014年秋季研電子情報通信学会技術研究報告究発表会, Dec. 2014, Japanese, Domestic conference話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討Oral presentation
- 日本音響学会2014年秋季研究発表会, Sep. 2014, Japanese, Domestic conference話者適応を用いたNMFによる雑音環境下の声質変換Oral presentation
- 日本音響学会2014年秋季研究発表会, Sep. 2014, Japanese, Domestic conference話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換Oral presentation
- 日本音響学会2014年秋季研究発表会, Sep. 2014, Japanese, Domestic conference遺伝的アルゴリズムを用いた 構音障害者の音声特徴量抽出に最適なランダム行列の生成Oral presentation
- 電子情報通信学会技術研究報告, May 2014, Japanese, Domestic conferenceスパース表現に基づく声質変換のための結合型 restricted Boltzmann machineOral presentation
- 画像の認識・理解シンポジウム, 2014, Japanese, Domestic conference物体の機能発現を可能とする属性情報の抽出Poster presentation
- 画像の認識・理解シンポジウム, 2014, Japanese, Domestic conferenceボールと選手のHMMを統合したサッカー映像のイベント認識Poster presentation
- 画像の認識・理解シンポジウム, 2014, Japanese, Domestic conferenceA Robust Learning Algorithm Based on SURF and PSM for Facial Expressions RecognitionPoster presentation
- 画像の認識・理解シンポジウム, 2014, Japanese, Domestic conferenceAAMによる顔方位に依存しない連続発話認識Poster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, Japanese, 情報処理学会CVIM研究会, 東京, 本研究では,物体の画像パターン認識ではなく,物体の機能に基づいた認識について研究を行う., Domestic conference物体の機能に基づく認識Poster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, Japanese, 情報処理学会CVIM研究会, 東京, 本研究では,世界的に人気のあるスポーツであるサッカーにおけるイベント検出手法を提案する.ここでのイベントとは,サッカーの試合における,ゴールキックやコーナーキック,ゴールといったアウトオブプレーを指す., Domestic conferenceサッカー映像におけるホイッスル音声情報を利用した イベント検出Poster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, English, 情報処理学会CVIM研究会, 東京, In our proposed approach, the overall object shape is captured by the depth spatial pyramid based on depth information. In more detail, multiple features within each sub-region of the depth spatial pyramid are pooled. As a result, the feature representation including the depth topological information is constructed. We use not only SIFT, but also histograms of oriented normal v, Domestic conferenceRGB-D based 3D-Object Recognition by LLC using Depth Spatial PyramidPoster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, English, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel image classification approach, Locality-constrained Linear Coding with codebook on codebooks. The fl ow of our proposed method is, i) generate a class codebook from each class using local descriptors of the class, ii) generate a global codebook based on class codebooks, and iii) encode local descriptors to codes with LLC based on the global cod, Domestic conferenceImage Classification Based on CodeBook on CodeBooksPoster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, English, 情報処理学会CVIM研究会, 東京, One of the most crucial techniques associated with Computer Vision is technology that deals with facial recognition, especially, the automatic estimation of human emotions. However, in real-time facial expression recognition, when a face turns sideways, the expressional feature extraction becomes difficult as the view of camera changes and recognition accuracy degrades signific, Domestic conferenceHuman Emotions Estimation Using Combination of 3D Average Face and LUT-AdaBoostPoster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, English, 情報処理学会CVIM研究会, 東京, In this paper, we propose a novel super-resolution method using DBNs to restore the missing high-frequencies, motivated by the above-mentioned characteristics of DBNs. In our approach, a low-resolved image is first scaled up to the prescribed size by using bicubic interpolation, and the high-frequency information is estimated by inference of trained DBNs. The networks are train, Domestic conferenceHigh-frequency Restoration using Deep Belief Nets for Super-resolutionPoster presentation
- 第16回画像の認識・理解シンポジウム, Jul. 2013, Japanese, 情報処理学会CVIM研究会, 東京, 本研究では,マルチモーダル連続発話音声認識において,AAMパラメータを用いた画像特徴量抽出手法を提案する., Domestic conferenceAAMを用いた音声・画像による連続発話認識への構想Poster presentation
- 第55回日本小児神経学会学術集会, Jun. 2013, Japanese, 日本小児神経学会, 大分, Domestic conference音声解析を用いた言語発達評価 -先天性難聴児への応用-Poster presentation
- 第116回日本小児科学会学術集会, Apr. 2013, Japanese, 日本小児科学会, 広島, Domestic conferenceIdentification of children with ASD or TD by prosody using acoustic analysissOral presentation
- 第108回日本小児精神神経学会, Dec. 2012, Japanese, 神戸, Domestic conferenceプロソディの音声解析による自閉症スペクトラム障害児と定型発達児の識別精度Oral presentation
- 第115回日本小児科学会学術総会, Apr. 2012, Japanese, 日本小児科学会, 福岡, Domestic conferenceClassification of children with ASD and TD based on qualitative speech analysisOral presentation
- IEICE, Mar. 2012, Japanese, 電子情報通信学会, 岡山, Domestic conference単眼サッカー映像における時間状況グラフを用いた選手の3次元追跡Poster presentation
- IEICE, Mar. 2012, Japanese, 電子情報通信学会, 岡山, Domestic conference視点移動カメラで撮影したサッカー映像中のボール追跡とイベント検出Poster presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conference使用履歴に基づくユーザー嗜好を考慮した POMDPによる音声対話システムPoster presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conference構音障害者を対象としたSSMを用いた音声認識の検討Poster presentation
- IEICE, Mar. 2012, Japanese, 電子情報通信学会, 岡山, Domestic conference学習画像の選択に基づくAAMの繰り返し適応Poster presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conference音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討Oral presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conference音響伝達特性を用いたシングルチャネル音源位置推定における未学習位置の推定Oral presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conferenceスペクトルと韻律を特徴量とした GMMによる感情音声変換Oral presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conferenceスパース表現に基づく構音障害者の発話スタイル変動にロバストな特徴量抽出Poster presentation
- IEICE, Mar. 2012, Japanese, 電子情報通信学会, 岡山, Domestic conferenceWeb画像を用いたカテゴリ別Visual Wordsによる一般物体認識Poster presentation
- ASJ 2012 Spring meeting, Mar. 2012, Japanese, 日本音響学会, 神奈川, Domestic conferenceRandom Projection を用いた構音障害者の音声認識Poster presentation
- IEICE, Mar. 2012, English, 電子情報通信学会, 岡山, Domestic conferenceHuman Emotions Estimation by Adaboost Based on User's Facial Expression and Average Face from Different DirectionsPoster presentation
- ASJ 2012 Spring meeting, Mar. 2012, English, 日本音響学会, 神奈川, Domestic conferenceAn AdaBoost-Based Weighting Method for Localizing Human Brain Magnetic ActivityOral presentation
- IEICE, Mar. 2012, Japanese, 電子情報通信学会, 岡山, Domestic conferenceAge Estimation Based on Gaussian Process Regression of AAM Parameters Using Hollywood DatabasePoster presentation
- 第50回日本小児神経学会近畿地方会, Oct. 2011, Japanese, 日本小児神経学会, 大阪, Domestic conference音声の質的側面からの自閉症児と定型発達児の識別 ‐音声識別プログラムと言語聴覚士の識別精度の比較‐Oral presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference尤度最大化に基づくエコー推定を用いたマルチスピーカ音響エコーキャンセラの検討Poster presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference未知語モデルを用いたCRFに基づく音声認識誤り訂正Oral presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference文脈特徴を用いたCRFによる音声認識誤り訂正Poster presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究Poster presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定Oral presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conferenceスパース性基準によるF0 周波数選択を用いたSpecmurt による多重音解析Oral presentation
- ASJ 2011 Autumn meeting, Sep. 2011, Japanese, 日本音響学会, 島根, Domestic conference2ch マイクによるCSP 係数の識別に基づく話者の頭部方向の推定Oral presentation
- 第114回日本小児科学会, Aug. 2011, Japanese, 日本, 東京, Domestic conference言語の質的側面からの自閉症と定型発達児の識別 ―識別器と言語聴覚士の比較―Oral presentation
- IEICE, Mar. 2011, Japanese, 電子情報通信学会, 東京, Domestic conference固有空間法による構音障害者の母音声質変換の検討Others
- ASJ 2011 Spring meeting, Mar. 2011, Japanese, 日本音響学会, 東京, Domestic conference確率スペクトルを用いた基底生成モデルとNMFによる混合楽音解析Poster presentation
- ASJ 2011 Spring meeting, Mar. 2011, Japanese, 日本音響学会, 東京, Domestic conference音響伝達特性の判別に基づく単一チャネル音源位置推定におけるMKL-SVMを用いた特徴量重みの自動学習Poster presentation
- ASJ 2011 Spring meeting, Mar. 2011, Japanese, 日本音響学会, 東京, Domestic conferenceスパース性を考慮したSpecmurtによる多重音解析Poster presentation
- IEICE, Mar. 2011, Japanese, 電子情報通信学会, 東京, Domestic conferenceグラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識Others
- ASJ 2011 Spring meeting, Mar. 2011, Japanese, 日本音響学会, 東京, Domestic conferenceCRFとConfusion Networkを用いた音声認識誤り訂正Poster presentation
- IEICE, Mar. 2011, Japanese, 電子情報通信学会, 東京, Domestic conferenceARCOを特徴量とする顔検出の併用による人誤検出の棄却Others
- IEICE, Mar. 2011, Japanese, 電子情報通信学会, 東京, Domestic conference2+3次元Active Appearance Modelを用いた視線方向推定Others
- ASJ 2010 Autumn meeting, Sep. 2010, Japanese, 日本音響学会, 大阪, Domestic conference音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討Oral presentation
- ASJ 2010 Autumn meeting, Sep. 2010, Japanese, 日本音響学会, 大阪, Domestic conferenceバイラテラルフィルタによる 雑音重畳音声の認識効果に関する検討Poster presentation
- ASJ 2010 Autumn meeting, Sep. 2010, Japanese, 日本音響学会, 大阪, Domestic conferenceNMFと基底モデルを用いた多重楽音解析Poster presentation
- ASJ 2010 Autumn meeting, Sep. 2010, Japanese, 日本音響学会, 大阪, Domestic conferenceMKLによる構音障害者の音声特徴量評価Poster presentation
- ASJ 2010 Autumn meeting, Sep. 2010, Japanese, 日本音響学会, 大阪, Domestic conferenceBuried Markov Modelを用いた構音障害者の音声認識の検討Poster presentation
- 第113回日本小児科学会, Apr. 2010, Japanese, 日本小児科学会, 盛岡, Domestic conferenceプロソディの音声解析による乳幼児期の言語発達Oral presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conference部分観測マルコフ決定過程を用いたカーナビゲーションシステムにおける音声対話Poster presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conference多重関数を用いた調波時間スペクトル形状のモデル化による音声合成Poster presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conference識別的言語モデルに基づくConfusion Network上での音声認識誤り訂正Poster presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conference残響適応パラメータを用いた単一チャネル音源位置推定の検討Poster presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conference雑音環境下音声認識のためのバイラテラルフィルタを用いた音声特徴量抽出Poster presentation
- IEICE2010, Mar. 2010, Japanese, 電子情報通信学会, 仙台, Domestic conference階層的領域分割法に基づく木構造条件付確率場による一般物体認識Oral presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conferenceランダムプロジェクションを用いた音響モデルの線形変換Poster presentation
- IEICE2010, Mar. 2010, Japanese, 電子情報通信学会, 仙台, Domestic conferenceウェーブレット変換を用いた学習型の超解像Oral presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conferencePLSA による構音障害者の音素体系構築の検討Poster presentation
- ASJ 2010 Spring Meeting, Mar. 2010, Japanese, 日本音響学会, 東京, Domestic conferenceBuried Markov Model の構造構築における独立性検定法の検討Poster presentation
- IEICE2010, Mar. 2010, Japanese, 電子情報通信学会, 仙台, Domestic conference3次元パーティクルフィルタとEMDを用いた選手の追跡Oral presentation
- Information Processing Society of Japan Kansai Branch, Sep. 2009, Japanese, 情報処理学会関西支部, 神戸, Domestic conference複数特徴量の重み付け統合による一般物体認識Oral presentation
- ASJ 2009 Autumn Meeting, Sep. 2009, Japanese, 日本音響学会, 郡山, Domestic conference多重ベータ分布を用いた音色形状の数理モデリングによる楽器音生成Poster presentation
- FIT2009, Sep. 2009, Japanese, 情報処理学会など, 仙台, Domestic conference人物の顔画像情報に基づくコンテンツの解析Oral presentation
- FIT2009, Sep. 2009, Japanese, 情報処理学会など, 仙台, Domestic conference高精度画像マッチングを用いたSAR衛星画像からの地表変位推定Oral presentation
- ASJ 2009 Autumn Meeting, Sep. 2009, Japanese, 日本音響学会, 郡山, Domestic conference局所特徴量を用いた構音障害者の音声認識の検討Poster presentation
- ASJ 2009 Autumn Meeting, Sep. 2009, Japanese, 日本音響学会, 郡山, Domestic conferenceRandom Projection を用いた音声特徴量抽出におけるRandom Matrix の統合Poster presentation
- ASJ 2009 Autumn Meeting, Sep. 2009, Japanese, 日本音響学会, 郡山, Domestic conferenceHMMを用いた音響伝達特性の推定と音源位置推定Poster presentation
- ASJ 2009 Autumn Meeting, Sep. 2009, Japanese, 日本音響学会, 郡山, Domestic conferenceBuried Markov Model を用いた音声認識モデルの検討Poster presentation
- Information Processing Society of Japan Kansai Branch, Sep. 2009, Japanese, 情報処理学会関西支部, 神戸, Domestic conferenceBottom-upとTop-downアプローチの組み合わせによる単眼画像からの人体3次元姿勢推定Oral presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference尤度最大化基準を用いたエコー推定に基づく車室内マルチスピーカ音響エコーキャンセラの検討Poster presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conference複数特徴量の重み付け統合による一般物体認識Oral presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference複数の言語情報を用いたCRFによる音声認識誤りの検出Poster presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conference単眼動画像におけるボールと選手の3次元位置推定Oral presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference多重ベータ分布による音色形状モデルを用いた 多重楽音の解析Poster presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference雑談中の潜在的話題遷移を考慮したユーザーの意図推定の検討Poster presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference構音障害者の連続音声認識の検討Poster presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference勾配ヒストグラムに基づく時間-周波数特徴を用いた単語認識Poster presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conference音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討Poster presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conference位相限定相関法を用いたマイクロ波レーダからの地表変位推定Oral presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conferenceランダムプロジェクションを用いた音声特徴量抽出Poster presentation
- ASJ 2009 Spring meeting, Mar. 2009, Japanese, 日本音響学会, 東京, Domestic conferenceパラボラ反射板による音響伝達特性の変化を用いたシングルチャネル音源方向推定Poster presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conferenceBottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定Oral presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conferenceAAMのモデル選択による方位に頑健な不特定人物の顔表情認識Oral presentation
- Proceedings of the 2009 IEICE General Conference, Mar. 2009, Japanese, 電子情報通信学会, 松山市, Domestic conferenceAAMと回帰分析による視線、顔方向同時推定Oral presentation
- 情報処理学会平成20年度関西支部大会, Oct. 2008, Japanese, 情報処理学会, 京都, Domestic conference顔表情クラスタリングによる映像コンテンツへのタギングOral presentation
- 情報処理学会平成20年度関西支部大会, Oct. 2008, Japanese, 情報処理学会, 京都, Domestic conferenceSIFTとGraph Cuts を用いた物体認識及びセグメンテーションOral presentation
- 情報処理学会平成20年度関西支部大会, Oct. 2008, Japanese, 情報処理学会, 京都, Domestic conferenceHOG特徴に基づく単眼画像からの人体3次元姿勢推定Oral presentation
- 情報処理学会平成20年度関西支部大会, Oct. 2008, Japanese, 情報処理学会, 京都, Domestic conferenceAdaBoostとSaliency Mapを用いたGraph Cutsによる物体領域の自動抽出法Oral presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conference勾配に基づく特徴量を用いた音声認識の検討Poster presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conferenceメタモデルと音響モデルの統合による構音障害者の音声認識Poster presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conferenceアクティブマイクロフォンによる音響伝達特性を用いたシングルチャネル音源方向推定Poster presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conferenceMDL基準とICAを用いた統合音素部分空間による音声特徴量抽出の検討Poster presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conferenceGMMに基づく音声特徴量の時間変動を考慮した突発性雑音の除去Poster presentation
- ASJ 2008 Autumn Meeting, Sep. 2008, Japanese, 日本音響学会, 福岡, Domestic conferenceDP-Kernel PCAを用いた発話系列への意図ラベリングの検討Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conference話者正規化に基づく構音障害者の音声認識Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conference尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conference動的計画法に基づく文脈の変化を考慮したLSAの検討Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conference単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conference音声特徴量抽出のための音素部分空間統合法の検討Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conferenceパラボラ反射板を用いたアクティブマイクロフォンによる音源方向推定Poster presentation
- 電子情報通信学会総合大会, Mar. 2008, Japanese, 電子情報通信学会, 北九州, Domestic conferenceWavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーションOral presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conferenceSVMとCARTの組み合わせによるAdaBoostを用いた音声区間検出Poster presentation
- 電子情報通信学会総合大会, Mar. 2008, Japanese, 電子情報通信学会, 北九州, Domestic conferenceSIFTとGraph Cutsを用いた物体認識及びセグメンテーションOral presentation
- 電子情報通信学会総合大会, Mar. 2008, Japanese, 電子情報通信学会, 北九州, Domestic conferencePrefixSpanを用いた映像における人物の日常行動抽出Oral presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conferenceLSAに基づくOne-Class SVMを用いた音声認識仮説の検証Poster presentation
- 日本音響学会2008年春季研究発表会, Mar. 2008, Japanese, 日本音響学会, 千葉, Domestic conferenceFBANKとGabor Waveletを用いたシステムへの問い合わせと雑談の判別Poster presentation
- 電気関係学会関西支部連合大会, Nov. 2007, Japanese, 電気学会, 神戸市, Domestic conference被災家屋内の人の検出と救助の為の3次元環境地図作成に関する考察Oral presentation
- 日本音響学会2007年秋季研究発表会, Sep. 2007, Japanese, 日本音響学会, 甲府市, Domestic conference話者交替を考慮したシステムへの問い合わせと雑談の判別Poster presentation
- 日本音響学会2007年秋季研究発表会, Sep. 2007, Japanese, 日本音響学会, 甲府市, Domestic conference音声区間検出を用いた音響エコーキャンセラにおける音声歪み低減の試みPoster presentation
- 日本音響学会2007年秋季研究発表会, Sep. 2007, Japanese, 日本音響学会, 甲府市, Domestic conferenceフィッシャー重みマップに基づく音声特徴量のロバストネスに関する考察Poster presentation
- 第6回情報科学技術フォーラム, Sep. 2007, Japanese, 情報処理学会, 豊田市, Domestic conferencePCA相関フィルタによる目領域の探索Oral presentation
- 日本音響学会2007年秋季研究発表会, Sep. 2007, Japanese, 日本音響学会, 甲府市, Domestic conferencePCAを用いた音素ベクトルによる音声特徴量抽出の検討Poster presentation
- 日本音響学会2007年秋季研究発表会, Sep. 2007, Japanese, 日本音響学会, 甲府市, Domestic conference3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出Poster presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conference赤外線映像におけるドライバの方位判定Oral presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conference自動映像生成のためのパーティクルフィルタによるボールの追跡Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conference構音障害者の音声認識の検討Oral presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conference固定カメラ映像からの音声情報を用いた映像コンテンツ生成Oral presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conference顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識Oral presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conferenceマルチ識別器を用いた花画像検索システムの構築Oral presentation
- 電子情報通信学会総合大会, Mar. 2007, Japanese, 電子情報通信学会, 名古屋, Domestic conferenceマルチテンプレート型二次元CSPによる高速目領域探索Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conferenceブースティングとキーワードフィルタリングによるシステム要求検出Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conferenceフィッシャー重みマップに基づく不特定話者音素認識の検討Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conferenceSVMを用いたシステムへの問い合わせと雑談の判別Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conferenceNetTv:NetNewsとテレビ放送のクロスプラットホームにおける音声検索Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conferenceAdaBoostを用いた雑音の検出と識別Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conference3次キュムラントのバイスペクトラムとPCAによる音声区間検出Oral presentation
- 日本音響学会2007年春季研究発表会, Mar. 2007, Japanese, 日本音響学会, 東京, Domestic conference2ch マイクロフォン間の振幅補正を考慮した複素スペクトル平面上での雑音除去Oral presentation
- 電子情報通信学会 第34回福祉情報工学研究会, Jan. 2007, Japanese, 立命館大学 びわこ・くさつキャンパス, Domestic conference構音障害者の音声認識の検討Oral presentation
- 第5回情報科学技術フォーラム, Sep. 2006, Japanese, 情報処理学会, 福岡, Domestic conference二次元CSPによる目領域探索の高速化Oral presentation
- 日本音響学会2006年秋季研究発表会, Sep. 2006, Japanese, 日本音響学会, 金沢市, Domestic conference二次の射影法とスペクトルサブトラクションを用いた音響エコー抑圧Oral presentation
- 日本音響学会2006年春季研究発表会, Sep. 2006, Japanese, 日本音響学会, 金沢市, Domestic conference音響モデルを利用したシングルチャネルによる音源方向推定の検討Oral presentation
- 日本音響学会2006年秋季研究発表会, Sep. 2006, Japanese, 日本音響学会, 金沢市, Domestic conferenceReal Adaboostによる音声区間検出Oral presentation
- 日本音響学会春季研究発表会, 2006, Japanese, 日本音響学会, 日本, Domestic conferencePhoneme Recognition by Local Features Using Pairwise Discriminant Fisher-Weight-MapPoster presentation
- 日本音響学会春季研究発表会, 2006, Japanese, 日本音響学会, 日本, Domestic conferenceA design and an evaluation of emotional speech database for in-car situation awarenessOral presentation
- 日本音響学会春季研究発表会, 2006, Japanese, 日本音響学会, 日本, Domestic conferenceStudies on language model construction using topic-hmm based on PLSAPoster presentation
- 電子情報通信学会総合大会, 2006, Japanese, 電子情報通信学会, 東京, Domestic conferenceSpeech Detection with Adaboost and Speech-Lip GMMOral presentation
- 日本音響学会秋季研究発表会, 2005, Japanese, 日本音響学会, 日本, Domestic conferenceA study about noise reduction in real environment using a 2-channel microphone in a complex spectrum planePoster presentation
- 日本音響学会秋季研究発表会, 2005, Japanese, 日本音響学会, 日本, Domestic conferenceStudies on state dependent speech recognition based on phrasesPoster presentation
- 日本音響学会秋季研究発表会, 2005, Japanese, 日本音響学会, 日本, Domestic conferencePhoneme Recognition by Higher-Order Local Auto-Correlation Features Using Fisher-Weight-MapPoster presentation
- 日本音響学会秋季研究発表会, 2005, Japanese, 日本音響学会, 日本, Domestic conferenceA Study on Reverberant Speech Recognition Using Kernel PCAPoster presentation
■ Research Themes
- 日本学術振興会, 科学研究費助成事業 挑戦的研究(開拓), 挑戦的研究(開拓), 神戸大学, 30 Jun. 2022 - 31 Mar. 2026視線の文法化による脳機能・脳内病理の推定手法
- 日本学術振興会, 科学研究費助成事業, 基盤研究(C), 神戸大学, 01 Apr. 2022 - 31 Mar. 2025国際的に活用できる尿路感染症の適正治療に向けた薬剤耐性菌のAI診断システムの開発
- 日本学術振興会, 科学研究費助成事業, 基盤研究(B), 神戸大学, 01 Apr. 2021 - 31 Mar. 2025構音障がい者のカスタマイズドコミュニケーション基盤技術の創出今年度は,構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案,および実証実験において有効性を確認した.概要は以下のとおりである. (1) ラベル無し発話データを用いた音響モデル学習法:本研究では,日常生活の場面等における自由発話音声を音声認識に活用することを検討する.自由発話音声の録音は,台本の読み上げによる収録と比較して構音障がい者にとって身体への負担が小さいため,比較的容易に多くのデータを収集できると考えられる.しかし,構音障がい者の発話スタイルは健常者とは異なり,人手により発話内容を認識し文字起こしを行うことは困難であるため,ラベルの無い音声データの活用方法が求められている.ラベルの無い音声データを音声認識に活用するアプローチとしては,音声認識によりラベル無し音声にラベルを付与する擬似ラベリング手法や,ラベル無し音声のみで学習できるタスクにより特徴表現学習を行い,その後ラベル付き音声でファインチューニングを行う手法などがある.本研究では,構音障がい者音声認識において擬似ラベリングと特徴表現学習を使用する場合の音声認識性能の比較を行い,さらに両方の手法を併用することで音声認識性能を向上させることを試みた. (2) 非パラレル学習による声質変換:構音障がい者の発話音声では,音素境界が曖昧となるため,声質変換モデル学習に必要となるパラレル音声学習データの作成が困難な場合がある.本研究では,パラレル音声学習データを必要としないDisentangled representationに基づく言語特徴,話者特徴による声質変換手法を提案し,構音障がい者の声質変換において有効性を確認した.
- Japan Society for the Promotion of Science, Grants-in-Aid for Scientific Research, Grant-in-Aid for Scientific Research (A), Kobe University, 01 Apr. 2019 - 31 Mar. 2024The study of creativity at individual and group levels using large scale biological data2021年度は、主に2つの実験を実施した。第一に、神戸大学の学部学生を対象とした大規模実験を実施した。具体的には、2020年度と同様、Psytoolkitでプログラムした心理実験(2腕バンディット)を、個人、ダイアド(2名のグループ)、トライアド(3名のグループ)に対して実施した。それに加え、今年度はAUT(alternative use test)テストを実施した。これは拡散思考、創造性を測定するテストであり、このテストによって、これらの個人、集団の創造性のパフォーマンスについても測定した。その結果、昨年度の研究では明らかにすることができなかったグループレベルでの学習特性が創造性パフォーマンスにどのような影響を与えているのかについて分析することができた。データ分析の結果、個人、グループの創造性のパフォーマンスは、リスク愛好度や探索志向性に大きく影響されることが明らかになった。また、創造性のパフォーマンスはダイアドが最も低く、個人、トライアドが高いパフォーマンスを示すことがわかった。これは昨年度に実施した認知課題に対しるパフォーマンスの個人、ダイアド、トライアド、テトラッド間での比較分析結果と整合的なものであった。 第二に、生理学研究所の協力を得て、2019年度、2020年度に個人を対象に実施したfMRI検査に対し、そのデータ解析を進めた。これらの年度では2つのfMRI実験を実施し、そのデータ解析の概要は得られている。それらの結果を1つの論文にまとめるため、検討を続けている。それに加え、今年度は2名のコミュニケーション活動を取り入れたうえで、同様のfMRI実験を実施した。ただし、実験実施時においてコロナ感染状況が悪化したため、当初予定していた被験者数を集めることができず、次年度に追試を実施していく予定である。
- 日本学術振興会, 科学研究費助成事業, 学術変革領域研究(A), 神戸大学, 10 Sep. 2021 - 31 Mar. 2023Deep Priorを用いた教師無し深層学習による脳内電流源推定本研究の目的は,未学習のDeep ニューラルネットワークにより表現される暗黙的な事前分布に着目し,頭の外側のセンサで非侵襲に測定したノイズを含む観測信号から,脳内電流源を予測する逆問題を解くことである.この問題は脳内の散乱現象の透視化に関係しているといえる.今年度は下記内容について研究を遂行した. (1)Deep Decoderによる電流源推定:これまでのDeep Priorを用いて推定された解は,ネットワークの初期値や学習回数により大きく変化し,安定しないことがあった.そこで今年度はパラメータ数が少ないDeep Decoderを用いて逆問題を解く手法を提案した.シミュレーションデータによる電流源の推定結果から,電流源の事前分布を表現可能であることが示された. (2)深さ重みを考慮した電流源推定:電流源推定の精度を向上させるため,電流源の深さ重みを考慮した解法を提案した.電流源推定の代表的な手法であるMinimum Norm Estimationは脳の表面付近に解が推定されやすいということが知られており,深さ重みを利用した偏りの補正が行われている.Deep Priorを用いた手法によって得られる解も何らかの偏りを持つと考えられ,深さ重みを考慮することによって位置推定の精度が向上することが期待される.提案手法の有効性を検証するため,右1次聴覚野および右1次視覚野における単一電流源の脳磁図データを合成し,深さ重みによる正則化を用いたときの電流源位置の推定誤差を評価した.その結果,適切な正則化パラメータを設定することで,位置の推定誤差が減少し,真の位置のまわりに電流源を推定できることが示された.
- Japan Society for the Promotion of Science, Grants-in-Aid for Scientific Research, Grant-in-Aid for Scientific Research (B), Osaka University, 01 Apr. 2019 - 31 Mar. 2022Estimation of Physical Pathology of Articulatory Disorder Using Articulatory Simulator and Medical InformationUsing a simple model of [s] articulation that reproduces raising near the tip of the tongue, we found that hysteresis exists between the total sound pressure level and the velocity of tongue raising during syllable articulation with [s]. We found that individual differences in the acoustic spectral characteristics of [s] and [sh] result from the distance of constriction between the maxillary central incisor and the anterior maxillary tongue. Of clinical significance, we numerically analyzed the effect on [s] sound of the different angles of inclination of the maxillary full denture central incisor tooth axis, and found a mechanism by which the frequency band of 8-12 kHz is reduced when the angle is large. In addition, the effectiveness of neural network-based self-supervised learning for patients with cleft lip and palate and tongue cancer was confirmed in terms of the feasibility of speech recognition that reflects the patient's speech characteristics.
- Japan Society for the Promotion of Science, Grants-in-Aid for Scientific Research, Grant-in-Aid for Young Scientists (B), 01 Apr. 2013 - 31 Mar. 2016Development and validation of the diagnosis tool for pre-school children with autism spectrum disorder using vice prosody analysisVoice prosody is composed of qualitative elements; intonation, rhythm, and stress. The existence of abnormal prosody in children with autism spectrum disorders or conditions (ASD) have been supported by many subjective observations. In this study, we developed a new voice analysis program for ASD, and quantitatively analyzed the abnormal prosody in ASD. We recorded voices of both ASD and children with typically developing (TD). Using our voice analysis program, we compared prosody at pre-school age and one at schollo age. As a result, abonormal voice in school-aged children with ASD was detected. In addition, especially it was suggested that the identification point of ASD and TD was present at the beginning of a word.
- Japan Society for the Promotion of Science, Grants-in-Aid for Scientific Research, Grant-in-Aid for Scientific Research (C), Kobe University, 01 Apr. 2013 - 31 Mar. 2016Assessment of language development in very low birth weight infants by phonetic analysisThe purposes of our study were as followings: 1) to clarify the characteristics of behavioral development in VLBW and ELBW infants compared with normal birth weight (NBW) infants, 2) to examine an observational method for evaluating behavioral development in infants, and 3)to evaluate the language development in very low birth weight infants by phonetical analysis. Our study revealed that behavior observation is a useful and reliable method for evaluating children’s development during early infancy. There are significant differences in behavioral development among VLBW, ELBW, and NBW infants. The observation suggests that ELBW infants might have higher possibility of developmental delay. Furthermore, we assessed the language development of them by phonetic analysis. Evaluation of infants’ voice might be useful to predict behavioral problems of the children at around 24 months old.
- Japan Society for the Promotion of Science, Grants-in-Aid for Scientific Research, Grant-in-Aid for Scientific Research (B), Nagoya University, 2007 - 2009Study on Speech Enhancement Based on Distorted Speech Corpora in the Real-worldFor distorted speech recognition under the real world, we conducted below : (1) development of distorted speech corpora named CENSREC and distribution of them in public ; (2) accurate recognition performance prediction for additively/convolutionally distorted speech ; (3) development of structural explanation of distortion factors and recognition methods for distorted speech ; (4) development of distorted speech recognition methods.