Spoken language corpora
2011 spring, tue1, ITE-SE
who should take this course
Consider this course if you wish to quantitatively analyze spoken language by:
- choosing the phenomenon of interest
- deciding the quality and quantity of data needed
- collecting and labeling speech
- analyzing and reporting results
before taking this course
To succeed in this course:
- you must have completed undergraduate or graduate courses in:
- linguistics (especially phonetics and phonology)
- statistics (descriptive statistics at the minimum; predictive statistics preferred)
- experiment design
- you must have English language skills sufficient to:
- read course material
- use software
after taking this course
You will become able to:
- explain core concepts of spoken language corpora (e.g., differences between read speech and spontaneous speech; characteristics and usage of close-talking microphones; characteristics and limitations of telephone speech)
- explain core concepts of computation phonology (e.g., characteristics of biphones, triphones, and clustering)
- explain the purpose of spoken language corpora (e.g., speech analysis, speech synthesis, speech recognition, speech interactive systems, automated spoken language learning)
- explain required specifications and development strategies of spoken language corpora (e.g., when labeling at the phone or semantic levels are needed; how to collect speech from native or non-native speakers)
- label speech at the phone and word level (note: this course does not address ToBI)
- display and interpret narrow-band and wide-band spectrograms, spectra, formants, and F0 pitch traces.
- measure speech rate in various ways (e.g., the number of phones, syllables, and words per unit time with or without considering filled or unfilled pauses)
- design and develop a small spoken language corpus
- pronounce phones used in the world's languages
language
During this course:
- you may collect and analyze speech in any language you choose
- you may participate in class in either English or Japanese
when, where, what
We meet:
- in 2011 spring semester
- during tuesday 1st period
- at the information technology education building, 3rd floor, server room
- runs either Windows, MacOS, or Linux
- you can bring to class
- connects to a projector using a DVI, VGA, or mini-display-port connector
- connects to an external loudspeaker using a 3.5 mm plug
course offering
Course format: Lecture, lab, presentation, discussion
1. keywords
2. who this course is for
3. objectives
4. schedule
5. out-of-class activities
6. grading
7. textbooks
8. references
9. web site
10. miscellaneous notes
キーワード
digital signal processing of speech, acoustical analysis, phonetics, computational phonology, spoken language corpora
授業の目標
授業の意図: 音声言語を収録し分析するためのコンピュータ技術を、手を動かして学ぶ。基本となる言語学や統計学の概念は既習が前提。
不可欠な能力: (a) 英語読解力を有すること。参考文献ならびにソフトウェア使用説明書は全て英文。学生が希望すれば講義や学生発表も英語で行なう。英語が重要であるとはいえ日英両言語で専門用語が理解できなければならない。(b) コンピュータを授業に持参でき操作できること。MacOS, Linux, Windows いずれも可。
既習教科: 言語学 (なかでも音声学と音韻論)、統計学 (最小限でも記述統計、できれば予測統計)、実験計画法を履修していなければならない。
Course objective: This is a hands on course where students acquire the technical skills for using computers to analyze spoken language. Students must be familiar with linguistics and statistics.
Required general skills: (a) Strong English language reading skills are essential. Most reading assignments and all software manuals will be in English. If students desire, lectures and student presentations can be given in English. Regardless of the emphasis on English language, students are expected to become bilingual (English and Japanese) in the technical terminology. (b) Students must bring their own computer to class, and present their assignments. MacOS, Linux, and Windows are acceptable.
Prerequisites: Students must have taken at least undergraduate courses in linguistics (especially phonetics and phonology), statistics (descriptive statistics at the minimum; predictive statistics preferred), and experiment design.
到達目標
この授業を受けると以下ができるようになる。
(1) 音声言語コーパスの基本概念を説明できる。(例: 朗読発話と自由発話の違い、説話型マイクロホン、電話帯域音声)
(2) 計算音韻論の基本概念を説明できる。(例: biphone, triphone, clustering)
(3) 音声言語コーパスの用途を説明できる。(例: 音声分析、音声合成、音声認識、音声対話システム、自動化された発音学習)
(4) 音声言語コーパスの設計条件と開発戦略を説明できる。(例: 単音のラベルや意味情報のラベルが必要な状況、母語話者や非母語話者から音声データを収録しコーパスを開発する方法)
(5) 単語と単音のラベルづけができる。(注意: この授業は ToBI ラベルを扱わない)
(6) 狭帯域および広帯域のスペクトグラム、スペクトル、フォルマント、F0曲線を表示し解釈できる。
(7) さまざまな方法で発話速度を測定できる。(例: filled pause や unfilled pause を考慮した単位時間あたりの単音・音節・単語の数)
(8) 小規模な音声言語コーパスを設計し開発できる。
(9) 世界の言語の単音の発音ができる。
授業計画
学生の需要に応じ、概念や技術を随時説明する。
Phase 1 (第1週)
授業と教員を紹介する。? 授業を理解するための前提知識を復習する。
音声ハードウェアと分析ソフトウェアを中心にパソコン環境を説明する。
Phase 2 (第2〜3週)
調音音声学や音声分析の資料を読み、理解する。
音節、単語、発話の単位で短い音声を分析する。
狭帯域および広帯域のスペクトグラム、スペクトル、フォルマント、F0曲線を
表示し解釈する。
Phase 3 (第4〜5週)
計算音韻論の資料を読み、理解する。
発話の単位でやや長い音声を分析する。
単音と単語のラベルをつける。
Phase 4 (第6〜7週)
音声コーパスの設計、開発とアプリケーションを理解する。
母語話者と非母語話者から音声を収録する手法を理解する。
小規模な音声コーパスを収録し、分析する。
Phase 5 (第8〜9週)
小規模な音声コーパスを設計し、収録し、分析する。
Phase 6 (第10〜11週)
自由課題の計画を説明する。
音声学の実技。世界の言語の発音を練習する。
Phase 7 (第12〜13週)
自由課題の成果を発表し、討論する。
Phase 8 (第15週)
予備日。
準備学習(予習・復習)等の内容と分量
授業は講義、実習、課題の説明、課題の報告からなる。課題の多くは音声の収録と分析。授業時間外の作業時間を確保でき、かつ、パソコンを使えなければならない。ソフトウェアは優秀かつ無料の http://www.praat.org/ を用いる。
Much of the work for this course is done individually outside of class (e.g., installing software, interviewing people, collecting speech, analyzing waveforms). Classroom time is for presenting students' assignments. Assignments are structured incrementally, and require substantial hands-on effort. We will use the freely available, excellent software package http://www.praat.org/.
成績評価の基準と方法
評価の基準は発表と討論。いずれも授業に参加しなければ不可能ゆえ出席必須。学期末試験やレポートといった記述課題は、ない。
Students must present their work, and critique that of their classmates. Intense class participation is mandatory. There will be no written exam or term paper.
テキスト・教科書
No textbooks need to be purchased. Excerpts will be given in class as a readings package.
講義指定図書
Speech and Language Processing (2nd Edition) / Daniel Jurafsky, James H. Martin : Prentice Hall, 2008, ISBN:978-0131873216
Foundations of Statistical Natural Language Processing / Christopher D. Manning), Hinrich Schuetze : MIT Press, 1999, ISBN:978-0262133609
Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Sch?tze : Cambridge University Press, 2008, ISBN:978-0521865715
The Oxford Handbook of Computational Linguistics / Ruslan Mitkov : Oxford University Press, 2005, ISBN:978-0199276349
Digital Processing of Speech Signals / Lawrence R. Rabiner, Ronald W. Schafer : Prentice Hall, 1978, ISBN:978-0132136037
Discrete-Time Speech Signal Processing: Principles and Practice / Thomas F. Quatieri : Prentice Hall, 2001, ISBN:978-0132429429
No textbooks need to be purchased. Excerpts will be given in class as a readings package.
参照ホームページ
http://goh.cll.hokudai.ac.jp/
http://www.praat.org/
備考
私の学歴、職歴、研究業績、教育業績、学生意見、連絡手段などを http://goh.cll.hokudai.ac.jp/ に記載。
私の授業の内容や指導手法について、他の学生に聞くと良い。
Information about me (including my educational background, vocational background, list of research publications, courses offered, student comments, contact information) are online at http://goh.cll.hokudai.ac.jp/. If you are considering taking my course(s), I urge you to talk to my past students.
1. keywords
2. who this course is for
3. objectives
4. schedule
5. out-of-class activities
6. grading
7. textbooks
8. references
9. web site
10. miscellaneous notes
キーワード
digital signal processing of speech, acoustical analysis, phonetics, computational phonology, spoken language corpora
授業の目標
授業の意図: 音声言語を収録し分析するためのコンピュータ技術を、手を動かして学ぶ。基本となる言語学や統計学の概念は既習が前提。
不可欠な能力: (a) 英語読解力を有すること。参考文献ならびにソフトウェア使用説明書は全て英文。学生が希望すれば講義や学生発表も英語で行なう。英語が重要であるとはいえ日英両言語で専門用語が理解できなければならない。(b) コンピュータを授業に持参でき操作できること。MacOS, Linux, Windows いずれも可。
既習教科: 言語学 (なかでも音声学と音韻論)、統計学 (最小限でも記述統計、できれば予測統計)、実験計画法を履修していなければならない。
Course objective: This is a hands on course where students acquire the technical skills for using computers to analyze spoken language. Students must be familiar with linguistics and statistics.
Required general skills: (a) Strong English language reading skills are essential. Most reading assignments and all software manuals will be in English. If students desire, lectures and student presentations can be given in English. Regardless of the emphasis on English language, students are expected to become bilingual (English and Japanese) in the technical terminology. (b) Students must bring their own computer to class, and present their assignments. MacOS, Linux, and Windows are acceptable.
Prerequisites: Students must have taken at least undergraduate courses in linguistics (especially phonetics and phonology), statistics (descriptive statistics at the minimum; predictive statistics preferred), and experiment design.
到達目標
この授業を受けると以下ができるようになる。
(1) 音声言語コーパスの基本概念を説明できる。(例: 朗読発話と自由発話の違い、説話型マイクロホン、電話帯域音声)
(2) 計算音韻論の基本概念を説明できる。(例: biphone, triphone, clustering)
(3) 音声言語コーパスの用途を説明できる。(例: 音声分析、音声合成、音声認識、音声対話システム、自動化された発音学習)
(4) 音声言語コーパスの設計条件と開発戦略を説明できる。(例: 単音のラベルや意味情報のラベルが必要な状況、母語話者や非母語話者から音声データを収録しコーパスを開発する方法)
(5) 単語と単音のラベルづけができる。(注意: この授業は ToBI ラベルを扱わない)
(6) 狭帯域および広帯域のスペクトグラム、スペクトル、フォルマント、F0曲線を表示し解釈できる。
(7) さまざまな方法で発話速度を測定できる。(例: filled pause や unfilled pause を考慮した単位時間あたりの単音・音節・単語の数)
(8) 小規模な音声言語コーパスを設計し開発できる。
(9) 世界の言語の単音の発音ができる。
授業計画
学生の需要に応じ、概念や技術を随時説明する。
Phase 1 (第1週)
授業と教員を紹介する。? 授業を理解するための前提知識を復習する。
音声ハードウェアと分析ソフトウェアを中心にパソコン環境を説明する。
Phase 2 (第2〜3週)
調音音声学や音声分析の資料を読み、理解する。
音節、単語、発話の単位で短い音声を分析する。
狭帯域および広帯域のスペクトグラム、スペクトル、フォルマント、F0曲線を
表示し解釈する。
Phase 3 (第4〜5週)
計算音韻論の資料を読み、理解する。
発話の単位でやや長い音声を分析する。
単音と単語のラベルをつける。
Phase 4 (第6〜7週)
音声コーパスの設計、開発とアプリケーションを理解する。
母語話者と非母語話者から音声を収録する手法を理解する。
小規模な音声コーパスを収録し、分析する。
Phase 5 (第8〜9週)
小規模な音声コーパスを設計し、収録し、分析する。
Phase 6 (第10〜11週)
自由課題の計画を説明する。
音声学の実技。世界の言語の発音を練習する。
Phase 7 (第12〜13週)
自由課題の成果を発表し、討論する。
Phase 8 (第15週)
予備日。
準備学習(予習・復習)等の内容と分量
授業は講義、実習、課題の説明、課題の報告からなる。課題の多くは音声の収録と分析。授業時間外の作業時間を確保でき、かつ、パソコンを使えなければならない。ソフトウェアは優秀かつ無料の http://www.praat.org/ を用いる。
Much of the work for this course is done individually outside of class (e.g., installing software, interviewing people, collecting speech, analyzing waveforms). Classroom time is for presenting students' assignments. Assignments are structured incrementally, and require substantial hands-on effort. We will use the freely available, excellent software package http://www.praat.org/.
成績評価の基準と方法
評価の基準は発表と討論。いずれも授業に参加しなければ不可能ゆえ出席必須。学期末試験やレポートといった記述課題は、ない。
Students must present their work, and critique that of their classmates. Intense class participation is mandatory. There will be no written exam or term paper.
テキスト・教科書
No textbooks need to be purchased. Excerpts will be given in class as a readings package.
講義指定図書
Speech and Language Processing (2nd Edition) / Daniel Jurafsky, James H. Martin : Prentice Hall, 2008, ISBN:978-0131873216
Foundations of Statistical Natural Language Processing / Christopher D. Manning), Hinrich Schuetze : MIT Press, 1999, ISBN:978-0262133609
Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Sch?tze : Cambridge University Press, 2008, ISBN:978-0521865715
The Oxford Handbook of Computational Linguistics / Ruslan Mitkov : Oxford University Press, 2005, ISBN:978-0199276349
Digital Processing of Speech Signals / Lawrence R. Rabiner, Ronald W. Schafer : Prentice Hall, 1978, ISBN:978-0132136037
Discrete-Time Speech Signal Processing: Principles and Practice / Thomas F. Quatieri : Prentice Hall, 2001, ISBN:978-0132429429
No textbooks need to be purchased. Excerpts will be given in class as a readings package.
参照ホームページ
http://goh.cll.hokudai.ac.jp/
http://www.praat.org/
備考
私の学歴、職歴、研究業績、教育業績、学生意見、連絡手段などを http://goh.cll.hokudai.ac.jp/ に記載。
私の授業の内容や指導手法について、他の学生に聞くと良い。
Information about me (including my educational background, vocational background, list of research publications, courses offered, student comments, contact information) are online at http://goh.cll.hokudai.ac.jp/. If you are considering taking my course(s), I urge you to talk to my past students.
course material
- Slides, slideshows, movies
- 2011-04-12 slides (PowerPoint) Course introduction
- laryngograph
- stroboscope
- Normal voice functions
- Laryngeal video recordings of normal female
- Software (programs, fonts, local manuals)
- Praat for Linux, Sun, Windows and Mac. Comes with IPA fonts.
- Readings
- Rabiner et al (1978) excerpt.
- Jurafsky et al (2000) excerpt.
- Ladd (1996) excerpt.
- Miller and Weinert (1998) excerpt.
- Moore (2003) excerpt.
- Ladefoged (2001a), (2001b) excerpt.
- Corpora
- LDC web site.
- SIGPHON web site.
- TIMIT overview and database excerpt for labeling practice.
- RWCP spoken dialog corpus excerpt.
- RWCP multimodal corpus excerpt.
- Speech data collection forms
- Assignments
