CORPUS DATA

ネイティブの発話、
85%は6語以下だった。

アメリカ人60人の日常会話39,317発話を書き起こしたデータを分析しました。教科書では教わらない、英語の会話の実態を数字で示します。

SBCSAE（UC Santa Barbara, CC BY-ND 3.0）14万語を分析 BNC会話コーパスから抽出された頻度データ 420万語相当 Stolcke et al. (2000) Computational Linguistics 論文より引用

会話は、思っているより短い

アメリカ人60人の日常会話39,317発話の長さを分析した結果です。

1-3語

58.1%

22,859

4-6語

26.9%

10,595

7-10語

12.8%

5,017

11語以上

846

85.1%

6語以下の発話の割合

ネイティブの日常会話は、ほとんどが6語以下の短い発話で構成されています。
長い文を作る必要はありません。

データ: SBCSAE 39,317発話のうち、話者の発話（環境音を除く）を対象にクリーニング後に語数を計測。

最も多く使われた3語フレーズは "I don't know"

14万語の会話データから3語連鎖（trigram）を抽出。"I don't know" は2位の3.4倍でした。

I don't know

244回

a lot of

you know what

and I said

you have to

I don't think

"I don't know" の後に続くものとして最も多いのは "if"（29回）と "what"（24回）。「分からないけど...」「何が分からないかと言うと...」という使い方です。

データ: SBCSAE 14万語から抽出した全trigram。CHAT形式のタイムスタンプ・記号等をクリーニング後に集計。

"I don't" の後に来る動詞は3つで69%

"I don't" の後に続く動詞を全て調べました。know / think / want の3語で69.1%を占めます。

I don't know

53.9%（244回）

I don't think

11.0%

I don't wanna/want

6.4%

I don't have

4.2%

I don't care

3.1%

I don't like

2.9%

"I don't know" が過半数を超えています。否定文で最も重要なのは、「分からない」と言えることです。

データ: SBCSAE 14万語から "I don't" + 次の1語を全453件抽出して集計。wanna と want は合算。

会話の大半は「発言」と「相づち」で回っている

アメリカ人2,400件の電話会話を対象にした言語学研究の結果を紹介します。

Stolcke et al. (2000) は、Switchboard コーパス（アメリカ英語の電話会話）に会話行為タグを付与して分析し、以下を報告しています。

発話の49%が Statement（発言）であり、それらが全単語トークンの83%をカバーしている。また、Statement の後に Backchannel（相づち: uh-huh, yeah 等）が続く確率は26%で、最も一般的な隣接ペアの一つである。

出典: Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373.

この研究から読み取れることは、英語の会話は「質問に答える」場ではなく、「発言して、相づちをもらって、また発言する」の繰り返しだということです。

これは私たちのSBCSAE分析とも一致しています。SBCSAEの文頭パターンでは、相手の発言の後に来る最も多い1語は "yeah"（721回）であり、 "why"（16回）のような聞き返しはほとんど発生していません。

SBCSAE文頭パターンの数値は、本サイトによる独自分析（39,317発話対象）の結果です。

教科書の英語と、実際の会話の違い

420万語の会話コーパスから抽出された頻度データで、教科書で習う英語と実際の会話英語を比べました。

58,810

yeah の出現回数

17,898

yes の出現回数

yeah は yes の3.3倍多い。会話での「はい」のデフォルトは yeah です。

78.3%

n't（don't, can't 等）の割合

21.7%

not の割合

否定の78%は縮約形。"do not" より "don't" が標準です。

助動詞の使用頻度

can

23,384回

must

2,997回

may

620回

can は must の8倍、may の38倍使われています。must と may は教科書で多く扱われますが、実際の会話ではほとんど使われていません。

データ: BNC（British National Corpus）日常会話セクション420万語から抽出された頻度リスト（Adam Kilgarriff公開）を使用。

主語は I, you, it の3語で67%

420万語の会話コーパスから抽出された頻度データで、代名詞の分布を調べました。

167,640回

28.4%

you

135,217回

22.9%

128,165回

21.7%

48,322

8.2%

they

43,977

7.5%

she

33,763

5.7%

33,166

5.6%

I + you + it だけで全代名詞の67.4%。会話で使う主語は、実質この3つで大半をカバーできます。

データ: BNC日常会話セクション420万語から抽出された頻度リストの人称代名詞（pnp タグ）を集計。

データの出典

このページのデータは、以下のソースに基づいています。

Santa Barbara Corpus of Spoken American English（SBCSAE）

UC Santa Barbara 言語学部が公開する、実際のアメリカ人の日常会話の録音書き起こしコーパス。60会話・約14万語。Creative Commons Attribution-No Derivative Works 3.0 USライセンス（商用利用可）。発話長分布、n-gram分析（bigram, trigram, 4-gram）、文頭パターン分析、「I don't」後続動詞分析は本サイトが独自にCHAT形式ファイルをパースして実行しました。

BNC Demographic 頻度リスト

British National Corpus の日常会話セクション（約420万語）から抽出された、単語×品詞×出現回数の頻度リスト。Adam Kilgarriff が公開。本サイトでは生のコーパステキストではなく、この頻度リストを使用しています。代名詞・助動詞・否定形の頻度比較は、この頻度リストからの分析結果です。BNCの利用規約では「コーパスを用いた研究の結果」の商用利用が認められています。

Stolcke et al. (2000) — 会話行為の分析

会話行為（Dialog Act）の分布に関するデータは、以下の学術論文から引用しています。本サイトがSwitchboardコーパスを直接分析したものではありません。

Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373. doi:10.1162/089120100561737

ネイティブの発話、85%は6語以下だった。