CORPUS DATA

ネイティブの発話、
85%は6語以下だった。

アメリカ人60人の日常会話39,317発話を書き起こしたデータを分析しました。教科書では教わらない、英語の会話の実態を数字で示します。

SBCSAE(UC Santa Barbara, CC BY-ND 3.0)14万語を分析 BNC会話コーパスから抽出された頻度データ 420万語相当 Stolcke et al. (2000) Computational Linguistics 論文より引用

会話は、思っているより短い

アメリカ人60人の日常会話39,317発話の長さを分析した結果です。

1-3語
58.1%
22,859
4-6語
26.9%
10,595
7-10語
12.8%
5,017
11語以上
846
85.1%
6語以下の発話の割合

ネイティブの日常会話は、ほとんどが6語以下の短い発話で構成されています。
長い文を作る必要はありません。

データ: SBCSAE 39,317発話のうち、話者の発話(環境音を除く)を対象にクリーニング後に語数を計測。

最も多く使われた3語フレーズは "I don't know"

14万語の会話データから3語連鎖(trigram)を抽出。"I don't know" は2位の3.4倍でした。

I don't know
244回
a lot of
72
you know what
64
and I said
55
you have to
54
I don't think
50

"I don't know" の後に続くものとして最も多いのは "if"(29回)と "what"(24回)。「分からないけど...」「何が分からないかと言うと...」という使い方です。

データ: SBCSAE 14万語から抽出した全trigram。CHAT形式のタイムスタンプ・記号等をクリーニング後に集計。

"I don't" の後に来る動詞は3つで69%

"I don't" の後に続く動詞を全て調べました。know / think / want の3語で69.1%を占めます。

I don't know
53.9%(244回)
I don't think
11.0%
I don't wanna/want
6.4%
I don't have
4.2%
I don't care
3.1%
I don't like
2.9%

"I don't know" が過半数を超えています。否定文で最も重要なのは、「分からない」と言えることです。

データ: SBCSAE 14万語から "I don't" + 次の1語を全453件抽出して集計。wanna と want は合算。

会話の大半は「発言」と「相づち」で回っている

アメリカ人2,400件の電話会話を対象にした言語学研究の結果を紹介します。

Stolcke et al. (2000) は、Switchboard コーパス(アメリカ英語の電話会話)に会話行為タグを付与して分析し、以下を報告しています。

発話の49%が Statement(発言)であり、それらが全単語トークンの83%をカバーしている。また、Statement の後に Backchannel(相づち: uh-huh, yeah 等)が続く確率は26%で、最も一般的な隣接ペアの一つである。

出典: Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373.

この研究から読み取れることは、英語の会話は「質問に答える」場ではなく、「発言して、相づちをもらって、また発言する」の繰り返しだということです。

これは私たちのSBCSAE分析とも一致しています。SBCSAEの文頭パターンでは、相手の発言の後に来る最も多い1語は "yeah"(721回)であり、 "why"(16回)のような聞き返しはほとんど発生していません。

SBCSAE文頭パターンの数値は、本サイトによる独自分析(39,317発話対象)の結果です。

教科書の英語と、実際の会話の違い

420万語の会話コーパスから抽出された頻度データで、教科書で習う英語と実際の会話英語を比べました。

58,810
yeah の出現回数
17,898
yes の出現回数

yeah は yes の3.3倍多い。会話での「はい」のデフォルトは yeah です。

78.3%
n't(don't, can't 等)の割合
21.7%
not の割合

否定の78%は縮約形。"do not" より "don't" が標準です。

助動詞の使用頻度

can
23,384回
must
2,997回
may
620回

can は must の8倍、may の38倍使われています。must と may は教科書で多く扱われますが、実際の会話ではほとんど使われていません。

データ: BNC(British National Corpus)日常会話セクション420万語から抽出された頻度リスト(Adam Kilgarriff公開)を使用。

主語は I, you, it の3語で67%

420万語の会話コーパスから抽出された頻度データで、代名詞の分布を調べました。

I
167,640回
28.4%
you
135,217回
22.9%
it
128,165回
21.7%
he
48,322
8.2%
they
43,977
7.5%
she
33,763
5.7%
we
33,166
5.6%

I + you + it だけで全代名詞の67.4%。会話で使う主語は、実質この3つで大半をカバーできます。

データ: BNC日常会話セクション420万語から抽出された頻度リストの人称代名詞(pnp タグ)を集計。

データの出典

このページのデータは、以下のソースに基づいています。

Santa Barbara Corpus of Spoken American English(SBCSAE)

UC Santa Barbara 言語学部が公開する、実際のアメリカ人の日常会話の録音書き起こしコーパス。60会話・約14万語。Creative Commons Attribution-No Derivative Works 3.0 USライセンス(商用利用可)。発話長分布、n-gram分析(bigram, trigram, 4-gram)、文頭パターン分析、「I don't」後続動詞分析は本サイトが独自にCHAT形式ファイルをパースして実行しました。

BNC Demographic 頻度リスト

British National Corpus の日常会話セクション(約420万語)から抽出された、単語×品詞×出現回数の頻度リスト。Adam Kilgarriff が公開。本サイトでは生のコーパステキストではなく、この頻度リストを使用しています。代名詞・助動詞・否定形の頻度比較は、この頻度リストからの分析結果です。BNCの利用規約では「コーパスを用いた研究の結果」の商用利用が認められています。

Stolcke et al. (2000) — 会話行為の分析

会話行為(Dialog Act)の分布に関するデータは、以下の学術論文から引用しています。本サイトがSwitchboardコーパスを直接分析したものではありません。

Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373. doi:10.1162/089120100561737

このデータに基づいた英語学習ツール

コーパスが証明した「本当に使われている英語」だけを、効率的に身につけるためのツールを準備中です。

Speaking シリーズを見る