アメリカ人60人の日常会話39,317発話を書き起こしたデータを分析しました。教科書では教わらない、英語の会話の実態を数字で示します。
アメリカ人60人の日常会話39,317発話の長さを分析した結果です。
ネイティブの日常会話は、ほとんどが6語以下の短い発話で構成されています。
長い文を作る必要はありません。
データ: SBCSAE 39,317発話のうち、話者の発話(環境音を除く)を対象にクリーニング後に語数を計測。
14万語の会話データから3語連鎖(trigram)を抽出。"I don't know" は2位の3.4倍でした。
"I don't know" の後に続くものとして最も多いのは "if"(29回)と "what"(24回)。「分からないけど...」「何が分からないかと言うと...」という使い方です。
データ: SBCSAE 14万語から抽出した全trigram。CHAT形式のタイムスタンプ・記号等をクリーニング後に集計。
"I don't" の後に続く動詞を全て調べました。know / think / want の3語で69.1%を占めます。
"I don't know" が過半数を超えています。否定文で最も重要なのは、「分からない」と言えることです。
データ: SBCSAE 14万語から "I don't" + 次の1語を全453件抽出して集計。wanna と want は合算。
アメリカ人2,400件の電話会話を対象にした言語学研究の結果を紹介します。
Stolcke et al. (2000) は、Switchboard コーパス(アメリカ英語の電話会話)に会話行為タグを付与して分析し、以下を報告しています。
発話の49%が Statement(発言)であり、それらが全単語トークンの83%をカバーしている。また、Statement の後に Backchannel(相づち: uh-huh, yeah 等)が続く確率は26%で、最も一般的な隣接ペアの一つである。
出典: Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373.
この研究から読み取れることは、英語の会話は「質問に答える」場ではなく、「発言して、相づちをもらって、また発言する」の繰り返しだということです。
これは私たちのSBCSAE分析とも一致しています。SBCSAEの文頭パターンでは、相手の発言の後に来る最も多い1語は "yeah"(721回)であり、 "why"(16回)のような聞き返しはほとんど発生していません。
SBCSAE文頭パターンの数値は、本サイトによる独自分析(39,317発話対象)の結果です。
420万語の会話コーパスから抽出された頻度データで、教科書で習う英語と実際の会話英語を比べました。
yeah は yes の3.3倍多い。会話での「はい」のデフォルトは yeah です。
否定の78%は縮約形。"do not" より "don't" が標準です。
can は must の8倍、may の38倍使われています。must と may は教科書で多く扱われますが、実際の会話ではほとんど使われていません。
データ: BNC(British National Corpus)日常会話セクション420万語から抽出された頻度リスト(Adam Kilgarriff公開)を使用。
420万語の会話コーパスから抽出された頻度データで、代名詞の分布を調べました。
I + you + it だけで全代名詞の67.4%。会話で使う主語は、実質この3つで大半をカバーできます。
データ: BNC日常会話セクション420万語から抽出された頻度リストの人称代名詞(pnp タグ)を集計。
このページのデータは、以下のソースに基づいています。
Santa Barbara Corpus of Spoken American English(SBCSAE)
UC Santa Barbara 言語学部が公開する、実際のアメリカ人の日常会話の録音書き起こしコーパス。60会話・約14万語。Creative Commons Attribution-No Derivative Works 3.0 USライセンス(商用利用可)。発話長分布、n-gram分析(bigram, trigram, 4-gram)、文頭パターン分析、「I don't」後続動詞分析は本サイトが独自にCHAT形式ファイルをパースして実行しました。
BNC Demographic 頻度リスト
British National Corpus の日常会話セクション(約420万語)から抽出された、単語×品詞×出現回数の頻度リスト。Adam Kilgarriff が公開。本サイトでは生のコーパステキストではなく、この頻度リストを使用しています。代名詞・助動詞・否定形の頻度比較は、この頻度リストからの分析結果です。BNCの利用規約では「コーパスを用いた研究の結果」の商用利用が認められています。
Stolcke et al. (2000) — 会話行為の分析
会話行為(Dialog Act)の分布に関するデータは、以下の学術論文から引用しています。本サイトがSwitchboardコーパスを直接分析したものではありません。
Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Van Ess-Dykema, C., & Meteer, M. (2000). Dialogue act modeling for automatic tagging and recognition of conversational speech. Computational Linguistics, 26(3), 339–373. doi:10.1162/089120100561737