英語学習コラム

データサイエンス英語用語集｜統計・機械学習・分析の50ワード

執筆: IchiShio — native-real 編集長

最終更新: 2026-05-24

統計の基礎語彙：Mean / Median / Variance / Distribution
機械学習モデルの種別：Regression / Classification / Clustering
Feature & Training の語彙：Feature engineering / Hyperparameter
SQL / Python の頻出語彙
実験設計：A/B test と Statistical significance
レポーティング英語：ビジネス向けに翻訳する
データサイエンス英語での落とし穴
データサイエンス英語の習得プラン

「Our model is overfitting on the training set.」「Is this difference statistically significant?」── 外資系・グローバルチームのデータ職場で日常的に飛び交う英語語彙を、統計基礎、機械学習モデル、Feature & Training、SQL/Python、実験設計、レポーティングの 6 場面に整理します。アナリスト・サイエンティスト・ML エンジニアが共通言語として押さえるべき頻出語彙集です。

統計の基礎語彙：Mean / Median / Variance / Distribution

全データ職に共通する統計の基礎語彙です。日本語と英語の対応を押さえると、論文・ドキュメントの読解スピードが上がります。

中心傾向・ばらつき

Mean — 平均
Median — 中央値
Mode — 最頻値
Variance — 分散
Standard deviation (SD) — 標準偏差
Range — 範囲
Interquartile range (IQR) — 四分位範囲
Outlier — 外れ値

分布・確率

Distribution — 分布
Normal distribution / Gaussian — 正規分布
Skewed distribution — 歪んだ分布
Probability — 確率
Probability density function (PDF) — 確率密度関数
Cumulative distribution function (CDF) — 累積分布関数
Sample / Population — 標本 / 母集団
Sampling — サンプリング

会話例

The mean is misleading here because of outliers — median is more representative.（外れ値で平均が誤解を招く。中央値の方が代表的）
The distribution is right-skewed.（分布は右に歪んでいる）
We need a larger sample size for reliable results.（信頼できる結果には標本サイズの拡大が必要）

機械学習モデルの種別：Regression / Classification / Clustering

機械学習タスクは大きく 3 種類に分かれます。タスク種別を正しく英語で表現できると、モデル選定の議論が噛み合います。

教師あり学習 (Supervised learning)

Regression — 回帰。連続値を予測
Linear regression — 線形回帰
Logistic regression — ロジスティック回帰
Classification — 分類。離散ラベルを予測
Binary classification — 2 値分類
Multi-class classification — 多クラス分類
Decision tree — 決定木
Random forest — ランダムフォレスト
Gradient boosting — 勾配ブースティング
Neural network — ニューラルネットワーク

教師なし学習 (Unsupervised learning)

Clustering — クラスタリング
K-means — k 平均法
Hierarchical clustering — 階層クラスタリング
Dimensionality reduction — 次元削減
PCA (Principal Component Analysis) — 主成分分析
Anomaly detection — 異常検知

その他

Reinforcement learning — 強化学習
Semi-supervised learning — 半教師あり学習
Self-supervised learning — 自己教師あり学習
Transfer learning — 転移学習
Fine-tuning — ファインチューニング

会話例

This is a binary classification problem with imbalanced classes.（クラス不均衡な 2 値分類問題）
We're using gradient boosting as the baseline.（勾配ブースティングをベースラインに）
Let's start with a simpler regression before going deep.（深層モデルに行く前に単純な回帰から）

Feature & Training の語彙：Feature engineering / Hyperparameter

モデルを実際に作る段階で頻出する語彙です。データ整形からハイパーパラメータ調整まで、サイエンティスト・ML エンジニアが日常的に使います。

データと特徴量

Feature — 特徴量。モデルの入力変数
Label / Target — 教師信号・予測対象
Feature engineering — 特徴量エンジニアリング
Feature selection — 特徴量選択
Feature importance — 特徴量重要度
Categorical feature — カテゴリ特徴量
Numerical feature — 数値特徴量
One-hot encoding — ワンホットエンコーディング
Normalization / Standardization — 正規化 / 標準化
Imputation — 欠損値補完
Missing value — 欠損値

学習・評価

Training set / Validation set / Test set — 訓練 / 検証 / テストデータ
Cross-validation — 交差検証
Hyperparameter — ハイパーパラメータ
Hyperparameter tuning — ハイパーパラメータ調整
Grid search / Random search — グリッド / ランダムサーチ
Overfitting — 過学習
Underfitting — 学習不足
Regularization — 正則化
Loss function — 損失関数
Gradient descent — 勾配降下法
Epoch / Batch / Iteration — エポック / バッチ / 反復

会話例

Our model is overfitting on the training set.（訓練データで過学習している）
We need better feature engineering before changing the model.（モデル変更前に特徴量を改善すべき）
I'm running hyperparameter tuning overnight.（一晩かけてハイパーパラメータ調整中）

SQL / Python の頻出語彙

データ職の日常作業は SQL と Python が中心です。コードレビュー・スタンドアップで頻出する語彙を整理します。

SQL の頻出語

Query — クエリ
Table / View — テーブル / ビュー
Join (inner / left / right / full) — テーブル結合の種類
Aggregate / Aggregation — 集計
Group by / Window function — グループ集計 / ウィンドウ関数
CTE (Common Table Expression) — WITH 句
Schema — スキーマ
Primary key / Foreign key — 主キー / 外部キー
Index — インデックス
ETL / ELT — Extract Transform Load の処理パイプライン
Data warehouse / Data lake — DWH / データレイク

Python (Pandas / NumPy) の頻出語

DataFrame / Series — pandas の主要オブジェクト
Column / Row / Index — 列 / 行 / インデックス
Filter / Mask — 行フィルタ
Merge / Concat — 結合 / 連結
Groupby / Aggregate — グループ集計
Pivot / Unpivot — ピボット変換
Notebook — Jupyter / Colab のノートブック
Kernel — ノートブックの実行プロセス
Library / Package — ライブラリ / パッケージ

会話例

Can you share the query you used for this number?（この数値に使ったクエリを共有して）
I'm joining the events table with users on user_id.（events を users と user_id で join）
The notebook is taking forever to run — let me restart the kernel.（ノートブックが遅い、カーネル再起動）

実験設計：A/B test と Statistical significance

プロダクト改善で必須の A/B test と 統計的有意性 の語彙です。アナリスト・PM・エンジニアが共通言語として持っておくべきです。

A/B test の基本

A/B test / Split test — 2 案比較実験
Multi-variate test — 複数要素同時テスト
Control group — 対照群
Treatment group / Variant — 処置群
Hypothesis — 仮説
Null hypothesis — 帰無仮説
Metric / Primary metric — 評価指標 / 主指標
Guardrail metric — ガードレール指標。悪化させてはいけない指標
Lift — 効果量。「+5% lift」のように使う

統計的検定の語彙

Statistical significance — 統計的有意性
P-value — p 値
Confidence interval (CI) — 信頼区間
Effect size — 効果量
Type I error / Type II error — 第一種 / 第二種誤り
Statistical power — 検出力
Sample size calculation — 必要標本サイズ計算
Underpowered — 標本不足で検出力不足

会話例

Is this difference statistically significant?（この差は統計的に有意か）
The p-value is above our threshold, so we can't reject the null.（p 値が閾値を超えているため帰無仮説を棄却できない）
We're underpowered for this segment — need more users.（このセグメントは検出力不足、ユーザー数を増やす必要）
Let's add a guardrail metric on latency.（レイテンシのガードレール指標を入れよう）

レポーティング英語：ビジネス向けに翻訳する

分析結果を 非データ職のステークホルダー に伝える英語です。専門用語をビジネス用語に翻訳する力が問われます。

結論を最初に置く表現

The headline finding is that ...（主要な発見は〜）
In short, ...（要するに〜）
The key takeaway is ...（重要な結論は〜）
Bottom line: ...（結論を一言で〜）

不確実性を示す表現

The data suggests that ...（データは〜を示唆している）
There's a strong signal that ...（〜という強いシグナルがある）
We're directionally confident, but the sample is small.（方向性は確かだが標本が小さい）
We can't conclude X from this data alone.（このデータだけで X とは結論できない）

ネクストアクションを示す表現

Based on this, I'd recommend ...（これを踏まえると〜を推奨）
The next step would be to test ...（次のステップは〜のテスト）
Before deciding, we should validate ...（決定前に〜を検証すべき）

ダッシュボードと可視化

Dashboard — ダッシュボード
KPI (Key Performance Indicator) — 主要業績評価指標
Visualization / Chart / Plot — 可視化 / チャート / プロット
Drill down — 詳細掘り下げ
Slice and dice — 多角的に切る
Cohort analysis — コホート分析
Funnel analysis — ファネル分析
Retention curve — 継続率カーブ

非データ職向けの説明には、英語プレゼンの Q&A 対応の表現も応用できます。

データサイエンス英語での落とし穴

1. Correlation と Causation を混同しない

"Correlation does not imply causation." (相関は因果を意味しない) は鉄則です。"A causes B" と "A is correlated with B" は明確に使い分けます。曖昧にすると、ビジネス意思決定がミスリードされます。

2. Statistically significant ≠ Practically meaningful

p 値が小さくても、効果量 (effect size) が極小なら実務的には意味がありません。Statistical significance だけでなく effect size を併記する習慣が大切です。

3. Cherry-picking を避ける

事後的に良い結果だけ選んで報告するのは "cherry-picking" と呼ばれ、データ職の信頼を失います。事前に主指標を決め、結果が悪くてもそれを報告する誠実さが信頼の基盤です。

4. ジャーゴンを多用しない

"Heteroscedasticity" "Multicollinearity" のような専門用語は、データ職以外には通じません。聞き手が非データ職なら、噛み砕いた表現に翻訳します。ビジネス英語ジャーゴン用語集と併せて、伝わるレベルを選ぶ感覚を養うと有効です。

データサイエンス英語の習得プラン

ステップ1：6 場面の語彙を分けて暗記

統計基礎 → モデル種別 → Feature/Training → SQL/Python → 実験設計 → レポーティングの順で 6 場面に分けて語彙を覚えます。VocabUpのスワイプ学習で日英対応を反復し、咄嗟に意味が浮かぶ状態にします。

ステップ2：Speaking Instant で会議表現を反射化

"Is this statistically significant?" "Our model is overfitting." "The data suggests ..." のような型は、考えずに出る必要があります。Speaking Instantの business カテゴリで反復し、本物のレビュー会議で詰まらないようにします。

ステップ3：ListenUp でデータ会議の速度に慣れる

外資系のデータ会議は早口かつ略語連発です。ListenUpで英語の速度・音変化・省略に耳を慣らしておくと、リアルなレビューでの聞き逃しを減らせます。

ステップ4：オンライン英会話でロールプレイ

講師に「Let's roleplay a data review. I'll present an A/B test result, you ask follow-up questions」と頼むと実戦的です。受け放題プランや 5〜10 分の短時間レッスンに対応したサービスなら、レビュー前のウォームアップに使えます。