データサイエンス英語用語集|統計・機械学習・分析の50ワード
最終更新: 2026-05-24
目次
本記事はアフィリエイト広告を含みます。
「Our model is overfitting on the training set.」「Is this difference statistically significant?」── 外資系・グローバルチームのデータ職場で日常的に飛び交う英語語彙を、統計基礎、機械学習モデル、Feature & Training、SQL/Python、実験設計、レポーティングの 6 場面に整理します。アナリスト・サイエンティスト・ML エンジニアが共通言語として押さえるべき頻出語彙集です。
統計の基礎語彙:Mean / Median / Variance / Distribution
全データ職に共通する統計の基礎語彙です。日本語と英語の対応を押さえると、論文・ドキュメントの読解スピードが上がります。
中心傾向・ばらつき
- Mean — 平均
- Median — 中央値
- Mode — 最頻値
- Variance — 分散
- Standard deviation (SD) — 標準偏差
- Range — 範囲
- Interquartile range (IQR) — 四分位範囲
- Outlier — 外れ値
分布・確率
- Distribution — 分布
- Normal distribution / Gaussian — 正規分布
- Skewed distribution — 歪んだ分布
- Probability — 確率
- Probability density function (PDF) — 確率密度関数
- Cumulative distribution function (CDF) — 累積分布関数
- Sample / Population — 標本 / 母集団
- Sampling — サンプリング
会話例
- The mean is misleading here because of outliers — median is more representative.(外れ値で平均が誤解を招く。中央値の方が代表的)
- The distribution is right-skewed.(分布は右に歪んでいる)
- We need a larger sample size for reliable results.(信頼できる結果には標本サイズの拡大が必要)
機械学習モデルの種別:Regression / Classification / Clustering
機械学習タスクは大きく 3 種類に分かれます。タスク種別を正しく英語で表現できると、モデル選定の議論が噛み合います。
教師あり学習 (Supervised learning)
- Regression — 回帰。連続値を予測
- Linear regression — 線形回帰
- Logistic regression — ロジスティック回帰
- Classification — 分類。離散ラベルを予測
- Binary classification — 2 値分類
- Multi-class classification — 多クラス分類
- Decision tree — 決定木
- Random forest — ランダムフォレスト
- Gradient boosting — 勾配ブースティング
- Neural network — ニューラルネットワーク
教師なし学習 (Unsupervised learning)
- Clustering — クラスタリング
- K-means — k 平均法
- Hierarchical clustering — 階層クラスタリング
- Dimensionality reduction — 次元削減
- PCA (Principal Component Analysis) — 主成分分析
- Anomaly detection — 異常検知
その他
- Reinforcement learning — 強化学習
- Semi-supervised learning — 半教師あり学習
- Self-supervised learning — 自己教師あり学習
- Transfer learning — 転移学習
- Fine-tuning — ファインチューニング
会話例
- This is a binary classification problem with imbalanced classes.(クラス不均衡な 2 値分類問題)
- We're using gradient boosting as the baseline.(勾配ブースティングをベースラインに)
- Let's start with a simpler regression before going deep.(深層モデルに行く前に単純な回帰から)
Feature & Training の語彙:Feature engineering / Hyperparameter
モデルを実際に作る段階で頻出する語彙です。データ整形からハイパーパラメータ調整まで、サイエンティスト・ML エンジニアが日常的に使います。
データと特徴量
- Feature — 特徴量。モデルの入力変数
- Label / Target — 教師信号・予測対象
- Feature engineering — 特徴量エンジニアリング
- Feature selection — 特徴量選択
- Feature importance — 特徴量重要度
- Categorical feature — カテゴリ特徴量
- Numerical feature — 数値特徴量
- One-hot encoding — ワンホットエンコーディング
- Normalization / Standardization — 正規化 / 標準化
- Imputation — 欠損値補完
- Missing value — 欠損値
学習・評価
- Training set / Validation set / Test set — 訓練 / 検証 / テストデータ
- Cross-validation — 交差検証
- Hyperparameter — ハイパーパラメータ
- Hyperparameter tuning — ハイパーパラメータ調整
- Grid search / Random search — グリッド / ランダムサーチ
- Overfitting — 過学習
- Underfitting — 学習不足
- Regularization — 正則化
- Loss function — 損失関数
- Gradient descent — 勾配降下法
- Epoch / Batch / Iteration — エポック / バッチ / 反復
会話例
- Our model is overfitting on the training set.(訓練データで過学習している)
- We need better feature engineering before changing the model.(モデル変更前に特徴量を改善すべき)
- I'm running hyperparameter tuning overnight.(一晩かけてハイパーパラメータ調整中)
SQL / Python の頻出語彙
データ職の日常作業は SQL と Python が中心です。コードレビュー・スタンドアップで頻出する語彙を整理します。
SQL の頻出語
- Query — クエリ
- Table / View — テーブル / ビュー
- Join (inner / left / right / full) — テーブル結合の種類
- Aggregate / Aggregation — 集計
- Group by / Window function — グループ集計 / ウィンドウ関数
- CTE (Common Table Expression) — WITH 句
- Schema — スキーマ
- Primary key / Foreign key — 主キー / 外部キー
- Index — インデックス
- ETL / ELT — Extract Transform Load の処理パイプライン
- Data warehouse / Data lake — DWH / データレイク
Python (Pandas / NumPy) の頻出語
- DataFrame / Series — pandas の主要オブジェクト
- Column / Row / Index — 列 / 行 / インデックス
- Filter / Mask — 行フィルタ
- Merge / Concat — 結合 / 連結
- Groupby / Aggregate — グループ集計
- Pivot / Unpivot — ピボット変換
- Notebook — Jupyter / Colab のノートブック
- Kernel — ノートブックの実行プロセス
- Library / Package — ライブラリ / パッケージ
会話例
- Can you share the query you used for this number?(この数値に使ったクエリを共有して)
- I'm joining the events table with users on user_id.(events を users と user_id で join)
- The notebook is taking forever to run — let me restart the kernel.(ノートブックが遅い、カーネル再起動)
実験設計:A/B test と Statistical significance
プロダクト改善で必須の A/B test と 統計的有意性 の語彙です。アナリスト・PM・エンジニアが共通言語として持っておくべきです。
A/B test の基本
- A/B test / Split test — 2 案比較実験
- Multi-variate test — 複数要素同時テスト
- Control group — 対照群
- Treatment group / Variant — 処置群
- Hypothesis — 仮説
- Null hypothesis — 帰無仮説
- Metric / Primary metric — 評価指標 / 主指標
- Guardrail metric — ガードレール指標。悪化させてはいけない指標
- Lift — 効果量。「+5% lift」のように使う
統計的検定の語彙
- Statistical significance — 統計的有意性
- P-value — p 値
- Confidence interval (CI) — 信頼区間
- Effect size — 効果量
- Type I error / Type II error — 第一種 / 第二種誤り
- Statistical power — 検出力
- Sample size calculation — 必要標本サイズ計算
- Underpowered — 標本不足で検出力不足
会話例
- Is this difference statistically significant?(この差は統計的に有意か)
- The p-value is above our threshold, so we can't reject the null.(p 値が閾値を超えているため帰無仮説を棄却できない)
- We're underpowered for this segment — need more users.(このセグメントは検出力不足、ユーザー数を増やす必要)
- Let's add a guardrail metric on latency.(レイテンシのガードレール指標を入れよう)
レポーティング英語:ビジネス向けに翻訳する
分析結果を 非データ職のステークホルダー に伝える英語です。専門用語をビジネス用語に翻訳する力が問われます。
結論を最初に置く表現
- The headline finding is that ...(主要な発見は〜)
- In short, ...(要するに〜)
- The key takeaway is ...(重要な結論は〜)
- Bottom line: ...(結論を一言で〜)
不確実性を示す表現
- The data suggests that ...(データは〜を示唆している)
- There's a strong signal that ...(〜という強いシグナルがある)
- We're directionally confident, but the sample is small.(方向性は確かだが標本が小さい)
- We can't conclude X from this data alone.(このデータだけで X とは結論できない)
ネクストアクションを示す表現
- Based on this, I'd recommend ...(これを踏まえると〜を推奨)
- The next step would be to test ...(次のステップは〜のテスト)
- Before deciding, we should validate ...(決定前に〜を検証すべき)
ダッシュボードと可視化
- Dashboard — ダッシュボード
- KPI (Key Performance Indicator) — 主要業績評価指標
- Visualization / Chart / Plot — 可視化 / チャート / プロット
- Drill down — 詳細掘り下げ
- Slice and dice — 多角的に切る
- Cohort analysis — コホート分析
- Funnel analysis — ファネル分析
- Retention curve — 継続率カーブ
非データ職向けの説明には、英語プレゼンの Q&A 対応の表現も応用できます。
データサイエンス英語での落とし穴
1. Correlation と Causation を混同しない
"Correlation does not imply causation." (相関は因果を意味しない) は鉄則です。"A causes B" と "A is correlated with B" は明確に使い分けます。曖昧にすると、ビジネス意思決定がミスリードされます。
2. Statistically significant ≠ Practically meaningful
p 値が小さくても、効果量 (effect size) が極小なら実務的には意味がありません。Statistical significance だけでなく effect size を併記する習慣が大切です。
3. Cherry-picking を避ける
事後的に良い結果だけ選んで報告するのは "cherry-picking" と呼ばれ、データ職の信頼を失います。事前に主指標を決め、結果が悪くてもそれを報告する誠実さが信頼の基盤です。
4. ジャーゴンを多用しない
"Heteroscedasticity" "Multicollinearity" のような専門用語は、データ職以外には通じません。聞き手が非データ職なら、噛み砕いた表現に翻訳します。ビジネス英語ジャーゴン用語集と併せて、伝わるレベルを選ぶ感覚を養うと有効です。
データサイエンス英語の習得プラン
ステップ1:6 場面の語彙を分けて暗記
統計基礎 → モデル種別 → Feature/Training → SQL/Python → 実験設計 → レポーティングの順で 6 場面に分けて語彙を覚えます。VocabUpのスワイプ学習で日英対応を反復し、咄嗟に意味が浮かぶ状態にします。
ステップ2:Speaking Instant で会議表現を反射化
"Is this statistically significant?" "Our model is overfitting." "The data suggests ..." のような型は、考えずに出る必要があります。Speaking Instantの business カテゴリで反復し、本物のレビュー会議で詰まらないようにします。
ステップ3:ListenUp でデータ会議の速度に慣れる
外資系のデータ会議は早口かつ略語連発です。ListenUpで英語の速度・音変化・省略に耳を慣らしておくと、リアルなレビューでの聞き逃しを減らせます。
ステップ4:オンライン英会話でロールプレイ
講師に「Let's roleplay a data review. I'll present an A/B test result, you ask follow-up questions」と頼むと実戦的です。受け放題プランや 5〜10 分の短時間レッスンに対応したサービスなら、レビュー前のウォームアップに使えます。
データサイエンス英語を毎日のレッスンで磨く
データサイエンス英語は、語彙を覚えても本物のレビューで即応できるかは別問題です。受け放題プランで毎日 5〜10 分、講師相手に「A/B test 結果共有」「モデル選定の議論」をロールプレイすると、本物のステークホルダーミーティングで自然に発話できるようになります。
まずは 7 日間の無料体験で、データ業務に近いロールプレイレッスンを試してみるのがおすすめです。
本記事はアフィリエイト広告を含みます。