読み込み中...
データ解析、回帰分析、リスク測定など統計的・定量的アプローチ
自己相関
時系列データにおいて、ある時点のデータとその過去(または未来)のデータとの間の相関関係のことです。「系列相関」とも呼ばれます。データの時間的な依存構造を分析するために用いられます。
ベイズ推定
ベイズ統計学に基づいたパラメータ推定の方法です。事前分布(パラメータに関する事前の信念)をデータ(尤度)によって更新し、事後分布として推定結果を得る点が特徴です。
ブラックスワン
ブラックスワンとは、「発生確率が極めて低く予測できないが、ひとたび起これば非常に大きな影響をもたらす出来事」のことです。元々は「白鳥は白いもの」という常識が、黒い白鳥の発見で覆されたことに由来し、「ありえないと思われていたが、実際には起きることがある」という意味が込められています。 この概念は、ナシーム・ニコラス・タレブによって広まりました。リーマンショックやパンデミック、大規模テロなどは、過去のデータや常識では予測できなかった例として引用されます。
クラスタリング
データセットの中から、互いに似ているデータ点を集めてグループ(クラスター)に分ける手法の総称です。教師なし学習の一種であり、データの構造発見や分類に用いられます。
計量経済学
経済理論に基づいて経済現象をモデル化し、実際の経済データを用いて統計的な手法(特に回帰分析など)でそのモデルを検証・計測したり、将来予測を行ったりする学問分野です。
指数加重移動平均
移動平均の一種で、過去のデータに対して指数関数的に重みを減少させ、より直近のデータに大きな重みを与えて平均値を計算する手法です。価格変動やボラティリティの推定などに用いられます。
ファットテール
Fat Tailとは、確率分布の「端(テール)」に位置する、まれな事象の発生確率が高い分布の形を指す統計用語です。一般的な正規分布では、平均から大きく離れた値(例えば±3σ以上)はほとんど発生しませんが、ファットテール分布ではこうした極端な値が思ったより頻繁に現れます。 「太った尾」と表現されるように、分布の端に厚みがあり、予測しづらい大きな変動や損失が生じるリスクを伴います。
尖度
確率分布の形状の特徴を示す統計量の一つで、分布の「尖り具合」や「裾の厚さ」を表します。正規分布(尖度=3または超過尖度=0)と比較して評価され、ファットテールの度合いを示す指標となります。
対数正規分布
確率変数の対数を取ると正規分布に従うような連続確率分布のことです。常に正の値をとる変数をモデル化するのに適しており、株価などの金融資産価格のモデルに用いられることがあります。
平均
データの合計を個数で割った値で、中心傾向を示す基本的な指標
平均(値)
データセットの中心的な傾向を示す代表値の一つで、全てのデータの値を合計し、データの総数で割った値です。「算術平均」が最も一般的ですが、他にも種類があります。
中央値
データセットを小さい順(または大きい順)に並べたときに、ちょうど中央に位置する値のことです。平均値と並ぶ代表値の一つで、外れ値の影響を受けにくい特徴があります。
最頻値
データセットの中で、最も頻繁に出現する値のことです。平均値、中央値と並ぶ代表値の一つで、特にカテゴリデータや離散データに対してよく用いられます。
正規分布
平均値を中心として左右対称な釣鐘型の形状を持つ、最も代表的な連続確率分布です。「ガウス分布」とも呼ばれます。統計学の多くの理論や手法の基礎となっています。
範囲
データセットのばらつきを示す最も簡単な尺度の一つで、データの最大値と最小値の差のことです。「レンジ」とも呼ばれます。計算は容易ですが、外れ値の影響を大きく受けます。
歪度
確率分布やデータ分布の形状の「非対称性」を示す統計量です。分布の裾が左右どちらに伸びているかを示し、正規分布(歪度=0)と比較して評価されます。
平滑化
時系列データなどに含まれる不規則な変動(ノイズ)を除去または低減し、データの大まかな傾向やパターンを捉えやすくするための処理や手法の総称です。移動平均などが代表例です。
時系列分析
時間の経過とともに観測されるデータ(時系列データ:価格、リターンなど)のパターンや特性(トレンド、季節性、自己相関など)を分析する統計的手法の総称です。将来予測などに応用されます。
分散
データのばらつきの大きさを表す統計的な尺度の一つです。各データと平均値との差(偏差)の二乗の平均値として計算されます。標準偏差の二乗と同じ値になります。
加重平均
データセットの各数値に、その重要度や寄与度に応じた「重み」を掛けてから合計し、重みの合計で割って算出される平均値です。単純な平均(算術平均)よりも実態に近い平均値が得られる場合があります。
Zスコア(Z値)
データセットの中で、あるデータ点が平均値から標準偏差の何倍分離れているかを示す統計的な指標です。「標準得点」とも呼ばれ、異なるデータ間の相対的な位置比較や外れ値検出に用いられます。