Statistics Toolbox Release Notes

第 1 章
Statistics Toolbox 4.0 Release Notes

新機能

本節では、Statistics Toolbox 4.0 で導入された新機能および強化された機能をまとめます。

Release 12.0 よりも以前のリリースからアップグレードする場合は、New Featuresを参照してください。

Multivariate Analysis

クラスタ分析

新規関数kmeansは、K-meansクラスタリングを実行し、5個の異なる距離測定をサポートします。新規関数silhouetteは、K-meansまたはhierarchical clustering法を利用して、クラスタのシルエットをプロットします。関数pdistは、複数の新規距離測定が可能で、大規模データセットに対してより効率的です。

因子分析

新規関数factoranは、推定された因子荷重の回転と因子スコアの推定を含む最大尤度を利用して、Common Factor Analysisモデルを近似します。

多次元スケーリングとProcrustes分析

新規関数cmdscaleは、classical (metric) Multidimensional Scalingを実行し、距離データからのみEuclidean空間内の点の構成を作成します。新規関数procrustesは、点の集合を他の集合と一致させるために直交Procrustes回転を実行します。

正準備相関分析

新規関数canoncorrは、正準相関分析を実行し、お互いに最も相関がある2つのデータセット内で変数のサブセットを求めます。

判別分析

関数classifyは、3つのタイプの識別(linear, quadratic, Mahalanobis)をサポートし、事前確率の指定をすることができます。

'linear'は、現在デフォルトであり、従来のバージョンの挙動を複製するために'mahalanobis'を指定する必要があります。

非線形回帰モデル

Classification and Regression Trees

新規関数(treefit, treeprune, treedisp, treetest, treeval)は、decision treeを使って分類と回帰を実行します。これらの関数は、ツリーをデータに近似し、それらを表示し、切り取って、テストデータあるいは交差検定を用いてエラーレートを計算し、それらを新規データに適用します。

確率分布

いくつかの新規関数は、多変量分布からランダムサンプルの生成をサポートします。Wishart (wishrnd)または逆Wishart (iwishrnd)分布からランダム行列を生成する関数があります。その他の関数(lhsdesign, lhsnorm)は、latin hypercubeサンプリング法を使って、多変量一様分布および正規分布からサンプルを生成します。さらに、他の確率関数、特に負の2項分布に対しては、機能強化されています。最後に、新規関数(mvnpdf)は、多変量正規分布に対して確率密度関数を計算します。

Descriptive Statistics

密度推定

新規関数ksdensityは、kernel smoothing techniqueを使って、非パラメトリック確率推定を行います。

経験累積分布

新規関数ecdfは、経験累積距離関数(cdf)と、それに対する信頼区間を計算します。打ち切られたデータ(生存分析で一般的)に対しては、cdfのKaplan-Meier推定を計算します。

実験計画

Response Surface計画

新規関数は、2つのよく使われる計画法: central composite計画(ccdesign) および Box-Behnken計画(bbdesign)をサポートします。Central composite 計画は、フルの2次モデルを近似し、各因子に対して、3または5個のレベルをもちます。ccdesignは、circumscribed, inscribed, facedの3つのタイプをサポートします。

Box-Behnken計画法は、フル2次モデルを近似する回転可能な計画ですが、各因子の3つのレベルのみを利用します。

D-Optimal計画

D-optimal計画生成関数は、従来よりも高速です。さらに、2つの新規関数candgenおよびcandexchは、計画の生成について行の交換アルゴリズムを制御します。

関数のまとめ

Statistics Toolbox Version 4.0 は、以下を提供します。

新規関数
新規または変更された機能をもつ関数

新規関数

関数
目的

bbdesign
Box-Behnken計画を生成

candexch
行交換を用いた候補集合からのD-optimal計画

candgen
D-optimal計画の候補集合を生成

canoncorr
正準相関分析

ccdesign
central composite計画を生成

cmdscale

古典的多次元スケーリング

ecdf
経験(Kaplan-Meier)累積分布関数

factoran
最尤法による因子分析の実行

iwishrnd

逆Wishartランダム行列を生成

kmeans

K-meansクラスタリング

ksdensity
kernel smoothing methodを用いた確率密度推定の計算

lhsdesign

latin hypercubeサンプルの生成

lhsnorm
latin hypercubeサンプリングを用いた多変量正規ランダム行列の生成

mvnpdf

多変量確率密度関数(pdf)

nbinfit

負の二項データのパラメータ推定と信頼区間

procrustes
Procrustes分析

silhouette

クラスタリングされたデータのシルエットプロット

treefit
classification or regressionのツリーベースモデルの近似

treeprune
pruning.によるサブツリーの生成

treedisp
classification or regressionツリーをグラフィカルに表示

treetest
ツリーに対するエラーレートを計算

treeval
データに適用されるdecision treeに対する近似値を計算

wishrnd

Wishartランダム行列を生成

関数	目的
`bbdesign`	Box-Behnken計画を生成
`candexch`	行交換を用いた候補集合からのD-optimal計画
`candgen`	D-optimal計画の候補集合を生成
`canoncorr`	正準相関分析
`ccdesign`	central composite計画を生成
`cmdscale`	古典的多次元スケーリング
`ecdf`	経験(Kaplan-Meier)累積分布関数
`factoran`	最尤法による因子分析の実行
`iwishrnd`	逆Wishartランダム行列を生成
`kmeans`	K-meansクラスタリング
`ksdensity`	kernel smoothing methodを用いた確率密度推定の計算
`lhsdesign`	latin hypercubeサンプルの生成
`lhsnorm`	latin hypercubeサンプリングを用いた多変量正規ランダム行列の生成
`mvnpdf`	多変量確率密度関数(pdf)
`nbinfit`	負の二項データのパラメータ推定と信頼区間
`procrustes`	Procrustes分析
`silhouette`	クラスタリングされたデータのシルエットプロット
`treefit`	classification or regressionのツリーベースモデルの近似
`treeprune`	pruning.によるサブツリーの生成
`treedisp`	classification or regressionツリーをグラフィカルに表示
`treetest`	ツリーに対するエラーレートを計算
`treeval`	データに適用されるdecision treeに対する近似値を計算
`wishrnd`	Wishartランダム行列を生成

新規機能または変更された機能をもつStatistics関数

関数
強化された機能または変更点

classify
新規シンタックスにより、判別関数のタイプを'linear' (デフォルト), 'quadratic', 'mahalanobis'のいずれかに指定します。'mahalanobis'を指定すると、旧バージョンの挙動を複製します。
その他の新規シンタックスを使って、群に対する事前確率を指定します。
新規出力は、誤分類のエラーレートの推定です。

cluster
距離測定に基づくクラスタリングを実行します。新規シンタックスにより、以下のパラメータに対する値を指定します。

'cutoff'
inconsistentおよび距離尺度に対するカットオフ

'maxclust'
作成するクラスタの最大値

'criterion'
'inconsistent'または'distance'

'depth'
inconsistent値を計算する深さ

従来のシンタックスは機能しますが、ドキュメント化されていません。

clusterdata
clusterdata(Z,'param1',val1,'param2',val2,...)は、pdist, linkage, clusterの呼び出しでclusterdataが利用するパラメータを指定することができます。

'distance'
pdistで利用可能な距離メトリック名
'linkage'
linkageで利用可能なリンケージメソッド

'cutoff'
inconsistentと距離尺度に対するカットオフ

'maxclust'
作成するクラスタの最大数

'criterion'
'inconsistent'または'distance'

'depth'
inconsistent値を計算する深さ

cordexch daugment dcovary rowexch
新規シンタックスは、パラメータ - 値の組を使った計画の生成を制御することができます。
function(...,'param1',value1,'param2',value2,...)

有効なパラメータは以下の通りです。

'display'
繰り返しカウンタの表示を制御します

'init'
初期計画を指定します。デフォルトは、ランダムに選択された点です。

'maxiter'
繰り返しの最大回数を指定します。デフォルトは10です。

corrcoef (MATLAB)
3つの新規シンタックスを提供します。
[R,P] = corrcoef(...)は、非相関の仮説を検証するためのp値の行列であるPを出力します。
[R,P,RLO,RUP] = corrcoef(...)は、各係数に対する95%信頼区間の下限と上限を含む行列RLOとRUPを出力します。

[...]=corrcoef(...,'param1',val1,'param2',val2,...)は、デフォルトの信頼区間を変更可能なパラメータ - 値の組を受け取り、NaNを含むXの行の取り扱い方法を指定します。

nbincdf, nbininv, nbinpdf, nbinrnd,
nbinstats
負の二項式の一般的な解釈と整合性があり、これらの関数は、サイズパラメータRに対して、非整数を含む任意の正の値を受け取ります。

pdist

観測間の組を成す距離を計算する4つの新規メトリクス、'cosine', 'correlation', 'hamming', 'jaccard'を提供します。また、ユーザ定義距離関数の関数ハンドルを受け取ります。

regstats

新規シンタックスstats = regstats(responses,DATA,model,whichstats)は、whichstatsにリストされている統計量を含む出力構造体 statsを作成します。whichstatsは、単一の名前または名前のセル配列でもかまいません。可能な統計量のリストは同じです。

関数	強化された機能または変更点
`classify`	新規シンタックスにより、判別関数のタイプを`'linear'` (デフォルト), `'quadratic'`, `'mahalanobis'`のいずれかに指定します。`'mahalanobis'`を指定すると、旧バージョンの挙動を複製します。その他の新規シンタックスを使って、群に対する事前確率を指定します。新規出力は、誤分類のエラーレートの推定です。
`cluster`	距離測定に基づくクラスタリングを実行します。新規シンタックスにより、以下のパラメータに対する値を指定します。
`'cutoff'`	inconsistentおよび距離尺度に対するカットオフ
`'maxclust'`	作成するクラスタの最大値
`'criterion'`	`'inconsistent'`または`'distance'`
`'depth'`	inconsistent値を計算する深さ
従来のシンタックスは機能しますが、ドキュメント化されていません。
`clusterdata`	`clusterdata(Z,'param1',val1,'param2',val2,...)`は、`pdist`, `linkage`, `cluster`の呼び出しで`clusterdata`が利用するパラメータを指定することができます。
`'distance'`	`pdist`で利用可能な距離メトリック名
`'linkage'`	`linkage`で利用可能なリンケージメソッド
`'cutoff'`	inconsistentと距離尺度に対するカットオフ
`'maxclust'`	作成するクラスタの最大数
`'criterion'`	`'inconsistent'`または`'distance'`
`'depth'`	inconsistent値を計算する深さ
`cordexch daugment dcovary rowexch`	新規シンタックスは、パラメータ - 値の組を使った計画の生成を制御することができます。 `function`(...,'param1',value1,'param2',value2,...) 有効なパラメータは以下の通りです。
`'display'`	繰り返しカウンタの表示を制御します
`'init'`	初期計画を指定します。デフォルトは、ランダムに選択された点です。
`'maxiter'`	繰り返しの最大回数を指定します。デフォルトは10です。
`corrcoef (MATLAB)`	3つの新規シンタックスを提供します。 `[R,P] = corrcoef(...)`は、非相関の仮説を検証するためのp値の行列である`P`を出力します。 `[R,P,RLO,RUP] = corrcoef(...)`は、各係数に対する95%信頼区間の下限と上限を含む行列`RLO`と`RUP`を出力します。 `[...]=corrcoef(...,'param1',val1,'param2',val2,...)`は、デフォルトの信頼区間を変更可能なパラメータ - 値の組を受け取り、`NaN`を含む`X`の行の取り扱い方法を指定します。
`nbincdf, nbininv, nbinpdf, nbinrnd,` `nbinstats`	負の二項式の一般的な解釈と整合性があり、これらの関数は、サイズパラメータ`R`に対して、非整数を含む任意の正の値を受け取ります。
`pdist`	観測間の組を成す距離を計算する4つの新規メトリクス、`'cosine'`, `'correlation'`, `'hamming'`, `'jaccard'`を提供します。また、ユーザ定義距離関数の関数ハンドルを受け取ります。
`regstats`	新規シンタックス`stats = regstats(responses,DATA,model,whichstats)`は、`whichstats`にリストされている統計量を含む出力構造体 `stats`を作成します。`whichstats`は、単一の名前または名前のセル配列でもかまいません。可能な統計量のリストは同じです。

Statistics Toolbox Release Notes メジャーバグフィックス

第 1 章Statistics Toolbox 4.0 Release Notes

第 1 章
Statistics Toolbox 4.0 Release Notes