数据挖掘算法Analysis Services-基于SQL Server的数据挖掘

浏览数：58 / 时间：2015年06月12日

数据挖掘算法（Analysis Services – 数据挖掘）

data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“数据挖掘算法”是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型，算法将首先分析您提供的数据，并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。

算法根据您的数据创建的挖掘模型可以采用多种形式，这包括：

说明数据集中的事例如何相关的一组分类。
预测结果并描述不同条件是如何影响该结果的决策树。
预测销量的数学模型。
说明在事务中如何将产品分组到一起的一组规则，以及一起购买产品的概率。

Microsoft SQL Server Analysis Services 提供了多种在数据挖掘解决方案中使用的算法。这些算法是在数据挖掘中使用的一些最流行方法的实现方式。通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件，所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。

您还可以使用符合 OLE DB for Data Mining 规范的第三方算法，或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。

为特定的分析任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务，每个算法会生成不同的结果，而某些算法还会生成多种类型的结果。例如，您不仅可以将 Microsoft 决策数算法用于预测，而且还可以将它用作一种减少数据集的列数的方法，因为决策树能够识别出不影响最终挖掘模型的列。

按类型选择算法

Analysis Services 包括了以下算法类型：

Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分类算法基于数据集中的其他属性预测一个或多个离散变量。
Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>回归算法基于数据集中的其他属性预测一个或多个连续变量，如利润或亏损。
Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割算法将数据划分为组或分类，这些组或分类的项具有相似属性。
Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。
Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>顺序分析算法汇总数据中的常见顺序或事件，如 Web 路径流。

但是，限制为您的解决方案中的一种算法是没有必要的。有经验的分析人员有时候将使用一种算法来确定最高效的输入（即变量），然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型，这样，在单个数据挖掘解决方案内，您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。您还可以在单个解决方案内使用多种算法来执行单独的任务：例如，您可以使用回归来获取财务预测，并且使用神经网络算法执行销售影响因素分析。

按任务选择算法

为帮助您选择用于特定任务的算法，下表给出了每种算法在传统上用于的任务类型的建议。

任务示例	可使用的 Microsoft 算法
预测离散属性将预期购买者列表中的客户标记为好或差的潜在客户。计算服务器在未来 6 个月内将出现故障的概率。将患者结果分类并探讨相关因素。	决策树算法 Naive Bayes 算法聚类分析算法神经网络算法
预测连续属性预测下一年的销售额。根据过去的历史信息和季节趋势，预测网站访问者。根据人口统计信息生成风险评分。	决策树算法时序算法线性回归算法
预测顺序执行公司网站的点击流分析。分析导致服务器故障的因素。捕获和分析门诊访问期间活动的顺序，以便围绕一般的活动形成最佳做法。	顺序分析和聚类分析算法
查找事务中常见项的组使用市场篮分析来确定产品摆放。建议客户购买其他产品。分析来自事件访问者的调查数据，确定哪些活动或展台是相关的，以便计划将来的活动。	关联算法决策树算法
查找相似项的组基于人口统计信息和行为之类的属性，创建患者风险配置文件组。按照浏览和购买模式分析用户。标识具有相似使用特性的服务器。	聚类分析算法顺序分析和聚类分析算法

任务示例

可使用的 Microsoft 算法

预测离散属性