IBM 15 User Manual

Page of 270
33
Understanding Data Mining
Figure 4-1
CRISP-DM process model
The six phases include:
Business understanding.
This is perhaps the most important phase of data mining. Business
understanding includes determining business objectives, assessing the situation, determining
data mining goals, and producing a project plan.
Data understanding.
Data provides the “raw materials” of data mining. This phase addresses
the need to understand what your data resources are and the characteristics of those resources.
It includes collecting initial data, describing data, exploring data, and verifying data quality.
The Data Audit node available from the Output nodes palette is an indispensable tool for
data understanding.
Data preparation.
After cataloging your data resources, you will need to prepare your data for
mining. Preparations include selecting, cleaning, constructing, integrating, and formatting
data.
Modeling.
This is, of course, the flashy part of data mining, where sophisticated analysis
methods are used to extract information from the data. This phase involves selecting modeling
techniques, generating test designs, and building and assessing models.
Evaluation.
Once you have chosen your models, you are ready to evaluate how the data mining
results can help you to achieve your business objectives. Elements of this phase include
evaluating results, reviewing the data mining process, and determining the next steps.
Deployment.
Now that you have invested all of this effort, it is time to reap the benefits. This
phase focuses on integrating your new knowledge into your everyday business processes to
solve your original business problem. This phase includes plan deployment, monitoring and
maintenance, producing a final report, and reviewing the project.
There are some key points in this process model. First, while there is a general tendency for the
process to flow through the steps in the order outlined in the previous paragraphs, there are also a
number of places where the phases influence each other in a nonlinear way. For example, data
preparation usually precedes modeling. However, decisions made and information gathered
during the modeling phase can often lead you to rethink parts of the data preparation phase, which
can then present new modeling issues. The two phases feed back on each other until both phases