IBM 15 Manuale Utente

Pagina di 270
30
Chapter 4
Typically, you will use these facilities to identify a promising set of attributes in the data. These
attributes can then be fed to the modeling techniques, which will attempt to identify underlying
rules and relationships.
Typical Applications
Typical applications of data mining techniques include the following:
Direct mail.
Determine which demographic groups have the highest response rate. Use this
information to maximize the response to future mailings.
Credit scoring.
Use an individual’s credit history to make credit decisions.
Human resources.
Understand past hiring practices and create decision rules to streamline the
hiring process.
Medical research.
Create decision rules that suggest appropriate procedures based on medical
evidence.
Market analysis.
Determine which variables, such as geography, price, and customer
characteristics, are associated with sales.
Quality control.
Analyze data from product manufacturing and identify variables determining
product defects.
Policy studies.
Use survey data to formulate policy by applying decision rules to select the most
important variables.
Health care.
User surveys and clinical data can be combined to discover variables that contribute
to health.
Terminology
The terms attribute, field, and variable refer to a single data item common to all cases under
consideration. A collection of attribute values that refers to a specific case is called a record, an
example
, or a case.
Assessing the Data
Data mining is not likely to be fruitful unless the data you want to use meets certain criteria. The
following sections present some of the aspects of the data and its application that you should
consider.
Ensure that the data is available
This may seem obvious, but be aware that although data might be available, it may not be in a
form that can be used easily. IBM® SPSS® Modeler can import data from databases (through
ODBC) or from files. The data, however, might be held in some other form on a machine that
cannot be directly accessed. It will need to be downloaded or dumped in a suitable form before it
can be used. It might be scattered among different databases and sources and need to be pulled