摘要:本文介绍了一个以病虫害防治为具体对象的智能化数据挖掘系统的设计和实现。本系统引入分布式对象技术、多层架构、web方式表达,即:构件 + b/s + java + internet架构,来设计系统。对数据挖掘的实现进行了有益的尝试。
关键词:数据挖掘、构件、b/s、java、internet
the design and realization of intellectualized data mining system
liang jian, li xiao, liu hong-shuo, hu bin-hua
( the xinjiang institute of physics cas, wulumuqi, 830011)
abstract: this paper introduces the design and realization of the intellectualized dm(data mining) system with the actual object of preventing and curing about insect pest. the system introduces the distributed object technology, multi-tier framework, and web express mode, namely component +b/s+ java+ internet framework, to design the system. so that makes a beneficial attempt on the research of dm.
key words:dm(data mining)、component、b/s、java、internet.
1.引言:
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
2.数据挖掘技术概述:
2.1数据挖掘的定义:
数据挖掘(data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.2数据挖掘的功能:
(1)自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息,从而迅速直接由数据本身得出相应结论。
(2)关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。从而为某些决策提供必要支持。
(3)聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
(4)概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述对象之间的区别。
(5)偏差检测:偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
2.3 数据挖掘常用的技术:
数据挖掘常用的技术有人神经网络;决策树;遗传算法;近邻算法;规则推导等。
2.4数据挖掘常用的工具:
(1)基于神经网络的工具:由于对非线性数据的快速建模能力,神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。
(2)基于关联规则和决策树的工具:大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式