凤台范文网 > > 资料 > python数据挖掘用什么工具

python数据挖掘用什么工具

来源:https://www.ft263.com 时间:2024-07-25 编辑:admin 手机版

python数据挖掘用什么工具

文本挖掘的常用工具:Python

拓展知识:

文本挖掘(TextMinin)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的数据挖掘或知识发现的扩展。

文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知如的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其地特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;

而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识,文本挖掘是指以大量文本教据中抽取事先末知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

文本挖掘的主要用途是以原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就样糊而目非结构化的文本数据,所以它是一个多学科杂的领域涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术,机器学以及数据挖掘等技术。

文本挖插是以数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其中特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并目缺乏机器口理解的语义;

而数据控掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识,因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

文本挖掘是应里驱动的。它在商业智能、信息检索、生物信息外理等方面都有广泛的应用:例如,客户关系管理,自动邮件回复,拉圾邮件过滤,自动简历评审,搜索引擎等等

文本挖掘的主要支撑技术:自然语言处理和机器学习由于处理的对象是半结构化或非结构化的文档自然语言处理技术成为实现生物医学文本挖掘的主要技术手段。

在数据分析,挖掘方面,有哪些好书值得推荐

数据分析:

《深入浅出数据分析》

《数据分析:企业的贤内助》

数据挖掘:

1、《数据挖掘概念和技术》,作者:(加)韩家炜,堪博 著,范明,孟小峰 译,机械工业出版社

2、数据挖掘导论,[美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著,译者: 范明 范宏建,人民邮电出版社

下边三本是英文版:

(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.

本书从数据库角度看待数据挖掘,强调胡搜效率(Efficiency)。按照本书茄做桥观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。

(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.

本书从机器学习角度看待数据挖掘,强调颤猛有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.

本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。

sc-cpda 数据分析公众交流平台 详细查看我资料

建议先从统计学的书开始 例如统计学精要等 然后再看一些算法类的数 例如微积分、概率论等 这之后你看一些关于模型茄渗伏的数 例喊神如数据挖掘精要颤携 如果有必要数据库基础这样的书也要看一看呀 -

有三个咐粗喊级别入门:

入门级凳此:

深入浅出数据分析

啤酒与尿布

数据之美衡野

数据分析:

SciPy and NumPy

Python for Data Analysis

Bad Data Handbook

初级:

集体智慧编程

Machine Learning in Action

Building Machine Learning Systems with Python

数据挖掘导论

Machine Learning for Hackers

专业级:

Introduction to Semi-Supervised Learning

Learning to Rank for Information Retrieval

Learning to Rank for Information Retrieval and Natural Language Processing

最近更新

资料排行榜精选