-
【数位DP】HDU3565-Bi-peak Number
所属栏目:[大数据] 日期:2021-01-18 热度:95
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=3565 Problem Description A peak number is defined as continuous digits {D0,D1 … Dn-1} (D0 0 and n = 3),which exist Dm (0 m n - 1) satisfied Di-1 Di (0 i = m) and Di Di+1 (m = i n[详细]
-
LightOJ1282 Leading and Trailing 大数取首尾
所属栏目:[大数据] 日期:2021-01-18 热度:63
任何一个数都可以转换为10^k,k是一个小数,k的整数部分决定了这个数的位数,小数部分决定了每一位的值,根据此可以快速找到前三位。 通过快速幂取模可以快速找到后三位。 题目链接:http://acm.hust.edu.cn/vjudge/problem/26992 #pragma comment(linker,[详细]
-
日均请求量百亿级数据处理平台的容器云实践
所属栏目:[大数据] 日期:2021-01-18 热度:120
from:?http://geek.csdn.net/news/detail/97887 声明:本文为CSDN原创投稿文章,未经许可,禁止任何形式的转载。? 作者:袁晓沛,目前在七牛云的主要工作是基于容器平台构建分布式应用,借助容器的优势,实现大规模分布式应用的自动化运维以及高可用,以Pa[详细]
-
如何计算文档相似性
所属栏目:[大数据] 日期:2021-01-18 热度:114
最近课题需要,整理一下文档相似性的一些研究,主要是参考知乎上面的回答和52nlp的相关文章。以备后期综述使用。具体还需要好好细读链接。 主要思路 01/one hot representation,BOW+tf-idf+LSI/LDA体系. docsim方法:gensim包,使用corpora.Dictionary(te[详细]
-
关联规则挖掘——Apriori算法
所属栏目:[大数据] 日期:2021-01-18 热度:191
前言 大二的时候,一个老师为了勾起我们对数据挖掘的兴趣,老是问我们这个问题:你们知道超市为什么要把啤酒跟尿布放在一起吗?但是从来没告诉我们答案。现在,很多人都听过这个问题,觉得很平常,但是那时的我真觉得挺神奇的。直到后来,了解了关联规则挖[详细]
-
在「不稀缺」的商业世界,如何挖掘稀缺的资源?
所属栏目:[大数据] 日期:2021-01-18 热度:152
副标题#e# 要生存壮大,就要找到新的稀缺资源, 并且想尽办法掌握在自己手中。 文 | 曲凯 编者按:本文来源42章经(ID:MyFortyTwo),一家生产原创优质内容的科技媒体,誓同有趣、有料、有企图心的灵魂共成长。 “Technology increases access to what is[详细]
-
HHUOJ 1003 数字整除(模拟大数整除)
所属栏目:[大数据] 日期:2021-01-18 热度:123
1003: 数字整除 时间限制: 1 Sec??内存限制: 128 MB 提交: 10??解决: 7 题目描述 定理:把一个至少两位的正整数的个位数字去掉,再从余下的数中减去个位数的5倍。当且仅当差是17的倍数时,原数也是17的倍数 。 例如,34是17的倍数,因为3-20=-17是17的倍数[详细]
-
【报名】工业大数据深度挖掘应用与技术实现——清华大数据“技术
所属栏目:[大数据] 日期:2021-01-18 热度:148
大数据与工业数据的结合,使制造过程能进行分析、推理、判断、构思和决策等。通过人与机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。然而,这一切又都必须服从[详细]
-
阶乘的精确值(大数)
所属栏目:[大数据] 日期:2021-01-18 热度:90
首先确定阶乘的位数。 我们知道整数n的位数的计算方法为:log10(n)+1 故n!的位数为log10(n!)+1 ? 如果要求出n!的具体值,对很大的n(例如n=1000000)来说,计算会很慢,如果仅仅是求阶乘的位数,可以用斯特林(Stirling)公式求解 ? 斯特林(Stirling)公式[详细]
-
LSHForest进行文本相似性计算
所属栏目:[大数据] 日期:2021-01-18 热度:74
LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林, 是最近邻搜索方法的代替,排序实现二进制搜索和32位定长数组和散列,使用hash家族的随机投影方法近似余弦距离。 随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减小到[详细]
-
【R语言数据处理】一步一步来分析数据之不知哪位收集的淘宝推荐
所属栏目:[大数据] 日期:2021-01-18 热度:163
文件名:淘宝最全年货大促特价整理 数据我先传百度云了,分享一下,你们看了就知道是什么样子的了,我改了一下名字,文件名:tbtj.xls 360云盘:https://yunpan.cn/cMTiN2Lyk5MpK 访问密码 d2cc 百度云:http://pan.baidu.com/s/1hsBHuGO 我们先来看下里面[详细]
-
DB、ETL、DW、OLAP、DM、BI关系结构图
所属栏目:[大数据] 日期:2021-01-18 热度:91
(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你[详细]
-
R语言-数据处理
所属栏目:[大数据] 日期:2021-01-18 热度:197
Reading Data 读取表格数据的函数read.table()以及read.csv() readLines()用于逐行读取文本文件 source()读取R代码的重要函数 dget()用来读取R代码文件 load()和unserialize()用于把二进制对象读入R Writing Data write.table() writeLines() dump() dput([详细]
-
简单粗暴的“大数据“解决方案
所属栏目:[大数据] 日期:2021-01-18 热度:53
这里说“大数据”确实有点哗众取宠,但确确实实是解决一些大数据量的情况。比如常用的布隆过滤器(BloomFilter)、常用的文本相似比较算法SimHash等,这里介绍的都是看上去是简单粗暴的方法,但当你深入了解后你就会发现什么叫简约而不简单,掌握这些常用的[详细]
-
开源ETL工具kettle系列之增量更新设计
所属栏目:[大数据] 日期:2021-01-18 热度:150
前言 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许对其他工具[详细]
-
开源ETL工具kettle系列之动态转换
所属栏目:[大数据] 日期:2021-01-18 热度:156
副标题#e# 摘要 本文主要讨论使用Kettle来设计一些较为复杂和动态的转换可能使用到的一些技巧,这些技巧可能会让你在使用Kettle的时候更加容易的设计更强大的ETL任务。 动态参数的传递 Kettle 在处理运行时输入参数可以使用JavaScript 来实现,大部分工作只[详细]
-
互联网金融之量化投资深度文本挖掘——附源码文档
所属栏目:[大数据] 日期:2021-01-18 热度:81
副标题#e# ?? 【重!磅!干!货[详细]
-
hdu1042 N!(大数)
所属栏目:[大数据] 日期:2021-01-18 热度:94
N! Time Limit: 10000/5000 MS (Java/Others)????Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 75069????Accepted Submission(s): 21870 Problem Description Given an integer N(0 ≤ N ≤ 10000),your task is to calculate N! ?[详细]
-
桑文锋:深入浅出大数据分析(PPT)
所属栏目:[大数据] 日期:2021-01-18 热度:50
导读 在DTCC 2016中国数据库技术大会“大数据创业”专场,Sensors Data CEO 桑文锋分享了主题为《深入浅出大数据分析》的演讲,作为一名资深大数据牛人,从大数据思维讲起,深入浅出剖析数据驱动的理念,常用的数据分析方法,推荐的思路,多维数据分析技术[详细]
-
文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、
所属栏目:[大数据] 日期:2021-01-18 热度:63
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里[详细]
-
余弦计算相似度度量
所属栏目:[大数据] 日期:2021-01-18 热度:186
余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本[详细]
-
大数运算和大数类
所属栏目:[大数据] 日期:2021-01-18 热度:106
1、首先看一个小问题: 整型数组、字符型数组、vector在未初始化的情况下: int main(){int data[5];char c[5];vectorint v(5);vectorchar v1(5);vectorint v2;cout "int[]:";for (int i = 0; i 5; i++){cout data[i] " ";}cout endl endl;cout "char[]:";[详细]
-
数据处理之——plyr
所属栏目:[大数据] 日期:2021-01-18 热度:138
本文主要介绍如何利用R中的plyr包对数据进行处理。plyr是R中做数据处理和加工的包,它可以用来做类似EXCEL数据透视表的操作。 split-apply-combine split-apply-combine是plyr包的基本思想,首先把大的数据集按照一定的规则对数据进行拆分(split),然后对每[详细]
-
金融行业的BI应用分析
所属栏目:[大数据] 日期:2021-01-18 热度:111
商业智能是一种提高企业智能化的手段,它可以满足企业发展的需要、提高企业的竞争力。同时,对于提高金融行业的风险管理、提升对外服务的质量都能够起到关键性的作用。 在市场竞争和银行业务转型期间,商业智能对于业务以及内部管理水平的提升起到了重要的[详细]
-
HDOJ -- 1002 大数A+B
所属栏目:[大数据] 日期:2021-01-18 热度:112
A + B Problem II Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Problem Description I have a very simple problem for you. Given two integers A and B,your job is to calculate the Sum of A + B. ? Input[详细]