不靠谱的预测:今年双十一的销量是 6213 亿元 -k8体育
y.an
•
2021年11月11日 上午9:33
•
产品运营 ,
投稿
双十一到今年已经是13个年头,每年大家都在满心期待看着屏幕上的数字跳动,年年打破记录。而 2019 年的天猫双11的销售额却被一位微博网友提前7个月用数据拟合的方法预测出来了。他的预测值是2675.37或者2689.00亿元,而实际成交额是2684亿元。只差了5亿元,误差率只有千分之一。
但如果你用同样的方法去做预测2020年的时候,发现,预测是3282亿,实际却到了 4982亿。原来2020改了规则,实际上统计的是11月1到11日的销量,理论上已经不能和历史数据合并预测,但咱们就为了图个乐,主要是为了练习一下 python 的多项式回归和可视化绘图。
把预测先发出来:今年双十一的销量是 9029.688 亿元!坐等双十一,各位看官回来打我的脸。
从网上搜集来历年淘宝天猫双十一销售额数据,单位为亿元,利用 pandas 整理成 dataframe,又添加了一列’年份int’,留作后续的计算使用。
import pandas as pd
# 数据为网络收集,历年淘宝天猫双十一销售额数据,单位为亿元,仅做示范
double11_sales = {'2009年': [0.50],
'2010年':[9.36],
'2011年':[34],
'2012年':[191],
'2013年':[350],
'2014年':[571],
'2015年':[912],
'2016年':[1207],
'2017年':[1682],
'2018年':[2135],
'2019年':[2684],
'2020年':[4982],
}
df = pd.dataframe(double11_sales).t.reset_index()
df.rename(columns={'index':'年份',0:'销量'},inplace=true)
df['年份int'] = [[i] for i in list(range(1,len(df['年份']) 1))]
df
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
利用 plotly 工具包,将年份对应销售量的散点图绘制出来,可以明显看到2020年的数据立马飙升。
# 散点图
import plotly as py
import plotly.graph_objs as go
import numpy as np
year = df[:]['年份']
sales = df['销量']
trace = go.scatter(
x=year,
y=sales,
mode='markers'
)
data = [trace]
layout = go.layout(title='2009年-2020年天猫淘宝双十一历年销量')
fig = go.figure(data=data, layout=layout)
fig.show()
一元多次线性回归
我们先来回顾一下2009-2019年的数据多么美妙。先只选取2009-2019年的数据:
df_2009_2019 = df[:-1]
df_2009_2019
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
通过以下代码生成二次项数据:
from sklearn.preprocessing import polynomialfeatures
poly_reg = polynomialfeatures(degree=2)
x_ = poly_reg.fit_transform(list(df_2009_2019['年份int']))
1.第一行代码引入用于增加一个多次项内容的模块 polynomialfeatures
2.第二行代码设置最高次项为二次项,为生成二次项数据(x平方)做准备
3.第三行代码将原有的x转换为一个新的二维数组x_,该二维数据包含新生成的二次项数据(x平方)和原有的一次项数据(x)
x_ 的内容为下方代码所示的一个二维数组,其中第一列数据为常数项(其实就是x的0次方),没有特殊含义,对分析结果不会产生影响;第二列数据为原有的一次项数据(x);第三列数据为新生成的二次项数据(x的平方)。
x_
array([[ 1., 1., 1.],
[ 1., 2., 4.],
[ 1., 3., 9.],
[ 1., 4., 16.],
[ 1., 5., 25.],
[ 1., 6., 36.],
[ 1., 7., 49.],
[ 1., 8., 64.],
[ 1., 9., 81.],
[ 1., 10., 100.],
[ 1., 11., 121.]])
from sklearn.linear_model import linearregression
regr = linearregression()
regr.fit(x_,list(df_2009_2019['销量']))
linearregression()
1.第一行代码从 scikit-learn 库引入线性回归的相关模块 linearregression;
2.第二行代码构造一个初始的线性回归模型并命名为 regr;
3.第三行代码用fit() 函数完成模型搭建,此时的regr就是一个搭建好的线性回归模型。
接下来就可以利用搭建好的模型 regr 来预测数据。加上自变量是12,那么使用 predict() 函数就能预测对应的因变量有,代码如下:
xx_ = poly_reg.fit_transform([[12]])
xx_
array([[ 1., 12., 144.]])
y = regr.predict(xx_)
y
array([3282.23478788])
这里我们就得到了如果按照这个趋势2009-2019的趋势预测2020的结果,就是3282,但实际却是4982亿,原因就是上文提到的合并计算了,金额一下子变大了,绘制成图,就是下面这样:
# 散点图
import plotly as py
import plotly.graph_objs as go
import numpy as np
year = list(df['年份'])
sales = df['销量']
trace1 = go.scatter(
x=year,
y=sales,
mode='markers',
name="实际销量" # 第一个图例名称
)
xx_ = poly_reg.fit_transform(list(df['年份int']) [[13]])
regr = linearregression()
regr.fit(x_,list(df_2009_2019['销量']))
trace2 = go.scatter(
x=list(df['年份']),
y=regr.predict(xx_),
mode='lines',
name="拟合数据", # 第2个图例名称
)
data = [trace1,trace2]
layout = go.layout(title='天猫淘宝双十一历年销量',
xaxis_title='年份',
yaxis_title='销量')
fig = go.figure(data=data, layout=layout)
fig.show()
-
var gd = document.getelementbyid('e8ae9262-7d14-4b38-b661-fb79f13ff6a7');
var x = new mutationobserver(function (mutations, observer) {{
var display = window.getcomputedstyle(gd).display;
if (!display || display === 'none') {{
console.log([gd, 'removed!']);
plotly.purge(gd);
observer.disconnect();
}}
}});
// listen for the removal of the full notebook cells
var notebookcontainer = gd.closest('#notebook-container');
if (notebookcontainer) {{
x.observe(notebookcontainer, {childlist: true});
}}
// listen for the clearing of the current output cell
var outputel = gd.closest('.output');
if (outputel) {{
x.observe(outputel, {childlist: true});
}}
})
};
});