量化交易之机器学习篇 - 实现K近邻模型的两种方式


# 导入相关模块

import numpy as np

from collections import Counter
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.utils import shuffle


def load_data():
    iris = datasets.load_iris()

    # 打乱数据后的数据和标签
    X, y = shuffle(iris.data, iris.target, random_state=13)

    # 数据转换为 flout32 格式
    X = X.astype(np.float32)

    # 简单划分训练集和测试集, 训练样本 - 测试样本比例为 7:3
    offset = int(X.shape[0] * 0.7)

    X_train, y_train = X[:offset], y[:offset]
    X_test, y_test = X[offset:], y[offset:]

    # 将标签转换为竖向量
    y_train = y_train.reshape((-1, 1))
    y_test = y_test.reshape((-1, 1))

    return X_train, X_test, y_train, y_test


def compute_distances(X, X_train):
    """
    定义欧氏距离函数
    X: 测试样本实例矩阵
    X_train: 训练样本实例矩阵
    """

    # 测试实例样本
    num_test = X.shape[0]

    # 训练实例样本量
    num_train = X_train.shape[0]

    # 基于训练和测试维度的欧氏距离初始化
    dists = np.zeros((num_test, num_train))

    # 测试样本鱼训练样本的矩阵点乘
    M = np.dot(X, X_train.T)

    # 测试样本矩阵平方
    te = np.square(X).sum(axis=1)

    # 训练样本矩阵平方
    tr = np.square(X_train).sum(axis=1)

    # 计算欧式距离
    dists = np.sqrt(-2 * M + tr + np.matrix(te).T)

    return dists

def predict_labels(y_train, dists, k=1):
    """
    定义预测函数
    :param y_train: 训练集标签
    :param dists: 测试集与训练集之间的欧氏距离矩阵
    :param k: k值
    :return: 测试集预测结果
    """

    # 测试样本量
    num_test = dists.shape[0]

    # 初始化测试集预测结果
    y_pred = np.zeros(num_test)

    # 遍历
    for i in range(num_test):
        # 初始化最近邻列表
        closest_y = []

        # 按 欧式距离矩阵排序后取索引, 并用训练集标签按排序后的索引取值

        # 最后展平列表
        # 注意 np.argsort 函数的用法
        labels = y_train[np.argsort(dists[i, :])].flatten()

        # 取最近的k个值
        closest_y = labels[0:k]
        # 对最近的k个值进行计数统计
        # 这里注意 collections 模块中的计数器 Counter 的用法
        c = Counter(closest_y)

        # 取计数最多的那个类别
        y_pred[i] = c.most_common(1)[0][0]

    return y_pred



if __name__ == '__main__':
    # 导入 sklearn iris 数据集
    X_train, X_test, y_train, y_test = load_data()

    dists = compute_distances(X=X_test, X_train=X_train)

    y_test_pred = predict_labels(y_train=y_train, dists=dists, k=1)
    y_test_pred = y_test_pred.reshape((-1, 1))

    # 找出预测正确的实例
    num_correct = np.sum(y_test_pred == y_test)

    # 计算分类准确率
    accuracy = float(num_correct) / X_test.shape[0]
    print('KNN Accuracy based on NumPy: ' + str(accuracy))


    # 用五折交叉验证寻找最优 k值
    # 五折
    num_folds = 5

    # 候选 k 值
    k_choices = [1, 3, 5, 8, 10, 12, 15, 20, 50, 100]
    X_train_folds = []
    y_train_folds = []

    # 训练数据划分
    X_train_folds = np.array_split(X_train, num_folds)

    # 训练标签划分
    y_train_folds = np.array_split(y_train, num_folds)
    k_to_accuracies = {}

    # 表里所有候选k值
    for k in k_choices:
        # 五折遍历
        for fold in range(num_folds):
            # 为 传入的训练集单独划分出一个验证集作为测试集
            validation_X_test = X_train_folds[fold]
            validation_y_test = y_train_folds[fold]
            temp_X_train = np.concatenate(X_train_folds[:fold] + X_train_folds[fold+1:])
            temp_y_train = np.concatenate(y_train_folds[:fold] + y_train_folds[fold+1:])

            # 计算距离
            temp_dists = compute_distances(X=validation_X_test, X_train=temp_X_train)
            temp_y_test_pred = predict_labels(temp_y_train, temp_dists, k=k)
            temp_y_test_pred = temp_y_test_pred.reshape((-1, 1))

            # 查看分类准确率
            num_correct = np.sum(temp_y_test_pred == validation_y_test)
            num_test = validation_X_test.shape[0]
            accuracy = float(num_correct) / num_test
            k_to_accuracies[k] = k_to_accuracies.get(k, []) + [accuracy]


    for k in sorted(k_to_accuracies):
        for accuracy in k_to_accuracies[k]:
            print(f'k = {k}, accuracy = {accuracy}')


    # 打印不同k值, 不同折数下的分类准确率
    for k in k_choices:
        # 取出第k个k值的分类准确率
        accuracies = k_to_accuracies[k]

        # 绘制不同k值下分类准确率的散点图
        plt.scatter([k] * len(accuracies), accuracies)

    # 计算分类准确率均值并排序
    accuracies_mean = np.array([np.mean(v) for k, v in sorted(k_to_accuracies.items())])
    # 计算分类准确率标准差并排序
    accuracies_std = np.array([np.std(v) for k, v in sorted(k_to_accuracies.items())])

    # 绘制有质询区间的误差棒图
    plt.errorbar(k_choices, accuracies_mean, yerr=accuracies_std)

    # 绘图标题
    plt.title('Cross-validation on k')

    # x轴标签
    plt.xlabel('k')

    # y轴标签
    plt.ylabel('Cross-validation accuracy')
    plt.show()

if __name__ == '__main__':
    # 导入 KNeighborsClassifier 模块
    from sklearn.neighbors import KNeighborsClassifier

    # 创建 k近邻实例
    neigh = KNeighborsClassifier(n_neighbors=10)

    # k 近邻模型拟合
    neigh.fit(X_train, y_train)

    # k 近邻模型预测
    y_pred = neigh.predict(X_test)

    # 预测结果数组重塑
    y_pred = y_pred.reshape((-1, 1))

    # 统计预测正确的个数
    num_correct = np.sum(y_pred == y_test)

    # 计算分类准确率
    accuracy = float(num_correct) / X_test.shape[0]
    print(f'KNN Accuracy based on sklearn: {accuracy}.')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/759212.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Oracle篇】逻辑备份工具expdp(exp)/impdp(imp)和物理备份工具rman的区别和各自的使用场景总汇(第八篇,总共八篇)

💫《博主介绍》:✨又是一天没白过,我是奈斯,DBA一名✨ 💫《擅长领域》:✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌️…

基于局域网下的服务器连接、文件传输以及内网穿透教程 | 服务器连接ssh | 服务器文件传输scp | 内网穿透frp | 研究生入学必备 | 深度学习必备

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌本篇博客分享的是基于局域网下的服务器连接🔗、文件传输以及内网穿透教程,内容非常完备✨,涵盖了在服务器上做深度学…

目标检测常用涨点方法:注意力机制小结(空间注意力、通道注意力、CBAM等)

1.通道注意力 通道注意力(Channel Attention)是在通道维度上对输入数据进行学习,再对不同的通道分配相应的权重表示重要性,从而达到“分配注意力”的效果。SENet(Squeeze and Excitation networks) 是一个典型的使用通…

J020_二分查找算法

一、查找过程 使用二分查找算法有一个必要的前提:数组已经是一个排好序的数组。 以下面数组为例,讲述二分查找过程: 二、代码实现 package com.itheima.sort;public class BinarySearch {public static void main(String[] args) {int[] a…

STM32第十三课:DMA多通道采集光照烟雾

文章目录 需求一、DMA(直接存储器存取)二、实现流程1.时钟使能2.设置外设寄存器地址3.设置存储器地址4.设置要传输的数据量5.设置通道优先级6.设置传输方向7.使通道和ADC转换 三、数据处理四、需求实现总结 需求 通过DMA实现光照强度和烟雾浓度的多通道…

VQVAE:Neural Discrete Representation Learning

论文名称:Neural Discrete Representation Learning 开源地址 发表时间:NIPS2017 作者及组织:Aaron van den Oord,Oriol Vinyals和Koray Kavukcuoglu, 来自DeepMind。 1、VAE 简单回顾下VAE的损失函数,ELBO的下界为: …

单晶层状氧化物制作方法技术资料 纳离子技术

网盘 https://pan.baidu.com/s/1hjHsXvTXG74-0fDo5TtXWQ?pwd10jk 单晶型高熵普鲁士蓝正极材料及其制备方法与应用.pdf 厘米级铬氧化物单晶及其制备方法和存储器件.pdf 多孔氧化物单晶材料及其制备方法和应用.pdf 大单晶层状氧化物正极材料及其制备方法和应用.pdf 富钠P2相层状…

3DMAX折纸插件FoldPoly使用方法详解

3DMAX折纸插件FoldPoly使用教程 3DMAX折纸插件FoldPoly,用于挤出可编辑多边形的边(边界)并可旋转(折叠)新生成的面,创建类似手工折纸以及纸箱包装盒的建模效果。 【版本要求】 3dMax2014 - 2025&#xff…

线性代数|机器学习-P20鞍点和极值

文章目录 1 . 瑞利商的思考1.1 瑞利商的定义1.2 投影向量 2. 拉格朗日乘子法3. 鞍点 1 . 瑞利商的思考 1.1 瑞利商的定义 假设A是n阶实对称矩阵,x是n维非零列向量,那么瑞利商表示如下: R ( A , x ) x T A x x T x \begin{equation} R(A,x…

嵌入式学习——硬件(ARM内核汇编指令)——day52

ARM汇编指令 学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表;初…

前端学习 Vue 插槽如何实现组件内容分发?

目录 一、Vue.js框架介绍二、什么是Vue 插槽三、Vue 插槽的应用场景四、Vue 插槽如何实现组件内容分发 一、Vue.js框架介绍 Vue.js是一个用于构建用户界面的渐进式JavaScript框架。它设计得非常灵活,可以轻松地被集成到现有的项目中,也可以作为一个完整…

Redis-实战篇-缓存击穿问题及解决方案

文章目录 1、缓存击穿2、常见的解决方案有两种:2.1、互斥锁2.2、逻辑过期2.3、两种方案对比 3、利用互斥锁解决缓存击穿问题3.1、ShopServiceImpl.java3.2、使用 jmeter.bat 测试高并发 4、利用逻辑过期解决缓存击穿问题 1、缓存击穿 缓存击穿问题 也叫 热点key问题…

半个月从几十升粉到500(发红包喽)

目录 1. 背景2. 涨粉秘籍2.1 持续创作高质量内容2.1.1 保持频率2.1.2 技术文章为主2.1.3 图文并茂 2.2 积极参与社区活动2.2.1 社区分享2.2.2 发文活动 2.3 互动与建立信任2.3.1 与读者互动2.3.2 红包互动2.3.3 动态分享 2.4 标题与内容的优化2.4.1 标题吸引2.4.2 内容实用 2.5…

【C++】C++ 超市会员卡管理系统(面向对象)(源码+数据)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

【从零开始学架构 架构基础】五 架构设计的复杂度来源:低成本、安全、规模

架构设计的复杂度来源其实就是架构设计要解决的问题,主要有如下几个:高性能、高可用、可扩展、低成本、安全、规模。复杂度的关键,就是新旧技术之间不是完全的替代关系,有交叉,有各自的特点,所以才需要具体…

解决idea中git无法管理项目中所有需要管理的文件

点击文件->设置 选择版本控制—>目录映射 点击加号 设置整个项目被Git管理

springboot助农电商系统-计算机毕业设计源码08655

摘要 近年来,电子商务的快速发展引起了行业和学术界的高度关注。基于移动端的助农电商系统旨在为用户提供一个简单、高效、便捷的农产品购物体验,它不仅要求用户清晰地查看所需信息,而且还要求界面设计精美,使得功能与页面完美融…

【GPU虚拟化到池化技术深度分析 2024】

文末有福利! 随着大模型的兴起,对GPU算力的需求越来越多,而当前现实情况使企业往往受限于有限的GPU卡资源,即便进行了虚拟化,往往也难以充分使用GPU卡资源或持续使用资源。为解决GPU算力资源不均衡等问题,…

国标GB/T 28181详解:国标GBT28181-2022第三方呼叫控制的视音频文件下载流程

目录 一、定义 1、国标GB/T 28181 2、第三方呼叫控制的视音频文件下载流程 二、作用 1、提供有效的数据回顾机制 2、增强监控系统的功能性 3、保障数据传输与存储的可靠性 4、实现精细化的操作与控制 5、促进监控系统的集成与发展 6、提供清晰的信令流程和操作规范 三…

驱动开发:配置Visual Studio驱动开发环境

100编程书屋_孔夫子旧书网 配置驱动开发环境配置驱动开发模板配置驱动双机调试 在正式开始驱动开发之前,需要自行搭建驱动开发的必要环境,首先我们需要安装Visual Studio 2013这款功能强大的程序开发工具,在课件内请双击ISO文件并运行内部的…