看見未來

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0
打印 上一主題 下一主題

新的持久化到内存以亿条样

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
跳轉到指定樓層
樓主
發表於 2024-5-15 11:38:29 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
策略二:使用[[]]类型来缓存当前样本隶属于每棵树的哪个节点(例如训练棵树,则创建长度为的数组,每一个元素记录了此条样本在对应下标的树模型中的叶节点编号)从源代码中我们发现,策略二每一轮迭代都会卸载上一轮持久化的,再创建一个本棵树的森林举例,每一轮迭代就是亿个长度为的数组的创建与垃圾回收


实际测试中我们也发 科威特手机号码列表 现策略二的效率不如方案一高那么策略一又如何呢?F在每一轮迭代中能够训练的最大节点数由x控制,我们希望通过增大这个参数来减少迭代次数但随着树或树深的增加,往往陷入增大该参数就导致树模型广播到w溢出的尴尬境地经过对F源码分析,我们发现每个都会存储当前节点、左子节点、右子节点的直方图,最终实现在一套通用框架下计算出每个节点的增益、纯度、预测值等等属性,但这导致了倍的内存占用




考虑到因果森林原则,叶节点值的计算使用,因此生长过程中每个节点全都带着w的直方图是完全没有意义的因此我们优化了树的生长逻辑,每个节点仅保留自身的直方图,对于已分裂的节点则清除直方图以二叉满树为例,叶节点约占整棵树节点的,结合直方图从倍冗余到倍存储,这一优化使树模型直方图的内存占用下降到原本的6,极大降低了模型体积

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|看見未來  

GMT+8, 2025-4-21 02:50 , Processed in 0.828590 second(s), 21 queries .

抗攻擊 by GameHost X3.1

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |