中文啦

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
我能看穿万物信息

我能看穿万物信息

重生到一个异世界无名山村里的贫寒少年身上,陆青表示很无奈。好在觉醒了一个能够看穿物品信息的异能,让他有了点生存的资本。他看向路边的一株杂草。【牛骨草,品质一般,可药用,治疗骨伤颇有疗效。】看向河里一味红色鲤鱼。【红月鲤,品质上佳,肉质鲜美,乃滋补上品。】看向山里的一只野兔。【灰兔,普通野兔,可食用。】……凭借着自带的异能,陆青在村庄里逐渐站稳了脚跟,能够生存下去。就在他以为,自己将在这个生产力低下的古代世界中,安稳度过一生的时候。有一天,他忽然看到,天上一道身影飞掠而过……...

世子你别乱来

世子你别乱来

大宁王朝百年,天子病重,太子监国,朝中宦官当道,把持朝政。江湖动荡,南北藩王并立,威胁皇权,虎视眈眈。恰逢临王世子外出巡游,遭埋伏身死!林江年从破庙中醒来,便有神秘红衣女子逼他假冒刚遇害的临王世子。为了活命,林江年不得不深入临王府,装世子,娶公主,打皇子……小心翼翼,如履薄冰的伪装成一名合格的纨绔世子!——————————非权谋,披着武侠架空背景下的轻松日常感情文...

羽化飞仙

羽化飞仙

成仙路途多寂寥,白云苍狗谁知晓。岁月悠悠,红尘嚣嚣。道如何,魔亦如何….吾唯有一问:“可能羽化登仙”!......

给神仙郎君冲喜

给神仙郎君冲喜

外乡青年重伤昏迷,烧毁的容貌焦黑仿佛恶鬼,随行仆从悬赏五十两白银,寻找愿意给主人冲喜的夫郎。    阮祺是家中最不受宠的哥儿。  阿娘改嫁,阿爹将他赶出家门,唯一肯照顾他的大伯,也因重病无钱医...

春棠欲醉

春棠欲醉

春棠欲醉情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的科幻小说小说,春棠欲醉-锦一-小说旗免费提供春棠欲醉最新清爽干净的文字章节在线阅读和TXT下载。...

冬日炽野

冬日炽野

【外热内冷敏感疯批赛车手x脾气火爆总裁姐姐】在云城,一个无人在意的角落里,虞棠和她的小狗紧紧相拥。“我相信你。”她只说了这四个字。虞棠知道周慎野可以很快振作起来,他对目标从来很坚定。更重要的是,他相信,在赛场上不管输了多少次,在她心中,他永远是胜者。周慎野装着可怜兮兮的样子,看着虞棠的眼睛。“你可以给我点安慰吗?”“你想要什么?”周慎野身体往前探,双唇擦过她的耳垂,“当然是,要姐姐呀……”虞棠以前根本想象不到,一个赛车手的体力怎么会那么好。“姐姐,感觉到我了吗?”……“姐姐,你可以出声的。”……“姐姐,你到了……”...