手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
薛恨这辈子最看不上贺钦这样的人:含着金汤匙出生,看谁都是一副死人脸,私底下心眼比谁都多,有事没事还爱找自己的麻烦。 贺钦这辈子最讨厌薛恨这样的人:恃靓行凶,嘴巴极贱,任谁给点小恩小惠都能让他做牛做马,毫无下限。 大学四年,他们彼此打过数不清的架。 大学毕业后,他们一个是天一个是地,本来不该再有交集。 大学毕业两年后,薛恨的白月光传来婚讯。“心死了”的薛恨跑去酒吧买醉,却不慎中了药。 千钧一发之际,贺三少从天而降将人截胡,并屈尊降贵,亲自为薛恨解了一晚上的药。 第二天醒来,薛恨对着贺钦拳打脚踢,并成功将自己揍进了医院里。 这下梁子结大了。...
第一个世界情满四合院,余欢水,小舍得,三十而已等......
姜善是个心善的人,有一年夏天,他救了一个快要死的人。 云献自认是个知恩图报的人,人家救了他,他就一定要以身相许。 姜善:······倒也不必 ----- 云献一生无数光鲜亮丽的时刻,偏偏在最狼狈的时候遇见了姜善。 姜善人如其名,半生隐忍良善,直到遇见云献。云献一句话,一个笑,轻而易举的便勾起了他所有的欲求与嗔怨。 ----- 白切黑戏精绿茶攻&清冷人妻好脾气受 攻有点病病的,是个坏东西 云献是攻,姜善是受 披着权谋的皮认认真真谈恋爱的故事 互宠,细水长流的日常爱情故事,很甜 避雷:受是太监 文笔一般逻辑差,经不起考究 不喜欢可以不看,但是不要骂我...
《折桂令gl》折桂令gl目录全文阅读,主角是颜清悦小九小说章节完整质量高,包含结局、番外。?书名:折桂令gl??swyc????独家更新网站:dj作者:羊阿白标签:原创小说、gl、大长篇、完结、古代、he、小甜饼、宫廷侯爵简介:相府千金非要嫁给我怎么办!萧瑾瑜(萧衍)本想做一个不务正业的闲散王爷,却被迫拉扯进争权夺位的风暴之中。一次闹剧,没想到是一场阴谋的开始。...
人在斗破,稳健发育。没有系统,天赋流。对萧炎不刻意针对,不开后宫,合理谋取机缘。黑日天灾,桀桀桀~...
来生!不来了!情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,来生!不来了!-无心老鬼-小说旗免费提供来生!不来了!最新清爽干净的文字章节在线阅读和TXT下载。...