Fu Xiaohang

GoogleStyleGuide

谷歌编程风格指南

1 Java Google Java Style Guide Alibaba Java开发手册 1.1 命名 类:大驼峰 Book BookList 包:全小写+无下划线 com.nju.booklist 常量:全大写+下划线 NUMBER EMPTY_ARRAY 其他:小驼峰 stop sendMessage 1.2 换行/空行 大...

WebSpider

爬虫

1 爬虫 1.1 原理 (1)发送GET请求,获取HTML; (2)解析HTML,获取目标信息; (3)存储数据; (4)重复第一步 1.2 工具 Requests:HTTP库,可以进行GET POST等 Selenium:可以定位页面中的各种元素,如输入框、按钮等,进行模拟登录等操作,可以先通过Selenium到所需网页,然后用Beauti...

DataMining

数据挖掘

  数据挖掘是从数据集中挖掘有价值的信息,数据采集仅仅是数据挖掘的第一步,后面还要进行数据清理和预处理,以及下面各项算法的挖掘等等。 1 数据仓库 1.1 与数据库的对比   数据库主要侧重于日常事务的处理,如银行的交易,账号的登录等等,主要应用OLTP(联机事务处理);而数据仓库侧重于对大量历史数据进行分析做出决策,主要应用OLAP(联机分析处理)。数据仓库的数据来源于多个数...

NLP

自然语言处理基础

1 Segment(分词)   分词主要是对中文的,因为英文词单词之间有空格。 1.1 最大匹配法 1.1.1 FMM(正向最大匹配)   Forward Maximum Matching,从左往右取词,取词初始长度为词典中最长单词的长度,每次右边减一个字,直到在词典中匹配或剩下1个单字,如rollingstoneapps,设词典中最长单词的长度为8,则匹配顺序如下, ro...

MachineLearning

机器学习和深度学习

1 机器学习 1.1 分类 1.1.1 Logistic 1.1.2 KNN https://zhuanlan.zhihu.com/p/25994179 1.1.3 NaiveBayes   朴素贝叶斯算法是基于贝叶斯公式的,即在已知特征值的情况下,计算某一类的概率, \(P(类别|特征)=\frac{P(特征|类别)P(类别)}{P(特征)}\) 左边直接求是不好求的,...

BigData

大数据相关组件的原理和架构

1 HDFS   Hadoop分布式文件系统。HDFS集群有1个NameNode(管理节点,其实还有几个StandBy的用于备份)和多个DataNode(工作节点)。NameNode管理文件系统的命名空间和编辑日志,维护系统文件树,DataNode存储数据。HDFS有数据分块(block),默认128MB,文件被划分为多个128MB的分块,小于128MB的只占实际大小,而不是128MB。数据...

Hello World

GitHub博客的开始

  之前的博客一直放在阿里云的服务器上,这次服务器马上到期了,而且服务器内存有点小,索性直接把博客搬到GitHub上来了。图床也放在了Github上,有时图片会显示不出来。   自从研一上开始用Markdown记笔记后,逐渐上瘾,越来越喜欢用Markdown写东西,开了好多坑,部分博客还没写完,一些知识点等用到了再去学和写。

计算机类竞赛经验分享

写在保研后的经验贴II

有哪些计算机类竞赛 程序设计类竞赛(算法类竞赛) 项目应用类竞赛 数学建模类竞赛 程序设计类竞赛(算法类竞赛)        这类竞赛主要是使用各类算法,在规定的实际内(多为3~5小时)解出数道题目(多为4~8道),且使用的算法有时间长度限制,否则会超时,这类竞赛主要有: ACM-ICPC国际大学生程序设计竞赛 CCPC中国大学生程序设计竞赛 CCF CC...

2020计算机保研经验贴

写在保研之后的经验贴

基本信息 学校:某211 英语:四级545,六级462 论文:一篇CCF C类期刊 项目:一项国家级大创主持人 竞赛:蓝桥杯省二,中国高校计算机大赛省三,军事建模国一,还有几个比较水的算法赛的一等奖 入营情况 南大软院,夏令营候补,最终补录 浙大软院,预推免,未通过 华科网安,预推免通过 哈深,预推免,机试被刷 西交软院,夏令营优营 成电...