Naive


  • 首页

  • 归档

  • 标签

Python源码剖析笔记——对象初探

发表于 2017-02-27

笔记说明

该笔记是对《Python源码剖析》学习过程的记录,这本书有点老了,源码是2.5版本的。由于阅读的时候比较仓促,并没有与目前2.7的源码做比较,里面的一些细节可能过时了。
该笔记以整体概念的记录和梳理为主,忽略了书中的一些实现细节的介绍。

基本概念梳理

PyObject

Python中所有的东西都是对象,所有的对象都拥有一些相同的内容,这些内容定义在PyObject中

1
2
3
typedef struct _object{
PyObject_HEAD
} PyObject;

阅读全文 »

ubuntu16.04+CUDA+Tensorflow+Keras环境搭建

发表于 2016-12-20

ubuntu安装环节略过,另外系统安装后记得更新下Nvidia的驱动

实验环境

系统:ubuntu 16.04
显卡:GTX 1060 6G
python环境:python2.7 (已安装Anaconda4.2)

阅读全文 »

fastText文本分类实践

发表于 2016-09-26

背景

前不久facebook开源了一个fastText工具,最近在网上传的挺火。
相关论文:
[1] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information
[2] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
第一篇还没看,粗读了第二篇,fastText使用的模型和word2vec的模型确实很相似,论文中对模型的描述比较少(可能大牛觉得模型太简单了..)
论文给的实验结果来看也很漂亮,性能上比较了几个复杂的模型,准确率很相近,训练时间是一大亮点。
不过网上对该论文的评价不是很高,可能因为论文整体好像没有多少创新吧,我这样的菜鸡读过后的感觉就是简化了已有的模型跑出了不错的效果。
由于看起来性能和训练时间确实都不错,还是决定拿来跑一下。

阅读全文 »

机器学习中改进模型的方法

发表于 2016-09-17

在Coursera机器学习的第六周课程中,讲到了如何去改进模型,
这也是自己在学习实践中比较困惑的一块内容。因此做个学习记录。


首先Andrew Ng给出了6个常用改进方法
1.Get more training examples, 适用于高方差的情况
2.Try smaller sets of features, 适用于高方差
3.Try getting additional features, 适用于高偏差问题
4.Try adding polynomial features, 类似于上一点,适用于高偏差
5.Try decreasing λ, 适用于高偏差
6.Try increasing λ, 适用于高方差

阅读全文 »

一道面试题:扔玻璃球

发表于 2016-09-16

前些天很多研三的师兄在刷线上的笔试题,看到腾讯的一道简答题,挺有意思的。
当时没想明白,事后查了一下网上的资料,自己又重新思考了一下。这道题之前似乎被很多公司用过。
这道题网上有很多的解析,但是几乎都是复制来复制去,完全相同的方法思路。不得不说这是一种互联网信息的病态。

阅读全文 »

使用python合并pdf文件

发表于 2016-09-05

当需要合并pdf文件的时候才发现很多pdf软件好像并没有提供这个功能,虽然Acrobat是有的…
干脆搜索了下,果然python有支持pdf编辑的库PyPDF2

阅读全文 »

Python在MySQLdb中使用存储过程

发表于 2016-08-14

起因是为了创建dif词典集,文本中不重复词有18万多(讲道理18W也不是很多呀(╯‵□′)╯︵┻━┻…),但是执行过程非常慢,因为每个词在文档中的出现次数都是通过数据库中查询得到的,意味着要进行18W次查询,于是想试试用存储过程能不能提高速度。
结果在调用存储过程的时候遇到了问题…(最近经常遇到些奇奇怪怪的问题…)

阅读全文 »

python的MySQLdb中使用utf8mb4编码遇到的问题

发表于 2016-08-08

今天在导入微博文本到mysql的时候遇到了emoji字符,导致数据插入出错的情况。
查了一下是因为mysql中的utf8只支持3个字节,emoji和少部分不常用汉字则是4字节的。据说是在mysql5.5开始的版本中支持了utf8mb4编码类型来应对这种4字节的uft8编码。

阅读全文 »

机器学习中的归一化和正则化

发表于 2016-08-04

归一化和正则化在机器学习中是两个完全不同的概念,之所以把他们放在一篇文章里是因为网络上不少文章经常混淆概念的使用这些词。
经常在一些文章中提到归一化和正则化,网上有些文章中会替换使用归一化和正则化的翻译,自己在学习的过程中也一度误解了,故今天花时间整理了一下。
查了几本书中的翻译,一般将Regularization译为正则化。Normalization一般则译为归一化,另外还有Standardization译为标准化,有的地方对归一化和标准化没有做详细区分,我目前的理解是Standardization是一种特殊的Normalization。

阅读全文 »

ubuntu下使用pptpd搭建VPN Server

发表于 2016-06-29

由于之前用ss搭建的出校器没有预期的好用,主要还是ss不方便配置全局,路由器上的ss又不走udp,导致这几天一直在折腾实验室的网络
今天尝试了下用pptpd搭VPN Server,搭VPN的方法很多,据说pptpd比较简单,所以选择了它
网上的资料比较多,基本按网上的步骤操作,主要只是为了记录一下过程

阅读全文 »
123
czs0x55aa

czs0x55aa

21 日志
6 标签
GitHub ZhiHu Gmail
© 2017 czs0x55aa
由 Hexo 强力驱动
主题 - NexT.Gemini