[论文][WWW'12]for Fun and Profit(1)

2012年4月17日 how2 没有评论

WWW 2012会议关于Security的论文有两篇的题目都用了“for Fun and Profit”(老用这词是不是不够有新意啊,呵呵),就一起看看,摘要一下。
(1)Analyzing Spammers’ Social Networks for Fun and Profit: A Case Study of Cyber Criminal Ecosystem on Twitter Chao Yang, Robert Harkreader, Jialong Zhang, Seungwon Shin, Guofei Gu
(2)Serf and Turf: Crowdt[......]

继续阅读

Linux中Python调用中文分词包ICTCLAS2012

2012年4月4日 how2 1 条评论

前面调用中文分词包都是Java代码,我更习惯用Python写代码,而且对于文本内容的预处理,使用Python更方便,因此希望找到一个Python中调用中文分词包ICTCLAS2012的方法。在网上看到这2篇“将ictclas写为python模块(1)“、“将ictclas写为python模块(2)“,使用boost.python很方便的实现的上述需求。针对ICTCLAS2012对上文提供的代码进行了一点修改,记录一下备忘。
首先安装boost.python开发包 apt-get install libboost-python-dev
其次,在ICTCLAS2012的源文[......]

继续阅读

常见中文分词包及其调用方法

2012年4月4日 how2 没有评论

最近被人问到如何中文分词,虽然前面项目用过,不过自己没有直接写程序。这两天放假看了看,记录下来备忘。分为基于Lucene的分词和直接调用分词软件两种方法。
1)基于Lucene
基于Lucene的分词,除了自带的StandardAnalyzer外,常用中文分词程序有imdictik-analyzermmseg4jpaoding 等。此外,还有JE 等现在不再维护的。各种方法特点不同,可根据需要使用。这篇“Lucene中文分析器的中文分词准确性和性能比较”给了比较,这篇“Lucene中文分词器比较”附带一个可用的测试程序,不过我在测试时发现在Lucene 3.5下调用paoding时报错。[......]

继续阅读

当密码变成明码

2011年12月25日 how2 1 条评论

这几天密码满天飞,大范围流传的一些网站用户数据库,其中影响比较大的是CSDN的600W和天涯的4000W,这两个都是明文密码,虽然说md5的密码也不一定安全,但总好过明文,至于这些网站为什么用明文保存,就很难说了。
这些数据流出不是一天两天,此时爆出不知道是何用意,而最早在乌云上曝这些库的@臭小子 也惹得一身麻烦,因为@笨猪说得好:“库这个东西就像内裤,你可以有,但不必在大庭广众之下证明你有。”[哈哈]
不过,从另一个角度来看,这也未必是一件坏事,且不说有通过ilove***的密码表白的八卦,至少能找到几个遗忘多年的帐号密码,呵呵。实在说,如果这些库不被大范围传播,很多人也许不会意识到自[......]

继续阅读

分类: Uncategorized 标签:

支持Python编程接口的开源数据挖掘软件Orange

2011年10月29日 how2 1 条评论

如果熟悉Java,考虑数据挖掘时通常会想到Weka,加上Ian H. Witten写的那本Data Mining: Practical Machine Learning Tools and Techniques有中文版, 所以用的人比较多。最近想用Python处理一下数据,想找个用能用Python编程的数据挖掘软件。在之前转的那篇 《五个开源数据挖掘软件》 里提到开源数据挖掘软件 Orange,@IDMer编译的这篇 《开源的数据挖掘工具》 中对几种开源软件进行了更详细的介绍和比较。Orange的特点是界面友好易于使用,提供大量可视化方法,提供Python编程接口,于是决定试用一下。
网上可[......]

继续阅读

人工智能、机器学习、数据挖掘及模式识别

2011年9月26日 how2 1 条评论

数据挖掘、机器学习及人工智能这几个词经常混在一起出现,尤其是数据挖掘和机器学习,更是容易被混为一谈,容易把人搞晕。这里试图简单区分一下这几个概念。
人工智能(AI,Artificial Intelligence),也称作机器智能,是指由人工制造出来的系统所表现出来的智能。其历史源远流长,而现代意义上的AI始于古典哲学家用机械符号处理的观点解释人类思考过程的尝试。20世纪40年代基于抽象数学推理的可编程数字计算机的发明使一批科学家开始严肃地探讨构造一个电子大脑的可能性[1-2]。简单来说,希望能够使一个系统具有接近人类的智能,但这从目前来看还做不到,不过在某些具体领域,还是取得一定进展,例如19[......]

继续阅读

Microsoft Academic Research的几个很赞的功能

2011年8月16日 how2 1 条评论

搜索学术论文的时候,经常用到Google/Google Scholar,前面也提到Microsoft也有类似的Academic Research可做替代。不过前两天Google又莫名被墙,只好转而用Bing,却发现了Academic Research有几个很赞的功能。
1)Search 一个会议简写(如ICDCS)的时候,发现Bing在第一个结果中给出了Microsoft Academic Search对ICDCS的统计和简介,以及ICDCS’11的网址,当然,其后Bing给出的搜索结果是ICDCS’10的网址,而Google则是直接返回ICDCS’11的网[......]

继续阅读

[论文][ICDCS'11]Location Cheating:我思故我在?我想我就在!

2011年8月13日 how2 没有评论

LBS(Location Based Service)发展迅猛,如国外的foursquare,国内的街旁等,如果你到某个地方并Check-in,可以“当地主,赢勋章,得折扣”。如果我没时间去又想要折扣呢,可以看ICDCS’11上的这篇论文。
Location Cheating: A Security Challenge to Location-based Social Network Services
Mai Ren, Wenbo He and Xue Liu
作者的基本思路是通过程序提交作者设定地点的位置信息(如星巴克咖啡)给服务器,这样程序就会自动帮我们在星巴克Check-in[......]

继续阅读

使用python的PIL处理图片,matplotlib绘制图形

2011年7月30日 how2 没有评论

说起Image来,可以翻译为图像/图片/图形,这里翻译为图片,具体来说是指内容已存在的图片,PIL(Python Imaging Library)就是对图片进行处理的包。PIL可以方便对图片进行翻转,缩放,颜色变换等处理,支持多种图片格式,还提供多种滤镜,虽然还比不上PS,完全可以用来对照片进行一些特效处理。
下面是一个简单产生缩略图的例子。
import Image
# 指定新的尺寸
width = 200
height = 180
# 原始图片文件
imageFile = “sample.png”

try:
im = Image.open(imageFile)
# 选择 [......]

继续阅读

分类: Program, Python 标签: , , ,

简介NetworkX: 用来可视化、分析复杂网络的Python包

2011年7月29日 how2 没有评论

NetworkX 可用在计算机网络,社会网络,生物等多个领域,来自NetworkX 官方网站的介绍:
NetworkX is a Python package for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.
可以看到,NetwrokX 可以帮助我们创建、处理、研究 复杂网络的 结构、动力学和功能。即NetworkX对复杂网络数据处理以后,我们可以用来画图实现对网络的可视化,也可以对网络进行一些基于图的分析。下面是一个用NetworkX[......]

继续阅读