本科生毕业论文

注册

 

发新话题 回复该主题

专访经历了时间检验的不仅是论文,还有唐杰 [复制链接]

1#
KDD即将在8月23-27日召开。而近日,SIGKDD官方推特也公布了本年度的各种奖项,其中清华大学教授、智源研究院学术副院长唐杰团队获得了ACMSIGKDD时间检验应用科学奖!获奖论文为唐杰等人在SIGKDD发表的论文《ArnetMiner:extractionandminingofacademicsocialnetworks》。

事实上,这并不只是一篇经历时间检验的论文。ArnetMiner(或AMiner),全称AcademicResearchNetworkMiner,即“学术研究网络挖掘平台”。从年起,唐杰便开始了该系统的研制,当时他还是一个博士生,所有程序只是在一台台式机上运行的demo;然而历经15年的打磨,如今该平台已经是上百人维护、数十台服务器运行的大型人才咨询、技术分析、学术查询的平台,而唐杰也已经成为数据挖掘领域的领*人物。

一个人,一个项目,一辈子,做到顶天立地。

与其说是时间检验论文,不如说是时间检验唐杰。唐杰教授曾多次向笔者表示,做研究最重要的就是专注,“做一件事情,就要把这事情做深做透,而不要在意别人怎么看、怎么说”。十多年来,唐杰每天凌晨2点睡觉,绝大多数时间泡在实验室中,几无中断;领域研究热点潮涨潮落,而他,研究的中心始终是AMiner系统。时间在变,而唐杰不变。这份专注,毫不客气地说,国内少有。

唐杰,清华大学计算机科学与技术系长聘教授,计算机系副主任,智源研究院学术副院长,清华-工程院知识智能联合实验室主任,国家杰青。研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱。发表论文余篇,拥有专利20余项。主持研发了研究者社会网络挖掘系统AMiner,吸引了个国家/地区多万独立IP访问。

作者:智源社区贾伟

智源:恭喜获得SIGKDD时间检验奖。我们注意到你在这方面的工作从年就已经开始了,截止到现在AMiner的研发时间差不多已经有14年了。所谓十年磨一剑,如今你已经将这个平台产业化。我们想借着这样一个机会了解一下Aminer这个平台的发展历程。首先,能不能介绍一下AMiner是什么?

唐杰:AMiner原本的名字叫ArnetMiner,因为我是做数据挖掘的,我们这个领域有位资深的教授,叫韩家炜,他比较喜欢用Miner这个词,当时我刚加入到数据挖掘这个领域,读过他的文章后,就想做一个什么Miner,这是名字后半部分的来源。前半部是AcademicResearchNETwork的缩写。所以整体上的意思是“学术研究网络挖掘”。后来仍觉得太长,就直接缩写为AMiner了。

从功能上来说,我们在年设计时的想法就是,给一个学者名字,这个程序能够自动从互联网上把相关的信息(例如主页、照片、E-mail地址、论文等)给抓过来,并呈现出来。最开始的功能就是这么简单。当然,经过这么多年,它的功能慢慢丰富了起来,例如怎么把相同名字的人区分开来,以及把项目、专利以及其他更多信息都汇聚过来。有了这些数据,我们可以在里面做更多深度的挖掘,可以挖掘技术的脉络,然后用来服务*府、企业等。举例来说,企业要做一个新的产品研发,他可以用这种技术来挖掘这个领域里面的技术脉络,以及有哪些竞争对手等。这个时候,AMiner就变成了一个可以面向公众、面向科研界以及面向企业和*府的服务性产品。

智源:所以本质上来说,Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么?

唐杰:最开始的时候,是我写的程序,就在我们笔记本上跑。当时就是给定一个人名名单,名单是哪来呢?我最开始是从DBLP上把人名全抽出来,大概有多万人名。有了名单之后,就去谷歌上搜索,谷歌会返回很多与这个人相关的页面;然后我做了一个分类器,去判断哪个页面是他的主页,分类器能做到90%多的精度,这也是我们发表的那篇文章中一个核心技术点;自动找到主页网址后,我编写一个程序把主页打开,用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列,进行统计学习。针对这些数据,我们也标注了一个包含几千个训练样本的数据,从而建立一个模型。最开始就完全是用这种方式自动抽取。

后来我们发现一个问题,有学者反馈说,你显示我的信息还是讲师,但我现在已经是教授了,这种信息变迁怎么办?于是我们后来也允许用户自己修改,变成自动抽取+用户修改相结合的模式。

再后来,问题又来了,因为有人会恶意修改信息,例如把韩家炜改成孙怡舟的学生(编者注:实际相反)。于是我们就做出一个程序,能够自动判断哪些是恶意修改,哪些是正确的,以及哪些信息是已经过时的。比如一个人的职位信息显示为讲师,10多年都没有变化,那这个信息很有可能就是过时的,程序就会自动去网上查找,核查对不对;当然程序不会去自动修改,而是会报警给我们。基本的原理大概就是这样。

智源:据我们了解,你在最初的时候研究方向应该不是数据挖掘,所以当时是基于什么样的考虑来做AMiner的?

唐杰:我博士的研究方向最开始是语义Web。主要做的就两件事,一个是本体集成,你可以想象成图匹配;另一个是语义标注,即把文档中文本的信息抽出来,变成一个语义化的结构。博三的时候,我去微软做了实习,当时碰到李航老师,他说有两个方向可以选择,一个是搜索,就是learningtoranking;一个是抽取,informationextraction。当时我去的时候是九月份,李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始,2月份就投了KDD,而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西,另外我也发现数据挖掘这个圈子的人都比较年轻,非常开放,这也坚定了我去做数据挖掘的想法。

当时我也快毕业了,就在想怎么再用数据挖掘做出一个新东西。当时我想了三个课题。一个是做个二手火车票系统,一个是做二手商品系统,第三个就是学者数据系统。后来想了想,我们对二手商品不大懂,二手火车票也玩不溜。于是就做了我们最懂的。当时,我们也没有想这么大,就想做一个网站。后来放进去的研究越来越多,越滚越大,后来就做了AMiner这样一科技情报系统。

智源:这非常有意思,所以也是基于偶然中的必然开始了这个研究。你有了这个想法之后,是怎么一步步把这个研究开展下去的?

唐杰:这个还真的花了一番功夫。毕业的第一年,我就给自己定了一个目标,除了在审论文外,今年不发文章。所以那年我基本上没有写论文,全部精力都在做这个系统。

当时人也少,只有本科刚毕业的张静、我读研二的师弟洪铭材,就我们三个人,做了一年,基本上就上线了。

当时我们一没钱、二没资源。我们就在实验室弄了台普通的台式机(不是服务器),把系统装在台式机上,另外很多程序也都是在我自己的笔记本上跑,当时清华网络比较快,我们就不停地抓数据,一天能抓一万上下的数据,万的数据我们跑了好几百天。就这样慢慢把第一批数据给抓下来了。

我们没有美工做网站设计,所以第一个版本的界面完全是我自己画的。

做出一个能运行的系统后,我们在06年拿到一个国际会议ASWC进行demo展示。当时数据少,很多人都没有在里面,但只要一搜索,立马能抓取出来,当时大家感觉还是很炫酷的。后来我们把它写成文章,发表在SIGKDD上了。

智源:AMiner系统从年开发至今,整个的过程中有哪些重大的变化吗?

唐杰:我觉得有几个。

首先,最早一个版本,其实是我用Perl写的,但Perl中有一个技术问题我一直没搞定;后来我让洪铭材帮我解决,结果他搞了几个晚上,也没搞定,一怒之下,他把整个系统用Java全部重写一遍,这是我们第一个在线运行的稳定的版本,这是很重要的一件事情。

第二个重要的事就是我们那篇文章。其实那篇文章,最早我们是投的WWW会议,评分意见是三个accept,一个weakaccept,但结果却被拒了。然后我们就投了KDD。我们还在KDD上做了演示,还是比较成功的。我们的系统也是从那个时候开始引起国际学术界

分享 转发
TOP
发新话题 回复该主题