专访经历了时间检验的不仅是论文,还有唐杰 - 简介 - 本科生毕业论文本科生毕业论文 - Powered by BBS!NT

我的中心

本科生毕业论文 » 常识 » 预防 » 专访经历了时间检验的不仅是论文,还有唐杰

返回列表

发新话题

回复该主题

查看: 24\|回复: 0	专访经历了时间检验的不仅是论文,还有唐杰 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分12 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2021-04-27 11:28 \|只看楼主 KDD即将在8月23-27日召开。而近日，SIGKDD官方推特也公布了本年度的各种奖项，其中清华大学教授、智源研究院学术副院长唐杰团队获得了ACMSIGKDD时间检验应用科学奖！获奖论文为唐杰等人在SIGKDD发表的论文《ArnetMiner:extractionandminingofacademicsocialnetworks》。事实上，这并不只是一篇经历时间检验的论文。ArnetMiner（或AMiner），全称AcademicResearchNetworkMiner，即“学术研究网络挖掘平台”。从年起，唐杰便开始了该系统的研制，当时他还是一个博士生，所有程序只是在一台台式机上运行的demo；然而历经15年的打磨，如今该平台已经是上百人维护、数十台服务器运行的大型人才咨询、技术分析、学术查询的平台，而唐杰也已经成为数据挖掘领域的领人物。一个人，一个项目，一辈子，做到顶天立地。与其说是时间检验论文，不如说是时间检验唐杰。唐杰教授曾多次向笔者表示，做研究最重要的就是专注，“做一件事情，就要把这事情做深做透，而不要在意别人怎么看、怎么说”。十多年来，唐杰每天凌晨2点睡觉，绝大多数时间泡在实验室中，几无中断；领域研究热点潮涨潮落，而他，研究的中心始终是AMiner系统。时间在变，而唐杰不变。这份专注，毫不客气地说，国内少有。唐杰，清华大学计算机科学与技术系长聘教授，计算机系副主任，智源研究院学术副院长，清华-工程院知识智能联合实验室主任，国家杰青。研究兴趣包括：社会网络分析、数据挖掘、机器学习和知识图谱。发表论文余篇，拥有专利20余项。主持研发了研究者社会网络挖掘系统AMiner，吸引了个国家/地区多万独立IP访问。作者：智源社区贾伟智源：恭喜获得SIGKDD时间检验奖。我们注意到你在这方面的工作从年就已经开始了，截止到现在AMiner的研发时间差不多已经有14年了。所谓十年磨一剑，如今你已经将这个平台产业化。我们想借着这样一个机会了解一下Aminer这个平台的发展历程。首先，能不能介绍一下AMiner是什么？唐杰：AMiner原本的名字叫ArnetMiner，因为我是做数据挖掘的，我们这个领域有位资深的教授，叫韩家炜，他比较喜欢用Miner这个词，当时我刚加入到数据挖掘这个领域，读过他的文章后，就想做一个什么Miner，这是名字后半部分的来源。前半部是AcademicResearchNETwork的缩写。所以整体上的意思是“学术研究网络挖掘”。后来仍觉得太长，就直接缩写为AMiner了。从功能上来说，我们在年设计时的想法就是，给一个学者名字，这个程序能够自动从互联网上把相关的信息（例如主页、照片、E-mail地址、论文等）给抓过来，并呈现出来。最开始的功能就是这么简单。当然，经过这么多年，它的功能慢慢丰富了起来，例如怎么把相同名字的人区分开来，以及把项目、专利以及其他更多信息都汇聚过来。有了这些数据，我们可以在里面做更多深度的挖掘，可以挖掘技术的脉络，然后用来服务府、企业等。举例来说，企业要做一个新的产品研发，他可以用这种技术来挖掘这个领域里面的技术脉络，以及有哪些竞争对手等。这个时候，AMiner就变成了一个可以面向公众、面向科研界以及面向企业和*府的服务性产品。智源：所以本质上来说，Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么？唐杰：最开始的时候，是我写的程序，就在我们笔记本上跑。当时就是给定一个人名名单，名单是哪来呢？我最开始是从DBLP上把人名全抽出来，大概有多万人名。有了名单之后，就去谷歌上搜索，谷歌会返回很多与这个人相关的页面；然后我做了一个分类器，去判断哪个页面是他的主页，分类器能做到90%多的精度，这也是我们发表的那篇文章中一个核心技术点；自动找到主页网址后，我编写一个程序把主页打开，用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列，进行统计学习。针对这些数据，我们也标注了一个包含几千个训练样本的数据，从而建立一个模型。最开始就完全是用这种方式自动抽取。后来我们发现一个问题，有学者反馈说，你显示我的信息还是讲师，但我现在已经是教授了，这种信息变迁怎么办？于是我们后来也允许用户自己修改，变成自动抽取+用户修改相结合的模式。再后来，问题又来了，因为有人会恶意修改信息，例如把韩家炜改成孙怡舟的学生（编者注：实际相反）。于是我们就做出一个程序，能够自动判断哪些是恶意修改，哪些是正确的，以及哪些信息是已经过时的。比如一个人的职位信息显示为讲师，10多年都没有变化，那这个信息很有可能就是过时的，程序就会自动去网上查找，核查对不对；当然程序不会去自动修改，而是会报警给我们。基本的原理大概就是这样。智源：据我们了解，你在最初的时候研究方向应该不是数据挖掘，所以当时是基于什么样的考虑来做AMiner的？唐杰：我博士的研究方向最开始是语义Web。主要做的就两件事，一个是本体集成，你可以想象成图匹配；另一个是语义标注，即把文档中文本的信息抽出来，变成一个语义化的结构。博三的时候，我去微软做了实习，当时碰到李航老师，他说有两个方向可以选择，一个是搜索，就是learningtoranking；一个是抽取，informationextraction。当时我去的时候是九月份，李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始，2月份就投了KDD，而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西，另外我也发现数据挖掘这个圈子的人都比较年轻，非常开放，这也坚定了我去做数据挖掘的想法。当时我也快毕业了，就在想怎么再用数据挖掘做出一个新东西。当时我想了三个课题。一个是做个二手火车票系统，一个是做二手商品系统，第三个就是学者数据系统。后来想了想，我们对二手商品不大懂，二手火车票也玩不溜。于是就做了我们最懂的。当时，我们也没有想这么大，就想做一个网站。后来放进去的研究越来越多，越滚越大，后来就做了AMiner这样一科技情报系统。智源：这非常有意思，所以也是基于偶然中的必然开始了这个研究。你有了这个想法之后，是怎么一步步把这个研究开展下去的？唐杰：这个还真的花了一番功夫。毕业的第一年，我就给自己定了一个目标，除了在审论文外，今年不发文章。所以那年我基本上没有写论文，全部精力都在做这个系统。当时人也少，只有本科刚毕业的张静、我读研二的师弟洪铭材，就我们三个人，做了一年，基本上就上线了。当时我们一没钱、二没资源。我们就在实验室弄了台普通的台式机（不是服务器），把系统装在台式机上，另外很多程序也都是在我自己的笔记本上跑，当时清华网络比较快，我们就不停地抓数据，一天能抓一万上下的数据，万的数据我们跑了好几百天。就这样慢慢把第一批数据给抓下来了。我们没有美工做网站设计，所以第一个版本的界面完全是我自己画的。做出一个能运行的系统后，我们在06年拿到一个国际会议ASWC进行demo展示。当时数据少，很多人都没有在里面，但只要一搜索，立马能抓取出来，当时大家感觉还是很炫酷的。后来我们把它写成文章，发表在SIGKDD上了。智源：AMiner系统从年开发至今，整个的过程中有哪些重大的变化吗？唐杰：我觉得有几个。首先，最早一个版本，其实是我用Perl写的，但Perl中有一个技术问题我一直没搞定；后来我让洪铭材帮我解决，结果他搞了几个晚上，也没搞定，一怒之下，他把整个系统用Java全部重写一遍，这是我们第一个在线运行的稳定的版本，这是很重要的一件事情。第二个重要的事就是我们那篇文章。其实那篇文章，最早我们是投的WWW会议，评分意见是三个accept，一个weakaccept，但结果却被拒了。然后我们就投了KDD。我们还在KDD上做了演示，还是比较成功的。我们的系统也是从那个时候开始引起国际学术界
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题