知识图谱的自动化构建是知识图谱中具有极强挑战性且巨大应用价值的技术方向。就实体抽取技术,达观数据副总裁、上海市人工智能技术标准委员会委员王文广提到“狭义的实体抽取,即命名实体识别(NER)技术发展至今已较为成熟,能够很好地抽取出人名、地名、机构名等少数类型的实体。但在知识图谱实际应用中,则需要抽取出各式各样各不相同的广义实体,比如金融业中的产品名称、品牌名、业务名、风险提示、观点等,制造业中的失效模式、失效现象、工艺、设备、零部件、物料、方法、故障原因、改善措施等,商业中的产品、功能、特点、适合人群、搭配方法等等。抽取出这些广义实体的挑战巨大。”关系抽取技术也同样问题多挑战大,已有关系抽取大多基于实体对之间共现,而现实复杂的场景中,实体对共现既可能不存在任何关系,可能存在万千种的关系,这就造成了关系抽取的难题。此外,在知识图谱构建中,还涉及实体消歧、实体融合等方面的技术要求。
除了技术发展本身并不成熟之外,在实际场景中还遇到样本少的问题。在真实落地的项目或产品中,往往存在标注样本少的问题,其原因即可能是标注成本高导致样本少,也可能是本身样本就少,无法获得大规模的标注样本。这方面王文广深有体会,他提到“在很多场景下,总的文档数量有几千或几万份,对于具体某些类型的实体或关系来说则文档数量更少。在这种情况下要做好知识图谱的构建,是极大的挑战,也是在实际落地中必须综合使用十八般武器,逢山开路遇水搭桥,使用最新的技术结合业务经验、专家规则等来解决这些问题。”
为了促进知识图谱自动化构建技术的进一步发展,达观数据在CCKS(全国知识图谱与语义计算大会)组织了金融研报知识图谱的自动化构建的算法竞赛。竞赛选择了样本丰富但复杂度较高的金融研报文档作为知识的来源,根据金融投研领域常见的需求,设计了简化版的知识图谱模式,并标注了大规模的金融研报知识图谱数据集FR2KG。竞赛任务从预定义的知识图谱模式和少量的种子知识图谱开始,从非结构化的金融研报文本中抽取出符合知识图谱模式的实体、关系和属性值,并进行适当的实体消歧和实体融合,构建出知识图谱,并使用FR2KG来评估竞赛参赛队伍所提交的结果。
金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告,是金融行业中最为复杂、多样的文档。报告通常是专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、*策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。同时所构建的图谱在大金融行业、监管部门、*府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。
数据集达观数据所构建的大规模金融研报知识图谱数据集FR2KG是用于评测知识图谱自动化构建技术的专业数据集,是当前最大规模的中文金融研报知识图谱。下图是数据集构建过程示意图
FR2KG的知识图谱模式包含10个实体类型,19个关系类型和6种属性,如下图所示。构建好的金融研报知识图谱数据集FR2KG包含17,实体,26,关系三元组,1,属性三元组,SeedKG和EvaluationKG的数据情况如下图所示。下图是数据集的样例,使用达观数据渊海知识图谱平台可视化:目前数据集已经发布在SCIDB和OpenKG上,欢迎大家前往下载。在使用数据集进行研究时请引用本论文。OpenKG链接: