1.科学地图化的流程:数据源―>数据预处理―>规范化―>地图化―>分析方法
地图化:涉及降维,聚类,寻找backbone,地图挖掘技术和社会网络分析技术也可以应用。
分析方法:可以使用各种指标,比如图密度和中心度。可以使用jaccard's index来测度聚簇之间的重叠;如果每个文档被分配到一个簇中,那么可以计算每个簇的质量度量和数量度量。
Burst detection 是一种阶段性的分析方法,它是在指定时间点内寻找具有聚集度高的特征,,在Kleinberg(2003)中,这个算法被描述过。
Geospatial 分析(Batty 2003.;leydesdorff&person 2010;small&Garfield 1985)旨在解决某地发生某件事,并对临界区域产生如何的影响;该类分析需要地理信息的支撑。
可视化:目前的展现方式有heliocentric maps,geometrical models 和主题网络。另一种地图方法是用距离衡量两个节点之间关系的强弱程度,关系强的距离近。
为了显示被探测的聚簇在连续时段内的演化路径,有不同的方法:cluster string(Small 2006),rolling clustering,alluvial diagrams,themeRiver visualization,thematic areas
2.九种代表性软件,用科学地图来分析科学领域。
Bibexcel,citespace,CopalRed, In-spire,Leydesdorff's software,network workbench tool,sci^2 tool,vantagePoint,Vosviewer
Bibexcel可以从ISI wos,scopus,procite export format 中读取数据,Bibexcel上可以允许对文本数据进行不同的预处理方法。Bibexcel可以使用三种方法对数据进行规范化,Salton's Cosine,Jaccard's index,Vladutz和Cook测量。Bibexcel可视化做的不好,但是它可以将数据输出到PAJEK,UCINET,或者SPSS去做。
CitespaceII:主要目的是在知识领域对科技动向分析进行展现,它可以读取不同格式的文献计量资源,比如WOS,PUBMED,arXiv,SAO/NASA宇航数据系统,也可以读取大数据比如NSF Awards和Derwent Innovations Index专利数据。网络或图可以在不同时间段内进行构建,以分析要学习领域的演化。矩阵可以使用salton's cosine dice或者Jaccard's index进行标准化。Citespace允许使用光谱聚类和应用爆发探测。另外citespace有三种可视化模式,聚类视图,时间线和时间区域
ColPalRed:商业软件,使用共词分析来分析科学文档中的关键字。它收集包含在数据库中的知识,并将其转化为新的知识。
ColPalRed可以进行三种数据分析:结构分析,战略分析和动态分析
结构分析:在主题网络中展现知识,在主题网络中,包括词语和它们之间的关系
战略分析:通过两个标准在全局主题网络中为每个主题网络放置在相对的位置上:中心度和密度
动态分析:分析主题网络随时间的演变,它可以鉴别出主题的通路、分歧、出现和消失
ColPalRed使用战略图、主题和主题网络对结果进行可视化,每个主题有一个标签,该标签的名称是相关主题网络中最中心的节点(词汇)的名称。此外,每个主题在战略图中,用球表示,球的大小和其中包含的文档数成正比。同样主题网络中的关键词也可以表示为一个球,球的大小和关键字的频率成正比。
IN-SPIRE使用地形图使用户发现文档之间的关系和相似文档集。该工具使用统计词汇模式基于上下文来描述文档。IN-SPIRE可以读取非格式化文档(ASCII码)和HTML/XML等格式化文档,和MS-EXCEL和CSV,可以指定列,软件根据指定列来判断文档之间的相似性。IN-SPIRE不从指定列中抽取文献计量网络,它使用自己的文本引擎来通过一列或者几列来计算文档之间的相似度,换句话说,它使用向量空间模型,每个文档使用一个向量进行表示。尽管IN-SPIRE可是使用任意列来构建地图,但是如果选择若干词汇作为列,文本引擎会工作的更好,文本引擎需要大数据量来正确探测文档之间的相似度。
在相似度计算完成之后,IN-SPIRE运行一个叫做快速分割聚类的算法,在聚类的最后,若干主题(文档的集合)生成,每个主题的名字是最频繁出现在文档中的关键词(使用if.idf)。
IN-SPIRE提供两种不同的可视化技术,Galaxies(模仿星空中的星星)和ThemeScape(在星际可视化中文档的分布基础上进行构建),将主题看成沉积层,它们一起构建起自然地貌,其山峰高度表示在该领域的主题强度,山峰的外延对应星际可视化中主题的明亮程度
IN-SPIRE提供了一系列的工具,来帮助分析者来发现学习文档中的知识。
时间片允许我们发现某个主题如何增长和萎缩的,在星际变化中主题是如何融合的
Facet允许我们发现计算主题之间的关系,以及用户定义组之间的关系
相互关系工具可以允许我们发现组之间的相互关系。
Leydesdorff's software
免费的命令行软件,可以允许共词、共作者、作者文献计量耦合、期刊文献计量耦合、作者共引等文献计量分析方法。结果可以通过外部软件比如pajek,ucinet,network bench tool sci^2展现出来,更多的是,可以分析国际和学院合作,城市级别的合作,对合作网络的可视化可以通过google map和 外部软件来进行。不同的矩阵被用salton cosine进行规范化。
该套程序不允许对数据进行预处理,因此,如果要进行时间维度的分析,需要用到外部软件来对不同时间段的数据进行划分。
Network workbench Tool
NWB提供特殊的算法来处理出版数据,来构建和分析文献计量网络与地图,该工具也可以读取 ISI WOS ,SCOPUS,BIBTEX,ENDNOTE export format,NFS,和其他CSV格式的数据,NWB允许数据预处理,不同类型网络的构建,对构建网络的图分析,最后它们的可视化,此外,该工具允许进行阶段性分析。
数据的预处理包括去重,按时间段划分,探测同义词,并对其进行整合;NWB可以建设不同的网络:文档共引,共作者,共词,文献计量耦合,此外,可以通过直接连接来构建网络,例如,可以创建作者―文档网络,或者直接引用网络。
有几个算法可以用来对网络进行地图化,和图分析,更进一步,工具可以进行爆发探测,来鉴别项目使用频度的增加。
对产生图的可视化是通过不同的插件来进行的(如 GUESS,)
Sci^2 tool
其最重要的作用是,提供几种方法来处理文献计量数据,为后续分析做准备。
和NWB一样,可以读取 ISI WOS ,SCOPUS,BIBTEX,ENDNOTE export format,NFS,和其他CSV格式的数据,Sci^2 tool包括DrL 展现算法。
地图化步骤中可以使用社区探测和backbone鉴别,可以执行爆发探测
Vantage point
它是文本挖掘软件,用来从专利和文化数据库的检索结果中发现知识,它允许用户分析大量的结构文本,来发现模式和关系,快速确定谁 什么哪里 什么时间。
Vantage point的图接口有三个部分,worksapce,标题视图和细节窗口
VOSViewer:专门用来构建和对文献计量地图可视化,在对图形展现方面有所侧重,所以可以通过放大功能来表现大地图,特定标签算法,密度表达方式也得到了应用,VOSViewer不能从文献计量数据中抽取共现矩阵,如果要这样做,需要外部过程,同样,不能对数据进行预处理。为了展现地图上的元素,VOSViewer地图技术(van eck,waltman 2010)使用相似性度量从共现矩阵中创建了相似矩阵,VOS地图技术创建一个二维地图,元素之间的距离反应其相似性。尽管VOSViewer实现了VOS地图技术,这个程序可以使用其他技术来观察地图。VOSViewer允许我们进行使用VOS聚类技术进行社区探测,这个技术和基于颗粒的聚类技术有关,一旦地图建立起来,VOSViewer允许通过下列四个视图进行检查:
1. 标签视图:使用一个圆圈和标签来代表一个元素,圆圈大小代表重要性的高低。有一个智能程序,我们可以根据地图放大的程度展现最重要的标签。拥有相同颜色的圈圈属于同一个聚类,
2. 密度视图:地图上每一点会根据该店项目的密度来填充颜色,密度依赖于周围区域的项目和这些项目的权值。VOSViewer根据(van eck&waltman)提供的等式(GAUSSIAN KERNEL公示)来计算每一点的密度,密度被转化为一个颜色表
3. 聚类密度视图:只有每个项目之前被分配到一个聚类中,这个视图才可以使用,该视图和密度视图大致一样,区别是项目密度对每个聚类的项目分别进行展现。
4. 分散视图:这是一个简单视图,用小圆圈代表项目,没有展现标签。
11管工 赵月华 供稿
转自:http://blog.sina.com.cn/s/blog_4c9dc2a10100ul2n.html