信息图表工具:
- Google Chart API(统计数据,自动生成图片,简单,在线查看)
- D3(最流行之一,网页作图,互动图形,javascript,对象,对象的调用,复杂图表,voronoi,树状图,原型集群,单词云)
- Visual.ly(非常流行,快速创建,自定义,美观,强烈视觉冲击)
- Tableau(桌面系统,简单,商业智能,企业和部门进行日常数据报表和可视化工具,数据运算与美观的图表结合,拖放)
- 大数据魔镜(国产数据分析软件,丰富的数据公式和算法,,直观的拖放界面)
地图工具
- Google Fusion Tables(轻松,专业的统计地图,图表,图形,地图,发现背后的模式和趋势)
- Modest Maps(小型、可扩展、交互式的免费库)
- Leaflet(小型地图框架,小型化,轻量化,移动网页)
时间线工具
- Timetoast(免费,绘制时间线,在线工具网站,个性化服务,基于flash平台)
- Xtimeline(免费,在线,添加事件日志,社会化)
高级分析工具
- R(GNU,自由,免费,源代码开放,数据存储和处理,大数据集的统计和分析)
- Weka(免费,基于java,开源的机器学习及挖掘软件)
- Gephi(特殊,复杂,社交图谱数据可视化,炫酷)
D3可视化库:
- HTML(超文本标记语言,设定网页的内容)
- CSS(层叠样式表,设计网页的样式)
- Javascript(直译式脚本语言,设定网页的行为)
- DOM(文档对象模型,用于修改文档的内容和结构)
- SVG(可缩放矢量图形,用于绘制可视化的图形)
D3可以处理的数据:
- 任何数值数组
- 字符串
- 对象(本身包含其他数组或键/值对,处理json和geojson)
SVG标签:
- 矩形
- 圆形
- 线条
- 文字
- 路径
推荐系统 推荐方法
- 专家推荐
- 基于统计的推荐(个性化能力较弱)
- 基于内容的推荐(机器学习方法描述内容的特征,基于内容的特征来发现与之相似的内容)
- 协同过滤推荐(最早,最为成功之一,与目标用户相似的用户已有的商品评价系信息,预测目标用户对特定商品的喜好程度)
- 混合推荐
推荐系统组成模块:
- 用户建模模块
- 推荐对象模块
- 推荐算法模块
协同过滤算法
- userCF
- ItemCF
UserCF(最为古老)
- 兴趣相似的用户,相同的物品喜好。
- 找到相似的群体,喜欢的,且目标群体没见过的,进行推荐
- 相似度(泊松相似系数、余弦相似度,调整余弦相似度)
- 物品到用户的倒排表(每个物品所对应的,对该物品感兴趣的用户列表)
itemCF(应用最多,amazon,netflix)
- 用户行为记录
- 物品相似度
- 推荐和他们之前喜欢的物品相似的物品
- 用户到物品倒排表(每个用户喜欢的物品的列表)
usercf和itemcf区别
1 下列哪一项不属于推荐算法? A、基于物品和商家的联合协同推荐 B、基于统计的推荐 C、专家推荐 D、基于内容的推荐 正确答案: A 我的答案:A
2 下列选项中,D3不能处理的数据类型是? A、语音文件 B、数值数组 C、字符串 D、对象(本身包含其他数组或键/值对) 正确答案: A 我的答案:A 5 下列描述有误的是? A、专家推荐:人工推荐,由资深的专业人士来进行物品的筛选和推荐,需要较多的人力成本性 B、基于统计的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容 C、协同过滤推荐:应用最早和最为成功的推荐方法之一 D、混合推荐:结合多种推荐算法来提升推荐效果 正确答案: B 我的答案:B
6 下列关于可视化工具中高级分析工具的说法,错误的是? A、R是属于GNU系统的一个自由、免费、源代码开放的软件 B、Weka主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形 C、Gephi主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形 D、R通常用于大数据集的统计与分析 正确答案: B 我的答案:B
Weka机器学习以及数据挖掘软件,数据分析,生成简单图白哦,免费的,基于java环境
9 下面关于Timetoast的描述,哪个是错误的? A、Timetoast是在线创作基于时间轴事件记载服务的网站 B、提供个性化的时间线服务 C、Timetoast基于 flash 平台,可以在类似flash时间轴上任意加入事件 D、Timetoast是一个社区类型的时间轴网站 正确答案: D 我的答案:D
Xtimeline是一个社区类型的时间轴网站
11 下列哪个不属于可视化工具? A、Google Chart API B、D3 C、Visual.ly D、Spark 正确答案: D 我的答案:D
12 学习D3可视化库需要的一些基础知识,下列说法错误的是? A、HTML:文档对象模型,用于修改文档的内容和结构 B、CSS:层叠样式表,用于设定网页的样式 C、SVG:可缩放矢量图形,用于绘制可视化的图形 D、Javascript:一种直译式脚本语言,用于设定网页的行为 正确答案: A 我的答案:A
DOM:文档对象模型,用于修改文档的内容和结构 HTML:超文本标记语言,设定网页的内容
14 下面关于D3的说法,哪个是错误的? A、D3是一个被数据驱动的文档 B、D3是一个 Javascript的函数库,使用它主要是用来做数据可视化的 C、D3 是一个 Javascript 函数库,并不需要通常所说的“安装” D、D3有多个文件,在 HTML 中引用即可 正确答案: D 我的答案:D
D3全称为Data-Drive documents,即,被数据驱动的文档,即,Javascript的函数库,用于数据可视化 D3是一个Javascript函数库,不需要安装。 只有一个文件,在HTML中引用就可以了
15 下列选项中,哪些不属于SVG标签的视觉元素? A、矩形 B、圆形 C、线条 D、图片 正确答案: D 我的答案:D
17 下列关于推荐系统的描述,哪一项是错误的? A、推荐系统是大数据在互联网领域的典型应用 B、推荐系统是自动联系用户和物品的一种工具 C、推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售 D、推荐系统分为基于物品的协同过滤和基于商家的协同过滤 正确答案: D 我的答案:D 1 下列关于推荐系统集群的描述,哪些是正确的? A、为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生 B、推荐系统是大数据在互联网领域的典型应用 C、推荐系统是自动联系用户和物品的一种工具 D、推荐系统是利用大数据调整线下门店布局、控制店内人流量 正确答案: ABC 我的答案:ABC
推荐系统主要用于电子商务网站
4 下列关于SVG标签的描述,说法正确的有? A、圆。使用cx和cy,指定指定半径的中心的坐标,和ŗ表示半径 B、线。使用x1和Y1到指定线的一端的坐标,x2和y2指定的另一端的坐标。 C、文本。使用 x和y指定文本的位置 D、椭圆。使用x和y的指定左上角的坐标,width和height指定的尺寸 正确答案: ABC 我的答案:ABC
SVG简单形状
- 圆:使用cx和cy,指定半径的中心的坐标,和r表示半径
- 椭圆:使用cx和cy,指定半径的中心的坐标,rx和ry分别制定x方向和y方向上圆的半径
- 线:使用x1,y1到指定线的一端的坐标,x2,y2指定的另一端的坐标。stroke指定描边是的线是可见的
- 文本:使用x和y指定文本的位置
5 信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确? A、谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片 B、D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的Javascript函数库 C、Visual.ly可以用它来快速创建自定义的、样式美观且具有强烈视觉冲击力的信息图表 D、大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据 正确答案: ABCD 我的答案:ABCD
6 下列关于协同过滤算法的描述,哪些是正确的? A、基于物品的协同过滤算法(简称ItemCF算法)是目前业界应用最多的算法 B、ItemCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品 C、ItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度 D、UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品 正确答案: ABCD 我的答案:ABCD 8 下列哪些属于大数据应用? A、推荐系统:为用户推荐相关商品 B、物流:基于大数据和物联网技术的智能物流 C、智能交通:利用交通大数据,实现交通实时监控 D、汽车:无人驾驶汽车,实时采集车辆各种行驶数据和周围环境 正确答案: ABCD 我的答案:ABCD
9 下列说法中,哪些是正确的? A、CSS:层叠样式表,用于设定网页的样式 B、Javascript:一种直译式脚本语言,用于设定网页的行为 C、SVG标签包含一些视觉元素,包括矩形,圆形,椭圆形,线条,文字和路径等 D、SVG的默认样式是黑色填充。如果想换颜色,就必须将样式应用到相应的元素 正确答案: ABCD 我的答案:ABCD
SVG的默认样式是黑色填充。如果想换颜色,就必须将样式应用到相应的元素 常见的SVG性质:
- 填充fill-颜色值
- 描边stroke-颜色值
- 描边宽度stroke-width-数字(通常以像素为单位)
- 不透明度(opacity)-0.0(完全透明)和1.0(完全不透明)之间的数值
10 关于基于用户的协同过滤,下列哪些说法是正确的? A、基于用户的协同过滤算法(简称UserCF算法)在1992年被提出,是推荐系统中最古老的算法 B、UserCF算法符合人们对于“趣味相投”的认知 C、实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度 D、UserCF算法符合兴趣相似的用户往往有相同的物品喜好 正确答案: ABCD 我的答案:ABCD 11 下列关于SVG性质的描述,说法正确的有? A、描边(stroke) -颜色值 B、描边宽度(stroke-width) -数字(通常以像素为单位) C、SVG的默认样式是黑色填充 D、不透明度(opacity) – 0.0(完全透明)和1.0(完全不透明)之间的数值 正确答案: ABCD 我的答案:ABCD 12 在大数据时代,可视化技术可以支持实现哪些目标? A、观测、跟踪数据 B、分析数据 C、辅助理解数据 D、增强数据吸引力 正确答案: ABCD 我的答案:ABCD 13 下列关于推荐长尾理论的描述,哪些是正确的? A、推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售 B、“长尾”概念于2004年提出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式 C、可以通过发掘长尾商品并推荐给感兴趣的用户来提高销售额 D、热门推荐的主要缺陷在于推荐的范围有限,所推荐的内容在一定时期内也相对固定。无法实现长尾商品的推荐 正确答案: ABCD 我的答案:ABCD
15 下列描述正确的有? A、d3.select(“body”)查找DOM中的body B、selectAll(“p”)选择DOM中的所有段落 C、enter()绑定数据和DOM元素 D、text(“New paragraph!”)为新创建的p标签插入一个文本值 正确答案: ABCD 我的答案:ABCD
D3的语法说明:
-
d3.select(“body”)查找DOM 中的body
-
selectAll(“p”)选择DOM中的所有段落,由于没有存在,这将返回一个空的选项,这个选项为空,代表段落很快就会存在
-
data(dataset)计数和分析我们的数据值
-
enter()绑定数据和DOM元素
-
text(“New paragraph!”)为新创建的p标签插入一个文本值
16 协同过滤可分为哪几种过滤方式? A、基于用户的协同过滤 B、基于物品的协同过滤 C、基于用户和物品的联合协同过滤 D、基于商家的协同过滤 正确答案: AB 我的答案:ABD