42、DataFrame 特性
1、支持从KB到PB级的数据量
2、支持多种数据格式和多种存储系统
3、通过Catalyst优化器进行先进的优化生成代码
4、通过Spark无缝集成主流大数据工具与基础设施
5、API支持Python、Java、Scala和R语言
43、Scala的好处:
1、面向对象和函数式编程理念加入到静态类型语言中的混合体
2、Scala的兼容性----能够与Java库无缝的交互
3、Scala的简洁性----高效,更不容易犯错
4、Scala的高级抽象
5、Scala是静态类型----类型推断
6、Scala是可扩展的语言
44、搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
45、Lucene是一个高性能、可伸缩的信息搜索库,即它不是一个完整的全文检索引擎,而是一个全检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
46、Elasticsearch是一个高可扩展的、开源的全文本搜索和分析工具。它允许你以近实时的方式快速存储、搜索、分析大容量的数据。
Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
47、ElasticSearch 有4种方式来构建数据库,
最简单的方法是使用indexAPI,将一个Document发送到特定的index,一般通过curltools实现。
第二第三种方法是通过bulkAPI和UDPbulkAPI。两者的区别仅在于连接方式。
本文来源:http://www.010zaixian.com/shiyongwen/zongjie/390418.htm