欢迎来到010在线作文网!

大数据知识点总结(11)

总结 时间:2021-08-31 手机版

  42、DataFrame 特性

  1、支持从KB到PB级的数据量

  2、支持多种数据格式和多种存储系统

  3、通过Catalyst优化器进行先进的优化生成代码

  4、通过Spark无缝集成主流大数据工具与基础设施

  5、API支持Python、Java、Scala和R语言

  43、Scala的好处:

  1、面向对象和函数式编程理念加入到静态类型语言中的混合体

  2、Scala的兼容性----能够与Java库无缝的交互

  3、Scala的简洁性----高效,更不容易犯错

  4、Scala的高级抽象

  5、Scala是静态类型----类型推断

  6、Scala是可扩展的语言

  44、搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

  45、Lucene是一个高性能、可伸缩的信息搜索库,即它不是一个完整的全文检索引擎,而是一个全检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。

  46、Elasticsearch是一个高可扩展的、开源的全文本搜索和分析工具。它允许你以近实时的方式快速存储、搜索、分析大容量的数据。

  Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

  47、ElasticSearch 有4种方式来构建数据库,

  最简单的方法是使用indexAPI,将一个Document发送到特定的index,一般通过curltools实现。

  第二第三种方法是通过bulkAPI和UDPbulkAPI。两者的区别仅在于连接方式。


本文来源http://www.010zaixian.com/shiyongwen/zongjie/390418.htm
以上内容来自互联网,请自行判断内容的正确性。若本站收录的信息无意侵犯了贵司版权,请给我们来信(zaixianzuowenhezi@gmail.com),我们会及时处理和回复,谢谢.