PiFlow混合型科学大数据流水线系统

PiFlow混合型科学大数据流水线系统

2022-09-14 0 517
资源编号 38234 最近更新 2022-09-14
¥ 0人民币 升级VIP
立即下载 注意事项
下载不了?请联系网站客服提交链接错误!
增值服务: 安装指导 环境配置 二次开发 模板修改 源码安装

本期推荐的PiFlow包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能。

PiFlow混合型科学大数据流水线系统

项目特性

  • 简单易用

可视化配置流水线监控流水线查看流水线日志检查点功能流水线调度

  • 扩展性强

支持自定义开发数据处理组件

  • 性能优越

基于分布式计算引擎Spark开发

  • 功能强大

提供100+的数据处理组件包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等集成了微生物领域的相关算法

架构图

PiFlow混合型科学大数据流水线系统

环境

  • JDK 1.8
  • Scala-2.11.8
  • Apache Maven 3.1.0
  • Spark-2.1.0 及以上版本
  • Hadoop-2.6.0

开始使用

Build PiFlow:

install external package
    mvn install:install-file -Dfile=/../piflow/piflow-bundle/lib/spark-xml_2.11-0.4.2.jar -DgroupId=com.databricks -DartifactId=spark-xml_2.11 -Dversion=0.4.2 -Dpackaging=jar
    mvn install:install-file -Dfile=/../piflow/piflow-bundle/lib/java_memcached-release_2.6.6.jar -DgroupId=com.memcached -DartifactId=java_memcached-release -Dversion=2.6.6 -Dpackaging=jar
    mvn install:install-file -Dfile=/../piflow/piflow-bundle/lib/ojdbc6-11.2.0.3.jar -DgroupId=oracle -DartifactId=ojdbc6 -Dversion=11.2.0.3 -Dpackaging=jar
    mvn install:install-file -Dfile=/../piflow/piflow-bundle/lib/edtftpj.jar -DgroupId=ftpClient -DartifactId=edtftp -Dversion=1.0.0 -Dpackaging=jar
mvn clean package -Dmaven.test.skip=true
    [INFO] Replacing original artifact with shaded artifact.
    [INFO] Reactor Summary:
    [INFO]
    [INFO] piflow-project ..................................... SUCCESS [  4.369 s]
    [INFO] piflow-core ........................................ SUCCESS [01:23 min]
    [INFO] piflow-configure ................................... SUCCESS [ 12.418 s]
    [INFO] piflow-bundle ...................................... SUCCESS [02:15 min]
    [INFO] piflow-server ...................................... SUCCESS [02:05 min]
    [INFO] ------------------------------------------------------------------------
    [INFO] BUILD SUCCESS
    [INFO] ------------------------------------------------------------------------
    [INFO] Total time: 06:01 min
    [INFO] Finished at: 2020-05-21T15:22:58+08:00
    [INFO] Final Memory: 118M/691M
    [INFO] ------------------------------------------------------------------------

运行 Piflow Server:

Intellij上运行PiFlow Server:

  • 下载 piflow: git clone https://github.com/cas-bigdatalab/piflow.git
  • 将PiFlow导入到Intellij
  • 编辑配置文件config.properties

Build PiFlow jar包:

Run --> Edit Configurations --> Add New Configuration --> Maven
Name: package
Command line: clean package -Dmaven.test.skip=true -X
run 'package' (piflow jar file will be built in ../piflow/piflow-server/target/piflow-server-0.9.jar)

运行 HttpService:

Edit Configurations --> Add New Configuration --> Application
Name: HttpService
Main class : cn.piflow.api.Main
Environment Variable: SPARK_HOME=/opt/spark-2.2.0-bin-hadoop2.6(change the path to your spark home)
run 'HttpService'

测试 HttpService:

运行样例流水线: ../piflow/piflow-server/src/main/scala/cn/piflow/api/HTTPClientStartMockDataFlow.scala
需要修改API中的server ip 和 port

如何配置config.properties

#spark and yarn config
spark.master=yarn
spark.deploy.mode=cluster

#hdfs default file system
fs.defaultFS=hdfs://10.0.86.191:9000

#yarn resourcemanager.hostname
yarn.resourcemanager.hostname=10.0.86.191

#if you want to use hive, set hive metastore uris
#hive.metastore.uris=thrift://10.0.88.71:9083

#show data in log, set 0 if you do not want to show data in logs
data.show=10

#server port
server.port=8002

#h2db port
h2.port=50002

运行PiFlow Web请到如下链接,PiFlow Server 与 PiFlow Web版本要对应:

https://github.com/cas-bigdatalab/piflow-web/releases/tag/v1.0

Docker镜像

  • 拉取Docker镜像
    docker pull registry.cn-hangzhou.aliyuncs.com/cnic_piflow/piflow:v1.1
  • 查看Docker镜像的信息
    docker images
  • 通过镜像Id运行一个Container,所有PiFlow服务会自动运行。请注意设置HOST_IP
    docker run -h master -itd –env HOST_IP=*.*.*.* –name piflow-v1.1 -p 6001:6001 -p 6002:6002 [imageID]
  • 访问 “HOST_IP:6001”, 启动时间可能有些慢,需要等待几分钟
  • if somethings goes wrong, all the application are in /opt folder

页面展示

PiFlow混合型科学大数据流水线系统

登录

PiFlow混合型科学大数据流水线系统

流水线列表

PiFlow混合型科学大数据流水线系统

创建流水线

PiFlow混合型科学大数据流水线系统

配置流水线

PiFlow混合型科学大数据流水线系统

配置流水线组

PiFlow混合型科学大数据流水线系统

流水线运行列表

PiFlow混合型科学大数据流水线系统

监控流水线

资源下载此资源为免费资源立即下载

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 免费源码 PiFlow混合型科学大数据流水线系统 https://www.7claw.com/38234.html

分享免费的开源源码

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、七爪会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、七爪无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在七爪上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于七爪介入快速处理。
查看详情
  • 1、七爪作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益; 2、非平台线上交易的项目,出现任何后果均与互站无关;无论卖家以何理由要求线下交易的,请联系管理举报。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务