RepeatMasker和RepeatModeler安装及使用

RepeatMasker是重复序列检测的常用工具,通过与参考数据库的相似性比对来准确识别或屏蔽基因组中的重复序列,属于同源预测注释的方式。RepeatMasker是基因组重复序列检测的常用工具。一般依赖于已有的重复序列参考库Repbase作同源预测。对于绝大部分目标真核物种,都收录在Repbase中。有时候Repbase注释重复区的效果不是很好,这种情况下可考虑执行重复序列的从头预测,即通过当前的全基因组序列,训练重复序列集构建本地repeat library,再通过RepeatMasker注释重复序列。其中,与RepeatMasker配套的RepeatModeler,可以实现。

一、脚本模板

#!/bin/bash
#SBATCH --nodes=1                   # 节点数量
#SBATCH --ntasks-per-node=56        # 每个节点核心数量
#SBATCH --ntasks=56                 # 总核心数
#SBATCH --partition=g1_share        # 队列分区且必须指定正确分区
#SBATCH --job-name=hello            # 作业名称
#SBATCH --output=hello.%j.out       # 正常日志输出 (%j 参数值为 jobId)
#SBATCH --error=hello.%j.err        # 错误日志输出 (%j 参数值为 jobId)

##############################################
#               Run job                      #
##############################################
BuildDatabase -name GCA_012411365 -engine rmblast test.fna #根据实际算例名称修改

RepeatModeler -pa 5 -database GCA_012411365

RepeatMasker -pa 16 \
-e rmblast -lib  consensi.fa.classified \
-dir Repeat_result -gff test.fna #根据实际算例名称修改
#注:
#-dir 后面文件夹需要提前建好,否则不会生成所需文件
#一定要 -species 指定物种,否则默认比对的是人类重复序列数据库
#如果使用本地的参考库,通过 -lib 指定,替代 -species
#-s、-q、-qq 等参数可控制序列比对的灵敏度,如果你的目标物种和参考物种不是很近,可能需要提升灵敏度
#作业若有报错,三条命令可逐条提交
#提交作业时,提前加载好搭建的conda环境

作者:admin  创建时间:2023-03-16 09:49
最后编辑:admin  更新时间:2024-09-05 11:17