Predikce proteinů v genomu.
Příparava hintů z EST sekvencí - Augustus potřebuje všechny hinty ve formátu GFF.
blat -noHead genome.fasta est.fasta est.psl cat est.psl | filterPSL.pl --best > est.f.psl wc -l est.psl est.f.psl cat est.f.psl | sort -n -k 16,16 | sort -s -k 14,14 > est.fs.psl blat2hints.pl --nomult --in=est.fs.psl --out=hints.est.gff
První řádek spustí blat, který provede alignment est sekvencí na genom a uloží výsledek do souboru est.psl
. Parametr -noHead
určuje, že do výstupního souboru nezapisuje hlavičku ale pouze vlastní data alignmentů. Druhý řádek provede filtrování.
filterPSL.pl vyžaduje, aby byl vstupní soubor seřazený podle query (standard pro výstup Blatu). Důležité parametry:
–minId=n
- minimální identita (def. 92%).–minCover=n
- minimální délka alignmentu (def. 80% délky query).–best
- pro každé query jde na výstup pouze nejlepší alginment.–uniq
- vem pouze nejlepší a pouze pokud druhý nejlepší je mnohem horší.–uniqtresh
- jak moc muís být druhý špatný v % (def. .96)blat2hints.pl vytvoří hinty pro augustus na základě výstupu blatu. Vyžaduje, aby byly záznamy seřazeny podle targetu. Důležité parametry:
-nomult
- pokud více alignmentů podporuje stejný intron, nedá na výstup jen jeden hint ale více hintů.Spuštění predikce
augustus --species=??? genome.fa --hintsfile=hints.est.gff > augustus.out