Please wait a minute...

Quantitative Biology

Quant. Biol.    2017, Vol. 5 Issue (3) : 215-225     DOI: 10.1007/s40484-017-0113-6
REVIEW |
Computational tools for Hi-C data analysis
Zhijun Han1,2, Gang Wei1()
1. CAS Key Laboratory of Computational Biology, Collaborative Innovation Center for Genetics and Developmental Biology, CAS-MPG Partner Institute for Computational Biology, Shanghai Institutes for Biological Sciences, Chinese Academy of Sciences, Shanghai 200031, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
Download: PDF(466 KB)   HTML
Export: BibTeX | EndNote | Reference Manager | ProCite | RefWorks
Abstract

Background: In eukaryotic genome, chromatin is not randomly distributed in cell nuclei, but instead is organized into higher-order structures. Emerging evidence indicates that these higher-order chromatin structures play important roles in regulating genome functions such as transcription and DNA replication. With the advancement in 3C (chromosome conformation capture) based technologies, Hi-C has been widely used to investigate genome-wide long-range chromatin interactions during cellular differentiation and oncogenesis. Since the first publication of Hi-C assay in 2009, lots of bioinformatic tools have been implemented for processing Hi-C data from mapping raw reads to normalizing contact matrix and high interpretation, either providing a whole workflow pipeline or focusing on a particular process.

Results: This article reviews the general Hi-C data processing workflow and the currently popular Hi-C data processing tools. We highlight on how these tools are used for a full interpretation of Hi-C results.

Conclusions: Hi-C assay is a powerful tool to investigate the higher-order chromatin structure. Continued development of novel methods for Hi-C data analysis will be necessary for better understanding the regulatory function of genome organization.

Author Summary  Hi-C, the derivative of the chromosome conformation capture (3C) technology, has been widely used to dissect chromatin architecture and greatly contributed to our understanding of the relationship between genome organization and genome function. The computational methods for data analysis are essential for a full interpretation of Hi-C data. In this article, we review the general Hi-C data processing workflow and popular Hi-C data processing tools. We also discuss the challenges and future perspective regarding the improvement of Hi-C data analysis.
Keywords 3D genome structure      Hi-C data processing tool      chromatin interactions     
Corresponding Authors: Gang Wei   
Online First Date: 01 August 2017    Issue Date: 24 August 2017
 Cite this article:   
Zhijun Han,Gang Wei. Computational tools for Hi-C data analysis[J]. Quant. Biol., 2017, 5(3): 215-225.
 URL:  
http://journal.hep.com.cn/qb/EN/10.1007/s40484-017-0113-6
http://journal.hep.com.cn/qb/EN/Y2017/V5/I3/215
Service
E-mail this article
E-mail Alert
RSS
Articles by authors
Zhijun Han
Gang Wei
Fig.1  General Hi-C data processing workflow.
Fig.2  Filtering mapped PETs using restriction enzyme (RE) fragments.
Tool Aligner Mapping strategy PETs filtering Normalization Descriptions Url
Hiclib [ 15] Bowtie2 Iterative RE fragments ICE No standalone pipeline provided. runHiC is based on hiclib and is command-line based https://bitbucket.org/mirnylab/hiclib
HIPPIE [ 14] BWA - - Explicit model Designed for high performance computing cluster with Oracle Grid Engine. Can integrate with epigenetic datasets and GWAS data http://wanglab.pcbi.upenn.edu/hippie
HiC-inspector [ 11] Bowtie - RE fragments Coverage correction RE filtering only keeps PETs with 3'-end facing the restriction site. Command-line based and provides simple interactive browser http://biocore.crg.cat/wiki/HiC-inspector
HiC-Box [ 12] Bowtie2 - Not detailed Not detailed GUI based, compatible with Genome Re-Assembly Assessing Likelihood (GRAAL). No published paper with details https://github.com/koszullab/HiC-Box
HiC-Pro [ 18] Bowtie2 Trimming RE fragments Optimized ICE Command-line based and easy to use. Provides complete workflow from mapping to normalized matrix, can handle SNP information https://sourceforge.net/projects/hicpro/
HiCUP [ 17] Bowtie, Bowtie2 Pre-truncation RE fragments - Command-line based with incomplete workflow, needs other tools such as HiCpipe [ 11] to finish normalization and other processes http://www.bioinformatics.babraham.ac.uk/projects/hicup
HiCdat [ 13] Subread, Bowtie2 - RE fragments Three options GUI and R based with mapping command provided but not piped. Provides comprehensive functions for high-order analysis and integrating with epigenetic datasets http://www.github.com/MWSchmid/HiCdat
TADbit [ 19] GEM Iterative /Trimming RE fragments ICE No standalone pipeline provided. Can call and compare TADs between samples. No published paper with details http://www.3DGenomes.org
Juicer [ 15] BWA - RE fragments Matrix balancing Command-line based. Provides many high-order functions such as calling TADs, loops, compartments and displaying with Juicebox https://github.com/theaidenlab/juicer/wiki
Tab.1  Tools for Hi-C data processing pipeline.
Tool name Model assumption Description
Normalization HiCNorm [ 22] Three systematic biases Generalized linear regression-based
method, much faster than Yaffe’s method [24]
Hi-Corrector [ 42] Matrix balancing Parallelized and memory-controllable ICE, very fast
HiFive [ 43] Three options GUI based and integrated into Galaxy
HiCNormCis [ 10] Three systematic biases Poisson-regression-based method for local regions, result can be used to call FIREs. Not publicly available
Calling TADs DI-HMM [ 9] Directional indexes bias with HMM Insensitive to parameters and hence it is hard to identify sub-TADs
Arrowhead [ 15] Dynamic programming Can call sub-TADs, integrated in Juicer
Armatus [ 27] Multi-scale approach Can call TADs with different scales, but not easy to choose fine scale ranges
HiCseg [ 28] Linear segmentation Turn 2D into 1D, can model the uncertainty
CHDF [ 29] Dynamic programming Robust to different resolution but need users to control the total number of TADs for each chr
Tab.2  Tools for post-processing Hi-C data (tools provide complete workflow are listed in Table 1).
1 Gorkin, D. U. ,  Leung, D.  and  Ren, B.  (2014) The 3D genome in transcriptional regulation and pluripotency. Cell Stem Cell, 14, 762–775
doi: 10.1016/j.stem.2014.05.017 pmid: 24905166
2 Phillips-Cremins, J. E. ,  Sauria, M. E. ,  Sanyal, A. ,  Gerasimova, T. I. ,  Lajoie, B. R. ,  Bell, J. S. ,  Ong, C. T. ,  Hookway,  T. A. ,  Guo, C. ,  Sun, Y. , et al. (2013) Architectural protein subclasses shape 3D organization of genomes during lineage commitment. Cell, 153, 1281–1295
doi: 10.1016/j.cell.2013.04.053 pmid: 23706625
3 Dekker, J., Rippe,  K., Dekker, M.  and  Kleckner, N.  (2002) Capturing chromosome conformation. Science, 295, 1306–1311
doi: 10.1126/science.1067799 pmid: 11847345
4 Simonis, M., Klous,  P., Splinter, E. ,  Moshkin, Y. ,  Willemsen, R. ,  de Wit, E. ,  van Steensel, B.  and  de Laat, W.  (2006) Nuclear organization of active and inactive chromatin domains uncovered by chromosome conformation capture-on-chip (4C). Nat. Genet., 38, 1348–1354
doi: 10.1038/ng1896 pmid: 17033623
5 Dostie, J., Richmond,  T. A., Arnaout, R. A. ,  Selzer, R. R. ,  Lee, W. L. ,  Honan, T. A. ,  Rubio, E. D. ,  Krumm, A. ,  Lamb, J. ,  Nusbaum, C. , et al. (2006) Chromosome conformation capture carbon copy (5C): a massively parallel solution for mapping interactions between genomic elements. Genome Res., 16, 1299–1309
doi: 10.1101/gr.5571506 pmid: 16954542
6 Lieberman-Aiden, E. ,  van Berkum,  N. L. ,  Williams, L. ,  Imakaev, M. ,  Ragoczy, T. ,  Telling, A. ,  Amit, I. ,  Lajoie, B. R. ,  Sabo, P. J. ,  Dorschner, M. O. , et al. (2009) Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science, 326, 289–293
doi: 10.1126/science.1181369 pmid: 19815776
7 Fullwood, M. J. ,  Liu, M. H. ,  Pan, Y. F. ,  Liu, J. ,  Xu, H., Mohamed,  Y. B., Orlov, Y. L. ,  Velkov, S. ,  Ho, A., Mei,  P. H., et al. (2009) An oestrogen-receptor-alpha-bound human chromatin interactome. Nature, 462, 58–64
doi: 10.1038/nature08497 pmid: 19890323
8 Jäger, R., Migliorini,  G., Henrion, M. ,  Kandaswamy, R. ,  Speedy, H. E. ,  Heindl, A. ,  Whiffin, N. ,  Carnicer, M. J. ,  Broome, L. ,  Dryden, N. , et al. (2015) Capture Hi-C identifies the chromatin interactome of colorectal cancer risk loci. Nat. Commun., 6, 6178
doi: 10.1038/ncomms7178 pmid: 25695508
9 Dixon, J. R., Selvaraj,  S., Yue, F. ,  Kim, A. ,  Li, Y., Shen,  Y., Hu, M. ,  Liu, J. S.  and  Ren, B.  (2012) Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature, 485, 376–380
doi: 10.1038/nature11082 pmid: 22495300
10 Schmitt, A. D. ,  Hu, M., Jung,  I., Xu, Z. ,  Qiu, Y. ,  Tan, C. L. ,  Li, Y., Lin,  S., Lin, Y. ,  Barr, C. L. , et al. (2016) A Compendium of chromatin contact maps reveals spatially active regions in the human genome. Cell Rep., 17, 2042–2059
doi: 10.1016/j.celrep.2016.10.061 pmid: 27851967
11 Castellano, G., Le Dily,  F., Hermoso Pulido,  A., Beato, M.  and  Roma, G.  (2015) Hi-Cpipe: a pipeline for high-throughput chromosome capture. bioRxiv, doi: https://doi.org/10.1101/020636
12 HiC-Box. available from 
13 Schmid, M. W. ,  Grob, S.  and  Grossniklaus, U.  (2015) HiCdat: a fast and easy-to-use Hi-C data analysis tool. BMC Bioinformatics, 16, 277
doi: 10.1186/s12859-015-0678-x pmid: 26334796
14 Hwang, Y. C., Lin,  C. F., Valladares, O., Malamon, J. ,  Kuksa, P. P. ,  Zheng, Q. ,  Gregory, B. D.  and  Wang, L. S.  (2015) HIPPIE: a high-throughput identification pipeline for promoter interacting enhancer elements. Bioinformatics, 31, 1290–1292
doi: 10.1093/bioinformatics/btu801 pmid: 25480377
15 Durand, N. C. ,  Shamim, M. S. ,  Machol, I. ,  Rao, S. S. ,  Huntley, M. H. ,  Lander, E. S.  and  Aiden, E. L.  (2016) Juicer provides a one-click system for analyzing loop-resolution Hi-C experiments. Cell Syst., 3, 95–98
doi: 10.1016/j.cels.2016.07.002 pmid: 27467249
16 Imakaev, M., Fudenberg,  G., McCord, R. P. ,  Naumova, N. ,  Goloborodko, A. ,  Lajoie, B. R. ,  Dekker, J.  and  Mirny, L. A.  (2012) Iterative correction of Hi-C data reveals hallmarks of chromosome organization. Nat. Methods, 9, 999–1003
doi: 10.1038/nmeth.2148 pmid: 22941365
17 Wingett, S., Ewels,  P., Furlan-Magaril, M., Nagano, T. ,  Schoenfelder, S. ,  Fraser, P.  and  Andrews, S.  (2015) HiCUP: pipeline for mapping and processing Hi-C data. F1000Res, 4, 1310
pmid: 26835000
18 Servant, N., Varoquaux,  N., Lajoie, B. R. ,  Viara, E. ,  Chen, C. J. ,  Vert, J. P. ,  Heard, E. ,  Dekker, J.  and  Barillot, E.  (2015) HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biol., 16, 259
doi: 10.1186/s13059-015-0831-x pmid: 26619908
19 Serra, F., Baù,  D., Filion, G.  and  Marti-Renom, M. A.  (2016) Structural features of the fly chromatin colors revealed by automatic three-dimensional modeling. bioRxiv, doi: https://doi.org/10.1101/036764
20 Li, H., Handsaker,  B., Wysoker, A. ,  Fennell, T. ,  Ruan, J. ,  Homer, N. ,  Marth, G. ,  Abecasis, G. ,  Durbin, R. , and the 1000 Genome Project Data Processing Subgroup. (2009) The sequence alignment/map format and SAMtools. Bioinformatics, 25, 2078–2079
doi: 10.1093/bioinformatics/btp352 pmid: 19505943
21 Ma, W., Ay,  F., Lee, C. ,  Gulsoy,  G. ,  Deng, X. ,  Cook, S. ,  Hesson,  J. ,  Cavanaugh, C. ,  Ware, C. B. ,  Krumm, A. , et al. (2015) Fine-scale chromatin interaction maps reveal the cis-regulatory landscape of human lincRNA genes. Nat. Methods, 12, 71–78
doi: 10.1038/nmeth.3205 pmid: 25437436
22 Hu, M., Deng,  K., Selvaraj, S. ,  Qin, Z. ,  Ren, B.  and  Liu, J. S.  (2012) HiCNorm: removing biases in Hi-C data via Poisson regression. Bioinformatics, 28, 3131–3133
doi: 10.1093/bioinformatics/bts570 pmid: 23023982
23 Knight, P. A.  and  Ruiz, D.  (2013) A fast algorithm for matrix balancing. IMA J. Numer. Anal., 33, 1029–1047
doi: 10.1093/imanum/drs019
24 Yaffe, E. and Tanay,  A. (2011) Probabilistic modeling of Hi-C contact maps eliminates systematic biases to characterize global chromosomal architecture. Nat. Genet., 43, 1059–1065
doi: 10.1038/ng.947 pmid: 22001755
25 Rao, S. S., Huntley,  M. H., Durand, N. C. ,  Stamenova, E. K. ,  Bochkov,  I. D. ,  Robinson, J. T. ,  Sanborn, A. L. ,  Machol, I. ,  Omer, A. D. ,  Lander, E. S. , et al. (2014) A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell, 159, 1665–1680
doi: 10.1016/j.cell.2014.11.021 pmid: 25497547
26 Sexton, T., Yaffe,  E., Kenigsberg, E., Bantignies, F., Leblanc, B. ,  Hoichman, M. ,  Parrinello, H. ,  Tanay, A.  and  Cavalli, G.  (2012) Three-dimensional folding and functional organization principles of the Drosophila genome. Cell, 148, 458–472
doi: 10.1016/j.cell.2012.01.010 pmid: 22265598
27 Filippova, D., Patro,  R., Duggal, G.  and  Kingsford, C.  (2014) Identification of alternative topological domains in chromatin. Algorithms Mol. Biol., 9, 14
doi: 10.1186/1748-7188-9-14 pmid: 24868242
28 Lévy-Leduc, C. ,  Delattre,  M. ,  Mary-Huard, T.  and  Robin, S.  (2014) Two-dimensional segmentation for analyzing Hi-C data. Bioinformatics, 30, i386–i392
doi: 10.1093/bioinformatics/btu443 pmid: 25161224
29 Wang, Y., Li,  Y., Gao, J.  and  Zhang,  M. Q.  (2015) A novel method to identify topological domains using Hi-C data. Quant. Biol., 3, 81–89
doi: 10.1007/s40484-015-0047-9
30 Zhou, X., Lowdon,  R. F., Li, D. ,  Lawson, H. A. ,  Madden, P. A. ,  Costello, J. F.  and  Wang, T.  (2013) Exploring long-range genome interactions using the WashU Epigenome Browser. Nat. Methods, 10, 375–376
doi: 10.1038/nmeth.2440 pmid: 23629413
31 The 3D Genome Browser. Available from: 
32 Karolchik, D., Barber,  G. P., Casper, J. ,  Clawson, H. ,  Cline, M. S. ,  Diekhans, M. ,  Dreszer, T. R. ,  Fujita, P. A. ,  Guruvadoo, L. ,  Haeussler, M. , et al. (2014) The UCSC Genome Browser database: 2014 update. Nucleic Acids Res., 42, D764–D770
doi: 10.1093/nar/gkt1168 pmid: 24270787
33 Asbury, T. M. ,  Mitman, M. ,  Tang, J.  and  Zheng, W. J.  (2010) Genome3D: a viewer-model framework for integrating and visualizing multi-scale epigenomic information within a three-dimensional genome. BMC Bioinformatics, 11, 444
doi: 10.1186/1471-2105-11-444 pmid: 20813045
34 Lewis, T. E., Sillitoe,  I., Andreeva, A. ,  Blundell, T. L. ,  Buchan, D. W. ,  Chothia, C. ,  Cozzetto, D. ,  Dana, J. M. ,  Filippis, I. ,  Gough, J. , et al. (2015) Genome3D: exploiting structure to help users understand their sequences. Nucleic Acids Res., 43, D382–D386
doi: 10.1093/nar/gku973 pmid: 25348407
35 Lewis, T. E., Sillitoe,  I., Andreeva, A. ,  Blundell, T. L. ,  Buchan, D. W. ,  Chothia, C. ,  Cuff, A. ,  Dana, J. M. ,  Filippis, I. ,  Gough, J. , et al. (2013) Genome3D: a UK collaborative project to annotate genomic sequences with predicted 3D structures based on SCOP and CATH domains. Nucleic Acids Res., 41, D499–D507
doi: 10.1093/nar/gks1266 pmid: 23203986
36 TADkit. available from 
37 Ay, F. and Noble,  W. S. (2015) Analysis methods for studying the 3D architecture of the genome. Genome Biol., 16, 183
doi: 10.1186/s13059-015-0745-7 pmid: 26328929
38 Schmitt, A. D. ,  Hu, M. and Ren, B. (2016) Genome-wide mapping and analysis of chromosome architecture. Nat. Rev. Mol. Cell Biol., 17, 743–755
doi: 10.1038/nrm.2016.104 pmid: 27580841
39 Ashish, N., Dewan,  P., Ambite, J. L.  and  Toga, A. W.  (2015) GEM: the GAAIN entity mapper. Data Integr. Life Sci., 9162, 13–27
doi: 10.1007/978-3-319-21843-4_2 pmid: 26665184
40 Marco-Sola, S., Sammeth,  M., Guigó, R. and Ribeca, P.  (2012) The GEM mapper: fast, accurate and versatile alignment by filtration. Nat. Methods, 9, 1185–1188
doi: 10.1038/nmeth.2221 pmid: 23103880
41 Durand, N. C. ,  Robinson, J. T. ,  Shamim, M. S. ,  Machol, I. ,  Mesirov, J. P. ,  Lander, E. S.  and  Aiden, E. L.  (2016) Juicebox provides a visualization system for Hi-C contact maps with unlimited zoom. Cell Syst., 3, 99–101
doi: 10.1016/j.cels.2015.07.012 pmid: 27467250
42 Li, W., Gong,  K., Li, Q. ,  Alber, F.  and  Zhou, X. J.  (2015) Hi-Corrector: a fast, scalable and memory-efficient package for normalizing large-scale Hi-C data. Bioinformatics, 31, 960–962
doi: 10.1093/bioinformatics/btu747 pmid: 25391400
43 Sauria, M. E. ,  Phillips-Cremins, J. E. ,  Corces, V. G.  and  Taylor, J.  (2015) HiFive: a tool suite for easy and efficient HiC and 5C data analysis. Genome Biol., 16, 237
doi: 10.1186/s13059-015-0806-y pmid: 26498826
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed