The PyMiers

Monday 24 February 2014

[Python] docutils package (hay nhật ký tìm hiểu 1 python package)

Bài viết này dành cho những ai biết các khái niệm pip, virtualenv, package/module trong python. Hoặc những ai muốn xem ví dụ sử dụng một số câu lệnh để khám phá 1 directory.

Docutils is a modular system for processing documentation into useful formats, such as HTML, XML, and LaTeX. For input Docutils supports reStructuredText, an easy-to-read, what-you-see-is-what-you-get plaintext markup syntax.

Tóm lại module (hay package) này thực hiện các công việc giúp đọc 1 file .rst (reStructuredText) và cho phép xuất ra các output khác nhau (HTML, XML, LaTeX)

Ví dụ: monitor.rst out.html
Document của docutils khá là sơ sài, có mỗi page này có vẻ có chút thông tin:

Các bước hoạt động

docutils chuyển đổi 1 file .rst sang .html qua 4 giai đoạn:
1. Reader : đọc document từ source file và chuyển cho Parser
2. Parser: phân tích document nhận được, tạo 1node tree document.
3. Transform: thực hiện tranform ví dụ như biến 1 reference thành 1 link cụ thể.
4. Writer: nhận node tree sau khi transform và thực hiện ghi ra file đích.

Introspect docutils (soi và ngắm)

Để cho sạch sẽ, cài docutils vào 1 virtualenv riêng.

hvn@archhvn: /tmp () $ virtualenv2 crazy
New python executable in crazy/bin/python2
Also creating executable in crazy/bin/python
Installing Setuptools.................................................................................................................................
Installing Pip........................................................................................................................................
hvn@archhvn: /tmp () $ . crazy/bin/activate
(crazy)hvn@archhvn: /tmp () $ pip install docutils
Downloading/unpacking docutils
  Downloading docutils-0.11.tar.gz (1.6MB): 1.6MB downloaded
Successfully installed docutils
Cleaning up...

Tổng số file python code:

(crazy)hvn@archhvn: /tmp/crazy/lib/python2.7/site-packages/docutils () $ find . -type f  -name '*.py' | wc -l
Có vẻ nhiều, nhưng bỏ đi các file languages/ thì chỉ còn:
 $ find . -type f  -name '*.py' | grep -v languages | wc -l
Các thư mục:
$ find . -type d

Như phần phân tích cách hoạt động, ta thấy code được bố trí thành các sub-packages, mỗi sub-package chứa 1 thành phần. Mỗi file trong các subpackage implement các class base cho các file bên trong subpackage đó.

Việc quan sát các thành phần như vừa làm ở trên có thể sử dụng lệnh `tree` (không có thì cài), hay ls -R.

Đếm dòng 10 file có nhiều line nhất

$ find . -name '*.py' -exec wc -l {} \; | sort -nr | head
5249 ./utils/math/
3291 ./writers/odf_odt/
3080 ./writers/latex2e/
3072 ./parsers/rst/
2204 ./
1734 ./writers/html4css1/
1538 ./
1157 ./writers/
905 ./transforms/
904 ./utils/
Xem ở top-level:
$ find . -maxdepth 1 ! -name '*.pyc'  #(bỏ hết các file *.pyc)
./ # quan trọng nhất , chứa các helper method để dùng docutils
./ # khá là trừu tượng, docutils hoạt động như 1 statemachine
./ # chứa 3 ví dụ đơn giản hướng dẫn dùng docutils ở code level
./ # chứa các base class chung nhất
./ # parse config, ...
./  # chứa các class về node và tree, bởi docutils đọc ReST vào và tạo thành 1 node tree. Implement visitor theo pattern Visitor của GoF95
./languages # support multiply langs
./parsers # chứa các parser (chỉ có rst )
./readers # chứa các reader
./transforms # chứa các transform
./utils # chứa các function hỗ trợ
./writers # chứa các writer như HTML, XML, ODT ...

Docutils được viết theo OO, dễ dàng tìm được hàng đống class:

 $ grep '^class' *.py Publisher: Values(optparse.Values): Option(optparse.Option): OptionParser(optparse.OptionParser, docutils.SettingsSpec): ConfigParser(CP.RawConfigParser): ConfigDeprecationWarning(DeprecationWarning): ApplicationError(StandardError): DataError(ApplicationError): pass SettingsSpec: TransformSpec: Component(SettingsSpec, TransformSpec): InputError(IOError): pass OutputError(IOError): pass Input(TransformSpec): Output(TransformSpec):

Ngoài phần example ra, khó có thể biết cách dùng docutils thế nào, may mắn là có sẵn các script CLI mà docutils cung cấp, ta sẽ dùng 1 chương trình debuger để chọc vào xem docutils hoạt động thế nào.

Khám phá
$ ls /tmp/crazy/bin/rst2*
/tmp/crazy/bin/   /tmp/crazy/bin/  /tmp/crazy/bin/
/tmp/crazy/bin/  /tmp/crazy/bin/             /tmp/crazy/bin/
/tmp/crazy/bin/    /tmp/crazy/bin/       /tmp/crazy/bin/

Ta có thể thử với /tmp/crazy/bin/
Cài ipdb (ipython + pdb) để debug, debugger is your friend!

apt-get install -y python-dev
pip install -y ipdb
Giờ chỉ cần thêm 2 dòng vào trước đoạn code bạn muốn tìm hiểu, chạy script để nó nhảy ra ipdb rồi dùng debugger này để khám phá docutils.

import ipdb
Tổng kết
- docutils được sử dụng bởi sphinx, và nhiều project liên quan đến document khác, nên chất lượng code thuộc loại rất tốt.
- docutils có cách parse script argv khá hay, nó không để ở level cao nhất của script mà ẩn ẩn phía dưói.

Ví dụ, đây là nội dung toàn bộ file script

 $ cat /tmp/crazy/bin/

# $Id: 4564 2006-05-21 20:44:42Z wiemann $
# Author: David Goodger <>
# Copyright: This module has been placed in the public domain.

A minimal front end to the Docutils Publisher, producing HTML.

    import locale
    locale.setlocale(locale.LC_ALL, '')

from docutils.core import publish_cmdline, default_description

description = ('Generates (X)HTML documents from standalone reStructuredText '
               'sources.  ' + default_description)

publish_cmdline(writer_name='html', description=description)

- chứa các publisher, là phần hồn của docutils, nó sử dụng các thành phần reader, parser, transform và writer để tạo thành 1 quy trình hoàn chỉnh.
- trong code có nhiều đoạn dùng "or" để gán default value khá hay:
x = xyz or "5"

1 comment:

  1. các câu lệnh trong bài này đã được chuyển thể thành script :
