php-doxygen/html_2tokenizer_2state_8c_source.html

/*

 * Copyright (C) 2018-2020 Alexander Borisov

 *

 * Author: Alexander Borisov <borisov@lexbor.com>

 */


#include "lexbor/html/tokenizer/state.h"

#include "lexbor/html/tokenizer/state_comment.h"

#include "lexbor/html/tokenizer/state_doctype.h"


#define LEXBOR_STR_RES_ANSI_REPLACEMENT_CHARACTER

#define LEXBOR_STR_RES_ALPHANUMERIC_CHARACTER

#define LEXBOR_STR_RES_REPLACEMENT_CHARACTER

#define LEXBOR_STR_RES_ALPHA_CHARACTER

#define LEXBOR_STR_RES_MAP_HEX

#define LEXBOR_STR_RES_MAP_NUM

#include "lexbor/core/str_res.h"

#include "lexbor/core/swar.h"


#define LXB_HTML_TOKENIZER_RES_ENTITIES_SBST

#include "lexbor/html/tokenizer/res.h"


const lxb_tag_data_t *

lxb_tag_append_lower(lexbor_hash_t *hash,

                     const lxb_char_t *name, size_t length);


lxb_dom_attr_data_t *

lxb_dom_attr_local_name_append(lexbor_hash_t *hash,

                               const lxb_char_t *name, size_t length);


static const lxb_char_t *

lxb_html_tokenizer_state_data(lxb_html_tokenizer_t *tkz,

                              const lxb_char_t *data, const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_plaintext(lxb_html_tokenizer_t *tkz,

                                   const lxb_char_t *data,

                                   const lxb_char_t *end);


/* Tag */

static const lxb_char_t *

lxb_html_tokenizer_state_tag_open(lxb_html_tokenizer_t *tkz,

                                  const lxb_char_t *data,

                                  const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_end_tag_open(lxb_html_tokenizer_t *tkz,

                                      const lxb_char_t *data,

                                      const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_tag_name(lxb_html_tokenizer_t *tkz,

                                  const lxb_char_t *data,

                                  const lxb_char_t *end);


/* Attribute */

static const lxb_char_t *

lxb_html_tokenizer_state_attribute_name(lxb_html_tokenizer_t *tkz,

                                        const lxb_char_t *data,

                                        const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_after_attribute_name(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_before_attribute_value(lxb_html_tokenizer_t *tkz,

                                                const lxb_char_t *data,

                                                const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_double_quoted(lxb_html_tokenizer_t *tkz,

                                                       const lxb_char_t *data,

                                                       const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_single_quoted(lxb_html_tokenizer_t *tkz,

                                                       const lxb_char_t *data,

                                                       const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_unquoted(lxb_html_tokenizer_t *tkz,

                                                  const lxb_char_t *data,

                                                  const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_after_attribute_value_quoted(lxb_html_tokenizer_t *tkz,

                                                      const lxb_char_t *data,

                                                      const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_bogus_comment_before(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_bogus_comment(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end);


/* Markup declaration */

static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_open(lxb_html_tokenizer_t *tkz,

                                                 const lxb_char_t *data,

                                                 const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_comment(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_doctype(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_cdata(lxb_html_tokenizer_t *tkz,

                                                  const lxb_char_t *data,

                                                  const lxb_char_t *end);


/* CDATA Section */

static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_before(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_bracket(lxb_html_tokenizer_t *tkz,

                                               const lxb_char_t *data,

                                               const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_end(lxb_html_tokenizer_t *tkz,

                                           const lxb_char_t *data,

                                           const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_attr(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end);


static const lxb_char_t *

_lxb_html_tokenizer_state_char_ref(lxb_html_tokenizer_t *tkz,

                                   const lxb_char_t *data,

                                   const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_named(lxb_html_tokenizer_t *tkz,

                                        const lxb_char_t *data,

                                        const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_ambiguous_ampersand(lxb_html_tokenizer_t *tkz,

                                                      const lxb_char_t *data,

                                                      const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_numeric(lxb_html_tokenizer_t *tkz,

                                          const lxb_char_t *data,

                                          const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_hexademical_start(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_decimal_start(lxb_html_tokenizer_t *tkz,

                                                const lxb_char_t *data,

                                                const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_hexademical(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_decimal(lxb_html_tokenizer_t *tkz,

                                          const lxb_char_t *data,

                                          const lxb_char_t *end);


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_numeric_end(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end);


static size_t

lxb_html_tokenizer_state_to_ascii_utf_8(size_t codepoint, lxb_char_t *data);


/*

 * Helper function. No in the specification. For 12.2.5.1 Data state

 */

const lxb_char_t *


lxb_html_tokenizer_state_data_before(lxb_html_tokenizer_t *tkz,

                                     const lxb_char_t *data,

                                     const lxb_char_t *end)

{

    if (tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_set_begin(tkz, data);

    }


    /*

     * Text node init param sets before emit token.

     */


    tkz->state = lxb_html_tokenizer_state_data;


    return data;

}


/*

 * 12.2.5.1 Data state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_data(lxb_html_tokenizer_t *tkz,

                              const lxb_char_t *data, const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    data = lexbor_swar_seek4(data, end, 0x3C, 0x26, 0x0D, 0x00);


    while (data != end) {

        switch (*data) {

            /* U+003C LESS-THAN SIGN (<) */

            case 0x3C:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_set_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_tag_open;

                return (data + 1);


            /* U+0026 AMPERSAND (&) */

            case 0x26:

                lxb_html_tokenizer_state_append_data_m(tkz, data + 1);


                tkz->state = lxb_html_tokenizer_state_char_ref;

                tkz->state_return = lxb_html_tokenizer_state_data;


                return data + 1;


            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_data;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                if (tkz->is_eof) {

                    /* Emit TEXT node if not empty */

                    if (tkz->token->begin != NULL) {

                        lxb_html_tokenizer_state_token_set_end_oef(tkz);

                    }


                    if (tkz->token->begin != tkz->token->end) {

                        tkz->token->tag_id = LXB_TAG__TEXT;


                        lxb_html_tokenizer_state_append_data_m(tkz, data);


                        lxb_html_tokenizer_state_set_text(tkz);

                        lxb_html_tokenizer_state_token_done_wo_check_m(tkz,end);

                    }


                    return end;

                }


                if (SIZE_MAX - tkz->token->null_count < 1) {

                    tkz->status = LXB_STATUS_ERROR_OVERFLOW;

                    return end;

                }


                tkz->token->null_count++;


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * Helper function. No in the specification. For 12.2.5.5 PLAINTEXT state

 */

const lxb_char_t *


lxb_html_tokenizer_state_plaintext_before(lxb_html_tokenizer_t *tkz,

                                          const lxb_char_t *data,

                                          const lxb_char_t *end)

{

    if (tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_set_begin(tkz, data);

    }


    tkz->token->tag_id = LXB_TAG__TEXT;


    tkz->state = lxb_html_tokenizer_state_plaintext;


    return data;

}


/*

 * 12.2.5.5 PLAINTEXT state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_plaintext(lxb_html_tokenizer_t *tkz,

                                   const lxb_char_t *data,

                                   const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_plaintext;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                lxb_html_tokenizer_state_append_data_m(tkz, data);


                if (tkz->is_eof) {

                    if (tkz->token->begin != NULL) {

                        lxb_html_tokenizer_state_token_set_end_oef(tkz);

                    }


                    lxb_html_tokenizer_state_set_text(tkz);

                    lxb_html_tokenizer_state_token_done_m(tkz, end);


                    return end;

                }


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.6 Tag open state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_tag_open(lxb_html_tokenizer_t *tkz,

                                  const lxb_char_t *data, const lxb_char_t *end)

{

    /* ASCII alpha */

    if (lexbor_str_res_alpha_character[ *data ] != LEXBOR_STR_RES_SLIP) {

        tkz->state = lxb_html_tokenizer_state_tag_name;


        lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);

        lxb_html_tokenizer_state_token_set_begin(tkz, data);


        return data;

    }


    /* U+002F SOLIDUS (/) */

    else if (*data == 0x2F) {

        tkz->state = lxb_html_tokenizer_state_end_tag_open;


        return (data + 1);

    }


    /* U+0021 EXCLAMATION MARK (!) */

    else if (*data == 0x21) {

        tkz->state = lxb_html_tokenizer_state_markup_declaration_open;


        lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);


        return (data + 1);

    }


    /* U+003F QUESTION MARK (?) */

    else if (*data == 0x3F) {

        tkz->state = lxb_html_tokenizer_state_bogus_comment_before;


        lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);

        lxb_html_tokenizer_state_token_set_begin(tkz, data);


        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_UNQUMAINOFTANA);


        return data;

    }


    /* EOF */

    else if (*data == 0x00) {

        if (tkz->is_eof) {

            lxb_html_tokenizer_state_append_m(tkz, "<", 1);


            lxb_html_tokenizer_state_token_set_end_oef(tkz);

            lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);


            lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->token->end,

                                         LXB_HTML_TOKENIZER_ERROR_EOBETANA);


            return end;

        }

    }


    lxb_html_tokenizer_state_append_m(tkz, "<", 1);


    lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                 LXB_HTML_TOKENIZER_ERROR_INFICHOFTANA);


    tkz->state = lxb_html_tokenizer_state_data;


    return data;

}


/*

 * 12.2.5.7 End tag open state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_end_tag_open(lxb_html_tokenizer_t *tkz,

                                      const lxb_char_t *data,

                                      const lxb_char_t *end)

{

    /* ASCII alpha */

    if (lexbor_str_res_alpha_character[ *data ] != LEXBOR_STR_RES_SLIP) {

        tkz->state = lxb_html_tokenizer_state_tag_name;


        lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);

        lxb_html_tokenizer_state_token_set_begin(tkz, data);


        tkz->token->type |= LXB_HTML_TOKEN_TYPE_CLOSE;


        return data;

    }


    /* U+003E GREATER-THAN SIGN (>) */

    else if (*data == 0x3E) {

        tkz->state = lxb_html_tokenizer_state_data;


        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_MIENTANA);


        return (data + 1);

    }


    /* Fake EOF */

    else if (*data == 0x00) {

        if (tkz->is_eof) {

            lxb_html_tokenizer_state_append_m(tkz, "</", 2);


            lxb_html_tokenizer_state_token_set_end_oef(tkz);

            lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);


            lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->token->end,

                                         LXB_HTML_TOKENIZER_ERROR_EOBETANA);


            return end;

        }

    }


    tkz->state = lxb_html_tokenizer_state_bogus_comment_before;


    lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                 LXB_HTML_TOKENIZER_ERROR_INFICHOFTANA);


    lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, end);

    lxb_html_tokenizer_state_token_set_begin(tkz, data);


    return data;

}


/*

 * 12.2.5.8 Tag name state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_tag_name(lxb_html_tokenizer_t *tkz,

                                  const lxb_char_t *data, const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /*

             * U+0009 CHARACTER TABULATION (tab)

             * U+000A LINE FEED (LF)

             * U+000C FORM FEED (FF)

             * U+000D CARRIAGE RETURN (CR)

             * U+0020 SPACE

             */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_set_tag_m(tkz, tkz->start, tkz->pos);

                lxb_html_tokenizer_state_token_set_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_before_attribute_name;

                return (data + 1);


            /* U+002F SOLIDUS (/) */

            case 0x2F:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_set_tag_m(tkz, tkz->start, tkz->pos);

                lxb_html_tokenizer_state_token_set_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_self_closing_start_tag;

                return (data + 1);


            /* U+003E GREATER-THAN SIGN (>) */

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_data_before;


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_set_tag_m(tkz, tkz->start, tkz->pos);

                lxb_html_tokenizer_state_token_set_end(tkz, data);

                lxb_html_tokenizer_state_token_done_m(tkz, end);


                return (data + 1);


            /* U+0000 NULL */

            case 0x00:

                if (tkz->is_eof) {

                    lxb_html_tokenizer_state_token_set_end_oef(tkz);


                    lxb_html_tokenizer_error_add(tkz->parse_errors,

                                               tkz->token->end,

                                               LXB_HTML_TOKENIZER_ERROR_EOINTA);

                    return end;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.32 Before attribute name state

 */

const lxb_char_t *


lxb_html_tokenizer_state_before_attribute_name(lxb_html_tokenizer_t *tkz,

                                               const lxb_char_t *data,

                                               const lxb_char_t *end)

{

    lxb_html_token_attr_t *attr;


    while (data != end) {

        switch (*data) {

            /*

             * U+0009 CHARACTER TABULATION (tab)

             * U+000A LINE FEED (LF)

             * U+000C FORM FEED (FF)

             * U+000D CARRIAGE RETURN (CR)

             * U+0020 SPACE

             */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

                break;


            /* U+003D EQUALS SIGN (=) */

            case 0x3D:

                lxb_html_tokenizer_state_token_attr_add_m(tkz, attr, end);

                lxb_html_tokenizer_state_token_attr_set_name_begin(tkz, data);


                lxb_html_tokenizer_state_append_m(tkz, data, 1);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                         LXB_HTML_TOKENIZER_ERROR_UNEQSIBEATNA);


                tkz->state = lxb_html_tokenizer_state_attribute_name;

                return (data + 1);


            /*

             * U+002F SOLIDUS (/)

             * U+003E GREATER-THAN SIGN (>)

             */

            case 0x2F:

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_after_attribute_name;

                return data;


            /* EOF */

            case 0x00:

                if (tkz->is_eof) {

                    tkz->state = lxb_html_tokenizer_state_after_attribute_name;

                    return data;

                }

                /* fall through */


            /* Anything else */

            default:

                lxb_html_tokenizer_state_token_attr_add_m(tkz, attr, end);

                lxb_html_tokenizer_state_token_attr_set_name_begin(tkz, data);


                tkz->state = lxb_html_tokenizer_state_attribute_name;

                return data;

        }


        data++;

    }


    return data;

}


/*

 * 12.2.5.33 Attribute name state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_attribute_name(lxb_html_tokenizer_t *tkz,

                                        const lxb_char_t *data,

                                        const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /*

             * U+0009 CHARACTER TABULATION (tab)

             * U+000A LINE FEED (LF)

             * U+000C FORM FEED (FF)

             * U+000D CARRIAGE RETURN (CR)

             * U+0020 SPACE

             * U+002F SOLIDUS (/)

             * U+003E GREATER-THAN SIGN (>)

             */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

            case 0x2F:

            case 0x3E:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_set_name_m(tkz);

                lxb_html_tokenizer_state_token_attr_set_name_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_after_attribute_name;

                return data;


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                if (tkz->is_eof) {

                    lxb_html_tokenizer_state_token_attr_set_name_end_oef(tkz);


                    tkz->state = lxb_html_tokenizer_state_after_attribute_name;

                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;


            /* U+003D EQUALS SIGN (=) */

            case 0x3D:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_set_name_m(tkz);

                lxb_html_tokenizer_state_token_attr_set_name_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_before_attribute_value;

                return (data + 1);


            /*

             * U+0022 QUOTATION MARK (")

             * U+0027 APOSTROPHE (')

             * U+003C LESS-THAN SIGN (<)

             */

            case 0x22:

            case 0x27:

            case 0x3C:

                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                           LXB_HTML_TOKENIZER_ERROR_UNCHINATNA);

                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.34 After attribute name state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_after_attribute_name(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end)

{

    lxb_html_token_attr_t *attr;


    while (data != end) {

        switch (*data) {

            /*

             * U+0009 CHARACTER TABULATION (tab)

             * U+000A LINE FEED (LF)

             * U+000C FORM FEED (FF)

             * U+000D CARRIAGE RETURN (CR)

             * U+0020 SPACE

             */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

                break;


            /* U+002F SOLIDUS (/) */

            case 0x2F:

                tkz->state = lxb_html_tokenizer_state_self_closing_start_tag;

                return (data + 1);


            /* U+003D EQUALS SIGN (=) */

            case 0x3D:

                tkz->state = lxb_html_tokenizer_state_before_attribute_value;

                return (data + 1);


            /* U+003E GREATER-THAN SIGN (>) */

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_data_before;


                lxb_html_tokenizer_state_token_done_m(tkz, end);


                return (data + 1);


            case 0x00:

                if (tkz->is_eof) {

                    lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                               LXB_HTML_TOKENIZER_ERROR_EOINTA);

                    return end;

                }

                /* fall through */


            default:

                lxb_html_tokenizer_state_token_attr_add_m(tkz, attr, end);

                lxb_html_tokenizer_state_token_attr_set_name_begin(tkz, data);


                tkz->state = lxb_html_tokenizer_state_attribute_name;

                return data;

        }


        data++;

    }


    return data;

}


/*

 * 12.2.5.35 Before attribute value state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_before_attribute_value(lxb_html_tokenizer_t *tkz,

                                                const lxb_char_t *data,

                                                const lxb_char_t *end)

{

    while (data != end) {

        switch (*data) {

            /*

             * U+0009 CHARACTER TABULATION (tab)

             * U+000A LINE FEED (LF)

             * U+000C FORM FEED (FF)

             * U+000D CARRIAGE RETURN (CR)

             * U+0020 SPACE

             */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

                break;


            /* U+0022 QUOTATION MARK (") */

            case 0x22:

                tkz->state =

                    lxb_html_tokenizer_state_attribute_value_double_quoted;


                return (data + 1);


            /* U+0027 APOSTROPHE (') */

            case 0x27:

                tkz->state =

                    lxb_html_tokenizer_state_attribute_value_single_quoted;


                return (data + 1);


            /* U+003E GREATER-THAN SIGN (>) */

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_data_before;


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_MIATVA);


                lxb_html_tokenizer_state_token_done_m(tkz, end);


                return (data + 1);


            default:

                tkz->state = lxb_html_tokenizer_state_attribute_value_unquoted;

                return data;

        }


        data++;

    }


    return data;

}


/*

 * 12.2.5.36 Attribute value (double-quoted) state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_double_quoted(lxb_html_tokenizer_t *tkz,

                                                       const lxb_char_t *data,

                                                       const lxb_char_t *end)

{

    if (tkz->token->attr_last->value_begin == NULL && tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_attr_set_value_begin(tkz, data);

    }


    lxb_html_tokenizer_state_begin_set(tkz, data);


    data = lexbor_swar_seek4(data, end, 0x22, 0x26, 0x0D, 0x00);


    while (data != end) {

        switch (*data) {

            /* U+0022 QUOTATION MARK (") */

            case 0x22:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_attr_set_value_end(tkz, data);

                lxb_html_tokenizer_state_set_value_m(tkz);


                tkz->state =

                    lxb_html_tokenizer_state_after_attribute_value_quoted;


                return (data + 1);


            /* U+0026 AMPERSAND (&) */

            case 0x26:

                lxb_html_tokenizer_state_append_data_m(tkz, data + 1);


                tkz->state = lxb_html_tokenizer_state_char_ref_attr;

                tkz->state_return = lxb_html_tokenizer_state_attribute_value_double_quoted;


                return data + 1;


            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_attribute_value_double_quoted;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                if (tkz->is_eof) {

                    if (tkz->token->attr_last->value_begin != NULL) {

                     lxb_html_tokenizer_state_token_attr_set_value_end_oef(tkz);

                    }


                    lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                               LXB_HTML_TOKENIZER_ERROR_EOINTA);

                    return end;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.37 Attribute value (single-quoted) state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_single_quoted(lxb_html_tokenizer_t *tkz,

                                                       const lxb_char_t *data,

                                                       const lxb_char_t *end)

{

    if (tkz->token->attr_last->value_begin == NULL && tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_attr_set_value_begin(tkz, data);

    }


    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /* U+0027 APOSTROPHE (') */

            case 0x27:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_attr_set_value_end(tkz, data);

                lxb_html_tokenizer_state_set_value_m(tkz);


                tkz->state =

                    lxb_html_tokenizer_state_after_attribute_value_quoted;


                return (data + 1);


            /* U+0026 AMPERSAND (&) */

            case 0x26:

                lxb_html_tokenizer_state_append_data_m(tkz, data + 1);


                tkz->state = lxb_html_tokenizer_state_char_ref_attr;

                tkz->state_return = lxb_html_tokenizer_state_attribute_value_single_quoted;


                return data + 1;


            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_attribute_value_single_quoted;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                if (tkz->is_eof) {

                    if (tkz->token->attr_last->value_begin != NULL) {

                     lxb_html_tokenizer_state_token_attr_set_value_end_oef(tkz);

                    }


                    lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                               LXB_HTML_TOKENIZER_ERROR_EOINTA);

                    return end;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.38 Attribute value (unquoted) state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_attribute_value_unquoted(lxb_html_tokenizer_t *tkz,

                                                  const lxb_char_t *data,

                                                  const lxb_char_t *end)

{

    if (tkz->token->attr_last->value_begin == NULL && tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_attr_set_value_begin(tkz, data);

    }


    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

           /*

            * U+0009 CHARACTER TABULATION (tab)

            * U+000A LINE FEED (LF)

            * U+000C FORM FEED (FF)

            * U+000D CARRIAGE RETURN (CR)

            * U+0020 SPACE

            */

            case 0x09:

            case 0x0A:

            case 0x0C:

            case 0x0D:

            case 0x20:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_attr_set_value_end(tkz, data);

                lxb_html_tokenizer_state_set_value_m(tkz);


                tkz->state = lxb_html_tokenizer_state_before_attribute_name;

                return (data + 1);


            /* U+0026 AMPERSAND (&) */

            case 0x26:

                lxb_html_tokenizer_state_append_data_m(tkz, data + 1);


                tkz->state = lxb_html_tokenizer_state_char_ref_attr;

                tkz->state_return = lxb_html_tokenizer_state_attribute_value_unquoted;


                return data + 1;


            /* U+003E GREATER-THAN SIGN (>) */

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_data_before;


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_attr_set_value_end(tkz, data);

                lxb_html_tokenizer_state_set_value_m(tkz);


                lxb_html_tokenizer_state_token_done_m(tkz, end);


                return (data + 1);


            /*

             * U+0000 NULL

             * EOF

             */

            case 0x00:

                if (tkz->is_eof) {

                    if (tkz->token->attr_last->value_begin != NULL) {

                     lxb_html_tokenizer_state_token_attr_set_value_end_oef(tkz);

                    }


                    lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                                 LXB_HTML_TOKENIZER_ERROR_EOINTA);

                    return end;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);

                lxb_html_tokenizer_state_append_replace_m(tkz);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;


            /*

             * U+0022 QUOTATION MARK (")

             * U+0027 APOSTROPHE (')

             * U+003C LESS-THAN SIGN (<)

             * U+003D EQUALS SIGN (=)

             * U+0060 GRAVE ACCENT (`)

             */

            case 0x22:

            case 0x27:

            case 0x3C:

            case 0x3D:

            case 0x60:

                lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->token->end,

                                             LXB_HTML_TOKENIZER_ERROR_UNCHINUNATVA);

                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.39 After attribute value (quoted) state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_after_attribute_value_quoted(lxb_html_tokenizer_t *tkz,

                                                      const lxb_char_t *data,

                                                      const lxb_char_t *end)

{

    switch (*data) {

        /*

         * U+0009 CHARACTER TABULATION (tab)

         * U+000A LINE FEED (LF)

         * U+000C FORM FEED (FF)

         * U+000D CARRIAGE RETURN (CR)

         * U+0020 SPACE

         */

        case 0x09:

        case 0x0A:

        case 0x0C:

        case 0x0D:

        case 0x20:

            tkz->state = lxb_html_tokenizer_state_before_attribute_name;


            return (data + 1);


        /* U+002F SOLIDUS (/) */

        case 0x2F:

            tkz->state = lxb_html_tokenizer_state_self_closing_start_tag;


            return (data + 1);


        /* U+003E GREATER-THAN SIGN (>) */

        case 0x3E:

            tkz->state = lxb_html_tokenizer_state_data_before;


            lxb_html_tokenizer_state_token_done_m(tkz, end);


            return (data + 1);


        /* EOF */

        case 0x00:

            if (tkz->is_eof) {

                lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                             LXB_HTML_TOKENIZER_ERROR_EOINTA);

                return end;

            }

            /* fall through */


        default:

            lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                         LXB_HTML_TOKENIZER_ERROR_MIWHBEAT);


            tkz->state = lxb_html_tokenizer_state_before_attribute_name;


            return data;

    }


    return data;

}


const lxb_char_t *


lxb_html_tokenizer_state_cr(lxb_html_tokenizer_t *tkz, const lxb_char_t *data,

                            const lxb_char_t *end)

{

    lxb_html_tokenizer_state_append_m(tkz, "\n", 1);


    if (*data == 0x0A) {

        data++;

    }


    tkz->state = tkz->state_return;


    return data;

}


/*

 * 12.2.5.40 Self-closing start tag state

 */

const lxb_char_t *


lxb_html_tokenizer_state_self_closing_start_tag(lxb_html_tokenizer_t *tkz,

                                                const lxb_char_t *data,

                                                const lxb_char_t *end)

{

    switch (*data) {

        /* U+003E GREATER-THAN SIGN (>) */

        case 0x3E:

            tkz->state = lxb_html_tokenizer_state_data_before;

            tkz->token->type |= LXB_HTML_TOKEN_TYPE_CLOSE_SELF;


            lxb_html_tokenizer_state_token_done_m(tkz, end);


            return (data + 1);


        /* EOF */

        case 0x00:

            if (tkz->is_eof) {

                lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->token->end,

                                             LXB_HTML_TOKENIZER_ERROR_EOINTA);

                return end;

            }

            /* fall through */


        default:

            lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                         LXB_HTML_TOKENIZER_ERROR_UNSOINTA);


            tkz->state = lxb_html_tokenizer_state_before_attribute_name;


            return data;

    }


    return data;

}


/*

 * Helper function. No in the specification. For 12.2.5.41 Bogus comment state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_bogus_comment_before(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end)

{

    tkz->token->tag_id = LXB_TAG__EM_COMMENT;


    tkz->state = lxb_html_tokenizer_state_bogus_comment;


    return data;

}


/*

 * 12.2.5.41 Bogus comment state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_bogus_comment(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /* U+003E GREATER-THAN SIGN (>) */

            case 0x3E:

                tkz->state = lxb_html_tokenizer_state_data_before;


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_set_end(tkz, data);

                lxb_html_tokenizer_state_set_text(tkz);

                lxb_html_tokenizer_state_token_done_wo_check_m(tkz, end);


                return (data + 1);


            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_bogus_comment;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /*

             * EOF

             * U+0000 NULL

             */

            case 0x00:

                lxb_html_tokenizer_state_append_data_m(tkz, data);


                if (tkz->is_eof) {

                    if (tkz->token->begin != NULL) {

                        lxb_html_tokenizer_state_token_set_end_oef(tkz);

                    }


                    lxb_html_tokenizer_state_set_text(tkz);

                    lxb_html_tokenizer_state_token_done_wo_check_m(tkz, end);


                    return end;

                }


                lxb_html_tokenizer_state_append_replace_m(tkz);

                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                             LXB_HTML_TOKENIZER_ERROR_UNNUCH);

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.42 Markup declaration open state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_open(lxb_html_tokenizer_t *tkz,

                                                 const lxb_char_t *data,

                                                 const lxb_char_t *end)

{

    /* Check first char for change parse state */

    if (tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_set_begin(tkz, data);

    }


    /* U+002D HYPHEN-MINUS characters (-) */

    if (*data == 0x2D) {

        if ((end - data) < 2) {

            tkz->state = lxb_html_tokenizer_state_markup_declaration_comment;

            return (data + 1);

        }


        if (data[1] == 0x2D) {

            tkz->state = lxb_html_tokenizer_state_comment_before_start;

            return (data + 2);

        }

    }

    /*

     * ASCII case-insensitive match for the word "DOCTYPE"

     * U+0044 character (D) or U+0064 character (d)

     */

    else if (*data == 0x44 || *data == 0x64) {

        if ((end - data) < 7) {

            tkz->markup = (lxb_char_t *) "doctype";


            tkz->state = lxb_html_tokenizer_state_markup_declaration_doctype;

            return data;

        }


        if (lexbor_str_data_ncasecmp((lxb_char_t *) "doctype", data, 7)) {

            tkz->state = lxb_html_tokenizer_state_doctype_before;

            return (data + 7);

        }

    }

    /* Case-sensitive match for the string "[CDATA["

     * (the five uppercase letters "CDATA" with a U+005B LEFT SQUARE BRACKET

     * character before and after)

     */

    else if (*data == 0x5B) {

        if ((end - data) < 7) {

            tkz->markup = (lxb_char_t *) "[CDATA[";


            tkz->state = lxb_html_tokenizer_state_markup_declaration_cdata;

            return data;

        }


        if (lexbor_str_data_ncmp((lxb_char_t *) "[CDATA[", data, 7)) {

            lxb_ns_id_t ns = lxb_html_tokenizer_current_namespace(tkz);


            if (ns != LXB_NS_HTML && ns != LXB_NS__UNDEF) {

                data += 7;


                lxb_html_tokenizer_state_token_set_begin(tkz, data);


                tkz->state = lxb_html_tokenizer_state_cdata_section_before;


                return data;

            }


            tkz->state = lxb_html_tokenizer_state_bogus_comment_before;


            return data;

        }

    }


    if (tkz->is_eof) {

        lxb_html_tokenizer_state_token_set_end_oef(tkz);


        tkz->token->begin = tkz->token->end;

    }


    lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                 LXB_HTML_TOKENIZER_ERROR_INOPCO);


    tkz->state = lxb_html_tokenizer_state_bogus_comment_before;


    return data;

}


/*

 * Helper function. No in the specification. For 12.2.5.42

 * For a comment tag <!--

 */

static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_comment(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end)

{

    /* U+002D HYPHEN-MINUS characters (-) */

    if (*data == 0x2D) {

        tkz->state = lxb_html_tokenizer_state_comment_before_start;

        return (data + 1);

    }


    lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                 LXB_HTML_TOKENIZER_ERROR_INOPCO);


    tkz->state = lxb_html_tokenizer_state_bogus_comment_before;

    return data;

}


/*

 * Helper function. No in the specification. For 12.2.5.42

 * For a DOCTYPE tag <!DOCTYPE

 */

static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_doctype(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end)

{

    const lxb_char_t *pos;

    pos = lexbor_str_data_ncasecmp_first(tkz->markup, data, (end - data));


    if (pos == NULL) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_INOPCO);


        tkz->state = lxb_html_tokenizer_state_bogus_comment_before;

        return data;

    }


    if (*pos == '\0') {

        data = (data + (pos - tkz->markup));


        tkz->state = lxb_html_tokenizer_state_doctype_before;

        return data;

    }


    tkz->markup = pos;


    return end;

}


/*

 * Helper function. No in the specification. For 12.2.5.42

 * For a CDATA tag <![CDATA[

 */

static const lxb_char_t *

lxb_html_tokenizer_state_markup_declaration_cdata(lxb_html_tokenizer_t *tkz,

                                                  const lxb_char_t *data,

                                                  const lxb_char_t *end)

{

    const lxb_char_t *pos;

    pos = lexbor_str_data_ncasecmp_first(tkz->markup, data, (end - data));


    if (pos == NULL) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_INOPCO);


        tkz->state = lxb_html_tokenizer_state_bogus_comment_before;

        return data;

    }


    if (*pos == '\0') {

        lxb_ns_id_t ns = lxb_html_tokenizer_current_namespace(tkz);


        if (ns != LXB_NS_HTML && ns != LXB_NS__UNDEF) {

            data = (data + (pos - tkz->markup));


            tkz->state = lxb_html_tokenizer_state_cdata_section_before;

            return data;

        }


        lxb_html_tokenizer_state_append_m(tkz, "[CDATA", 6);


        tkz->state = lxb_html_tokenizer_state_bogus_comment_before;

        return data;

    }


    tkz->markup = pos;


    return end;

}


/*

 * Helper function. No in the specification. For 12.2.5.69

 */

static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_before(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end)

{

    if (tkz->is_eof == false) {

        lxb_html_tokenizer_state_token_set_begin(tkz, data);

    }

    else {

        lxb_html_tokenizer_state_token_set_begin(tkz, tkz->last);

    }


    tkz->token->tag_id = LXB_TAG__TEXT;


    tkz->state = lxb_html_tokenizer_state_cdata_section;


    return data;

}


/*

 * 12.2.5.69 CDATA section state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end)

{

    lxb_html_tokenizer_state_begin_set(tkz, data);


    while (data != end) {

        switch (*data) {

            /* U+005D RIGHT SQUARE BRACKET (]) */

            case 0x5D:

                lxb_html_tokenizer_state_append_data_m(tkz, data);

                lxb_html_tokenizer_state_token_set_end(tkz, data);


                tkz->state = lxb_html_tokenizer_state_cdata_section_bracket;

                return (data + 1);


            /* U+000D CARRIAGE RETURN (CR) */

            case 0x0D:

                if (++data >= end) {

                    lxb_html_tokenizer_state_append_data_m(tkz, data - 1);


                    tkz->state = lxb_html_tokenizer_state_cr;

                    tkz->state_return = lxb_html_tokenizer_state_cdata_section;


                    return data;

                }


                lxb_html_tokenizer_state_append_data_m(tkz, data);

                tkz->pos[-1] = 0x0A;


                lxb_html_tokenizer_state_begin_set(tkz, data + 1);


                if (*data != 0x0A) {

                    lxb_html_tokenizer_state_begin_set(tkz, data);

                    data--;

                }


                break;


            /* EOF */

            case 0x00:

                if (tkz->is_eof) {

                    lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->last,

                                                 LXB_HTML_TOKENIZER_ERROR_EOINCD);


                    if (tkz->token->begin != NULL) {

                        lxb_html_tokenizer_state_append_data_m(tkz, data);

                        lxb_html_tokenizer_state_token_set_end_oef(tkz);

                    }


                    lxb_html_tokenizer_state_set_text(tkz);

                    lxb_html_tokenizer_state_token_done_m(tkz, end);


                    return end;

                }


                if (SIZE_MAX - tkz->token->null_count < 1) {

                    tkz->status = LXB_STATUS_ERROR_OVERFLOW;

                    return end;

                }


                tkz->token->null_count++;


                break;


            default:

                break;

        }


        data++;

    }


    lxb_html_tokenizer_state_append_data_m(tkz, data);


    return data;

}


/*

 * 12.2.5.70 CDATA section bracket state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_bracket(lxb_html_tokenizer_t *tkz,

                                               const lxb_char_t *data,

                                               const lxb_char_t *end)

{

    /* U+005D RIGHT SQUARE BRACKET (]) */

    if (*data == 0x5D) {

        tkz->state = lxb_html_tokenizer_state_cdata_section_end;

        return (data + 1);

    }


    lxb_html_tokenizer_state_append_m(tkz, "]", 1);


    tkz->state = lxb_html_tokenizer_state_cdata_section;


    return data;

}


/*

 * 12.2.5.71 CDATA section end state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_cdata_section_end(lxb_html_tokenizer_t *tkz,

                                           const lxb_char_t *data,

                                           const lxb_char_t *end)

{

    /* U+005D RIGHT SQUARE BRACKET (]) */

    if (*data == 0x5D) {

        lxb_html_tokenizer_state_append_m(tkz, data, 1);

        return (data + 1);

    }

    /* U+003E GREATER-THAN SIGN character */

    else if (*data == 0x3E) {

        tkz->state = lxb_html_tokenizer_state_data_before;


        lxb_html_tokenizer_state_set_text(tkz);

        lxb_html_tokenizer_state_token_done_m(tkz, end);


        return (data + 1);

    }


    lxb_html_tokenizer_state_append_m(tkz, "]]", 2);


    tkz->state = lxb_html_tokenizer_state_cdata_section;


    return data;

}


/*

 * 12.2.5.72 Character reference state

 */

const lxb_char_t *


lxb_html_tokenizer_state_char_ref(lxb_html_tokenizer_t *tkz,

                                  const lxb_char_t *data, const lxb_char_t *end)

{

    tkz->is_attribute = false;


    return _lxb_html_tokenizer_state_char_ref(tkz, data, end);

}


static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_attr(lxb_html_tokenizer_t *tkz,

                                       const lxb_char_t *data,

                                       const lxb_char_t *end)

{

    tkz->is_attribute = true;


    return _lxb_html_tokenizer_state_char_ref(tkz, data, end);

}


static const lxb_char_t *

_lxb_html_tokenizer_state_char_ref(lxb_html_tokenizer_t *tkz,

                                   const lxb_char_t *data,

                                   const lxb_char_t *end)

{

    /* ASCII alphanumeric */

    if (lexbor_str_res_alphanumeric_character[ *data ] != LEXBOR_STR_RES_SLIP) {

        tkz->entity = &lxb_html_tokenizer_res_entities_sbst[1];

        tkz->entity_match = NULL;

        tkz->entity_start = (tkz->pos - 1) - tkz->start;


        tkz->state = lxb_html_tokenizer_state_char_ref_named;


        return data;

    }

    /* U+0023 NUMBER SIGN (#) */

    else if (*data == 0x23) {

        tkz->markup = data;

        tkz->entity_start = (tkz->pos - 1) - tkz->start;


        lxb_html_tokenizer_state_append_m(tkz, data, 1);


        tkz->state = lxb_html_tokenizer_state_char_ref_numeric;


        return (data + 1);

    }

    else {

        tkz->state = tkz->state_return;

    }


    return data;

}


/*

 * 12.2.5.73 Named character reference state

 *

 * The slowest part in HTML parsing!!!

 *

 * This option works correctly and passes all tests (stream parsing too).

 * We must seriously think about how to accelerate this part.

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_named(lxb_html_tokenizer_t *tkz,

                                        const lxb_char_t *data,

                                        const lxb_char_t *end)

{

    size_t size, tail_size;

    lxb_char_t *start;

    const lexbor_sbst_entry_static_t *entry = tkz->entity;


    const lxb_char_t *begin = data;


    while (data < end) {

        entry = lexbor_sbst_entry_static_find(lxb_html_tokenizer_res_entities_sbst,

                                              entry, *data);

        if (entry == NULL) {

            lxb_html_tokenizer_state_append_m(tkz, begin, (data - begin));

            goto done;

        }


        if (entry->value[0] != 0) {

            tkz->entity_end = (tkz->pos + (data - begin)) - tkz->start;

            tkz->entity_match = entry;

        }


        entry = &lxb_html_tokenizer_res_entities_sbst[ entry->next ];


        data++;

    }


    /* If entry not NULL and buffer empty, then wait next buffer. */

    tkz->entity = entry;


    lxb_html_tokenizer_state_append_m(tkz, begin, (end - begin));

    return data;


done:


    /* If we have bad entity */

    if (tkz->entity_match == NULL) {

        tkz->state = lxb_html_tokenizer_state_char_ref_ambiguous_ampersand;


        return data;

    }


    tkz->state = tkz->state_return;


    /*

     * If the character reference was consumed as part of an attribute,

     * and the last character matched is not a U+003B SEMICOLON character (;),

     * and the next input character is either a U+003D EQUALS SIGN character (=)

     * or an ASCII alphanumeric, then, for historical reasons,

     * flush code points consumed as a character reference

     * and switch to the return state.

     */

    /* U+003B SEMICOLON character (;) */

    if (tkz->is_attribute && tkz->entity_match->key != 0x3B) {

        /* U+003D EQUALS SIGN character (=) or ASCII alphanumeric */

        if (*data == 0x3D

            || lexbor_str_res_alphanumeric_character[*data] != LEXBOR_STR_RES_SLIP)

        {

            return data;

        }

    }


    if (tkz->entity_match->key != 0x3B) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_MISEAFCHRE);

    }


    start = &tkz->start[tkz->entity_start];


    size = tkz->pos - start;

    tail_size = tkz->pos - &tkz->start[tkz->entity_end] - 1;


    if (tail_size != 0) {

        if ((size + tail_size) + start > tkz->end) {

            if (lxb_html_tokenizer_temp_realloc(tkz, size) != LXB_STATUS_OK) {

                return end;

            }

            start = &tkz->start[tkz->entity_start];

        }


        memmove(start + tkz->entity_match->value_len,

                tkz->pos - tail_size, tail_size);

    }


    memcpy(start, tkz->entity_match->value, tkz->entity_match->value_len);


    tkz->pos = start + (tkz->entity_match->value_len + tail_size);


    return data;

}


/*

 * 12.2.5.74 Ambiguous ampersand state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_ambiguous_ampersand(lxb_html_tokenizer_t *tkz,

                                                      const lxb_char_t *data,

                                                      const lxb_char_t *end)

{

    /* ASCII alphanumeric */

    /* Skipped, not need */


    /* U+003B SEMICOLON (;) */

    if (*data == 0x3B) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_UNNACHRE);

    }


    tkz->state = tkz->state_return;


    return data;

}


/*

 * 12.2.5.75 Numeric character reference state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_numeric(lxb_html_tokenizer_t *tkz,

                                          const lxb_char_t *data,

                                          const lxb_char_t *end)

{

    tkz->entity_number = 0;


    /*

     * U+0078 LATIN SMALL LETTER X

     * U+0058 LATIN CAPITAL LETTER X

     */

    if (*data == 0x78 || *data == 0x58) {

        lxb_html_tokenizer_state_append_m(tkz, data, 1);


        tkz->state = lxb_html_tokenizer_state_char_ref_hexademical_start;


        return (data + 1);

    }


    tkz->state = lxb_html_tokenizer_state_char_ref_decimal_start;


    return data;

}


/*

 * 12.2.5.76 Hexademical character reference start state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_hexademical_start(lxb_html_tokenizer_t *tkz,

                                                    const lxb_char_t *data,

                                                    const lxb_char_t *end)

{

    /* ASCII hex digit */

    if (lexbor_str_res_map_hex[ *data ] != LEXBOR_STR_RES_SLIP) {

        tkz->state = lxb_html_tokenizer_state_char_ref_hexademical;

    }

    else {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_ABOFDIINNUCHRE);


        tkz->state = tkz->state_return;

    }


    return data;

}


/*

 * 12.2.5.77 Decimal character reference start state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_decimal_start(lxb_html_tokenizer_t *tkz,

                                                const lxb_char_t *data,

                                                const lxb_char_t *end)

{

    /* ASCII digit */

    if (lexbor_str_res_map_num[ *data ] != LEXBOR_STR_RES_SLIP) {

        tkz->state = lxb_html_tokenizer_state_char_ref_decimal;

    }

    else {

        lxb_html_tokenizer_error_add(tkz->parse_errors, data,

                                     LXB_HTML_TOKENIZER_ERROR_ABOFDIINNUCHRE);


        tkz->state = tkz->state_return;

    }


    return data;

}


/*

 * 12.2.5.78 Hexademical character reference state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_hexademical(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end)

{

    while (data != end) {

        if (lexbor_str_res_map_hex[ *data ] == LEXBOR_STR_RES_SLIP) {

            tkz->state = tkz->state_return;


            if (*data == ';') {

                data++;

            }


            return lxb_html_tokenizer_state_char_ref_numeric_end(tkz, data, end);

        }


        if (tkz->entity_number <= 0x10FFFF) {

            tkz->entity_number <<= 4;

            tkz->entity_number |= lexbor_str_res_map_hex[ *data ];

        }


        data++;

    }


    return data;

}


/*

 * 12.2.5.79 Decimal character reference state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_decimal(lxb_html_tokenizer_t *tkz,

                                          const lxb_char_t *data,

                                          const lxb_char_t *end)

{

    while (data != end) {

        if (lexbor_str_res_map_num[ *data ] == LEXBOR_STR_RES_SLIP) {

            tkz->state = tkz->state_return;


            if (*data == ';') {

                data++;

            }


            return lxb_html_tokenizer_state_char_ref_numeric_end(tkz, data, end);

        }


        if (tkz->entity_number <= 0x10FFFF) {

            tkz->entity_number = lexbor_str_res_map_num[ *data ]

                                 + tkz->entity_number * 10;

        }


        data++;

    }


    return data;

}


/*

 * 12.2.5.80 Numeric character reference end state

 */

static const lxb_char_t *

lxb_html_tokenizer_state_char_ref_numeric_end(lxb_html_tokenizer_t *tkz,

                                              const lxb_char_t *data,

                                              const lxb_char_t *end)

{

    lxb_char_t *start = &tkz->start[tkz->entity_start];


    if ((start + 4) > tkz->end) {

        if(lxb_html_tokenizer_temp_realloc(tkz, 4)) {

            return end;

        }


        start = &tkz->start[tkz->entity_start];

    }


    if (tkz->entity_number == 0x00) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                     LXB_HTML_TOKENIZER_ERROR_NUCHRE);


        goto xFFFD;

    }

    else if (tkz->entity_number > 0x10FFFF) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                     LXB_HTML_TOKENIZER_ERROR_CHREOUUNRA);


        goto xFFFD;

    }

    else if (tkz->entity_number >= 0xD800 && tkz->entity_number <= 0xDFFF) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                     LXB_HTML_TOKENIZER_ERROR_SUCHRE);


        goto xFFFD;

    }

    else if (tkz->entity_number >= 0xFDD0 && tkz->entity_number <= 0xFDEF) {

        lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                     LXB_HTML_TOKENIZER_ERROR_NOCHRE);

    }


    switch (tkz->entity_number) {

        case 0xFFFE:  case 0xFFFF:  case 0x1FFFE: case 0x1FFFF: case 0x2FFFE:

        case 0x2FFFF: case 0x3FFFE: case 0x3FFFF: case 0x4FFFE: case 0x4FFFF:

        case 0x5FFFE: case 0x5FFFF: case 0x6FFFE: case 0x6FFFF: case 0x7FFFE:

        case 0x7FFFF: case 0x8FFFE: case 0x8FFFF: case 0x9FFFE: case 0x9FFFF:

        case 0xAFFFE: case 0xAFFFF: case 0xBFFFE: case 0xBFFFF: case 0xCFFFE:

        case 0xCFFFF: case 0xDFFFE: case 0xDFFFF: case 0xEFFFE: case 0xEFFFF:

        case 0xFFFFE: case 0xFFFFF:

        case 0x10FFFE:

        case 0x10FFFF:

            lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                         LXB_HTML_TOKENIZER_ERROR_NOCHRE);

            break;


        default:

            break;

    }


    if ((tkz->entity_number <= 0x1F

         && tkz->entity_number != 0x09  /* TAB */

         && tkz->entity_number != 0x0A  /* LINE FEED (LF) */

         && tkz->entity_number != 0x0C  /* FORM FEED (FF) */

         && tkz->entity_number != 0x20) /* SPACE */

        || (tkz->entity_number >= 0x7F && tkz->entity_number <= 0x9F))

    {

        lxb_html_tokenizer_error_add(tkz->parse_errors, tkz->markup,

                                     LXB_HTML_TOKENIZER_ERROR_COCHRE);

    }


    if (tkz->entity_number <= 0x9F) {

        tkz->entity_number = (uint32_t) lexbor_str_res_replacement_character[tkz->entity_number];

    }


    start += lxb_html_tokenizer_state_to_ascii_utf_8(tkz->entity_number, start);


    tkz->pos = start;


    return data;


xFFFD:


    memcpy(start, lexbor_str_res_ansi_replacement_character,

           sizeof(lexbor_str_res_ansi_replacement_character) - 1);


    tkz->pos = start + sizeof(lexbor_str_res_ansi_replacement_character) - 1;


    return data;

}


static size_t

lxb_html_tokenizer_state_to_ascii_utf_8(size_t codepoint, lxb_char_t *data)

{

    /* 0x80 -- 10xxxxxx */

    /* 0xC0 -- 110xxxxx */

    /* 0xE0 -- 1110xxxx */

    /* 0xF0 -- 11110xxx */


    if (codepoint <= 0x0000007F) {

        /* 0xxxxxxx */

        data[0] = (char) codepoint;


        return 1;

    }

    else if (codepoint <= 0x000007FF) {

        /* 110xxxxx 10xxxxxx */

        data[0] = (char) (0xC0 | (codepoint >> 6  ));

        data[1] = (char) (0x80 | (codepoint & 0x3F));


        return 2;

    }

    else if (codepoint <= 0x0000FFFF) {

        /* 1110xxxx 10xxxxxx 10xxxxxx */

        data[0] = (char) (0xE0 | ((codepoint >> 12)));

        data[1] = (char) (0x80 | ((codepoint >> 6 ) & 0x3F));

        data[2] = (char) (0x80 | ( codepoint & 0x3F));


        return 3;

    }

    else if (codepoint <= 0x001FFFFF) {

        /* 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx */

        data[0] = (char) (0xF0 | ( codepoint >> 18));

        data[1] = (char) (0x80 | ((codepoint >> 12) & 0x3F));

        data[2] = (char) (0x80 | ((codepoint >> 6 ) & 0x3F));

        data[3] = (char) (0x80 | ( codepoint & 0x3F));


        return 4;

    }


    return 0;

}

LXB_STATUS_OK
@ LXB_STATUS_OK
Definition base.h:49

LXB_STATUS_ERROR_OVERFLOW
@ LXB_STATUS_ERROR_OVERFLOW
Definition base.h:62

lxb_html_tokenizer_current_namespace
lxb_ns_id_t lxb_html_tokenizer_current_namespace(lxb_html_tokenizer_t *tkz)
Definition tokenizer.c:389

begin
int begin
Definition eaw_table.h:20

size
new_type size
Definition ffi.c:4365

memcpy
memcpy(ptr1, ptr2, size)

attr
new_type attr
Definition ffi.c:4364

start
buf start
Definition ffi.c:4687

SIZE_MAX
#define SIZE_MAX
Definition funcs.c:51

NULL
#define NULL
Definition gdcache.h:45

lexbor_hash_t
struct lexbor_hash lexbor_hash_t
Definition hash.h:41

hash
hash(string $algo, string $data, bool $binary=false, array $options=[])
Definition hash.stub.php:12

lxb_html_tokenizer_t
struct lxb_html_tokenizer lxb_html_tokenizer_t
Definition base.h:26

LXB_HTML_TOKEN_TYPE_CLOSE
@ LXB_HTML_TOKEN_TYPE_CLOSE
Definition token.h:27

LXB_HTML_TOKEN_TYPE_CLOSE_SELF
@ LXB_HTML_TOKEN_TYPE_CLOSE_SELF
Definition token.h:28

lxb_html_tokenizer_error_add
lxb_html_tokenizer_error_t * lxb_html_tokenizer_error_add(lexbor_array_obj_t *parse_errors, const lxb_char_t *pos, lxb_html_tokenizer_error_id_t id)
Definition error.c:11

LXB_HTML_TOKENIZER_ERROR_UNCHINUNATVA
@ LXB_HTML_TOKENIZER_ERROR_UNCHINUNATVA
Definition error.h:108

LXB_HTML_TOKENIZER_ERROR_MIATVA
@ LXB_HTML_TOKENIZER_ERROR_MIATVA
Definition error.h:64

LXB_HTML_TOKENIZER_ERROR_UNNACHRE
@ LXB_HTML_TOKENIZER_ERROR_UNNACHRE
Definition error.h:118

LXB_HTML_TOKENIZER_ERROR_UNEQSIBEATNA
@ LXB_HTML_TOKENIZER_ERROR_UNEQSIBEATNA
Definition error.h:110

LXB_HTML_TOKENIZER_ERROR_SUCHRE
@ LXB_HTML_TOKENIZER_ERROR_SUCHRE
Definition error.h:100

LXB_HTML_TOKENIZER_ERROR_COCHRE
@ LXB_HTML_TOKENIZER_ERROR_COCHRE
Definition error.h:36

LXB_HTML_TOKENIZER_ERROR_MISEAFCHRE
@ LXB_HTML_TOKENIZER_ERROR_MISEAFCHRE
Definition error.h:78

LXB_HTML_TOKENIZER_ERROR_UNCHINATNA
@ LXB_HTML_TOKENIZER_ERROR_UNCHINATNA
Definition error.h:106

LXB_HTML_TOKENIZER_ERROR_EOINTA
@ LXB_HTML_TOKENIZER_ERROR_EOINTA
Definition error.h:54

LXB_HTML_TOKENIZER_ERROR_UNNUCH
@ LXB_HTML_TOKENIZER_ERROR_UNNUCH
Definition error.h:112

LXB_HTML_TOKENIZER_ERROR_INFICHOFTANA
@ LXB_HTML_TOKENIZER_ERROR_INFICHOFTANA
Definition error.h:62

LXB_HTML_TOKENIZER_ERROR_ABOFDIINNUCHRE
@ LXB_HTML_TOKENIZER_ERROR_ABOFDIINNUCHRE
Definition error.h:28

LXB_HTML_TOKENIZER_ERROR_INOPCO
@ LXB_HTML_TOKENIZER_ERROR_INOPCO
Definition error.h:58

LXB_HTML_TOKENIZER_ERROR_MIENTANA
@ LXB_HTML_TOKENIZER_ERROR_MIENTANA
Definition error.h:72

LXB_HTML_TOKENIZER_ERROR_EOBETANA
@ LXB_HTML_TOKENIZER_ERROR_EOBETANA
Definition error.h:44

LXB_HTML_TOKENIZER_ERROR_CHREOUUNRA
@ LXB_HTML_TOKENIZER_ERROR_CHREOUUNRA
Definition error.h:32

LXB_HTML_TOKENIZER_ERROR_MIWHBEAT
@ LXB_HTML_TOKENIZER_ERROR_MIWHBEAT
Definition error.h:86

LXB_HTML_TOKENIZER_ERROR_EOINCD
@ LXB_HTML_TOKENIZER_ERROR_EOINCD
Definition error.h:46

LXB_HTML_TOKENIZER_ERROR_UNSOINTA
@ LXB_HTML_TOKENIZER_ERROR_UNSOINTA
Definition error.h:116

LXB_HTML_TOKENIZER_ERROR_NOCHRE
@ LXB_HTML_TOKENIZER_ERROR_NOCHRE
Definition error.h:92

LXB_HTML_TOKENIZER_ERROR_UNQUMAINOFTANA
@ LXB_HTML_TOKENIZER_ERROR_UNQUMAINOFTANA
Definition error.h:114

LXB_HTML_TOKENIZER_ERROR_NUCHRE
@ LXB_HTML_TOKENIZER_ERROR_NUCHRE
Definition error.h:98

res.h

lxb_html_tokenizer_state_before_attribute_name
const lxb_char_t * lxb_html_tokenizer_state_before_attribute_name(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:617

lxb_html_tokenizer_state_plaintext_before
const lxb_char_t * lxb_html_tokenizer_state_plaintext_before(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:321

lxb_dom_attr_local_name_append
lxb_dom_attr_data_t * lxb_dom_attr_local_name_append(lexbor_hash_t *hash, const lxb_char_t *name, size_t length)
Definition attr.c:358

lxb_html_tokenizer_state_char_ref
const lxb_char_t * lxb_html_tokenizer_state_char_ref(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:1745

lxb_html_tokenizer_state_data_before
const lxb_char_t * lxb_html_tokenizer_state_data_before(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:204

lxb_html_tokenizer_state_cr
const lxb_char_t * lxb_html_tokenizer_state_cr(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:1257

lxb_tag_append_lower
const lxb_tag_data_t * lxb_tag_append_lower(lexbor_hash_t *hash, const lxb_char_t *name, size_t length)
Definition tag.c:41

lxb_html_tokenizer_state_self_closing_start_tag
const lxb_char_t * lxb_html_tokenizer_state_self_closing_start_tag(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state.c:1275

state.h

lxb_html_tokenizer_state_token_attr_set_value_end
#define lxb_html_tokenizer_state_token_attr_set_value_end(tkz, v_end)
Definition state.h:141

lxb_html_tokenizer_state_token_attr_add_m
#define lxb_html_tokenizer_state_token_attr_add_m(tkz, attr, v_return)
Definition state.h:111

lxb_html_tokenizer_state_token_attr_set_name_end_oef
#define lxb_html_tokenizer_state_token_attr_set_name_end_oef(tkz)
Definition state.h:131

lxb_html_tokenizer_state_token_attr_set_value_end_oef
#define lxb_html_tokenizer_state_token_attr_set_value_end_oef(tkz)
Definition state.h:144

lxb_html_tokenizer_state_append_data_m
#define lxb_html_tokenizer_state_append_data_m(tkz, v_data)
Definition state.h:19

lxb_html_tokenizer_state_token_attr_set_name_begin
#define lxb_html_tokenizer_state_token_attr_set_name_begin(tkz, v_begin)
Definition state.h:121

lxb_html_tokenizer_state_set_text
#define lxb_html_tokenizer_state_set_text(tkz)
Definition state.h:174

lxb_html_tokenizer_state_token_set_begin
#define lxb_html_tokenizer_state_token_set_begin(tkz, v_begin)
Definition state.h:89

lxb_html_tokenizer_state_append_replace_m
#define lxb_html_tokenizer_state_append_replace_m(tkz)
Definition state.h:37

lxb_html_tokenizer_state_set_name_m
#define lxb_html_tokenizer_state_set_name_m(tkz)
Definition state.h:60

lxb_html_tokenizer_state_token_done_m
#define lxb_html_tokenizer_state_token_done_m(tkz, v_end)
Definition state.h:157

lxb_html_tokenizer_state_token_attr_set_name_end
#define lxb_html_tokenizer_state_token_attr_set_name_end(tkz, v_end)
Definition state.h:128

lxb_html_tokenizer_state_set_tag_m
#define lxb_html_tokenizer_state_set_tag_m(tkz, _start, _end)
Definition state.h:48

lxb_html_tokenizer_state_token_set_end
#define lxb_html_tokenizer_state_token_set_end(tkz, v_end)
Definition state.h:98

lxb_html_tokenizer_state_token_set_end_oef
#define lxb_html_tokenizer_state_token_set_end_oef(tkz)
Definition state.h:108

lxb_html_tokenizer_state_token_attr_set_value_begin
#define lxb_html_tokenizer_state_token_attr_set_value_begin(tkz, v_begin)
Definition state.h:134

lxb_html_tokenizer_state_token_done_wo_check_m
#define lxb_html_tokenizer_state_token_done_wo_check_m(tkz, v_end)
Definition state.h:167

lxb_html_tokenizer_state_token_emit_text_not_empty_m
#define lxb_html_tokenizer_state_token_emit_text_not_empty_m(tkz, v_end)
Definition state.h:181

lxb_html_tokenizer_state_begin_set
#define lxb_html_tokenizer_state_begin_set(tkz, v_data)
Definition state.h:16

lxb_html_tokenizer_state_set_value_m
#define lxb_html_tokenizer_state_set_value_m(tkz)
Definition state.h:73

lxb_html_tokenizer_state_append_m
#define lxb_html_tokenizer_state_append_m(tkz, v_data, size)
Definition state.h:27

lxb_html_tokenizer_temp_realloc
lxb_inline lxb_status_t lxb_html_tokenizer_temp_realloc(lxb_html_tokenizer_t *tkz, size_t size)
Definition tokenizer.h:254

lxb_ns_id_t
uintptr_t lxb_ns_id_t
Definition const.h:20

LXB_NS__UNDEF
@ LXB_NS__UNDEF
Definition const.h:24

LXB_NS_HTML
@ LXB_NS_HTML
Definition const.h:26

memmove
#define memmove(a, b, c)
Definition pcre2_internal.h:216

end
unsigned const char * end
Definition php_ffi.h:51

pos
unsigned const char * pos
Definition php_ffi.h:52

data
zend_constant * data
Definition phpdbg_info.c:102

lexbor_sbst_entry_static_find
lxb_inline const lexbor_sbst_entry_static_t * lexbor_sbst_entry_static_find(const lexbor_sbst_entry_static_t *strt, const lexbor_sbst_entry_static_t *root, const lxb_char_t key)
Definition sbst.h:36

lxb_html_tokenizer_state_comment_before_start
const lxb_char_t * lxb_html_tokenizer_state_comment_before_start(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state_comment.c:71

state_comment.h

lxb_html_tokenizer_state_doctype_before
const lxb_char_t * lxb_html_tokenizer_state_doctype_before(lxb_html_tokenizer_t *tkz, const lxb_char_t *data, const lxb_char_t *end)
Definition state_doctype.c:124

state_doctype.h

lexbor_str_data_ncasecmp
bool lexbor_str_data_ncasecmp(const lxb_char_t *first, const lxb_char_t *sec, size_t size)
Definition str.c:435

lexbor_str_data_ncasecmp_first
const lxb_char_t * lexbor_str_data_ncasecmp_first(const lxb_char_t *first, const lxb_char_t *sec, size_t sec_size)
Definition str.c:384

lexbor_str_data_ncmp
bool lexbor_str_data_ncmp(const lxb_char_t *first, const lxb_char_t *sec, size_t size)
Definition str.c:523

str_res.h

LEXBOR_STR_RES_SLIP
#define LEXBOR_STR_RES_SLIP
Definition str_res.h:14

lexbor_sbst_entry_static_t
Definition sbst.h:19

lexbor_sbst_entry_static_t::key
lxb_char_t key
Definition sbst.h:20

lexbor_sbst_entry_static_t::next
unsigned short next
Definition sbst.h:27

lexbor_sbst_entry_static_t::value
lxb_char_t value[6]
Definition sbst.h:22

lexbor_sbst_entry_static_t::value_len
unsigned char value_len
Definition sbst.h:23

lxb_dom_attr_data_t
Definition attr.h:25

lxb_html_token_attr::value_begin
const lxb_char_t * value_begin
Definition token_attr.h:35

lxb_html_token_t::end
const lxb_char_t * end
Definition token.h:35

lxb_html_token_t::type
lxb_html_token_type_t type
Definition token.h:49

lxb_html_token_t::null_count
size_t null_count
Definition token.h:47

lxb_html_token_t::tag_id
lxb_tag_id_t tag_id
Definition token.h:48

lxb_html_token_t::attr_last
lxb_html_token_attr_t * attr_last
Definition token.h:43

lxb_html_token_t::begin
const lxb_char_t * begin
Definition token.h:34

lxb_html_tokenizer::token
lxb_html_token_t * token
Definition tokenizer.h:49

lxb_html_tokenizer::markup
const lxb_char_t * markup
Definition tokenizer.h:67

lxb_html_tokenizer::entity_start
uintptr_t entity_start
Definition tokenizer.h:82

lxb_html_tokenizer::pos
lxb_char_t * pos
Definition tokenizer.h:72

lxb_html_tokenizer::state_return
lxb_html_tokenizer_state_f state_return
Definition tokenizer.h:36

lxb_html_tokenizer::entity
const lexbor_sbst_entry_static_t * entity
Definition tokenizer.h:80

lxb_html_tokenizer::state
lxb_html_tokenizer_state_f state
Definition tokenizer.h:35

lxb_html_tokenizer::is_attribute
bool is_attribute
Definition tokenizer.h:86

lxb_html_tokenizer::entity_number
uint32_t entity_number
Definition tokenizer.h:85

lxb_html_tokenizer::parse_errors
lexbor_array_obj_t * parse_errors
Definition tokenizer.h:56

lxb_html_tokenizer::entity_end
uintptr_t entity_end
Definition tokenizer.h:83

lxb_html_tokenizer::status
lxb_status_t status
Definition tokenizer.h:90

lxb_html_tokenizer::start
lxb_char_t * start
Definition tokenizer.h:71

lxb_html_tokenizer::is_eof
bool is_eof
Definition tokenizer.h:91

lxb_html_tokenizer::end
const lxb_char_t * end
Definition tokenizer.h:73

lxb_html_tokenizer::entity_match
const lexbor_sbst_entry_static_t * entity_match
Definition tokenizer.h:81

lxb_html_tokenizer::last
const lxb_char_t * last
Definition tokenizer.h:75

lxb_tag_data_t
Definition tag.h:22

swar.h

lexbor_swar_seek4
lxb_inline const lxb_char_t * lexbor_swar_seek4(const lxb_char_t *data, const lxb_char_t *end, lxb_char_t c1, lxb_char_t c2, lxb_char_t c3, lxb_char_t c4)
Definition swar.h:33

LXB_TAG__EM_COMMENT
@ LXB_TAG__EM_COMMENT
Definition const.h:28

LXB_TAG__TEXT
@ LXB_TAG__TEXT
Definition const.h:26

lxb_html_token_attr_t
struct lxb_html_token_attr lxb_html_token_attr_t
Definition token_attr.h:22

lxb_char_t
unsigned char lxb_char_t
Definition types.h:27

name
zend_string * name
Definition zend_vm_def.h:2429