metadata: add "structured" field parsing

This CL adds a "structured" concept to the parser. In a structured field, the parser will proactively look for field-like patterns to start a new field (even if they aren't known fields). This mitigates the issue when an unknown field immediately follows a multi-line text field, such as: URL: https://example.com UnknownField: abc And URL field value parses to "https://example.com<newline>UnknownField:abc". Bug: b/324149233 Change-Id: I54807bd7b242fc14c679483453ade83f8fd20225 Reviewed-on: https://chromium-review.googlesource.com/c/chromium/tools/depot_tools/+/5379679 Reviewed-by: Anne Redulla <aredulla@google.com> Commit-Queue: Jiewei Qian <qjw@chromium.org>
2 years ago · d76c4d6045
parent 2508c6f716
commit d76c4d6045
5 changed files with 47 additions and 5 deletions
--- a/metadata/fields/field_types.py
+++ b/metadata/fields/field_types.py
@ -33,9 +33,13 @@ class MetadataField:
    # The delimiter used to separate multiple values.
    VALUE_DELIMITER = ","
-    def __init__(self, name: str, one_liner: bool = True):
+    def __init__(self,
                 name: str,
                 one_liner: bool = True,
                 structured: bool = True):
        self._name = name
        self._one_liner = one_liner
        self._structured = structured
    def __eq__(self, other):
        if not isinstance(other, MetadataField):
@ -52,6 +56,17 @@ class MetadataField:
    def is_one_liner(self):
        return self._one_liner
    def is_structured(self):
        """Whether the field represents structured data, such as a list of
        URLs.
        If true, parser will treat `Field Name Like Pattern:` in subsequent
        lines as a new field, in addition to all known field names.
        If false, parser will only recognize known field names, and unknown
        fields will be merged into the preceding field value.
        """
        return self._structured
    def validate(self, value: str) -> Union[vr.ValidationResult, None]:
        """Checks the given value is acceptable for the field.
--- a/metadata/fields/known.py
+++ b/metadata/fields/known.py
@ -26,9 +26,12 @@ import metadata.fields.field_types as field_types
 NAME = field_types.FreeformTextField("Name")
 SHORT_NAME = field_types.FreeformTextField("Short Name")
 REVISION = field_types.FreeformTextField("Revision")
-DESCRIPTION = field_types.FreeformTextField("Description", one_liner=False)
+DESCRIPTION = field_types.FreeformTextField("Description",
                                            one_liner=False,
                                            structured=False)
 LOCAL_MODIFICATIONS = field_types.FreeformTextField("Local Modifications",
-                                                    one_liner=False)
+                                                    one_liner=False,
                                                    structured=False)
 # Yes/no fields.
 SECURITY_CRITICAL = field_types.YesNoField("Security Critical")
--- a/metadata/parse.py
+++ b/metadata/parse.py
@ -24,9 +24,16 @@ DEPENDENCY_DIVIDER = re.compile(r"^-{20} DEPENDENCY DIVIDER -{20}$")
 # Delimiter used to separate a field's name from its value.
 FIELD_DELIMITER = ":"
 # Heuristic for detecting unknown field names.
 _PATTERN_FIELD_NAME_WORD_HEURISTIC = r"[A-Z]\w+"
 _PATTERN_FIELD_NAME_HEURISTIC = re.compile(r"^({}(?: {})*){}[\b\s]".format(
    _PATTERN_FIELD_NAME_WORD_HEURISTIC, _PATTERN_FIELD_NAME_WORD_HEURISTIC,
    FIELD_DELIMITER))
 _DEFAULT_TO_STRUCTURED_TEXT = False
 # Pattern used to check if a line from a metadata file declares a new
 # field.
-_PATTERN_FIELD_DECLARATION = re.compile(
+_PATTERN_KNOWN_FIELD_DECLARATION = re.compile(
    "^({}){}".format("|".join(known_fields.ALL_FIELD_NAMES), FIELD_DELIMITER),
    re.IGNORECASE)
@ -44,6 +51,7 @@ def parse_content(content: str) -> List[dm.DependencyMetadata]:
    current_metadata = dm.DependencyMetadata()
    current_field_name = None
    current_field_value = ""
    current_field_is_structured = _DEFAULT_TO_STRUCTURED_TEXT
    for line in content.splitlines(keepends=True):
        # Check if a new dependency is being described.
        if DEPENDENCY_DIVIDER.match(line):
@ -59,8 +67,11 @@ def parse_content(content: str) -> List[dm.DependencyMetadata]:
            current_metadata = dm.DependencyMetadata()
            current_field_name = None
            current_field_value = ""
            current_field_is_structured = False
-        elif _PATTERN_FIELD_DECLARATION.match(line):
+        elif (_PATTERN_KNOWN_FIELD_DECLARATION.match(line)
              or (current_field_is_structured
                  and _PATTERN_FIELD_NAME_HEURISTIC.match(line))):
            # Save the field value to the current dependency's metadata.
            if current_field_name:
                current_metadata.add_entry(current_field_name,
@ -69,6 +80,11 @@ def parse_content(content: str) -> List[dm.DependencyMetadata]:
            current_field_name, current_field_value = line.split(
                FIELD_DELIMITER, 1)
            field = known_fields.get_field(current_field_name)
            # Treats unknown fields as `_DEFAULT_TO_STRUCTURED_TEXT`.
            current_field_is_structured = field.is_structured(
            ) if field else _DEFAULT_TO_STRUCTURED_TEXT
            if field and field.is_one_liner():
                # The field should be on one line, so add it now.
                current_metadata.add_entry(current_field_name,
--- a/metadata/tests/data/README.chromium.test.single-valid
+++ b/metadata/tests/data/README.chromium.test.single-valid
@ -2,6 +2,9 @@ Name: Test-A README for Chromium metadata
 Short Name: metadata-test-valid
 URL: https://www.example.com/metadata,
     https://www.example.com/parser
 Unknown Field: Should be extracted into a field, because the preceding URL
               field is structured, thus terminated by another field-like
               line, even if the field name isn't well known to us.
 Version: 1.0.12
 Date: 2020-12-03
 License: Apache, 2.0 and MIT
--- a/metadata/tests/parse_test.py
+++ b/metadata/tests/parse_test.py
@ -34,6 +34,11 @@ class ParseTest(unittest.TestCase):
                ("Short Name", "metadata-test-valid"),
                ("URL", "https://www.example.com/metadata,\n"
                 "     https://www.example.com/parser"),
                ("Unknown Field",
                 "Should be extracted into a field, because the preceding URL\n"
                 "               field is structured, thus terminated by another field-like\n"
                 "               line, even if the field name isn't well known to us."
                 ),
                ("Version", "1.0.12"),
                ("Date", "2020-12-03"),
                ("License", "Apache, 2.0 and MIT"),